54
Estatística Experimental
IFTO
25
Estatística Experimental
IFTO
20
Estatística Experimental
IFTO
8
Estatística Experimental
IFTO
Texto de pré-visualização
Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 59 59 3 MEDIDAS DE TENDÊNCIA CENTRAL E DE VARIABILIDADE DE DADOS Na pesquisa agropecuária os pesquisadores utilizam a Estatística Experimental para obter analisar e interpretar dados experimentais obtidos de experimentos visando à elucidação de princípios biológicos bem como a solução de problemas agropecuários Na elucidação de tais princípios e na solução de tais problemas o pesquisador define quais as características que irá utilizar para avaliar os tratamentos de modo que possa atingir os objetivos da pesquisa Por exemplo na avaliação de variedades de milho e na avaliação de raças bovinas de leite o pesquisador pode definir as seguintes características resistência à lagarta do cartucho período de maturação da espiga e rendimento de grãos kgha no caso do milho e resistência a carrapato consumo alimentar e rendimento de leite kgdia no caso de bovino de leite para avaliar seus tratamentos Cada característica é medida nas parcelas e é denominada de variável Uma variável pode ser discreta ou contínua Variável discreta é aquela que somente pode ter certos valores da amplitude de variação ou seja valores inteiros que se originam de contagens Por exemplo número de plantas doentes por parcela número de sementes por fruto número de ovos por galinha em determinado período número de carrapatos por cavalo etc Variável contínua é aquela que pode assumir qualquer valor dentro da amplitude de variação ou seja valores decimais que se originam de medições Altura e rendimento de grãos de plantas de milho peso e produção de leite de vacas leiteiras são exemplos desse tipo de variável No linguajar estatístico uma população é um conjunto de medições de uma única variável efetuadas sobre todos os indivíduos pertencentes a uma classe No nosso caso por exemplo o rendimento de grãos kgha de todos os campos de milho no Brasil cultivados com a variedade CENTRALMEX constituiu uma população Da mesma forma o rendimento de leite kgdia de todas as vacas holandesas criadas no Estado de Alagoas constitui uma população As medições individuais de uma variável recebem o nome de elemento Uma amostra é um conjunto de medições que constitui parte de uma população A partir da amostra obtêmse informações e fazemse inferências acerca da população Por esta razão é importante que a amostra seja representativa da população As populações são descritas mediante características denominadas parâmetros Os parâmetros são valores fixos por exemplo a média aritmética de todos os elementos de uma população é um parâmetro As amostras são descritas pelas mesmas características mas recebem a denominação de estatístico A média de uma amostra é um estatístico Calculamse os estatísticos das amostras para estimaremse os parâmetros da população Obviamente os estatísticos variam de amostra para amostra enquanto que os parâmetros têm apenas um valor Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 60 60 31 Organização de Dados Diferentes valores de uma variável apresentam distintas freqüências de incidência em sua população Para caracterizar convenientemente uma população os dados provenientes de uma amostra grande como por exemplo os dados brutos de altura de planta cm de sorgo granífero da TABELA 31 e os dados brutos de peso corporal g de um lote misto de frangos de corte com 15 dias de idade da TABELA 32 são organizados mediante a construção de uma tabela de freqüência um histograma de freqüência ou um polígono de freqüência TABELA 31 DADOS BRUTOS DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO 9060 7930 9590 7535 9910 4600 8790 8760 7830 7980 10480 6800 7492 8675 9378 7550 5713 8418 10080 9980 6590 7465 9540 5865 9420 7180 8500 7370 8160 6620 8480 8250 8130 10690 6420 4820 6390 7645 5950 8390 8080 11000 7920 6870 8260 7030 8130 7751 6870 8910 7760 9379 10800 8200 7435 8970 9845 7175 5510 5620 7410 6450 9080 7888 7580 7861 8816 8800 5580 7135 6030 7180 7015 7920 7990 9680 7565 7305 7867 7910 7310 6990 7400 7560 8500 6700 7650 6405 7130 5240 TABELA 32 DADOS BRUTOS DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE 4856 4820 4767 4738 4828 4955 4821 4785 4848 5220 4590 4983 4707 4795 4690 4729 4689 4391 4902 4991 4644 4180 4626 5028 4550 4820 4429 4603 4490 4992 4828 4818 5016 4689 4524 4700 4631 5278 5068 4948 5038 4886 4690 4873 4528 4690 5020 4695 4444 4847 4590 4387 5300 4991 4429 4603 4889 4942 4295 4620 5016 4689 5074 4847 4991 4718 5008 4840 5068 4819 4757 5278 4563 4816 4278 4864 4694 4665 4592 4730 4369 4532 4842 4742 4769 4789 4880 5071 4517 4850 4605 4543 4759 4673 4672 4669 4691 4871 4531 4659 4682 4532 4397 4369 5075 4872 4694 4597 4779 4582 5028 4895 4580 4774 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 61 61 4753 4779 4690 4993 4529 4772 311 Tabela de freqüência A tabela de freqüência proporciona ao pesquisador um meio eficaz de organização dos dados para estudo do comportamento de variáveis de interesse Na construção de uma tabela dessa natureza devemse levar em conta certas considerações importantes a O intervalo de classe será de amplitude uniforme e de tamanho que se manifestem as linhas características da distribuição Assim o intervalo de classe não deve ser tão grande para não se cometer um erro considerável ao supor que o ponto médio do intervalo é o valor médio da classe Não deve ser tão pequeno para não aparecerem demasiadas classes com freqüência zero ou muito pequenas b Se possível é conveniente fazer com que o ponto médio da classe seja um número inteiro c As freqüências das classes podem ser absoluta relativa ou relativa acumulada Cabe ao pesquisador escolher a que mais lhe convier A freqüência absoluta da uma classe corresponde a quantidade de valores de uma determinada variável que pertence a referida classe Esse tipo de freqüência informa apenas o número absoluto de valores de um determinado intervalo de classe Já a freqüência relativa de uma classe corresponde a freqüência absoluta da referida classe dividida pela soma de todas as freqüências absolutas sendo expressa em porcentagem Ela é útil quando se quer conhecer à proporção de valores situados em um determinado intervalo de classe ou quando se querem comparar conjuntos de dados que contenham números desiguais de observações Enquanto que a freqüência relativa acumulada de uma classe corresponde à soma da freqüência relativa da referida classe e todas as outras freqüências relativas anteriores Esse tipo de freqüência é útil quando se querem comparar conjuntos de dados que contenham números desiguais de observações Para a construção de uma tabela de freqüência primeiramente definese o número de classes normalmente por meio da seguinte Fórmula de STURGES citada por IPARDES 2000 k 1 332 x log N onde k número de classes N número total de observações Sem considerar a fórmula acima para se definir o número de classes SPIEGEL 1993 recomenda como regra geral que o número de classes esteja entre cinco e 20 Por outro lado MAGALHÃES e LIMA 2005 sem adotarem nenhuma regra formal quanto ao número de classes utilizam em geral de cinco a oito classes Em seguida determinase a amplitude total dos dados que é a diferença entre o maior e o menor valor da série De posse desses valores definese o intervalo de classe dividindo a amplitude total pelo número de classes Em seguida são estabelecidos os limites inferiores e superiores das classes onde o limite inferior da segunda classe é igual ao limite superior Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 62 62 da primeira e assim sucessivamente observandose que todos os dados devem estar entre o limite inferior da primeira classe e o limite superior da última classe Como exemplo têmse as tabelas de freqüência de altura de planta cm de sorgo granífero TABELA 33 e de peso corporal g de um lote misto de frangos de corte com 15 dias de idade TABELA 34 contendo os três tipos de freqüências absoluta relativa e relativa acumulada TABELA 33 TABELA DE FREQÜÊNCIAS ABSOLUTA RELATIVA E RELATIVA ACUMULADA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO Freqüência Freqüência Freqüência Relativa Intervalo de Classe Ponto Médio Absoluta Relativa Acumulada 4600 5400 5400 6200 6200 7000 5000 5800 6600 3 333 333 7 778 1111 11 1222 2333 7000 7800 7400 24 2667 5000 7800 8600 8200 22 2444 7444 8600 9400 9000 11 1222 8666 9400 10200 9800 8 889 9555 10200 11000 10600 4 445 10000 TABELA 34 TABELA DE FREQÜÊNCIAS ABSOLUTA RELATIVA E RELATIVA ACUMULADA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE Freqüência Freqüência Freqüência Relativa Intervalo de Classe Ponto Médio Absoluta Relativa Acumulada 4180 4320 4320 4460 4460 4600 4250 4390 4530 3 250 250 8 667 917 17 1417 2334 4600 4740 4670 30 2500 4834 4740 4880 4810 32 2666 7500 4880 5020 4950 17 1417 8917 5020 5160 5090 9 750 9667 5160 5300 5230 4 333 10000 A TABELA 33 fornece um quadro global de como os dados de altura de planta de sorgo granífero estão distribuídos pelos intervalos de classe Notase que as observações variam de 4600 até 11000 cm com relativamente poucas medidas nas extremidades do intervalo e uma grande proporção dos valores situados entre 6200 e 9400 cm Os intervalos 7000 7800 cm e 7800 8600 cm contém as maiores freqüências ou seja 24 plantas de sorgo granífero que corresponde a 2667 e 22 plantas de sorgo granífero que corresponde a 2444 respectivamente Por outro lado Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 63 63 metade das plantas de sorgo granífero 5000 tem uma altura menor ou igual a 7800 cm A TABELA 34 também fornece um quadro global de como os dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade estão distribuídos pelos intervalos de classe As observações variam de 4180 até 5300 g com relativamente poucas medidas nas extremidades do intervalo e uma grande proporção dos dados situados entre 4460 e 5020 g Os intervalos 4600 4740 g e 4740 4880 g contém as maiores freqüências ou seja 30 frangos de corte que corresponde a 2500 e 32 frangos de corte que corresponde a 2666 respectivamente Por outro lado aproximadamente metade do lote misto de frangos de corte 4834 tem um peso corporal menor ou igual a 4740 g Pelo visto as TABELAS 33 e 34 proporcionam um entendimento muito melhor dos dados que as TABELAS 31 e 32 fornecendo informações importantes que auxiliam a entender a distribuição de altura de plantas de sorgo granífero e a distribuição de peso corporal de um lote misto de frangos de corte com 15 dias de idade 312 Histograma de freqüência O histograma de freqüência tipo de gráfico mais comumente usado também proporciona ao pesquisador um meio eficaz de organização dos dados para estudo do comportamento de variáveis de interesse Embora freqüentemente forneçam menor grau de detalhe que as tabelas de freqüências são mais fáceis de ler proporcionando ao pesquisador um ganho no entendimento dos dados Esse tipo de gráfico consiste em um conjunto de retângulos que tem as bases sobre um eixo horizontal eixo dos X com centro no ponto médio e as larguras iguais às amplitudes dos intervalos das classes e o eixo vertical eixo dos Y as áreas proporcionais às freqüências das classes podendo ser as freqüências absolutas ou relativas Para a construção de um histograma de freqüência inicialmente traçamse as escalas dos eixos A escala do eixo vertical deve começar do zero se isso não é feito as comparações visuais entre os intervalos podem ficar distorcidas Uma vez que os eixos tenham sido desenhados uma barra vertical centrada no ponto médio é colocada sobre cada intervalo A altura da barra demarca a freqüência associada com o intervalo Como exemplo têmse os histogramas de freqüências absoluta e relativa de altura de planta cm de sorgo granífero FIGURAS 31 e 32 e de peso corporal g de um lote misto de frangos de corte com 15 dias de idade FIGURAS 33 e 34 FIGURA 31 HISTOGRAMA DE FREQÜÊNCIA ABSOLUTA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 64 64 FIGURA 32 HISTOGRAMA DE FREQÜÊNCIA RELATIVA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO FIGURA 33 HISTOGRAMA DE FREQÜÊNCIA ABSOLUTA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE FIGURA 34 HISTOGRAMA DE FREQÜÊNCIA RELATIVA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 65 65 As FIGURAS 31 e 32 fornecem as mesmas informações da TABELA 33 para as freqüências absoluta e relativa da altura de planta de sorgo granífero enquanto que as FIGURAS 33 e 34 fornecem as mesmas informações da TABELA 34 para as freqüências absoluta e relativa do peso corporal de um lote misto de frangos de corte com 15 dias de idade Pelo visto as FIGURAS 31 e 32 e as FIGURAS 33 e 34 proporcionam um entendimento melhor dos dados que as TABELAS 33 e 34 facilitando o entendimento da distribuição de altura de plantas de sorgo granífero e da distribuição de peso corporal de um lote misto de frangos de corte com 15 dias de idade 313 Polígono de freqüência O polígono de freqüência gráfico de linha comumente usado é muito semelhante ao histograma de freqüência pois usa os mesmos dois eixos que um histograma de freqüência e transmitem essencialmente as mesmas informações quando são usadas as freqüências absolutas ou relativas A diferença básica entre o histograma e o polígono de freqüência está no fato de este utilizar os pontos médios das classes enquanto o histograma considera os limites reais das classes Por outro lado os polígonos de freqüência por poderem ser facilmente superpostos são superiores aos histogramas quando se quer comparar dois ou mais conjuntos de dados Para a construção de um polígono de freqüência tanto para freqüência absoluta como para freqüência relativa basta apenas unir os pontos médios de cada classe de um histograma de freqüência conforme FIGURAS 35 e 36 para altura de planta cm de sorgo granífero e FIGURAS 37 e 38 para peso corporal g de um lote misto de frangos de corte com 15 dias de idade FIGURA 35 POLÍGONO DE FREQÜÊNCIA ABSOLUTA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 66 66 FIGURA 36 POLÍGONO DE FREQÜÊNCIA RELATIVA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO FIGURA 37 POLÍGONO DE FREQÜÊNCIA ABSOLUTA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE FIGURA 38 POLÍGONO DE FREQÜÊNCIA RELATIVA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 67 67 As FIGURAS 35 e 36 fornecem essencialmente as mesmas informações das FIGURAS 31 e 32 para as freqüências absoluta e relativa da altura de planta de sorgo granífero As FIGURAS 37 e 38 também fornecem essencialmente as mesmas informações das FIGURAS 33 e 34 para as freqüências absoluta e relativa do peso corporal de um lote misto de frangos de corte com 15 dias de idade Pelo visto as FIGURAS 35 e 36 e as FIGURAS 37 e 38 proporcionam o mesmo entendimento dos dados da distribuição de altura de plantas de sorgo granífero e da distribuição de peso corporal de um lote misto de frangos de corte com 15 dias de idade que as FIGURAS 31 e 32 e as FIGURAS 33 e 34 respectivamente Também para a construção de um polígono de freqüência podese usar a freqüência relativa acumulada o qual é chamado de polígono de freqüência relativa acumulada ou Ogiva de Galton Embora seu eixo horizontal seja o mesmo de um polígono de freqüência padrão o seu eixo vertical utilizase das freqüências relativas acumuladas Um ponto é colocado no limite superior de cada intervalo de classe a altura do ponto representa a freqüência relativa acumulada associada ao intervalo de classe Os pontos são então conectados por linhas retas Como os polígonos de freqüência os polígonos de freqüência relativa acumulada podem ser usados para comparar conjuntos de dados Como exemplos têmse os polígonos de freqüência relativa acumulada de altura de planta cm de sorgo granífero FIGURA 39 e de peso corporal g de um lote misto de frangos de corte com 15 dias de idade FIGURA 310 FIGURA 39 POLÍGONO DE FREQÜÊNCIA RELATIVA ACUMULADA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO FIGURA 310 POLÍGONO DE FREQÜÊNCIA RELATIVA ACUMULADA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 68 68 As FIGURAS 39 e 310 fornecem as mesmas informações das TABELAS 33 e 34 para respectivamente as freqüências relativas acumuladas de altura de planta de sorgo granífero e de peso corporal de um lote misto de frangos de corte com 15 dias de idade porém proporcionam um entendimento melhor dos dados que as referidas tabelas 314 Curva normal Se fossem construídos gráficos a partir de freqüências por exemplo do número de frutos por planta de 200 progênies de pimentão de leituras refractométricas de diversas cebolas da altura de planta de sorgo granífero do peso corporal de frangos de corte da produção de leite de vacas leiteiras etc os mesmos mostrariam diversas características importantes em comum Todas as curvas teriam seu ponto mais alto próximo ao meio representando a classe mais comum Estas poderiam desviarse bastante simetricamente sobre qualquer de seus lados em direção às classes raras A maioria dos dados biológicos apresenta curva deste tipo conhecida como curva normal representadas pelas FIGURAS 311 e 312 FIGURA 311 CURVA NORMAL DA DISTRIBUIÇÃO DE FREQÜÊNCIA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO FIGURA 312 CURVA NORMAL DA DISTRIBUIÇÃO DE FREQÜÊNCIA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 69 69 As curvas de distribuição normal podem diferir quanto à posição do ponto médio o ponto de maior freqüência e à dispersão dos dados conforme FIGURAS 311 e 312 porém todas podem ser descritas somente mediante os parâmetros média e desvio padrão Os métodos de estimálos serão descritos nas seções seguintes 32 Medidas de Tendência Central Após serem os dados tabulados é necessário encontrar valores típicos que possam representar a distribuição como um todo Esses valores tendem a se localizar em um ponto central e reproduzirá as características da população quanto mais homogêneos forem os seus componentes Esses valores são chamados de medidas de tendência central ou medidas de posição Entre as medidas de tendência central de uma distribuição de freqüência as mais conhecidas são a média a mediana e a moda 321 Média A média é a mais importante das medidas de tendência central Entre os vários tipos de médias a média aritmética ou simplesmente média é a que mais nos interessa do ponto de vista estatístico por ser a mais representativa de uma amostra de dados Ela apresenta as seguintes características a É medida exata e rigorosamente definida b Como medida de tendência central é de fácil compreensão e descreve todos os dados da série c Serve de apoio a cálculos posteriores como o das probabilidades desvio padrão coeficiente de variação etc d É a medida de tendência central de maior emprego no campo da análise quantitativa A média aritmética pode ser simples ou ponderada Quando nada se especifica significa estarse tratando de média simples Numa série de dados não agrupados isto é dados que não estejam relacionados com distribuições de freqüências a média aritmética simples é a razão entre o somatório dos valores da amostra Xi e o número de observações N Assim numa amostra de dados X1 X2 XN temse mˆ N X X X N 2 1 N X i Devese distinguir neste caso a média verdadeira que é obtida quando se tomam todos os dados de uma população e a média estimada que é obtida a partir de dados de uma amostra Exemplo 1 Calcular a média aritmética simples a partir de dados da TABELA 35 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 70 70 TABELA 35 DADOS DE PRODUTIVIDADE kgha DE ALGODÃO HERBÁCEO VARIEDADE ALLEN 33357 NO MUNICÍPIO DE VIÇOSAAL NO ANO DE 1977 Área Produtividade kgha 1 2730 2 6600 3 6750 4 3550 5 3150 6 4530 FONTE FERREIRA 1977 A média será mˆ N X 6 453 0 660 0 273 0 6 2 731 0 45517 kgha O valor mˆ 45517 kgha é uma estimativa de produtividade da população de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 que é desconhecida Exemplo 2 Calcular a média aritmética simples a partir de dados da TABELA 36 TABELA 36 DADOS DE PESO AO NASCER kg DE BEZERROS MACHOS DA RAÇA CHAROLESA Bezerro Peso ao Nascer kg 1 470 2 410 3 340 4 450 5 450 6 460 7 250 8 480 9 370 10 470 11 400 12 400 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 71 71 FONTE GOMES 1985 A média será mˆ N X 12 40 0 410 47 0 12 495 0 4125 kg Também o valor mˆ 4125 kg é uma estimativa de peso ao nascer da população de bezerros machos da raça Charolesa que é desconhecida Numa série de dados grupados em classes portanto numa distribuição de freqüência a média aritmética simples é a razão entre o somatório dos produtos dos pontos médios pelas freqüências Pm x f e o somatório das freqüências f Assim temse f Pm x f m ˆ Exemplo 3 Calcular a média aritmética simples a partir de dados da TABELA 33 A média será f Pm x f m ˆ 4 7 3 4 106 0 7 58 0 3 0 50 x x x 90 424 0 406 0 150 0 90 7 060 0 7844 cm O valor mˆ 7844 cm é uma estimativa de altura de planta da população de sorgo granífero que é desconhecida Esse valor que se localiza em um ponto central representa a amostra de 90 dados da distribuição de altura de planta de sorgo granífero Exemplo 4 Calcular a média aritmética simples a partir de dados da TABELA 34 A média será Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 72 72 f Pm x f m ˆ 4 8 3 4 523 0 8 439 0 3 0 425 x x x 120 2 092 0 3 512 0 1 275 0 120 56978 0 47482 g O valor mˆ 47482 g é uma estimativa de peso corporal de uma população mista de frangos de corte com 15 dias de idade que é desconhecida Esse valor que também se localiza em um ponto central representa a amostra de 120 dados da distribuição de peso corporal de um lote misto de frangos de corte com 15 dias de idade Em certos casos não próprios de distribuições de freqüências em que os dados não possuem identidade de significação devemse equiparar os dados entre si para obtenção da média aritmética Esse tipo de média se chama especificamente média aritmética ponderada ou às vezes simplesmente média ponderada A ponderação é a única forma que proporciona um resultado capaz de traduzir a realidade Ponderar significa pesar Isto quer dizer que se devem pesar os dados para se obter a média que será uma razão entre o somatório dos produtos de cada valor pelo peso respectivo P x X e o somatório dos pesos P Assim temse P P x X mˆp Exemplo 5 Calcular a média aritmética ponderada a partir de dados da TABELA 37 TABELA 37 DADOS DE STAND FINAL E DE NÚMERO DE FRUTOS DE ABACAXI Ananas comosus L Merrill VARIEDADE PÉROLA EM ÁREAS DE 42 m2 NO MUNICÍPIO DE ARAPIRACAAL NO ANO DE 1985 Lote Stand Final Número de Frutos 1 2 3 4 5 6 1290 1390 1380 1320 1290 1120 730 1010 1020 870 790 690 FONTE FERREIRA e MARTINS 1985 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 73 73 A média será P P x X mˆp 112 0 139 0 0 129 69 0 112 0 1010 139 0 73 0 0 129 x x x 0 779 7 728 0 14039 0 9 417 0 0 779 66935 0 8592 frutos O valor mˆp 8592 frutos é uma estimativa de número de frutos por lote de 42 m2 da população de abacaxi variedade PÉROLA no Município de ArapiracaAL que é desconhecida Esse valor representa melhor a amostra de seis lotes de 42 m2 da distribuição de número de frutos da população de abacaxi variedade PÉROLA no Município de ArapiracaAL do que a média aritmética simples mˆ 8517 frutos pois é levado em conta o número de plantas por lote no cálculo da média do número de frutos de abacaxi enquanto que na média aritmética simples isso não ocorre Sabese que numa mesma área quanto maior o número de plantas maior será o número de frutos Portanto o valor mˆp 8592 frutos traduz melhor a realidade Exemplo 6 Calcular a média aritmética ponderada a partir de dados da TABELA 38 TABELA 38 DADOS DE NÚMERO DE POEDEIRAS ISA BROWN POR PARCELA E DE NÚMERO DE OVOS PRODUZIDOS DURANTE UM PERÍODO DE 60 DIAS Parcela Número de Aves Produção de Ovos 1 2 3 4 5 80 70 70 60 80 4680 4100 4160 3510 4600 A média será P P x X mˆp Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 74 74 08 07 08 460 0 08 410 0 07 468 0 08 x x x 0 36 3 680 0 2 870 0 3 744 0 0 36 15312 0 42533 ovos O valor mˆp 42533 ovos também é uma estimativa de número de ovos por parcela da população de poedeiras Isa Brown durante um período de 60 dias que é desconhecida Esse valor representa melhor a amostra de cinco parcelas da distribuição de número de ovos por parcela de poedeiras Isa Brown durante um período de 60 dias do que a média aritmética simples mˆ 4210 ovos pois é levado em conta o número de aves por parcela no cálculo da média do número de ovos de poedeiras Isa Brown enquanto que na média aritmética simples isso não ocorre Sabese que numa mesma área quanto maior o número de galinhas poedeiras maior será o número de ovos Portanto o valor mˆp 42533 ovos traduz melhor a realidade 322 Mediana A mediana de um conjunto ordenado de dados é o valor que ocupa exatamente o centro da série ou a média aritmética dos dois valores centrais sendo insensível ao valor de cada observação o que pode ser uma vantagem quando a distribuição dos dados for assimétrica Esta medida de tendência central serve para representar e analisar uma série de dados grupados ou não dividindo a série em duas partes iguais isto é forma uma dicotomia de área Numa série de dados não agrupados a mediana é facilmente localizável tanto quanto as demais medidas de tendência central Neste caso específico como foi dito a mediana me ficará no centro da série Considerando os dados do Exemplo 1 a mediana será me 2 4 3 X X 2 453 0 355 0 2 808 0 4040 kgha O valor me 4040 kgha é uma estimativa de produtividade da população de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 que é desconhecida Esse valor foi bem inferior ao valor da média aritmética mˆ 45517 kgha tendo uma diferença de 5117 kgha Como houve uma variação muito grande entre os dados de produtividade de algodão herbáceo onde o maior valor 6750 kgha foi aproximadamente 25 vezes maior que o menor valor 2730 kgha e a Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 75 75 média aritmética é sensível a esse tipo de variação a mediana nesse caso seria a medida de tendência central que traduz melhor a realidade por ser mais robusta ou seja muito menos sensível a esse tipo de variação Considerando também os dados do Exemplo 2 a mediana será me 2 7 6 X X 2 45 0 410 2 86 0 430 kg O valor me 430 kg é uma estimativa de peso ao nascer da população de bezerros machos da raça Charolesa que é desconhecida Esse valor foi ligeiramente superior ao valor da média aritmética mˆ 4125 kg tendo uma diferença de apenas 175 kg por animal Nesse caso tanto a mediana como à média aritmética traduzem a realidade Numa série de dados grupados em classes a mediana me é obtida através da seguinte fórmula me e fm f N Li 2 x Ic onde Li limite inferior da classe mediana N total de freqüência f soma de todas as freqüências das classes inferiores à mediana fme freqüência da classe mediana Ic amplitude do intervalo da classe mediana Considerando os dados do Exemplo 3 a mediana será me e fm f N Li 2 x Ic 23 45 2 90 74 0 x 80 23 45 45 74 0 x 80 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 76 76 23 0 74 0 x 80 740 0 x 80 740 0 740 cm O valor me 740 cm é uma estimativa de altura de planta da população de sorgo granífero que é desconhecida Esse valor foi ligeiramente inferior ao valor da média aritmética mˆ 7844 cm tendo uma diferença de apenas 444 cm por planta Nesse caso tanto a mediana como à média aritmética traduzem a realidade Considerando também os dados do Exemplo 4 a mediana será me e fm f N Li 2 x Ic 31 58 2 120 467 0 x 140 31 58 60 467 0 x 140 31 2 467 0 x 140 4670 00645 x 140 4670 0903 46790 g O valor me 46790 g é uma estimativa de peso corporal da população de um lote misto de frangos de corte com 15 dias de idade que é desconhecida Esse valor foi ligeiramente inferior ao valor da média aritmética mˆ 47482 g tendo uma diferença de apenas 692 g por frango Também nesse caso tanto a mediana quanto a média aritmética traduzem a realidade 323 Moda A moda de um conjunto de dados é o valor que ocorre com maior freqüência ou seja é o valor mais comum A moda pode não existir e mesmo que exista pode não ser única Numa série de dados não grupados quando todos os valores da série ocorrem com a mesma freqüência como no Exemplo 1 a moda mo não existe Quando a série Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 77 77 possuir apenas um valor como sendo o mais freqüente este será a moda denominandose unimodal Contudo quando a série possuir mais de um valor como sendo os mais freqüentes ela pode possuir mais de uma moda denominandose bimodal trimodal etc Exemplo 7 Calcular a moda a partir dos dados da TABELA 39 TABELA 39 DADOS DE EMERGÊNCIA DE PLÂNTULAS DE EMERGÊNCIA DA 1a VAGEM E DE MATURAÇÃO DE VAGENS DE CULTIVARES DE SOJA Glicine max L Merrill NO MUNICÍPIO DE VIÇOSAAL NO ANO DE 1984 Cultivar Emergência de Plântulas em dias Emergência da 1aVagem em dias Maturação de Vagens em dias BOSSIER 6 45 93 BR 2 5 36 85 FOSCARIN 31 8 36 95 IAC 2 6 42 97 IAC 4 6 41 99 IAC 6 5 42 112 IAC 9 6 44 101 IAC 10 6 42 101 IAC 12 4 39 93 PARANÁ 5 35 85 PÉROLA 4 37 97 PLANALTO 4 37 109 PRATA 4 35 90 TROPICAL 6 54 117 UFV 1 5 40 99 UFV 4 5 37 95 UFV 5 6 41 99 VIÇOJA 7 36 93 FONTE FERREIRA e OLIVEIRA 1985 No caso da emergência de plântulas a moda será mo 6 dias No caso da emergência da 1a vagem as modas serão mo 36 dias mo 37 dias mo 42 dias E no caso da maturação de vagens as modas serão mo 93 dias mo 99 dias Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 78 78 No caso da emergência de plântulas o valor mo 60 dias é uma estimativa da população de soja no Município de ViçosaAL no ano de 1984 que é desconhecida Esse valor foi bastante próximo do valores da média aritmética mˆ 544 dias e da mediana me 55 dias Assim sendo qualquer uma dessas medidas de tendência central traduz a realidade quanto à emergência de plântulas de soja em ViçosaAL Também no caso da emergência da 1a vagem os valores mo 360 dias mo 370 dias e mo 420 dias são estimativas da população de soja no Município de Viçosa AL no ano de 1984 que são desconhecidas Esses valores foram bastante diferentes do valor da média aritmética mˆ 3994 dias e do valor da mediana me 395 dias Por outro lado a média aritmética e a mediana apresentaram valores bem próximos Desse modo apenas a média aritmética e a mediana nesse caso como medidas de tendência central traduzem melhor a realidade quanto à emergência da 1a vagem de soja em ViçosaAL Ainda no caso de maturação de vagens os valores mo 930 dias e mo 990 dias são estimativas da população de soja no Município de ViçosaAL no ano de 1984 que são desconhecidas Esses valores foram bastante diferentes do valor da média aritmética mˆ 9778 dias e do valor da mediana me 970 dias Por outro lado a média aritmética e a mediana apresentaram valores bem próximos Desse modo como no caso anterior apenas a média aritmética e a mediana como medidas de tendência central traduzem melhor a realidade quanto à maturação de vagens de soja em ViçosaAL Considerando os dados do Exemplo 2 as modas serão m0 400 kg m0 450 kg m0 470 kg Os valores mo 400 kg mo 450 kg e mo 470 kg são estimativas de peso ao nascer da população de bezerros machos da raça Charolesa que são desconhecidas Esses valores foram bastante diferentes do valor da média aritmética mˆ 4125 kg e do valor da mediana me 430 kg Por outro lado a média aritmética e a mediana apresentaram valores bem próximos Então dessa forma tanto a média aritmética quanto à mediana traduzem melhor a realidade em relação ao peso ao nascer de bezerros machos da raça Charolesa Numa série de dados grupados em classes chamase classe modal a classe que possui a maior freqüência Neste caso existem vários processos para se determinar à moda mo Contudo serão vistos os mais utilizados a Processo de KING A moda mo é calculada através da seguinte fórmula fp fa fp Li mo x Ic onde Li limite inferior da classe modal fp freqüência posterior à classe modal Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 79 79 fa freqüência anterior à classe modal Ic amplitude do intervalo da classe modal Considerando os dados do Exemplo 3 a moda será fp fa fp Li mo x Ic 22 11 22 70 0 x 80 33 22 70 0 x 80 700 06667 x 80 700 53336 7533 cm Considerando também os dados do Exemplo 4 a moda será fp fa fp Li mo x Ic 17 30 17 474 0 x 140 47 17 474 0 x 140 4740 03617 x 140 4740 50638 47906 g b Processo de CZUBER A moda mo é calculada através da seguinte fórmula mo Li 2 fp fa fm x fa fm o o x Ic onde Li limite inferior da classe modal fp freqüência posterior à classe modal fa freqüência anterior à classe modal fmo freqüência da classe modal Ic amplitude do intervalo da classe modal Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 80 80 Considerando os dados do Exemplo 3 a moda será mo Li 2 fp fa fm x fa fm o o x Ic 700 22 11 24 2 11 24 x x 80 700 33 48 13 x 80 700 15 13 x 80 700 08667 x 80 700 693360 7693 cm Considerando também os dados do Exemplo 4 a moda será mo Li 2 fp fa fm x fa fm o o x Ic 4740 17 30 32 2 30 32 x x 140 4740 47 64 2 x 140 4740 17 2 x 140 4740 01176 x 140 4740 16464 47565 g Observese que há uma diferença entre os valores encontrados por ambos os processos tanto para altura de planta de sorgo granífero Processo de King mo 7533 cm e Processo de Czuber mo 7693 cm quanto para peso corporal de um lote misto de frangos de corte com 15 dias de idade Processo de King mo 47906 g e Processo de Czuber mo 47565 g mas que em termos de moda não tem importância Por outro lado as estimativas da moda pelo Processo de Czuber para os dois tipos de distribuição de freqüência ficaram mais próximas das estimativas da média aritmética Altura de planta de sorgo granífero mˆ 7844 cm e mo 7693 cm Peso Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 81 81 corporal de um lote misto de frangos de corte com 15 dias de idade mˆ 47482 g e mo 47565 g enquanto que pelo Processo de King apenas a estimativa da moda da Altura de planta de sorgo granífero mo 7533cm ficou próxima da mediana me 740 cm Assim sendo como as estimativas da média aritmética e da mediana para os dois tipos de distribuição em estudo foram muito próximas e que as estimativas da moda pelos dois processos estão em torno delas apenas para Altura de planta de sorgo granífero enquanto que para o Peso corporal de um lote misto de frangos de corte com 15 dias de idade as estimativas da moda pelos dois processos foram muito próximas das estimativas da média aritmética qualquer uma das medidas de tendência central traduz a realidade para altura de planta de sorgo granífero e para peso corporal de um lote misto de frangos de corte com 15 dias de idade Por fim vale ressaltar que na pesquisa agropecuária as medidas de tendência central são utilizadas de um modo geral isoladamente cabendo ao pesquisador verificar qual delas é mais conveniente para auxiliar a análise dos seus dados Entretanto em determinadas situações elas podem ser utilizadas em conjunto A melhor medida de tendência central para um determinado conjunto de dados depende freqüentemente da distribuição dos valores a Se a distribuição de valores é simétrica e unimodal a média a mediana e a moda são aproximadamente as mesmas onde nesta situação qualquer uma delas poderá ser usada convenientemente para analisar os dados conforme FIGURA 313 a b Se a distribuição de valores é simétrica e bimodal a média e a mediana são aproximadamente as mesmas porém não convenientes para analisar os dados pois se tratam de medidas improváveis de ocorrer já que seus valores se encontrariam entre os dois picos segundo FIGURA 313 b Uma distribuição bimodal indica freqüentemente que a população da qual os valores são tomados consiste realmente de dois subgrupos distintos que diferem na característica medida onde a moda seria a medida de tendência central mais conveniente para analisar os dados ou então analisar os dois subgrupos separadamente c Quando os dados são assimétricos tanto à direita quanto à esquerda a mediana é freqüentemente a melhor medida de tendência central Por ser sensível às observações extremas a média é puxada em direção dos valores atípicos e conseqüentemente poderia terminar excessivamente aumentada ou reduzida em excesso Quando os dados são assimétricos à direita a média se encontra à direita da mediana FIGURA 313 c e quando os dados são assimétricos à esquerda a média se encontra à esquerda da mediana FIGURA 313 d FIGURA 313 TIPOS DE DISTRIBUIÇÃO DE VALORES DE UM DETERMINADO CONJUNTO DE DADOS a SIMÉTRICA E UNIMODAL b SIMÉTRICA E BIMODAL c ASSIMÉTRICA À DIREITA d ASSIMÉTRICA À ESQUERDA Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 82 82 33 Medidas de Variabilidade de Dados Na seção anterior foi visto que entre as medidas de tendência central a média é a mais importante do ponto de vista estatístico por ser a mais representativa de uma amostra de dados Contudo ela não diz como os dados de uma amostra se distribuem em torno dela Por exemplo sejam as seguintes amostras de dados 1 10 10 10 10 10 mˆ 100 2 8 10 12 9 11 mˆ 100 3 10 3 9 17 11 mˆ 100 4 17 15 7 3 8 mˆ 100 Verse que as amostras 1 2 3 e 4 têm a mesma média mas observase que na amostra 1 todos os valores são iguais a 10 ou seja igual a média aritmética logo todos os valores estão concentrados na média não existindo qualquer diferença entre cada valor e a média consequentemente não existe variabilidade dos dados o que na prática é improvável de ocorrer Ao passo que nas outras amostras existem diferenças em relação à média Assim podese dizer que na mostra 1 não existe variabilidade nos dados havendo para todas as outras sendo a amostra 4 a de maior variabilidade Portanto além da média necessitase de uma medida estatística complementar para melhor caracterizar cada amostra apresentada As medidas estatísticas responsáveis pela variação ou dispersão dos valores de uma série são as medidas de variabilidade ou medidas de dispersão onde se destacam em nosso caso a amplitude total a variância o desvio padrão o erro padrão da média e o coeficiente de variação Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 83 83 331 Amplitude total A amplitude total At é a diferença entre os valores maior ma e menor me de um conjunto de dados de uma determinada variável Assim numa amostra de dados X1 X2 XN temse At Xma Xme Considerando todas as amostras com média mˆ 10 do exemplo citado anteriormente verse que a média mˆ 10 não dá por si só uma completa informação a respeito do comportamento dos dados Entretanto se for tomado a diferença entre o maior e o menor deles dentro de cada amostra isto é a amplitude total terseá respectivamente At 1 X ma X me 10 10 00 At 2 X ma X me 12 8 40 At 3 X ma X me 17 3 140 At 4 X ma X me 17 3 140 De imediato concluise que as amostras 3 e 4 são as mais dispersas No entanto elas são bem distintas faltando consequentemente alguma informação a mais que permita diferenciálas É por isso que a amplitude total mesmo sendo fácil de calcular é uma medida de dispersão de utilidade limitada por depender somente dos valores extremos de um conjunto de dados desprezando assim os valores intermediários o que a torna insensível à dispersão dos demais valores entre o maior e o menor Considerando os dados do Exemplo 1 a amplitude total será At Xma Xme 6750 2730 4020 kgha O valor At 4020 kgha é uma estimativa de variabilidade dos dados de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 em torno da média aritmética mˆ 45517 kgha Houve Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 84 84 uma variação muito grande nos dados de produtividade de algodão herbáceo em relação à média aritmética Considerando também os dados do Exemplo 2 a amplitude total será At Xma Xme 480 250 230 kg O valor At 230 kg é uma estimativa de variabilidade dos dados de peso ao nascer de bezerros machos da raça Charolesa em torno da média aritmética mˆ 4125 kg Houve uma variação grande nos dados de peso ao nascer de bezerros machos em relação à média aritmética Considerando ainda os dados do Exemplo 3 a amplitude total será At Xma Xme 1100 460 640 cm O valor At 640 cm é uma estimativa de variabilidade dos dados de altura de planta de sorgo granífero em torno da média aritmética mˆ 7844 cm Houve uma variação muito grande nos dados de altura de planta em relação à média aritmética Considerando por fim os dados do Exemplo 4 a amplitude total será At Xma Xme 5300 4180 1120 g O valor At 1120 g é uma estimativa de variabilidade dos dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade em torno da média aritmética mˆ 47482 g Houve uma variação relativamente grande nos dados de peso corporal em relação à média aritmética 332 Variância A variância é uma medida de variabilidade que leva em conta todos os valores de um conjunto de dados É indiscutivelmente a melhor medida de dispersão Numa amostra de dados não grupados como por exemplo numa amostra de dados X1 X2 XN a variância s2 é obtida através da seguinte fórmula s2 1 N SQD onde SQD soma dos quadrados dos desvios em relação à média aritmética N número de observações É oportuno observar que o denominador da fórmula da variância acima é equivalente ao número de graus de liberdade envolvido Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 85 85 O número de graus de liberdade é utilizado no cálculo da variância e de outras medidas de variabilidade quando as mesmas são obtidas a partir de uma amostra de dados e a teoria prova que quando a média verdadeira não é conhecida e fazse o cálculo de s2 a partir de uma estimativa mˆ isto eqüivale exatamente à perda de uma das observações O número de graus de liberdade é conceituado como o número de valores num conjunto de dados que pode ser designado arbitrariamente Por exemplo suponha que um pesquisador vai distribuir através de sorteio dez vacas holandesas em um galpão contendo dez baias para avaliar duas rações comerciais em relação à produção de leite No primeiro sorteio a chance de qualquer uma das dez vacas ocupar a baia no 1 é a mesma pois têmse dez opções de escolha Depois de sorteada a baia no 1 passase ao segundo sorteio onde a chance de qualquer uma das nove vacas ocupar a baia no 2 é a mesma pois têmse nove opções de escolha Depois de sorteada a baia no 2 passase ao terceiro sorteio onde a chance de qualquer uma das oito vacas ocupar a baia no 3 é a mesma pois têmse oito opções de escolha e assim sucessivamente Quando só restarem duas baias passase ao nono sorteio onde a chance de qualquer uma das duas vacas ocupar a baia no 9 é a mesma pois têmse duas opções de escolha Porém depois de sorteada a baia no 9 a última vaca já não tem mais opção de escolha ou seja ela ficará na baia no 10 Portanto o número de opções é igual a 9 isto é N 1 Considerando os dados das amostras do exemplo anterior temse s2 1 1 N SQD 1 5 0 0 0 0 0 2 2 2 2 2 4 0 0 0 0 0 4 0 00 s2 2 1 N SQD 1 5 1 1 2 0 2 2 2 2 2 2 4 1 1 4 0 4 4 10 25 s2 3 1 N SQD Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 86 86 1 5 1 7 1 7 0 2 2 2 2 2 4 1 49 1 49 0 4 100 250 s2 4 1 N SQD 1 5 2 7 3 5 7 2 2 2 2 2 4 4 49 9 25 49 4 136 340 Um modo mais prático de calcular a SQD é o que se segue SQD N X X 2 2 Assim a fórmula da variância fica s2 1 2 2 N N X X Considerando o mesmo exemplo temse s2 1 1 2 2 N N X X 1 5 5 50 10 10 10 10 10 2 2 2 2 2 2 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 87 87 4 5 2 500 100 100 100 100 100 4 500 500 4 0 00 s2 2 1 2 2 N N X X 1 5 5 50 11 9 12 10 8 2 2 2 2 2 2 4 5 2 500 121 81 144 100 64 4 510 500 4 10 25 s2 3 1 2 2 N N X X 1 5 5 50 11 17 9 3 10 2 2 2 2 2 2 4 5 2 500 121 289 81 9 100 4 600 500 4 100 250 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 88 88 s2 4 1 2 2 N N X X 1 5 5 50 8 3 7 15 17 2 2 2 2 2 2 4 5 2 500 64 9 49 225 289 4 636 500 4 136 340 A vantagem deste método é que se trabalha diretamente com os dados originais não havendo pois necessidade de calcularse previamente a média e os desvios em relação a ela É interessante observar que as amostras 3 e 4 já referidas embora não pudessem ser diferenciadas pela amplitude total podem perfeitamente ser identificadas através da variância Neste caso observase que a amostra 4 é mais dispersa que a amostra 3 Considerando os dados do Exemplo 1 a variância será s2 1 2 2 N N X X 1 6 6 2 7310 453 0 660 0 0 273 2 2 2 2 5 6 7 4583610 205209 0 435600 0 74529 0 5 1 243060167 205209 0 435600 0 74529 0 5 1 243060167 1 396213 0 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 89 89 5 153152833 306305666 kgha2 O valor s2 306305666 kgha2 é uma estimativa de variabilidade dos dados de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 em torno da média aritmética mˆ 45517 kgha Mesmo sendo uma unidade quadrática verificase que houve uma variação relativamente grande nos dados de produtividade de algodão herbáceo em torno da média aritmética Considerando também os dados do Exemplo 2 a variância será s2 1 2 2 N N X X 1 12 12 495 0 40 0 410 0 47 2 2 2 2 11 12 245025 0 1 600 0 1 6810 2 209 0 11 2041875 1 600 0 1 6810 2 209 0 11 2041875 20919 0 11 50025 454773 kg2 O valor s2 454773 kg2 é uma estimativa de variabilidade dos dados de peso ao nascer de bezerros machos da raça Charolesa em torno da média aritmética mˆ 4125 kg Mesmo sendo uma unidade quadrática verificase que houve uma variação relativamente pequena nos dados de peso ao nascer de bezerros machos em torno da média aritmética Numa série de dados grupados em classes a variância s2 é obtida através da seguinte fórmula s2 1 2 N x f d onde d desvio de cada ponto médio em relação à média aritmética da série Pm mˆ f freqüência de cada classe N número de observações Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 90 90 Considerando os dados do Exemplo 3 a variância será s2 1 2 N x f d 1 90 4 7844 106 0 7 7844 58 0 3 7844 0 50 2 2 2 x x x 89 4 2756 7 2044 3 44 28 2 2 2 x x x 89 4 7595536 7 4177936 3 8088336 x x x 89 3 0382144 2 9245552 2 4265008 89 153742240 1727440899 cm2 O valor s2 1727440899 cm2 é uma estimativa de variabilidade dos dados de altura de planta de sorgo granífero em torno da média aritmética mˆ 7844 cm Mesmo sendo uma unidade quadrática verificase que houve uma variação pequena nos dados de altura de planta em torno da média aritmética Considerando também os dados do Exemplo 4 a variância será s2 1 2 N x f d 1 120 4 47482 523 0 8 47482 439 0 3 47482 0 425 2 2 2 x x x 119 4 4818 8 3582 3 82 49 2 2 2 x x x 119 4 2 3213124 8 1 2830724 3 2 4820324 x x x 119 9 2852496 102645792 7 4460972 119 555839680 4670921681 g2 O valor s2 4670921681 g2 é uma estimativa de variabilidade dos dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade em torno da média Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 91 91 aritmética mˆ 47482 g Mesmo sendo uma unidade quadrática verificase que houve uma variação muito pequena nos dados de peso corporal em torno da média aritmética 333 Desvio padrão A variância pela sua natureza tem uma unidade quadrática A sua raiz quadrada que ainda é uma medida de variabilidade é denominada desvio padrão O desvio padrão é uma medida de dispersão muito usada pelo fato de que permite a interpretação direta da variação dos dados pois o mesmo apresenta a mesma unidade dos dados originais e consequentemente da média O seu cálculo é muito importante porque através dele o pesquisador estima a variação acidental que ocorre nos dados experimentais Numa série de dados não grupados como por exemplo numa amostra de dados X1 X2 XN o desvio padrão s é obtido através das seguintes fórmulas s 2s 1 N SQD ou s 1 2 2 N N X X 2s Considerando os dados das amostras do exemplo anterior temse s 1 2s 00 00000 s 2 2s 52 15811 s 3 2s 25 0 50000 s 4 2s 34 0 58310 Também aqui as amostras 3 e 4 podem perfeitamente ser identificadas através do desvio padrão continuando a amostra 4 como sendo a mais dispersa Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 92 92 Considerando os dados do Exemplo 1 o desvio padrão será s 2s 306305666 1750159 kgha O valor s 1750159 kgha é uma estimativa de variabilidade dos dados de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 em torno da média aritmética mˆ 45517 kgha Houve uma variação relativamente grande nos dados de produtividade de algodão herbáceo em relação à média aritmética Considerando também os dados do Exemplo 2 o desvio padrão será s 2s 454773 67437 kg O valor s 67437 kg é uma estimativa de variabilidade dos dados de peso ao nascer de bezerros machos da raça Charolesa em torno da média aritmética mˆ 4125 kg Houve uma variação relativamente pequena nos dados de peso ao nascer de bezerros machos em relação à média aritmética Numa série de dados grupados em classes o desvio padrão s é obtido através da seguinte fórmula s 2 2 1 s N d x f Considerando os dados do Exemplo 3 o desvio padrão será s 2s 1727440899 131432 cm O valor s 131432 cm é uma estimativa de variabilidade dos dados de altura de planta de sorgo granífero em torno da média aritmética mˆ 7844 cm Houve uma variação pequena nos dados de altura de planta em relação à média aritmética Considerando também os dados do Exemplo 4 o desvio padrão será s 2s 4670921681 216123 g O valor s 216123 g é uma estimativa de variabilidade dos dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade em torno da média aritmética mˆ 47482 g Houve uma variação muito pequena nos dados de peso corporal em relação à média aritmética Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 93 93 334 Erro padrão da média Se ao invés de uma amostra tivessem várias provenientes de uma mesma população seriam obtidas também diversas estimativas da média porém distintas entre si A partir dessas diversas estimativas de média podese estimar uma variância da média considerando os desvios de cada média em relação à média de todas elas Entretanto demonstrase que a partir de uma única amostra podese estimar essa variância s2 mˆ através da fórmula s2 mˆ N s 2 onde s2 variância de uma amostra de dados N número de observações A sua raiz quadrada é denominada erro padrão da média s mˆ ou seja s mˆ N s onde s desvio padrão de uma amostra de dados N número de observações O erro padrão da média dá uma perfeita idéia da precisão da média isto é quanto menor ele for maior precisão terá a média Considerando os dados das amostras do exemplo anterior temse s mˆ 1 N s 5 00 236068 2 00 00000 s mˆ 2 N s 5 1581139 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 94 94 2 236068 1581139 07071 s mˆ 3 N s 5 05 236068 2 05 22361 s mˆ 4 N s 5 5 830952 2 236068 5 830952 26077 Sempre que se cita uma média devese fazêla acompanharse de seu erro padrão Assim no caso das amostras de 1 a 4 exemplificadas quando acompanhadas de seus erros padrões ficam 1 100 00000 2 100 07071 3 100 22361 4 100 26077 o que mostra a menor precisão da média na amostra 4 Considerando os dados do Exemplo 1 o erro padrão da média será s mˆ N s 6 1750159 449490 2 1750159 714499 kgha Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 95 95 O valor s mˆ 714499 kgha é uma estimativa de variabilidade dos dados de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 em torno da média aritmética mˆ 45517 kgha Houve uma variação muito grande entre a média aritmética dos dados de produtividade de algodão herbáceo e seu erro padrão indicando uma precisão muito baixa da mesma Considerando também os dados do Exemplo 2 o erro padrão da média será s mˆ N s 12 6 7437 464102 3 6 7437 19467 kg O valor s mˆ 19467 kg é uma estimativa de variabilidade dos dados de peso ao nascer de bezerros machos da raça Charolesa em torno da média aritmética mˆ 4125 kg Houve uma variação relativamente pequena entre a média aritmética dos dados de peso ao nascer de bezerros machos e seu erro padrão indicando uma precisão relativamente alta da mesma Considerando ainda os dados do Exemplo 3 o erro padrão da média será s mˆ N s 90 131432 486833 9 131432 13854 cm O valor s mˆ 13854 cm é uma estimativa de variabilidade dos dados de altura de planta de sorgo granífero em torno da média aritmética mˆ 7844 cm Houve uma variação pequena entre a média aritmética dos dados de altura de planta e seu erro padrão indicando uma alta precisão da mesma Considerando por fim os dados do Exemplo 4 o erro padrão da média será s mˆ N s 120 216123 954451 10 216123 19729 g Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 96 96 O valor s mˆ 19729 g é uma estimativa de variabilidade dos dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade em torno da média aritmética mˆ 47482 g Houve uma variação muito pequena entre a média aritmética dos dados de peso corporal e seu erro padrão indicando uma precisão muito alta da mesma Como foi visto anteriormente a média sempre deve vir acompanha de seu erro padrão Assim no caso dos Exemplos de 1 a 4 têmse Exemplo 1 45517 kgha 7145 kgha Exemplo 2 4125 kg 195 kg Exemplo 3 7844 cm 139 cm Exemplo 4 47482 g 197 g 335 Coeficiente de variação O coeficiente de variação CV é uma medida de variabilidade que mede percentualmente a relação entre o desvio padrão s e a média aritmética mˆ ou seja CV m x s ˆ 100 Como s e mˆ são expressos na mesma unidade o coeficiente de variação é um número abstrato isto é não tem unidade Esta medida de variabilidade pode ser empregada tanto em dados grupados como não grupados Se o desvio padrão for calculado sobre a mediana ou sobre a moda que é possível mas não se usa outros coeficientes poderão ser obtidos Considerando os dados das amostras do exemplo anterior temse CV 1 m x s ˆ 100 10 00 100 x 10 00 00 CV 2 m x s ˆ 100 10 100 x 1581139 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 97 97 10 1581139 1581 CV 3 m x s ˆ 100 10 05 100 x 10 500 0 5000 CV 4 m x s ˆ 100 10 100 x 5 830952 10 5830952 5831 Aqui também as amostras 3 e 4 podem perfeitamente ser identificadas através do coeficiente de variação mostrando novamente que a amostra 4 é a mais dispersa Considerando os dados do Exemplo 1 o coeficiente de variação será CV m x s ˆ 100 17 455 100 x 1750159 17 455 1750159 3845 O valor CV 3845 é uma estimativa de variabilidade dos dados de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 Considerando também os dados do Exemplo 2 o coeficiente de variação será CV m x s ˆ 100 25 41 100 x 6 7437 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 98 98 25 41 67437 1635 O valor CV 1635 é uma estimativa de variabilidade dos dados de peso ao nascer de bezerros machos da raça Charolesa Considerando ainda os dados do Exemplo 3 o coeficiente de variação será CV m x s ˆ 100 44 78 100 x 131432 44 78 1 31432 1676 O valor CV 1676 é uma estimativa de variabilidade dos dados de altura de planta de sorgo granífero Considerando por fim os dados do Exemplo 4 o coeficiente de variação será CV m x s ˆ 100 82 474 100 x 216123 82 474 2 16123 455 O valor CV 455 é uma estimativa de variabilidade dos dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade O coeficiente de variação serve também para análise comparativa envolvendo unidades e séries diferentes Por exemplo considerando os dados dos Exemplos 1 2 3 e 4 têmse Exemplo 1 Distribuição de produtividade de algodão herbáceo mˆ 45517 kgha s 1750159 kgha CV 3845 Exemplo 2 Distribuição de peso ao nascer de bezerros machos da raça Charolesa mˆ 4125 kg Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 99 99 s 67437 kg CV 1635 Exemplo 3 Distribuição de altura de planta de sorgo granífero mˆ 7844 cm s 131432 cm CV 1676 Exemplo 4 Distribuição de peso corporal de um lote misto de frangos de corte mˆ 47482 g s 216123 g CV 455 Verificase assim que entre as distribuições comparadas a distribuição de peso corporal de um lote misto de frangos de corte com 15 dias de idade é mais homogênea menos dispersa enquanto que a distribuição de produtividade de algodão herbáceo é a mais dispersa Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando a média esta próxima de zero O coeficiente de variação dá uma idéia de precisão do experimento ou seja quanto menor o coeficiente de variação maior será a precisão do experimento De um modo geral quando o coeficiente de variação for inferior a 10 dizse que o experimento apresentou uma ótima precisão experimental quando variar de 10 a 15 dizse que o experimento apresentou uma boa precisão experimental quando estiver no intervalo de 15 20 dizse que o experimento apresentou uma precisão experimental regular ou aceitável quando estiver no intervalo de 20 30 dizse que o experimento apresentou uma péssima precisão experimental e quando for superior a 30 dizse que o experimento apresentou uma precisão experimental muito péssima Por conta disso esperase que os coeficientes de variação dos ensaios agropecuários principalmente aqueles conduzidos ao nível de campo não ultrapassem a casa dos 20 de modo que as conclusões obtidas de tais ensaios tenham credibilidade perante a comunidade científica Contudo é preciso ressaltar que nem sempre um coeficiente de variação superior à casa dos 20 significa que as conclusões obtidas não tenham credibilidade perante a comunidade científica Isso depende muito do tipo de experimento Por exemplo nos experimentos com consorciação de culturas o coeficiente de variação é geralmente alto em comparação com os experimentos com culturas isoladas Neste caso os coeficientes de variação de 20 a 30 são racionais e aceitáveis perante a comunidade científica Também em experimentos de campo na área de Entomologia coeficientes de variação Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 100 100 superiores a 20 são normais e aceitáveis pois em função do comportamento dos insetos é muito raro obter coeficientes de variação baixos Por outro lado nem sempre se consegue uma ótima precisão experimental com CV 5 nos ensaios de laboratório casadevegetação ou galpão visto que geralmente são mais precisos do que os ensaios de campo Mais uma vez isso depende muito do tipo de experimento Por exemplo dados de análise de solo não raro apresentam coeficientes de variação superiores a 20 e em alguns casos superiores a 30 especialmente no caso de solos pobres como os de cerrado Portanto cabe ao pesquisador avaliar e justificar a precisão de seus dados experimentais baseandose nesses fatos 336 Intervalo de confiança para a média Foi visto até agora que as médias obtidas das amostras dos Exemplos 1 2 3 e 4 representam suas médias populacionais onde o único valor obtido de cada amostra estima esse parâmetro de interesse Tal método de estimação é chamado de estimação por ponto o qual é comumente usado Contudo como a média de uma amostra é um estatístico e os mesmos variam de amostra para amostra o problema é que se tivessem duas ou mais amostras para cada um dos exemplos citados acima é muito provável que os resultados de suas médias não seriam iguais havendo um grau de incerteza envolvido Uma estimativa por ponto não fornece nenhuma informação sobre a variabilidade inerente do estimador ou seja não se sabe se a média estimada está próxima ou distante da média verdadeira Por outro lado existe um outro método de estimação muito usado conhecido como estimação por intervalo que é freqüentemente preferido em relação ao método anterior pois fornece um intervalo de valores razoável no qual se presume que esteja o parâmetro de interesse a média verdadeira com certo grau de confiança Esse intervalo de valores é chamado intervalo de confiança O intervalo de confiança IC para a média é obtido através da seguinte fórmula IC mˆ t 5 x s mˆ onde mˆ estimativa da média t 5 valor tabelado do teste t no nível de 5 de probabilidade TABELA A7 s mˆ erro padrão da média Considerando os dados do Exemplo 1 o intervalo de confiança da média será IC mˆ t 5 x s mˆ 45517 257 x 714499 45517 18363 IC 27154 kgha 63880 kgha Os valores de IC 27154 kgha 63880 kgha indicam o intervalo de confiança com 95 de probabilidade onde se encontra a média verdadeira para os dados Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 101 101 de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 Houve uma variação muito grande no intervalo de confiança dos dados de produtividade de algodão herbáceo indicando uma precisão muito baixa da estimativa da média mˆ 45517 kgha Considerando também os dados do Exemplo 2 o intervalo de confiança da média será IC mˆ t 5 x s mˆ 4125 220 x 19467 4125 428 IC 3697 kg 4553 kg Os valores de IC 3697 kg 4553 kg indicam o intervalo de confiança com 95 de probabilidade onde se encontra a média verdadeira para os dos dados de peso ao nascer de bezerros machos da raça Charolesa Houve uma variação relativamente pequena no intervalo de confiança dos dados de peso ao nascer de bezerros machos indicando uma precisão relativamente alta da estimativa da média mˆ 4125 kg Considerando ainda os dados do Exemplo 3 o intervalo de confiança da média será IC mˆ t 5 x s mˆ 7844 199 x 13854 7844 276 IC 7568 cm 8120 cm Os valores de IC 7568 cm 8120 cm indicam o intervalo de confiança com 95 de probabilidade onde se encontra a média verdadeira para os dados de altura de planta de sorgo granífero Houve uma variação pequena no intervalo de confiança dos dados de altura de planta de sorgo granífero indicando uma alta precisão da estimativa da média mˆ 7844 cm Considerando por fim os dados do Exemplo 4 o intervalo de confiança da média será IC mˆ t 5 x s mˆ 47482 198 x 19729 47482 391 IC 47091 g 47882 g Os valores de IC 47091 g 47882 g indicam o intervalo de confiança com 95 de probabilidade onde se encontra a média verdadeira para os dados de peso Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 102 102 corporal de um lote misto de frangos de corte com 15 dias de idade Houve uma variação muito pequena no intervalo de confiança dos dados de peso corporal indicando uma precisão muito alta da estimativa da média mˆ 47482 g 34 Exercícios a Num ensaio sobre competição de variedades de algodão herbáceo foram obtidos os seguintes resultados de peso de 20 capulhos gramas V1 V2 V3 V4 V5 V6 V7 V8 78 75 100 85 102 85 72 88 98 85 88 102 98 100 102 100 90 70 65 92 95 80 85 80 70 88 83 88 90 85 92 102 90 88 78 90 102 98 98 85 85 80 138 85 95 95 88 85 Pedese a1 Determine para cada variedade o peso médio de 20 capulhos o erro padrão da média o coeficiente de variação e o intervalo de confiança da média a2 Sem levar em conta a variedade determine o peso médio de 20 capulhos o erro padrão da média a mediana a moda o coeficiente de variação e o intervalo de confiança da média b Admitindose que seja de 18 o coeficiente de variação relativo ao peso de ovos de galinha perguntamse quantos ovos devem ser pesados para obterse um erro padrão da média igual a 3 dela c Numa amostra de 30 dados de pesos ao nascer de bezerros machos da raça nelore obtevese a média mˆ 52 kg com um erro padrão da média s mˆ 32 kg Pede se o coeficiente de variação referente a estes dados d A fim de se obter a produção média de algodão em uma fazenda foi tomada ao acaso as produções de 20 pequenas parcelas de 100 m2 cujo resultado em gramas foi o seguinte 2730 6750 3150 7230 3800 4350 2980 3300 2370 3100 4370 2330 3770 3850 3330 6420 2930 3500 8200 3400 Pedese d1 A produção média em kgha com seu respectivo erro padrão d2 O coeficiente de variação d3 Admitindose que a área da fazenda destinada ao plantio de algodão seja de 180 ha qual a produção esperada e seu erro padrão e Na determinação da altura de planta de soja em cm foram analisadas 15 amostras obtendose o resultado que se segue Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 103 103 620 763 697 577 500 497 510 770 517 567 647 790 660 550 963 Pedese e1 Calcular a altura média de planta de soja em cm e o seu erro padrão e2 Obter a mediana e a moda e3 Determinar o coeficiente de variação e4 Determinar o intervalo de confiança da média f Considerando a série de dados a seguir referente ao consumo acumulado de ração g de frangos de corte com 25 dias de idade 1530 1750 1350 1430 1400 1350 1680 1360 1370 1400 1370 1330 1570 1780 1330 1420 1330 1500 1500 1300 1730 1750 1550 1530 1800 1350 1580 1600 1370 1400 1370 1630 1770 1800 1330 1420 1630 1500 1500 1500 1530 1750 1550 1630 Pedese f1 Construir uma tabela de freqüência um histograma de freqüência e um polígono de freqüência f2 Calcular o consumo médio acumulado de ração g de frangos de corte com 25 dias de idade e o seu erro padrão f3 Obter a mediana e a moda f4 Determinar a amplitude total o coeficiente de variação e o intervalo de confiança da média g Considerando a série de dados a seguir referente ao número de sementes na espiga de progênies de meios irmãos de milho PMI NO de PMI NO de Sementes NO de PMI NO de Sementes NO de PMI NO de Sementes 1 313 18 412 35 392 2 596 19 358 36 370 3 350 20 627 37 599 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 104 104 4 440 21 392 38 409 5 426 22 354 39 486 6 476 23 522 40 519 7 326 24 348 41 416 8 385 25 474 42 344 9 490 26 410 43 430 10 418 27 412 44 551 11 457 28 411 45 573 12 394 29 482 46 602 13 344 30 495 47 407 14 483 31 405 48 355 15 399 32 370 49 431 16 523 33 405 50 372 17 413 34 433 Pedese g1 Construir uma tabela de freqüência um histograma de freqüência e um polígono de freqüência g2 Calcular o número médio de sementes na espiga de milho e o seu erro padrão g3 Obter a mediana e a moda g4 Determinar a amplitude total e o coeficiente de variação h Um estudo realizado com dois tipos de adubos orgânicos na cultura do capim elefante revelou os seguintes resultados de produção de matéria verde por ano tha AO1 AO2 Média 4856 3600 Mediana 2424 3591 Moda 2100 3598 Pedese h1 Interpretar e discutir os resultados obtidos desse estudo considerando que uma cultura do capim elefante conduzida normalmente permite seis colheitas por ano em torno de 60 tha por corte Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 105 105
54
Estatística Experimental
IFTO
25
Estatística Experimental
IFTO
20
Estatística Experimental
IFTO
8
Estatística Experimental
IFTO
Texto de pré-visualização
Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 59 59 3 MEDIDAS DE TENDÊNCIA CENTRAL E DE VARIABILIDADE DE DADOS Na pesquisa agropecuária os pesquisadores utilizam a Estatística Experimental para obter analisar e interpretar dados experimentais obtidos de experimentos visando à elucidação de princípios biológicos bem como a solução de problemas agropecuários Na elucidação de tais princípios e na solução de tais problemas o pesquisador define quais as características que irá utilizar para avaliar os tratamentos de modo que possa atingir os objetivos da pesquisa Por exemplo na avaliação de variedades de milho e na avaliação de raças bovinas de leite o pesquisador pode definir as seguintes características resistência à lagarta do cartucho período de maturação da espiga e rendimento de grãos kgha no caso do milho e resistência a carrapato consumo alimentar e rendimento de leite kgdia no caso de bovino de leite para avaliar seus tratamentos Cada característica é medida nas parcelas e é denominada de variável Uma variável pode ser discreta ou contínua Variável discreta é aquela que somente pode ter certos valores da amplitude de variação ou seja valores inteiros que se originam de contagens Por exemplo número de plantas doentes por parcela número de sementes por fruto número de ovos por galinha em determinado período número de carrapatos por cavalo etc Variável contínua é aquela que pode assumir qualquer valor dentro da amplitude de variação ou seja valores decimais que se originam de medições Altura e rendimento de grãos de plantas de milho peso e produção de leite de vacas leiteiras são exemplos desse tipo de variável No linguajar estatístico uma população é um conjunto de medições de uma única variável efetuadas sobre todos os indivíduos pertencentes a uma classe No nosso caso por exemplo o rendimento de grãos kgha de todos os campos de milho no Brasil cultivados com a variedade CENTRALMEX constituiu uma população Da mesma forma o rendimento de leite kgdia de todas as vacas holandesas criadas no Estado de Alagoas constitui uma população As medições individuais de uma variável recebem o nome de elemento Uma amostra é um conjunto de medições que constitui parte de uma população A partir da amostra obtêmse informações e fazemse inferências acerca da população Por esta razão é importante que a amostra seja representativa da população As populações são descritas mediante características denominadas parâmetros Os parâmetros são valores fixos por exemplo a média aritmética de todos os elementos de uma população é um parâmetro As amostras são descritas pelas mesmas características mas recebem a denominação de estatístico A média de uma amostra é um estatístico Calculamse os estatísticos das amostras para estimaremse os parâmetros da população Obviamente os estatísticos variam de amostra para amostra enquanto que os parâmetros têm apenas um valor Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 60 60 31 Organização de Dados Diferentes valores de uma variável apresentam distintas freqüências de incidência em sua população Para caracterizar convenientemente uma população os dados provenientes de uma amostra grande como por exemplo os dados brutos de altura de planta cm de sorgo granífero da TABELA 31 e os dados brutos de peso corporal g de um lote misto de frangos de corte com 15 dias de idade da TABELA 32 são organizados mediante a construção de uma tabela de freqüência um histograma de freqüência ou um polígono de freqüência TABELA 31 DADOS BRUTOS DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO 9060 7930 9590 7535 9910 4600 8790 8760 7830 7980 10480 6800 7492 8675 9378 7550 5713 8418 10080 9980 6590 7465 9540 5865 9420 7180 8500 7370 8160 6620 8480 8250 8130 10690 6420 4820 6390 7645 5950 8390 8080 11000 7920 6870 8260 7030 8130 7751 6870 8910 7760 9379 10800 8200 7435 8970 9845 7175 5510 5620 7410 6450 9080 7888 7580 7861 8816 8800 5580 7135 6030 7180 7015 7920 7990 9680 7565 7305 7867 7910 7310 6990 7400 7560 8500 6700 7650 6405 7130 5240 TABELA 32 DADOS BRUTOS DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE 4856 4820 4767 4738 4828 4955 4821 4785 4848 5220 4590 4983 4707 4795 4690 4729 4689 4391 4902 4991 4644 4180 4626 5028 4550 4820 4429 4603 4490 4992 4828 4818 5016 4689 4524 4700 4631 5278 5068 4948 5038 4886 4690 4873 4528 4690 5020 4695 4444 4847 4590 4387 5300 4991 4429 4603 4889 4942 4295 4620 5016 4689 5074 4847 4991 4718 5008 4840 5068 4819 4757 5278 4563 4816 4278 4864 4694 4665 4592 4730 4369 4532 4842 4742 4769 4789 4880 5071 4517 4850 4605 4543 4759 4673 4672 4669 4691 4871 4531 4659 4682 4532 4397 4369 5075 4872 4694 4597 4779 4582 5028 4895 4580 4774 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 61 61 4753 4779 4690 4993 4529 4772 311 Tabela de freqüência A tabela de freqüência proporciona ao pesquisador um meio eficaz de organização dos dados para estudo do comportamento de variáveis de interesse Na construção de uma tabela dessa natureza devemse levar em conta certas considerações importantes a O intervalo de classe será de amplitude uniforme e de tamanho que se manifestem as linhas características da distribuição Assim o intervalo de classe não deve ser tão grande para não se cometer um erro considerável ao supor que o ponto médio do intervalo é o valor médio da classe Não deve ser tão pequeno para não aparecerem demasiadas classes com freqüência zero ou muito pequenas b Se possível é conveniente fazer com que o ponto médio da classe seja um número inteiro c As freqüências das classes podem ser absoluta relativa ou relativa acumulada Cabe ao pesquisador escolher a que mais lhe convier A freqüência absoluta da uma classe corresponde a quantidade de valores de uma determinada variável que pertence a referida classe Esse tipo de freqüência informa apenas o número absoluto de valores de um determinado intervalo de classe Já a freqüência relativa de uma classe corresponde a freqüência absoluta da referida classe dividida pela soma de todas as freqüências absolutas sendo expressa em porcentagem Ela é útil quando se quer conhecer à proporção de valores situados em um determinado intervalo de classe ou quando se querem comparar conjuntos de dados que contenham números desiguais de observações Enquanto que a freqüência relativa acumulada de uma classe corresponde à soma da freqüência relativa da referida classe e todas as outras freqüências relativas anteriores Esse tipo de freqüência é útil quando se querem comparar conjuntos de dados que contenham números desiguais de observações Para a construção de uma tabela de freqüência primeiramente definese o número de classes normalmente por meio da seguinte Fórmula de STURGES citada por IPARDES 2000 k 1 332 x log N onde k número de classes N número total de observações Sem considerar a fórmula acima para se definir o número de classes SPIEGEL 1993 recomenda como regra geral que o número de classes esteja entre cinco e 20 Por outro lado MAGALHÃES e LIMA 2005 sem adotarem nenhuma regra formal quanto ao número de classes utilizam em geral de cinco a oito classes Em seguida determinase a amplitude total dos dados que é a diferença entre o maior e o menor valor da série De posse desses valores definese o intervalo de classe dividindo a amplitude total pelo número de classes Em seguida são estabelecidos os limites inferiores e superiores das classes onde o limite inferior da segunda classe é igual ao limite superior Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 62 62 da primeira e assim sucessivamente observandose que todos os dados devem estar entre o limite inferior da primeira classe e o limite superior da última classe Como exemplo têmse as tabelas de freqüência de altura de planta cm de sorgo granífero TABELA 33 e de peso corporal g de um lote misto de frangos de corte com 15 dias de idade TABELA 34 contendo os três tipos de freqüências absoluta relativa e relativa acumulada TABELA 33 TABELA DE FREQÜÊNCIAS ABSOLUTA RELATIVA E RELATIVA ACUMULADA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO Freqüência Freqüência Freqüência Relativa Intervalo de Classe Ponto Médio Absoluta Relativa Acumulada 4600 5400 5400 6200 6200 7000 5000 5800 6600 3 333 333 7 778 1111 11 1222 2333 7000 7800 7400 24 2667 5000 7800 8600 8200 22 2444 7444 8600 9400 9000 11 1222 8666 9400 10200 9800 8 889 9555 10200 11000 10600 4 445 10000 TABELA 34 TABELA DE FREQÜÊNCIAS ABSOLUTA RELATIVA E RELATIVA ACUMULADA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE Freqüência Freqüência Freqüência Relativa Intervalo de Classe Ponto Médio Absoluta Relativa Acumulada 4180 4320 4320 4460 4460 4600 4250 4390 4530 3 250 250 8 667 917 17 1417 2334 4600 4740 4670 30 2500 4834 4740 4880 4810 32 2666 7500 4880 5020 4950 17 1417 8917 5020 5160 5090 9 750 9667 5160 5300 5230 4 333 10000 A TABELA 33 fornece um quadro global de como os dados de altura de planta de sorgo granífero estão distribuídos pelos intervalos de classe Notase que as observações variam de 4600 até 11000 cm com relativamente poucas medidas nas extremidades do intervalo e uma grande proporção dos valores situados entre 6200 e 9400 cm Os intervalos 7000 7800 cm e 7800 8600 cm contém as maiores freqüências ou seja 24 plantas de sorgo granífero que corresponde a 2667 e 22 plantas de sorgo granífero que corresponde a 2444 respectivamente Por outro lado Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 63 63 metade das plantas de sorgo granífero 5000 tem uma altura menor ou igual a 7800 cm A TABELA 34 também fornece um quadro global de como os dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade estão distribuídos pelos intervalos de classe As observações variam de 4180 até 5300 g com relativamente poucas medidas nas extremidades do intervalo e uma grande proporção dos dados situados entre 4460 e 5020 g Os intervalos 4600 4740 g e 4740 4880 g contém as maiores freqüências ou seja 30 frangos de corte que corresponde a 2500 e 32 frangos de corte que corresponde a 2666 respectivamente Por outro lado aproximadamente metade do lote misto de frangos de corte 4834 tem um peso corporal menor ou igual a 4740 g Pelo visto as TABELAS 33 e 34 proporcionam um entendimento muito melhor dos dados que as TABELAS 31 e 32 fornecendo informações importantes que auxiliam a entender a distribuição de altura de plantas de sorgo granífero e a distribuição de peso corporal de um lote misto de frangos de corte com 15 dias de idade 312 Histograma de freqüência O histograma de freqüência tipo de gráfico mais comumente usado também proporciona ao pesquisador um meio eficaz de organização dos dados para estudo do comportamento de variáveis de interesse Embora freqüentemente forneçam menor grau de detalhe que as tabelas de freqüências são mais fáceis de ler proporcionando ao pesquisador um ganho no entendimento dos dados Esse tipo de gráfico consiste em um conjunto de retângulos que tem as bases sobre um eixo horizontal eixo dos X com centro no ponto médio e as larguras iguais às amplitudes dos intervalos das classes e o eixo vertical eixo dos Y as áreas proporcionais às freqüências das classes podendo ser as freqüências absolutas ou relativas Para a construção de um histograma de freqüência inicialmente traçamse as escalas dos eixos A escala do eixo vertical deve começar do zero se isso não é feito as comparações visuais entre os intervalos podem ficar distorcidas Uma vez que os eixos tenham sido desenhados uma barra vertical centrada no ponto médio é colocada sobre cada intervalo A altura da barra demarca a freqüência associada com o intervalo Como exemplo têmse os histogramas de freqüências absoluta e relativa de altura de planta cm de sorgo granífero FIGURAS 31 e 32 e de peso corporal g de um lote misto de frangos de corte com 15 dias de idade FIGURAS 33 e 34 FIGURA 31 HISTOGRAMA DE FREQÜÊNCIA ABSOLUTA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 64 64 FIGURA 32 HISTOGRAMA DE FREQÜÊNCIA RELATIVA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO FIGURA 33 HISTOGRAMA DE FREQÜÊNCIA ABSOLUTA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE FIGURA 34 HISTOGRAMA DE FREQÜÊNCIA RELATIVA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 65 65 As FIGURAS 31 e 32 fornecem as mesmas informações da TABELA 33 para as freqüências absoluta e relativa da altura de planta de sorgo granífero enquanto que as FIGURAS 33 e 34 fornecem as mesmas informações da TABELA 34 para as freqüências absoluta e relativa do peso corporal de um lote misto de frangos de corte com 15 dias de idade Pelo visto as FIGURAS 31 e 32 e as FIGURAS 33 e 34 proporcionam um entendimento melhor dos dados que as TABELAS 33 e 34 facilitando o entendimento da distribuição de altura de plantas de sorgo granífero e da distribuição de peso corporal de um lote misto de frangos de corte com 15 dias de idade 313 Polígono de freqüência O polígono de freqüência gráfico de linha comumente usado é muito semelhante ao histograma de freqüência pois usa os mesmos dois eixos que um histograma de freqüência e transmitem essencialmente as mesmas informações quando são usadas as freqüências absolutas ou relativas A diferença básica entre o histograma e o polígono de freqüência está no fato de este utilizar os pontos médios das classes enquanto o histograma considera os limites reais das classes Por outro lado os polígonos de freqüência por poderem ser facilmente superpostos são superiores aos histogramas quando se quer comparar dois ou mais conjuntos de dados Para a construção de um polígono de freqüência tanto para freqüência absoluta como para freqüência relativa basta apenas unir os pontos médios de cada classe de um histograma de freqüência conforme FIGURAS 35 e 36 para altura de planta cm de sorgo granífero e FIGURAS 37 e 38 para peso corporal g de um lote misto de frangos de corte com 15 dias de idade FIGURA 35 POLÍGONO DE FREQÜÊNCIA ABSOLUTA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 66 66 FIGURA 36 POLÍGONO DE FREQÜÊNCIA RELATIVA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO FIGURA 37 POLÍGONO DE FREQÜÊNCIA ABSOLUTA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE FIGURA 38 POLÍGONO DE FREQÜÊNCIA RELATIVA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 67 67 As FIGURAS 35 e 36 fornecem essencialmente as mesmas informações das FIGURAS 31 e 32 para as freqüências absoluta e relativa da altura de planta de sorgo granífero As FIGURAS 37 e 38 também fornecem essencialmente as mesmas informações das FIGURAS 33 e 34 para as freqüências absoluta e relativa do peso corporal de um lote misto de frangos de corte com 15 dias de idade Pelo visto as FIGURAS 35 e 36 e as FIGURAS 37 e 38 proporcionam o mesmo entendimento dos dados da distribuição de altura de plantas de sorgo granífero e da distribuição de peso corporal de um lote misto de frangos de corte com 15 dias de idade que as FIGURAS 31 e 32 e as FIGURAS 33 e 34 respectivamente Também para a construção de um polígono de freqüência podese usar a freqüência relativa acumulada o qual é chamado de polígono de freqüência relativa acumulada ou Ogiva de Galton Embora seu eixo horizontal seja o mesmo de um polígono de freqüência padrão o seu eixo vertical utilizase das freqüências relativas acumuladas Um ponto é colocado no limite superior de cada intervalo de classe a altura do ponto representa a freqüência relativa acumulada associada ao intervalo de classe Os pontos são então conectados por linhas retas Como os polígonos de freqüência os polígonos de freqüência relativa acumulada podem ser usados para comparar conjuntos de dados Como exemplos têmse os polígonos de freqüência relativa acumulada de altura de planta cm de sorgo granífero FIGURA 39 e de peso corporal g de um lote misto de frangos de corte com 15 dias de idade FIGURA 310 FIGURA 39 POLÍGONO DE FREQÜÊNCIA RELATIVA ACUMULADA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO FIGURA 310 POLÍGONO DE FREQÜÊNCIA RELATIVA ACUMULADA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 68 68 As FIGURAS 39 e 310 fornecem as mesmas informações das TABELAS 33 e 34 para respectivamente as freqüências relativas acumuladas de altura de planta de sorgo granífero e de peso corporal de um lote misto de frangos de corte com 15 dias de idade porém proporcionam um entendimento melhor dos dados que as referidas tabelas 314 Curva normal Se fossem construídos gráficos a partir de freqüências por exemplo do número de frutos por planta de 200 progênies de pimentão de leituras refractométricas de diversas cebolas da altura de planta de sorgo granífero do peso corporal de frangos de corte da produção de leite de vacas leiteiras etc os mesmos mostrariam diversas características importantes em comum Todas as curvas teriam seu ponto mais alto próximo ao meio representando a classe mais comum Estas poderiam desviarse bastante simetricamente sobre qualquer de seus lados em direção às classes raras A maioria dos dados biológicos apresenta curva deste tipo conhecida como curva normal representadas pelas FIGURAS 311 e 312 FIGURA 311 CURVA NORMAL DA DISTRIBUIÇÃO DE FREQÜÊNCIA DE ALTURA DE PLANTA cm DE SORGO GRANÍFERO FIGURA 312 CURVA NORMAL DA DISTRIBUIÇÃO DE FREQÜÊNCIA DE PESO CORPORAL g DE UM LOTE MISTO DE FRANGOS DE CORTE COM 15 DIAS DE IDADE Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 69 69 As curvas de distribuição normal podem diferir quanto à posição do ponto médio o ponto de maior freqüência e à dispersão dos dados conforme FIGURAS 311 e 312 porém todas podem ser descritas somente mediante os parâmetros média e desvio padrão Os métodos de estimálos serão descritos nas seções seguintes 32 Medidas de Tendência Central Após serem os dados tabulados é necessário encontrar valores típicos que possam representar a distribuição como um todo Esses valores tendem a se localizar em um ponto central e reproduzirá as características da população quanto mais homogêneos forem os seus componentes Esses valores são chamados de medidas de tendência central ou medidas de posição Entre as medidas de tendência central de uma distribuição de freqüência as mais conhecidas são a média a mediana e a moda 321 Média A média é a mais importante das medidas de tendência central Entre os vários tipos de médias a média aritmética ou simplesmente média é a que mais nos interessa do ponto de vista estatístico por ser a mais representativa de uma amostra de dados Ela apresenta as seguintes características a É medida exata e rigorosamente definida b Como medida de tendência central é de fácil compreensão e descreve todos os dados da série c Serve de apoio a cálculos posteriores como o das probabilidades desvio padrão coeficiente de variação etc d É a medida de tendência central de maior emprego no campo da análise quantitativa A média aritmética pode ser simples ou ponderada Quando nada se especifica significa estarse tratando de média simples Numa série de dados não agrupados isto é dados que não estejam relacionados com distribuições de freqüências a média aritmética simples é a razão entre o somatório dos valores da amostra Xi e o número de observações N Assim numa amostra de dados X1 X2 XN temse mˆ N X X X N 2 1 N X i Devese distinguir neste caso a média verdadeira que é obtida quando se tomam todos os dados de uma população e a média estimada que é obtida a partir de dados de uma amostra Exemplo 1 Calcular a média aritmética simples a partir de dados da TABELA 35 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 70 70 TABELA 35 DADOS DE PRODUTIVIDADE kgha DE ALGODÃO HERBÁCEO VARIEDADE ALLEN 33357 NO MUNICÍPIO DE VIÇOSAAL NO ANO DE 1977 Área Produtividade kgha 1 2730 2 6600 3 6750 4 3550 5 3150 6 4530 FONTE FERREIRA 1977 A média será mˆ N X 6 453 0 660 0 273 0 6 2 731 0 45517 kgha O valor mˆ 45517 kgha é uma estimativa de produtividade da população de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 que é desconhecida Exemplo 2 Calcular a média aritmética simples a partir de dados da TABELA 36 TABELA 36 DADOS DE PESO AO NASCER kg DE BEZERROS MACHOS DA RAÇA CHAROLESA Bezerro Peso ao Nascer kg 1 470 2 410 3 340 4 450 5 450 6 460 7 250 8 480 9 370 10 470 11 400 12 400 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 71 71 FONTE GOMES 1985 A média será mˆ N X 12 40 0 410 47 0 12 495 0 4125 kg Também o valor mˆ 4125 kg é uma estimativa de peso ao nascer da população de bezerros machos da raça Charolesa que é desconhecida Numa série de dados grupados em classes portanto numa distribuição de freqüência a média aritmética simples é a razão entre o somatório dos produtos dos pontos médios pelas freqüências Pm x f e o somatório das freqüências f Assim temse f Pm x f m ˆ Exemplo 3 Calcular a média aritmética simples a partir de dados da TABELA 33 A média será f Pm x f m ˆ 4 7 3 4 106 0 7 58 0 3 0 50 x x x 90 424 0 406 0 150 0 90 7 060 0 7844 cm O valor mˆ 7844 cm é uma estimativa de altura de planta da população de sorgo granífero que é desconhecida Esse valor que se localiza em um ponto central representa a amostra de 90 dados da distribuição de altura de planta de sorgo granífero Exemplo 4 Calcular a média aritmética simples a partir de dados da TABELA 34 A média será Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 72 72 f Pm x f m ˆ 4 8 3 4 523 0 8 439 0 3 0 425 x x x 120 2 092 0 3 512 0 1 275 0 120 56978 0 47482 g O valor mˆ 47482 g é uma estimativa de peso corporal de uma população mista de frangos de corte com 15 dias de idade que é desconhecida Esse valor que também se localiza em um ponto central representa a amostra de 120 dados da distribuição de peso corporal de um lote misto de frangos de corte com 15 dias de idade Em certos casos não próprios de distribuições de freqüências em que os dados não possuem identidade de significação devemse equiparar os dados entre si para obtenção da média aritmética Esse tipo de média se chama especificamente média aritmética ponderada ou às vezes simplesmente média ponderada A ponderação é a única forma que proporciona um resultado capaz de traduzir a realidade Ponderar significa pesar Isto quer dizer que se devem pesar os dados para se obter a média que será uma razão entre o somatório dos produtos de cada valor pelo peso respectivo P x X e o somatório dos pesos P Assim temse P P x X mˆp Exemplo 5 Calcular a média aritmética ponderada a partir de dados da TABELA 37 TABELA 37 DADOS DE STAND FINAL E DE NÚMERO DE FRUTOS DE ABACAXI Ananas comosus L Merrill VARIEDADE PÉROLA EM ÁREAS DE 42 m2 NO MUNICÍPIO DE ARAPIRACAAL NO ANO DE 1985 Lote Stand Final Número de Frutos 1 2 3 4 5 6 1290 1390 1380 1320 1290 1120 730 1010 1020 870 790 690 FONTE FERREIRA e MARTINS 1985 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 73 73 A média será P P x X mˆp 112 0 139 0 0 129 69 0 112 0 1010 139 0 73 0 0 129 x x x 0 779 7 728 0 14039 0 9 417 0 0 779 66935 0 8592 frutos O valor mˆp 8592 frutos é uma estimativa de número de frutos por lote de 42 m2 da população de abacaxi variedade PÉROLA no Município de ArapiracaAL que é desconhecida Esse valor representa melhor a amostra de seis lotes de 42 m2 da distribuição de número de frutos da população de abacaxi variedade PÉROLA no Município de ArapiracaAL do que a média aritmética simples mˆ 8517 frutos pois é levado em conta o número de plantas por lote no cálculo da média do número de frutos de abacaxi enquanto que na média aritmética simples isso não ocorre Sabese que numa mesma área quanto maior o número de plantas maior será o número de frutos Portanto o valor mˆp 8592 frutos traduz melhor a realidade Exemplo 6 Calcular a média aritmética ponderada a partir de dados da TABELA 38 TABELA 38 DADOS DE NÚMERO DE POEDEIRAS ISA BROWN POR PARCELA E DE NÚMERO DE OVOS PRODUZIDOS DURANTE UM PERÍODO DE 60 DIAS Parcela Número de Aves Produção de Ovos 1 2 3 4 5 80 70 70 60 80 4680 4100 4160 3510 4600 A média será P P x X mˆp Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 74 74 08 07 08 460 0 08 410 0 07 468 0 08 x x x 0 36 3 680 0 2 870 0 3 744 0 0 36 15312 0 42533 ovos O valor mˆp 42533 ovos também é uma estimativa de número de ovos por parcela da população de poedeiras Isa Brown durante um período de 60 dias que é desconhecida Esse valor representa melhor a amostra de cinco parcelas da distribuição de número de ovos por parcela de poedeiras Isa Brown durante um período de 60 dias do que a média aritmética simples mˆ 4210 ovos pois é levado em conta o número de aves por parcela no cálculo da média do número de ovos de poedeiras Isa Brown enquanto que na média aritmética simples isso não ocorre Sabese que numa mesma área quanto maior o número de galinhas poedeiras maior será o número de ovos Portanto o valor mˆp 42533 ovos traduz melhor a realidade 322 Mediana A mediana de um conjunto ordenado de dados é o valor que ocupa exatamente o centro da série ou a média aritmética dos dois valores centrais sendo insensível ao valor de cada observação o que pode ser uma vantagem quando a distribuição dos dados for assimétrica Esta medida de tendência central serve para representar e analisar uma série de dados grupados ou não dividindo a série em duas partes iguais isto é forma uma dicotomia de área Numa série de dados não agrupados a mediana é facilmente localizável tanto quanto as demais medidas de tendência central Neste caso específico como foi dito a mediana me ficará no centro da série Considerando os dados do Exemplo 1 a mediana será me 2 4 3 X X 2 453 0 355 0 2 808 0 4040 kgha O valor me 4040 kgha é uma estimativa de produtividade da população de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 que é desconhecida Esse valor foi bem inferior ao valor da média aritmética mˆ 45517 kgha tendo uma diferença de 5117 kgha Como houve uma variação muito grande entre os dados de produtividade de algodão herbáceo onde o maior valor 6750 kgha foi aproximadamente 25 vezes maior que o menor valor 2730 kgha e a Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 75 75 média aritmética é sensível a esse tipo de variação a mediana nesse caso seria a medida de tendência central que traduz melhor a realidade por ser mais robusta ou seja muito menos sensível a esse tipo de variação Considerando também os dados do Exemplo 2 a mediana será me 2 7 6 X X 2 45 0 410 2 86 0 430 kg O valor me 430 kg é uma estimativa de peso ao nascer da população de bezerros machos da raça Charolesa que é desconhecida Esse valor foi ligeiramente superior ao valor da média aritmética mˆ 4125 kg tendo uma diferença de apenas 175 kg por animal Nesse caso tanto a mediana como à média aritmética traduzem a realidade Numa série de dados grupados em classes a mediana me é obtida através da seguinte fórmula me e fm f N Li 2 x Ic onde Li limite inferior da classe mediana N total de freqüência f soma de todas as freqüências das classes inferiores à mediana fme freqüência da classe mediana Ic amplitude do intervalo da classe mediana Considerando os dados do Exemplo 3 a mediana será me e fm f N Li 2 x Ic 23 45 2 90 74 0 x 80 23 45 45 74 0 x 80 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 76 76 23 0 74 0 x 80 740 0 x 80 740 0 740 cm O valor me 740 cm é uma estimativa de altura de planta da população de sorgo granífero que é desconhecida Esse valor foi ligeiramente inferior ao valor da média aritmética mˆ 7844 cm tendo uma diferença de apenas 444 cm por planta Nesse caso tanto a mediana como à média aritmética traduzem a realidade Considerando também os dados do Exemplo 4 a mediana será me e fm f N Li 2 x Ic 31 58 2 120 467 0 x 140 31 58 60 467 0 x 140 31 2 467 0 x 140 4670 00645 x 140 4670 0903 46790 g O valor me 46790 g é uma estimativa de peso corporal da população de um lote misto de frangos de corte com 15 dias de idade que é desconhecida Esse valor foi ligeiramente inferior ao valor da média aritmética mˆ 47482 g tendo uma diferença de apenas 692 g por frango Também nesse caso tanto a mediana quanto a média aritmética traduzem a realidade 323 Moda A moda de um conjunto de dados é o valor que ocorre com maior freqüência ou seja é o valor mais comum A moda pode não existir e mesmo que exista pode não ser única Numa série de dados não grupados quando todos os valores da série ocorrem com a mesma freqüência como no Exemplo 1 a moda mo não existe Quando a série Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 77 77 possuir apenas um valor como sendo o mais freqüente este será a moda denominandose unimodal Contudo quando a série possuir mais de um valor como sendo os mais freqüentes ela pode possuir mais de uma moda denominandose bimodal trimodal etc Exemplo 7 Calcular a moda a partir dos dados da TABELA 39 TABELA 39 DADOS DE EMERGÊNCIA DE PLÂNTULAS DE EMERGÊNCIA DA 1a VAGEM E DE MATURAÇÃO DE VAGENS DE CULTIVARES DE SOJA Glicine max L Merrill NO MUNICÍPIO DE VIÇOSAAL NO ANO DE 1984 Cultivar Emergência de Plântulas em dias Emergência da 1aVagem em dias Maturação de Vagens em dias BOSSIER 6 45 93 BR 2 5 36 85 FOSCARIN 31 8 36 95 IAC 2 6 42 97 IAC 4 6 41 99 IAC 6 5 42 112 IAC 9 6 44 101 IAC 10 6 42 101 IAC 12 4 39 93 PARANÁ 5 35 85 PÉROLA 4 37 97 PLANALTO 4 37 109 PRATA 4 35 90 TROPICAL 6 54 117 UFV 1 5 40 99 UFV 4 5 37 95 UFV 5 6 41 99 VIÇOJA 7 36 93 FONTE FERREIRA e OLIVEIRA 1985 No caso da emergência de plântulas a moda será mo 6 dias No caso da emergência da 1a vagem as modas serão mo 36 dias mo 37 dias mo 42 dias E no caso da maturação de vagens as modas serão mo 93 dias mo 99 dias Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 78 78 No caso da emergência de plântulas o valor mo 60 dias é uma estimativa da população de soja no Município de ViçosaAL no ano de 1984 que é desconhecida Esse valor foi bastante próximo do valores da média aritmética mˆ 544 dias e da mediana me 55 dias Assim sendo qualquer uma dessas medidas de tendência central traduz a realidade quanto à emergência de plântulas de soja em ViçosaAL Também no caso da emergência da 1a vagem os valores mo 360 dias mo 370 dias e mo 420 dias são estimativas da população de soja no Município de Viçosa AL no ano de 1984 que são desconhecidas Esses valores foram bastante diferentes do valor da média aritmética mˆ 3994 dias e do valor da mediana me 395 dias Por outro lado a média aritmética e a mediana apresentaram valores bem próximos Desse modo apenas a média aritmética e a mediana nesse caso como medidas de tendência central traduzem melhor a realidade quanto à emergência da 1a vagem de soja em ViçosaAL Ainda no caso de maturação de vagens os valores mo 930 dias e mo 990 dias são estimativas da população de soja no Município de ViçosaAL no ano de 1984 que são desconhecidas Esses valores foram bastante diferentes do valor da média aritmética mˆ 9778 dias e do valor da mediana me 970 dias Por outro lado a média aritmética e a mediana apresentaram valores bem próximos Desse modo como no caso anterior apenas a média aritmética e a mediana como medidas de tendência central traduzem melhor a realidade quanto à maturação de vagens de soja em ViçosaAL Considerando os dados do Exemplo 2 as modas serão m0 400 kg m0 450 kg m0 470 kg Os valores mo 400 kg mo 450 kg e mo 470 kg são estimativas de peso ao nascer da população de bezerros machos da raça Charolesa que são desconhecidas Esses valores foram bastante diferentes do valor da média aritmética mˆ 4125 kg e do valor da mediana me 430 kg Por outro lado a média aritmética e a mediana apresentaram valores bem próximos Então dessa forma tanto a média aritmética quanto à mediana traduzem melhor a realidade em relação ao peso ao nascer de bezerros machos da raça Charolesa Numa série de dados grupados em classes chamase classe modal a classe que possui a maior freqüência Neste caso existem vários processos para se determinar à moda mo Contudo serão vistos os mais utilizados a Processo de KING A moda mo é calculada através da seguinte fórmula fp fa fp Li mo x Ic onde Li limite inferior da classe modal fp freqüência posterior à classe modal Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 79 79 fa freqüência anterior à classe modal Ic amplitude do intervalo da classe modal Considerando os dados do Exemplo 3 a moda será fp fa fp Li mo x Ic 22 11 22 70 0 x 80 33 22 70 0 x 80 700 06667 x 80 700 53336 7533 cm Considerando também os dados do Exemplo 4 a moda será fp fa fp Li mo x Ic 17 30 17 474 0 x 140 47 17 474 0 x 140 4740 03617 x 140 4740 50638 47906 g b Processo de CZUBER A moda mo é calculada através da seguinte fórmula mo Li 2 fp fa fm x fa fm o o x Ic onde Li limite inferior da classe modal fp freqüência posterior à classe modal fa freqüência anterior à classe modal fmo freqüência da classe modal Ic amplitude do intervalo da classe modal Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 80 80 Considerando os dados do Exemplo 3 a moda será mo Li 2 fp fa fm x fa fm o o x Ic 700 22 11 24 2 11 24 x x 80 700 33 48 13 x 80 700 15 13 x 80 700 08667 x 80 700 693360 7693 cm Considerando também os dados do Exemplo 4 a moda será mo Li 2 fp fa fm x fa fm o o x Ic 4740 17 30 32 2 30 32 x x 140 4740 47 64 2 x 140 4740 17 2 x 140 4740 01176 x 140 4740 16464 47565 g Observese que há uma diferença entre os valores encontrados por ambos os processos tanto para altura de planta de sorgo granífero Processo de King mo 7533 cm e Processo de Czuber mo 7693 cm quanto para peso corporal de um lote misto de frangos de corte com 15 dias de idade Processo de King mo 47906 g e Processo de Czuber mo 47565 g mas que em termos de moda não tem importância Por outro lado as estimativas da moda pelo Processo de Czuber para os dois tipos de distribuição de freqüência ficaram mais próximas das estimativas da média aritmética Altura de planta de sorgo granífero mˆ 7844 cm e mo 7693 cm Peso Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 81 81 corporal de um lote misto de frangos de corte com 15 dias de idade mˆ 47482 g e mo 47565 g enquanto que pelo Processo de King apenas a estimativa da moda da Altura de planta de sorgo granífero mo 7533cm ficou próxima da mediana me 740 cm Assim sendo como as estimativas da média aritmética e da mediana para os dois tipos de distribuição em estudo foram muito próximas e que as estimativas da moda pelos dois processos estão em torno delas apenas para Altura de planta de sorgo granífero enquanto que para o Peso corporal de um lote misto de frangos de corte com 15 dias de idade as estimativas da moda pelos dois processos foram muito próximas das estimativas da média aritmética qualquer uma das medidas de tendência central traduz a realidade para altura de planta de sorgo granífero e para peso corporal de um lote misto de frangos de corte com 15 dias de idade Por fim vale ressaltar que na pesquisa agropecuária as medidas de tendência central são utilizadas de um modo geral isoladamente cabendo ao pesquisador verificar qual delas é mais conveniente para auxiliar a análise dos seus dados Entretanto em determinadas situações elas podem ser utilizadas em conjunto A melhor medida de tendência central para um determinado conjunto de dados depende freqüentemente da distribuição dos valores a Se a distribuição de valores é simétrica e unimodal a média a mediana e a moda são aproximadamente as mesmas onde nesta situação qualquer uma delas poderá ser usada convenientemente para analisar os dados conforme FIGURA 313 a b Se a distribuição de valores é simétrica e bimodal a média e a mediana são aproximadamente as mesmas porém não convenientes para analisar os dados pois se tratam de medidas improváveis de ocorrer já que seus valores se encontrariam entre os dois picos segundo FIGURA 313 b Uma distribuição bimodal indica freqüentemente que a população da qual os valores são tomados consiste realmente de dois subgrupos distintos que diferem na característica medida onde a moda seria a medida de tendência central mais conveniente para analisar os dados ou então analisar os dois subgrupos separadamente c Quando os dados são assimétricos tanto à direita quanto à esquerda a mediana é freqüentemente a melhor medida de tendência central Por ser sensível às observações extremas a média é puxada em direção dos valores atípicos e conseqüentemente poderia terminar excessivamente aumentada ou reduzida em excesso Quando os dados são assimétricos à direita a média se encontra à direita da mediana FIGURA 313 c e quando os dados são assimétricos à esquerda a média se encontra à esquerda da mediana FIGURA 313 d FIGURA 313 TIPOS DE DISTRIBUIÇÃO DE VALORES DE UM DETERMINADO CONJUNTO DE DADOS a SIMÉTRICA E UNIMODAL b SIMÉTRICA E BIMODAL c ASSIMÉTRICA À DIREITA d ASSIMÉTRICA À ESQUERDA Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 82 82 33 Medidas de Variabilidade de Dados Na seção anterior foi visto que entre as medidas de tendência central a média é a mais importante do ponto de vista estatístico por ser a mais representativa de uma amostra de dados Contudo ela não diz como os dados de uma amostra se distribuem em torno dela Por exemplo sejam as seguintes amostras de dados 1 10 10 10 10 10 mˆ 100 2 8 10 12 9 11 mˆ 100 3 10 3 9 17 11 mˆ 100 4 17 15 7 3 8 mˆ 100 Verse que as amostras 1 2 3 e 4 têm a mesma média mas observase que na amostra 1 todos os valores são iguais a 10 ou seja igual a média aritmética logo todos os valores estão concentrados na média não existindo qualquer diferença entre cada valor e a média consequentemente não existe variabilidade dos dados o que na prática é improvável de ocorrer Ao passo que nas outras amostras existem diferenças em relação à média Assim podese dizer que na mostra 1 não existe variabilidade nos dados havendo para todas as outras sendo a amostra 4 a de maior variabilidade Portanto além da média necessitase de uma medida estatística complementar para melhor caracterizar cada amostra apresentada As medidas estatísticas responsáveis pela variação ou dispersão dos valores de uma série são as medidas de variabilidade ou medidas de dispersão onde se destacam em nosso caso a amplitude total a variância o desvio padrão o erro padrão da média e o coeficiente de variação Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 83 83 331 Amplitude total A amplitude total At é a diferença entre os valores maior ma e menor me de um conjunto de dados de uma determinada variável Assim numa amostra de dados X1 X2 XN temse At Xma Xme Considerando todas as amostras com média mˆ 10 do exemplo citado anteriormente verse que a média mˆ 10 não dá por si só uma completa informação a respeito do comportamento dos dados Entretanto se for tomado a diferença entre o maior e o menor deles dentro de cada amostra isto é a amplitude total terseá respectivamente At 1 X ma X me 10 10 00 At 2 X ma X me 12 8 40 At 3 X ma X me 17 3 140 At 4 X ma X me 17 3 140 De imediato concluise que as amostras 3 e 4 são as mais dispersas No entanto elas são bem distintas faltando consequentemente alguma informação a mais que permita diferenciálas É por isso que a amplitude total mesmo sendo fácil de calcular é uma medida de dispersão de utilidade limitada por depender somente dos valores extremos de um conjunto de dados desprezando assim os valores intermediários o que a torna insensível à dispersão dos demais valores entre o maior e o menor Considerando os dados do Exemplo 1 a amplitude total será At Xma Xme 6750 2730 4020 kgha O valor At 4020 kgha é uma estimativa de variabilidade dos dados de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 em torno da média aritmética mˆ 45517 kgha Houve Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 84 84 uma variação muito grande nos dados de produtividade de algodão herbáceo em relação à média aritmética Considerando também os dados do Exemplo 2 a amplitude total será At Xma Xme 480 250 230 kg O valor At 230 kg é uma estimativa de variabilidade dos dados de peso ao nascer de bezerros machos da raça Charolesa em torno da média aritmética mˆ 4125 kg Houve uma variação grande nos dados de peso ao nascer de bezerros machos em relação à média aritmética Considerando ainda os dados do Exemplo 3 a amplitude total será At Xma Xme 1100 460 640 cm O valor At 640 cm é uma estimativa de variabilidade dos dados de altura de planta de sorgo granífero em torno da média aritmética mˆ 7844 cm Houve uma variação muito grande nos dados de altura de planta em relação à média aritmética Considerando por fim os dados do Exemplo 4 a amplitude total será At Xma Xme 5300 4180 1120 g O valor At 1120 g é uma estimativa de variabilidade dos dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade em torno da média aritmética mˆ 47482 g Houve uma variação relativamente grande nos dados de peso corporal em relação à média aritmética 332 Variância A variância é uma medida de variabilidade que leva em conta todos os valores de um conjunto de dados É indiscutivelmente a melhor medida de dispersão Numa amostra de dados não grupados como por exemplo numa amostra de dados X1 X2 XN a variância s2 é obtida através da seguinte fórmula s2 1 N SQD onde SQD soma dos quadrados dos desvios em relação à média aritmética N número de observações É oportuno observar que o denominador da fórmula da variância acima é equivalente ao número de graus de liberdade envolvido Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 85 85 O número de graus de liberdade é utilizado no cálculo da variância e de outras medidas de variabilidade quando as mesmas são obtidas a partir de uma amostra de dados e a teoria prova que quando a média verdadeira não é conhecida e fazse o cálculo de s2 a partir de uma estimativa mˆ isto eqüivale exatamente à perda de uma das observações O número de graus de liberdade é conceituado como o número de valores num conjunto de dados que pode ser designado arbitrariamente Por exemplo suponha que um pesquisador vai distribuir através de sorteio dez vacas holandesas em um galpão contendo dez baias para avaliar duas rações comerciais em relação à produção de leite No primeiro sorteio a chance de qualquer uma das dez vacas ocupar a baia no 1 é a mesma pois têmse dez opções de escolha Depois de sorteada a baia no 1 passase ao segundo sorteio onde a chance de qualquer uma das nove vacas ocupar a baia no 2 é a mesma pois têmse nove opções de escolha Depois de sorteada a baia no 2 passase ao terceiro sorteio onde a chance de qualquer uma das oito vacas ocupar a baia no 3 é a mesma pois têmse oito opções de escolha e assim sucessivamente Quando só restarem duas baias passase ao nono sorteio onde a chance de qualquer uma das duas vacas ocupar a baia no 9 é a mesma pois têmse duas opções de escolha Porém depois de sorteada a baia no 9 a última vaca já não tem mais opção de escolha ou seja ela ficará na baia no 10 Portanto o número de opções é igual a 9 isto é N 1 Considerando os dados das amostras do exemplo anterior temse s2 1 1 N SQD 1 5 0 0 0 0 0 2 2 2 2 2 4 0 0 0 0 0 4 0 00 s2 2 1 N SQD 1 5 1 1 2 0 2 2 2 2 2 2 4 1 1 4 0 4 4 10 25 s2 3 1 N SQD Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 86 86 1 5 1 7 1 7 0 2 2 2 2 2 4 1 49 1 49 0 4 100 250 s2 4 1 N SQD 1 5 2 7 3 5 7 2 2 2 2 2 4 4 49 9 25 49 4 136 340 Um modo mais prático de calcular a SQD é o que se segue SQD N X X 2 2 Assim a fórmula da variância fica s2 1 2 2 N N X X Considerando o mesmo exemplo temse s2 1 1 2 2 N N X X 1 5 5 50 10 10 10 10 10 2 2 2 2 2 2 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 87 87 4 5 2 500 100 100 100 100 100 4 500 500 4 0 00 s2 2 1 2 2 N N X X 1 5 5 50 11 9 12 10 8 2 2 2 2 2 2 4 5 2 500 121 81 144 100 64 4 510 500 4 10 25 s2 3 1 2 2 N N X X 1 5 5 50 11 17 9 3 10 2 2 2 2 2 2 4 5 2 500 121 289 81 9 100 4 600 500 4 100 250 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 88 88 s2 4 1 2 2 N N X X 1 5 5 50 8 3 7 15 17 2 2 2 2 2 2 4 5 2 500 64 9 49 225 289 4 636 500 4 136 340 A vantagem deste método é que se trabalha diretamente com os dados originais não havendo pois necessidade de calcularse previamente a média e os desvios em relação a ela É interessante observar que as amostras 3 e 4 já referidas embora não pudessem ser diferenciadas pela amplitude total podem perfeitamente ser identificadas através da variância Neste caso observase que a amostra 4 é mais dispersa que a amostra 3 Considerando os dados do Exemplo 1 a variância será s2 1 2 2 N N X X 1 6 6 2 7310 453 0 660 0 0 273 2 2 2 2 5 6 7 4583610 205209 0 435600 0 74529 0 5 1 243060167 205209 0 435600 0 74529 0 5 1 243060167 1 396213 0 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 89 89 5 153152833 306305666 kgha2 O valor s2 306305666 kgha2 é uma estimativa de variabilidade dos dados de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 em torno da média aritmética mˆ 45517 kgha Mesmo sendo uma unidade quadrática verificase que houve uma variação relativamente grande nos dados de produtividade de algodão herbáceo em torno da média aritmética Considerando também os dados do Exemplo 2 a variância será s2 1 2 2 N N X X 1 12 12 495 0 40 0 410 0 47 2 2 2 2 11 12 245025 0 1 600 0 1 6810 2 209 0 11 2041875 1 600 0 1 6810 2 209 0 11 2041875 20919 0 11 50025 454773 kg2 O valor s2 454773 kg2 é uma estimativa de variabilidade dos dados de peso ao nascer de bezerros machos da raça Charolesa em torno da média aritmética mˆ 4125 kg Mesmo sendo uma unidade quadrática verificase que houve uma variação relativamente pequena nos dados de peso ao nascer de bezerros machos em torno da média aritmética Numa série de dados grupados em classes a variância s2 é obtida através da seguinte fórmula s2 1 2 N x f d onde d desvio de cada ponto médio em relação à média aritmética da série Pm mˆ f freqüência de cada classe N número de observações Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 90 90 Considerando os dados do Exemplo 3 a variância será s2 1 2 N x f d 1 90 4 7844 106 0 7 7844 58 0 3 7844 0 50 2 2 2 x x x 89 4 2756 7 2044 3 44 28 2 2 2 x x x 89 4 7595536 7 4177936 3 8088336 x x x 89 3 0382144 2 9245552 2 4265008 89 153742240 1727440899 cm2 O valor s2 1727440899 cm2 é uma estimativa de variabilidade dos dados de altura de planta de sorgo granífero em torno da média aritmética mˆ 7844 cm Mesmo sendo uma unidade quadrática verificase que houve uma variação pequena nos dados de altura de planta em torno da média aritmética Considerando também os dados do Exemplo 4 a variância será s2 1 2 N x f d 1 120 4 47482 523 0 8 47482 439 0 3 47482 0 425 2 2 2 x x x 119 4 4818 8 3582 3 82 49 2 2 2 x x x 119 4 2 3213124 8 1 2830724 3 2 4820324 x x x 119 9 2852496 102645792 7 4460972 119 555839680 4670921681 g2 O valor s2 4670921681 g2 é uma estimativa de variabilidade dos dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade em torno da média Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 91 91 aritmética mˆ 47482 g Mesmo sendo uma unidade quadrática verificase que houve uma variação muito pequena nos dados de peso corporal em torno da média aritmética 333 Desvio padrão A variância pela sua natureza tem uma unidade quadrática A sua raiz quadrada que ainda é uma medida de variabilidade é denominada desvio padrão O desvio padrão é uma medida de dispersão muito usada pelo fato de que permite a interpretação direta da variação dos dados pois o mesmo apresenta a mesma unidade dos dados originais e consequentemente da média O seu cálculo é muito importante porque através dele o pesquisador estima a variação acidental que ocorre nos dados experimentais Numa série de dados não grupados como por exemplo numa amostra de dados X1 X2 XN o desvio padrão s é obtido através das seguintes fórmulas s 2s 1 N SQD ou s 1 2 2 N N X X 2s Considerando os dados das amostras do exemplo anterior temse s 1 2s 00 00000 s 2 2s 52 15811 s 3 2s 25 0 50000 s 4 2s 34 0 58310 Também aqui as amostras 3 e 4 podem perfeitamente ser identificadas através do desvio padrão continuando a amostra 4 como sendo a mais dispersa Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 92 92 Considerando os dados do Exemplo 1 o desvio padrão será s 2s 306305666 1750159 kgha O valor s 1750159 kgha é uma estimativa de variabilidade dos dados de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 em torno da média aritmética mˆ 45517 kgha Houve uma variação relativamente grande nos dados de produtividade de algodão herbáceo em relação à média aritmética Considerando também os dados do Exemplo 2 o desvio padrão será s 2s 454773 67437 kg O valor s 67437 kg é uma estimativa de variabilidade dos dados de peso ao nascer de bezerros machos da raça Charolesa em torno da média aritmética mˆ 4125 kg Houve uma variação relativamente pequena nos dados de peso ao nascer de bezerros machos em relação à média aritmética Numa série de dados grupados em classes o desvio padrão s é obtido através da seguinte fórmula s 2 2 1 s N d x f Considerando os dados do Exemplo 3 o desvio padrão será s 2s 1727440899 131432 cm O valor s 131432 cm é uma estimativa de variabilidade dos dados de altura de planta de sorgo granífero em torno da média aritmética mˆ 7844 cm Houve uma variação pequena nos dados de altura de planta em relação à média aritmética Considerando também os dados do Exemplo 4 o desvio padrão será s 2s 4670921681 216123 g O valor s 216123 g é uma estimativa de variabilidade dos dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade em torno da média aritmética mˆ 47482 g Houve uma variação muito pequena nos dados de peso corporal em relação à média aritmética Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 93 93 334 Erro padrão da média Se ao invés de uma amostra tivessem várias provenientes de uma mesma população seriam obtidas também diversas estimativas da média porém distintas entre si A partir dessas diversas estimativas de média podese estimar uma variância da média considerando os desvios de cada média em relação à média de todas elas Entretanto demonstrase que a partir de uma única amostra podese estimar essa variância s2 mˆ através da fórmula s2 mˆ N s 2 onde s2 variância de uma amostra de dados N número de observações A sua raiz quadrada é denominada erro padrão da média s mˆ ou seja s mˆ N s onde s desvio padrão de uma amostra de dados N número de observações O erro padrão da média dá uma perfeita idéia da precisão da média isto é quanto menor ele for maior precisão terá a média Considerando os dados das amostras do exemplo anterior temse s mˆ 1 N s 5 00 236068 2 00 00000 s mˆ 2 N s 5 1581139 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 94 94 2 236068 1581139 07071 s mˆ 3 N s 5 05 236068 2 05 22361 s mˆ 4 N s 5 5 830952 2 236068 5 830952 26077 Sempre que se cita uma média devese fazêla acompanharse de seu erro padrão Assim no caso das amostras de 1 a 4 exemplificadas quando acompanhadas de seus erros padrões ficam 1 100 00000 2 100 07071 3 100 22361 4 100 26077 o que mostra a menor precisão da média na amostra 4 Considerando os dados do Exemplo 1 o erro padrão da média será s mˆ N s 6 1750159 449490 2 1750159 714499 kgha Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 95 95 O valor s mˆ 714499 kgha é uma estimativa de variabilidade dos dados de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 em torno da média aritmética mˆ 45517 kgha Houve uma variação muito grande entre a média aritmética dos dados de produtividade de algodão herbáceo e seu erro padrão indicando uma precisão muito baixa da mesma Considerando também os dados do Exemplo 2 o erro padrão da média será s mˆ N s 12 6 7437 464102 3 6 7437 19467 kg O valor s mˆ 19467 kg é uma estimativa de variabilidade dos dados de peso ao nascer de bezerros machos da raça Charolesa em torno da média aritmética mˆ 4125 kg Houve uma variação relativamente pequena entre a média aritmética dos dados de peso ao nascer de bezerros machos e seu erro padrão indicando uma precisão relativamente alta da mesma Considerando ainda os dados do Exemplo 3 o erro padrão da média será s mˆ N s 90 131432 486833 9 131432 13854 cm O valor s mˆ 13854 cm é uma estimativa de variabilidade dos dados de altura de planta de sorgo granífero em torno da média aritmética mˆ 7844 cm Houve uma variação pequena entre a média aritmética dos dados de altura de planta e seu erro padrão indicando uma alta precisão da mesma Considerando por fim os dados do Exemplo 4 o erro padrão da média será s mˆ N s 120 216123 954451 10 216123 19729 g Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 96 96 O valor s mˆ 19729 g é uma estimativa de variabilidade dos dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade em torno da média aritmética mˆ 47482 g Houve uma variação muito pequena entre a média aritmética dos dados de peso corporal e seu erro padrão indicando uma precisão muito alta da mesma Como foi visto anteriormente a média sempre deve vir acompanha de seu erro padrão Assim no caso dos Exemplos de 1 a 4 têmse Exemplo 1 45517 kgha 7145 kgha Exemplo 2 4125 kg 195 kg Exemplo 3 7844 cm 139 cm Exemplo 4 47482 g 197 g 335 Coeficiente de variação O coeficiente de variação CV é uma medida de variabilidade que mede percentualmente a relação entre o desvio padrão s e a média aritmética mˆ ou seja CV m x s ˆ 100 Como s e mˆ são expressos na mesma unidade o coeficiente de variação é um número abstrato isto é não tem unidade Esta medida de variabilidade pode ser empregada tanto em dados grupados como não grupados Se o desvio padrão for calculado sobre a mediana ou sobre a moda que é possível mas não se usa outros coeficientes poderão ser obtidos Considerando os dados das amostras do exemplo anterior temse CV 1 m x s ˆ 100 10 00 100 x 10 00 00 CV 2 m x s ˆ 100 10 100 x 1581139 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 97 97 10 1581139 1581 CV 3 m x s ˆ 100 10 05 100 x 10 500 0 5000 CV 4 m x s ˆ 100 10 100 x 5 830952 10 5830952 5831 Aqui também as amostras 3 e 4 podem perfeitamente ser identificadas através do coeficiente de variação mostrando novamente que a amostra 4 é a mais dispersa Considerando os dados do Exemplo 1 o coeficiente de variação será CV m x s ˆ 100 17 455 100 x 1750159 17 455 1750159 3845 O valor CV 3845 é uma estimativa de variabilidade dos dados de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 Considerando também os dados do Exemplo 2 o coeficiente de variação será CV m x s ˆ 100 25 41 100 x 6 7437 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 98 98 25 41 67437 1635 O valor CV 1635 é uma estimativa de variabilidade dos dados de peso ao nascer de bezerros machos da raça Charolesa Considerando ainda os dados do Exemplo 3 o coeficiente de variação será CV m x s ˆ 100 44 78 100 x 131432 44 78 1 31432 1676 O valor CV 1676 é uma estimativa de variabilidade dos dados de altura de planta de sorgo granífero Considerando por fim os dados do Exemplo 4 o coeficiente de variação será CV m x s ˆ 100 82 474 100 x 216123 82 474 2 16123 455 O valor CV 455 é uma estimativa de variabilidade dos dados de peso corporal de um lote misto de frangos de corte com 15 dias de idade O coeficiente de variação serve também para análise comparativa envolvendo unidades e séries diferentes Por exemplo considerando os dados dos Exemplos 1 2 3 e 4 têmse Exemplo 1 Distribuição de produtividade de algodão herbáceo mˆ 45517 kgha s 1750159 kgha CV 3845 Exemplo 2 Distribuição de peso ao nascer de bezerros machos da raça Charolesa mˆ 4125 kg Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 99 99 s 67437 kg CV 1635 Exemplo 3 Distribuição de altura de planta de sorgo granífero mˆ 7844 cm s 131432 cm CV 1676 Exemplo 4 Distribuição de peso corporal de um lote misto de frangos de corte mˆ 47482 g s 216123 g CV 455 Verificase assim que entre as distribuições comparadas a distribuição de peso corporal de um lote misto de frangos de corte com 15 dias de idade é mais homogênea menos dispersa enquanto que a distribuição de produtividade de algodão herbáceo é a mais dispersa Uma desvantagem do coeficiente de variação é que ele deixa de ser útil quando a média esta próxima de zero O coeficiente de variação dá uma idéia de precisão do experimento ou seja quanto menor o coeficiente de variação maior será a precisão do experimento De um modo geral quando o coeficiente de variação for inferior a 10 dizse que o experimento apresentou uma ótima precisão experimental quando variar de 10 a 15 dizse que o experimento apresentou uma boa precisão experimental quando estiver no intervalo de 15 20 dizse que o experimento apresentou uma precisão experimental regular ou aceitável quando estiver no intervalo de 20 30 dizse que o experimento apresentou uma péssima precisão experimental e quando for superior a 30 dizse que o experimento apresentou uma precisão experimental muito péssima Por conta disso esperase que os coeficientes de variação dos ensaios agropecuários principalmente aqueles conduzidos ao nível de campo não ultrapassem a casa dos 20 de modo que as conclusões obtidas de tais ensaios tenham credibilidade perante a comunidade científica Contudo é preciso ressaltar que nem sempre um coeficiente de variação superior à casa dos 20 significa que as conclusões obtidas não tenham credibilidade perante a comunidade científica Isso depende muito do tipo de experimento Por exemplo nos experimentos com consorciação de culturas o coeficiente de variação é geralmente alto em comparação com os experimentos com culturas isoladas Neste caso os coeficientes de variação de 20 a 30 são racionais e aceitáveis perante a comunidade científica Também em experimentos de campo na área de Entomologia coeficientes de variação Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 100 100 superiores a 20 são normais e aceitáveis pois em função do comportamento dos insetos é muito raro obter coeficientes de variação baixos Por outro lado nem sempre se consegue uma ótima precisão experimental com CV 5 nos ensaios de laboratório casadevegetação ou galpão visto que geralmente são mais precisos do que os ensaios de campo Mais uma vez isso depende muito do tipo de experimento Por exemplo dados de análise de solo não raro apresentam coeficientes de variação superiores a 20 e em alguns casos superiores a 30 especialmente no caso de solos pobres como os de cerrado Portanto cabe ao pesquisador avaliar e justificar a precisão de seus dados experimentais baseandose nesses fatos 336 Intervalo de confiança para a média Foi visto até agora que as médias obtidas das amostras dos Exemplos 1 2 3 e 4 representam suas médias populacionais onde o único valor obtido de cada amostra estima esse parâmetro de interesse Tal método de estimação é chamado de estimação por ponto o qual é comumente usado Contudo como a média de uma amostra é um estatístico e os mesmos variam de amostra para amostra o problema é que se tivessem duas ou mais amostras para cada um dos exemplos citados acima é muito provável que os resultados de suas médias não seriam iguais havendo um grau de incerteza envolvido Uma estimativa por ponto não fornece nenhuma informação sobre a variabilidade inerente do estimador ou seja não se sabe se a média estimada está próxima ou distante da média verdadeira Por outro lado existe um outro método de estimação muito usado conhecido como estimação por intervalo que é freqüentemente preferido em relação ao método anterior pois fornece um intervalo de valores razoável no qual se presume que esteja o parâmetro de interesse a média verdadeira com certo grau de confiança Esse intervalo de valores é chamado intervalo de confiança O intervalo de confiança IC para a média é obtido através da seguinte fórmula IC mˆ t 5 x s mˆ onde mˆ estimativa da média t 5 valor tabelado do teste t no nível de 5 de probabilidade TABELA A7 s mˆ erro padrão da média Considerando os dados do Exemplo 1 o intervalo de confiança da média será IC mˆ t 5 x s mˆ 45517 257 x 714499 45517 18363 IC 27154 kgha 63880 kgha Os valores de IC 27154 kgha 63880 kgha indicam o intervalo de confiança com 95 de probabilidade onde se encontra a média verdadeira para os dados Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 101 101 de produtividade de algodão herbáceo variedade ALLEN 33357 no Município de ViçosaAL no ano de 1977 Houve uma variação muito grande no intervalo de confiança dos dados de produtividade de algodão herbáceo indicando uma precisão muito baixa da estimativa da média mˆ 45517 kgha Considerando também os dados do Exemplo 2 o intervalo de confiança da média será IC mˆ t 5 x s mˆ 4125 220 x 19467 4125 428 IC 3697 kg 4553 kg Os valores de IC 3697 kg 4553 kg indicam o intervalo de confiança com 95 de probabilidade onde se encontra a média verdadeira para os dos dados de peso ao nascer de bezerros machos da raça Charolesa Houve uma variação relativamente pequena no intervalo de confiança dos dados de peso ao nascer de bezerros machos indicando uma precisão relativamente alta da estimativa da média mˆ 4125 kg Considerando ainda os dados do Exemplo 3 o intervalo de confiança da média será IC mˆ t 5 x s mˆ 7844 199 x 13854 7844 276 IC 7568 cm 8120 cm Os valores de IC 7568 cm 8120 cm indicam o intervalo de confiança com 95 de probabilidade onde se encontra a média verdadeira para os dados de altura de planta de sorgo granífero Houve uma variação pequena no intervalo de confiança dos dados de altura de planta de sorgo granífero indicando uma alta precisão da estimativa da média mˆ 7844 cm Considerando por fim os dados do Exemplo 4 o intervalo de confiança da média será IC mˆ t 5 x s mˆ 47482 198 x 19729 47482 391 IC 47091 g 47882 g Os valores de IC 47091 g 47882 g indicam o intervalo de confiança com 95 de probabilidade onde se encontra a média verdadeira para os dados de peso Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 102 102 corporal de um lote misto de frangos de corte com 15 dias de idade Houve uma variação muito pequena no intervalo de confiança dos dados de peso corporal indicando uma precisão muito alta da estimativa da média mˆ 47482 g 34 Exercícios a Num ensaio sobre competição de variedades de algodão herbáceo foram obtidos os seguintes resultados de peso de 20 capulhos gramas V1 V2 V3 V4 V5 V6 V7 V8 78 75 100 85 102 85 72 88 98 85 88 102 98 100 102 100 90 70 65 92 95 80 85 80 70 88 83 88 90 85 92 102 90 88 78 90 102 98 98 85 85 80 138 85 95 95 88 85 Pedese a1 Determine para cada variedade o peso médio de 20 capulhos o erro padrão da média o coeficiente de variação e o intervalo de confiança da média a2 Sem levar em conta a variedade determine o peso médio de 20 capulhos o erro padrão da média a mediana a moda o coeficiente de variação e o intervalo de confiança da média b Admitindose que seja de 18 o coeficiente de variação relativo ao peso de ovos de galinha perguntamse quantos ovos devem ser pesados para obterse um erro padrão da média igual a 3 dela c Numa amostra de 30 dados de pesos ao nascer de bezerros machos da raça nelore obtevese a média mˆ 52 kg com um erro padrão da média s mˆ 32 kg Pede se o coeficiente de variação referente a estes dados d A fim de se obter a produção média de algodão em uma fazenda foi tomada ao acaso as produções de 20 pequenas parcelas de 100 m2 cujo resultado em gramas foi o seguinte 2730 6750 3150 7230 3800 4350 2980 3300 2370 3100 4370 2330 3770 3850 3330 6420 2930 3500 8200 3400 Pedese d1 A produção média em kgha com seu respectivo erro padrão d2 O coeficiente de variação d3 Admitindose que a área da fazenda destinada ao plantio de algodão seja de 180 ha qual a produção esperada e seu erro padrão e Na determinação da altura de planta de soja em cm foram analisadas 15 amostras obtendose o resultado que se segue Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 103 103 620 763 697 577 500 497 510 770 517 567 647 790 660 550 963 Pedese e1 Calcular a altura média de planta de soja em cm e o seu erro padrão e2 Obter a mediana e a moda e3 Determinar o coeficiente de variação e4 Determinar o intervalo de confiança da média f Considerando a série de dados a seguir referente ao consumo acumulado de ração g de frangos de corte com 25 dias de idade 1530 1750 1350 1430 1400 1350 1680 1360 1370 1400 1370 1330 1570 1780 1330 1420 1330 1500 1500 1300 1730 1750 1550 1530 1800 1350 1580 1600 1370 1400 1370 1630 1770 1800 1330 1420 1630 1500 1500 1500 1530 1750 1550 1630 Pedese f1 Construir uma tabela de freqüência um histograma de freqüência e um polígono de freqüência f2 Calcular o consumo médio acumulado de ração g de frangos de corte com 25 dias de idade e o seu erro padrão f3 Obter a mediana e a moda f4 Determinar a amplitude total o coeficiente de variação e o intervalo de confiança da média g Considerando a série de dados a seguir referente ao número de sementes na espiga de progênies de meios irmãos de milho PMI NO de PMI NO de Sementes NO de PMI NO de Sementes NO de PMI NO de Sementes 1 313 18 412 35 392 2 596 19 358 36 370 3 350 20 627 37 599 Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 104 104 4 440 21 392 38 409 5 426 22 354 39 486 6 476 23 522 40 519 7 326 24 348 41 416 8 385 25 474 42 344 9 490 26 410 43 430 10 418 27 412 44 551 11 457 28 411 45 573 12 394 29 482 46 602 13 344 30 495 47 407 14 483 31 405 48 355 15 399 32 370 49 431 16 523 33 405 50 372 17 413 34 433 Pedese g1 Construir uma tabela de freqüência um histograma de freqüência e um polígono de freqüência g2 Calcular o número médio de sementes na espiga de milho e o seu erro padrão g3 Obter a mediana e a moda g4 Determinar a amplitude total e o coeficiente de variação h Um estudo realizado com dois tipos de adubos orgânicos na cultura do capim elefante revelou os seguintes resultados de produção de matéria verde por ano tha AO1 AO2 Média 4856 3600 Mediana 2424 3591 Moda 2100 3598 Pedese h1 Interpretar e discutir os resultados obtidos desse estudo considerando que uma cultura do capim elefante conduzida normalmente permite seis colheitas por ano em torno de 60 tha por corte Autor PAULO VANDERLEI FERREIRA CECAUFAL 2011 Página 105 105