·

Agronomia ·

Estatística 2

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta

Texto de pré-visualização

Universidade Federal de Santa Catarina Centro Tecnologico Departamento de Informatica e Estatıstica ESTATISTICA BASICA PARA AS CIˆENCIAS AGRONˆOMICAS E BIOLOGICAS Com Nocoes de Experimentacao Prof Paulo Jose Ogliari Dr Prof Dalton Francisco de Andrade PhD FLORIANOPOLIS Santa Catarina Brasil Abril 2005 Sumario 1 Introducao Geral 5 11 A Ciˆencia Estatıstica na Pesquisa Agronˆomica e Biologica 5 111 Forma de coleta dos dados 5 112 Erro Experimental ou Resıduo 6 113 Analise Exploratoria de Dados 7 114 Inferˆencia Estatıstica 8 115 Teoria da Probabilidade e seus Modelos 12 12 A Estatıstica e o Metodo Cientıfico 13 13 Aspectos do Planejamento Estatıstico de um Experimento 20 131 Experimentos com um Fator e mais de um Fator 20 132 Tratamento Controle 22 133 Variaveis e Covariaveis 22 134 Repeticao e Casualizacao 23 14 Exercıcios Propostos 24 2 Analise Exploratoria de Dados 25 21 Organizacao Resumo e Representacao de Dados 25 211 Introducao 25 212 Classificacao das Variaveis Selecionadas para o Estudo 26 213 Distribuicoes de Frequˆencias Representacao em Tabelas e Graficos 29 2131 Distribuicoes de Frequˆencias de Variaveis Qualitativas Rep resentacao em Tabelas 29 2132 Representacoes Graficas de Variaveis Qualitativas 35 2133 Exercıcios Propostos 38 2134 Tabelas de Contingˆencia 42 2135 Exercıcios Propostos 47 2136 Coeficiente de Contingˆencia de Pearson 48 2137 Exercıcios Propostos 53 2138 Distribuicoes de Frequˆencias de Variaveis Quantitativas Di agrama de Pontos Grafico de Colunas e Histograma 53 2139 Exercıcios Propostos 65 1 21310 RamoeFolhas 66 21311 Exercıcios Propostos 71 22 Algumas Medidas e Modelo para Variaveis Quantitativas 72 221 Medidas de Tendˆencia Central 72 2211 Media Mediana e Moda 72 222 Medidas de Dispersao 80 2221 Variˆancia Desvio Padrao Coeficiente de Variacao e Desvio Interquartılico 80 2222 Exercıcios Propostos 88 223 O Uso da Mediana e dos Quartis na Interpretacao de um Conjunto de Dados 90 224 Desenho Esquematico em inglˆes leiase Box Plot 93 2241 Exercıcios Propostos 97 225 Coeficiente de Correlacao 98 2251 Exercıcios propostos 104 226 Ajuste da Equacao de uma Reta 106 2261 Exercıcios propostos 111 3 Modelos de Probabilidades para Experimentos Simples 114 31 Introducao 114 32 Conceitos Fundamentais 118 33 Operacoes com Eventos 122 34 A Probabilidade de Um Evento 125 35 Conceito de Probabilidade 125 36 A Regra da Adicao 128 37 Probabilidade Condicional e Independˆencia 130 38 Teorema de Bayes 135 39 Exercıcios Propostos 139 4 Modelos de Probabilidades para Contagens 144 41 Introducao 144 42 O Conceito de Variavel Aleatoria Discreta e Funcao de Probabilidade 145 43 A media e a Variˆancia de Uma Variavel Aleatoria Discreta Propriedades 148 44 Alguns Modelos Probabilısticos para Contagens 156 45 Distribuicao de Bernoulli 157 46 A Distribuicao Binomial 159 2 47 A Distribuicao de Poisson 168 48 Aproximacao da distribuicao binomial pela distribuicao de Poisson 171 49 Exercıcios Propostos 177 5 Modelos de Probabilidades para Medidas 187 51 Introducao 187 52 A Media de Uma Variavel Aleatoria Contınua 192 53 A Distribuicao Normal 193 531 Introducao 194 532 A Distribuicao Normal Padrao 199 533 O Uso da Tabela da Distribuicao Normal Padrao 200 534 A Distribuicao Normal como Aproximacao da Distribuicao Binomial 205 535 Exercıcios propostos 209 6 Introducao a Inferˆencia Estatıstica 216 61 Introducao 216 62 Como Selecionar Uma Amostra 220 63 Amostragem Aleatoria Simples 222 631 Obtencao de Uma Amostra Aleatoria Simples 223 64 Distribuicoes Amostrais 227 641 Distribuicao Amostral da Proporcao 228 642 Distribuicao Amostral da Media 234 65 Exercıcios Propostos 241 7 Estimacao dos Parˆametros 244 71 Introducao 244 72 Propriedades dos Estimadores 244 73 Metodos para Encontrar Estimadores 247 731 Metodo da Maxima Verossimilhanca 248 74 Estimativas Pontuais e Intervalares 249 741 Intervalos de Confianca 249 742 Intervalo de Confianca para a Media da Populacao 253 743 Intervalo de Confianca para Uma Proporcao Populacional 258 744 Erro de Estimacao ou de Amostragem 260 745 Determinacao do Tamanho da Amostra 262 75 Exercıcios Propostos 270 3 8 Testes de Hipoteses Sobre os Parˆametros 274 81 Introducao 274 82 Testes de Hipoteses Unilaterais e Bilaterais 281 83 Erros Tipo I e Tipo II 281 84 Testes de Medias Populacionais 283 841 Teste de Uma Media Populacional Quando a Variˆancia Populacional for Desconhecida 284 842 Teste de Duas Medias Populacionais com Variˆancias Populacionais De sconhecidas 289 85 Teste Para Proporcoes 303 851 Teste Para Uma Proporcao Populacional 304 852 Teste de Duas ou Mais Proporcoes Teste de QuiQuadrado 306 853 Teste de Aderˆencia aplicacao a teoria Mendeliana 310 86 Exercıcios Propostos 312 Bibliografia 321 Apˆendice 1 Tabela da distribuicao binomial 323 Apˆendice 2 Tabela da distribuicao de Poisson 333 Apˆendice 3 Tabela da distribuicao normal padrao 335 Apˆendice 4 Tabela da distribuicao t de Student 337 Apˆendice 5 Tabela da distribuicao de QuiQuadrado 339 Apˆendice 6 Tabela da distribuicao F 341 Apˆendice 7 Tabela de numeros aleatorios 344 Respostas de Alguns dos Exercıcios 346 4 1 Introducao Geral 11 A Ciˆencia Estatıstica na Pesquisa Agronˆomica e Biologica A estatıstica e uma ciˆencia que se preocupa com o planejamento de uma pesquisa envol vendo desde a forma de coleta das observacoes obtidas em experimentos ou levantamentos ate a maneira como sera feita a organizacao a descricao o resumo dos dados e a avaliacao e afirmacao sobre caracterısticas de interesse do pesquisador As analises estatısticas dependem da forma de como os dados sˆao coletados e o planeja mento estatıstico da pesquisa indica o esquema sob o qual os dados serao obtidos Portanto o planejamento da pesquisa e a analise estatıstica dos dados obtidos estao intimamente ligados Planejamento da pesquisa Analise estatıstica Dessa forma o pesquisador deve possuir um razoavel conhecimento de estatıstica para desenvolver suas pesquisas ou entao consultar um estatıstico para auxilialo E importante frisar que esta consulta deve ser feita antes do inıcio da pesquisa ainda durante a fase de elaboracao do projeto 111 Forma de coleta dos dados Em alguns casos como por exemplo na descricao de novas especies florestais os dados sao obtidos atraves da simples observacao de como o fenˆomeno acontece na natureza Neste caso nao sao feitas alteracoes no fenˆomeno em estudo Outro exemplo e o estudo sobre os efeitos da poluicao ambiental de uma regiao sobre animais roedores de determinada especie Neste caso um certo numero de animais amostra capturados na regiao estudada sera anal isado contando o numero de micronucleos existentes a cada cinco mil celulas caracterıstica estudada Levantamento observase o fenˆomeno na natureza Por outro lado em muitas outras situacoes as observacoes precisam ser geradas e sao feitas comumente sob condicoes controladas pelo pesquisador e os fatos eventos ou fenˆomenos 5 a serem estudados sao forcados a sofrer variacoes sistematicas mediante a aplicacao de tratamentos Na experimentacao entendese por tratamento as variacoes de um fator a ser estudado Um exemplo disto seria analisar a producao de milho mediante a aplicacao de diferentes doses de nitrogˆenio As diferentes doses de nitrogˆenio constituiriam os trata mentos Os outros fatores como por exemplo diferencas na fertilidade e umidade do solo existˆencia de pragas e ervas daninhas que poderao influir nos resultados obtidos producao final de milho sao minimizados tanto quanto possıvel do ponto de vista pratico Neste caso temos entao um experimento A funcao do experimento e determinar as relacoes de causa e efeito como por exemplo verificar como as doses de nitrogˆenio causa influenciam na producao de milho efeito Experimento causa efeito 112 Erro Experimental ou Resıduo Quando instalase um experimento desejamose verificar o efeito de diferentes tratamen tos sendo que os demais efeitos que nao os de tratamentos devem ser controlados ao maximo do ponto de vista pratico Portanto as pulverizacoes com produtos quımicos as capinas as mensuracoes etc devem ser feitas de modo o mais homogˆeneo possıvel em todo o experimento Da mesma forma a disponibilidade de agua a temperatura a umidade e as sementes utilizadas devem ser as mais similares possıveis Acontece que na pratica por maiores que sejam os esforcos dos pesquisadores para homogeneizar todos esses efeitos isto nao e possıvel sempre levando a ocorrˆencia de variacoes casuais ou aleatorias Isto pode ser verificado quando ao repetir o experimento sob condicoes as mais proximas possıveis do experimento anterior obtemos resultados diferentes Essas variacoes sao chamadas de erro experimental ou simplesmente erro E bom chamar a atencao que apesar do termo erro isto nao significa que o experimento foi mal feito Muitos preferem o termo resıduo para caracterizar essas variacoes aleatorias Vale a pena ressaltar que essas variacoes tambem ocorrem para dados obtidos atraves de levantamentos Finney 1952 diz que o proposito da ciˆencia estatıstica e fornecer uma base objetiva para a analise de problemas nos quais os dados estao sujeitos a variacao do acaso Por maiores que sejam os conhecimentos de um pesquisador sobre por exemplo nutricao e fisiologia animal ele jamais sera capaz de predizer com exatidao qual vai ser o peso de um suıno criado sob determinadas condicoes Existe um grande numero de causas que fazem este resultado 6 variar como por exemplo variacoes geneticas de temperatura ambiental umidade doencas etc Assim quando o elemento acaso esta presente em um problema dificuldades reais sao introduzidas Observe que estamos interessados em estudar os fenˆomenos ditos aleatorios isto e aqueles em que o elemento do acaso esta presente E importante ressaltar que quase tudo que fazemos no nosso cotidiano sao fenˆomenos aleatorios e portanto apresentam uma chance de ocorrˆencia devido ao acaso Assim sendo seria desejavel determinar qual e a sua probabilidade de ocorrˆencia Para tal finalidade precisamos estabelecer o modelo probabilıstico adequado Fenˆomeno aleatorio Modelo probabilıstico A seguir vamos apresentar duas partes importantes da estatıstica quais sejam analise exploratoria de dados e inferˆencia estatıstica 113 Analise Exploratoria de Dados Todo o trabalho de analise estatıstica inicia com a analise exploratoria de dados Em muitos casos com uma boa analise exploratoria de dados atendese aos objetivos da pesquisa principalmente em alguns estudos realizados atraves de levantamentos enquanto em outros ela serve como uma primeira aproximacao da analise final O conceito de estatıstica como podera ser visto ainda neste capıtulo e bastante amplo e engloba a nocao usual que as pessoas tˆem do que seja estatıstica Esse conceito usual logo relaciona a estatıstica com tabelas graficos taxas ındices nos quais os dados obtidos sao representados Assim ouvimos falar da produtividade media do milho no Estado de Santa Catarina ındice pluviometrico mensal anual ındice da inflacao taxa de desemprego estatısticas da saude publica estatısticas da loteria do aumento da producao de maca em Santa Catarina etc Essa parte utilizado para descrever fatos e de forma bastante apro priada apresentado nos livros como analise exploratoria de dados Ela se preocupa com a organizacao apresentacao simplificacao e descricao e nao explicacao dos dados Este enfoque de analise exploratoria de dados foi introduzido por Tukey 1971 no seu livro Exploratory Data Analysis A analise exploratoria de dados utilizase muito de tecnicas visuais e procura vislumbrar alguma regularidade quase sempre presente num conjunto de dados podendo sugerir modelos que possam ser utilizados na inferˆencia estatıstica Exemplo Foi feito um experimento para estudar a duracao em dias do quinto estadio ninfal de Triatoma klugi com alimentacao em galo Os resultados sao apresentados na tabela 7 Tabela 11 Valores da duracao em dias do quinto estadio ninfal de Triatoma klugi com alimentacao em galo MIP UFSC Florianopolis SC 2001 26 37 39 40 41 42 42 43 44 45 45 45 45 45 47 48 48 48 48 48 49 49 49 51 51 51 52 53 53 53 56 57 60 62 62 Duração do quinto estádio ninfal em dias Número de observações 0 1 2 3 4 5 6 7 8 9 10 11 12 13 26 31 36 41 47 52 57 62 Figura 11 Histograma da duracao em dias do quinto estadio ninfal de Triatoma klugi 11 Esses resultados foram representados atraves de um histograma dado na figura 11 Duas interpretacoes sao 1 um valor para representar os dados e igual a 48 dias 2 observa se no histograma uma cauda mais longa em direcao aos valores menores assim dizse que a distribuicao e levemente assimetrica a esquerda ou seja existe uma concentracao maior de valores em torno e acima do valor representativo A analise exploratoria de dados sera estudada na secao 2 114 Inferˆencia Estatıstica Ha ainda todo um campo bastante amplo da ciˆencia estatıstica que se refere a analise e a interpretacao do conjunto total de dados observandose somente uma parte deles Essa 8 parte e conhecida como Estatıstica Indutiva ou Inferencial e normalmente escapa a nocao corrente da grande maioria das pessoas Para deixar mais clara a finalidade da estatıstica inferencial e necessario fazer a apre sentacao de dois conceitos fundamentais que sao Populacao e Amostra Uma populacao consiste de todos os valores possıveis de uma caracterıstica desejavel Os valores que compoem uma populacao podem ser diferentes entre si e a mesma pode apre sentar um tamanho infinito ou finito porem desconhecido Na experimentacao a definicao de populacao e conceitual Sao exemplos de populacoes todos os valores possıveis da producao de milho em kgha de uma cultivar todos os pesos ao nascer de coelhos da raca gigante to dos os valores de diˆametro altura do peito de uma especie do manguezal do Itacorubi todos os valores de micronucleos por cinco mil celulas examinadas de roedores de uma determinada regiao Populacao todos os valores possıveis de uma variavel em estudo observadas em unidades experimentais com uma ou varias caracterısticas em comum Amostra e uma parte subconjunto da populacao Exemplos os pesos ao nascer de coelhos de uma ninhada pode ser uma amostra de uma populacao infinita uma amostra sera formada por 100 pesos de pacotes de cafe selecionados 50 valores de micronucleos por cinco mil celulas examinadas de peixes do gˆenero bagre selecionados cinco valores de producao de milho da dose 1 de nitrogˆenio cada um tomado num canteiro de 5 2 m2 etc Amostra um suconjunto da populacao E intuitivo que quanto maior a amostra mais precisas e confiaveis deverao ser as in ferˆencias realizadas sobre a populacao Levando esse raciocınio ao extremo concluiremos que os resultados mais exatos seriam obtidos pelo exame completo de toda a populacao ao qual se costuma denominar de Censo ou Recenseamento Porem a utilizacao de amostras pode ser feita de tal maneira que se obtenham resultados confiaveis em termos praticos de forma equivalente ou ate mesmo superiores aos que seriam conseguidos atraves do censo Na experimentacao biologica e agronˆomica geralmente nao temos acesso a toda a populacao portanto somos obrigados a trabalhar com amostras por exemplo nao podemos conhecer todos os valores possıveis de producao de milho em kgha de uma cultivar nao podemos determinar todos os comprimentos de baleias de uma area de protecao O fato e que nao e 9 necessario examinar toda a populacao para se chegar as conclusoes desejadas Desde que o tamanho da amostra seja convenientemente determinado e que a mesma seja representativa da populacao ou seja possua as mesmas caracterısticas basicas da populacao no que diz respeito as variaveis que desejase pesquisar inferencias suficientemente precisas e confiaveis podem ser realizadas Como exemplo podemos citar o experimento que tem como objetivo verificar o compor tamento da producao de milho sob o efeito de diferentes doses de nitrogˆenio As doses foram definidas pelo pesquisador Nesse caso geralmente a cultivar de milho escolhida para par ticipar do experimento e a cultivar mais plantada na regiao Os resultados sao apresentados na tabela 12 Para cada dose de nitrogˆenio sao plantados 5 canteiros de terra de 20m2 cada portanto o tamanho da amostra para cada dose de nitrogˆenio e 5ou seja foram feitas 5 repeticoes dos tratamentos Para cada amostra existe uma correspondente populacao cada populacao e formada por todos os valores possıveis de producao em kgha para a dose cor respondente Apos realizada a analise estatıstica e a interpretacao dos resultados a partir de um modelo que relacione a producao com as doses de nitrogˆenio sera indicada qualis as melhores doses de nitrogˆenio para a cultura do milho A estatıstica inferencial dada a sua grande importˆancia apresenta um grande numero de metodos de analise Seriam necessarios varios cursos de estatıstica para estudalos E bom deixar claro que para se executar uma analise estatıstica por mais sofisticada que seja o metodo utilizado devese primeiramente proceder a analise exploratoria dos dados Como ja foi comentado anteriormente uma caracterıstica dos experimentos biologicos e agronˆomicos e que os seus resultados tendem a variar de repeticao para repeticao ou de outra forma toda vez que se repetir o experimento sob condicoes bastante semelhantes os seus resultados nao sao os mesmos Esta variabilidade nos resultados do experimento deixa o pesquisador com duvidas quanto aos melhores tratamentos Neste caso os metodos estatısticos irao auxilialo Para ilustrar esta variacao vamos considerar os resultados da tabela 12 relativos as producoes de milho em kgha de cinco tratamentos incluindo o controle dose 0 O objetivo do experimento e comparar os cinco tratamentos com relacao a producao Mais especificamente podese estabelecer dois objetivos para o experimento quais sejam 1o testar a hipotese de que nao existem diferencas entre os tratamentos 2o estimar a diferenca de producao entre dois tratamentos Todos os experimentos sao conduzidos com estes dois objetivos testar hipoteses e estimar as diferencas dos efeitos de tratamentos Com respeito ao teste de hipotese de que nao ha diferenca entre as medias da dose 3 e 10 Tabela 12 Producao de milho em kgha submetidos a diferentes doses de nitrogˆenio no Oeste Catarinense 1993 Tratamentos Repeticoes Total Media I II III IV V Dose 1 3200 1980 2220 2850 2100 12350 2470 Dose 2 4150 2330 3700 4050 2500 16730 3346 Dose 3 4380 2830 3420 3900 3080 17610 3522 Dose 4 4000 2630 3150 3780 2670 16230 3246 Controle 2850 1780 2100 2900 2010 11640 2328 o controle por exemplo observase uma diferenca entre as duas medias de 352223281194 kgha que e uma diferenca bem consideravel para a cultura do milho Verificandose os dados observase que a producao da dose 3 na repeticao II foi inferior a producao do controle nas repeticoes I e IV Isto indica que temse que levar em consideracao a variabilidade dos dados ao se executar um teste de hipotese Mais especificamente vamos considerar a variabilidade da estatıstica de interesse neste exemplo a media amostral Devido a esta variabilidade os dados nunca concordam exatamente com a hipotese e o problema e decidir se a diferenca verificada e devida ao efeito do tratamento ou se e devida a variabilidade do acaso Isto e conhecido como teste de significˆancia Essencialmente um teste de significˆancia e uma regra de decisao com base nos resultados de um experimento se devese rejeitar ou nao rejeitar a hipotese Esta tecnica capacita o pesquisador a testar as suas hipoteses sobre a acao dos tratamentos com a garantia de que a probabilidade de rejeitar a hipotese quando ela e verdadeira e pequena Com respeito a estimacao da diferenca de producao entre a dose 3 e o controle descriti vamente podemos dizer que para este experimento foi de 1194 kgha em favor da dose 3 Mas esta e uma medida que tem pouca importˆancia pois se o experimento fosse repetido para obter outras cinco repeticoes essa diferenca poderia se modificar E mais importante pensar do seguinte modo Suponha que seja praticavel repetir o experimento continuamente isto e aumentar o numero de repeticoes indefinidamente A diferenca media das producoes entre as duas doses provavelmente ira estabilizar num determinado valor Este valor pode ser considerado como sendo a diferenca verdadeira entre as duas doses Entao o problema de resumir os dados pode ser colocado desta outra forma o que podese dizer sobre a diferenca verdadeira entre a dose 3 e o controle Esses sao problemas de inferˆencia que serao tratados neste curso nas secoes 6 7 e 8 11 115 Teoria da Probabilidade e seus Modelos Vimos que o objetivo da estatıstica indutiva ou inferencial e tirar conclusoes sobre pop ulacoes com base nos resultados observados em amostras extraıdas dessas populacoes Como vamos trabalhar com uma amostra o processo indutivo nao pode ser exato Ao se fazer in ferˆencias sobre a populacao portanto estamos sempre sujeitos a cometer erros isto e o pesquisador nao pode fazer afirmativas com 100 de certeza Isto porem nao deve de sesperancar o pesquisador pois a estatıstica indutiva ira dizer ate que ponto podese estar errando isto e qual e a probabilidade de erro Por exemplo podese afirmar com 95 de confianca que a diferenca media de producao em kgha de milho entre a dose 3 e o controle da cultivar A esta entre 694 e 1589 kgha Entao e possıvel determinar limites dentro dos quais a verdadeira diferenca deve encontrarse com um certo grau de certeza dada por uma probabilidade fixada pelo pesquisador Esses intervalos sao conhecidos em estatıstica como intervalos de confianca A espinha dorsal da inferˆencia estatıstica e a teoria da probabilidade com seus modelos probabilısticos a qual deve necessariamente fazer parte de um curso de estatıstica O que e um modelo no sentido geral da palavra Modelo e uma versao simplificada de algum evento fenˆomeno acontecimento da vida real Exemplos um globo e uma versao simplificada do planeta terra uma maquete de um predio um layout distribuicao interna etc Um dos propositos da ciˆencia e descrever e fazer previsoes de eventos do mundo real do mundo no qual nos vivemos Uma maneira pela qual isto e feito e construindose modelos matematicos que sao expressoes matematicas que adequadamente descrevem os fenˆomenos do mundo real Exemplo desejamos fazer um estudo sobre a distribuicao de uma especie vegetal num habitat Vamos supor que a distribuicao dessa especie no habitat e aleatoria casual sendo assim essa distribuicao se ajustara ao que e conhecido como modelo de Poisson Outro exemplo suponhamos que 10 vacas de mesma idade e raca sao tratadas com uma determinada racao A para aumentar a producao de leite total da lactacao Admitimos que a probabilidade de aumento de producao na lactacao e de π 0 65 Entao podemos estar interessados em saber qual e a probabilidade de exatamente 8 vacas aumentarem a producao na lactacao Nesse caso o modelo a ser usado e o binomial Estes modelos serao estudados na secao 4 Na construcao de um modelo devese simplificar as coisas e certos pormenores devem ser desprezados e claro que estes pormenores nao devem ter importˆancia para o entendimento do fenˆomeno em estudo A resolucao do problema matematico pode estar correta e mesmo 12 Amostragem Teoria de probabilidades Análise exploratória de dados Inferência estatística Tópicos especiais Figura 12 Esquema geral de um curso de estatıstica basica assim estar em grande discordˆancia com os dados observados simplesmente por que as hipoteses basicas feitas nao sao confirmadas Por isso e muito importante deduzir certas consequˆencias do modelo e a seguir comparar esses resultados previstos pelo modelo com dados reais observados E a validacao do modelo Para se desenvolver um curso basico completo de estatıstica devese abordar os pontos ilustrados na figura 12 A ordem de apresentacao dos pontos seria 1 analise exploratoria dos dados 2 probabilidades 3 obtencao das amostras atraves de levantamentos ou exper imentos 4 inferˆencia estatıstica e 5 outros topicos Como topicos especiais em um curso podese citar planejamento e analise de experimen tos analise de regressao e correlacao 12 A Estatıstica e o Metodo Cientıfico Nesta secao pretendese mostrar como a estatıstica pode ajudar o pesquisador a resolver os problemas por ele identificados e colocados como sendo realmente importantes Esta exposicao sera feita atraves de dois exemplos que foram desenvolvidos por um orgao de pesquisa do governo do Estado de Santa Catarina EPAGRI SA e pelo Centro de Ciˆencias Biologicas da Universidade Federal de Santa Catarina CCBUFSC respectivamente Quando se faz uma pesquisa cientıfica o procedimento geral e formular hipoteses e testa las Inicialmente essas hipoteses sao formuladas em termos cientıficos dentro da area de es 13 tudo hipotese cientıfica1 e em seguida devem ser expressas em termos estatısticos hipotese estatıstica E claro que deve haver uma correspondˆencia perfeita entre estas duas hipoteses Por exemplo no caso do experimento de aplicacao de diferentes doses de nitrogˆenio podemos formular a seguinte hipotese cientıfica e possıvel aumentar a producao de milho kgha atraves da aplicacao de nitrogˆenio E a seguinte hipotese estatıstica existe diferencas en tre as medias verdadeiras de producao de milho quando submetido a diferentes doses de nitrogˆenio Para testar uma hipotese estatıstica e preciso um conjunto de observacoes isto e e preciso coletar dados valores a respeito do fato que estamos estudando por exemplo nos precisamos de dados sobre a producao de milho para as diferentes doses de nitrogˆenio para que possamos testar a hipotese acima formulada Como estamos tratando de exper imentacao vamos obter nossas observacoes nossos dados atraves de um experimento ou seja as observacoes serao feitas sob condicoes controladas os fatos ou fenˆomenos a serem estudados sao planejados a sofrer variacoes sistematicas mediante a aplicacao de tratamen tos Por exemplo a producao de milho sofre variacoes devido a aplicacao de diferentes doses de nitrogˆenio Os efeitos dos outros fatores que nao as doses de nitrogˆenio sao minimizados tanto quanto possıvel por exemplo o efeito de diferencas de fertilidade do solo ataque de pragas e doencas invasoras sombreamento etc A hipotese acima formulada vai ser testada por meio de uma analise estatıstica Esta por sua vez depende de como foi instalado o experimento ou seja de como as observacoes foram obtidas Com isso podemos verificar a grande importˆancia de um bom planejamento inicial do experimento esta fase inclusive e chamada de planejamento estatıstico do experimento Planejamento de experimento e analise estatıstica sao feitos em sequˆencia e estao intimamente ligados Por delineamento estatıstico de experimento entendemos o processo de planejamento do experimento de tal forma que os dados obtidos possam ser analizados atraves de metodos estatısticos resultando em conclusoes validas e objetivas Montgomery 2001 Podemos resumir isto que foi dito por meio da representacao grafica da circularidade do metodo cientıfico Peres e Saldiva 1982 apresentada na figura 13 Para fixar melhor a ideia de pesquisa cientıfica estatisticamente planejada vamos atraves de dois projetos de pesquisa seguir as principais etapas do metodo cientıfico Projeto 1 Recuperacao de Ervais Nativos Atraves da Decepa 1 Identificacao do problema Iniciase uma pesquisa cientıfica com a definicao do prob 1Hipotese cientıfica Dado um problema bem definido identificado vamos imaginar uma explicacao para algum aspecto do problema que nos tenha despertado interesse Essa e a hipotese e deve ser coerente com as observacoes importantes ja feitas aliada aos conhecimentos teoricos que o pesquisador possue sobre o assunto 14 4 Desenvolvimento da teoria 2 Observações ou dados 1 Formulação de hipóteses 3 Verificação das hipóteses formuladas Análise estatística Planejamento estatístico do experimento Figura 13 Circularidade do metodo cientıfico lema juntamente com a formulacao dos objetivos e hipoteses No planejamento do experi mento e importante a participacao de especialistas de diversas areas pois quanto maior o conhecimento adquirido melhor o entendimento sobre o fenˆomeno em estudo e isto facili tara a solucao final do problema Os ervais explorados para a producao de ervamate sao na grande maioria plantas nativas Dada a grande demanda por ervamate as erveiras foram exploradas isto e extraıda sua massa foliar atraves de metodos inadequados esta falta de manejo implicou na extincao de especies e outras estao em vias de extincao entao os ervais nativos ficaram em sua quase totalidade comprometidos Buscando recuperar os ervais nativos ira aplicarse a tecnica da decepa total das erveiras em diferentes nıveis de altura 2 Objetivo geral Determinar o efeito da decepa em plantas adultas e danificadas de erveiras 3 Objetivos especıficos Verificar a capacidade e comprimento de brotacao estudar a producao de massa verde verificar a sobrevivˆencia das erveiras decepadas 15 4 Formulacao da hipotese cientıfica E viavel a recuperacao de ervais nativos e impro dutivos atraves da pratica da decepa 5 Escolha dos fatores que devem ser incluıdos no estudo e seus correspondentes nıveis tratamentos O pesquisador deve escolher os fatores a serem estudados a faixa na qual esses fatores serao variados e os nıveis especıficos utilizados no experimento Neste projeto o fator tambem conhecido como variavel independente e a decepa e as alturas em que sera realizada a mesma sao os tratamentos nıveis do fator Foram utilizadas quatro alturas de decepa 4 tratamentos quais sejam tratamento 1 altura de decepa a 000 m do solo tratamento 2 altura de decepa a 030 m do solo tratamento 3 altura de decepa a 060 m do solo tratamento 4 altura de decepa a 090 m do solo Este e um experimento com um fator 6 Escolha da unidade experimental As unidades experimentais sao as que recebem os tratamentos e devem ser as mais homogˆeneas possıveis para que quando submetidas a tratamentos diferentes seus efeitos sejam facilmente detectados Portanto elas devem ser orientadas no sentido de minimizar o erro experimental As unidades experimentais pode ser um animal um conjunto de animais uma pessoa cinco mil celulas uma planta um conjunto de plantas um vaso um frango cinco areas de 5 cm2 em um frango um tubo de ensaio etc Nesse experimento a unidade experimental e formada por 8 plantas de ervamate de diˆametros bem proximos Entao o tratamento 1 sera aplicado a 8 plantas de ervamate o tratamento 2 a outras 8 plantas e assim por diante ate o quarto tratamento Embora tenhamos 8 medidas da variavel resposta em cada unidade experimental esses resultados nao sao repeticoes independentes Na realidade so temos um resultado independente para cada tratamento a media das oito arvores para cada variavel resposta em estudo A heterogeneidade das unidades experimentais e que determina os diferentes planos ex perimentais 7 Escolha das variaveis que serao medidas nas unidades experimentais Denominam se de variaveis as caracterısticas que serao mensuradas avaliadas pelos pesquisadores nas unidades experimentais As variaveis sao preestabelecidas pelo pesquisador e devem medir diretamente os tratamentos de acordo com os objetivos do trabalho Algumas variaveis medidas nesse experimento foram percentagem de brotacao numero de brotos comprimento dos brotos producao de massa verde para a industria e sobrevivˆencia das erveiras decepadas O importante e que os dados devem ser objetivos precisos e verdadeiros isto e o mınimo que se espera de alguem que ira publicar um trabalho de pesquisa 8 Determinacao das regras e procedimentos pelos quais os tratamentos sao atribuıdos as unidades experimentais delineamentos experimentais Tratase de normas de designar 16 os tratamentos as unidades experimentais e que definem os delineamentos experimentais A estatıstica e bastante rica em planos delineamentos experimentais E nesse item que a estatıstica participa fortemente do planejamento da pesquisa ou seja a sua contribuicao e bastante grande de tal forma que podese chamar esta etapa de planejamento estatıstico do experimento Veja figura 13 E importante na fase de planejamento da pesquisa escolher adequadamente o delineamento pois caso contrario podese ter muita dificuldade na analise estatıstica e ate mesmo invalidar os resultados do experimento Neste experimento os tratamentos foram atribuıdos as unidades experimentais da seguinte forma Primeiramente foram formados cinco blocos onde cada bloco e constituıdo de 4 unidades experimentais pois temos 4 tratamentos como cada unidade experimental tem 8 plantas entao um bloco tem 32 plantas Os blocos estao controlando as diferencas de diˆametros entre as plantas assim o bloco I e formado por 32 plantas com diˆametros entre 10 e 13 cm exclusive o bloco II e formado por 32 plantas com diˆametros entre 13 e 16 cm exclusive o bloco III e formado por 32 plantas com diˆametros entre 16 e 19 cm exclusive o bloco IV e formado por 32 plantas com diˆametros entre 19 e 22 cm exclusive e o bloco V e formado por 32 plantas com diˆametros superiores a 22 cm Portanto cada tratamento sera repetido 5 vezes uma em cada bloco Dentro de cada bloco houve o sorteio aleatorizacao de qual unidade recebera o tratamento 1 qual recebera o tratamento 2 e assim por diante Este delineamento experimental e denominado de blocos completos ao acaso 9 Coleta dos dados Aqui sao feitas as medidas das variaveis estabelecidas pelo pesquisador As variaveis logicamente devem avaliar diretamente os efeitos dos tratamentos de acordo com objetivos do experimento Tambem podem ser coletadas variaveis complementares que serao uteis para explicar o comportamento dos tratamentos 10 Analise estatıstica dos resultados O objetivo da analise estatıstica e verificar as hipoteses formuladas no inıcio da pesquisa cientıfica Por exemplo comparar as medias de producao de massa foliar obtidas com cada uma das alturas de decepa ou estabelecer uma relacao funcional entre a producao de massa foliar e a altura de decepa das plantas Existem excelentes softwares estatısticos para realizar as analises A analise de resıduos e uma importante tecnica para verificar por exemplo se o modelo e adequado 11 Relatorio final publicacao Apresentar tabelas e graficos de forma a mostrar os efeitos esperados comparar os resultados obtidos com os objetivos do experimento para verificar se as questoes propostas foram respondidas Apresentar medidas de precisao das estimativas Se possıvel fazer referˆencias a outras pesquisas similares e uma avaliacao de todas as etapas com sugestoes para possıveis alteracoes em pesquisas futuras A experimentacao e uma importante fase do processo de aprendizagem onde nos formu 17 lamos hipoteses realizamos o experimento para pesquisar sobre essas hipoteses e de acordo com os resultados formulamos novas hipoteses e assim sucessivamente Isto sugere que a experimentacao e iterativa Projeto 2 Analise de Alguns Aspectos da Dinˆamica de Populacoes de Duas Amostras de Biomphalaria tenagophila Submetidas a Diferentes Concentracoes de Materia Orgˆanica no Meio 1 Identificacao do problema A importˆancia do genˆero Biomphalaria no contexto da saude publica brasileira devese ao fato de que dentre as 19 especies que constituem este genˆero dez delas sao encontradas no Brasil sendo que trˆes sao hospedeiras intermediarias do Schistosoma mansoni causador da esquistossomose mansoni um dos mais importantes problemas de saude publica em muitos paıses tropicais e subtropicais Sua ocorrˆencia e acen tuada entre populacoes carentes de alguns paıses subdesenvolvidos Segundo a Organizacao Mundial da Saude sao estimados 200 milhoes de pessoas como tendo sido contaminadas pelo S mansoni enquanto outros 500 a 600 milhoes correm o risco de contraıla As trˆes especies hospedeiras sao B straminea B glabrata e B tenagophila No Brasil estimase em 55 milhoes de pessoas infectadas isto parece ser uma subesti mativa pois o Instituto de Medicina Tropical IMT da Faculdade de Medicina da USP estimou em 10 milhoes o numero de pessoas infectadas Em Santa Catarina o primeiro foco de transmissao ocorreu em Sao Francisco do Sul atraves da B tenagophila Hoje temse registro de B tenagophila em 26 municıpios do nordeste do Estado Na Ilha de Santa Catarina pesquisadores obtiveram registros de B tenagophila B oligoza e Drepanotrema sp em 8 pontos estrategicos Em consequˆencia da alta endemicidade da esquistossomose no paıs a distribuicao dos planorbıdeos vem sofrendo constantes investigacoes sendo que especial atencao tem sido dada ainda ao controle da expansao das especies vetoras apesar que a area ocupada por cada uma das especies vetoras do S mansoni esta aumentando O genˆero Biomphalaria apresenta uma grande tolerˆancia a diferentes condicoes ecologicas isto permitiu sua ampla distribuicao geografica Muitos autores analisaram o comportamento reprodutivo e crescimento em funcao de uma serie de variaveis sendo que os efeitos de temperatura tipo ou ausˆencia de alimentacao influˆencia do fotoperiodismo e densidade populacional sao alguns que receberam maior atencao As condicoes do meio exigidas pelas biomfalarias para colonizar um ambiente sao riquezas de microflora e materia orgˆanica pouca turbidez boa insolacao pH em torno de 18 6 a 8 teor de NaCl abaixo de 3 por 1000 e temperatura media entre 20C e 25C Cabe aqui ressaltar todavia que as bionfalarias suportam modificacoes consideraveis nas carac terısticas fısicas quımicas e biologicas de seus ambientes podendo inclusive utizarse da estivacao como uma estrategia para suportar a adversidade do meio Sabendose que os representantes do gˆenero Biomphalaria sao constantementes encon trados em grande variedades de colecoes de agua doce paradas ou pouco correntes natural ou articialmente alagadas que um unico especime e capaz de produzir por autofecundacao uma populacao de numerosos indivıduos e que B tenagophila esta em provavel extensao em Santa Catarina tornase importante estudar os fatores bioticos e abioticos que interferem na biologia distribuicao e adaptacao aos ambientes por eles explorados Assim sendo o objetivo do presente trabalho e avaliar crescimento desempenho reprodutivo sobrevivˆencia e fecundidade de duas amostras de B tenagophila considerandose diferentes condicoes do meio 2 Objetivo geral Determinar o efeito de diferentes condicoes do meio poluicao sobre a biologia de B tenagophila 3 Objetivos especıficos Verificar estudar o crescimento de B tenagophila Estudar o desempenho reprodutivo da especie 4 Hipotese cientıfica Num meio com poluicao o desenvolvimento biologico da especie e prejudicado 5 Escolha do fator que deve ser incluıdo no estudo e seus correspondentes nıveis Nesse projeto o fator em estudo e poluicao tambem chamado de variavel independente os difer entes nıveis de poluicao sao os tratamentos Nesse trabalho foram utilizados dois tratamentos quais sejam 1 Sem poluicao com troca de agua e 2 com poluicao completa a agua 6 Escolha da unidade experimental Nesse experimento a unidade experimental e um caramujo Cada unidade experimental e formada por um copo de vidro miniaquario com 60 ml de agua deionizada contendo um caramujo 7 Escolha das variaveis que serao medidas nas unidades experimentais Algumas variaveis avaliadas neste experimento foram diˆametro em trˆes diferentes tempos nascimento na 1a desova e no final do experimento idade na 1a desova numero de ovos desenvolvidos numero de ovos viaveis numero de ovos inviaveis numero total de ovos 8 Determinacao das regras e procedimentos pelos quais os tratamentos sao atribuıdos as unidades experimentais Nesse experimento a amostra total foi composta por 51 caramujos ie 51 unidades experimentais Atraves de um processo aleatorio foram escolhidos 23 19 caramujos para receberem o tratamento T e 28 caramujos para receberem o tratamento C A regra de estabelecer os tratamentos as unidades experimentais foi completamente ao acaso 9 Coleta de dados Analise estatıstica dos dados e Relatorio final Idem ao que foi comentado para o projeto 1 13 Aspectos do Planejamento Estatıstico de um Experimento 131 Experimentos com um Fator e mais de um Fator Nos projetos 1 e 2 vimos dois experimentos com apenas 1 fator No projeto 1 o fator e a decepa e no projeto 2 e a poluicao Em muitos caso temos experimentos com mais de um fator Considere um experimento com cinco 5 doses de leite de vaca e cinco 5 doses de coagulante Aqui temos 2 fatores em estudo doses de leite e coagulante com 5 nıveis cada um caracterizando um E interessante salientar que a escolha dos fatores e seus nıveis e incumbˆencia do pesquisador Nos experimentos fatoriais e possıvel estudarse a interacao que existe entre os fatores isto e como e o comportamento dos nıveis de um fator dentro dos nıveis do outro fator A figura 14 ilustra o efeito da interacao entre os fatores leite de vaca e coagulante Os fatores podem ser quantitativos ou qualitativos A temperatura de um forno os nıveis de nitrogˆenio e de fosforo sao exemplos de fatores quantitativos enquanto que fabricantes de drogas diferentes locais e meios de cultura sao fatores qualitativos E importante para o planejamento e a analise estatıstica distinguirmos as seguintes situacoes a um pesquisador deseja conduzir um experimento para verificar o efeito do starter Lactobacillus plantarum em salame tipo italiano sobre o tempo de maturacao dos mesmos Para essa finalidade utilizou 3 concentracoes do starter quais sejam 2 5 10 5 5 0 105 e 10 0 105 celulas viaveisgrama de massa Ele deseja saber se ha diferencas entre as 3 concentracoes Portanto nesse experimento temos um fator starter de efeito fixo isto e as concentracoes foram definidas pelo pesquisador ou seja nao foi feita uma escolha aleatoria dos nıveis assim as conclusoes desse experimento se referem apenas as concentracoes uti lizadas no experimento 20 Dose 1 Dose 2 Dose 3 Dose 4 Dose 5 Doses de leite de vaca Textura 2 3 4 5 6 7 8 9 05 10 15 20 25 30 35 40 45 50 55 Figura 14 Efeito da interacao entre doses de leite de vaca e doses de coagulante b um tecnologista quer comparar a qualidade de pao fabricado por diferentes padarias da cidade de Florianopolis Neste caso as padarias sao os tratamentos Ele deseja que seus resultados sejam validos para todas as padarias de Florianopolis entao em lugar de escolher intencionalmente algumas padarias que pretende comparalas devera sortealas a partir de algum procedimento que garanta a aleatoriedade como por exemplo a tabela de numero aleatorios dada no apˆendice 7 assim o pesquisador estara fazendo um experimento onde o fator e dito aleatorio Para saber se um efeito e aleatorio verifique se os tratamentos em comparacao representam uma amostra aleatoria de uma populacao Se os tratamentos nao sao uma amostra aleatoria o efeito e fixo Sobre as conclusoes podese dizer 1 os fatores sao fixos neste caso os resultados conclusoes sao validos apenas para os nıveis do fator que estao presentes no experimento e 2 os fatores sao aleatorios as conclusoes sao validas para a populacao de nıveis Os tratamentos sao selecionados pelo pesquisador e deve ser feita de acordo com os objetivos do trabalho Um bom conhecimento do material experimental e alguma ideia sobre os efeitos dos tratamentos sao muito uteis para dar mais objetividade aos trabalhos As conclusoes de um experimento dependem de como os dados foram coletados No projeto 1 estudouse 4 alturas de decepas e procurouse controlar a idade das plantas por meio da blocagem isto e foram agrupadas as arvores com idades proximas Caso nao tivesse sido feito esse controle o pesquisador nao saberia dizer se as diferencas medias da variavel resposta seriam devido as alturas de decepas ou da idade das arvores Esse fato e 21 conhecido como confundimento de fatores e a variavel idade e conhecida como variavel de perturbacao em inglˆes nuisance variable 132 Tratamento Controle E necessario quando nao se conhece a eficiˆencia dos tratamentos em estudo ou quando a eficiˆencia dos tratamentos e conhecida mas nao e consistente em todas as condicoes Nem todos os experimentos necessitam do tratamento controle Exemplo alta pressao em tem peratura ambiente 25C e o experimento foi feito a 2C frango cru O que e O trata mento controle consiste em se realizar todos os procedimentos que sao feitos nas unidades experimentais usadas para os outros tratamentos exceto a aplicacao do efeito em estudo Exemplo num estudo sobre aditivos em alimentos um tratamento pode consistir de uma porcao de um vegetal contendo um aditivo particular que e servido a um degustador O tratamento controle consistiria de uma porcao do mesmo vegetal servido ao degustador na mesma situacao experimental exceto que nao seria utilizado o aditivo no alimento E fun damental que o tratamento controle seja conduzido nas mesmas condicoes experimentais dos outros tratamentos 133 Variaveis e Covariaveis O que pode constituir problema as vezes e a forma como a variavel e medida pois disso depende a precisao das observacoes e o tipo de analise a ser executada Exemplo se os valores da variavel sabor de um alimento e dada numa escala de 1 a 10 podese aumentar a precisao e facilitar a analise utilizandose como observacao a media de 3 valores da mesma unidade experimental Quando temos uma variavel que influencia as variaveis dependentes chamase a mesma de covariavel Exemplos 1 se o tempo necessario para executar um experimento e 30 dias e se a temperatura do ambiente tem influˆencia na variavel dependente resposta entao a temperatura deve ser mantida constante Se isso nao for possıvel entao devese medir a temperatura para cada unidade experimental 2 num experimento para comparar 4 meios de cultura em frangos congelados onde a variavel dependente e a populacao de Staphilococus aureus cada frango apresenta uma populacao inicial de Staphilococus diferente neste caso a populacao inicial de Staphilococus e a covariavel 3 Num experimento para estudar a producao de 10 variedades de soja o numero de sementes que germinam nos canteiros e 22 a covariavel Estas variaveis entram na analise como covariaveis e observe que elas nao podem ser controladas pelo pesquisador Este fato e que as diferencia de uma variavel de perturbacao nuisance variable 134 Repeticao e Casualizacao Para que a metodologia estatıstica possa ser aplicada aos resultados de um experimento e necessario obedecer a dois princıpios basicos da experimentacao o da repeticao e da aleator izacao dos tratamentos Um terceiro princıpio o controle local pode ou nao ocorrer num experimento A Repeticao consiste como o proprio nome indica em repetir o mesmo tratamento varias vezes O uso de repeticoes dos tratamentos e necessario para podermos calcular a variabili dade e com isso executar os testes estatısticos e tambem para fazer estimacao intervalar dos efeitos dos tratamentos De um modo geral quanto maior o numero de repeticoes mais precisas vao ser as nossas estimativas Na pratica o numero de repeticoes vai depender muito dos recursos e material experimental disponıvel O calculo do tamanho da amostra e um dos principais itens do planejamento de um experimento e a sua determinacao nao e trivial e exige que se tenha algum conhecimento sobre a variabilidade dos dados a precisao e confianca desejadas nos resultados Entao as principais finalidades do uso de repeticoes sao 1 dar uma estimativa do erro experimental 2 aumentar a precisao de um experimento reduzindo o desvio padrao das medias dos tratamentos e 3 estimacao e testes de hipoteses O que caracteriza uma repeticao e que ela deve gerar um resultado independente A aleatorizacao ou casualizacao consiste no sorteio dos tratamentos as unidades exper imentais por um processo bem definido fixo e necessaria para termos certeza de que um tratamento nao seja beneficiado ou prejudicado por alguma causa conhecida ou desconhecida tais como intensidade de luz constituicao genetica temperatura umidade ventilacao etc E tambem fundamental para atender a suposicao de que os dados sao oriundos de uma amostra aleatoria Os metodos estatısticos requerem que as observacoes ou os erros se jam variaveis aleatorias independentemente distribuıdas A casualizacao faz com que esta suposicao seja valida O princıpio da casualizacao e uma das principais contribuicoes dos estatısticos a ciˆencia experimental principalmente Ronald A Fisher 1890 1962 So a casualizacao garante que unidades com caracterısticas diferentes tenham igual probabilidade de serem designadas para os diferentes tratamentos Com a casualizacao obtemos estimati vas nao tendenciosas das medias dos tratamentos e das diferencas entre as medias obtemos uma estimativa nao tendenciosa do erro experimental Certas restricoes podem ser incluıdas 23 na casualizacao controle local para levar em consideracao algumas fontes de variacao do material experimental O delineamento em blocos completos ao acaso apresenta uma restricao 14 Exercıcios Propostos 1 Planeje um experimento para comparar a producao de cinco variedades de milho 2 Planeje um experimento para testar o efeito da adubacao nitrogenada 5 nıveis sobre a producao de milho 3 Planeje um experimento na sua area de pesquisa Para a resolucao desses exercıcios entendese que um experimento esta planejado quando estao definidas 1 enunciado do problema com formulacao do objetivo geral dos objetivos especıficos e das hipoteses 3 escolha dos fatores e de seus nıveis que devem ser incluıdos no estudoFaca uma descricao dos mesmos 3 as variaveis respostas ou dependentes em analise e a forma como serao medidas 4 a unidade experimental 5 decidir sobre o numero de unidades experimentais a serem associadas a cada tratamento 6 a forma maneira como os tratamentos serao designados as unidades experimentais 7 bibliografia 24 2 Analise Exploratoria de Dados 21 Organizacao Resumo e Representacao de Dados 211 Introducao Como ja comentamos anteriormente a parte da Estatıstica que trata da organizacao apresentacao resumo e descricao dos dados e conhecida como Analise Exploratoria de Dados Esta parte geralmente limitavase a construcao de alguns tipos de graficos linhas colunas e setores e ao calculo de algumas medidas de tendˆencia central e de variabilidade como por exemplo a media e a variˆancia Atualmente foram desenvolvidas muitas outras tecnicas Tukey 1971 principalmente visuais atraves das quais procurase estudar a regularidade presente nos dados Esta analise permite que o pesquisador adquire um bom conhecimento e senso crıtico sobre os seus dados observados Neste capıtulo atraves da Analise Exploratoria de Dados procuraremos tirar o maximo de informacoes de um conjunto de dados ou seja fazer todas as interpretacoes necessarias para responder aos objetivos de uma pesquisa Quando estamos trabalhando com um conjunto de dados e bastante provavel que o mesmo apresente algum tipo de regularidade ou seja um padrao de variacao Devido a esta regularidade presente nos dados e possıvel ajustarse um modelo Este e um dos principais objetivos da analise exploratoria de dados isto e procurar estabelecer um modelo para um conjunto de dados o qual possa ser utilizado na analise estatıstica inferencial Exemplo do que seja um modelo no aspecto geral vamos verificar o tipo de relacionamento entre a taxa de crescimento de uma pastagem cultivada no Planalto Catarinense e a temperatura do solo a 10 cm de profundidade no perıodo de junho a novembro A figura 21 mostra a distribuicao dos pontos entre essas duas variaveis De modo visual podemos verificar que existe uma relacao linear entre a temperatura do solo e a taxa de crescimento desse modo podemos tracar uma reta a olhˆometro o mais proximo possıvel de todos os pontos que sera o nosso modelo Evidentemente que os pontos nao caem sobre a reta pode ocorrer para alguns A diferenca entre os dados e o modelo e chamada de erro Explicacao sobre o termo do erro foi dado na secao 112 Chamase de modelo a parte da variabilidade dos dados que e explicada pelo mesmo e erro a parte da variabilidade dos dados nao explicada pelo modelo A figura 22 ilustra os Dados a parte do modelo e a parte do erro para uma observacao Os dois componentes sao igualmente importantes O estudo denominado de Analise de Resıduos nos fornece 25 Temperatura do solo graus centígrados Taxa de crescimento kghadia 10 14 18 22 26 30 34 38 8 10 12 14 16 18 20 22 Figura 21 Relacao entre temperatura do solo a 10 cm de profundidade e taxa de crescimento de uma pastagem de inverno no Planalto Catarinense informacao se a parte do modelo e adequada ou nao para representar os dados dentre outros aspectos importantes da analise de dados 212 Classificacao das Variaveis Selecionadas para o Estudo Um pesquisador quando esta realizando um determinado experimento ou levantamento necessita avaliar certas caracterısticas nas plantas nos animais instrumentos pessoas etc Por exemplo registrar o diˆametro altura de peito DAP de Avicenias do manguezal do Itacorubi a producao de milho por hectare a resistˆencia ao ataque de pragas do feijao fazer a contagem do numero de vagens por planta numero de graos por vagem etc Estas caracterısticas chamamse variaveis porque originam valores que tendem a variar quando se fazem medidas sucessivas por exemplo vamos supor que plantemos quatro areas de 30m2 de um hıbrido de milho com certeza vamos obter quatro valores diferentes de producao nessas areas unidades experimentais Um pesquisador deve aprender a identificar quatro tipos de variaveis que serao descritas atraves de um exemplo Exemplo Um pesquisador instalou um experimento para avaliacao do comportamento de hıbridos de milho para isso tomou algumas medidas agronˆomcias que estao apresentadas na tabela 21 Muitas variaveis tais como tipo de grao e resistˆencia a ferrugem apresentam como resultado uma qualidade ou atributo e outras variaveis tais como rendimento medio ciclo 26 Tabela 21 Resultados de um experimento de competicao de hıbridos de milho para a regiao preferencial I com altitudes abaixo de 800m safra19871988 Hıbridos Rendimento medio Ciclo Altura planta Altura espiga Tipo grao Ferrugem 1 kgha dias cm cm escala 1 6388 65 242 103 dentado r 2 6166 65 258 134 semidentado r 3 6047 65 240 104 semidentado s 4 5889 66 243 108 semidentado s 5 5823 69 257 128 dentado ms 6 5513 68 241 108 semidentado s 7 5202 64 235 108 dentado r 8 5172 68 240 103 dentado s 9 5166 69 253 123 dentado ms 10 4975 70 250 117 semidentado ms 11 4778 70 242 114 dentado mr 12 4680 66 245 111 semiduro ms 13 4660 69 239 110 semiduro mr 14 5403 73 264 138 dentado ms 15 5117 76 282 149 dentado mr 16 5063 72 274 151 dentado r 17 4993 71 279 134 semidentado r 18 4980 72 274 140 dentado ms 19 4770 73 244 140 dentado r 20 4685 71 265 139 semiduro mr 21 4614 73 248 110 semidentado r 22 4552 73 265 128 semidentado r 23 3973 74 261 124 semidentado mr 24 4550 71 259 129 semiduro s 25 5056 64 252 104 semiduro mr 26 4500 70 271 109 dentado ms 27 4760 68 243 137 semiduro r 28 5110 66 252 141 semidentado ms 29 4960 70 262 120 dentado ms 30 4769 73 260 118 dentado r 31 4849 74 250 119 semidentado s 32 5230 71 255 138 semiduro s 1rresistente mrmoderadamente resistente msm susceptıvel ssusceptıvel 27 D E M Figura 22 Os componentes de um modelo da cultura apresentam como resultado medidas ou contagens As variaveis do primeiro tipo sao chamadas de variaveis qualitativas e as do segundo tipo sao chamadas de variaveis quantitativas Dentre as variaveis qualitativas podemos distinguir dois tipos variaveis qualitativas ordinais para estas variaveis existe uma ordem nos possıveis resultados da mesma No exemplo temos a resistˆencia a ferrugem dada numa escala Outro exemplo podem ser 1o grau 2o grau superior variaveis qualitativas nominais para estas variaveis nao existe uma ordenacao nos resultados No exemplo temos o tipo de grao como variavel desse tipo Outros ex emplos podem ser germinanao germina os cursos da UFSC Agronomia Ciˆencias Biologicas etc a cˆor da flor de soja Dentre as variaveis quantitativas tambem podemos distinguir dois tipos variaveis quantitativas discretas estas variaveis so podem assumir certos valores em geral numeros inteiros e normalmente sao resultantes de contagens E possıvel formar uma lista finita ou infinita dos valores No exemplo a variavel ciclo da cultura e discreta Outros exemplos podem ser numero de dias da emergˆencia a floracao numero de vagens por planta numero de graos por vagem variaveis quantitativas contınuas estas variaveis assumem todos os valores possıveis dentro de um determinado intervalo Esta variaveis dependendo da precisao uti lizada na medicao sao capazes de diferenciar animais plantas para valores muito pe 28 quenos Sao variaveis cujos resultados geralmente sao fracionarios No exemplo temos a variavel rendimento medio de graos de milho altura da planta altura de espiga A distincao entre variaveis contınuas e discretas e muitas vezes artificial pois depende da aproximacao precisao utilizada Por exemplo idade e uma variavel de medida de tempo portanto por definicao e uma variavel aleatoria contınua porem em muitos casos ela e medida em anos completos discretizacao da variavel o que a torna uma variavel discreta Serao tratadas como variaveis contınuas todas as que pelo menos em teoria possam assumir qualquer valor dentro de um intervalo Para cada tipo de variavel existem tecnicas mais apropriadas para resumir as informacoes entretanto vamos verificar que tecnicas usadas num caso podem ser adaptadas para outros pois e possıvel transformar variaveis quantitativas em qualitativas e viceversa Por exemplo sexo 1 masculino e 0 feminino rendimento colocar em categorias por exemplo baixa media e alta producao O estudo de probablidades tambem apresenta os seus modelos de acordo com cada tipo de variavel Estes modelos serao estudados nas secoes 3 4 e 5 213 Distribuicoes de Frequˆencias Representacao em Tabelas e Graficos Feita a coleta dos dados atraves de censos de levantamentos por amostragem Survey em inglˆes ou de experimentos os mesmos apresentamse geralmente de maneira desor ganizada ainda sem valor informativo sobre o fenˆomeno em estudo portanto os mesmos devem ser organizados e resumidos para possibilitarem a obtencao de informacoes uteis para o trabalho de pesquisa O estudo das distribuicoes de frequˆencias nos permite conhecer a forma a maneira como os valores de uma variavel se comporta isto e e possıvel ter uma boa ideia global dos valores ou seja da distribuicao Uma distribuicao de frequˆencias pode ser representada em forma de tabela ou grafico 2131 Distribuicoes de Frequˆencias de Variaveis Qualitativas Representacao em Tabelas Feita a coleta dos dados relativa as variaveis definidas no inıcio da pesquisa o inves tigador tem interesse agora em conhecer o comportamento dessas variaveis considerando os elementos pesquisados por exemplo conhecer a distribuicao da variavel resistˆencia a ferrugem pesquisada em 32 hıbridos de milho na regiao de Chapeco SC 29 Este estudo pode ser feito atraves da construcao de distribuicoes de frequˆencias chamando se de frequˆencia por exemplo o numero de hıbridos para a categoria S MS MR e R respectivamente Chamase portanto distribuicao de frequˆencias a correspondˆencia entre categorias ou valores possıveis de uma variavel e as respectivas frequˆencias Inicialmente vamos representar as distribuicoes de frequˆencias em tabelas Alguns aspectos importantes devem ser levados em consideracao na construcao de uma tabela quais sejam 1 Toda tabela deve conter um tıtulo completo as trˆes questoes que devem ser respondidas num tıtulo sao o quˆe se esta estudando onde foi feito o estudo e quando O tıtulo deve ser colocado na parte superior da tabela 2 Se os dados nao sao proprios devese indicar a fonte dos mesmos Ela vai na parte inferior da tabela 3 As notas e chamadas sao utilizadas para fazer esclarecimentos de ordem geral e es pecıficas respectivamente Ambas sao numeradas geralmente em algarismos arabicos podese ainda utilizar letras minusculas ou sımbolos como por exemplo asterisco Tambem sao colocadas na parte inferior da tabela 4 Os totais e subtotais devem ser bem destacados 5 De preferˆencia usar o mesmo numero de casas decimais para os algarismos 6 Nao devem ser fechadas lateralmente 7 Quando algum valor da tabela e nulo pela propria natureza do fenˆomeno em estudo devese utilizar o hıfen para substituılo Quando nao se tem informacao sobre algum valor devese colocar trˆes pontos Se existe duvida sobre a exatidao da informacao devese usar ponto de interrogacao Se algum valor for omitido para evitar individualizacao devese usar a letra x O sımbolo de paragrafo e utilizado para retificar uma informacao publicada anteriormente Exemplo A tabela 21 apresenta os dados sobre resistˆencia a ferrugem de 32 hıbridos de milho coluna 7 A distribuicao de frequˆencias para essa variavel e apresentada na tabela 22 cuja construcao passamos a discutir Na tabela 22 a primeira coluna mostra todas as categorias da variavel resistˆencia a ferrugem Na segunda coluna temos as frequˆencias absolutas resultantes da contagem de 30 Tabela 22 Distribuicao de frequˆencias da resistˆencia a ferrugem de 32 hıbridos de milho recomendados para a regiao preferencial I com altitudes abaixo de 800m 198788 Resistˆencia a Frequˆencia absoluta Frequˆencia relativa Porcentagem acumulada ferrugem de satisfeito R 10 0313 31250 31250 MR 6 0188 18750 50000 MS 9 0281 28125 S 7 0219 21875 TOTAL 32 1000 100000 quantas observacoes se identificam com cada categoria A notacao para as frequˆencias ab solutas e ni assim temos n1 10 n2 6 n3 9 n4 7 A terceira coluna apresenta uma medida relativa de cada frequˆencia obtida da divisao de cada frequˆencia absoluta pelo numero total de observacoes resultando nas proporcoes ou frequˆencias relativas fi nin Por exemplo a frequˆencia relativa da categoria R e calculada por f1 10 32 0 3125 Multiplicando por 100 as frequˆencias relativas temos as percentagens de ocorrˆencias de cada resultado observado coluna 4 A ultima coluna da tabela apresenta a porcentagem acumu lada dada pela porcentagem da respectiva coluna adicionada das anteriores a ela Por exemplo os 50 da categoria MR e o resultado da adicao de 1875 e 3125 Observase na tabela 22 que temos praticamente 50 de hıbridos resistentes e 50 de susceptıveis Deixamos as categorias MS e S com tracos pois nao tem sentido pratico o calculo das por centagens acumuladas neste caso ou seja nao tem sentido afirmarmos que 100 dos hıbridos sao susceptıveis Essas medidas relativas sao particularmente importantes na comparacao entre distribuicoes de frequˆencias como veremos a seguir em distribuicoes bidimensionais isto e quando temos duas variaveis em estudo Quando temos mais do que duas variaveis o raciocınio e o mesmo Tabelas Bidimensionais A tabela 23 mostra trˆes distribuicoes de frequˆencias uma para cada regiao preferencial Dizemos que esta tabela e bidimensional pois apresenta a distribuicao de duas variaveis quais sejam 1 resistˆencia a ferrugem e 2 regiao Como os totais marginais da tabela 23 sao diferentes e isto dificulta a interpretacao e interessante trabalhar com porcentagens tornando assim os resultados comparaveis As 31 Tabela 23 Distribuicao de frequˆencias da resistˆencia a ferrugem de hıbridos de milho segundo as regioes preferenciais Resistˆencia a Regioes TOTAL ferrugem Chapeco Campos Novos Icara R 10 3 12 25 MR 6 12 2 20 MS 9 3 3 15 S 7 1 2 10 TOTAL 32 19 19 70 Tabela 24 Distribuicao das porcentagens da resistˆencia a ferrugem de hıbridos de milho para as regioes preferenciais Perfis colunas Resistˆencia a Regioes TOTAL ferrugem Chapeco Campos Novos Icara R 312 158 632 358 MR 188 632 105 286 MS 281 158 158 214 S 219 52 105 143 TOTAL 1000 1000 1000 1000 porcentagens podem ser calculadas de trˆes formas 1 fixandose os totais de linhas em 100 2 fixandose os totais de colunas em 100 e 3 fixandose o total geral em 100 Isto vai de acordo com o objetivo da pesquisa uma delas sera a mais adequada Na tabela 24 fixamos os totais de colunas em 100 Este tipo de distribuicao serve para comparar a distribuicao das regioes conforme a resistˆencia a ferrugem ou seja para uma dada regiao podemos analisar a variavel resistˆencia a ferrugem Com respeito a essa tabela observamos que em Campos Novos a porcentagem de hıbridos moderadamente resistentes e bem superior as outras duas regioes 632 em Campos Novos contra 188 em Chapeco e 105 em Icara Por outro lado vemos que Icara apresenta a maior porcentagem de hıbridos resistentes a ferrugem 632 bem superior a Chapeco 312 e Campos Novos 158 Percebese que em Chapeco a distribuicao e mais homogˆenea nas categorias da resistˆencia 32 Tabela 25 Distribuicao das porcentagens da resistˆencia a ferrugem de hıbridos de milho Perfis linhas Resistˆencia a Regioes TOTAL ferrugem Chapeco Campos Novos Icara R 400 120 480 1000 MR 300 600 100 1000 MS 600 200 200 1000 S 700 100 200 1000 TOTAL 457 271 271 1000 Tabela 26 Distribuicao conjunta das porcentagens em relacao ao total geral Resistˆencia a Regioes TOTAL ferrugem Chapeco Campos Novos Icara R 143 43 171 357 MR 86 171 29 286 MS 129 43 43 214 S 100 14 28 143 TOTAL 457 271 271 1000 De outra forma se desejamos saber por exemplo para os hıbridos resistentes qual a distribuicao por regiao devemos fixar os totais de linhas Perfis linhas Os resultados sao dados na tabela 25 Em Campos Novos observamos uma baixıssima porcentagem de hıbridos resistentes a ferrugem 12 Chapeco e Icara apresentam praticamente a mesma porcentagem 40 e 48 respectivamente Para a categoria MR Campos Novos se destaca com 60 Dos MS e S Chapeco se destaca com 60 e 70 respectivamente Na tabela 26 expressamos as porcentagens em relacao ao total geral Observamos que Campos Novos apresenta a maior porcentagem de hıbridos moderadamente resistentes 171 Icara apresenta a maior porcentagem de hıbridos resistentes 171 seguido de Chapeco com 143 Exercıcio resolvido 1 Um estudo sobre o tempo de vida de duas amostras de Biomphalaria straminea 33 Tabela 27 Numero de indivıduos classificados segundo o tempo de vida em dias e condicao a que as populacoes foram submetidas Tempo de vida Condicao Total em dias Agrupadas Isoladas 58 a 179 3 6 9 180 a 300 6 19 25 301 a 422 36 24 60 Total 45 49 94 Amostra A indivıduos agrupados numa bacia e Amostra I indivıduos isolados em copos de vidro produziu os resultados da tabela 27 a Dos indivıduos que tiveram tempo de vida entre 58 e 179 dias qual a porcentagem deles para a condicao Agrupados e Isolados b Qual a porcentagem de indivıduos para tempo de vida entre 180 e 300 dias e condicao Isolados c Dos indivıduos submetidos a condicao de Agrupados qual a porcentagem de indivıduos teve tempo de vida entre 301 e 422 Observouse 9 indivıduos com tempo de vida entre 58 e 179 dias portanto as porcent agens sao dadas por 393333 e 696667 respectivamente A resposta do item b e 1994020212021 Observouse um total de 45 indivıduos submetidos a condicao de Agrupados portanto a porcentagem dos que tem tempo de vida entre 301 e 422 e 364508080 34 2132 Representacoes Graficas de Variaveis Qualitativas As representacoes graficas de tabelas de distribuicoes de frequˆencias permitem uma boa visualizacao da distribuicao da variavel Podemos ter uma rapida e concisa visualizacao da variabilidade da variavel A utilizacao de graficos para ilustrar os resultados de uma pesquisa sempre e recomendavel A construcao de graficos depende muito da habilidade artıstica de cada um Nao e objetivo deste livro entrar em detalhes sobre a construcao de graficos e sim somente comentar sobre alguns pontos que devem ser respeitados 1 Os graficos devem ser claros simples atrair a atencao e inspirar confianca 2 Servem para realcar certos aspectos importantes de uma pesquisa 3 O tamanho deve ser adequado a sua publicacao em revistas periodicos cartazes livros etc 4 Sempre devem ter um tıtulo completo e deve ser colocado na parte inferior do grafico 5 Devem ser construıdos numa escala que nao desfigure os fatos ou as relacoes que se deseja destacar 6 Devem ser mais largos do que altos 7 Devese sempre especificar dar nome e graduar criar escala os eixos 8 Quando os dados nao sao proprios devese citar a fonte Esta deve ser colocada na parte inferior do grafico 9 Podese usar notas para esclarecimentos gerais Nesta secao veremos os graficos de barras colunas setores e linhas que sao particular mente importantes na representacao de dados categorizados Mostraremos os tipos padroes de graficos Os programas estatısticos como o Statistica Statgraphics Minitab SPSS SAS e tambem planilhas eletrˆonicas como o Excel fornecem uma gama enorme de graficos Os graficos de barras tem por finalidade comparar grandezas por meio de retˆangulos de igual largura dispostos horizontalmente e com alturas proporcionais as grandezas Devese deixar uma distˆancia entre os retˆangulos E usado quando as inscricoes a serem colocadas sob os retˆangulos forem muito extensas Sempre que possıvel ordenar as barras em ordem decrescente A figura 23 mostra o grafico de barras da distribuicao da tabela 22 35 Número de híbridos Resistência à ferrugem r mr ms s 0 1 2 3 4 5 6 7 8 9 10 11 Figura 23 Distribuicao de frequˆencias da resistˆencia a ferrugem de hıbridos de milho para a regiao preferencial I 198788 Para efetuar uma analise comparativa de varias distribuicoes podemos construir um grafico de barras multiplo A figura 24 mostra o grafico de barras multiplo da distribuicao do tipo de grao e da resistˆencia a ferrugem cujos dados estao na tabela 21 Observe a necessidade de construcao de uma legenda Quando os retˆangulos sao colocados na posicao vertical temos os graficos de colunas A finalidade desse tipo de grafico e a mesma dos graficos de barras isto e servem para comparar grandezas Eles devem ser preferidos aos graficos de barras quando as legendas a se inscreverem sob os retˆangulos forem pequenas Na figura 25 temos o grafico de colunas para tipo de grao os dados estao na tabela 21 coluna 6 O grafico de setores consiste em dividir a area total de um cırculo em subareas setores proporcionais as frequˆencias E um grafico ideal para representar dados de porcentagens O numero de setores deve ser adequado Considerando o tipo de grao dentado da tabela 21 temos as seguintes porcentagens 429 357 143 e 71 para as categorias moder adamente susceptıvel resistentes moderadamente resistentes e susceptıvel respectivamente cujo grafico e dado na figura 26 36 Número de híbridos Tipo de grão Dentado Semidentado Semiduro 0 1 2 3 4 5 6 7 Resistentes Susceptível M susceptível M resistente Figura 24 Distribuicao das frequˆencias do tipo de grao e resistˆencia a ferrugem de hıbridos de milho para a regiao I 198788 Tipo de grão Número de observações 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Dentado Semidentado Semiduro Figura 25 Distribuicao das frequˆencias dos tipos de grao para 32 hıbridos de milho para a regiao I 198788 37 Resistência à ferrugem resistentes 357 susceptível 71 mod resistentes 143 mod susceptível 429 Figura 26 Distribuicao das proporcoes da resistˆencia a ferrugem para o tipo de grao dentado para a regiao I 198788 Os graficos de linhas sao adequados para dados ordenados ao longo do tempo series temporais e servem para comparar distribuicoes Na figura 27 apresentamos o grafico de linhas da variavel acidez em acido latico de 4 tratamentos denominados aqui por PA PB PC e C Exercıcio resolvido 1 Um pesquisador esta procurando verificar se existe associacao entre habito de cresci mento 3indeterminado trepador e 4indeterminado prostrado e porte Trtrepador EBereto na base e Prprostrado na cultura do feijao de vagem Para esse fim foi con duzido um experimento na UFSC safra 199192 cujos resultados estao na tabela 28 a Construa a distribuicao de frequˆencia conjunta para as variaveis habito de crescimento e porte Resposta tabela 29 b Faca um grafico para a distribuicao de frequˆencia conjunta do item a Resposta figura 28 2133 Exercıcios Propostos 1 Um pesquisador esta procurando verificar se existe associacao entre local 1 Rio vermelho 2 Costa da lagoa e numero de abortos para criancas do sexo feminino Para esse fim foi feito um levantamento cujos resultados estao apresentados na tabela 210 Obs A unidade de amostragem e uma famılia a Construa a distribuicao de frequˆencias conjunta para as variaveis local e numero de abortos b Faca um grafico para a distribuicao de frequˆencias conjunta do item a 38 Tempo em dias Acidez em ácido lático 048 052 056 060 064 068 072 076 0 7 14 21 28 C PC PB PA Figura 27 Comportamento da variavel acidez em acido latico nos diversos tratamentos durante a maturacao de salame tipo italianoUFSC 1992 Tabela 28 Habito e porte para 50 materiais de feijao de vagem H P H P H P H P H P 4 Tr 4 Tr 4 Tr 4 Pr 4 Tr 4 EB 4 Tr 4 Tr 4 Tr 3 Pr 3 Pr 3 Pr 3 Tr 4 Pr 3 Pr 4 Tr 3 Pr 4 Tr 3 Pr 3 Pr 4 Tr 3 Pr 4 Tr 4 Tr 4 Tr 4 Tr 3 EB 4 Tr 3 Pr 4 Tr 3 Pr 4 EB 4 Tr 4 Pr 4 Tr 3 EB 4 EB 4 Tr 3 Pr 4 Tr 4 Tr 4 Tr 3 Pr 4 Tr 3 Pr 4 Tr 4 Tr 4 Tr 4 Tr 4 Tr 39 Tabela 29 Distribuigao conjunta do habito de crescimento e porte na cultura do feijao de vagem UFSC 199192 Porte Habito de crescimento Total Trepador 1 63 28 824 29 580 Ereto na base 2 125 3 88 5 100 Prostrado 13 813 3 88 16 320 Total 16 1000 34 1000 50 1000 g ee eS 40 f 2 Pog g a S ne p a es TA a 2 be Oo a xO AS se Figura 28 Grafico da distribuigaéo conjunta do item a 40 Tabela 210 Resultados de um estudo sobre locais e ocorrˆencia de aborto Local Aborto Local Aborto Local Aborto Local Aborto Local Aborto 2 0 2 0 2 0 1 1 1 0 2 0 2 1 2 0 1 1 1 0 2 1 2 1 2 1 1 1 1 0 2 0 2 1 2 1 1 0 1 0 2 0 2 1 2 2 1 2 1 0 2 0 2 1 2 0 1 1 1 0 2 0 2 0 2 0 1 0 1 0 2 2 2 0 2 0 1 0 1 0 2 2 2 0 2 0 1 0 1 0 2 0 2 0 2 1 1 0 2 1 2 0 1 0 1 0 2 1 2 0 1 0 1 0 2 0 2 0 1 0 1 0 2 0 2 0 1 1 1 0 2 Um economista agrıcola esta estudando os fatores que afetam a adocao de uma nova variedade de arroz altamente produtiva Os resultados obtidos estao na tabela 211 a Faca um grafico para tabela 211 mostrando o comportamento da adocao segundo a situacao de posse da terra perfil linha Faca a interpretacao dos resultados 3 Foi conduzido um experimento com o objetivo de avaliar o poder germinativo de duas cultivares de cebola A Bola PrecoceEMPASC 352 e B Norte 14 Foram utilizadas para o teste de germinacao 4 repeticoes de 100 sementes totalizando 400 sementes para cada cultivar A variavel de estudo e o numero de sementes que germinam Os resultados Tabela 211 Distribuicao conjunta de frequˆencias Posse Adocao Total Adota Nao adota Proprietario 102 26 128 Varios arendatarios 42 10 52 Unico arendatario 5 2 7 Total 149 38 187 41 Tabela 212 Germinacao de sementes para duas cultivares de cebola Germinacao Cultivares Germinaram Nao germinaram Total Bola Precoce 392 8 400 Norte 14 381 19 400 Total 773 27 800 Tabela 213 Distribuicao conjunta das variaveis local e peso de mexilhoes Local Peso Total 720 2033 3346 Mangue 21 12 2 35 Sambaqui 1 14 19 34 Total 22 26 21 69 obtidos estao na tabela 212 Faca um grafico mostrando o comportamento das cultivares com relacao a germinacao das sementes Faca a interpretacao dos resultados 4 A tabela 213 representa a distribuicao conjunta das variaveis local de coleta e peso de mexilhoes Faca um grafico para representar a distribuicao conjunta Obtenha uma conclusao relevante 2134 Tabelas de Contingˆencia E muito frequˆente nas Ciˆencias Biologicas o interesse em verificar se duas variaveis quali tativas apresentamse associadas isto e se o conhecimento de uma variavel ajuda a entender uma outra variavel Construindo uma distribuicao de frequˆencia conjunta das duas variaveis ou seja uma tabela de contingˆencia podemos satisfazer de forma exploratoria esse objetivo Vamos verificar que a simples construcao da distribuicao conjunta das frequˆencias sera um poderoso instrumento para ajudar na compreensao dos dados Como veremos as tabelas construıdas na secao anterior sao chamadas de tabelas de contingˆencia e serao agora intro duzidas formalmente Para se construir uma tabela de contingˆencia devese observar conjuntamente as duas variaveis nos elementos em estudo Por exemplo vamos observar para cada aluno o grau de satisfacao com o curso e o preparo dos professores Se desejamos descrever a variavel grau de satisfacao com o curso sabendose que a mesma tem associacao com o preparo dos 42 Tabela 214 Distribuigéo conjunta de freqtiéncias das varidveis A e B observados em n elementos ee ee A Bo B TOTAIS A M14 N12 Nir Ny Ag N21 N22 Nar Na A Ns Ns Nsr Ns TOTAIS ny O3 na m2 DO ni2 Mar Dini Mir M Vin jet ij professores fica mais facil compreender a primeira varidvel Vamos considerar que a varidvel A tenha s categorias A Ao A e a varidvel B tenha r categorias B BoB Por exemplo a varidvel grau de satisfagao com o curso tem 5 categorias quais sejam 1 muito bom 2 bom 3 médio 4 baixo e 5 muito baixo A varidvel preparo dos professores também tem 5 categorias no caso idénticas a primeira variavel Se observarmos as duas variaveis A e B em um grupo de n elementos objetos ou pessoas teremos uma classificagao como a indicada na tabela 214 a qual é chamada de tabela de contingéncia Na tabela 214 n1 representa o numero de elementos classificados na categoria A e By simultaneamente em outras palavras é a freqiiéncia observada de elementos que pertencem a categoria A e B simultaneamente Os valores n jai igs nj an Ny EN ye jl nj Tepresentam os totais de linhas colunas e o total geral respectivamente Exemplo Na tabela 215 apresentase a distribuigao conjunta da resistencia a ferrugem e tipo de grao para os 32 hibridos de milho Cada casela da a frequencia observada de hibridos que pertencem a categoria A e Bj i 123e 7 1234 simultaneamente Assim observamos na casela 11 5 htbridos resistentes a ferrugem e com o tipo de grao dentado e assim por diante Observem que os totais de colunas nos fornece a distribuicaéo de freqiiéncias da varidvel resistencia a ferrugem enquanto os totais de linhas nos dao a distribuicao de freqiiéncias da varidvel tipo de grao Tecnicamente estas distribuigoes sao chamadas de distribuicdes marginais entao temos a distribuicéo marginal da varidvel resisténcia a ferrugem totais de 43 Tabela 215 Distribuicao conjunta das frequˆencias das variaveis resistˆencia a ferrugem e tipo de grao para 32 hıbridos de milho 198788 Tipo de grao Resistˆencia a ferrugem1 Totais R MR MS S Dentado 5 2 6 1 14 Semidentado 4 1 2 4 11 Semiduro 1 3 1 2 7 Total 10 6 9 7 32 1 R resistente MR moderadamente resistente MS moderadamente susceptıvel S susceptıvel Tabela 216 Distribuicao conjunta das percentagens das variaveis resistˆencia a ferrugem e tipo de grao para 32 hıbridos de milho 198788 Tipo de grao Resistˆencia a ferrugem1 Totais R MR MS S Dentado 357 143 429 71 1000 Semidentado 364 91 182 364 1000 Semiduro 143 428 143 286 1000 Total 312 188 281 219 1000 1R resistente MR moderadamente resistente MS moderadamente susceptıvel S susceptıvel colunas e a distribuicao marginal do tipo de grao totais de linhas enquanto que a tabela toda representa a distribuicao conjunta das duas variaveis Como os totais marginais da tabela 215 sao diferentes tornase difıcil fazer alguma interpretacao Para facilitar podemos incluir as frequˆencias relativas em porcentagem que podem ser calculadas em relacao aos totais de linhas colunas ou em relacao ao total geral Os totais linhas colunas ou geral em porcentagens sao comparaveis pois reduzse as frequˆencias a um mesmo total A tabela 216 apresenta as porcentagens calculadas em relacao aos totais de linhas Sendo assim vamos estudar a distribuicao da resistˆencia a ferrugem para cada um dos diferentes tipos de graos os perfis sao as linhas Interpretacao observase para os hıbridos selecionados um indicativo de associacao 44 entre a resistˆencia a ferrugem e o tipo de grao pois enquanto o tipo de grao semiduro apre senta a menor porcentagem de resistˆencia a ferrugem 143 o tipo de grao semidentado apresenta a menor porcentagem de moderadamente resistentes 91 e o tipo de grao den tado apresenta a menor porcentagem de hıbridos suscetıveis a ferrugem 71 Podemos verificar esta associacao de outra forma Observamos na amostra selecionada que 312 dos hıbridos sao resistentes R a ferrugem Ora se nao existe associacao dependˆencia entre as variaveis esperarıamos esta mesma porcentagem 312 para todos os 3 tipos de graos Observamos na amostra de hıbridos uma porcentagem de 357 para dentado 364 para semidentado e 143 para semiduro este ultimo resultado bastante abaixo dos 312 esperados Isto nos leva a acreditar que realmente existe associacao entre a resistˆencia a ferrugem e o tipo de grao dos hıbridos de milho amostrados Exercıcios resolvidos 1 Para os dados da tabela 28 podemos considerar que o habito esta associado com o porte justifique Sim pois verificamos que para o habito de crescimento 3 813 dos materiais apresentam porte prostrado Por outro lado para habito 4 824 dos materiais apresentam porte trepador Procure entender esta associacao atraves do grafico da figura 28 2 Os dados da tabela de contingˆencia 217 tem por objetivo analisar a segregacao dos dados de uma progˆenie de uma especie X segregando para dois fatores precocidade e virescˆencia tipo de deficiˆencia de clorofila Sabese que a precocidade e recessiva em relacao a ciclo tardio e e controlada neste caso por um par de genes O tipo virescente tambem e recessivo em relacao ao normal e controlado por um par de genes a Fixe os totais de colunas em 100 Resposta tabela 217 b Faca um grafico para a tabela verificando a distribuicao da precocidade segundo a virescˆencia perfil coluna Resposta figura 29 c Os dois pares de genes sao herdados independentemente ou ha evidˆencia de associacao justifique com apresentacao de valores Existe uma associacao fraca entre as variaveis pois para virescˆencia normal observase que 7711 apresentam precocidade tardia Observase quase a mesma porcentagem 7583 para virescente e tardio Portanto nao houve uma mudanca razoavel quando mudamos de nıvel de virescˆencia indicando associacao fraca 3 A tabela de contingˆencia 218 referese ao numero de passaros de uma particular especie classificados de acordo com duas variaveis qualitativas que sao 1 local da floresta e 2 estacao do ano Os passaros foram observados alimentandose de acordo com as duas variaveis Um pesquisador levantou a hipotese no inıcio do trabalho de que os passaros alimentamse nestes 3 locais da floresta nas mesmas proporcoes na primavera e no outono 45 Tabela 217 Segregacao de dois caracteres numa progˆenie da especie X Precocidade Virescˆencia Total Normal Virescente Tardio 3470 7711 910 7583 4380 7684 Precoce 1030 2289 290 2417 1320 2316 Total 4500 10000 1200 10000 5700 10000 Distribuição bivariada Figura 29 Distribuicao da precocidade segundo a virescˆencia Tabela 218 Distribuicao conjunta das variaveis local e estacao Estacao Local da Floresta Total do ano Arvores Arbusto Chao Primavera 30 508 20 339 9 153 59 1000 Outono 13 213 22 361 26 426 61 1000 Total 43 358 42 350 35 292 120 1000 46 porcentagens Primavera 0 10 20 30 40 50 60 Árvores Arbustos Chão Outono 0 10 20 30 40 50 60 Árvores Arbustos Chão Figura 210 Associacao entre local e estacao Em outras palavras o pesquisador formulou a hipotese de que nao existe associacao entre as duas variaveis Vocˆe aceita ou rejeita a hipotese formulada pelo pesquisador justifique Resposta rejeitamos a hipotese formulada Na primavera 508 dos passaros alimentamse nas arvores enquanto que no outono o comportamento muda isto e a maior porcentagem 426 alimentamse no chao Faca um grafico de barras multiplo para representar os dados da tabela acima e visualizar esta associacao Resposta na figura 210 2135 Exercıcios Propostos 1 Um economista esta estudando os fatores que afetam a adocao de uma nova variedade de arroz altamente produtiva Ele deseja saber se a adocao e afetada pela situacao de posse da terra Os resultados obtidos numa amostra de 187 agricultores estao organizados na tabela de contingˆencia 211 O que o economista pode concluir 2 Um estudo e realizado a fim de avaliar a eficiˆencia de uma nova vacina antigripal a qual foi administrada aos membros de uma pequena comunidade A vacina foi administrada em duas doses ao longo de duas semanas Algumas pessoas tomaram as duas doses outras tomaram apenas a 1a dose e outras nao tomaram qualquer dose A tabela 219 mostra os resultados obtidos para um total de 1000 habitantes dessa comunidade Esses dados apresentam uma evidˆencia suficiente para garantir que tal vacina foi bem sucedida reduzindo o numero de casos de gripe nessa comunidade Em outras palavras verifique se existe associacao nesta tabela Justifique com valores de proporcoes obtidas fixandose os totais de linhas em 100 3 Utilizando os dados da tabela 219 responda a faca um grafico para a distribuicao conjunta das porcentagens obtidas no exercıcio 2 47 Tabela 219 Distribuicao conjunta das variaveis Estado Vacinacao Total de saude Naovacinados Uma dose Duas doses Gripados 24 9 13 46 Naogripados 289 100 565 954 Total 313 109 578 1000 b calcule a proporcao de naovacinados entre os indivıduos naogripados c calcule a proporcao de naogripados e que usaram duas doses de vacina 4 De acordo com os dados da tabela 210 podemos dizer que a ocorrˆencia de aborto esta associada com o local Justifique 5 Com os dados da tabela 212 verifique se existe dependˆencia associacao entre as cultivares e a germinacao de sementes Justifique 6 Para os resultados da tabela 213 vocˆe concluiria que o peso esta associado com o local Justifique com os dados de percentagens 7 Faca um grafico para a tabela 216 e observe a associacao existente entre o tipo de grao e a resistˆencia a ferreugem 2136 Coeficiente de Contingˆencia de Pearson Vamos agora pensar que estamos interessados em obter uma medida estatıstica que in dique se existe ou nao relacao entre duas variaveis e qual a magnitude desta isto e a grandeza da associacao Aqui desejamos fazer um estudo da associacao ou dependˆencia entre duas variaveis categorizadas No caso de estarmos trabalhando com variaveis quantitativas estas podem ser transformadas em variaveis categorizadas Exemplo de categorizacao de uma variavel quantitativa seja a variavel rendimento de uma variedade transformada em trˆes categorias 1500 kgha rendimento baixo 1500 e 3000 rendimento normal e 3000 rendimento alto Uma medida de associacao que pode ser utilizada nesse caso e o coeficiente de contingˆencia de Pearson representado pela letra C Podemos atraves deste coeficiente por exemplo verificar a grandeza da associacao entre o local da floresta onde os passaros se alimentam e a estacao do ano veja tabela 218 Outro exemplo verificar a magnitude da associacao entre a adocao de tecnologia e a situacao de posse da terra veja a tabela 211 Antes de passarmos ao estudo detalhado do calculo do coeficiente de contingˆencia de Pearson vamos sem muitos detalhes citar e indicar os calculos de outras duas estatısticas 48 para o estudo de associacao A primeira delas é 0 coeficiente de associacaéo de Yule para tabelas 2 x 2 dado por Q fi for fiz for fir fo2 fizfer que varia de 1 a 1 onde f representa a freqtiéncia de ocorréncia da categoria 1 da varidvel Aea categoria 1 da varidvel B e assim para os demais termos Por exemplo para a tabela 217 temos Q 3470290 9101030 69000 004 3470290 9101030 1943600 Concluimos que existe uma associacéao muito fraca entre as duas varidveis pois o valor de Q é proximo de zero Um outro coeficiente é o de Cramér para tabelas x c 1 numero de linhas e c numero de colunas da tabela dado por V Vxnminl 11 que varia de 0 zero a londe minl1c1 é 0 minimo entre o ntmero de linhas menos 1 eo ntmero de colunas1 menos 1 n é 0 total geral de freqiiéncias da tabela a estatistica leiase QuiQuadrado sera mostrada em detalhes ainda nesta subsecao Para os dados da tabela 218 temos V 03541 De acordo com este coeficiente a associacao entre as duas varidveis moderada para fraca Como foi dito inicialmente a construcao da distribuigao conjunta das freqiiéncias nos ajuda bastante na interpretacao dos resultados Na tabela 218 temos a distribuicgao conjunta de freqtiéncias das variaveis local da floresta e estagao do ano Observe que para facilitar a interpretacdo dos resultados os totais de linhas foram fixadas em 100 A interpretacéo ja foi feita anteriormente e o resultado foi um indicativo de associacao entre o local da floresta e a estacao do ano Vamos agora utilizar este exemplo para mostrar todos os passos no calculo do coeficiente de contingéncia de Pearson Independéncia de Variaveis Quando se constroi uma distribuicao conjunta de freqtiéncias um dos principais objetivos é procurar estabelecer a associacao existente entre as varidveis isto é desejamos conhecer o grau de dependéncia entre as varidveis pois conhecendo o grau de dependéncia entre elas podemos prever o melhor resultado de uma varidvel sabendose o resultado da outra Por exemplo se desejamos saber o local da floresta onde os passaros se alimentam se nos tivermos informacao sobre a estagao do ano vamos ter condigoes de estimar com maior precisao o 49 local onde os passaros se alimentam pois existe uma dependˆencia entre o local da floresta e a estacao do ano A dependˆencia nao e no sentido de que uma determina a outra Por exemplo num estudo para verificar se existe associacao entre a satisfacao com o emprego e os salarios percebidos nao significa que melhorando as condicoes de trabalho satisfacao vai melhorar os salarios Em primeiro lugar observamos que independentemente da estacao do ano 358 dos passaros se alimentam nas arvores 35 nos arbustos e 292 no chao Ora se existe independˆencia entre o local da floresta e a estacao do ano esperamos estas mesmas porcentagens para cada categoria da estacao do ano Comparandose as frequˆencias podemos interpretar que existe dependˆencia entre as variaveis Quando existe dependˆencia entre as variaveis e interessante conhecer a magnitude dessa associacao ou seja conhecer se a associacao e fraca moderada ou forte Portanto e impor tante termos uma medida de associacao entre variaveis categorizadas Medida de Associacao Entre Duas Variaveis Categorizadas Trataremos do coeficiente de contingˆencia de Pearson representado pela letra C que descreve num unico numero a dependˆencia entre duas variaveis Teoricamente este valor varia entre 0 zero e 1 um 0 C 1 sendo nulo quando as variaveis sao independentes Quando existe uma associacao perfeita entre as duas variaveis o coeficiente de contingˆencia de Pearson vale 1 Para o calculo do coeficiente e necessario em primeiro lugar calcularmos uma outra estatıstica chamada de QuiQuadrado e representada pela letra grega χ elevada a potˆencia 2 Entao passamos de imediato ao calculo do χ2 atraves do exemplo da tabela 218 Na hipotese de independˆencia esperamos para local da floresta arvores e estacao primav era 590 358 21 122 passaros para local da floresta arvores e estacao outono esperamos 61 0 358 21 838 passaros e assim para todas as caselas restantes da tabela Um modo pratico de se encontrar as frequˆencias esperadas sob a hipotese de independˆencia e dado por fe11 n1n1 n 59 43 120 21 141 A notacao fe11 indica a frequˆencia esperada para a estacao primavera linha 1 e local arvores coluna 1 Se o leitor nao esta lembrado desses ındices veja novamente a tabela 214 Para a casela 21 isto e estacao outono linha 2 e local arvores coluna 1 temos fe21 n2n1 n 61 43 120 21 858 50 Tabela 220 Frequéncias observadas e esperadas sob a hipdtese de independéncia Estacao Local da Floresta Total Primavera 30 2114 20 2065 9 1721 59 Outono 13 2186 22 2135 26 1779 61 Total 43 42 30 120 Tabela 221 Desvios entre as frequéncias observadas e esperadas no caso de independéncia das varidveis Estagao Local da Floresta Primavera 886 065 821 Outono 886 065 821 A diferenga verificada na segunda casa decimal entre os dois procedimentos de calculo é devido a aproximacoes Fazemos a mesma operacao para as demais caselas Todas as freqtiéncias observadas e esperadas sob a hipdtese de independéncia estao demonstradas na tabela 220 Encontre esses valores Observandose a tabela 220 podemos verificar as discrepancias existentes entre os valores observados e esperados caso as varidveis fossem independentes Na tabela 221 apresentamos os desvios entre os valores observados e os esperados A estatistica QuiQuadrado x7 que é uma medida de afastamento global da hipdtese de independéncia isto 6 quanto maior o valor do y maior sera o grau de associacao entre as duas varidveis 6 calculado através da seguinte expressao le 0 e vee 2 il onde o 6 a freqiiéncia observada da iésima casela e 6 a freqiiéncia esperada da 7ésima casela 6 o numero de linhas e c é 0 numero de colunas Para 0 exemplo temos 8867 4 0 65 4 8 21 4 8 86 4 0 65 4 821 Xx 9114 2065 1721 2186 2135 1779 37133 00205 3 9166 35910 0 0198 3 7889 150501 E facil perceber que se y 0 as duas varidveis sAo independentes e que se y 0 indica 51 associacao das varidveis O valor de QuiQuadrado nao possui um limite superior pois varia de 0 zero a co mais infinito Na secao 852 iremos fazer o teste de quiquadrado que é um teste confirmatoério no sentido de poder afirmar se existe ou nao associacao significativa estatisticamente comprovada entre as varidveis Descritivamente Karl Pearson propos o chamado coeficiente de contingéncia represen tado pela letra C definido por 2 c 22 Xe FN onde n é 0 nimero total de observagoes Para o exemplo em estudo temos 150501 C 4 0338 150501 120 indicando que existe associagao porém podemos dizer que a associacao é fraca Quando existe uma associacao perfeita esse coeficiente nao atinge o valor 1 por isso foi sugerido uma correcao a qual consiste em calcular C C 23 t 1t onde t é 0 minimo entre o numero de colunas e o ntimero de linhas da tabela de contingéncia Para o exemplo onde t 2 temos 0 3338 CO ee 0 4721 Vep Agora temos uma associacéo moderada entre as varidveis Devemos considerar as varidveis como moderadamente associadas Exercicio resolvido 1 Para os dados da tabela 29 obter o coeficiente de contingencia de Pearson e interpre tar O valor de quiquadrado é 73877 3 4766 0 1000 0 0470 12 1278 5 7072 28 8464 O valor do coeficiente de confingéncia é 288464 C 0 6049 28 8464 50 Portanto com a correcao temos 0 6049 C 0 8554 12 Conclusao existe forte associagao entre habito e porte 52 2137 Exercıcios Propostos 1 Com os dados da tabela 210 calcule o coeficiente de contigˆencia de Pearson e conclua 2 Com os dados da tabela 28 calcule o coeficiente de contigˆencia de Pearson e conclua 3 Com os dados da tabela 212 calcule o coeficiente de contingˆencia de Pearson e interprete 4 Calcule o coeficiente de contingˆencia de Pearson e o de Cramer para os dados da tabela 213 Faca a interpretacao 2138 Distribuicoes de Frequˆencias de Variaveis Quantitativas Diagrama de Pontos Grafico de Colunas e Histograma Inicialmente faremos uma breve introducao sobre o estudo de distribuicoes de frequˆencias para variaveis aleatorias quantitativas e apos discutiremos as tecnicas para este estudo Quando a variavel em estudo e quantitativa discreta ou contınua as principais ca racterısticas a serem observadas numa distribuicao de frequˆencias sao 1 valor tıpico ou representativo que como o proprio nome indica corresponde a escolha de um unico valor para representar todo o conjunto de valores 2 assimetria por exemplo no estudo da distribuicao da renda em numero de salarios mınimos das famılias brasileiras a grande maioria das famılias apresentam baixo rendimento familiar enquanto que uma minoria apresenta altos rendimentos isto provoca uma cauda longa a direita da distribuicao tornandoa assimetrica veja figura 237 3 dispersao e uma medida da concentracao dos dados em torno do valor tıpico E necessario ter um valor referˆencia para poder comparalo 4 valores discrepantes ou outliers sao valores muito pouco provaveis de ocorrerem na distribuicao algumas vezes sao valores que se distanciam demais dos outros E importante realizar um estudo para saber a razao da ocorrˆencia desses valores podese citar 3 principais causas 1 erro de transcricao de dados 2 algum fato importante ocorreu durante o trabalho e 3 o valor e verdadeiro e deve ser considerado como tal 5 formacao de subgrupos por exemplo ao estudarse a distribuicao das alturas dos alunos podese chegar a conclusao que existem dois grupos formados de acordo com o sexo 53 No caso do estudo de distribuicoes de frequˆencias de variaveis quantitativas podemos estabelecer duas situacoes quais sejam 1 a variavel e contınua nesse caso e necessario a criacao de classes de ocorrˆencias pois nao existem ou sao poucos os valores que se repetem Observacao quando temos poucos valores isto e o nosso conjunto de valores nao e grande em torno de 25 a distribuicao pode ser representada por meio de um diagrama de pontos ou seja cada observacao corresponde a um ponto na reta dos reais Esta tecnica sera mostrada em seguida 2 a variavel e discreta nesse caso temos duas situacoes a quando temos poucos resultados diferentes da variavel fazemos a contagem dos dados para cada valor da variavel Exemplos o numero de plantas sadias de mandioca colhidas na area util da parcela area de 1944 m2 varia no intervalo de 23 a 27 plantas 5 valores diferentes numero de graos por vagem de soja Nesse caso dizse que nao ha perda de informacao e as distribuicoes de frequˆencias sao feitas de forma idˆentica as variaveis qualitativas categorizadas Tambem podese fazer o diagrama de pontos b quando temos muitos valores diferentes da variavel procedemos de forma idˆentica ao de variavel contınua isto e vamos criar faixas de ocorrˆencia Por exemplo ciclo da cultura de 150 genotipos de feijao Passamos agora ao estudo da construcao das distribuicoes de frequˆencias para variaveis aleatorias quantitativas Os metodos abordados sao Diagrama de Pontos Dados Agrupados em Classes e RamoeFolhas Diagrama de Pontos Quando temos poucas observacoes de uma variavel em estudo ate aproximadamente 25 a distribuicao pode ser representada por um diagrama de pontos isto e cada observacao corresponde a um ponto na reta dos numeros reais E possıvel representar duas ou mais dis tribuicoes no mesmo diagrama para isso basta identificar cada distribuicao por um sımbolo diferente criar uma legenda A figura 211 ilustra esse diagrama com os pesos ao nascer de 24 bezerros machos das racas Charoleza e Gir em kg Os dados para as duas racas sao Charoleza 47 45 37 41 46 47 34 25 40 45 48 40 Gir 40 43 44 46 48 51 54 55 56 57 55 54 Interpretacao do diagrama de pontos 54 Peso ao nascer em kg 20 25 30 35 40 45 50 55 60 Charoleza Gir Figura 211 Distribuicao de frequˆencias do peso ao nascer de bezerros da raca Charoleza e Gir kg Observamos que os pesos ao nascer de bezerros da raca Charoleza sao menos dispersos estao mais proximos do que a raca Gir Portanto os bezerros da raca Charoleza sao mais homogˆeneos quanto ao peso ao nascer Ambas as distribuicoes sao assimetricas a esquerda pois temos poucos valores e mais espalhados no lado esquerdo das distribuicoes isso gera uma cauda mais longa a es querda Os valores representativos para as racas Charoleza e Gir sao 42 kg e 53 Kg respectiva mente Estes valores dividem as distribuicoes aproximadamente ao meio por exemplo existem 6 pontos abaixo de 42 e 6 pontos acima de 42 O valor 25 kg na raca Charoleza esta bem afastado do restante da distribuicao assim podemos consideralo como um valor discrepante Nao observamos formacao de subgrupos em nenhuma das distribuicoes racas Exercıcio resolvido 1 Para comparar o ganho medio de peso GMP em gramas por dia de porcos submetidos a duas dietas diferentes D1 e D2 foi conduzido um experimento com 20 porcos Dez porcos 55 Ganho de peso 550 570 590 610 630 650 670 690 710 730 750 770 790 810 830 Dieta 2 Dieta 1 Figura 212 Diagrama de pontos para duas dietas de porcos foram submetidos a cada uma das dietas Os resultados para esse experimento foram Dieta 1 Dieta 2 635 820 675 600 780 670 570 610 660 580 590 560 610 700 590 630 710 570 590 570 Construir um diagrama de pontos para verificar se existe evidˆencia de diferencas entre os dois tratamentos dietas O diagrama de pontos e dado na figura 212 Conclua para as duas dietas quanto a dispersao assimetria valores representativos e discrepantes A dieta 1 apresenta maior dispersao do que a dieta 2 A dieta 2 apresenta assimetria a direita tem uma cauda mais longa para a direita enquanto que a dieta 2 e aproximadamente simetrica Os valores representativos sao 715 e 590 para as dietas 1 e 2 respectivamente O valor 675 na dieta 2 esta mais afastado da distribuicao dos demais valores Os dados indicam que a dieta 1 e superior a dieta 2 Para fazermos uma afirmacao sobre a diferenca entre duas medias devemos realizar um teste de hipoteses que sera tratado no capıtulo 8 Exercıcios propostos 1 Os dados da tabela 222 correspondem a variavel numero de brotos por explante de abacaxi avaliada em dois meios de cultura dois tratamentos Construir um diagrama de pontos e comparar os dois meios de cultura quanto a a dispersao b assimetria c valores representativos 56 Tabela 222 Numero de brotos por explante de abacaxi Meio 1 47 35 23 21 23 26 18 30 22 36 22 21 19 Meio 2 13 11 15 24 20 20 19 18 22 22 20 17 25 Tabela 223 Distribuicao de frequˆencias e proporcoes em do numero de plantas sadias de mandioca Chapeco SC 1984 Numero de plantas Frequˆencia Proporcao Porcentagem Porcentagem acumulada 23 1 00333 333 333 24 3 01000 1000 1333 25 4 01333 1333 2667 26 8 02667 2667 4667 27 14 04667 4667 10000 TOTAL 30 10000 10000 d valores discrepantes e formacao de subgrupos Distribuicao de Frequˆencias de Variaveis Discretas Sem Perda de Informacao A construcao de distribuicoes de frequˆencias de variaveis discretas quando os diferentes valores observados da variavel nao sao muitos e feita de forma idˆentica as variaveis quali tativas categorizadas Vamos fazer a contagem para cada valor observado da variavel em estudo Como exemplo vamos estudar a distribuicao do numero de plantas sadias de man dioca colhidas na area util da parcela As frequˆencias e porcentagens sao dadas na tabela 223 Na primeira coluna da tabela temos os valores observados da variavel quais sejam 23 24 25 26 e 27 Representacao Grafica de Variaveis Discretas Sem Perda de Informacao Nesse caso podemos citar os graficos de ordenadas e os graficos de colunas A seguir apresentamos os dois tipos de graficos figuras 213 e 214 para o exemplo do numero de plantas sadias de mandioca Tabela 223 57 Número de plantas sadias colhidas na área útil Freqüências 0 2 4 6 8 10 12 14 16 22 23 24 25 26 27 28 Figura 213 Diagrama de ordenadas do numero de plantas sadias de mandioca Nº de plantas colhidas sadias Nº de parcelas 22 23 24 25 26 27 28 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 333 1000 1333 2667 4667 Figura 214 Grafico de colunas do numero de plantas sadias de mandioca Chapeco SC 1984 58 Observamos que 47 das unidades experimentais parcelas deram como resultado 27 plantas sadias total de plantasunidade somente 3 das unidades apresentaram como resultado 23 plantas sadias A distribuicao e assimetrica a esquerda cauda longa para o lado esquerdo da distribuicao Um valor representativo seria o 27 Nao observamos valores discrepantes Nao faremos uma conclusao para a dispersao pois nao temos duas ou mais distribuicoes para comparacao Exercıcio proposto 1 Desejase estudar o comportamento da variavel numero de ovos inviaveis de Biom phalaria taenagophila caramujo em ambiente poluıdo Para isso tomouse uma amostra de 23 caramujos obtendose os seguintes resultados 9 11 10 0 4 4 5 12 4 1 2 8 4 7 1 11 10 3 14 3 2 28 4 Faca uma representacao grafica para os dados grafico de ordenadas ou de colunas Faca a interpretacao do grafico Dados Agrupados em Classes Quando temos muitas observacoes de uma variavel quantitativa em estudo acima de 25 e recomendavel a formacao de intervalos de valores isto e construir classes de ocorrˆencias Por exemplo uma classe pode ser de 8 a 16 cm de comprimento de camarao Quanto ao numero de classes que deve ser usado existe alguma recomendacao Este numero nao podera ser muito grande maior que 15 e nem muito pequeno menor que 5 Mas tambem nao ha um rigor muito grande quanto ao numero de classes a ser usado Podese deixar como compromisso do pesquisador decidir sobre o numero de classes a ser usado Ninguem melhor do que a pessoa que conhece o fenˆomeno em estudo para decidir sobre a melhor representacao da distribuicao Sempre que for possıvel recomendase utilizar classes com a mesma amplitude Os dados da tabela 224 referemse aos rendimentos medios em kgha de 32 hıbridos de milho recomendados para a regiao Oeste Catarinense Vamos considerar estes dados para ilustrar a construcao da distribuicao de frequˆencias em classes As classes podem ser definidas de acordo com resultados logicos da variavel por exemplo definir 5 classes com amplitudes de 500 kg Outra forma e decidirmos pelo numero de classes a ser utilizado e a seguir fazer a divisao da amplitude total dos dados pelo numero de classes sendo que o resultado encontrado sera a amplitude de cada classe Por exemplo amplitude total dos dados da tabela 224 e 6388 3973 2415 kgha Se desejamos ter 5 classes isso 59 Tabela 224 Rendimentos medios em kgha de 32 hıbridos de milho regiao Oeste 198788 3973 4660 4770 4980 5117 5403 6166 4500 4680 4778 4993 5166 5513 6388 4550 4685 4849 5056 5172 5823 4552 4760 4960 5063 5202 5889 4614 4769 4975 5110 5230 6047 Tabela 225 Distribuicao de frequˆencias de 32 hıbridos de milho recomendados para o Oeste Catarinense 198788 Rendimento Frequˆencia Frequˆencia Frequˆencia Freq rel Porcentagem Porcentagem medio absoluta acumulada relativa acumulada acumulada 3973 4456 1 1 00313 00313 313 313 4456 4939 12 13 03750 04063 3750 4063 4939 5422 13 26 04063 08126 4063 8126 5422 5905 3 29 00937 09063 937 9063 5905 6388 3 32 00937 10000 937 10000 TOTAL 32 10000 10000 implica que a amplitude de cada classe sera igual a i 24155 483 kgha Veja a primeira coluna da tabela 225 Nesta tabela temos a distribuicao de frequˆencias completa da variavel em estudo A frequˆencia absoluta ou simplesmente frequˆencia de classe segunda coluna da tabela representada por ni e o numero indicativo da quantidade de valores indivıduos itens elementos etc pertencentes a essa classe A frequˆencia absoluta acumulada de uma classe e a soma da frequˆencia dessa classe com as frequˆencias das classes anteriores coluna 3 A frequˆencia relativa ou proporcao representada por fi e definida pelo quociente da frequˆencia absoluta da classe e o numero total de observacoes ou seja fi nin onde n 32 coluna 4 Tambem temos a frequˆencia relativa acumulada calculada da mesma forma que a frequˆencia absoluta acumulada coluna 5 A porcentagem coluna 6 e a forma que a maioria das pessoas entendem e mais explıcito tem maior ˆexito e e simplesmente a multiplicacao das proporcoes por 100 isto e 100fi Da mesma forma podemos ter as frequˆencias percentuais acumuladas coluna 7 A representacao grafica dessas distribuicoes recebe um nome especial histogramas e e mostrado na figura 215 E um grafico de colunas justapostas em que a altura de cada coluna 60 Rendimento médio kgha Densidade de Freqüência x 15456 4456 44564939 49395422 54225905 5905 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 313 375 4063 937 937 Figura 215 Histograma dos rendimentos medios em kgha de 32 hıbridos recomendados para o Oeste Catarinense 198788 e proporcional a frequˆencia absoluta ou porcentagem de ocorrˆencias da classe de modo que a soma das areas dos retˆangulos seja igual a 1 ou 100 A altura de cada retˆangulo e denominada de densidade de frequˆencia e e dada por di ni n i No exemplo da figura 215 temos ni32483 15456 para todas as classes pois estas apresentam a mesma amplitude Para a classe 2 d2 1215456 0 000776 As amplitudes de classes nem sempre sao iguais para todas as classes da mesma dis tribuicao de frequˆencia As vezes isto ocorre pela propria natureza da pesquisa Por exem plo desejase discrimar melhor os baixos salarios ou as idades menores da primeira relacao sexual de jovens Neste caso e necessario tomar alguns cuidados com a analise e construcao do histograma pois os i assumem valores diferentes Devese usar os valores da densidade de frequˆencia no eixo das ordenadas tambem conhecido como eixo dos Y s Nao e possıvel fazerse uma interpretacao de um valor especıfico da densidade de frequˆencia pois como o nome indica so faz sentido verificarse o comportamento dentro de um intervalo ou no geral Uma representacao grafica alternativa ao histograma e o polıgono de frequˆencias e o seu uso e particularmente importante quando desejase comparar duas ou mais distribuicoes pois e possıvel representarse diversas distribuicoes no mesmo grafico Para construir um polıgono de frequˆencias basta colocar num grafico os pares ni si e unılos com uma linha onde si corresponde ao ponto medio da iesima classe Por exemplo o ponto medio da 61 Densidade de Freqüência x 15456 42145 46975 51805 56635 61465 0 2 4 6 8 10 12 14 33 375 406 94 94 Figura 216 Polıgono de frequˆencias dos rendimentos medios em kgha de 32 hıbridos recomendados para o Oeste Catarinense 198788 primeira classe s1 e igual a 44563973242145 portanto o par n1 s1 e dado por 1 4214 5 Usar o mesmo procedimento para os 4 pares restantes Esse grafico para a variavel rendimento de graos de hıbridos de milho e mostrado na figura 216 Interpretacao A interpretacao pode ser feita atraves da tabela de distribuicao de frequˆencias histograma ou do polıgono de frequˆencias A maioria dos hıbridos 78 apre sentam uma producao entre 4456 e 5422 kgha Um valor representativo para esses dados seria 5000 kgha Temos aproximadamente 50 dos valores abaixo de 5000 kgha con sequentemente 50 acima deste valor Existe uma tendˆencia dos dados se concentrarem proximo ao valor representativo e a medida que se afastam do valor tıpico a concentracao diminui A distribuicao dos dados apresenta uma pequena assimetria a direita pois a cauda a direita e um pouco mais longa Desconsiderando o valor 3973 kgha a amplitude de variacao dos valores esta dentro do esperado vai de 4500 a 6388 kgha isto e a dispersao dos valores nao e muito grande Seria bom verificar por que um hıbrido produziu razoavelmente menos que os demais Nao se observa formacao de subgrupos Comentarios 1 Limites indeterminados ou classes abertas E ate comum aparecer tabelas de distribuicoes de frequˆencias em que a 1a classe eou a ultima apresentam o limite inferior eou superior indefinidos Devese sempre que possıvel evitar esse tipo de limites pois dificulta no trabalho descritivo dos dados principalmente no que diz respeito ao calculo 62 Tabela 226 Altura de brotos de explantes de abacaxi 100 118 121 127 134 137 143 147 152 168 101 119 125 130 135 137 143 147 157 173 108 119 126 131 136 139 144 149 161 177 111 120 127 134 136 141 146 150 162 Tabela 227 Distribuicao de frequˆencias da variavel altura de brotos de explantes de abacaxi Altura Frequˆencia absoluta Frequˆencia relativa Percentagem 100 113 113 126 126 139 139 152 152 165 165 178 Total 39 10000 10000 de estatısticas 2 O numero de classes estabelecido para a distribuicao de frequˆencias e bastante subjetivo pois tratase de uma analise exploratoria de dados Entao o numero de classes deve ser o suficiente para nos dar uma boa ideia do fenˆomeno deve por em evidˆencia a regularidade do fenˆomeno Assim vale a pena salientar que a decisao sobre o numero de classes cabe ao pesquisador Exercıcios resolvidos 1 Os dados da tabela 226 foram obtidos de um experimento desenvolvido para avaliar o comportamento In Vitro de abacaxi Ananas comosus cv Primavera e referese a variavel altura dos brotos de explantes em cm dados ordenados crescentemente a Preencha a tabela de distribuicao de frequˆencias 227 b Construa um histograma c Faca algumas interpretacoes relevantes d Podese dizer que esta amostra e oriunda de uma populacao com distribuicao normal Justifique Observacao leia mais adiante o topico O modelo normal As frequˆencias absolutas relativas e percentagens para as 6 classes sao dadas por 4 6 12 10 4 3 01026 01538 03077 02564 01026 00769 1026 1538 3077 2564 1026 e 769 respectivamente O histograma e dado na figura 217 A distribuicao e aproximada 63 Altura de explantes cm Densidade de Freqüência x 593 0782 0934 1086 1238 1390 1542 1694 1846 0 2 4 6 8 10 12 14 16 Figura 217 Histograma da altura de explantes de abacaxi Tabela 228 Area foliar especıfica de Cecropia glazioui Borda da mata Mata fechada 02145 03458 03796 04125 04657 05521 06780 07126 07894 08564 02540 03482 03815 04142 04670 05841 06842 07154 07912 08654 02592 03487 03874 04182 04823 06284 06898 07179 08023 08665 02891 03490 03924 04326 04862 06357 06945 07256 08046 09214 02971 03547 03931 04358 04921 06489 06950 07321 08451 09421 03013 03574 03971 04573 05010 06570 06970 07783 08467 09573 03279 03648 04015 04582 05231 06704 07125 07884 08468 09689 mente simetrica Um valor representativo do conjunto de dados e 136 Nao observase valor discrepante Podese dizer que a variavel altura de explantes de abacaxi segue aproximada mente uma distribuicao normal 2 Os dados da tabela 228 sao relativos a resposta a variacao de luz no crescimento das plantas medido atraves da area foliar especıfica apos 60 dias da especie Cecropia glazioui em amostras situadas em borda de mata e mata fechada com intensidade de luz media de 106 e 087 respectivamente A especie C glazioui e uma planta pioneira heliofita perenifolia seletiva higrˆofila ocorrendo preferencialmente em capoeiras e capoeiroes de der rubadas recentes Compare as duas amostras atraves do polıgono de frequˆencias multiplo Por polıgono de 64 Área foliar específica Densidade de Freqüência x 147 256 256298 29834 34382 382424 424466 466508 50855 55592 592634 634676 676717 717759 759801 801843 843885 885927 927 0 1 2 3 4 5 6 7 8 9 10 Borda Mata Mata Fechada Figura 218 Polıgono de frequˆencias multiplo da area foliar especıfica de C glazioui Tabela 229 Biometria total de Macrobrachium potiuna 2560 2775 2995 3220 3390 3475 3520 3600 3710 3920 4175 4405 2590 2830 3125 3220 3395 3480 3555 3670 3890 3955 4280 4520 2590 2905 3170 3375 3475 3510 3565 3705 3910 4045 4395 4674 frequˆencias multiplo entendese que no mesmo grafico plano cartesiano vamos representar as duas amostras borda da mata e mata fechada por duas linhas poligonais fechadas O polıgono de frequˆencias multiplo e dado na figura 218 Observase que o crescimento foi maior na mata fechada do que na borda da mata com valores representativos de 070 e 040 respectivamente A dispersao dos dados e maior na mata fechada A distribuicao e mais simetrica na amostra da borda da mata com os dados concentrandose mais na parte central 2139 Exercıcios Propostos 1 Os dados da tabela 232 referemse a biometria total em mm do Macrobrachium potiuna Muller 1880 da famılia Palaemonidae Obs os dados encontramse ordenados a Construa a tabela de distribuicao de frequˆencias com 6 classes para os dados b Construa o histograma c Indique um valor representativo para os dados comente sobre a assimetria esta amostra e oriunda de uma populacao com distribuicao aproximadamente normal justifique 2 Dispoese de uma relacao de 36 producoes em kgha de milho do municıpio de Chapeco 65 Tabela 230 Distribuicao de frequˆencias do rendimento de milho para Chapeco e Campos Novos Rendimento Chapeco Freq absoluta Rendimento Campos Novos Freq absoluta 4200 4552 1 6613 7095 1 4552 4904 3 7095 7577 2 4904 5256 5 7577 8059 4 5256 5608 8 8059 8541 13 5608 5960 8 8541 9023 7 5960 6312 6 9023 9505 7 6312 6664 5 9505 9987 2 Total 36 36 e uma relacao de 36 producoes tambem em kgha do municıpio de Campos Novos A tabela de distribuicao de frequˆencias e dada em 230 Construa o polıgono de frequˆencias multiplo Com base no polıgono de frequuˆencia multiplo discuta e compare as duas distribuicoes quanto as principais caracterısticas O Modelo Normal Uma distribuicao de frequˆencias muito importante em estatıstica e aquela onde os dados se distribuem simetricamente em torno de um valor central de tal forma que os dados estao em maior quantidade na regiao proxima desse valor e a medida que se afastam desse valor a concentracao diminui Um grande numero de metodos de analise estatıstica se fundamentam nessa distribuicao denominada distribuicao normal ou Gaussiana devido a Karl Gauss 17771855 A representacao grafica deste modelo que sera estudado com detalhes no capıtulo 5 e dada na figura 219 A distribuicao das alturas de explantes de abacaxi em cm esta representada na figura 220 A princıpio da para dizer que os dados seguem um modelo normal pois a distribuicao e aproximadamente simetrica em torno do valor medio com maior concentracao em torno deste e pouca concentracao nas extremidades 21310 RamoeFolhas Tanto os histogramas como os demais tipos de graficos vistos anteriormente dao uma boa 66 Valor central Figura 219 A representacao grafica do modelo Normal ou Gaussiano 100 113 126 139 151 164 177 Altura de explantes cm 0 2 4 6 8 10 12 14 Densidade de freqüência x 507 Figura 220 Comparacao da distribuicao das alturas de explantes de abacaxi e o modelo normal 67 3 973 4 500 550 552 614 660 680 685 760 769 770 778 849 960 975 980 993 5 056 063 110 117 166 172 202 230 403 513 823 889 6 047 166 388 Unidade 10 3973 3973 Figura 221 Ramoefolhas do rendimento medio em kgha de 32 hıbridos de milho ideia da forma da distribuicao da variavel em estudo isto e do comportamento dos dados Um outro modo de representacao de um conjunto de valores com o objetivo de se ter uma ideia geral dos dados e o ramoefolhas Uma vantagem do ramoefolhas sobre o histograma e que no primeiro nao ha perda de informacao dos dados pois trabalhase com todos os dados originais E possıvel tambem atraves do ramoefolhas obterse algumas outras informacoes mais gerais sobre os dados o que sera mostrado atraves de um exemplo O ramoefolhas e util quando o conjunto de dados nao e muito numeroso pois caso contrario a interpretacao tornase difıcil Exemplo com discussao sobre a construcao do ramoefolhas Nas figuras 221 222 e 223 temos os ramosefolhas da variavel rendimento de graos de hıbridos de milho A ideia basica para construir um ramoefolhas e dividir cada observacao em duas partes a primeira parte que sera denominada de ramo e colocada a esquerda de uma linha vertical a segunda parte que serao denominadas de folhas e colocada a direita dessa linha vertical O criterio de divisao da observacao e decisao do pesquisador Ele vai procurar um ramoe folhas que represente bem o fenˆomeno biologicoagronˆomico Assim para os rendimentos de hıbridos de milho considerando por exemplo o valor 3973 o 3 parte do milhar e o ramo e 973 centena e a folha fazemos esta mesma divisao para todos os demais valores Na figura 221 temos apenas 4 ramos fazendo analogia com o numero de classes do histograma que devera ser entre 5 e 15 ou seja reduziuse muito os dados Para aumentar o numero de ramos podemos subdividılos em duas partes garantindo que os ramos sejam equiprovaveis isto e tenham a mesma chance de receber uma observacao assim os ramos com o sımbolo recebem valores de 000 a 499 e os ramos com o sımbolo recebem valores de 500 a 999 Esse ramoefolhas e mostrado na figura 222 Podemos ainda subdividir os ramos em 5 partes da seguinte forma os ramos com o sımbolo recebem valores na faixa 000 a 199 ramos com o sımbolo recebem valores na faixa 200 a 399 ramos com o sımbolo recebem valores na faixa 400 a 599 ramos com o sımbolo recebem valores na faixa 600 a 799 e ramos com o sımbolo recebem valores na 68 3 3 973 ie 4 500 550 552 614 660 680 685 760 769 770 778 849 960 975 980 993 5 056 063 110 117 166 172 202 230 403 5 513 823 889 6 047 166 388 Unidade 10 3 9733973 Figura 222 Ramoefolhag do rendimento médio em kgha de 32 hibridos de milho 3 973 4 4 e 4 1500 550 552 4 614 660 680 685 760 769 770 778 4 849 960 975 980 993 5 056 063 110 117 166 172 5 202 230 5 403 513 5 5 823 889 6 047 166 6 388 6 Unidade 10 3973 3973 kgha Figura 223 Ramoefolhas do rendimento médio em kgha de 32 hibridos de milho faixa 800 a 999 Este ramoefolhas é dado na figura 223 Interpretagao No primeiro ramoefolhas nao observase que o valor 3973 esta distante da distribuigao dos demais valores isso indica que 0 ramoefolhas com apenas quatro ramos nao é adequado O segundo ramoefolhas nos indica claramente a existencia de um hibrido 3973 com produgao abaixo dos demais Observamos que existe uma queda brusca no lado esquerdo e uma queda mais suave no lado direito portanto a distribuigao é assimétrica a direita Esta distribuigao parece nao seguir o modelo normal Os valores estao bastante con centrados na faixa entre 4500 e 5400 kgha Um valor tipico para representar este conjunto de dados é 5000 kgha No ramoefolhas da figura 223 observase 5 hfbridos com altos rendimentos e cujos valores se distanciam dos demais Se o interesse é encontrar hibridos 69 Tabela 231 Altura de calos em cm de Mandevilla velutina 000 000 000 000 000 000 000 000 000 000 000 000 000 000 000 020 034 034 038 038 039 042 042 042 043 045 050 054 056 057 060 061 061 064 066 080 081 0 000000000000000 0 233333 0 444445555 0 66666 010 00 oe 8 8 unidade 010 Figura 224 Ramoefolhas da altura de calos com alta produtividade esses cinco sao os de maior interesse no estudo O hibrido com baixa producgao tornouse mais evidente o que também é desejavel Observacao A escolha do numero de ramos é equivalente a escolha do nimero de classes no histograma Exercicios resolvidos 1 Os dados da tabela 231 referemse a uma avaliacao da formacao de calos mais especificamente da altura de calos em cm apds um periodo de 30 dias in vitro para os explantes de procedéncia do cerrado da espécie Mandevilla velutina Obs é importante que os calos nao se desenvolvam pois quanto menor eles forem maior sera o desenvolvimento das plantas a Construa um ramoefolhas com cinco ramos Resposta veja figura 224 b Faga algumas conclus6es a respeito dos dados Podemos concluir que a distribuicao é assimétrica a direita um valor representativo do conjunto de dados é 038 cm nao apresenta outliers a grande maioria 801 dos valores esta na faixa de 00 a 057 nao apresenta subgrupos 224 2 Os dados da tabela 232 referemse aos pesos da carne de mexilhoes do manquezal Construa um ramoefolhas para os dados Resposta veja figura 225 Observe nesta figura que houve uma quebra nos ramos A partir da quebra cada valor é um multiplo de 10 isto é 10 20 e 30 No ramo 1 vao os valores na faixa de 10 até 1499 e no ramo 1 vao os valores na faixa de 15 até 1999 E assim para os demais ramos Esta construcao 70 Tabela 232 Dados de peso da carne em gramas de mexilhoes do manguezal 949 954 953 1113 1176 1269 1292 1292 1304 1405 1488 1622 1638 1692 1764 1817 1853 1917 1965 1980 1981 2001 2160 2199 2274 2371 2514 2534 2567 2679 2720 3020 3085 3397 3635 9 49 9 54 53 1 101 176 269 292 292 304 405 488 1 622 638 692 764 814 853 914 965 980 981 2 001 160 199 274 371 2 514 534 567 679 720 949 949 3 020 085 397 11011101 3 635 unidade 001 Figura 225 Ramoefolhas do peso da carne de mexilhdes do manguezal do ramoefolhas foi necessdria pois se nao tivéssemos feito esta quebra no ramo teriamos muitos ramos o que tornaria muito dificil a interpretacao 21311 Exercicios Propostos 1 Os dados da tabela 232 correspondem a varidvel altura de plantas medida em cm para dois tratamentos O tratamento 1 é o controle testemunha isto é nao foi feita a inoculacao do rizébio nas plantas O tratamento 2 corresponde a aplicagao do rizdbio nas plantas A fim de comparar os dois tratamentos faga um ramoefolhas para cada um dos tratamentos Quais os valores para representar os dois tratamentos Qual dos dois tratamentos apresenta maior dispersao Comente sobre a assimetria das distribuicoes Tém valores discrepantes Podese dizer que estas duas amostras sao oriundas de duas populacoes com distribuicao pelo menos aproximadamente normal justifique 2 Faca um ramosefolhas da varidvel duragao do primeiro estadio ninfal de Triatoma 71 Tabela 233 Altura de plantas para dois tratamentos Controle 25 29 29 30 31 31 32 32 33 33 35 36 36 37 37 38 38 40 41 43 Com rizobio 34 36 39 39 40 41 41 41 42 44 44 45 45 46 46 47 47 49 49 51 klugi em dias alimentadas em galo cujos valores sao 21 21 21 22 22 22 22 23 23 23 23 23 25 26 28 28 28 30 30 33 35 35 36 39 39 40 40 42 42 45 46 46 48 50 59 a Qual o valor representativo do conjunto de valores b Comente sobre a assimetria da distribuicao c Podese considerar algumns valores como sendo discrepantes 22 Algumas Medidas e Modelo para Variaveis Quantitativas 221 Medidas de Tendˆencia Central 2211 Media Mediana e Moda Procuramos ate aqui interpretar um conjunto de dados atraves do estudo de distribuicao de frequˆencias diagrama de pontos e do ramoefolhas o que ja foi um grande avanco no sentido de conhecer o comportamento das variavelis em estudo Porem um conjunto de dados pode reduzirse a uma ou apenas algumas medidas numericas que representam todo o conjunto original dos dados Estas medidas sao de muito mais facil compreensao do que os dados originais esta e uma grande virtude da estatıstica isto e reduzir um conjunto de dados em apenas algumas medidas facilmente compreensıveis Por exemplo para conhecer o rendimento tıpico de hıbridos de milho podemos calcular a media ou a mediana dos resultados da variavel E importante chamar a atencao desde ja que sempre que for apresentada uma medida de tendˆencia central e necessario apresentar tambem uma medida de variabilidade dispersao que serao tratadas na proxima secao O objetivo dessa secao e apresentar as principais medidas de tendˆencia central as quais sao assim chamadas devido ao fato dos dados naturalmente tenderem a se concentrar em 72 torno desses valores centrais As trés medidas de tendéncia central mais utilizadas para resumir um conjunto de dados sao e A média aritmética e A mediana e A moda Estas medidas aplicamse para dados isolados como também para dados organizados numa distribuicao de freqiiéncias em classes sendo assim sera mostrado o procedimento de calculo dessas medidas para os dois casos quais sejam 1 dados isolados e 2 agrupados em classes A média aritmética é a idéia que ocorre a grande maioria das pessoas quando se fala em média como ela possui certas propriedades importantes ela é a medida de posicao mais utilizada Contudo ela pode nos levar a erros de interpretacao assim a mediana pode ser a medida mais recomendada em muitas situacgdes Ainda nesta secaéo indicaremos estas situagoes A média aritmética Me é a soma dos valores numéricos de uma varidvel dividida pelo numero deles Por exemplo considere os pesos ao nascer em kg de 10 bezerros da raca Charoleza 7 51 50 50 59 06 9 58 a Assim a média sera 47 51 45 50 50 52 46 49 534 51 Me 2J TJ TANYA 49 4k 10 Genericamente a Me quando todos os valores sao diferentes uns dos outros é dada por Uy Lo Ly 1 MeX Li 24 x ne 24 onde n é 0 nimero de dados da amostra e X é uma varidvel em estudo por exemplo peso ao nascer A letra grega leiase sigma maitiscula como pode ser visto na equagao 24 representa um somatorio isto 6 uma soma de valores Agora quando temos um conjunto de n valores de uma varidvel X dos quais n sao iguais a 1 Nz sao iguais a 9 N SAO iguais a xz entao a média aritmética de X é dada por k k NX NQXQ NEL 1 YX 1 YXi MeX 4 EE dein Mit Quint Mi 25 Nytnotnp ope Mi n 73 Médias oOo o a oOo oOo Y oOo O oO QO 0 oO Oo 90 oS 3 Oo Oo Charoleza 38 42 46 50 54 58 62 9 Gir Pesos ao nascer Figura 226 Diagrama de pontos para peso ao nascer das ragas Charoleza e Gir onde k é o numero de valores diferentes da varidvel em estudo Se f nn representa a freqtiéncia relativa da observacao x entao Me pode ser escrita da seguinte maneira k i1 Exemplo Para os dados dos pesos ao nascer de bezerros da raca Charoleza com k 8 valores diferentes temos MeX 1 x 45 1 x 46 1 x 47 1 x 49 2 x 50 2 x 51 1 x 52 1 x 53 e CC oS LasSes 11414142424141 010 x 45 010 x 46 010 x 47 010 x 49 020 x 50 020 x 51 010 x 52 010 x 53 494kg Exercicio Os valores da varidvel peso ao nascer de uma amostra de 10 bezerros da raga Gir foram 51 ao 06 a8 50 56 04 9 55 0 Encontre a média aritmética da amostra dos pesos ao nascer de bezerros da raga Gir O diagrama de pontos para as duas racas é dado na figura 226 Percebese que os dois conjuntos de dados sao bastante diferentes entretanto apresentam a mesma média entao a média aritmética por si s6 tem muito pouco valor cientiffico E preciso alguma medida de variabilidade para acompanhar a média Isto seré visto na préxima secao A principal restrigao ao uso da média aritmética é que a mesma é muito sensivel a valores excessivamente altos ou baixos valores discrepantes ou outliers Ela é uma medida bas 74 tante adequada quando os dados apresentam pelo menos aproximadamente uma distribuicao normal Quando a distribuicgao é assimétrica devese utilizar preferencialmente a mediana No caso em que os dados estao agrupados em classes de ocorréncias a expressao da média aritmética é dada por Sok nisi Me oe er ot onde n f e 5 sao a freqiiéncia absoluta freqiiéncia relativa e o ponto médio da 7ésima classe respectivamente e k é o numero de classes do histograma Exemplo Para a distribuigao de freqiiéncias da tabela 225 que diz respeito aos rendimentos em kgha de hibridos de milho a média aritmética tem como resultado MeX 5105031kg Vamos ao calculo MeX 003134214 5 037504697 5 0 40635180 5 0 09375663 5 0 09376146 5 5105031 kg Observagao em termos computacionais os programas estatisticos calculam a média facil mente sem a necessidade de formar as classes Acontece muitas vezes que determinados valores de um conjunto de dados séo mais importantes que os demais ou seja tem pesos diferentes merecendo assim um tratamento especial Exemplo Os tubérculos de batatas sementes sao classificados para efeito de comercial izagao em quatro tipos de tamanhos diametros a saber e Tipo I maior que 50 mm até 60 mm inclusive 50 a 60 e Tipo II maior que 40 mm até 50 mm inclusive 40 a 50 e Tipo III maior que 28 mm até 40 mm inclusive 28 a 40 e Tipo IV de 23 mm até 28 mm inclusive 23 a 28 As batatas sementes sao comercializadas em caixas de 30 kg Um agricultor produziu 500 caixas em um hectare 10000 m assim distribufdas e 100 caixas do tipo I prego 1500 umcx e 180 caixas do tipo II prego 3500 umcx e 140 caixas do tipo III prego 3000 umcx 75 e 80 caixas do tipo IV prego 1600 umcx Qual o preco médio por caixa obtido pelo agricultor Podemos usar a expressao 25 para obter esse valor Temos que a varidvel X é 0 preco da caixa de batata semente portanto xX 0 preco da caixa do tipo I e assim por diante n 6 o nimero de caixas produzidas por cada tipo 7 1234 Vamos ao calculo MeX yy nx 100 x 1500 180 x 3500 140 x 3000 80 x 1600 e oe an n 100 180 140 80 1328000 2656 00 um 500 ome Propriedades da Média Aritmeética A média aritmética possui algumas propriedades importantes dentre as quais vamos discutir duas Antes de apresentdélas vamos ver o que significa um desvio ou residuo de um dado em relagéo a sua média Esse desvio é calculado como d My x Assim existem desvios positivos negativos e nulos Para os dados de pesos ao nascer de bezerros da raga Charoleza temos d4549 444 dy4649434 d34749424 dy4949404 d5049406 dg5049406 d75149416 dg5149416 dop5249426 djp5349436 A primeira propriedade é que a soma dos desvios calculados em relacao a média aritmética do conjunto de dados é nula i1 i1 No exemplo 443424040606161626360 A segunda propriedade é que a soma dos quadrados dos desvios em relacéo a média é um minimo Formalmente temos So ai z S d minimo i1 i1 Veremos a utilizagao dessas propriedades quando tratarmos do estudo de medidas de dispersao Uma segunda medida de tendéncia central 6 a mediana A mediana divide um conjunto de dados ao meio onde 50 dos valores se posicionam abaixo da mediana e 50 dos valores 76 Pesos ao nascer 38 42 46 50 54 58 62 Posição da Md55 Figura 227 Diagrama de pontos para peso ao nascer da raca Charoleza calculo da mediana se posicionam acima da mediana portanto a mediana e uma medida baseada na ordenacao dos dados rank em inglˆes Definicao a mediana de um conjunto de valores e o valor Md que ocupa a posicao n 12 quando os dados estao ordenados crescentemente Se n 12 for fracionario tomase como mediana a media dos dois valores de posicoes mais proximas a n 12 Exemplo Vamos calcular a mediana dos pesos ao nascer de bezerros em kg da raca Charoleza Atraves do diagrama de pontos da figura 227 podemos observar que a dis tribuicao de frequˆencias apresenta uma assimetria a esquerda nesse caso e recomendavel o uso da mediana em preferˆencia a media A posicao da mediana e dada por i 1012 5 5 Na figura 227 esta indicada esta posicao Como a posicao e um numero fracionario a mediana sera a media aritmetica entre os valores que ocupam a 5a e a 6a posicao entao Md 50 502 50 kg Uma medida estreitamente relacionada com a mediana sao os quartis Embora nao sejam medidas de tendˆencia central serao aqui tratadas devido a semelhanca com o calculo da mediana Os quartis dividem um conjunto de dados em 4 partes iguais do seguinte modo aproximadamente 25 dos dados serao inferiores ao primeiro quartil Q1 ou seja 25 dos dados estao localizados em posicao inferior ao primeiro quartil 50 dos dados ocupam posicao inferior ao segundo quartil Md que e a mediana e aproximadamente 75 dos dados ocupam posicao inferior ao terceiro quartil Q3 portanto 25 dos valores estao localizados em posicao superior ao terceiro quartil Definicao dado um conjunto de dados ordenados podemos obter de forma aproximada o primeiro quartil Q1 como sendo a mediana dos valores de posicoes menores ou iguais a posicao da mediana A mediana dos valores de posicoes maiores ou iguais a posicao da mediana corresponde ao terceiro quartil Q3 Exemplo Vamos calcular o Q1 e o Q3 para os dados de pesos ao nascer em kg de 77 Pesos ao nascer 38 42 46 50 54 58 62 Md Q3 Q1 Figura 228 Diagrama de pontos para peso ao nascer da raca Charoleza 1 e 3 quartis bezerros da raca Charoleza A posicao do elemento primeiro quartil e i n 12 5 12 3 logo Q1 47Kg O valor de n e igual a 5 pois temos cinco valores em posicao menor ou igual a posicao da mediana A posicao do elemento terceiro quartil e i n 12 5 12 3 logo Q3 51Kg Na figura 228 estao indicados o 1 e o 3 quartil juntamente com a mediana O calculo da mediana e dos quartis para um histograma serao feitos por meio de argu mentos geometricos atraves da proporcionalidade existente entre area e base de retˆangulos Geometricamente a mediana e o valor da abcissa que determina uma linha vertical que divide o histograma em duas partes de areas iguais entao 50 da area do histograma esta abaixo da mediana e 50 da area esta acima da mediana Da mesma forma o 1 quartil e o valor da abcissa que determina uma linha vertical que divide o histograma em duas partes de areas diferentes ou seja 25 da area esta abaixo do 1 quartil e 75 da area esta acima do 1 quartil O terceiro quartil e o valor da abcissa que determina uma linha vertical que divide o histograma em duas partes de areas diferentes ou seja 75 da area esta abaixo do 3 quartil e 25 da area esta acima do 3 quartil Exemplo Vamos encontrar os valores da mediana e dos quartis para a variavel rendi mento de graos em kgha de hıbridos de milho O histograma e dado na figura 215 A classe mediana e aquela cuja porcentagem acumulada e de pelo menos 50 entao no exem plo a mediana e um valor que encontrase na terceira classe cujos limites inferior e superior sao 4939 e 5422 respectivamente Agora vamos usar a regra da proporcionalidade que e dada por 5422 4939 40 6 Md 4939 9 4 No lado esquerdo do sinal de igualdade temos o limite superior 5422 subtraıdo do limite inferior 4939 da classe mediana dividido pela porcentagem de observacoes desta classe 78 406 No lado direito do sinal de igualdade temos um outro retˆangulo cuja area vale 94 obtida da seguinte forma somandose as areas das classes anteriores a classe mediana temos 31337504063 assim 50040694 a base deste novo retˆangulo e Md 4939 cujo valor Md estamos interessados em determinar Obtemos o valor da mediana fazendose Md 11 82769 4 4939 5050 828 kg O calculo dos quartis e feito de maneira analoga ao calculo da mediana A classe que contem o 1 quartil e aquela cuja porcentagem acumulada e de pelo menos 25 no exemplo o 1 quartil encontrase na segunda classe cujos limites inferior e superior sao 4456 e 4939 respectivamente a porcentagem de observacoes nesta classe e de 375 Pela regra da proporcionalidade encontramos 4939 4456 37 5 Q1 4456 21 9 Q1 4738 072 kg O valor 219 e obtido fazendose 25031 A classe que contem o 3 quartil e aquela cuja percentagem acumulada seja de pelo menos 75 no exemplo e a terceira classe cujo limite inferior superior e porcentagem de observacoes valem 4939 5422 e 406 respectivamente Aplicando a regra obtemos 5422 4939 40 6 Q3 4939 34 4 Q3 5348 241 kg Na figura 229 apresentamos o histograma da variavel rendimento de graos em kgha acompanhado dos quartis e mediana Finalmente temos a moda Mo definida com o valor que ocorre com maior frequˆencia num conjunto de dados Pela propria definicao percebese que a moda pode nao existir pois pode nao existir um valor mais frequˆente que os demais ou existindo pode nao ser a unica assim temos series amodal unimodal bimodal trimodal etc Exemplo Para os dados de pesos ao nascer de bezerros da raca charoleza temos duas modas Mo1 50 e Mo2 51 portanto a serie e bimodal No caso do histograma devemos encontrar a classe modal isto e a classe que apresenta a mais alta frequˆencia A moda e por definicao o ponto medio dessa classe A utilidade da moda ocorre quando num conjunto de dados um dois ou um grupo de valores ocorrem com muito maior frequˆencia do que outros 79 Rendimento médio kgha Freqüência absoluta 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 313 375 4063 937 937 Q14738 Md5051Q35348 Figura 229 Representacao geometrica da mediana do primeiro quartil e do terceiro quartil 222 Medidas de Dispersao 2221 Variˆancia Desvio Padrao Coeficiente de Variacao e Desvio Interquartılico Quando apresentamos uma medida de tendˆencia central para representar um conjunto de dados e necessario que esta medida seja acompanhada de um outra medida que resuma a variabilidade dos dados ou seja a dispersao dos dados Na figura 226 estao representados os pesos ao nascer de bezerros das racas Charoleza e Gir duas racas leiteiras Observase que as duas distribuicoes tˆem a mesma media amostral porem os valores para a raca Gir estao bem mais esparramados dispersos do que os valores da raca Charoleza Dizemos que a variabilidade na raca Gir e maior do que na raca Charoleza Enfim os dois conjuntos de dados sao bastante diferentes apesar de apresentarem a mesma media amostral Com isso fica claro que sao necessarios pelo menos dois tipos de medidas para descrever razoavelmente bem um conjunto de dados Uma medida de dispersao quantifica a magnitude da variabilidade dos dados Vamos apresentar as seguintes medidas de dispersao Variˆancia Desvio padrao Coeficiente de variacao Desvio interquartılico Para os metodos estatısticos a medida de dispersao e de fundamental importˆancia pois a necessidade do uso da estatıstica e devida a existˆencia de variabilidade nos dados observados 80 x 694 694 694 694 694 694 694 694 694 694 694 694 694 694 694 694 es a ad a ed P 27 way oe Yom we oe os Joa aka Figura 230 Calculo da variancia do diametro da roseta foliar de bromélias expostas ao sol Para a variancia e o desvio padrao o principio basico é analisar os desvios das observacoes em relacao a média aritmética Em cada caso o valor zero para a variadncia ou desvio padrao indica auséncia de variacao a variacao vai aumentando a medida que aumenta o valor da medida de dispersao A variancia é uma medida de dispersao que nos fornece uma idéia da variabilidade dos dados em torno da média Ela é 0 quociente entre a soma dos quadrados dos desvios dos dados observados tomados em relacgéo a sua média aritmética e o numero de dados n menos l E representada por s quando os dados sao oriundos de uma amostra e por 0 leiase sigma ao quadrado quando os dados representam a populagao Vamos ilustrar os passos para o caélculo da variancia através de um exemplo Exemplo Vamos calcular a variancia para os dados de uma amostra de tamanho n 16 do didmetro em cm da roseta foliar de bromélias expostas ao sol Os dados amostrais obtidos foram 54 54 58 64 64 66 66 68 68 70 73 73 75 82 88 88 Os passos para o caélculo da variancia sao dados na figura 230 Precisamos do valor da média aritmética dos dados no exemplo temos 694 cm Apés sao calculados os desvios dos dados em relacao a média x onde 7 54 ry 54 73 58 Tig 88 em seguida estes desvios sao elevados ao quadrado x Finalmente aplicamos a expressao da variancia amostral que é dada por ge MB 2 BY F On TP Ua i 2 26 n1 n1 No exemplo com base nos resultados de 230 temos 2 98 1065 cm 15 Foi também selecionada uma outra amostra de 16 valores de diametros da roseta foliar de bromélias em ambiente de sombra Os resultados foram 134 137 144 146 146 148 152 152 154 157 162 164 167 175 178 178 81 Para esses dados o valor da variancia é s 1893 cm Obtenha esse valor A conclusaéo que podemos tirar é que para a varidvel diametro as bromélias em ambiente de sombra sao mais heterogéneas apresentam maior variabilidade do que as expostas ao sol Para os dados de peso ao nascer de bezerros representados na figura 211 obtemos Soy 692 kg e sz 36 48 kg para as racas Charoleza e Gir respectivamente Portanto a raca Gir é muito mais heterogénea do que a raca Charoleza para peso no nascimento A variadncia apresenta um inconveniente de ordem prdatica pois como ela é expressa em unidades ao quadrado isto causa problemas de interpretagao Uma outra medida de variabilidade calculada através da variancia é o desvio padrao da amostra s Na pratica o desvio padrao é preferido em relacgéo a variancia pois ele é expresso na mesma unidade dos dados originais O desvio padrao nada mais é do que a raiz quadrada da variancia logo s Vs 27 Exemplo Para os dados amostrais do diaémetro da roseta foliar de bromélias em cm expostas ao sol e em ambiente de sombra os valores do desvio padrao sao ss 1032 cm Ssombra 1376 cm respectivamente O desvio padrao é uma medida relativa assim sé faz sentido afirmar que um desvio é grande ou pequeno comparativamente a outro Nesse exemplo o desvio padrao para expostas ao sol 6 menor do que para ambiente de sombra Podemos dizer que para expostas ao sol a dispersao dos valores em torno da média é em média igual a 1032 cm e para ambiente de sombra a disperséo dos valores em torno da média é em média igual a 1376 cm Existe uma expressao mais geral para o calculo da variancia e desvio padrao dada por k 2 2 Leia ti A 28 n1 onde k é 0 numero de valores diferentes de x n 6 a frequéncia de ocorréncia do 7ésimo valor Para os dados de diaémetro de roseta expostas ao sol também podemos calcular a variancia usando 28 da seguinte forma 2x 237 1 x 130 2 x 029 2 x 012 2 x 3 46 9 SO NN 1065 cm 161 Em algumas situacoes como por exemplo quando a populacao nao é muito grande é pre ferivel realizar o censo isto é obter as informacoes sobre todos os elementos plantas pessoas etc que constituem esta populacao Por exemplo num estudo sobre a consanguinidade na comunidade da Costa da Lagoa da Conceicao Floriandépolis SC foram levantados os dados de todos os moradores populagao Nesse caso temos a varidncia populacional representada 82 por 0 leiase sigma ao quadrado e é calculada através da expressao N 2 Se 29 0 29 onde yu leiase mi é calculada por pp yy xN a média obtida com todos os dados da populacao N é 0 tamanho da populacao isto 6 o numero total de dados Da mesma forma o desvio padrao populacional é obtido através da raiz quadrada da variancia e é representado por o O coeficiente de variacao é utilizado quando temos interesse em comparar variabilidades em situacdes onde as médias sao muito diferentes ou as unidades de medida sao diferentes Nesse caso utilizamos o coeficiente de variacao pois 6 uma medida relativa percentual da variabilidade dos dados em torno da média isto é S CV x 100 210 x E uma medida de dispersao relativa porque estabelece uma relacaéo entre o desvio padrao s e a média Sendo uma medida independente da unidade da variavel é util para se estudar comparativamente duas ou mais distribuicoes Exemplo Os dois conjuntos de dados abaixo representados referemse ao comprimento do corpo dado em mm e peso de fémeas dado em g de Penaeus paulensis Crustacea Decapoda Penaidae respectivamente obtidos nas despescas dos viveiros do Centro de Ciéncias Agrdrias CCA da Universidade Federal de Santa Catarina UFSC O compri mento do corpo é dado em mm enquanto que o peso é dado em g 27 26 26 25 25 25 25 23 23 30 30 33 33 33 35 35 35 36 014 016 014 012 012 012 011 009 007 018 023 028 028 032 031 033 036 033 A média e o desvio padrao para cada uma das amostras sao Zc 2917 mm yp 021 g sc 463 mm e sp 010 g Assim os coeficientes de variacéo valem cug x 100 1588 cup PSe x 100 48 00 Portanto a variabilidade na varidvel peso é muito maior do que na varidvel comprimento A variabilidade é mais significativa para peso Observe que pelos valores dos desvios padroes a conclusao seria diferente 83 O coeficiente de variacao é bastante utilizado em dinamica de populacgdes vegetais ou animais Outra aplicagao importante do coeficiente de variacao é na estatistica experimental pois ele indica a precisao do experimento ou seja a capacidade de realizarmos novamente o experimento sob as mesmas condicodes e produzir resultados semelhantes Quais sao os valores de CV aceitaveis na experimentacao Os valores dos coeficientes de variagao dependem do tipo de pesquisa e da varidvel em estudo sendo assim nao existe um orientagao geral devese fazer uma busca bibliografica em pesquisas similares Numa situacao de ensaios agricolas de campo para culturas anuais como soja milho e feijao e varidvel rendimento de graos temos a seguinte orientacao CV 10 baixo 10 CV 20 médio 20 CV 30 alto CLV 30 muito alto Para dados agrupados em classes histograma podemos calcular a variancia através das seguintes expressoes 2 ri si n s ol para dados amostrais 211 n 2 aC LL nj Se para dados populacionais 212 onde k é o numero de classes 5 6 o ponto médio da 7ésima classe n 6 o numero de dados observados na iésima classe e N é 0 tamanho da populacao A tinica alteracao das formulas anteriores é a substituicao dos valores originais 7 pelos pontos médios s Exemplo Para a distribuicao de freqiiencias da tabela 225 que diz respeito aos rendi mentos em kgha de hibridos de milho o valor da variancia é dado por 1 So 3 tl4214 5 5105 0 x 1 4697 5 5105 0 x 12 5180 5 5105 0 x 13 56635 5105 0 x 3 6146 5 5105 0 x 3 s 227409 74 kgha O desvio padrao vale s Vs 47687 kgha Da mesma forma que a média aritmética a variancia 6 uma medida de dispersao que representa bem a realidade quando os dados apresentam pelo menos aproximadamente uma 84 distribuicao normal Para distribuicoes assimetricas uma medida da variabilidade e dada pelo desvio interquartılico calculada por Q3 Q1 Exemplo Para os valores de rendimento de graos em kgha de hıbridos de milho o valor do desvio interquartılico e 53482473816101 Temos que 50 dos valores encontram se no intervalo de 47381 a 53482 A Media e o Desvio Padrao Sob um Modelo Normal Um caso importante acontece quando os dados numa distribuicao de frequˆencias ap resentam o histograma com a forma de sino esta distribuicao e comumunte chamada de distribuicao normal ou Gaussiana devido a Karl F Gauss Nessa distribuicao sempre temos 1 68 dos dados estao compreendidos entre a media mais ou menos um desvio padrao µ 1σ µ 1σ 2 954 dos dados estao compreendidos entre a media mais ou menos dois desvios padroes µ 2σ µ 2σ 3 997 dos dados estao compreendidos entre a media mais ou menos trˆes desvios padroes µ 3σ µ 3σ Esses resultados podem ser visualizados na figura 231 Nos trabalhos cientıficos e bastante comum e aconselhavel a representacao dos dados na forma x s ou xs Isso indica que sob normalidade dos dados 68 dos dados estao entre a media mais 1 desvio padrao e a media menos 1 desvio padrao O responsavel pelos dados Agrˆonomo Biologo deve avaliar se estes intervalos sao amplos pouco precisos ou nao precisos para o fenˆomeno real em estudo Vimos a importˆancia de se identificar as observacoes discrepantes num conjunto de dados Numa distribuicao aproximadamente normal algumns valores maiores que x 3s ou menores que x 3s sao considerados valores discrepantes ou outliers Para a amostra de peso de fˆemeas de Penaeus paulensis encontramos x 0 2050 e s 0 0984 Temos que x 3s 0 2050 30 0984 0 5000 e x 3s 0 2050 30 0984 0 0902 Como na amostra estudada nao temos nem um valor acima de 050 concluımos por este criterio que nao existe valor discrepante 85 3 2 1 0 1 2 3 68 a Aproximadamente 68 dos dados estao entre µ σ 3 2 1 0 1 2 3 955 b Aproximadamente 954 dos dados estao entre µ 2σ 3 2 1 0 1 2 3 997 c Aproximadamente 997 dos dados estao entre µ 3σ Figura 231 Distribuicao dos dados sob o modelo normal de acordo com µ e σ 86 Uma Regra Emptrica para a Dispersao Existe uma regra empirica determinada por um matematico russo chamado Tchebysheff que diz o seguinte dado um numero ks 1 e uma amostra de n observacoes 11 2 Ln é certo que pelo menos 1 is dessas observacoes pertencerao ao intervalo 7ks exks Esta regra é importante principalmente quando nao se conhece a distribuigao dos dados Exemplo O objetivo é estudar o ntimero de insetos de determinada espécie por arvore de Pinus elliotti Uma amostra de tamanho n 16 arvores foi coletada e os resultados foram PSs a3 sfolrssfs ys A média e o desvio padrao valem 7 3 6875 insetos e s 2 3866 insetos respectivamente Para k 2 temos que pelo menos 75 das observacoes encontramse no intervalo 08 Verificandose os dados da amostra encontramos 100 das observagoes nesse intervalo Exercicio resolvido 1 Utilizando os dados da tabela 232 calcule a média a variancia o desvio padrao e o coeficiente de variagéo para cada um dos tratamentos Sem e Com rizobio Com rizdébio z a20 3435 4330 s 37 ay 20 1 2045 1991 s Vs 458 446 CV 2100 1316 1030 Utilizando a média e o desvio padrao como vocé descreveria os dados do tratamento 1 e do tratamento 2 ainda utilizando a média e o desvio padrao verifique se existem dados suspeitos e discrepantes para o tratamento 1 e 2 Indique os calculos Resultados Desariedo Suapetts Direpanta Daas sam aa Sem rizdbio 3435 452 3435 2452 3435 34 52 avn Com rizébio 4334446 43342446 433 34 46 nin No tratamento 1 verificamos que o valor 25 é suspeito porém nao é considerado dis crepante no tratamento 2 verificamos que o valor 34 é suspeito porém nao é discrepante 87 MediaDesv Pad MediaDesv Pad Media Altura de plantas TRAT Sem rizóbio 0 10 20 30 40 50 60 TRAT Com rizóbio Figura 232 Representacao grafica das medias e dos desvios padroes Calcule a mediana e os quartis para cada um dos tratamentos Aplicando as definicoes encontramos Q1 Md Q3 Sem rizobio 31 34 375 Com rizobio 405 44 465 Fazer uma representacao grafica das medias e dos desvios padroes A representacao e dada na figura 232 As alturas das colunas representam as medias dos tratamentos portanto no tratamento com rizobio a altura media e maior do que sem tratamento Os desvios padroes dos tratamentos sao praticamente iguais 2222 Exercıcios Propostos 1 A tabela de distribuicao de frequˆencias 234 foi construıda a partir dos dados da tabela 231 Observe que a distribuicao e assimetrica a direita pois possue uma cauda mais longa a direita Calcular a media a variˆancia o desvio padrao a mediana e os quartis da distribuicao de frequˆencias Considere o conjunto 1 formado pela media e variˆancia e o conjunto 2 formado pela mediana e quartis Qual dos dois conjuntos vocˆe recomendaria para essa distribuicao Justifique 88 Tabela 234 Distribuigao de freqiiéncia da varidvel altura de calos em cm num periodo de 30 dias in vitro da espécie Mandevilla velutina Altura de calos Freqtiéncia absoluta n 000 F 014 007 15 014 028 021 1 028 042 035 5 042 056 049 8 056 F 070 063 7 070 F 084 077 2 Total 38 Tabela 235 Produgaéo de canadeacticar em tha Variedade 1 Variedade 2 65 78 88 93 99 68 80 89 95 75 80 90 96 76 82 91 97 77 86 92 97 2 Para se estudar o comportamento de duas variedades de canadeacucar realizouse um experimento onde foram obtidos os resultados descritos na tabela 235 Para decidir se a producao média das duas variedades de canadeacticar sao semelhantes ou nao adotouse 0 seguinte teste t 2 onde s ra si m2 Yo 213 yo 5 n1 2 2 Caso t 2 as producdes médias séo semelhantes caso contrario sao diferentes Qual é a sua conclusao 3 Na tabela 236 temos os resultados da varidvel peso de carne em gramas de mexilhoes de dois locais 1 Sambaqui e 2 Manguezal a calcule a média e a mediana para cada um dos locais Onde houve maior crescimento b Calcule 0 Q e 0 Q3 para cada um dos locais Explique o significado destes ntimeros c Compare os dois locais quanto a homogeneidade calcule uma medida de dispersao e conclua 89 Tabela 236 Peso de carne de mexilhoes em gramas em dois locais Sambaqui Manguezal 3061 4288 2794 2534 949 1917 2889 3622 4145 2567 1692 2160 3221 2886 4259 1764 1291 2001 2425 2256 1525 3397 1405 1981 2563 2292 3329 1113 1488 1622 Tabela 237 Distribuicao de frequˆencias para peso de mexilhoes da localidade de Sambaqui Peso Frequˆencias Porcentagens 8 peso 11 3 857 11 peso 14 6 1714 14 peso 17 5 1429 17 peso 20 7 2000 20 peso 23 4 1143 23 peso 26 4 1143 26 peso 29 2 571 29 peso 32 2 571 32 peso 35 1 286 35 peso 38 1 286 d Calcule o coeficiente de variacao para cada local e interprete A conclusao e a mesma do item c Qual das duas conclusoes e a definitiva 4 A tabela 237 apresenta uma amostra de valores de peso de carne de mexilhao do Sambaqui a Construa um histograma A distribuicao apresenta a forma aproximada do modelo normal Justifique b Localize no histograma a classe que contem o percentil de ordem 90 P90 Interprete este valor c Acima de que peso encontramse 85 Calcule o P15 dos mexilhoes 223 O Uso da Mediana e dos Quartis na Interpretacao de um Conjunto de Dados O objetivo do uso da mediana e dos quartis e obter informacoes sobre a forma o valor 90 Tabela 238 Dados de crescimento do pseudobulbo de Laelia purpurata Florianopolis SC Luz Direta 16 16 19 19 21 21 21 21 21 24 25 25 27 34 34 37 39 42 48 63 65 72 88 94 95 Luz Indireta 14 19 28 31 35 35 36 39 43 45 46 48 63 65 67 67 68 69 81 86 104 127 163 168 169 Tabela 239 Calculo dos quartis e extremos para dados de crescimento do pseudobulbo de Laelia purpurata Md Q1 Q3 Ei Es Q1 1 5Q3 Q1 Q3 1 5Q3 Q1 Luz direta 27 21 48 16 95 195 885 Luz indireta 63 36 81 14 169 315 1485 representativo a dispersao e os valores discrepantes da distribuicao dos dados observados Atraves destas estatısticas e possıvel obterse todas as informacoes relevantes de uma dis tribuicao ou seja podemos responder as principais questoes da pesquisa Sabemos que a media e o desvio padrao sao afetados de forma exagerada por valores extremos valores altos ou baixos portanto nao sao medidas indicadas para distribuicoes assimetricas pois nao representam bem a realidade dos fatos Alem disso somente com a media e o desvio padrao nao temos ideia da forma como os dados se distribuem A sugestao e fazer uso das seguintes medidas i Mediana ii Os valores extremos o menor valor e o maior valor do conjunto de dados iii O 1 e 3 quartis Obtemos entao o que se denomina na literatura por esquema dos cinco numeros ou esquema extremosequartis Exemplo Foram tomadas duas amostras de tamanhos igual a 25 observacoes de cresci mento do pseudobulbo de Laelia purpurata sob duas condicoes de luminosidade com luz direta e com luz indireta Os dados estao apresentados na tabela 238 Os resultados dos calculos da mediana e dos quartis juntamente com os extrtemos Ei e Es sao apresentados na tabela 239 Nesta tabela as duas ultimas colunas representam um criterio para identificar a presenca de valores discrepantes o qual passamos a descrever 91 993 Valores discrepantes Valores discrepantes Figura 233 Area sombreada 993 entre os pontos limites na distribuicao normal A area nao sombreada corresponde aos valores discrepantes e e igual a 07 Valores Discrepantes em inglˆes Outliers Com o uso dos quartis tambem e possıvel verificar detectar se um ou mais valores da distribuicao dos dados sao considerados valores discrepantes Se algum valor for menor do que Q1 1 5Q3 Q1 ou maior do que Q3 1 5Q3 Q1 entao esse valor e considerado outlier Num conjunto de dados pode existir mais do que um valor discrepante No exemplo esses limites sao dados por 195 e 885 para luz direta e 315 e 1485 para luz indireta respectivamente Portanto observase na tabela 238 que os valores 94 e 95 sao considera dos outliers para luz direta e que os valores 163 168 e 169 sao considerados outliers para luz indireta Uma justificativa para utilizarmos o valor 15 nas expressoes do calculo dos valores dis crepantes deixaremos a prova para a secao 532 e que a area entre a curva normal e os pontos limites Q1 1 5Q3 Q1 e Q3 1 5Q3 Q1 e igual a 993 Portanto estamos considerando 07 dos valores da distribuicao normal como sendo valores discrepantes ou outliers A ilustracao e dada na figura 233 Como vamos utilizar esses resultados para estudar a forma de uma distribuicao de dados Para uma distribuicao simetrica em forma de sino a chamada distribuicao normal temos a figura 234 Olhandose para a figura 234 esperamos intuitivamente que 1 Md Ei Es Md ou seja a dispersao inferior e aproximadamente igual a dispersao superior 2 Md Q1 Q3 Md 92 Mediana 50 dos dados Q1 Q3 Ei Es Figura 234 Forma da distribuicao normal 3 Q1 Ei Es Q3 4 As distˆancias entre a mediana e os quartis sejam menores do que as distˆancias entre os extremos e os quartis ou seja MdQ1 e Q3 Md sejam menores do que Q1 Ei e Es Q3 224 Desenho Esquematico em inglˆes leiase Box Plot As informacoes obtidas na secao 223 podem ser representadas graficamente num desenho esquematico como ilustrado na figura 235 Os programas estatısticos de lıngua inglesa trazem esta figura com o nome de box plot A seguir faremos comentarios sobre a construcao e interpretacao do desenho esquematico da figura 235 O primeiro passao e construırmos o eixo e a escala para a variavel resposta no exemplo para a variavel comprimento do pseudobulbo foi feita uma escala de 0 a 18 cm com intervalos de 2 cm O desenho esquematico fornece uma medida de posicao central dos dados atraves da mediana As medianas valem 27 cm e 63 cm para luz direta e indireta respectivamente indicando que o crescimento de pseudobulbos e maior para luz indireta Observe na legenda da figura 235 que as medianas estao representadas por quadradinhos vazios dentro das caixas retˆangulos O desenho esquematico tambem da uma ideia da dispersao ou contrariamente da concentracao dos valores atraves do intervalo interquartılico Q3 Q1 Os desvios interquartılicos valem 27 cm e 45 cm para luz direta e indireta respectivamente indicando que o crescimento de pseudobulbos e mais disperso para luz indireta Observe 93 Não Outlier Max Não Outlier Min 75 25 Mediana Outliers Condição Comprimento do pseudobulbo 0 2 4 6 8 10 12 14 16 18 Luz direta Luz indireta Figura 235 Desenho esquematico para comprimento de pseudobulbos de Laelia purpurata para luz direta e indireta na legenda da figura que o desvio interquartılico contem 50 das observacoes na faixa de 25 Q1 a 75 Q3 e e representado graficamente por uma caixa Os comprimentos das caudas sao dados pelas linhas contınuas que vao da caixa retˆangulo aos valores mais afastados que nao sejam outliers Observe na tabela 238 que os valores superiores mais afastados que nao sao outliers sao iguais a 88 e 127 para luz direta e indireta respectivamente Os valores inferiores mais afastados que nao sao outliers sao iguais a 16 e 14 para luz direta e indireta respectivamente Os outliers estao representados por pequenos cırculos vazios e observase na figura 235 a presenca dos mesmos em ambos os ambientes Nao se observa valores discrepantes para os valores inferiores das distribuicoes Nas figuras 236 e 237 temos o comportamento dos quartis e mediana quanto a dispersao e a assimetria As posicoes relativas dos valores Q1 Q3 e Md dao uma ideia da assimetria e dispersao da distribuicao No nosso exemplo a distribuicao com luz direta e mais assimetrica e menos dispersa do que com luz indireta Observe na figura 238 como fica o desenho esquematico para uma distribuicao normal Podemos ver claramente que as amostras para luz direta e indireta nao sao originarias de populacoes com distribuicao normal Exercıcios resolvidos 1 Construir o desenho esquematico para a variavel rendimento medio de graos em kgha da tabela 21 Os valores da mediana e dos quartis foram calculados considerando os dados individualmente isto e nao sao agrupados em classes e aparecem na legenda da figura 239 Encontre estes valores Este desenho esquematico foi feito no programa Statistica 94 Extremosequartis e a dispersao de uma distribuicao Md Q1 Q3 Ei Es a Menor dispersao do que 236b Md Q1 Q3 Ei Es b Maior dispersao do que 236a Figura 236 Em distribuicoes dispersas os valores dos quartis e extremos ficam mais afasta dos da mediana Extremosequartis e a assimetria de uma distribuicao Md Q1 Q3 E1 Es a Assimetria a direita Md Q1 Q3 E1 Es b Assimetria a esquerda Figura 237 Em distribuicoes assimetricas a distˆancia entre a Md e Q1 ou Ei e diferente da distˆancia entre Md e Q3 ou Es 95 Q1 Q3 Md Ei Es Figura 238 Desenho esquematico para uma distribuicao normal NonOutlier Max 58 NonOutlier Min 45 75 5216 25 47225 Median 49865 Outliers Box Plot 3800 4200 4600 5000 5400 5800 6200 6600 RENDIMENTO Figura 239 Desenho esquematico para rendimento de graos Obtenha informacoes relevantes sobre a variavel em estudo Vocˆe saberia fazer esta figura na mao O rendimento medio e 49865 kgha O desvio interquartılico vale 4935 kgha Sao observados 4 valores discrepantes um hıbrido com producao aquem dos demais e 3 hıbridos com producoes acima dos demais A distribuicao e assimetrica a direita portanto nao segue uma distribuicao normal 2 Na figura 240 representase duas distribuicoes de frequˆencias uma para local Cultivo e outra para Mangue Os resultados referemse a variavel numero total de hemocitos no bivalve Crossostrea rhizophorae coletados em ambiente de cultivo e mangue Descreva e compare as principais informacoes valor tıpico simetria dispersao outliers das duas distribuicoes O numero total mediano de hemocitos nos dois locais e praticamente o mesmo e em torno de 2 5103mm3 As duas distribuicoes sao assimetricas No mangue a distribuicao 96 NonOutlier Max NonOutlier Min 75 25 Mediana Outliers Extremos Local Total de hemócitos 1 2 3 4 5 6 7 Cultivo Mangue Figura 240 Desenho esquematico para numero total de hemocitos em dois locais Tabela 240 Producao de canadeacucar em toneladas por hectare Variedade 1 65 68 75 76 77 78 80 80 82 86 Variedade 2 88 89 90 91 92 93 95 96 97 97 99 apresenta valores discrepantes 2241 Exercıcios Propostos 1 Para se estudar o comportamento de duas variedades de canadeacucar realizouse um experimento onde foram obtidos os resultados indicados na tabela 240 a Calcular a Md Q1 Q3 Q3 Q1 Q1 1 5Q3 Q1 e Q3 1 5Q3 Q1 para cada uma das variedades b Faca o desenho esquematico multiplo para os dados das variedades 1 e 2 c Compare os dois conjuntos de dados atraves do desenho do item b 2 Para se estudar o comportamento de uma planta tıpica de dunas a Hydrocotille sp quanto ao seu desenvolvimento mediuse o tamanho do pecıolo cm em duas areas seca e umida Selecionouse de cada uma dessas areas amostras aleatorias de plantas e mediuse o tamanho dos pecıolos Os dados sao dados na tabela 241 a Calcular a Md Q1 Q3 Q3 Q1 Q1 1 5Q3 Q1 e Q3 1 5Q3 Q1 para cada uma das variedades b Faca o desenho esquematico multiplo para os dados das areas seca e umida 97 Tabela 241 Tamanho de pecıolos de Hydrocotille sp Area umida Area seca 138 156 161 166 73 84 90 104 143 158 163 168 76 84 90 104 145 158 163 168 78 84 93 109 150 158 163 169 78 86 93 109 150 158 163 170 80 86 93 117 155 160 165 170 82 86 96 117 155 160 165 172 82 86 96 120 155 160 166 174 83 90 98 156 161 166 83 90 98 c Compare os dois conjuntos de dados quanto as principais caracterısticas atraves do desenho do item b 3 Verifique construindo os desenhos esquematicos para os dados da tabela 236 se existem valores discrepantes Obs utilize os calculos ja realizados neste exercıcio 225 Coeficiente de Correlacao E comum na pratica o interesse em se analisar o comportamento conjunto de duas ou mais variaveis quantitativas Nessa secao trataremos do estudo de correlacao entre duas variaveis quantitativas porem a generalizacao para mais de duas variaveis e possıvel Vamos pensar que estamos interessados em obter uma medida estatıstica que indique se existe ou nao relacao entre duas variaveis qual a magnitude e o sinal dessa relacao Muitas vezes estamos interessados em obter uma medida estatıstica que indique a forca da relacao linear entre duas variaveis quantitativas X e Y Por exemplo queremos verificar se existe correlacao entre doses de nitrogˆenio e a producao de milho ou entao estudar o relacionamento entre a porcentagem de nucleotıdeos totais e a temperatura em graus centıgrados Uma medida de correlacao linear muito utilizada na pratica e o coeficiente de correlacao de Pearson Diagrama de Dispersao Um primeiro passo para verificar se existe correlacao entre duas variaveis quantitativas e construir um grafico de dispersao que nada mais e do que a representacao grafica dos pares 98 Tabela 242 Dados de producao de materia seca e radiacao fotossintetica ativa Producao 10 60 110 160 220 280 340 400 460 520 Radiacao 18 55 190 300 410 460 570 770 815 965 Radiação fotossintética Wm2 Produção gm2 0 100 200 300 400 500 600 0 200 400 600 800 1000 Figura 241 Diagrama de disperao das variavies producao e radiacao fotossintetica de valores num sistema cartesiano No eixo das abcissas colocamos a variavel X e no eixo das ordenadas a variavel Y Exemplo Considere os dados referentes a producao de materia seca de uma planta Y e a quantidade de radiacao fotossintetica ativa X Os dados obtidos experimentalmente sao apresentados na tabela 242 O diagrama de dispersao e mostrado na figura 241 Atraves da pura observacao da distribuicao dos pontos concluımos que existe uma dependˆencia entre as variaveis producao Y e radiacao X porque no conjunto das observacoes a medida que aumenta a radiacao fotossintetica tambem aumenta a producao de materia seca Em termos praticos isso significa que conhecendose a quantidade de radiacao ajuda a prever a producao de materia seca Exemplo Desejase saber se existe correlacao entre o espacamento das linhas na cultura da soja X e a fracao da radiacao solar extinta pela planta Y Para atender a esse objetivo foram coletados pares de valores das duas variaveis Os resultados otidos foram Radiacao 02 03 04 05 06 07 08 09 10 11 Espacamento 053 051 048 045 044 041 040 039 036 030 99 Espaçamento m Radiação 028 032 036 040 044 048 052 056 01 03 05 07 09 11 13 Figura 242 Diagrama de disperao das variavies radiacao e espacamento Tabela 243 Valores de salinidade gl e temperatura para a regiao III da Lagoa da Con ceicao Estacao Temperatura Y Salinidade X 23 240 385 23A 230 961 24 230 226 25 260 206 26 255 289 27 250 961 27A 243 1058 28 230 1140 Observandose o grafico 242 verificamos uma dependˆencia inversa entre espacamento e radiacao ou seja aumentandose o espacamento entre linhas ocorre uma diminuicao na fracao da radiacao solar extinta pela planta Exemplo Uma pesquisadora esta interessada em verificar se existe dependˆencia entre a salinidade gl e a temperatura para a regiao III da Lagoa da Conceicao Os dados estao descritos na tabela 243 O diagrama de dispersao e mostrado na figura 243 Olhandose para o grafico 243 nao observamos um relacionamento linear entre a salinidade e a temperatura ou seja os resul tados nao indicam que aumentandose a salinidade existe uma diminucao ou um aumento da temperatura 100 Salinidade Temperatura 225 230 235 240 245 250 255 260 265 1 3 5 7 9 11 13 Figura 243 Diagrama de disperao das variavies salinidade e temperatura O Coeficiente de Correlacao O coeficiente de correlacao representado pela letra r e utilizado para quantificar a associacao entre duas variaveis quantitativas Indica o quanto a nuvem de pontos aproxima se de uma reta Salientamos que duas variaveis podem apresentar uma associacao por exemplo curvilınea ao inves de linear Neste curso trataremos somente de associacao linear entre duas variaveis O coeficiente de correlacao r e uma medida estatıstica que assume valores entre 1 r 1 onde r 1 indica uma relacao linear inversa perfeita e r 1 indica uma relacao positiva perfeita entre as variaveis Quando o valor de r for igual a zero significa que nao existe associacao entre as variaveis Considere a figura 244 Aqui atraves de uma transformacao a origem foi transportada para o centro da nuvem de pontos entao a origem do sistema e dado pelo par x y Tecnicamente foi feita uma translocacao de eixos Notamos que a grande maioria dos pontos estao situados no 1o e 3o quadrantes Nesses quadrantes as coordenadas tˆem o mesmo sinal e portanto o produto sera sempre positivo Assim se para cada ponto fizermos o produto de suas coordenadas e somarmos esses produtos o resultado sera um numero positivo pois existem mais produtos positivos do que negativos Portanto r 0 Isto significa uma associacao positiva entre as variaveis Para a dispersao da figura 245 a soma dos produtos das coordenadas e na maioria negativa Isto acarreta um r 0 portanto caracterizando uma relacao negativa uma cresce enquanto a outra decresce entre as variaveis 101 X Y r 0 Figura 244 Correlacao positiva X Y r 0 Figura 245 Correlacao negativa 102 X Y r 0 Figura 246 Correlacao nula Para a dispersao da figura 246 a soma dos produtos das coordenadas sera proxima de zero Portanto r 0 indicando que nao existe associacao entre as variaveis Exemplo Considere os dados referentes a producao de materia seca de uma planta Y e a quantidade de radiacao fotossintetica ativa X mostrados na tabela 242 e que desejamos saber se existe associacao entre a producao e a radiacao e qual a grandeza desta associacao Pela figura 241 percebese um relacionamento linear entre elas agora desejamos quantificalo atraves do calculo do coeficiente de correlacao o qual passamos a fazer passo a passo Inicialmente precisamos fazer a mudanca de origem do sistema para o ponto x y onde x 455 30 e y 256 00 Os resultados encontramse nas colunas 4 e 5 da tabela 244 Existe ainda um problema quanto a escala usada A variavel X e dada em gm2 e Y e dada em Wm2 como X tem maior dispersao o produto ficara mais afetado pelos resultados de X do que de Y Para corrigir isso podemos reduzir as duas variaveis para uma mesma escala isso e obtido dividindose os desvios pelos respectivos desvios padroes das variaveis onde σX 308 1263 e σY 164 4506 Observe que sao os desvios padroes populacionais Esses novos valores estao nas colunas 6 e 7 da tabela 244 Na ultima coluna da tabela indicase os produtos das variaveis padronizadas a soma dos mesmos cujo valor e igual a 9953 que como esperavamos e positiva Para completar o calculo do coeficiente de correlacao basta dividir 9953 pelo numero de pares de valores media cujo valor e igual 103 Tabela 244 Etapas intermediarias para o calculo do coeficiente de correlagao 1 18 10 4373 2460 1419 1496 2123 2 55 60 4003 1960 1299 1192 1548 3 190 110 2653 1460 0861 0888 0764 4 300 160 1553 960 0504 0584 0294 5 410 220 453 360 0147 0219 0032 6 460 280 47 240 0015 0146 0002 7 570 340 1147 840 0372 0511 0190 8 770 400 3147 1440 1021 0876 0894 9 815 460 3597 2040 1167 1240 1448 10 965 520 5097 2640 1654 1605 2656 a CorrelagéoXY 09953 Portanto para esse exemplo o grau de associacgao linear esta quantificada em 09953 Indi cando uma relacgao linear muito forte positiva entre as duas varidveis Uma férmula pratica para o calculo do coeficiente de correlagao é dada por CorrXY ety Out diy 214 Vnd7 2 QiayPVnQ7y Oly Exemplo Vamos considerar os dados de produgao de matéria seca e a quantidade de radiacao fotossintética para mostrar os calculos da estatistica 214 Os calculos intermediarios estao desenvolvidos na tabela 245 O valor do coeficiente de correlagao por 214 é CorrXY 101669880 4553 2560 5043120 0953 103022399 4553 10925800 25602 5067155 33 2251 Exercicios propostos 1 A tabela 246 apresenta os valores de condutividade mho e salinidade gl para a regiao III da Lagoa da Conceicao a Construir o grafico de dispersao Conclua sobre a dependéncia entre as varidveis X e Y b Quantifique a dependéncia entre X e Y através do coeficiente de correlagéo Existe uma dependeéncia forte média ou fraca 2 Um estudo de vida de prateleira do café torrado e moido foi realizado Os testes sensoriais foram iniciados a partir do 92 dia de estocagem e depois a intervalos de mais ou 104 Tabela 245 Etapas intermediarias para o calculo do coeficiente de correlacao formula operacional Observacao x y x2 y2 xy 1 18 10 324 100 180 2 55 60 3025 3600 3300 3 190 110 36100 12100 20900 4 300 160 90000 25600 48000 5 410 220 168100 48400 90200 6 460 280 211600 78400 128800 7 570 340 324900 115600 193800 8 770 400 592900 160000 308000 9 815 460 664225 211600 374900 10 965 520 931225 270400 501800 Totais 4553 2560 3022399 925800 1669880 Tabela 246 Valores de condutividade mho e salinidade gl para a regiao III da Lagoa da Conceicao Estacao Condutividade Y Salinidade X 23 1992 385 24 1178 226 25 1411 206 26 1610 289 27 3652 961 28 5146 1140 105 Tabela 247 Notas medias de aroma de cafe torrado e moıdo Sessao Tempo de Resultado medio da equipe de de estocagem dias provadores para cada amostra avaliacao x y1 y2 y3 1 9 48 47 47 2 14 40 47 48 3 22 37 37 35 4 29 32 35 32 5 36 37 30 33 6 43 25 28 27 menos 7 dias Em cada epoca de avaliacao sensorial trˆes amostras pacotes foram obtidas ao acaso Seis provadores treinados avaliaram as trˆes amostras simultaneamente julgando o produto quanto ao aroma em uma escala descritiva de 1 a 6 pontos 6 excelente 5 bom 4 aceitavel 3 pouco aceitavel 2 inaceitavel e 1 nao bebıvel Os resultados obtidos sao dados na tabela 247 a faca o diagrama de dispersao entre as variaveis tempo e media de aroma b calcule o coeficiente de correlacao entre as duas variaveis e faca uma conclusao 226 Ajuste da Equacao de uma Reta O coeficiente de correlacao da um numero que resume o grau de relacionamento linear entre duas variaveis por exemplo r 0 90 o ajuste de um modelo linear simples tem como resultado uma equacao matematica que descreve esse relacionamento A partir do momento que temos um modelo ajustado o conjunto de dados passa a ser representado atraves deste Vamos procurar estabelecer uma equacao matematica linear isto e ajustar a equacao de uma reta para descrever o relacionamento entre duas variaveis Olhandose para a figura 241 observase que existe uma relacao linear positiva entre as variaveis producao Y e radiacao X portanto podemos ajustar a equacao de uma reta aos dados As variaveis Y e X sao tambem denominadas de variaveis dependentes e independentes respectivamente Utilizacao 1 Temos duas variaveis que medem aproximadamente a mesma coisa mas uma delas e relativamente dispendiosa ou difıcil de lidar enquanto que a outra nao Por exem 106 plo a resistˆencia e a dureza de um material podem estar relacionadas de modo que conhecendose a dureza podemos estimar a resistˆencia Se o teste de resistˆencia destroi o material enquanto que o teste de dureza nao o destroi uma pessoa interessada em estimar a resistˆencia obviamente preferira confiar nos resultados do teste de dureza para estimar a resistˆencia A finalidade de uma equacao de regressao seria entao esti mar valores de uma variavel com base em valores conhecidos da outra Esse estudo tambem e conhecido como calibracao da equacao de regressao 2 Outra aplicacao das equacoes de regressao e explicar valores de uma variavel em termos da outra Isto e podemos suspeitar de uma relacao de causa e efeito entre duas variaveis Por exemplo quantidade de fertilizante e producao de trigo 3 Predizer valores futuros de uma variavel Por exemplo predizer producoes futuras A Equacao da Reta Uma reta e dada pela equacao matematica yi α βxi onde o parˆametro α representa o ponto onde a reta corta o eixo dos y e o parˆametro β e o coeficiente angular ou ainda o quanto varia a media de y para o aumento de uma unidade da variavel x Esses parˆametros estao representados na figura 247 Por exemplo a reta estimada por ˆyi 5 3xi intercepta o eixo das ordenadas no ponto em que y 5 o coeficiente angular da reta vale 3 o que significa que a cada unidade de variacao de x correspondem 3 unidades de variacao de y Dando alguns valores para x podemos resolver a equacao para obter os valores de ˆy leiase y chapeu e representa os valores estimados da variavel Y Valores de xi ˆy 5 3xi 20 11 30 14 50 20 Devemos atraves de um metodo adequado estimar os parˆametros α e β Estimativas dos Parˆametros α e β 107 y 0 Bx Ay Axel Ax x x1 Figura 247 Interpretacao dos parametros da equagao de uma reta A idéia basica na estimativa da parte funcional do modelo a Gx 6 encontrar a reta que passa o mais préximo possivel de todos os pontos observados Representaremos esta reta por yatbx e a denominaremos de reta estimada pelos dados Um critério conhecido como método dos minimos quadrados fornece as seguintes expressdes para as estimativas dos parametros da equacao RQsey OlO7y n 0 oa a ew abe n onde n é 0 ntmero de pares x y observados tamanho da amostra Exemplo lustraremos a obtencao da equacao da reta com as observacdes de producao Y e radiagéo X descritos anteriormente A tabela 248 apresenta os dados originais e os calculos intermediarios para se encontrar as estimativas dos parametros Encontramos 101669880 4553 2560 p 101669880 45532560 9 sa 49 103022399 4553 108 Tabela 248 Calculos intermediarios para a estimacao dos parˆametros Dados calculos intermediarios x y xy x2 18 10 180 324 55 60 3300 3025 190 110 20900 36100 300 160 48000 90000 410 220 90200 168100 460 280 128800 211600 570 340 193800 324900 770 400 308000 592900 815 460 374900 664225 965 520 501800 931225 4553 2560 1669880 3022399 a 2560 0 53124553 10 14 1537 A equacao da reta estimada com base nos dados da amostra fica ˆyi 14 154 0 531xi Os valores observados juntamente com a equacao estimada da reta estao na figura 248 Como era esperado observase um bom ajuste da equacao da reta aos dados observados A distˆancia de cada um dos valores observados ate a equacao da reta e chamada de desvio ou resıduo e sao representados por ei O calculo dos desvios e dado por ei yi ˆyi Por exemplo o primeiro resıduo e dado por e1 10 14 154 0 531 18 10 23 71 13 71 Para todos os dados de producao e radiacao dados na tabela 248 os valores ajustados 109 radiação produção 0 200 400 600 800 1000 1200 0 100 200 300 400 500 600 Figura 248 Reta ajustada aos dados observados e os resıduos sao dados por Valores estimados Desvios ou resıduos 2371 1371 4337 1663 11508 508 17351 1351 23194 1194 25850 2150 31993 2307 42316 2316 44707 1293 52674 674 O grafico dos valores ajustados tambem denominados de valores estimados versus os resıduos e dado na figura 249 O padrao esperado e que os pontos estejam alatoriamente distribuıdos em torno do valor zero isto e nao existe nenhum padrao nos resultados Se ocorrer este padrao dizemos que o modelo e adequado para representar os nossos dados Observamos na figura 249 que os pontos encontramse distribuıdos ao acaso em torno do valor zero portanto o modelo linear simples equacao da reta pode ser utilizado para 110 Valores estimados Resíduos 0 100 200 300 400 500 600 30 20 10 0 10 20 30 Figura 249 Grafico dos valores ajustados versus resıduos os dados amostrados Num outro caso se o padrao de distribuicao fosse curvilıneo um polinˆomio de 2 grau seria o indicado Assim podemos querer estimar avaliar a producao para um valor de radiacao igual a 100 Este valor e obtido fazendose ˆyi 14 154 0 531 100 67 254 2261 Exercıcios propostos 1 a Obtenha a equacao da reta para os dados da tabela 246 isto e para condutividade Y e salinidade X b De acordo com esta funcao quais seriam os valores estimados ˆy para os valores de x da tabela 246 c O que vocˆe acha da discrepˆancia entre os valores observados e estimados y ˆy d Encontre o valor estimado ˆy para salinidade igual a 50 2 a Encontre a equacao da reta para os dados da tabela 247 ou seja a equacao do tempo de estocagem Y sobre o aroma b Vocˆe considera que esta equacao esta explicando bastante da relacao entre tempo de estocagem e aroma c Faca o grafico dos resıduos versus valores ajustados Existe algum padrao na distribuicao 111 Concentração de soluto mm Taxa de transporte mmolmin 20 20 60 100 140 180 220 0 2 4 6 8 10 Figura 250 Cinetica enzimatica 3 Albert etal 1999 pagina 173 e 708 A curva mostrada na figura 250 e descrita pela equacao velocidade VmaxSS KM 215 a qual e chamada de equacao de MichaelisMenten A velocidade da reacao enzimatica V aumenta a medida que a concentracao do substrato S e aumentada ate que um valor maximo Vmax e atingido Para a maioria das enzimas a concentracao de substrato na qual a velocidade da reacao e metade da maxima fornece uma medida direta da forca de ligacao do substrato a enzima KM Para o transporte de acetado mediado por proteına carreadora a relacao entre concen tracao S e taxa de transporte V pode ser descrita pela equacao 215 que descreve reacoes enzimaticas simples Taxa de transporte VmaxSS KM 216 Desejamos atraves do ajuste da equacao de regressao estimar os parˆametros Vmax e KM Para facilitar a obtencao dos mesmos fazemos uma transformacao na equacao 216 de tal forma que os dados possam ser dispostos como uma linha reta Fazendose a transformacao inversa temos 1taxa KMVmax1S 1Vmax 217 Portanto temos a equacao de uma reta y α βx onde y 1V x 1S α 1Vmax e β KMVmax Para os dados da tabela 249 encontre as estimativas dos parˆametros Vmax e KM ajustando a equacao de uma reta Conhecendose os valores de Vmax e KM vocˆe 112 Tabela 249 Valores de concentracao S e taxa de transporte V S V 1S 1V 01 18 100 0056 03 46 33 0022 10 100 10 001 30 150 033 00067 100 182 01 00055 pode calcular as taxas de transporte para as concentracoes de 05 mM e 100 mM de acetato usando a equacao 216 Encontre estes valores 113 3 Modelos de Probabilidades para Experimentos Sim ples 31 Introducao O importante estudo de probabilidade e anterior aos anos de 1500 seculo XVI Nessa epoca as aplicacoes eram dirigidas aos jogos de azar Pessoas se utilizavam do conhecimento da teoria das probabilidades para planejar estrategias de apostas Contase que um senhor conhecido como Cavaleiro de Mere amigo do francˆes Pascal 1610 e grande apreciador de jogos solicitava ao mesmo que calculasse suas chances de ganho No entanto somente no seculo XX e que o calculo de probabilidade teve um desenvolvi mento bastante grande e baseado numa teoria matematica atraves de axiomas condicoes rigorosos definicoes e teoremas A probabilidade e um ramo da matematica cuja grande aplicacao e na estatıstica como veremos a seguir Ate o presente momento do nosso curso de estatıstica estudamos de forma empırica isto e sem uma justificativa cientıfica so descrevendo e nao explicando o comportamento dos fenˆomenos eventos da natureza atraves da construcao das distribuicoes de frequˆencias Aqui temos especial interesse em experiˆencias aleatorias casuais ou seja devemos realizar o experimento para saber qual sera o resultado Por exemplo nao e possıvel saber qual sera a producao por hectare de uma linhagem X de feijao se este nao for plan tado colhido e mensurado Outros exemplos de experimentos aleatorios 1 germinacao de sementes 2 sobrevivˆencia de enxertos 3 numero de micronucleos3000 celulas 4 numero de plantas numa determinada area Experimentos aleatorios quando repetese o experimento em condicoes mais proximas possıveis dao resultados geralmente diferentes Verificandose os fenˆomenos aleatorios na natureza construindo as suas distribuicoes de frequˆencias conhecimento empırico e com o surgimento da teoria da probabilidade foi possıvel matematizar a natureza isto e criar modelos probabilısticos distribuicoes de prob abilidades que representam muito bem os fenˆomenos da natureza Com isso e possıvel fazendose algumas suposicoes adequadas hipoteses conjecturas e sem a necessidade de se observar diretamente o fenˆomeno estabelecer distribuicoes de probabilidades que represen tam muito bem as distribuicoes de frequˆencias quando o fenˆomeno e observado diretamente 114 Esses modelos probabilısticos sao considerados hoje a espinha dorsal da estatıstica pois como veremos todos os procedimentos inferenciais amostra populacao sao aplicacoes de probabilidade Vamos ilustrar a construcao de modelos probabilısticos com dois exemplos Exemplo 1 de um grupo de duas mulheres M e trˆes homens H uma pessoa sera sorteada para presidir uma determinada reuniao Queremos estudar as probabilidades de que o presidente seja do sexo masculino ou feminino Suposicoes 1 So existem duas possibilidades 2 Cada pessoa tem a mesma chance de ser sorteada Tabela 31 Modelo de probabilidades para o experimento Sexo M H Total Frequˆencia teorica 2 5 3 5 1 Exemplo 2 o objetivo e estudar a distribuicao das proporcoes no lancamento de um dado Vamos construir esta distribuicao atraves de suposicoes teoricas 1 so podem ocorrer seis faces e 2 considerando o dado como sendo perfeito cada face deve ocorrer o mesmo numero de vezes e portanto a proporcao de ocorrˆencia de cada face e de 1 6 Assim o modelo teorico de frequˆencias para esse experimento e Faces do dado 1 2 3 4 5 6 Total Frequˆencias 1 6 1 6 1 6 1 6 1 6 1 6 1 A primeira grande aplicacao de probabilidade nas biociˆencias foi com as leis da hered itariedade Mendel 182218842 Outras aplicacoes podem ser chance de sobrevivˆencia germina ou nao germina distribuicao e interacao de especies animais ou vegetais risco de doencas ocorrˆencia de mutacoes previsao de safras na previsao de chuvas geadas granizos etc Uma aplicacao particularmente importante para o nosso curso e quando um pesquisador conduz um experimento Quando um experimento e instalado desejamos comparar os efeitos dos tratamentos variacoes de um fator a ser estudado Para se estimar os efeitos dos 2Gregor Johann Mendel botˆanico da Moravia 115 tratamentos e tambem para executar os testes estatısticos e necessario o uso de repeticoes aplicacao do mesmo tratamento em diversas unidades experimentais e que formara a amostra de estudo atraves das quais vamos ter a possibilidade de calcular a variabilidade dos dados ou seja a variˆancia O pesquisador esforcase ao maximo para manter todas as condicoes experimentais o mais constantes possıveis so deixando variar os tratamentos Por exemplo num experimento agrıcola de campo vamos aplicar um inseticida herbicida ou fungicida de forma homogˆenea em todo o experimento a fertilidade do solo deve ser igual para todos os tratamentos A temperatura a umidade a luminosidade devem ser mantidas constante dentro de um laboratorio A temperatura deve ser constante em todos os pontos dentro de uma estufa E assim por diante Pois bem por maior que seja esse esforco para manter to das as condicoes experimentais o mais constantes possıveis os valores obtidos nas repeticoes dos tratamentos dificilmente resultam em valores iguais e quase com certeza absoluta que todos os valores vao diferir uns dos outros Podese concluir que sempre vao existir variacoes Logo um pequisador nao pode afirmar com 100 de certeza que o tratamento A e melhor que o B e assim por diante Portanto todas as conclusoes tomadas ou as inferˆencias re alizadas sao feitas com certo grau de incerteza essa incerteza nos expressamos em termos de probabilidade Entao quando um pesquisador diz que o tratamento A e melhor que o B ao nıvel de significˆancia de 5 ele admite que pode estar tomando uma decisao errˆonea e que a probabilidade de erro e de no maximo igual a 5 Estes experimentos cujos resulta dos podem nao ser os mesmos de repeticao para repeticao sao chamados de experimentos aleatorios probabilısticos ou estocasticos Todas as inferˆencias realizadas tem certo grau de incerteza expressadas por probabilidades A seguir apresentamos um exemplo de um experimento no delineamento inteiramente casualizado Avaliacao do Comportamento In Vitro de abacaxi Ananas comosus cv Primavera Objetivo determinacao de um meio de cultura onde produza um maior numero de mudas por explante meristema inoculado 116 1 T3 24 7 T4 20 13 T3 12 19 T2 26 25 T5 19 31 T3 18 2 T1 42 8 T5 22 14 T6 13 20 T3 11 26 T1 26 32 T4 24 3 T5 10 9 T2 20 15 T4 13 21 T6 9 27 T5 25 33 T2 14 4 T1 35 10 T6 14 16 T2 14 22 T1 21 28 T5 9 34 T1 23 5 T2 21 11 T6 18 7 T4 11 23 T3 15 29 T6 20 35 T4 15 6 T6 7 12 T3 14 18 T1 23 24 T5 19 30 T4 20 36 T2 21 Figura 31 No canto superior esquerdo esta indicado a unidade experimental no centro a direita o tratamento e no canto inferior esquerdo esta indicado o numero de brotos por explante Tratamentos Meio de cultura 1 T1 Meio de cultura 2 T2 Meio de cultura 3 T3 Meio de cultura 4 T4 Meio de cultura 5 T5 Meio de cultura 6 T6 Unidade experimental Um tubo de ensaio Variaveis observadas 1 numero de brotos por explante inoculado 2 tamanho dos brotos em cm 3 numero de folhas por broto etc Delineamento Experimental delineamento inteiramente casualizado com 20 repeticoes Obs na figura 31 apresentamos esse delineamento utilizando somente os resultados de 6 repeticoes Condicoes experimentais controladas ao maximo Temperatura de 24C 1C fotoperıodo de 16hs luz intensidade luminosa de 4000 lux meristemas uniformes tamanho Independente de qual seja a aplicacao observase que quando utilizase do calculo de probabilidade existe sempre um elemento do acaso aleatorio ou de incerteza quanto a ocorrˆencia ou nao de um evento fenˆomeno futuro Assim sendo parece improvavel em muitas situacoes afirmar por antecipacao o que vai ocorrer mas e perfeitamente possıvel quantificar quao provavel e a ocorrˆencia de determinado evento fenˆomeno futuro 117 As probabilidades sao utilizadas para exprimir a chance de ocorrˆencia de determinado evento 32 Conceitos Fundamentais Inicialmente e interessante definirmos a notacao a ser utilizada para representar algum fato fenˆomeno Existe uma relacao entre a teoria dos conjuntos e a teoria das probabili dades assim sera utilizada a notacao e sımbolos da teoria dos conjuntos Os conjuntos sao representados por letras maiusculas e os seus elementos sao colocados entre chaves Aa e i o u Ha duas maneiras pelas quais se pode descrever os elementos de um conjunto 1 Consiste em relacionar todos os elementos do conjunto ou um numero sufi ciente deles Exemplo desejamos representar os hıbridos de milho de ciclo tardio recomendados para a regiao de Chapeco altitude menor que 800m da safra 198889 AC125 AG28 AG35 SAVE 342A C408 AG401 C317 Outro exemplo principais especies do genˆero Biomphalaria em Santa Catarina B Bstraminea Bglabrata Btenagophila 2 Consiste em formular uma regra que defina as caracterısticas comumns aos membros do conjunto Exemplos ATodos os gˆeneros de formigas da famılia Formicidae BTodas as especies do gˆenero Biomphalaria CTodas as plantas que produzem O2 DTodas as especies da famılia das Solanaceas EEspecies do gˆenero Biomphalaria que sao hospedeiras intermediarias do Schistossoma mansoni Essa notacao sera utlilizada para representar espacos amostrais e eventos Inicialmente dissemos que nao e necessario verificar diretamente o fenˆomeno para en tender o seu comportamento a sua variabilidade enfim a sua distribuicao de frequˆencias e 118 AA Aa AA AA Aa Aa zigotos genótipos Figura 32 Resultados do cruzamento de genotipos sim que e possıvel fazendose algumas suposicoes adequadas criar um modelo teorico que represente muito bem essa distribuicao sao os chamados modelos probabilısticos Vamos ver a construcao de mais um modelo de probabilidade Exemplo Se cruzarmos indivıduos de genotipos AA e Aa Queremos estudar as pro porcoes dos resultados desse cruzamento O gene A de um indivıduo AA encontra o gene A ou o gene a de um indivıduo Aa As celulas fertilizadas tem genotipo AA e Aa conforme figura 32 Observamos 1 Que so existem essas duas possibilidades pois Aa e aA nao sao ordenados 2 Nao existe razao nenhuma para admitir que um dos dois resultados ocorra com maior frequˆencia sendo assim teremos o seguinte modelo teorico de frequˆencias para o experimento Cruzamentos AA Aa Total Frequˆencia teorica 12 12 1 O espaco dos resultados desse experimento ou simplesmente espaco amostral represen tado pela letra grega Ω ˆomega fica Ω AA Aa As vezes o espaco amostral e representado pela letra S Portanto espaco amostral e o con junto de todos os resultados possıveis do experimento Cada um dos elementos observacoes que compoem Ω chamase de ponto amostral Agora suponha que para o espaco amostral Ω AA Aa estamos interessados no evento homozigoto entao temos A AA Poderıamos tambem estar interessados no evento heterozigoto entao temos B Aa Portanto eventos sao subconjuntos do espaco amostral Ω ou seja e um conjunto de resultados de um experimento Se um evento coincide com o espaco amostral Ω ele se 119 chama evento certo e temos A Ω A AA Aa A evento dos fenotipos com dominˆancia Observacao o alelo A e dominante sobre a portanto Aa tem o mesmo fenotipo que AA Se um evento nao possui nenhum elemento do espaco amostral temos o evento impossıvel A phi Exemplo Dhomozigoto recessivoaa Quando o evento e constituıdo de apenas um elemento temos o evento simples Como exemplos temos os eventos A e B Do exemplo acima podemos fazer uma generalizacao Todo o fenˆomeno ou experimento no qual esta envolvido um elemento casual aleatorio ou de incerteza tera seu modelo de probabilidades Um modelo probabilıstico fica definido especificado construıdo no momento em que es tabelecemos o espaco amostral Ω e as probabilidades dos pontos amostrais para o exemplo temos o seguinte modelo probabilıstico Cruzamentos AA Aa Total Frequˆencias teoricas 12 12 1 Esse espaco amostral e discreto pois podemos enumerar todos os resultados do experimento Essa enumeracao pode ser finita ou infinita Exemplo de modelo Cruzamos o genotipo Aa pai e Aa mae Os resultados dos cruzamentos estao indicados na figura 33 Observacoes 1 As quatro recombinacoes AA Aa aA e aa sao igualmente provaveis 2 As duas recombinacoes Aa e aA nao sao ordenadas isto e nao e possıvel distinguilas biologicamente Logo o espaco de resultados e Ω AA Aa aa 120 Pai Pai Mãe Aa Aa A a A a AA Aa aA aa Óvulos espermatozóide zigoto Figura 33 Cruzamento de genotipos Como as recombinacoes sao igualmente provaveis associamos a cada uma delas a probabil idade 14 logo o modelo probabilıstico para o experimento fica Cruzamentos AA Aa aa Total Frequˆencia teorica 1 4 1 4 1 4 1 2 1 4 1 Aqui novamente o espaco amostral e discreto Exemplo de modelo Em tomateiros vamos fazer o cruzamento entre dois indivıduos homozigoticos um sendo recessivo spsp e responsavel pelo habito de crescimento determi nado e o outro dominante SpSp responsavel pelo habito de crescimento indeterminado Em F1 obtˆemse Spsp Fazendose a autofecundacao desses indivıduos F1F1F1 obtˆemse as seguintes recombinacoes SpSp Spsp spSp e spsp todas com a mesma frequˆencia teorica e igual a 14 Veja o quadro F1 F1 Sp sp Sp SpSp Spsp sp spSp spsp Observacoes 1 As quatro recombinacoes sao igualmente provaveis 2 As duas recombinacoes Spsp e spSp nao sao ordenadas nao sendo possıvel diferencia las biologicamente O modelo probabilıstico fica Cruzamentos SpSp spSp spsp Total Frequˆencia teorica 1 4 2 4 1 4 1 121 Observacao Um espaco amostral pode ser definido de diferentes maneiras para um mesmo experimento dependendo dos objetivos do problema a ser estudado Por exemplo suponha que lancemos uma moeda cinco vezes Se estamos interessados apenas na sequˆencia de caras e coroas obtida um espaco amostral e Ω1 ckkkk kckkk kkckk kkkck Observacao sao possıveis 2532 pontos amostrais Mas se estamos interessados no numero de caras obtidas entao um espaco amostral e Ω2 0 1 2 3 4 5 Temos aqui outro exemplo de espaco amostral discreto Exemplo Considere um experimento que consiste em medir as alturas H de homens adultos Um espaco amostral conveniente e Ω H H 0 isto e o conjunto de todos os numeros reais positivos Se A indica o evento a altura de homens adultos e superior a 150 cm e inferior a 200 cm entao AH150H200 Esses sao exemplos de espacos amostrais contınuos pois o intervalo contem um numero infinito de valores Outro exemplo Considere um experimento que consiste em medir as alturas h de plantas de milho Um espaco amostral conveniente e Ωhh0 isto e o conjunto de todos os numeros reais positivos 33 Operacoes com Eventos Como os eventos sao subconjuntos do espaco amostral Ω sao tambem conjuntos logo todas as operacoes realizadas com conjuntos sao validas para os eventos Se A e B sao dois eventos de Ω entao a operacao AB que lˆese A uniao com B significa a ocorrˆencia do evento A ou do evento B ou de ambos ou seja os pontos amostrais pertencem ao evento A ou ao evento B ou ainda a ambos Essa operacao e tambem chamada de reuniao dos eventos A representacao grafica e dada na figura 34 Esta figura e chamada de Digrama de Venn Em aritmetica assemelhase com AB Exemplo Se A12 e B156 entao AB1256 Observe que o ponto 1 ocorre nos dois eventos mas esta relacionado uma unica vez O ponto 2 so ocorre em A e os pontos 5 e 6 ocorrem em B 122 Ω A B Figura 34 Diagrama de Venn para a reuniao de eventos Ω A B Figura 35 Diagrama de Venn para a interseccao de eventos Uma outra operacao entre eventos e a interseccao representada pelo sımbolo Entao AB e a ocorrˆencia dos eventos A e B simultaneamente ou seja e formado pelos pontos amostrais que pertencem ao eventos A e B Em aritmetica assemelhase com o produto AB A representacao grafica da interseccao e dada na figura 35 Exemplo Duas famılias por exemplo solanaceaes pimenta pimentao tomate e mir taceaes goiaba pitanga jaboticaba de uma mesma ordem sao por definicao disjuntas isto e nao possuem especies em comum logo sua interseccao e vazia isto e A B Φ Exemplo Para os eventos A12 e B156 AB1 Indicase por Ac o complementar do evento A e significa a nao ocorrˆencia de A Outra forma de representacao e A A representacao grafica do complemento de um evento e dada na figura 36 Exemplo No lancamento de um dado podemos estar interessados no evento saiu face ımpar A135 qual e o evento que ocorre sempre que A nao ocorre Resposta Ac246 123 A Figura 36 Complementar de um evento Exemplo Vamos considerar todas as especies pertencentes a ordem Himenoptera como sendo o espaco amostral Ω Estamos interessados na famılia Formicidae este e o nosso evento Qual sera o complementar desse evento Consistira de todas as especies da ordem Himenoptera mas nao pertencente a famılia Formicidae Algumas outras operacoes envolvendo interseccao reuniao e complemento sao dadas por a A Bc Ac Bc Lei de Morgan b A Bc Ac Bc Lei de Morgan c A Ac d A Ac Ω e A B C A B A C f A B C A B A C distributiva Exercıcio Construa os diagramas de Venn para os itens a e b Eventos Mutuamente Exclusivos e Independˆencia Se dois eventos nao podem ocorrer ao mesmo tempo ou seja se a ocorrˆencia de um deles impede a possibilidade de ocorrˆencia do outro sao chamados eventos mutuamente exclusivos ou disjuntos Exemplo considere os resultados do lancamento de um dado Ω123456 e os eventos A135 e B246 entao os eventos A e B sao mutuamente exclusivos pois AB Exemplo Considere como sendo Ω todas as especies da ordem Himenoptera e os eventos Aespecies da famılia Formicidae e B especies da famılia Apidae entao os eventos A e B sao mutuamente exclusivos pois AB 124 Dois eventos associados a um experimento aleatorio sao ditos independentes quando a ocorrˆencia de um deles nao interfere na ocorrˆencia do outro Exemplo vamos supor que dois alunos tentem resolver uma mesma questao em sep arado ao mesmo tempo Os eventos que consistem em que cada um dos alunos acerte a questao sao independentes pois o fato de um aluno acertar a questao nao influencia no fato do outro tambem acertar Outro exemplo Cegueira e surdez esperase que sejam independentes Em ensaios agrıcolas de campo as parcelas experimentais sao independentes pois o resultado de uma unidade experimental nao interfere no resultado das demais A definicao de independˆencia e importantıssima em estatıstica A maioria dos testes pressupoem independˆencia entre os eventos como veremos na secao 8 Eventos mutuamente exclusivos sao independentes Nao eventos mutuamente exclusivos sao dependentes pois a ocorrˆencia de um deles impede a ocorrˆencia do outro 34 A Probabilidade de Um Evento Seja qual for o evento por exemplo chuva genotipos homozigoticos producao de uma cultura saiu face ımpar etc a probabilidade de um evento A denotada por PA e um numero entre 0 e 1 que indica a chance de ocorrˆencia de A Quanto mais proximo de 1 e PA maior e a chance de ocorrˆencia de A e quanto mais proxima de 0 e PA menor e a chance de ocorrˆencia do evento A Definicao Seja ε um experimento aleatorio e Ω um espaco amostral associado a esse experimento A cada evento A associamos um numero real representado por PA e denominado probabilidade de A que expressa a chance de ocorrˆencia de A Sempre temos as seguintes probabilidades quando o evento e impossıvel Aφ PA0 quando o evento e certo AΩ PA1 portanto 0 PA 1 35 Conceito de Probabilidade Conceito de Frequˆencia Relativa 125 Existem experiéncias que podem ser repetidas muitas vezes sob condicdes quase con stantes Sendo assim observase que a freqiiéncia relativa estabiliza em certos valores e serve como estimativa da probabilidade Nesse caso incluemse as experiéncias genéticas muito importante para a area de biociéncias Vamos utilizar um exemplo para ilustrar 0 conceito de probabilidade baseado na teoria freqiiéntista Vamos considerar o numero de nascimentos de meninas e meninos n O espaco de resultados 6 Qmascfem Neste experimento vamos supor que estamos interessados no numero de nascimentos de meninos n entao n é a freqiiéncia absoluta ou simplesmente a freqiiéncia de nascimentos de meninos A freqiiéncia absoluta pode ser um nimero qualquer entre 0 n n Mas como vimos anteriormente a probabilidade de um evento é um numero entre 0 e 1 Portanto para nos aproximarmos do conceito de probabilidade vamos considerar a freqiiéncia relativa f entao fig isto é a freqiiéncia observada do evento Freqtiéncia relativa de um evento 2AAAAAANNW numero total de repeticdes do experimento Agora podese ver facilmente que a freqiiéncia relativa varia de 0 al 0 fi 1 A freqtiéncia relativa é freqiiéntemente expressada em percentagem logo 0 f 100 Se o nimero de repetigdes do experimento for muito grande a freqtiéncia f estabiliza em certos valores por exemplo para n100000 nascimentos temos que f 53 este valor é usado como estimativa da probabilidade a freqiiencia relativa converge para a probabilidade Existem regras que demonstram como tal estimativa é confidvel Definigao Se apds n repetigoes de um experimento com n suficientemente grande se verificar n ocorréncias de um evento entao a probabilidade de ocorréncia desse evento sera a frequéncia relativa 1 Exemplo 1 Se cruzarmos dois individuos com gendtipos AA e Aa o gene A do in dividuo AA encontra o gene A ou o gene a do individuo Aa O espaco dos resultados desse experimento é QAAAa Fatores experimentais demonstram que os dois resultados ocorrem com a mesma probabilidade isto é 1 1 PAA 50 e PAa 50 2 2 Para completar nosso modelo probabilistico duas condigoes sempre devem ser respeitadas 1 0 PE 1 2 9 PE 1 126 Onde Ei representa um evento qualquer Como vemos a probabilidade total do experimento deve ser igual a 1 Estas duas condicoes sao necessarias a fim de que o nosso modelo seja consistente com o conceito de frequˆencia relativa No exemplo de cruzamentos de indivıduos temos que 0PAA1 e a 0PAa1 e PAA PAa05 051 Exemplo 2 foram colhidas amostras aleatorias de indivıduos de uma populacao e verifi cado os seus grupos sanguıneos A B AB e O Entao o ΩABABO Foram encontradas as frequˆencias 40 10 5 45 para os grupos A B AB e O repectivamente podemos dizer que a probabilidade de sortear um indivıduo da populacao com grupo sanguıneo A e de 40 e assim por diante Exercıcio resolvido considere o experimento de cruzamentos de genotipos AaAa e os eventos AAAaa e BAa tais que PA 1 2 PB 1 2 e PA B0 Calcular a PAc b PBc c PAc Bc d PAc Bc e PAc B Solucao a 1 PA 1 1 2 1 2 b 1 PB 1 1 2 1 2 c PA Bc 1 PA B 1 1 0 d PA Bc 1 PA B 1 0 1 e Como nao temos uma operacao direta descrevemos da seguinte forma B A B Ac B PB PA B PAc B logo PAc B PB PA B 1 2 0 1 2 127 36 A Regra da Adicao Introduziremos a nocao de adicao de eventos atraves de um exemplo Considere um censo realizado nos domicılios da comunidade polonesa de Dom Pedro proximo a Curitiba para se estudar a mortalidade dos residentes na colˆonia A mortalidade foi verificada sobre o marido a mulher marido e mulher e filhos Em media o estudo foi realizado sobre trˆes geracoes Os dados estao mostrados na tabela 32 Tabela 32 Mortalidade dos residentes na colˆonia polonesa de Dom Pedro Curitiba Parana Idade Sexo Total MasculinoM FemininoF 0 a 1A 33 28 61 2 a 4B 4 7 11 5 a 9C 2 2 4 10 a 14D 0 1 1 15 a 29E 1 6 7 29 G 7 8 15 Total 47 52 99 O evento A indica o evento que acontece quando ocorrer uma morte na colˆonia esta pessoa deve ter ate um ano de idade O evento M acontece quando ocorrer uma morte na colˆonia esta pessoa for do sexo masculino Os demais eventos tem significados analogos Sendo assim a probabilidade de ocorrˆencia do evento A isto e a pessoa falecida tiver idade entre 0 e 1 ano e dada por PA 61 99 61 62 A probabilidade de ocorrˆencia do evento M isto e a pessoa falecida ser do sexo masculino vale PM 47 99 47 47 E facil ver tambem que a probabilidade da ocorrˆencia de A e M simultaneamente vale PA M 33 99 33 33 isto e temos uma probabilidade de 3333 da pessoa falecida ser do sexo masculino e ter ate um ano de idade 128 Agora se desejarmos calcular a probabilidade de ocorrˆencia de A eou de M isto e PA M como sera o calculo O resultado sera dado por PA M PA PM PA M PA M 0 6162 0 4747 0 3333 PA M 0 7576 PA M 75 76 Devemos subtrair PA M pois caso contrario estarıamos contando duas vezes as pessoas falecidas do sexo masculino e com idade entre 0 e 1 ano De modo geral se A e B sao dois eventos quaisquer a chamada regra da adicao e dada por PA B PA PB PA B 31 Esta regra e valida para mais do que dois eventos ou seja podemos generalizala Por exemplo para trˆes eventos A B e C a regra fica PA B C PA PB PC PA B PA C PB C PA B C Se considerarmos os eventos A e C a PA C e calculada do seguinte modo PA 61 99 0 6162 61 62 PC 4 99 0 040 4 00 PA C 0 6162 0 040 0 6562 65 62 pois nesse caso os eventos A e C sao disjuntos ou mutuamente exclusivos pois se A ocorre impede a ocorrˆencia de C e viceversa Nesse caso entao A C logo PA C 0 Entao quando os dois eventos sao mutuamente exclusivos a expressao geral 31 se reduz para PA B PA PB Exemplo considere o lancamento de dois dados sendo os eventos Asoma dos numeros obtidos igual a 9 Bnumero do primeiro dado maior ou igual a 4 e Csoma dos numeros 129 menor ou igual a 4 Enumere os elementos de A B e C Obtenha PAB e PAC 1 2 3 4 5 6 1 1 1 1 2 1 3 1 4 1 5 1 6 2 2 1 2 2 2 3 2 4 2 5 2 6 3 3 1 3 2 3 3 3 4 3 5 3 6 4 4 1 4 2 4 3 4 4 4 5 4 6 5 5 1 5 2 5 3 5 4 5 5 5 6 6 6 1 6 2 6 3 6 4 6 5 6 6 A 36 45 54 63 B 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66 C 11 21 12 31 22 13 PA B PA PB PA B 4 36 18 36 3 36 19 36 0 5278 PA C PA PC PA C 4 36 6 36 0 36 10 36 0 2778 37 Probabilidade Condicional e Independˆencia Vamos voltar a tabela 32 para explicar o que e uma probabilidade condicional Dado que ocorra a morte de uma pessoa com idade entre 0 e 1 ano a probabilidade dessa pessoa ser do sexo feminino e de 28 61 04590 459 Isto porque de um total de 61 falecimentos com idade entre 0 e 1 ano 28 sao do sexo feminino Representamos uma probabilidade condicional da seguinte forma PFeminino idade entre 0 e 1 ano 28 61 45 9 Lˆese assim a probabilidade da pessoa falecida ser do sexo feminino dado que ela tem idade entre 0 e 1 ano e de 459 A barra vertical indica o evento que ocorreu o evento conhecido isto e sabese que a pessoa falecida tem entre 0 e 1 ano dado isso desejase saber qual e a probabilidade dela ser do sexo feminino Podemos agora dar uma definicao de probabilidade condicional Definicao Para dois eventos quaisquer A e B associados a um experimento sendo PB 0 definimos a probabilidade condicional de A quando B tiver ocorrido como sendo PAB PA B PB 32 130 Ω A B A B Figura 37 espaco reduzido da probabilidade condicional Para se entender a expressao 32 basta pensar que o espaco amostral ficou reduzido ou restrito ao evento B Veja figura 37 A presenca da interseccao no numerador e justificada facilmente considerando que a ocorrˆencia de A quando se sabe que B ocorreu corresponde a ocorrˆencia de A e de B simultaneamente isto e de sua interseccao Para o exemplo mencionado se A e F indicam respectivamente os eventos idade entre 0 e 1 ano e sexo feminino temos PFA PF A PA 28 99 61 99 Observe que Ω99 e A61 sendo que Ω desaparece simplificacao portanto o novo espaco de resultados e A Assim PFA 28 61 45 9 De modo geral sempre que calculamos a PA dado que B tenha ocorrido estamos sempre calculando a PA em relacao ao espaco amostral reduzido de B isto e o espaco amostral fica reduzido de Ω para B Exemplo Numa populacao os animais podem ser fecundos e nao fecundos Vinte por cento 20 dos animais da raca X sao fecundos trinta por cento 30 dos animais da raca Y sao nao fecundos e setenta e cinco por cento 75 dos animais sao da raca X Considere os eventos Ho animal e da raca X Mo animal e da raca Y 131 Ao animal e fecundo Bo animal nao e fecundo Raca Fecundidade Total Nao FecundoB FecundoA X H 60 15 75 Y M 75 175 25 Total 675 325 100 PMA PM APA PMA 0 175 0 325 0 5384 PBM PB MPM 0 0750 25 0 30 30 PA H PA PH PA H 0 325 0 75 0 15 0 925 Regra do Produto de Probabilidades Da relacao 32 podemos obter a chamada Regra do Produto de Probabilidades dada por PA B PB PAB 33 Exemplo para os dados do exemplo de populacao de animais temos PA H PAH PH 0 20 0 75 0 15 15 Um Caso Importante Independˆencia dos Eventos Uma situacao especial da formula 33 e muito importante Essa situacao ocorre quando os dois eventos A e B sao independentes isto e quando a ocorrˆencia do evento A nao influencia na ocorrˆencia do evento B e viceversa Vamos atraves de um exemplo ilustrar a definicao de independˆencia entre eventos Exemplo um cientista quer saber se existe dependˆencia entre a cegueira para as cores e a surdez nos homens Admitese as seguintes probabilidades para os eventos Surdez Frequˆencia Cegueira SurdezS Nao Surdez S total Cegueira para coresC 00004 00796 00800 Nao Cegueira C 00046 09154 09200 Frequˆencia total 00050 09950 10000 132 O evento C corresponde a homens com cegueira para cores e o evento S corresponde a homens com surdez Vamos calcular a probabilidade de surdez dado que o evento cegueira para cores ocorreu PSC PS C PC 0 0004 0 0800 0 0050 Por sua vez a probabilidade de surdez e PS 0 0050 entao PSC PS isto e a surdez e independente da cegueira para cores pois a ocorrˆencia da cegueira para cores nao alterou a probabilidade de ocorrˆencia da surdez Logo a ocorrˆencia de um evento nao influenciou na ocorrˆencia do outro Generalizando Se dois eventos sao independentes a PA B PA entao a regra do produto de probabilidades fica PA B PAPB Essa formula pode ser tomada como definicao de independˆencia ou seja A e B sao inde pendentes se e somente se PA B PAPB 34 Exemplo Sabemos que cegueira para cores e surdez sao dois eventos independentes Qual e a probabilidade de um homem apresentar simultaneamente cegueira e surdez PC S PCPS 0 08 0 005 0 004 Exemplo com dependˆencia Uma urna contem duas bolas brancas B e trˆes vermel has V Suponha que sorteemos duas bolas ao acaso em sequˆencia e sem reposicao Isto significa que escolhemos a primeira bola verificamos a sua cor e nao a devolvemos a urna misturamos as bolas restantes e retiramos a segunda bola O diagrama de arvore ilustra as possibilidades veja figura 38 Em cada galho da arvore estao indicadas as probabili dades de ocorrˆencia sendo que para segundas bolas temos probabilidades condicionais A 133 B V B V B V 35 25 14 34 24 24 Figura 38 diagrama de arvore distribuicao de probabilidades do exemplo e dada por Resultados Probabilidades BB 2 5 1 4 2 20 BV 2 5 3 4 6 20 VB 3 5 2 4 6 20 VV 3 5 2 4 6 20 Total 1 As probabilidades calculadas no quadro foram obtidas atraves da probabilidade condicional Por exemplo a probabilidade de sair branca na primeira e branca na segunda e dada por PBB PBranca na primeiraPBranca na segunda Branca na primeira 2514 Considere os eventos B1saiu bola branca na primeira retirada e B2saiu bola branca na segunda retirada PB2B1 2 20 2 5 2 20 5 2 1 4 PB2 PBB PV B 2 20 6 20 8 20 2 5 Portanto sendo que PB2B1 PB2 implica que os eventos B1 e B2 sao dependentes pois a ocorrˆencia de B1 alterou a probabilidade de B2 Os eventos excesso de peso E e pressao elevada A biologicamente sao dependentes 134 38 Teorema de Bayes Uma das relagodes mais importantes envolvendo probabilidades condicionais é dada pelo teorema de Bayes que expressa uma probabilidade condicional em termos de outras prob abilidades condicionais e marginais Vamos apresentar o Teorema de Bayes através de um exemplo Exemplo Temos trés profissionais um Agronomo um Bidlogo e um Engenheiro Civil Cada um deles plantou 10 mudas de délamos Das 10 plantadas pelo Agronomo 9 sobre viveram 5 do Bidlogo e 2 do Engenheiro Escolhese uma muda ao acaso se a muda sobre viveu qual a probabilidade de ela ter sido plantada pelo Engenheiro Civil Veja a figura 39 Queremos encontrar a PE S Sabemos que Marginais Condicionais PA3 PS A90 PB83 PS B50 PE23 PS E20 As probabilidades marginais sao também chamadas de probabilidades priori Da definicaéo de probabilidade condicional temos PENS PES BIS Fos Mas PENS PE x PSE Assim PEPSIE PES 35 B8 35 As probabilidades no numerador sempre serao conhecidas Precisamos encontrar o valor da probabilidade do denominador PS Como A B e E sao eventos mutuamente exclusivos A Agrénomo B Bidlogo E Engenheiro eK O a a a 36 a O O O O s 2 2 x oO 0 0110 00 Ns LO O Figura 39 Sobrevivéncia de mudas de Alamos 135 e reunidos formam o espaco amostral completo podemos decompor S na reuniao de trˆes outros que tambem sao mutuamente exclusivos ou seja S A S B S E S e entao PS PA S PB S PE S PS PAPSA PBPSB PEPSE Substituindose esse resultado em 35 obtemse PES PEPSE PAPSA PBPSB PEPSE Esse valor e conhecido como probabilidade a posteriori Assim PES 1 3 0 20 1 3 0 90 1 3 0 50 1 3 0 20 PES 0 06667 0 30 0 16667 0 06667 0 06667 0 5333 0 1250 PES 12 50 Generalizando para n eventos Seja C1 C2 C3 Cn uma particao do espaco amostral Ω isto e CiCj para i j e C1 C2 C3 Cn Ω consideramos A um evento qualquer Tambem sao conhecidas PCi e PACi para i 1 2 3 n Entao temos PCiA PCiPACi PC1PAC1 PC2PAC2 PC3PAC3 PCnPACn 36 para i 1 2 3 n Exercıcios resolvidos 1 Num experimento com tomates em casadevegetacao tˆemse 26 vasos distribuıdos segundo o seguinte delineamento Adubos Variedades 1 2 3 Total 1 3 4 2 9 2 1 3 3 7 3 5 2 3 10 total 9 9 8 26 136 Sorteiase um adubo coluna ao acaso do qual sorteiase uma variedade verificandose que ocorreu a variedade 2 Qual a probabilidade de que esta variedade esteja sendo tratada com o adubo 1 Sejam os eventos A1 ocorrer o adubo 1 A2 ocorrer o adubo 2 A3 ocorrer o adubo 3 B2 ocorrer a variedade 2 Verificase que A1 A2 A3 e A1 A2 A3S Marginais Condicionais PA1 9 26 PB2 A1 1 9 PA2 9 26 PB2 A2 3 9 PA3 8 26 PB2 A3 3 8 PA1 B2 PA1PB2A1 PA1PB2A1 PA2PB2A2 PA3PB2A3 PA1 B2 1 7 2 Beiguelman A frequˆencia esperada de pessoas Rh em uma populacao e estimada em 90 Qual a frequˆencia esperada nessa populacao de casais a Rh Rh Rh e Rh 0 90 0 90 0 81 81 b Rh Rh Rh e Rh 0 10 0 10 0 01 1 c Rh Rh H M 0 90 0 10 0 09 9 M H 0 90 0 10 0 09 9 Resultado 18 137 d Marido Rh Mulher Rh 0 90 0 10 0 09 9 e Marido Rh Mulher Rh 0 10 0 90 0 09 9 Observacao os fatores sao independentes do sexo 3 Beiguelman Numa populacao a frequˆencia de indivıduos Rh e estimada em 16 a de Rh portadores do gene responsavel pelo grupo Rh e estimada em 48 e a de Rh nao portadores desse gene em 36 Qual a probabilidade de um indivıduo Rh dessa populacao ser portador do gene que determina o grupo Rh A indivıduo ser Rh B indivıduo Rh e portador do gene que determina o grupo Rh PA 0 48 0 36 0 84 PBA PAB PA 048 084 0 5714 4 Beiguelman Entre os casais Rh e Rh da questao anterior qual a proporcao esperada daqueles capazes de gerar uma filhoa Rh Observacao O casal homen e mulher tem que ser portador do gene responsavel pelo grupo Rh Logo 05714 05714 03265 3265 5 Defina um espaco amostral para cada um dos seguintes experimentos aleatorios a Investigamse famılias com quatro criancas anotandose a configuracao segundo o sexo R MMMM MMMF MMFMMFMMFFFF Temos um total de 24 16 eventos b Trˆes jogadores A B e C disputam um torneio de tˆenis Inicialmente A joga com B e o vencedor joga com C e assim por diante O torneio termina quando um jogador ganha duas vezes em seguida ou quando sao disputadas ao todo quatro partidas R AA ACC ACBB BB BCC BCAA ACBA BCAB cLance um dado ate que a face 5 apareca pela primeira vez R 5 F5 FF5 FFF5 FFFF5 onde Fface diferente de 5 d De todos os alunos do curso de estatıstica escolhese um ao acaso e anotase a sua altura R h 1 50 h 200 onde h e a altura 6 Uma agua e contaminada se forem encontrados bacilos tipo A eou bacilos tipo B e C simultaneamente As probabilidades de se encontrarem bacilos tipo A B e C sao respectivamente 030 020 e 080 Existindo bacilos tipo A nao existirao bacilos tipo B Existindo bacilos tipo B a probabilidade de existirem bacilos tipo C e reduzida a metade 138 Calcular a PBC b Pagua ser contaminada c PBagua contaminada R PA 0 30 PB 0 20 PC 0 80 PB A PC B 0 40 a PB C PB PC PB C 0 20 0 80 0 2 0 40 1 0 08 0 92 b Pcontaminada PA B C PA PB C PA B C 0 30 0 08 0 00 0 38 c PB contaminada PB contaminada Pcontaminada PB C 0 38 0 08 0 38 0 21 39 Exercıcios Propostos 1 Num levantamento em um municıpio sobre a propriedade da terra e o tamanho do estabelecimento agrıcola encontrouse a seguinte situacao 45 agricultores proprietarios com estabelecimentos menores que 50 hectares 10 agricultores arrendatarios com estabelecimentos menores que 50 hectares 15 agricultores proprietarios com estabelecimentos maiores que 50 hectares 2 agricultores arrendatarios com estabelecimentos maiores que 50 hectares Ao escolher ao acaso algum agricultor do municıpio qual e a probabilidade de que a o estabelecimento agrıcola tenha menos de 50 hectares b o agricultor seja arrendatario e o estabelecimento agrıcola menor de 50 hectares 139 c Fertilidade Bloco 1 Bloco 2 Bloco 3 Bloco 4 B E A C D D A C E B C A D E B D E B A C Figura 310 Delineamento blocos ao acaso 2 Em um experimento semeiamse 4 blocos de 5 parcelas cada com algodao Em cada bloco aparecem as variedades A B C D e E portanto cada bloco contem 5 parcelas uma para cada variedade e estas serao designadas as parcelas atraves de um sorteio Veja figura 310 Observe que a construcao dos blocos controla a diferenca de fertilidade do solo Assim podemos estudar o efeito das variedades livre do efeito da fertilidade Em todos os blocos a variedade C foi a mais produtiva Qual a probabilidade de que isso tenha ocorrido por acaso ou seja as cinco variedades sao igualmente produtivas e a variedade C foi a mais produtivas devido a fatores aleatorios no experimento Qual a suposicao feita Observacao outra situacao de uso do delineamento em blocos completos ao acaso e com germinador de sementes Para controlar diferencas de temperatura e luminosidade dentro do germinador consideramos cada prateleira como um bloco 3 No experimento anterior suponhase que a variedade C foi a mais produtiva em 3 blocos e teve o 2 lugar no outro bloco Qual a probabilidade de ela se destacar igualmente ou mais do que nesse ensaio por simples acaso Qual a suposicao feita 4 Em um certo locus podem ocorrer dois alelos C e D Admitamos que os possıveis genotipos tˆem as seguintes probabilidades PCC 0 46 PCD 0 31 PDD 0 23 Qual e a probabilidade de que um genotipo contenha a o alelo C b o alelo D c Qual a suposicao feita em a e b 5 Em um locus de um certo par de cromossomos podem ocorrer alelos A e a Os 140 genotipos AA Aa aa tˆem probabilidades PAA 0 11 PAa 0 37 Paa 0 52 Em um locus de outro par de cromossomos podem ocorrer os alelos B e b Os genotipos BB Bb bb tˆem as probabilidades PBB 0 35 PBb 0 25 Pbb 0 40 Encontrar as probabilidades de combinacoes geneticas a AA junto com BB isto e AA e BB b Aa junto com Bb isto e Aa e Bb c Qual a suposicao feita 6 Um homen visita um casal que tem dois filhos Uma das criancas um menino vem a sala Encontre a probabilidade de o outro tambem ser um menino se a sabese que a outra crianca e mais nova observacao construa o espaco amostral de um casal que tem dois filhos de acordo com o sexo dos mesmos e considere a ordem de nascimento b nada se sabe sobre a outra crianca OBSERVAC AO construa o espaco de resultados para um casal com dois filhos 7 Numa certa cidade 40 da populacao tem cabelos castanhos 25 olhos castanhos e 15 tem cabelos e olhos castanhos Uma pessoa da cidade e selecionada aleatoriamente a Se ela tem cabelos castanhos qual e a probabilidade de ter tambem olhos castanhos b Se ela tem olhos castanhos qual e a probabilidade de nao ter cabelos castanhos c Qual e a probabilidade de nao ter nem cabelos nem olhos castanhos 8 Um lote e formado por 10 animais sadios 4 com problemas menores e 2 com problemas graves Todos os animais sao numerados e e feita a escolha de um animal ao acaso Ache a probabilidade de que a ele nao tenha problemas b ele nao tenha problemas graves c ele ou seja sadio ou tenha problemas graves 9 Se do lote de animais descritos no problema 8 dois animais forem escolhidos sem reposicao ache a probabilidade de que a ambos sejam sadios b ao menos um seja sadio c no maximo um seja sadio d exatamente um seja sadio e nenhum deles seja sadio 141 10 Temse um pacote com 20 sementes 8 das quais tem um alto poder germinativo germinam e 12 nao germinam As sementes sao analisadas uma apos a outra Se essas sementes forem extraıdas ao acaso sem reposicao qual sera a probabilidade de que a as duas primeiras sementes nao germinam bas duas primeiras sementes germinam c das duas primeiras sementes analisadas uma germina e a outra nao germina OBS Estes eventos nao sao independentes 11 Um enxerto tem a probabilidade de sobreviver duas vezes maior do que nao sobre viver Plantados trˆes enxertos qual a probabilidade de exatamente dois sobreviverem 12 De trˆes eventos A B e C suponhamos A e B independentes B e C mutuamente exclusivos Suas probabilidades sao PA050 PB030 e PC010 Calcular as probabilidades de a B e C ocorrerem ambos b ocorrer ao menos um dentre A e B c B nao ocorrer d ocorrerem os trˆes 13 Um produtor aceitara um lote com 100 sacos de sementes fiscalizadas se uma amostra de 5 sacos escolhidos ao acaso do lote e inspecionada nao contenha nenhum com poder germinativo inferior ao especificado Qual e a probabilidade que ele aceite o lote se este contem 10 sacos com poder germinativo abaixo do especificado 14 Suponha que a probabilidade de se pegar gripe durante uma epidemia seja de 060 A experiˆencia tem mostrado que uma vacina vem tendo sucesso de 80 na prevencao da gripe quando aplicada em pessoas expostas a uma epidemia Uma pessoa nao vacinada tem probabilidade de 090 de pegar gripe quando exposta a uma epidemia Duas pessoas uma vacinada e outra nao viajam a negocio Suponha que elas nao vao para o mesmo lugar nao vao estar em contato com as mesmas pessoas e nao vao se encontrar independentes Qual e a probabilidade de que pelo menos uma delas fique gripada 15 Num experimento genetico e feito um cruzamento com Drosophila no qual e es perado que 1 4 das progˆenies terao olhos brancos e 1 2 terao a caracterıstica chamada olhos vermelhos Assume que os dois locus gˆenicos segregam independentemente a Qual a proporcao de progˆenies deveriam exibir ambas as caracterısticas simultaneamente b Se 4 moscas sao amostradas aleatoriamente qual e a probabilidade de todas serem olhos brancos 142 c Qual e a probabilidade que nenhuma das 4 moscas tenham olhos brancos ou olhos vermelhos d Se duas moscas sao amostradas qual e a probabilidade que pelo menos uma das moscas tˆem olhos brancos ou vermelhos ou ambas as caracterısticas 16 Uma empresa de sementes fiscalizadas vende pacotes com 20 Kg cada As maquinas A B e C enchem 25 35 e 40 do total produzido respectivamente Da producao de cada maquina 5 4 e 2 respectivamente sao pacotes fora do peso aceitavel Escolhese ao acaso um pacote e verificase que esta fora do peso aceitavel Qual a probabilidade de que o pacote venha da maquina A 17 Se ambos os pais tem genotipo Aa heterozigotos seus filhos tem genotipos AA Aa e aa com probabilidades PAA 1 4 PAa 1 2 Paa 1 4 Qual a probabilidade de que dentre quatro criancas a pelo menos uma tenha o genotipo aa b Qual o numero esperado de criancas com genotipo Aa 18 Em uma maternidade de Florianopolis nasceram em um determinado mˆes 220 criancas No mesmo perıodo nasceram em uma maternidade de Chapeco 197 criancas Do total de 417 recemnascidos nessas maternidades 217 eram do sexo masculino e 200 eram do sexo feminino Se a proporcao de meninos e meninas entre os recemnascidos for inde pendente da sua procedˆencia as variaveis sexo e procedˆencia sao independentes qual o numero esperado de meninos e de meninas em cada um das maternidades durante o perıodo em analise 19 O estudo de uma tribo no Brasil revelou que 75 tinha sangue tipo A e o restante tinha sangue tipo O Sessenta por cento 60 de toda a populacao tinha fator Rh enquanto 30 tinha Rh e sangue tipo A Usando estas informacoes encontre a probabilidade de que um membro da tribo tenha a Sangue tipo A ou Rh b Sangue tipo A e Rh c Rh mas nao sangue tipo A d Sangue tipo O e Rh 20 Num estudo sobre fecundidade de duas racas suınas foram examinados 14 animais de cada raca obtendose o resultado exposto na tabela 33 a A fecundidade e independente da raca Justifique atraves da definicao de independˆencia de eventos b Qual e a PF A e c PF A 143 Tabela 33 Fecundidade de duas racas suınas Racas Fecundidade Fecundas F Nao fecundas F Total A A 12 042857 2 007143 14 05000 B B 8 028571 6 021428 14 05000 Total 20 071428 8 028572 28 10000 4 Modelos de Probabilidades para Contagens 41 Introducao Ate aqui introduzimos alguns modelos probabilısticos para experimentos simples isto e experimentos cujos os espacos de resultados Ω sao simples Esta teoria basica de probabil idade foi importante para uma boa compreensao do que e probabilidade e tambem para o conhecimento de algumas propriedades e regras as quais sao uteis no estudo por exemplo de genetica Para variaveis qualitativas os modelos vistos na secao anterior se adaptam muito bem No estudo de Analise Exploratoria de Dados tivemos contato com diversas variaveis obtidas de experimentos reais como por exemplo rendimento de graos de hıbridos de milho em kgha numero de dias da emergˆencia a floracao ciclo da cultura altura de plantas numero de plantas sadias colhidas na area util de uma parcela numero de micronucleos em 5000 celulas de peixes do tipo bagre diˆametro de Paepalanthus Para atender estas situacoes praticas mais gerais precisamos ampliar os conceitos basicos vistos ate o momento para que tenhamos modelos probabilısticos que representem todos os tipos de variaveis vistas ate aqui Em outras palavras precisamos sofisticar mais nossos modelos Inicialmente dada a sua maior simplicidade estudaremos os modelos para variaveis aleatorias discretas Alguns exemplos de variaveis aleatorias discretas sao numero de plan tas sadias ou doentes numa unidade experimental numero de insetos capturados numa ar madilha numero de brotos por explante numero de sementes que germinam numa amostra de 400 sementes proporcao de enxertos sobreviventes Ja os modelos para variaveis contınuas necessitarao de um artifıcio matematico que consiste na generalizacao do conceito de his tograma estudado na analise exploratoria de dados Esta generalizacao consiste em se fazer o numero de classes tender para o infinito e sera estudado no proximo capıtulo 144 Do ponto de vista pratico e desejavel que se defina uma variavel associada a um experi mento de tal modo que seus resultados sejam numericos Vejamos alguns exemplos Exemplo 1 No caso de um questionario e as respostas possıveis sao sim ou nao podemos associar uma variavel que toma os valores 1 para sim e 0 para nao Exemplo 2 Num estudo sobre sobrevivˆencia de enxertos em ameixeiras temos duas possibilidades o exerto sobrevive ou morre podemos atribuir o valor 1 para sobrevive e 0 para morte Uma razao para isto e que os recursos disponıveis para a analise estatıstica das variaveis quantitativas sao maiores mais amplas do que para variaveis qualitativas Isto sugere o uso de artifıcios para transformar as variaveis qualitativas em variaveis quantitativas Quando uma variavel apresenta resultados que tendem a variar de uma observacao para outra em razao da variacao do acaso chamase variavel aleatoria as quais iremos associar modelos probabilısticos Por exemplo temos as seguintes variaveis aleatorias numero de indivıduos de determinada especie vegetal encontrados em quadrados de 10m 10m em um campo a conversao alimentar de suınos em crescimento Vamos poder verificar ate o final desse curso a grande importˆancia da construcao de modelos probabilısticos para variaveis quantitativas 42 O Conceito de Variavel Aleatoria Discreta e Funcao de Prob abilidade Vamos agora atraves de um exemplo definir o que e uma variavel aleatoria discreta funcao de probabilidade e distribuicao de probabilidade em termos matematicos Exemplo em um experimento genetico com flˆores de ervilhas os genotipos BB e V V produzem petalas das flores de cor branca e vermelha respectivamente Em F1 obtemos BBVVBV que sao flores de cor rosa genotipo que produz petalas rosas Fazendose a autofecundacao de flores BV obtemos os genotipos da figura 41 Vamos definir a variavel X como sendo igual ao numero de alelos V em cada resultado da figura 41 genotipos Os resultados associados pela variavel X dada a suposicao que os eventos sao igualmente provaveis e BV e V B nao sao ordenados sao 145 BV BV BB BV VB VV Figura 41 Experimento genetico com flores de ervilhas Ω A2 A1 A3 0 1 2 1 2 X ℜ Figura 42 Esquema para o significado de variavel aleatoria Resultados eventos Probabilidades xi BB 1 4 0 BV 1 4 1 VB 1 4 1 VV 1 4 2 Estes resultados sao mostrados no esquema da figura 42 considerando os eventos A1 BB A2 BV V B A3 V V Vemos na figura 42 pois que a cada resultado do experimento evento a variavel Xnumero de alelos V em cada genotipo associa um valor numerico Essa associcao em matematica e chamada de funcao Definicao uma variavel aleatoria e uma funcao que associa a todo evento pertencente a uma particao do espaco amostral Ω um unico numero real 146 Notamos que a varidvel aleatéria para ser discreta deve assumir valores em um conjunto enumeravel finito ou infinito de pontos do conjunto dos numeros reais R Vimos como associar numeros aos eventos agora 6 muito importante que se associe probabilidades a estes valores da varidvel isto é como associar a cada valor x da varidvel aleatoria X a sua probabilidade de ocorréncia Ela é dada pela probabilidade de ocorréncia do evento correspondente eventos equivalentes Matematicamente temos 1 PX 0 PBB 5 pois X 0 se e somente se ocorre o evento BB 1 1 2 PX 1 PBVouwVB 4 4 4 pois X 1 se e somente se ocorrem eventos BV ou VB 1 PX 2PVV 3 pois X 2 se e somente se ocorre 0 evento VV Agora vamos trabalhar com numeros ao invés de conjuntos isso implica que podemos usar fungoes derivadas integrais que sao muito utilizadas para representar os fendmenos da natureza Na tabela a seguir esquematizamos a distribuicdo de probabilidades da variadvel aleatoria X ntimero de alelos V em cada genotipo m o12 pa i Ao conjunto de pontos x px damos o nome de Distribuigdo de Probabilidades Modelo probabilistico da variavel aleatéria X E importante verificar que para que haja uma distribuicao de probabilidades de uma varidvel aleatoria discreta X 6 necessario que a paO0 para todo i b So pla 1 i1 c PX x pa Definigao chamase funcao de probabilidade da varidvel aleatoria discreta X que as sume os valores 21 2 130n a funcao px que a cada valor de x associa a sua proba bilidade de ocorréncia isto é pxi PX a 147 Nas proximas secoes vamos mostrar algumas funcoes de probabilidades famosas 43 A media e a Variˆancia de Uma Variavel Aleatoria Discreta Propriedades Existem caracterısticas numericas que sao muito importantes em uma distribuicao de probabilidades de uma variavel aleatoria discreta ou contınua Essas caracterısticas numericas sao os parˆametros das distribuicoes Os dois parˆametros mais importantes sao a media e a variˆancia A media e tambem chamada de valor esperado de esperanca matematica ou de media populacional de uma variavel aleatoria e a sua representacao e EX ou µX a qual lˆese a esperanca matematica da variavel aleatoria X Vamos atraves de alguns exemplos introduzir o conceito de esperanca matematica Exemplo 1 O agricultor produtor de batatassementes exemplo da secao 43 quer saber qual o lucro medio esperado por caixa da mesma Vamos supor que Uma caixa do tipo I 50 diˆametro 60 mm da um lucro de 3000 um Uma caixa do tipo II 40 diˆametro 50 mm da um lucro de 10000 um Uma caixa do tipo III 28 diˆametro 40 mm da um lucro de 8500 um Uma caixa do tipo IV 23 diˆametro 28 mm da um lucro de 1000 um As probabilidades estimativas da frequˆencia relativa de um agricultor obter uma caixa do tipo I e 100500 0 20 II e 180500 0 36 III e 140500 0 28 IV e 80500 0 16 Entao se chamarmos de X o lucro por caixa de batatasemente e o lucro medio por caixa de EX temos µX EX 0 2030 00 0 36100 00 0 2885 00 0 1610 00 µX EX 6 00 36 00 23 80 1 6 µX EX 52 20 um Exemplo 2 Considere a producao de pepinos para conserva qual o lucro medio esperado pelo agricultor por caixa de pepino Considere os seguintes valores de lucros para cada uma 148 das classificagoes 1 classepepinos de 6 4 9 cm lucro de 600 umcx 2 classepepinos de 9 4 12 cm lucro de 500 umcx 3 classepepinos maior que 12 cm lucro de 390 wumczx afilados lucro de 50 umcx As probabilidades estimativas de frequéncias relativas de um agricultor obter uma caixa do tipo 1 classe 300500 060 2 classe é 100500 020 3 classe é 50500 010 afilados é 50500 010 Entao se X é 0 lucro por caixa de pepino para conserva e EX é 0 lucro médio esperado por cada caixa temos que ix EX 060600 020500 010390 0 1050 bx EX 360 100 39 5 ix EX 494umcx Exemplo 3 Em familias com 4 criancas vamos admitir para simplificar que a pro porcao de criangas que nascem do sexo masculino e feminino é 11 Seja a varidvel aleatoria Xntimero de meninos em familias com quatro criangas O espaco de resultados para familias com 4 criancas é dado por 2 pontos amostrais Q FFFFMFFFFMFFFFMPFFFFMMMFFMFMFMFFM FMMPFFMFMFFMMMMMPFMMFMMFMMFMMMMMMM Os valores que X pode assumir sao X 01234 As probabilidades sao dadas por 1 4 6 4 1 PX 0 PX 1 PX 2 PX 3 PX 4 As probabilidades correspondentes podem ser obtidas pela formula fungao de probabil idade n 1 PX k wn8 149 onde n n Eln k onde n significa n fatorial Por exemplo 33216 Agora representamos por FX ou zx 0 numero médio de meninos em tais familias Qual é 0 valor de EX BX px x 0 Sx 1 2 x2 Fx 8 4 Ex 4 2 Portanto Ux EX pir pot p3v3 pata 4 px EX apai i1 Definigao se uma varidvel aleatéria discreta X toma os valores 21 22 CoM as probabilidades correspondentes px1 p2Pn entao o seu valor esperado EX ou Ux pix EX Y xipai onde i 123n EX é uma média dos valores que a varidvel aleatéria pode assumir onde cada valor é ponderado pela probabilidade da varidvel aleatoria ser igual a esse valor No caso do agricultor 494 um é 0 valor esperado do lucro por caixa se ele executar o plantio do pepino um numero grande de vezes isto é quando repetir a lavoura de pepino varias vezes A expressao do valor esperado é6 muito semelhante aquela da média aritmética apresen tada na secao onde MeXX So fii A distincao entre p a probabilidade da varidvel aleatéria X assumir o valor 2 e fi a freqtiéncia relativa do resultado x 6 que a primeira corresponde a valores obtidos de um modelo tedrico ajustado para os dados e a segunda corresponde as freqiiéncias observadas da varidvel Como p e f tem a mesma interpretacao todas as medidas e graficos discutidos no estudo de andlise exploratéria de dados para distribuigdes de freqiiéncias f possuem um correspondente na distrbuicgao de probabilidades p Um segundo parametro é a varidncia de uma distribuicgao de probabilidade que mede o grau de dispersao ou de concentracao de probabilidades em torno da média verdadeira Quanto menor a variancia maior o grau de concentragao das probabilidades em torno da média e viceversa quanto maior a variancia maior o grau de dispersao das probabilidades em torno da média 150 Chamamos de variancia de X ao valor 2 0 Yo ni EXP vl 7 plaido ST pled BCX BOOP Demonstracao ox do ei BXP play i1 So x7 22EX EXP pla i1 So xipas 2EX S xipai EXP S vai i1 i1 i1 tpi 2 ain nit i1 i1 i1 n n 2 tpa i ane i1 i1 EX EXP O resultado acima foi obtido com as restrigoes S xi l e EX S xipai i1 i1 Outra expressao para a variadncia de X é dada por oy EX EX Para contornar o problema da unidade elevada ao quadrado definimos o desvio padrao ox o Para o exemplo do lucro por caixa de batatasemente temos xhucro wide 3000 020 90000 180 10000 036 1000000 3600 8500 028 722500 2023 1000 016 10000 16 151 Logo ox 5819 5220 o 3094 um e o valor do desvio padrao é ox DPX 3094 16 ox DPX 5563 um Para o exemplo da varidvel lucro esperado por caixa de pepino para conserva temos ox 281400 494 ox 37364 umex O desvio padrao fica g V37364 o 19329 umcx Para o exemplo da varidvel numero de meninos em familia com quatro criancgas temos o 52 1 menino Ox ox V1 1 menino Algumas Propriedades da Média e da Varidncia 1 Seja K uma constante temos que Ek K Demonstracao BK SKpxi i1 kK Y ai Kk K 2 Sejam K uma constante e X uma varidvel aleatéria temos que E KX KEX Demonstracao EKX S Kaplan i1 kK S cipai KEN 152 3 Sejam X e Y duas varidveis aleatérias temos que EX Y EX EY Demonstracao para facilitar o entendimento da demonstracao construimos a tabela a seguir Y ry yi1 320 320 220 820 yo2 120 120 220 420 y33 420 120 320 820 px 820 520 720 100 EXY SoS ai ypaiy i1 jl SOS aiplaiy S So yjpaisys i1 jl i1 jl Sou rleiy oj d vai i1 jl jl il Agora para um 7 fixo S vx yj pai jl e para 7 fixo Y xi ys vyy i1 logo podemos escrever EXY So aipxi S yipy i1 jl EXY EXEY Exemplo Devese escolher um homen dentre um grupo de homens O peso médio no grupo é de wy 79 Kg com desvio padrao de oy 10 Kg Uma mulher deve ser escolhida de um grupo de mulheres com peso médio de jy 65 Kg e desvio padrao de oy 7 Kg Determine a FX y Xy a variancia VarX q Xy dos pesos combinados de um homen e de uma mulher EXyXu bat pu 153 79465 144Kkg OX tXy OX 7X Xu independente de Xy 100449 149K OXy4Xy Vv 149 745 kg 4 Se X e Y sao varidveis aleatérias independentes entao EXY EXEY Demonstracao EXY SoS aiyjpaiys i1 jl SoS xiyjpapy i1 jl So aipx yjpyy i1 jl EXEY 5 VarK 0 Demonstracao VarK BK BKP K K VarkK 0 6 VarKX KVarX Demonstracao VarKX EKX EKX KEX KBX KBX KEXP KEX BX KVarX Definigao Se Xe Y sao duas varidveis aleatérias a covariancia de X e Y é definida por CovXY EX EXY EY EXY EXEY 154 ou seja o valor médio do produto dos desvios de X e Y em relacao aos seus valores médios A covariancia é uma medida de associagao entre X e Y Demonstracao CoXY SoS ei EX yy BY pla yy i1 jl CovlXY S S LiYjPLi Yj S S Uj EY pai yj i1 jl i1 jl SSC EXypaisy S55 EX EY pai y i1 jl i1 jl Por definigao SoS ciyjpi yj BXY i1 jl Logo CoulX EXY BY oe Spleens i1 jl EX Sou 5 pla yy EXE SS YS ai yy jl il i1 jl CovXY EXY EYEX EXEY EXEY CovXY EXY EXEY Exemplo vamos considerar a distribuicaéo conjunta de probabilidades das varidveis X ntmero de vagens por planta e Yntimero de graos por vagem Px Xor 2 3 47 0 015 015 015 015 015 015 1 215 215 315 215 115 1015 2 015 115 215 115 115 515 py 215 315 515 315 215 1 Inicialmente definiremos a varidvel W XY e vamos obter a sua distribuicao de probabil 155 idades PW WPW 0 215 015 1 215 215 2 415 815 3 215 615 4 315 1215 6 115 615 8 115 815 Temos que EX 2015 EY 3015 portanto COV X Y42152015 3015 4215588225 2826667 01333 7 VarX Y VarX VarY CovxXY onde CovXY EXY EXEY como foi demonstrado Demonstracao VarXY EXY BXY EX2EXY EY EX EY BEX2EXY EY EXP 2EXEY EYP BX BX BY BY 2BXY 2EXEY VarXVarY 2CovXY Se X e Y sao duas varidveis aleatérias independentes entao CovX Y 0 e portanto VarX Y VarX VarY Observacgao se CovXY 0 nao implica que X e Y sao independentes Pode ter uma outra dependéncia que nao a linear Uma formula pratica para o calculo da covariancia é dada por yoiat Ti Doin Yi C XY iy SE ouXY a y 7 44 Alguns Modelos Probabilisticos para Contagens Os diferentes tipos de distribuigoes de probabilidades podem ser considerados como mod elos para descrever situagoes reais que envolvam resultados gerados pelo acaso Uma con sequéncia da simplificacao ou seja da eliminacaéo de detalhes de pouca importancia dos 156 fenˆomenos reais e que em suas formas mais puras elementares poucos problemas sao real mente unicos Por isso frequentemente um pequeno numero de modelos e suficiente para resolver muitos problemas que a primeira vista nao parecem relacionados Podemos entao concluir que a maioria dos problemas podem ser resolvidos com o auxılio de poucos modelos basicos Esses modelos cada qual apresentam uma serie de hipoteses ou pressuposicoes que devem ser atendidas para que o modelo possa ser utilizado validamente O ponto chave para a utilizacao de um modelo consiste em confrontar as hipoteses basicas do modelo e as condicoes da situacao real Se as hipoteses basicas sao verificadas atendidas podese usar o modelo em questao Nesta secao iremos estudar alguns desses modelos procurando enfatizar como eles ocor rem na pratica sua funcao de probabilidade parˆametros e como calcular probabilidades 45 Distribuicao de Bernoulli Seja um experimento onde desejamos verificar se uma semente de trigo germina ou nao germina E claro que quando realizamos um experimento estamos interessados em verificar al gumas variavelis Entao precisamos associar uma variavel aleatoria X que chamaremos de germinacao da semente de trigo aos possıveis resultados do experimento como temos apenas dois resultados possıveis a variavel aleatoria X vale x 1 se a semente germinar x 0 se a semente nao germinar Vamos estabelecer algumas condicoes pressuposicoes 1 So e feita uma unica tentativa repeticao do experimento 2 So sao possıveis dois resultados germina ou nao germina Vamos definir o evento GA semente germina sendo a sua probabilidade dada por PG π portanto o valor do parˆametro π esta entre 0 zero e 1 um a probabilidade da semente nao germinar e P G 1 π q 157 A distribuigaéo de probabilidades fica Resultados p2 G 0 l7Tq G 1 T Total a71 Dizemos que a varidvel aleatéria X germinacao da semente assim definida tem dis tribuicao de Bernoulli A fungao de probabilidade de uma varidvel Bernoulli é dada por PX a 717 41 Exemplo Podemos obter as probabilidades da varidvel aleatéria assumir os valores 0 e 1 através da aplicagao da fungao de probabilidade PX 0 17 17 PX 1 wlar Média e Variancia de uma Varidvel Aleatéria Bernoulla BX SY ajypai 0x 17 xm 0407 VARX EXEX EX S x7pai 1lmVPrrn VARX r7717 Exemplo 1 uma urna tem 30 bolas brancas e 20 verdes Retirase uma bola dessa urna Seja X saiu bola verde Verifique se é um ensaio de Bernoulli confronte as suposigdes do modelo com as condigdes do ensaio Determinar PX 2 calcular EX e VarX 1 uma tnica repeticao Sim pois j 2 somente dois resultados verde ou branco xat l B 3 2 2 tL 7 5 5 Podemos estruturar a funcao de probabilidade da seguinte forma PX 2 040 0 60 158 A média e a variancia valem EX 040 e VarX 024 respectivamente Exemplo 2 em uma gaiola estao seis coelhos com uma mutacao sanguinea letal e trés outros com uma mutagao éssea Sorteiase aleatoriamente um coelho dessa gaiola Seja X presenca de mutacao dssea Verifique se é um ensaio de Bernoulli Determinar a PX 2 calcular EX VarX 1 uma tinica repeticao Sim pois j 2 somente dois resultados possiveis mutacdo dssea ou sanguinea yo l7 06667 1 nw 2 03333 PX 2 03333 x 06667 EX S aipi 0 x 006667 1 x 03333 0 3333 6 3 2 VarX a17 03333 x 06667 x 9 9 9 46 A Distribuigao Binomial O objetivo inicial é encontrarmos a fungao de probabilidade a expressao matematica da distribuicao binomial Para isso vamos ver como a distribuicgao binomial ocorre na pratica Suponha agora que desejamos verificar a germinacao de duas sementes de trigo Vamos estabelecer quatro pressuposigoes nessa experiéncia primeira pressuposicao o fato de uma semente germinar ou nao nao tem influéncia no fato da outra semente germinar ou nao isto é a germinacao das sementes sao independentes segunda pressuposigao a probabilidade das sementes germinarem permanece constante para isso devese utilizar no experimento sementes bastante homogéneas quanto as propriedades fisicas quimicas e bioldgicas e igual a m identicamente distribuidas terceira pressuposigao sé ha dois resultados possiveis germina ou nao germina e a quarta pressuposicao existe n 2 repeticgoes A varidvel X pode ser definida como o ntimero de sementes que germinam e a probabilidade de uma semente germinar continua sendo igual a 7 3Esta distribuicao foi estudada pelo matematico suico Jacob Bernoulli 16641705 159 Observe que vamos usar as definigdes de PA U B e PAN B onde PAU B PA PB e PAN B PAPB dadas nas subsegoes 36 e 37 A distribuigaéo de probabilidade fica Resultados px GG 2 mn 1 7 p2111 7 5 717 GG 1 nm17n17 sp12n1 7 7 mt 7 GG 1 1 anr17 GG 0 lar1mr17 p01r1 1 9 n1 1 Na tabela o primeiro resultado mostrado é que as duas sementes germinam isto 6 temos o resultado GG Neste caso em que as duas sementes germinam o valor assumido pela varidvel X ntimero de sementes que germinam é x 2 Estamos considerando que a probabilidade de uma semente germinar é 7 ou seja PG a Assim a probabilidade de duas sementes germinarem independentemente é dada por PGN G2 PGPG2 wr 7 onde G e G2 representam as sementes 1 e 2 respectivamente Esta probabilidade pode ser reescrita como tmTml17 onde os expoentes 2 e 0 indicam que duas sementes germinaram e nenhuma semente nao germinou respectivamente Ainda podemos escrever 1n1l7 onde o valor 1 indica que existe somente uma seqiiéncia GG e a diferencga 22 indica que de duas sementes ensaiadaso primeiro doisas duas germinaramo segundo dois portanto nenhuma nao germinou Finalmente podemos escrever 2 5 22 1 3eam onde 5 leiase combinagao de 2duas sementes ensaiadas tomados 2 a 2duas sementes germinaram e é calculada por 2 2 2 1x2 2 222 20 1x2x1 Para o segundo resultado em que uma semente germina G e a outra nao germina G a probabilidade é dada por PGNG PGPG n177 17 160 Observe que temos duas combinacoes possiveis em que uma semente germina e a outra nao germina GG e GG portanto a probabilidade vale A A 1 1 2 4 21 PGGUGG 2m 17 iJ l7 Neste calculo usamos combinagoes pois a ordem dos resultdos nao importa Na verdade em termos de resultados corresponde a um tnico resultado qual seja uma semente germina e a outra nao germina Usamos 0 mesmo procedimento para calcular a PGN G Vamos agora verificar a germinacao de trés sementes de trigo vamos repetir o ex perimento 3 vezes considerando verdadeira a hipdtese de independéncia e probabilidades constantes 7 a distribuicao de probabilidade fica Resultados PX 2 pz GGG 3 ann 731 7 1n17 3 P193 GGG 2 mn17 7717 3r1m 3 PL3 GGG 2 nml7r 7717 GGG 2 lanr 7717 GGG 1 m1l7m17 717 3nl17 1 24 GGG 1 lar17 7117 GGG 1 lm17r 717 GGG 0 lm1mLm n17 1n1738 2 w91 1 Total 1 1 Generalizando para n ensaios Vamos agora verificar a germinacao de n sementes de trigo n repetigdes do experimento ou também podemos dizer n ensaios independentes de Bernoulli a probabilidade de k sementes de trigo germinar e portanto n k sementes nao germinar nesta seqliéncia GGGGGG k k é dada por m1 a Mas uma outra seqtiéncia de k sementes que germinam e n k sementes que nao germinam é GGGGGGGG 161 O valor da probabilidade continua sendo 71 1 Uma outra seqiiencia poderia ser GGGGGGGG Novamente o valor da probabilidade nesta seqiiéncia 6 a1 2 Mas existem n n k kn k de tais seqiiéncias onde k sementes germinam e n k sementes nao germinam de modo que a probabilidade de k sementes germinarem é dada por nM k nk PX k i 17 42 para k 01 23n Observaoes 1 a denominagao binomial decorre do fato de os coeficientes serem exatamente os coe ficientes do desenvolvimento binomial das n poténcias a b 2 o cdlculo dos coeficientes para n e k grandes sao diffceis de serem realizados por vezes necessita da ajuda de computadores sendo assim sera estudado na segao 48 0 uso de uma aproximacao para a distribuicao binomial Estas probabilidades também podem ser indicadas por bk n 7 Os possiveis valores de k 0123n e as probabilidades PX k dadas em 42 constituem a chamada distribuigao binomial Quando uma varidvel aleatéria X tem distribuicao binomial com os parametros n e 7 escrevemos X bn 7 Suposicgdes do modelo binomial 1 Existem n repetigoes ou provas idénticas do experimento Exemplo numero de plantas sadias colhidas em parcelas de 20m foram plantadas 27 plantas em cada parcela X 01227 entao n é o numero total de casos possiveis da varidvel que estamos estudando 2 S6 ha dois tipos de resultados possiveis plantas sadias ou doentes 162 3 As probabilidades 7 de sucesso e 1 7 de fracasso permanecem constantes em todas as repetigdes Na pratica nao temos certeza absoluta disso mas consideramos verdadeira esta suposicao desde que as probabilidades sejam prdéximas 4 Todos os resultados das repetigoes sao independentes uns dos outros Exemplo 1 Num rebanho bovino 30 dos animais estaéo atacados de febre aftosa Retirase ao acaso uma amostra de 10 animais 1 Verifique se a varidvel ntimero de animais doentes pode ser estudada pelo modelo bino mial Justifique 2 Estruturar a fungao de probabilidade e representar a distribuigéo de probabilidade num grafico 3 Qual a probabilidade de se encontrar 6 animais doentes Primeiramente vamos verificar se a varidvel X numero de animais com febre aftosa pode ser estudada pelo modelo binomial 1 Temos n 10 animais entéo X 01 2 10 2 Uma animal esta ou nao esta com febre aftosa 3 A probabilidade para cada animal de ter febre aftosa é constante 4 Os 10 animais sao selecionados aleatoriamente ao acaso isso garante a independéncia Assim X b10 030 Temos ct 030 lrq 1030070 n 10 portanto a estrutura da funcao de probabilidade é dada por 10 k 10k PX k k 0300 70 No apéndice 1 temos a tabela das probabilidades binomiais Como sabemos estas proba bilidades sao dadas em fungao do ntmero de repeticoes e da proporcao de sucessos Para uma distribuicgao binomial temos que b610030003737 Também obtemos diretamente 163 030 026 Benn 022 018 i 014 oa 010 5 5 a 4 006 002 002 2 0 2 4 6 8 10 12 Numero de animais com febre aftosa Figura 43 Distribuigao de probabilidade para animais com febre aftosa da tabela da distribuicgéo binomial que PX 0 06010030 0028 PX 1 b110030 0121 PX 2 0210030 0233 PX 3 0310030 0267 PX 4 0410030 0200 PX 5 0510030 0108 PX 6 06610030 0037 PX 7 0710030 0009 PX 8 0810030 0001 PX 9 0910030 0000 PX 10 61010030 0000 O grafico da distribuigao de probabilidade é dado na figura 43 A probabilidade de encontrarmos 6 animais doentes isto é de k 6 vale PX 6 6 0 300 70 210 x 0 00073 x 0 2401 PX 6 0037 PX 6 37 Exemplo 2 Numa criacao de coelhos a taxa de nascimento de machos é de 40 Qual a probabilidade de que nascam pelo menos 2 coelhos machos num dia em que nasceram 19 coelhos Estruturar a funcao de probabilidade e representar a distribuicao graficamente 164 Primeiramente vamos verificar se a varidvel X ntiimero de coelhos machos pode ser estudada pelo modelo binomial 1 Temos n19 repeticdes do experimento 2 Um coelho é macho ou é fémea 3 A probabilidade de ser macho é 040 e permanece constante 4 Os resultados macho e fémea em cada nascimento sao independentes Assim X 012319 nm 040 logo X b190 40 Portanto a estrutura da fungao de probabilidade é dada por 19 k 19k PX k k 0 400 60 A probabilidade desejada PX 2 é dada por PX 2 1PX 2 1PX 0 PX 1 1 19 0 400 609 0400 00 1 0000 0001 0999 As probabilidades para X b19 040 valem PX 0 0000 PX 10 0098 PX 1 0001 PX 11 0053 PX 2 0005 PX 12 0024 PX 3 0017 PX 13 0008 PX 4 0047 PX 14 0002 PX 5 0093 PX 15 0001 PX 6 0145 PX 16 0000 PX 7 0180 PX 17 0000 PX 8 0180 PX 18 0000 PX 9 0146 PX 19 0000 O grafico da distribuigao de probabilidade é dado na figura 44 165 Número de coelhos machos Pxx 002 002 006 010 014 018 022 2 2 6 10 14 18 22 Figura 44 Distribuicao de probabilidade para animais com febre aftosa A Media e Variˆancia de Uma Variavel Binomial Uma variavel aleatoria binomial X e a soma de n variaveis independentes do tipo Bernoulli Y X Y1 Y2 Y3 Yn Aplicando as propriedades da esperanca matematica e variˆancia e lembrando que EYi π e V arYi π1 π temos EX EY1 Y2 Y 3 Yn EX EY1 EY2 EY3 EYn EX π π π π EX nπ No exemplo dos animais com febre aftosa temos EX 10 0 30 EX 3 Portanto em media esperamos encontrar trˆes animais com aftosa dentre os dez selecionados A variˆancia fica V arX V arY1 Y2 Y3 Yn como os Y s sao independentes a variˆancia de uma soma de variaveis aleatorias e a soma 166 das variancias dessas varidveis entao VarX VarYi Var2 VarYn VarX ala7 al7 al7 VarX na17 No exemplo dos animais com febre aftosa temos VarX nr17 10 x 030 x 070 21 animais O desvio padrao vale DPX VVar 21 1449 animais Uma varidvel aleatéria binomial como vimos é obtida de contagens freqiiéncias de suces sos todavia em muitas situacdes 6 importante expressar os dados na forma de proporcao por exemplo representar que 18 sementes germinaram em 20 sementes testadas corresponde a p 18 20 090 Neste caso de proporgdes a média e a variancia sao dadas por EPt Demonstracao xX 1 EPE 52 FX n n n n w1l7 VarP ml n n Demonstracao X 1 1 m1 7 VarP Var 73 VarX1 aim T As probabilidades das proporcoes sao exatamente iguais as probabilidades das contagens Para o exemplo dos animais com febre aftosa a probabilidade da proporcaéo de animais com febre aftosa numa amostra de 10 animais ser igual a 030 é igual a 0267 ou seja exatamente igual a probabilidade de encontrarmos 3 animais com febre aftosa PX 3 0267 Assim a distribuicao de probabilidades para a proporcéo de animais com febre aftosa é dada por PX0 PX1 PX2 PX3 PX4 PX5 PX6 PX7 PX8 PX9 PX10 0028 0121 0233 0267 0200 0103 0037 0009 0001 0000 0000 167 47 A Distribuicao de Poisson Esta distribuicao e largamente utilizada para contagens de indivıduos plantas colˆonias de bacterias itens objetos dados num intervalo de tempo numa area num volume num comprimento A unidade de medida deve ser definida de tal modo que as contagens sejam baixas Considerase um numero baixo como sendo menor que 10 Exemplos de variaveis Poisson numero de indivıduos por quadrante de 1m2 numero de colˆonias de bacterias de uma dada cultura por 0 01 mm2 numa plaqueta de microscopio numero de defeitos por 100 m de tecido numero de acidentes numa esquina movimentada e bem sinalizada por dia numero de chamadas telefˆonicas numa central de PABX num intervalo de tempo de 1 2 minuto numero de partıculas radioativas emitidas numa unidade de tempo e numero de micronucleos1000 celulas Uma aplicacao importante da distribuicao de Poisson4 na area biologica diz respeito ao estudo do padrao de dispersao de uma certa especie vegetal ou animal num campo ou floresta enfim numa determinada area Portanto esta distribuicao e muito utilizada nas disciplinas de dinˆamica de populacoes e entomologia Inicialmente precisamos considerar que os indivıduos da especie se distribuem aleatoria mente no campo Isto significa que a posicao de um indivıduo e completamente independente da posicao de qualquer outro indivıduo da populacao como mostra a figura 455 Para o estudo da dispersao supoese que uma grade e sobreposta a area de estudo formando um grande numero de quadrantes quadrados ou retˆangulos A ilustracao e dada na figura 47 Podemos contar o numero de quadrantes com zero indivıduos com um indivıduo com dois indivıduos e assim por diante Observe que nao ha tendˆencia de quadrantes com maior ou menor numero de indivıduos e que o numero de indivıduos num quadrante e independente do numero de indivıduos em outro quadrante Pode este padrao de dispersao aleatoria ser descrito matematicamente A resposta e sim e e feita atraves de um modelo cuja funcao de probabilidade ou seja a probabilidade de encontrar X indivıduos por quadratne e dada por PX k eλλk k k 0 1 2 3 43 Onde e e o numero de Euler e vale 2718282 e λ e o numero medio de indivıduos por 4O nome desta distribuicao esta associado ao matematico francˆes S Denis Poisson 17811840 5Outras duas formas de distribuicoes encontradas na natureza sao a uniforme e por contagio mostradas na fugura 46 Esta ultima e mais comum de ocorrer neste caso a distribuicao de probabilidade utilizada e a binomial negativa 168 Habitat Figura 45 Distribuicao aleatoria dos indivıduos de uma determinada especie numa area a Distribuicao uniforme b Distribuicao por contagio Figura 46 Outras formas de distribuicoes 169 Figura 47 Distribuicao em quadrantes quadrante O k representa k fatorial por exemplo 33216 O 0 e definido como sendo igual a 1 As probabilidades de encontrar X plantas por quadrante dadas pela funcao 43 juntamente com os valores de k 0 1 2 3 constituem a distribuicao de Poisson Probabilidades para alguns valores de λ sao dadas no Apˆendice 2 Se o numero de quadrantes com k indivıduos aproximamse dos valores esperados de quadrantes com k indivıduos pelo modelo de Poisson entao a dispersao da especie e aleatoria Este e um importante resultado para os Biologos Exemplo 1 Numa area dividida em quadrantes de 0 50m2 foram encontradas em media 25 especimes Considerando que o modelo de Poisson e adequado qual e a probabilidade de se encontrar num quadrante exatamente 4 especimes Seja X o numero de especimes por 0 5m2 PX 4 e252 54 4 0 1336 Qual e a probabilidade de se encontrar no maximo 1 especime por quadrante PX 0 e252 50 0 0 0821 PX 1 e252 51 1 0 2052 Portanto a resposta e dada por 008210205202873 Exemplo 2 Numa placa de microscopio dividida em quadrantes de 1mm2 encontrase em media 5 colˆonias por mm2 Considerando que a distribuicao de Poisson e adequada ou seja 1 as colˆonias distribuemse aleatoriamente na placa e 2 o numero medio de colˆonias 170 por mm permanece constante e é baixo determine a probabilidade de um quadrante ter exatamente 1 colonia Como 5 temos 5ryl 5 PX 1 oy 0 0337 Qual a probabilidade de se encontrar pelo menos 2 coldnias por mm Podese calcular esta probabilidade como PX 21PX 0 PX 1 5 5 0 PX 0 avy 0 0067 Portanto PX 2 1 00067 0 03369 0 9596 Qual a probabilidade de se encontrar 8 colénias em 2mm Neste caso x A 5 x 2 10 colonias Assim AQ Aye eo rr onde A é 0 nimero médio de colénias por 1mm e A é a area de tamanho fixo O resultado fica 10 10 8 PX 8 er 0 1126 48 Aproximacao da distribuigao binomial pela distribuicao de Poisson O modelo de Poisson pode ser considerado como limite da distribuicaéo binomial isto é para determinados valores de n grande fazendose n cada vez maior e 7 pequeno fazendose 7 cada vez menor verificase a seguinte aproximagao a rd k bk n 7 7 ke ot com k 012 44 com um unico parametro A nz interpretado como a freqtiéncia média de ocorréncia de um particular valor k A distribuigao limite é chamada de distribuigaéo de Poisson Para saber se a aproximacao é boa uma recomendagao pratica é verificar se a desigualdade na 7 é valida Na tabela 41 estao apresentadas algumas situacoes do calculo das probabilidades usando os dois modelos a qual passamos a fazer algumas interpretacdes O calculo das probabilidades de Poisson foram calculadas para cinco valores de freqiiéncias médias quais sejam A 1 171 Tabela 41 Aproximacao da distribuicao binomial pela distribuicao de Poisson variando o tamanho da amostra n e as probabilidades π Distribuicao n π k 0 1 2 3 4 5 6 7 8 Binomial 500 00020 0367511 0368248 0184124 0061252 0015252 0003032 0000501 0000071 0000010 1000 00010 0367695 0368063 0184032 0061283 0015290 0003049 0000506 0000072 0000010 2000 00005 0367787 0367971 0183986 0061298 0015309 0003057 0000509 0000072 0000010 5000 00002 0367843 0367916 0183958 0061307 0015321 0003062 0000510 0000073 0000010 10000 00001 0367861 0367898 0183949 0061310 0015324 0003064 0000510 0000073 0000010 Poisson λ 1 0367879 0367879 0183940 0061313 0015328 0003066 0000511 0000073 0000010 Binomial 500 00040 0134794 0270670 0271213 0180809 0090223 0035944 0011909 0003375 0001063 1000 00020 0135065 0270670 0270942 0180628 0090223 0036017 0011970 0003406 0001080 2000 00010 0135200 0270671 0270806 0180537 0090223 0036053 0012000 0003422 0001088 5000 00004 0135281 0270671 0270725 0180483 0090224 0036075 0012018 0003431 0001093 10000 00002 0135308 0270671 0270698 0180465 0090224 0036082 0012024 0003434 0001095 Poisson λ 2 0135335 0270671 0270671 0180447 0090224 0036089 001203 0003437 0001097 Binomial 500 00100 0006570 0033184 0083631 0140230 0175995 0176351 0146959 0104759 0132320 1000 00050 0006654 0033437 0083929 0140303 0175731 0175908 0146590 0104602 0132848 2000 00025 0006696 0033563 0084077 0140339 0175599 0175687 0146406 0104523 0133110 5000 00010 0006721 0033639 0084165 0140360 0175520 0175555 0146296 0104476 0133267 10000 00005 0006730 0033664 0084195 0140367 0175494 0175511 0146259 0104461 0133319 Poisson λ 5 0006738 0033690 0084224 0140374 0175467 0175467 0146223 0104445 0133372 Binomial 500 00140 0000868 0006161 0021827 0051447 0090763 0127841 0149753 0150057 0401284 1000 00070 0000890 0006272 0022084 0051789 0090996 0127780 0149377 0149527 0401286 2000 00035 0000901 0006327 0022213 0051960 0091112 0127748 0149189 0149264 0401286 5000 00014 0000907 0006361 0022290 0052061 0091181 0127729 0149077 0149107 0401286 10000 00007 0000910 0006372 0022315 0052095 0091203 0127723 0149040 0149055 0401286 Poisson λ 7 0000912 0006383 0022341 0052129 0091226 0127717 0149003 0149003 0401286 Binomial 500 00200 0000041 0000419 0002132 0007221 0018310 0037069 0062413 0089889 0782507 1000 00100 0000043 0000436 0002200 0007393 0018614 0037453 0062737 0089987 0781137 2000 00050 0000044 0000445 0002235 0007480 0018765 0037644 0062897 0090034 0780457 5000 00020 0000045 0000450 0002256 0007532 0018856 0037758 0062992 0090061 0780050 10000 00010 0000045 0000452 0002263 0007549 0018886 0037795 0063024 0090070 0779915 Poisson λ 10 0000045 0000454 0002270 0007567 0018917 0037833 0063055 0090079 0779779 λ 2 λ 5 λ 8 e λ 10 O calculo das probabilidades binomiais foi realizado com combinacoes de n e π cujos produtos fossem iguais as medias da Poisson Para n 500 π 0 0020 λ 1 e k 4 observamos um erro relativo ou seja um desvio relativo da Poisson para a binomial de 050 o que ja e um valor consideravel indicando que a aproximacao nao e excelente para este tamanho de amostra Para amostras de tamanhos iguais a 5000 e 10000 tal que λ 1 os erros relativos para k 0 1 2 3 4 5 6 7 foram todos abaixo de 030 valores baixos indicando boa aproximacao Passando para uma media λ 10 so encontramos erros relativos abaixo de 040 para n 10000 e k 1 2 3 4 5 6 7 Isto demonstra que a recomendacao pratica de se utilizar a aproximacao para λ 7 e procedente Observase tambem que os erros relativos para valores de k proximos de λ sao baixos para amostras de tamanho mınimo igual a 1000 para as medias tomadas como exemplos Exemplo 1 Mil passaros tem a chance um de cada vez de escolher entre duzentas gaiolas dispostas em um cırculo Admitimos que os passaros nao tˆem preferˆencia direcional Vamos definir a varıavel de interesse como sendo Xnumero de passaros por gaiola Qual 172 Número de pássaros por gaiola PxX 002 002 006 010 014 018 022 2 2 6 10 14 18 Figura 48 Grafico da distribuicao de probabilidades do numero de passaros e a probabilidade de que uma gaiola especıfica seja escolhida 0 1 2 vezes Como n 1000 π 1200 0 005 e nπ 1000 0 005 5 7 podemos usar a distribuicao de Poisson como aproximacao Temos que PX 0 e a probabilidade de uma gaiola nao ser escolhida por nenhum passaro e assim por diante Temos que PX 0 e550 0 0006741 1 0 0067 PX 1 e551 1 0006745 1 0 0337 PX 2 e552 2 00067425 12 0 0842 PX 3 e553 3 000674125 123 0 1404 PX 4 e554 4 000674625 1234 0 1755 Para os demais casos temos PX 5 0 1755 PX 11 0 0082 PX 6 0 1462 PX 12 0 0034 PX 7 0 1044 PX 13 0 0013 PX 8 0 0653 PX 14 0 0005 PX 9 0 0363 PX 15 0 0002 PX 10 0 0181 PX 16 0 A distribuicao de probabilidades de acˆordo com a distribuicao de Poisson e dada na figura 48 Exemplo 2 a probabilidade de um indivıduo ter reacao negativa a certa injecao e de 0001 Suponha que 2000 indivıduos receberam a injecao Estruturar a funcao de probabil 173 Número de indivíduos com reação negativa PXK 002 002 006 010 014 018 022 026 030 2 0 2 4 6 8 10 12 Figura 49 Distribuicao de probabilidade para reacao negativa idade e fazer o grafico da distribuicao Determinar a probabilidade de que a exatamente trˆes b mais que quatro tenham reacao negativa Com as informacoes do problema temos π 0 001 n 2000 λ 2000 0 001 2 Assim PX k e22k k para k 0 1 2 3 A distribuicao de probabilidades de acˆordo com o modelo de Poisson e dada na figura 49 A probabilidade de exatamente 3 apresentarem reacao negativa e PX 3 e223 3 0 1804 18 4 A probabilidade de mais de 4 apresentarem reacao negativa e PX 4 1 PX 0 PX 1 PX 2 PX 3 PX 4 1 0 1353 0 2707 0 2707 0 1804 0 0902 1 94 73 5 27 A Media e a Variˆancia de Uma Variavel Poisson Demonstrase que EX V arX λ Portanto na distribuicao de Poisson a media e igual a variˆancia Uma justificativa e que fazendose π tender a zero implica que q 1 π tende para 1 Como a media λ nπ e um valor considerado fixo e finito temos que a variˆancia σ2 nπ1π tende para σ2 nπ 174 No exemplo dos passaros EX nt X média de 5 passaros por gaiola VarX 5 passaros DPX V5 223 passarosgaiola Exercicios resolvidos 1 Num certo ano o IBAMA registrou no litoral catarinense drea de reserva 18 mortes de golfinhos aQual é a probabilidade de num determinado més do préximo ano ocorrerem menos de 2 mortes b Qual é a probabilidade de ocorrerem 2 mortes no proximo semestre a A 1812 15 golfinhosmés PX 0 e1150 0 223130 x 1 0 22313 PX 1 e1151 0 334695 PX 0 PX 1 022313 4 0334695 0 557825 b A 182 9 golfinhos PX 2 e972 00050 2 Suponha que 80 de uma criacao de suinos esteja atacada por leptospirose Se uma amostra de 1000 suinos for examinada por um veterindrio e seja Y o numero de porcos doentes dessa amostra de 1000 a qual é o valor esperado de Y b qual é 0 desvio padrao de Y Sendo n1000 7080 17 020 a EY na 800 suinos b DPY na1 7 V16012649 suinos VarY 160 suinos 3 Doze pares de animais experimentais sao submetidos a duas dietas diferentes A e B A atribuigao da dieta aos animais de cada par é feita ao acaso aleatoriamente principio da 175 casualizacaéo Apdés o experimento achase a diferengca em ganho de peso entre os animais submetidos a dieta A e a dieta B Se a diferenca for positiva A B 0 0 resultado sera chamado de sucesso a Verifique se 6 um experimento binomial atender as 4 suposicoes b Calcule EX VarX e DPX c Qual a probabilidade de que pelo menos 9 sucessos ocorram se as duas dietas nao possuem diferencas reais no que diz respeito a varidvel ganho de peso a e Temse n 12 repeticoes do experimento e 7 constante em cada repeticéo a probabilidade de sucesso é de 50 e S6 ha dois tipos de resultados possiveis e Os resultados das repeticoes sao independentes b 1 EX 12x 37 6 1 1 VarX na17 12x 33 3 DPX V3173 c mt 05050 17 050 50 2 0509050 00540 15 0 501050 00160 1 050050 00030 15 0507050 0000 0 0540 0 0160 00030 0000 0 73 73 4 Na tabela 42 X significa nimero de filhos homens em familias com 12 filhos Calcule para cada valor da varidvel o numero de familias que vocé deveria esperar se X b1205 A probabilidade de encontrarmos 0 homens numa familia é dada por 12 0 120 PX 0 0 0500 50 0 000 176 Tabela 42 Numero de familias com X homens 0 5 0000 0 1 35 0003 32 2 180 0016 171 3 599 0054 577 4 1250 0121 1294 5 1990 0193 2063 6 2400 0226 2416 7 2060 0193 2063 8 1350 0121 1294 9 600 0054 577 10 179 0016 171 11 35 0003 32 12 7 0000 0 A probabilidade de encontrarmos 1 homem numa familia é dada por PX 1 77 050 5021 0 003 A probabilidade de encontrarmos 2 homem numa familia é dada por PX 2 050 502 0016 Essas probabilidades e as demais sao dadas na terceira coluna da tabela 42 O ntimero esperado de familais com zero filhos homens pela binomial vale 10690 x 0 0 0 nimero esperado de familias com 1 filho homem pela binomial vale 10690 x 0003 32 e assim para os demais valores de X Esses valores sao encontrados na quarta coluna da tabela 42 Vocé acha que o modelo binomial é razodvel para explicar o fenodmeno Justifique Sim Pois as freqiiéncias esperadas sao proximas das freqiiéncias observadas Apresentam o mesmo comportamento regularidade 49 Exercicios Propostos 177 1 Considerando que a probabilidade de nascer uma crianca do sexo feminino e de 47 qual a probabilidade de que uma famılia de 6 filhos seja constituıda por seis criancas do sexo feminino 2 Suponhamos que a porcentagem de germinacao de sementes de feijao seja de 70 Vao ser semeadas 4 sementes por cova as quais serao espacadas de 040m entre linhas e 020m entre covas Supondose que cada canteiro a ser semeado conste de 6 linhas de 5m de comprimento qual o numero medio esperado de covas falhadas nem uma semente germinou das quatro semeadas por canteiro 3 Um contador eletrˆonico de bacterias registra em media 5 bacterias por cm3 de um lıquido Admitindose que esta variavel tenha distribuicao de Poisson a qual e o desvio padrao do numero de bacterias por cm3 b Encontre a probabilidade de que pelo menos duas bacterias ocorram num volume de lıquido de 1cm3 4 Em 30 bezerros nascidos 60 foi do sexo feminino Calcular o valor esperado es peranca e o desvio padrao esperado 5 Se a probabilidade de um indivıduo sofrer uma reacao nociva resultante da infeccao de um determinado soro e 00001 Determinar a probabilidade de entre 2000 indivıduos a exatamente trˆes sofrerem a reacao b mais de dois sofrerem a reacao 6 Um produtor de sementes vende pacotes com 20 sementes cada Os pacotes que apresentarem mais de uma semente sem germinar serao indenizados A probabilidade de uma semente germinar e 098 a Qual e a probabilidade de um pacote nao ser indenizado b Se o produtor vende 1000 pacotes qual e o numero esperado de pacotes indenizados c Quando o pacote e indenizado o produtor tem um prejuızo de 120 um unidades monetarias e se o pacote nao for indenizado ele tem um lucro de 250 um Qual o lucro lıquido esperado por pacote d Calcule a media e a variˆancia da variavel numero de sementes que nao germinam por pacote 7 Sabese que 20 dos animais submetidos a um certo tratamento nao sobrevivem Se esse tratamento foi aplicado em 20 animais e se X e o numero de nao sobreviventes a qual e o numero medio esperado de animais nao sobreviventes VARX e DPX b Calcular a P2 X 4 c Calcular a PX 2 8 Examinaramse 2000 ninhadas de 5 porcos cada uma segundo o numero de machos 178 Os dados estao apresentados na tabela abaixo Numero de machos X Numero de ninhadas 0 20 1 360 2 700 3 680 4 200 5 40 Total 2000 a Calcule a proporcao media de machos b Calcule para X0 X1 e X2 o numero de ninhadas que vocˆe deve esperar se X b5 π onde π e a proporcao media de machos calculada em a c Faca um grafico onde no eixo do Y vao as probabilidades probabilidade de encontrar 0 machos por ninhada 1 macho por ninhada5 machos por ninhada e no eixo da abcissas vai o numero de machos 9 Uma certa regiao florestal foi dividida em 109 quadrados para estudar a distribuicao de Primula simenses selvagem A priori supomos que este tipo distribuise aleatoriamente na regiao O quadro abaixo indica o numero de quadrados com X Primula Simenses o numero medio de plantas por quadrado foi de 22 encontre esse valor X plantas por quadrado Numero de quadrados com X plantas 0 26 1 21 2 23 3 14 4 11 5 4 6 5 7 4 8 1 8 0 Total 109 a Se as plantas se distribuem aleatoriamente na regiao qual a probabilidade de encontrarmos pelo menos 2 Primulas num quadrante 179 b Dˆe as frequˆencias esperadas de quadrados para os valores de X0 X1 e X2 c Apenas comparando os resultados de b com as frequˆencias observadas podemos concluir que a distribuicao da especie e aleatoria d Faca um grafico onde no eixo das ordenadas vao as probabilidades probabilidade de encontrar 0 plantas por quadrado 1 planta por quadrado8 plantas por quadrado e no eixo das abcissas vao o numero de plantasquadrado 10 Quando contamos eritrocitos celulas sanguıneas vermelhas pode ser utilizado um reticulado sobre o qual uma gota de sangue e igualmente distribuıda Sob microscopio e observada uma media de 8 eritrocitos por cada quadrado E razoavel que contagens por quadrado frequentemente se desviem de 1 ou 2 da media 8 e ocasionalmente de 3 ou mais 11 Oito ratos experimentais movemse aleatoriamente sobre uma superfıcie que e sub dividida em vinte quadrantes de mesmo tamanho numerados 1 2 3 20 Uma fotografia e tirada Admitindose a distribuicao de Poisson a qual e a probabilidade de que exatamente um rato seja encontrado no quadrante no1 b quantos quadrantes devem conter 0 1 2ratos 12 Uma armadilha para pegar vespa foi testada Somente 128 das 720 vespas atraıdas pela isca puderam ser apanhadas Portanto a probabilidade de pegarmos uma vespa e estimada como sendo π 0 178 Qual e a probabilidade de que dentre trˆes vespas escolhidas aleatoriamente a nenhuma seja capturada b pelo menos uma seja capturada 13 Admitindo que cada crianca tenha 51 de probabilidade de ser menino Determine a probabilidade de uma famılia de 4 filhos ter a exatamente um menino b ao menos um menino 14 Avaliaramse 30 parcelas area de terra de 20m2 de 27 plantas de mandioca cada uma de acordo com o numero de plantas doentes colhidas Os dados estao apresentados na tabela abaixo Numero de plantas doentes colhidas X Numero de parcelas com X plantas doentes 0 14 1 8 2 4 3 3 4 1 Total 30 180 a Calcule a proporcao media de plantas doentes b Calcule para cada valor de X o numero de parcelas que vocˆe deve esperar se X b27 π onde π e a proporcao media calculada em a c Existe uma boa aproximacao entre as proporcoes observadas e as estimadas pelo modelo binomial d Faca o grafico onde no eixo do Y tˆemse as probabilidades probabilidade de encontrar 0 plantas doentes por parcela 1 planta doente por parcela 4 plantas doentes por parcela no eixo do X tˆemse o numero de plantas doentes colhidas 01234 15 Determine o numero esperado de meninos em uma famılia com 8 criancas supondo ser a distribuicao do sexo igualmente provavel Qual e a probabilidade de ocorrer o numero esperado de meninos 16 Suponhamos que o processo de esterelizacao para um experimento biologico com preenda n estagios diferentes cada um com probabilidade π de sucesso Se uma falha em qualquer dos estagios ocasiona contaminacao qual a probabilidade de contaminacao se n 10 e π 0 99 17 Suponha que Xt seja o numero de partıculas emitidas em t horas por uma fonte radioativa tenha uma distribuicao de Poisson com parˆametro 20t Qual sera a probabilidade de que exatamente 5 partıculas sejam emitidas durante um perıodo de 15 minutos 18 Supondose que durante o abate de suınos em um determinado frigorıfico do Oeste Catarinense o numero de suınos descartados pelo Servico de Inspecao Federal seja uma variavel aleatoria com media de 90 animais por mˆes 30 dias Perguntase qual a probabil idade de serem descartados a quatro suınos por dia b pelo menos 2 suınos por dia 19 Numa famılia de 4 filhos seja X numero de meninos e Y numero de variacoes na sequˆencia de sexos Relacionar o espaco amostral e entao a construir a distribuicao conjunta de X e Y b X e Y sao independentes c quanto vale a covariˆancia entre X e Y 20 Segundo a teoria de Mendel no enxerto de duas especies de plantas com flores amarelas e brancas 30 das plantas resultantes tˆem flor amarela Em sete pares de plantas enxertadas qual a probabilidade a de nao resultar flor amarela b de haver 4 ou mais plantas com flor amarela 21 Um laboratorio e contratado para fornecer a um distribuidor lotes de vacinas para gado Ocasionalmente algumas vacinas se revelam ineficazes O distribuidor quer proteger 181 se contra o risco de receber um numero indesejavel de vacinas ineficazes Como nao e possıvel testar todas as vacinas ja que o teste inutiliza a vacina o distribuidor adota o seguinte processo de selecao extrai de cada lote uma amostra aleatoria de 10 ampolas contendo um numero X de vacinas estereis Se X0 o lote e aceito Se X 1 o lote e rejeitado Este processo e designado plano de amostragem simples com amostra de tamanho n 10 e numero de aceitacao c 0 Admitamos que o tamanho do lote seja suficientemente grande para que a distribuicao de X seja aproximadamente binomial com n 10 e πfracao desconhecida de vacinas estereis em cada lote a Se π 0 20 qual a probabilidade de o lote ser aceito b Calcule a probabilidade PA de aceitar um lote para π 0 05 π 0 10 π 0 20 e π 0 40 Grafe PA como funcao de π unindo os pontos do grafico por uma curva contınua esta curva e chamada curva caracterıstica de operacao CCO para o plano de amostragem 22 Sementes certificadas de feijao sao vendidas em um saco de 15 Kg ao preco de 20 um cada E caracterıstica de producao que 20 das sementes apresentem poder germinativo abaixo do especificado Um comprador fez a seguinte proposta ao produtor de sementes de cada saco escolhe 25 sementes ao acaso e paga por saco 2500 um se todas as sementes germinarem 1700 um se uma ou duas sementes nao germinarem 1000 um se trˆes ou mais sementes nao germinarem O que e melhor para o produtor manter o seu preco de 2000 um por saco ou aceitar a proposta do comprador Sugestao encontrar o preco medio esperado pelo produtor 23 O numero de mortes por afogamento em fins de semana numa cidade praiana e de 2 para cada 50000 habitantes Qual a probabilidade de que em 200000 habitantes ocorram 5 afogamentos 24 Num lote de sementes cujo percentual de germinacao e 070 foi retirada uma amostra de 10 sementes e colocada num germinador Se X e o numero de sementes germinadas a estruturar a funcao de probabilidade de X e fazer o grafico da distribuicao de probabili dade b determinar a probabilidade de germinarem duas ou mais sementes c determinar a media a variˆancia e o desvio padrao da distribuicao de X 25 Seja X o numero de criancas nao imunizadas numa campanha de vacinacao con tra uma determinada doenca onde a probabilidade de naoimunizacao e π 103 De 182 5000 criancas vacinadas numa determinada localidade qual a probabilidade de nao ficarem imunes a uma crianca b uma crianca ou mais c estruture a funcao de probabilidade e faca um grafico da distribuicao de probabilidade 26 Um grafologo diz que pode determinar o sexo de uma pessoa com base em sua letra Para testar tal afirmacao daose 15 pares de amostras de caligrafias a esse tecnico cada par sendo por um texto escrito por um homen e por uma mulher Se esse tecnico for na verdade incapaz de determinar seus julgamentos com base em palpites qual e a probabilidade de ele identificar corretamente a caligrafia masculina em 10 ou mais desses 15 pares 27 Um produtor de sementes afirma que apenas 5 das sementes que vende nao germi nam Um comerciante compra regularmente um lote de sementes desse produtor mas sob a seguinte condicao ele aceita o lote se em 10 sementes escolhidas ao acaso no maximo uma nao germinar caso contrario o lote todo e rejeitado a Se o produtor de fato tem razao qual a probabilidade de um lote ser rejeitado b Suponha que o produtor esteja mentindo isto e na verdade a proporcao de sementes que nao germinam e de 10 Qual a probabilidade de um lote ser aceito segundo o criterio acima 28 Verificouse que o numero de quebras cromossˆomicas em um roedor em qualquer perıodo de um dia num local poluıdo pode ser considerado como uma variavel aleatoria que tenha distribuicao de Poisson com parˆametro 01 Isto e em media havera uma quebra cromossˆomica a cada 10 dias Vamos supor que este roedor ficara 20 dias neste local poluıdo para experiˆencia a Qual a probabilidade de se encontrar menos de trˆes quebras cromossˆomicas b Qual a probabilidade de se encontrar mais de duas quebras cromossˆomicas 29 Em uma determinada regiao ocorre em media 1 geada a cada 5 anos Vamos definir X como sendo o numero de geadas nos proximos 5 anos a Qual e a probabilidade de ocorrˆencia de no maximo 1 geada nos proximos 5 anos b Qual e a probabilidade de ocorrˆencia de pelo menos duas geadas nos proximos 5 anos 30 Um agricultor tem duas alternativas para a venda de seu produto que e fornecido em lotes de 500 sacos de sementes certificadas cada a O comprador A que paga 800 um por saco e nao exige nenhum teste b O comprador B que para cada lote recebido retira 10 sacos ao acaso e os examina se todos os 10 estao dentro das especificacoes quanto ao poder germinativo paga 500000 um pelo lote se entre os 10 sacos houver um fora da especificacao paga 400000 um pelo lote 183 e se entre os 10 houver dois ou mais sacos fora das especificacoes paga apenas 250000 um pelo lote Sabendo o agricultor ser de 10 a porcentagem real de sacos fora da especificacao que produz qual a melhor alternativa para a venda de seu produto sugestao calcule o preco de venda esperado para cada alternativa 31 Um Engenheiro Agrˆonomo pode atender normalmente 4 estabelecimentos agrıcolas por dia Em media λ ele atende 3 estabelecimentos agrıcolas por dia Se o agrˆonomo tiver que atender mais de 4 estabelecimentos agrıcolas em um dia ele devera fazer horas extras para atender a essas solicitacoes Qual e a probabilidade do agrˆonomo ter que fazer horasextras Sendo λ 3 32 Um produtor de camaroes de aguadoce tratados com uma alimentacao especial deseja comparar o sabor proporcionado por esta nova alimentacao com o sabor produzido pela alimentacao tradicional A cada um de 4 provadores sao fornecidos 3 porcoes exata mente iguais em ordem aleatoria duas das quais com a alimentacao tradicional e a outra com alimentacao especial Cada um desses provadores e inquirido sobre a porcao que pref ere Suponha que essas duas formulas sejam igualmente saborosas Seja Y o numero de provadores que preferem camaroes tratados com alimentacao especial a Qual e a probabilidade de pelo menos 3 dos 4 provadores preferirem a formula nova b Calcule o valor esperado de Y 33 Um casal deseja ter 8 criancas Chamamos de X a variavel numero de filhos homens e que a probabilidade de nascer filho do sexo masculino ou feminino e de 50 para cada um responda a Verifique se esta situacao pode ser estudada pela distribuicao binomial atender as quatro suposicoes do modelo b Calcule a EX e DPX c Qual a probabilidade que nascam no mınimo 4 filhos homens d Faca um grafico onde no eixo Y sao as probabilidades probabilidade de zero sucesso 1 sucesso 8 sucessos e no eixo das abcissas vai o numero de filhos homens 34 O numero de partıculas gama emitidas por segundo por certa substˆancia radioativa e uma variavel aleatoria com distribuicao de Poisson com media nπ 3 Se um instrumento registrador tornase inoperante quando ha mais de 4 partıculas por segundo a Qual a probabilidade de isto acontecer em um dado segundo b Qual e o desvio padrao dessa variavel aleatoria 35 Uma fonte radioativa e observada durante 7 intervalos de tempo cada um de dez segundos de duracao O numero de partıculas emitidas X durante cada perıodo observado tem uma distribuicao de Poisson com parˆametro 5 a Qual e a probabilidade de quem em cada um dos 7 intervalos de tempo 4 ou mais 184 partıculas sejam emitidas b Qual e a probabilidade de que em cada um dos sete intervalos de tempo trˆes ou menos partıculas sejam emitidas c Qual e a probabilidade de que pelo menos um dos sete intervalos 4 ou mais partıculas sejam emitidas 36 Suponha que o registro metereologico mostra que em media 5 dos 30 dias do mˆes de novembro sao chuvosos a Supondo a distribuicao binomial com cada dia visto como uma prova independente encon tre a probabilidade de que no proximo mˆes de novembro no maximo 3 dias sejam chuvosos b Dˆe razoes para justificar o uso da distribuicao binomial na solucao de a 37 Um certo tratamento e capaz de imunizar 78 dos animais contra uma determinada doenca Uma nova amostra de 50 animais e testada Seja X o numero de animais que se tornarao imunes a Verifique se e um experimento binomial confronte as hipoteses do modelo com a situacao real b Qual e a EX c Qual e o DPX d qual e a PX 2 38 Numa campanha de vacinacao contra a aftosa um animal de cada 1000 vacinados nao fica imune a molestia Se forem vacinados 5000 animais qual a probabilidade de nao ficarem imunes a cinco animais b dois animais ou mais 39 Uma fonte mineral contem um numero medio de 4 bacterias por cm3 Dez tubos de ensaio de 1cm3 sao enchidos com este lıquido Supondo que a distribuicao de Poisson e aplicavel encontre a probabilidade a de que todos os 10 tubos de ensaio apresentem bacterias isto e contenham ao menos uma bacteria cada b que exatamente 8 tubos de ensaio apresentem bacterias 40 A experiˆencia mostra que somente 1 3 dos pacientes tendo certa doenca recuperase sob um tratamento padrao Uma nova droga promissora sera administrada a um grupo de 12 pacientes que tem a doenca Se a clınica requer que ao menos 7 dos pacientes se recuperem antes de aceitar a nova droga como o melhor tratamento qual e a probabilidade de que a droga seja desacreditada mesmo quando a taxa de recuperacao aumenta para 1 2 41 Considere uma anomalia metabolica que atinge aproximadamente 1 em cada 100 185 bebˆes Se 4 nascem em um hospital especıfico em certo dia qual e a probabilidade de a nenhum apresentar esse problema b nao mais de um apresentar esse problema Resolva o exercıcio pela distribuicao binomial e Poisson Compare os resultados 186 5 Modelos de Probabilidades para Medidas 51 Introducao Vamos ver agora como criar um modelo probabilıstico o que e uma funcao densidade de probabilidade fdp e como calcular probabilidades no caso de variaveis aleatorias contınuas De um modo geral podemos dizer que as variaveis aleatorias cujos os valores resultam de mensuracoes ou medicoes geralmente sao valores fracionarios sao variaveis aleatorias contınuas Exemplos rendimento de milho em Kgha diˆametro de Paepalanthus diˆametro de Biomphalarias altura de plantas etc Como foi tratado na subsecao 2138 para representar a distribuicao dos dados de variaveis aleatorias contınuas construımos um histograma Um exemplo de um histograma para a variavel aleatoria contınua altura de plantas de eucalipto e dado na figura 51a A construcao de modelos probabilısticos para variaveis aleatorias contınuas envolve a ideia da generalizacao do histograma isto e fazer o numero de classes tender para o infinito Fazendose o numero de classes tender para o infinito implica que os intervalos de classe tornamse extremamente pequenos podemos dizer ınfimos A forma do histograma sofre uma modificacao passando a apresentar uma curva suave ou seja uma linha contınua como o da figura 51b Esta curva contınua e a representacao grafica de uma funcao representada por fXx chamada de funcao densidade de probabilidade fdp equivalente as funcoes de probabilidades para variaveis aleatorias discretas Esta fXx e a expressao matematica do modelo probabilıstico para a variavel aleatoria quantitativa contınua X Na verdade a variavel aleatoria X define a curva ou seja o modelo Na figura 51a a area de um determinado retˆangulo indica a porcentagem de valores dentro daquela classe Se somarmos as areas de todos os retˆangulos chegaremos a 100 Na figura 51b a area total sob a curva equivale a 1 ou 100 e portanto a area entre dois pontos digamos x1 e x2 e a curva corresponde a probabilidade de se encontrar um valor entre aqueles pontos ou a proporcao de valores dentro daquele intervalo Ja foram construıdos muitos modelos teoricos para variaveis aleatorias contınuas o que devemos fazer e escolher aquele adequado para a variavel aleatoria em estudo A seguir apresentamos alguns exemplos de variaveis aleatorias contınuas com suas respectivas funcoes Exemplo 1 num estudo de radioatividade as cintilacoes que sao contagens seguem 187 069 087 105 057 093 075 081 099 063 a Histograma para a variavel aleatoria contınua altura de eu calipto b Histograma alisado curva contınua Figura 51 A variavel aleatoria contınua altura de plantas de eucalipto varia continuamente λ x 0 x f X Figura 52 Representacao grafica do modelo exponencial a distribuicao de Poisson Os instantes quando os nucleos se desintegram sao representa dos por t1 t2 t3 tn Em adicao os intervalos de tempo entre valores de t consecutivos t1 t2 e uma variavel aleatoria contınua e segue o modelo exponencial Definicao se a funcao densidade de probabilidade de uma variavel aleatoria X for definida da seguinte maneira fXx λeλx para x 0 0 para x 0 λ 0 dizemos que X tem distribuicao exponencial ou X segue o modelo exponencial com parˆametro λ o numero medio de ocorrˆencias igual a distribuicao de Poisson A representacao grafica desse modelo e dado na figura 52 Exemplo 2 num estudo de comportamento animal passaros sao libertados um de cada vez sob circunstˆancias que tornam difıcil a orientacao Esperase que os passaros escolham 188 fy x 1360 0 X1 X5 360 x Figura 53 Modelo de distribuigaéo da varidvel angulo graus diregoes aleatérias Estése medindo o angulo entre o norte e a direcao tomada pelo passaro no sentido horario azimute A diregao é dita aleatéria se cada azimute de 0 a 360 tem a mesma chance de ser escolhido Varidvel em estudo X angulo em graus Espaco amostral Q 2 RO x 360 Portanto podemos estabelecer o seguinte modelo para a varidvel angulo em graus X 1 aa para 0 2 360 fxx 4 360 P f 0 para outros casos A representacao grafica desse modelo é dada na figura 53 Definigao se a fungao densidade de probabilidade de uma variavel aleatéria X é dada por 1 py para axxb fxa4 0 para outros casos a b ambos reais dizemos que X tem distribuigao uniforme ou segue o modelo uniforme com parametros a e b A representacao grafica desse modelo é dada na figura 54 Continuando com o exemplo 2 podemos verificar que b fxxdx 1 189 fx x 1 a ba a 0 b Figura 54 Representacao grafica do modelo uniforme Resolvendo a integral da nossa funcaopara a 0 e b 360 obtemos 360 1 1 1 360 dr 23 360 0 1 9 360 360 360 360 A probabilidade da varidvel aleatéria estar dentro de um intervalo 2 x2 corresponde a area delimitada pelo intervalo e a curva da fungao Para sabermos a area usamos o calculo integral Por exemplo a probabilidade do Angulo estar entre 0 e 90 é dada por 90 90 1 1 1 1 90 1 PO x 90 d dz 90 99 Q SX S9I J 360 360 J 3007 360 360 4 Observe que a probabilidade de obter exatamente um determinado valor é zero Por exemplo 90 90 1 1 1 1 0 PX 90 dr dx x 90 90 0 360 360 T 365190 369 369 De modo geral dados dois nimeros x e 2 quaisquer a Px X 2 po Exemplo 3 A distribuigao de Weibull tem muitas aplicagdes em teoria da confiabilidade onde estudase sistemas e seus componentes por exemplo sistemas bioldgicos como o corpo humano Definicao se a funcao densidade de probabilidade de uma variavel aleatéria for dada por Bx8e para x 0 fxz 0 para 0 onde 3 é uma constante positiva dizemos que X tem distribuicao de Weibull ou segue o modelo de Weibull Os graficos para 1 e G 2 sao dados na figura 55 190 130 130 097 097 065 065 032 ae 032 000 000 050 100 149 199 050 100 149 199 a Distribuigaéo de Weibull para b Distribuigao de Weibull para B1 B2 Figura 55 A distribuicao de Weibull para G 1 eG 2 Como vimos obtemos a probabilidade de que a varidvel aleatoria X caia no intervalo 712 calculando a area entre x1 x2 e a curva e isso é feito através do calculo da integral da funcao fxx entre os pontos x e 2 entao x2 Ply X n feode Ly Atualmente temos softwares que calculam estas probabilidades Tabelas com as proba bilidades sao dadas nos apéndices deste livro Qual a probabilidade de uma medida de aglobulina ser exatamente igual a 0 86666 086666 PX 086666 fxade 0 086666 pois a area sob um ponto do eixo x é zero Nao ha contradicao nesse resultado pois é ex tremamente improvavel que X assuma esse valor particular Além do mais existem infinitos outros nimeros na vizinhanca de 086666 de tal forma que a probabilidade é tao pequena que tende a desaparecer Entao para varidveis aleatérias continuas tanto faz escrever Pay X 4 Pla X XQ Pla X 42 Play X 22 A seguir apresentamos de forma formal matematica a definicao de varidvel aleatéria continua Definigao dizse que X é uma varidvel aleatéria continua se existir uma fungao f de nominada fungao densidade de probabilidade fdp de X que satisfaca as seguintes condicées a fxx 0 para todo x naonegativa 191 00 b fxxdx 1 00 c para quaisquer x 4 com oO XZ Lg 00 teremos Px X x fxxdz ry Podese construir modelos tedricos probabilisticos para varidveis aleatérias escolhendo se adequadamente as funcoes densidades de probabilidades Teoricamente qualquer fungao f que seja naonegativa e cuja drea total sob a curva seja igual 4 unidade caracterizara uma varidvel aleatéria continua 52 A Média de Uma Variavel Aleatéria Continua Podemos estender todas as definigdes feitas para varidvel aleatéria discreta de modo equivalente as varidveis aleatérias continuas Se X é uma varidvel aleatéria continua definese a média de X como sendo 00 EX px ufxaxda A média de X também é conhecida como esperanca matematica e pode ser entedida como um centro de distribuicgao de probabilidade A expressao para a varidncia de varidveis aleatérias continuas é dada por 00 9 VarX 0 EX EX X EX fxxdax ou VarX 0 BX BX onde 00 EX x fxxdz O desvio padrao é dado por DPX ox VVarX Exemplo Determine a esperanga e a variancia da varidvel aleatéria X Angulo entre o norte e a direcéo tomada pelos passaros azimute em graus cuja fdp é dada por 1 Oa2x 360 fxa 4 0 caso contrario 192 00 360 4 Bx f vfxede weep de 1 7360 Ex xa xdx 360 Jo 1 2 EX 14360 360 2 1 360 EX 1 360 360 2 360 EX 180 Passamos agora para o calculo da variancia 360 EX dx x 360 138 ExX xa x dx 360 Jo 1 x E xX 360 1 360 Ex 360 3 360 EX EX 43200 51 Retornando temos que VarX 43200 180 VarX 10800 O desvio padrao vale 103 92 53 A Distribuigao Normal 193 242 258 274 290 306 322 339 355 Altura de plantas 0 1 2 3 4 5 6 7 8 9 10 Número de observações Figura 56 Distribuicao de frequˆencia da altura de plantas de Amaranthus em cm 531 Introducao O modelo normal ocupa uma posicao de grande destaque tanto a nıvel teorico como pratico isso porque o modelo normal representa com boa aproximacao muitos fenˆomenos da natureza como por exemplo a caracterıstica altura de plantas de Amaranthus cuja distribuicao de frequˆencia e dada na figura 56 Observe que existe uma tendˆencia das observacoes se concentrarem proximo do valor central ou seja da media da distribuicao e esta concentracao vai diminuindo a medida que os valores de altura vao aumentando e diminuindo ou seja existe baixa concentracao de plantas baixas assim como de plantas altas A distribuicao e aproximadamente simetrica isto e tomando a media como ponto central a lado esquerdo e aproximadamente igual ao lado direito Outra razao da importˆancia do modelo normal e que as distribuicoes amostrais de es tatısticas como medias e proporcoes podem ser aproximadas pela distribuicao normal isto e muito importante para o estudo de inferˆencia estatıstica Esses resultados serao vistos com mais detalhes no estudo de distribuicoes amostrais no proximo capıtulo O calculo de probabilidades das distribuicoes binomial e Poisson pode ser feito com boa aproximacao atraves da distribuicao normal A aproximacao da distribuicao binomial pela distribuicao normal sera vista na secao 534 A distribuicao normal surgiu a aproximadamente duas centenas de anos passados e de que forma Cientistas coletando um grande numero de observacoes de uma variavel 194 0 100 200 300 400 500 600 700 800 Figura 57 Distribuicao de frequˆencia em forma de sino 0 100 200 300 400 500 600 700 800 Função densidade de probabilidade Distribuição Normal Figura 58 Uma curva contınua que aproxima a distribuicao de frequˆencias observadas e construindo sua distribuicao de frequˆencia verificaram que repetidamente o histograma apresentava a forma da figura 57 A distribuicao de frequˆencias da figura 57 e conhecida como distribuicao em forma de sino Mais tarde esse fato foi transformado em termos matematicos isto e numa expressao matematica que representasse aqueles fenˆomenos de forma bem aproximada Esse modelo matematico pode ser visto na figura 58 Observase na figura 58 uma curva contınua simetrica em torno do seu ponto central isto e da sua media Costumase designar essa distribuicao por distribuicao Gaussiana devido ao seu criador Karl F Gauss 17771855 Em termos formais matematicos temos a seguinte definicao para variavel aleatoria contınua com distribuicao normal 195 x i i ws 68 UG HO Uto x Figura 59 A distribuigaéo normal com média ju e pontos de inflexéo pp o Definigao dizemos que uma varidvel aleatéria continua X tem distribuigao normal com parametros fi e a7 onde oo pp 00 e 0 o 00 representam a média e a variancia da populacgao X respectivamente se a sua funcao densidade de probabilidade for dada por fx 1 p cnet x erp 2 co 4 00 oV2r p onde e representa a base dos logaritmos naturais e vale aproximadamente 27182 7 3 1416 eo o desvio padrao Veja a fxx na figura 58 Costumase representar essa varidvel aleatéria por X N07 Podese demonstrar que 00 i EX ufxxdx p ti VarX EX EX o iii fxa ésimetrica ao redor de x pi isto é fuax ff2 para todo z Assim observamos que os dois parametros jz e 07 que caracterizam a distribuicdo normal sao a média e a variancia de X O desvio padrao é calculado a partir da variancia de X e vale DPX 0 Vo A distribuigéo normal fica completamente definida por dois parametros média 1 e desvio padrao a entao é facil perceber que para cada combinagao de uma média e um 196 µ µ196σ µ196σ 95 a Area de 95 na distribuicao normal µ µ258σ µ258σ 99 b Area de 99 na distribuicao normal Figura 510 Areas na distribuicao normal desvio padrao existe uma distribuicao normal Exemplos de possıveis variaveis com dis tribuicao normal podem ser pesos de bovinos pesos de frangos quantidades de chuva mm quantidades de αglobulina no plasma sanguıneo de pessoas comprimentos do ante braco de morcˆegos etc Portanto na pratica temos um numero ilimitado de distribuicoes normais O importante e que sob qualquer curva normal a area total e igual a 1 ou 100 Uma propriedade importante da distribuicao normal e que a porcentagem de observacoes posi cionados entre µ 1σ µ 1σ e a curva e igual a 68 ou seja a area e igual a 68 independentemente dos valores de µ e σ A figura 59 ilustra a situacao Tambem a por centagem de observacoes ou a area entre os pontos µ 1 96σ µ 1 96σ e a curva e igual a 95 Tambem a porcentagem de observacoes ou a area entre os pontos µ2 58σ µ2 58σ e a curva e igual a 99 Estas areas ou porcentagens independem dos valaores de µ e σ A ilustracao e dada na figura 510 Por exemplo suponha que a especie Harengula clupeola conhecida como sardinha cascuda distribuıda na Lagoa da Conceicao Florianopolis SC apresente crescimento medio igual a 75 mm com desvio padrao igual a 5 mm Assumindo que a variavel em estudo apresente distribuicao normal podemos esperar que aproximada mente 95 dos valores ou das especimes encontramse no intervalo 65284 Como a curva normal e simetrica em relacao a media temos que a probabilidade de obtermos um valor acima da media e 50 da mesma forma a probabilidade de obter um valor abaixo da media e 50 A probabilidade de uma variavel aleatoria com distribuicao normal tomar um valor entre 197 06 05 O04 03 o2 o1 00 X X5 x Figura 511 A probabilidade de x estar entre os pontos x1 e x2 e a curva corresponde a area achurada da figura dois pontos quaisquer por exemplo entre os pontos x1 e 2 6 igual a area sob a curva normal compreendida entre aqueles dois pontos Veja a figura 511 Suponha entao que X Nu 07 e queiramos determinar a probabilidade de X estar entre 71 e 2 portanto como estamos interessados em obter uma area devemos realizar o seguinte calculo 2 1 Pa X 22 e 20 dx x OV 20 Acontece que essa integral nao pode ser calculada exatamente conseqtientemente a prob abilidade s6 pode ser obtida aproximadamente e por métodos numéricos Podemos obter estas probabilidades com o uso de programas computacionais estatisticos entre os quais podemos citar o Statistica Minitab e o Statgraphics Para padronizar todas as distribuigdes normais numa tnica distribuicgéo e apresentar as probabilidades numa unica tabela foi realizado uma transformacao na varidvel aleatéria X originando uma nova variadvel aleatéria denominada de variavel aleatéria normal padronizada e representada pela letra Z cuja distribuicao denominase de distribuicdo normal padrao a qual passaremos a estudar 198 532 A Distribuicao Normal Padrao A transformacao realizada para padronizar as distribuicoes normais e feita tendo a media como origem referˆencia do novo sistema e o desvio padrao como medida de afastamento a contar da media ou seja a nova unidade de medida sera o desvio padrao isto e o quanto em desvios padroes o valor de X se afasta da media µ Esta nova escala e chamada de escala Z e e definida como sendo Z X µ σ onde Z numero de desvios padroes a contar da media X e a variavel na unidade original µ e a media da populacao σ e o desvio padrao da populacao Exemplo consideremos uma distribuicao normal com media µ 100 e desvio padrao σ 10 Para x 100 temos z 100 100 10 0 Para x 120 temos z 120 100 10 2 e assim por diante A figura 512 apresenta a distribuicao de X e de Z Definicao se X Nµ σ2 entao a variavel aleatoria Z definida por Z X µ σ tem uma distribuicao N0 1 isto e tem distribuicao normal com media µ 0 e variˆancia σ2 1 cuja funcao densidade de probabilidade e dada por fZz 1 2πe 1 2 z2 z A seguir fazemos a demonstracao do valor media e da variˆancia na distribuicao normal padrao Media e Variˆancia da Variavel Aleatoria Z 199 SN X 60 70 80 90 100 110 120 130 140 tp tpt pt 1 2 4 3 2 1 90 1 2 3 4 Média Lt Zz Esta observacao afastase 1 desvio padrao da média Figura 512 Distribuigao das varidveis X e Z Demonstracao Xp 1 1 1 EZ EEX pBXE f p 0 2 B 2X p SBX BW 0 VZ E2Z EZ EZ Xp 1 1 E 2X p SE X 2X 1 o o o 1 SIEX HEX 17 1 1 SEX 2 SBX BPI 1 a 533 O Uso da Tabela da Distribuigao Normal Padrao No apéndice 3 temos a tabela da distribuicao normal padrao Esta tabela da a area entre a média zero o valor de z e a curva isto é a tabela da a probabilidade de um valor cair no intervalo 0 a z Veja a figura 513 na qual a drea achurada corresponde a probabilidade A distribuigao normal padrao ou reduzida é absolutamente simétrica em relagao a média origem em fungao disso a tabela sé é dada para valores positivos de z Se o valor calculado de z for negativo basta considerdlo como positivo e entrar diretamente na tabela A dera 200 Figura 513 Distribuicao normal padrao A area achurada corresponde a probabilidade de uma observacao estar no intervalo 0z total vale 100 ou 1 assim acima de µ temos 50 da area e abaixo de µ temos os outros 50 A seguir vamos calcular probabilidades usando a tabela da distribuicao normal padrao Exemplo 1 Vamos determinar a area entre 0media e z125 isto e P0 z 1 25 O que desejamos saber e a area achurada da figura 514 Essa area corresponde a probabilidade P0 z 1 25 Na tabela encontramos para z 1 25 P0 z 1 25 0 3944 Exemplo 2 Qual a area entre 0 media e z 1 73 isto e a P0 z 1 73 O que desejamos e a area entre 0 e 173 e a curva da figura 515 Com o auxılio da tabela para z 1 73 temos P0 z 1 73 0 4582 Exemplo 3 Qual e a probabilidade de z estar entre 173 e 0 P1 73 z 0 Como a curva da distribuicao normal padrao e absolutamente simetrica essa probabilidade pode ser obtida calculandose a P0 z 1 73 Como vimos no exemplo 2 essa probabilidade vale 04582 Exemplo 4 Qual e o valor de Pz 1 73 Essa probabilidade corresponde a area achurada da figura 516 A area da metade da curva normal vale exatamente 50 logo a area alem de z e 50 menos o valor tabelado de z173 entao Pz 1 73 0 50 P0 z 1 73 0 50 0 4582 0 0418 Exemplo 5 Qual e a probabilidade de z estar entre 1 e 1 P1 z 1 A area achurada da figura 517 indica essa probabilidade P1 z 1 P0 z 1 P0 z 1 201 Figura 514 P0 z 1 25 0 3944 Figura 515 P0 z 1 73 0 4582 202 Figura 516 Pz 1 73 Figura 517 P1 z 1 203 4 3 2 1 a 1 2 3 4 Walores padranizados Figura 518 P1 z 3 2P0z1 203413 06826 Exemplo 6 Qual é a probabilidade de z estar entre 1 e 3 P1 z 3 Essa probabilidade corresponde a area achurada da figura 518 Piz3 POz3P02z1 04986 0 3413 01573 Exemplo 7 Suponha que X seja uma variavel aleatéria com distribuigao normal de média pi 3 e variancia o 16 e desejamos calcular a P2 X 5 O primeiro passo é calcularmos a varidvel z 2 X P2X 5 p 228 Sah 2 a a a Pp 23 o3 4 4 1 1 Pz Fses5 Portanto P025205 P0Oz025 P0O z 050 00987 01915 0 2902 204 4 4 NY LLL LLL Di ttt ttt std y Y a Distribuigaéo de uma varidvel bino b Distribuigdéo normal como aprox mial de média 5 imacao da binomial Figura 519 Aproximagao normal a distribuigao binomial 534 A Distribuigao Normal como Aproximagao da Distribuigao Binomial Muitas situacoes reais podem ser convenientemente descritas pelo modelo binomial Acontece que quando o numero de repetigdes do experimento n for muito grande para se calcular as probabilidades binomiais sao necessarios calculos extensos e aS vezes SO mente é possivel a resolugcao com o uso de computadores Para n suficientemente grande e m nao préximo de 0 zero e de 1 um obtémse boas aproximagoes da normal a binomial Para saber se a aproximacao é boa uma sugestao é verificar se nt 5 e n17 5 Como o modelo normal é para varidvel aleatoria continua pensar em intervalo en quanto o modelo binomial é para varidvel aleatéria discreta podese melhorar a aproximagao fazendose um pequeno ajuste chamado de correcao de continuidade que consiste em sub trair eou somar 12 aos valores da varidvel aleatéria discreta Mostraremos o procedimento através de um exemplo Exemplo Consideremos a varidvel aleatéria Y 610 12 isto é temos uma varidvel aleatéria binomial com parametros n 10 e a 12 e desejamos calcular P8 Y 10 a figura 519 mostra a distribuigao de Y e a curva normal respectivamente Observe na figura 519b a compensacao de pequenas areas que ocorre fazendose a correcao de continuidade ou seja os retangulos possuem base unitdria um com ponto médio por exemplo igual a 8 assim a base do retangulo vai de 75 a 85 Chamando X a varidvel com distribuigao normal temos pissv i Pgsx i05P So Dom 205 onde nz e n717 sao a média e 0 desvio padrao da distribuigdéo binomial e valem nm 10050 50 e 100 500 50 1 58113 respectivamente Logo 75 50 105 50 P z P1 5811 z 3 4785 0 499750 44295 San 2x 158113 15811 z 34785 0 499750 44295 0057 Resolvendo o problema pela distribuicgao binomial obtemos P8Y 10 0044 0010 0001 0055 Observamos que os dois resultados sao bem proximos mesmo com n pequeno porém 7 0 50 Para verificarmos em que condigoes a aproximacao da binomial pela normal é bastante satisfatéria foram calculadas as probabilidades pelos dois modelos combinandose diversos valores de n e de 7 Os resultados sao mostrados na tabela 51 Exercicios resolvidos 1 O comprimento em cm de Pnnaeus schmitti camarao marinho em condig6es nor mais no estudrio Lagoa do Ibiraquera tem distribuigéo aproximadamente normal com média de 60 cm e variancia de 02 cm a Qual o intervalo simétrico em torno da média que conteré 75 dos comprimentos dos camaroes b Qual o valor de comprimento c que é superado por 7 dos valores Do problema temos que w60 0 02 o 04472 Com o auxilio de um programa estatistico ou com a tabela da distribuicéo normal padrao para PZ Z Zy 75 simétrico em torno de Z obtemos Z 1 150349 e Z2 1 150349 Portanto X 6 1150349 X 5 4856 0 4472 X6 1150349 X65144 0 4472 a b Para uma probabilidade de 43 507 obtemos na tabela da distribuigao normal padrao aproximadamente z 148 Portanto c6 148 c666 v02 Assim 7 dos camaroes maiores tem comprimento igual ou superior a 666 cm 206 Tabela 51 Aproximagao da distribuigao binomial pela distribuigéo normal variando o tamanho da amostra n e as probabilidades 7 50 001 050 070 09984 09224 00000 00000 00000 00000 00000 00000 00000 50 005 250 154 07604 07160 00032 00006 00000 00000 00000 00000 00000 50 010 500 212 02503 02350 01211 01191 00000 00000 00000 00000 00000 50 030 1500 324 00000 00002 02156 02099 00122 00103 00000 00000 00000 50 050 2500 354 00000 00000 00002 00002 05201 05205 00002 00002 00000 50 060 3000 346 00000 00000 00000 00000 02179 02201 00132 00150 00000 50 075 3750 306 00000 00000 00000 00000 00010 00005 04657 04488 00005 50 093 4650 180 00000 00000 00000 00000 00000 00000 00220 00133 05327 50 097 4850 121 00000 00000 00000 00000 00000 00000 00001 00000 09372 100 001 100 099 09816 09282 00000 00000 00000 00000 00000 00000 00000 100 005 500 218 02578 02398 00000 00000 00000 00000 00000 00000 00000 100 010 1000 300 00078 00149 00099 00062 00000 00000 00000 00000 00000 100 030 3000 458 00000 00000 00457 00477 00001 00001 00000 00000 00000 100 050 5000 500 00000 00000 00000 00000 03827 03829 00000 00000 00000 100 060 6000 490 00000 00000 00000 00000 00580 00575 00001 00002 00000 100 075 7500 433 00000 00000 00000 00000 00000 00000 02487 02402 00000 100 093 9300 255 00000 00000 00000 00000 00000 00000 00002 00000 00744 100 097 9700 L71 00000 00000 00000 00000 00000 00000 00000 00000 06472 200 001 200 141 08580 08190 00000 00000 00000 00000 00000 00000 00000 200 005 1000 308 00090 00171 00000 00000 00000 00000 00000 00000 00000 200 010 2000 424 00000 00000 00001 00000 00000 00000 00000 00000 00000 200 030 6000 648 00000 00000 00026 00032 00000 00000 00000 00000 00000 200 050 10000 707 00000 00000 00000 00000 02762 02763 00000 00000 00000 200 060 12000 693 00000 00000 00000 00000 00055 00052 00000 00000 00000 200 075 15000 612 00000 00000 00000 00000 00000 00000 00906 00897 00000 200 093 18600 361 00000 00000 00000 00000 00000 00000 00000 00000 00003 200 097 19400 241 00000 00000 00000 00000 00000 00000 00000 00000 01472 500 001 500 222 02636 02434 00000 00000 00000 00000 00000 00000 00000 500 005 2500 487 00000 00000 00000 00000 00000 00000 00000 00000 00000 500 010 5000 671 00000 00000 00000 00000 00000 00000 00000 00000 00000 500 030 15000 1025 00000 00000 00000 00000 00000 00000 00000 00000 00000 500 050 25000 1118 00000 00000 00000 00000 01769 01769 00000 00000 00000 500 060 30000 1095 00000 00000 00000 00000 00000 00000 00000 00000 00000 500 075 37500 968 00000 00000 00000 00000 00000 00000 00072 00078 00000 500 093 46500 571 00000 00000 00000 00000 00000 00000 00000 00000 00000 500 097 48500 381 00000 00000 00000 00000 00000 00000 00000 00000 00002 1000 001 1000 315 00101 00190 00000 00000 00000 00000 00000 00000 00000 1000 005 5000 689 00000 00000 00000 00000 00000 00000 00000 00000 00000 1000 010 10000 949 00000 00000 00000 00000 00000 00000 00000 00000 00000 1000 030 30000 1449 00000 00000 00000 00000 00000 00000 00000 00000 00000 1000 050 50000 1581 00000 00000 00000 00000 01256 01256 00000 00000 00000 1000 060 60000 1549 00000 00000 00000 00000 00000 00000 00000 00000 00000 1000 075 75000 1369 00000 00000 00000 00000 00000 00000 00002 00002 00000 1000 093 93000 807 00000 00000 00000 00000 00000 00000 00000 00000 00000 1000 097 97000 539 00000 00000 00000 00000 00000 00000 00000 00000 00000 207 2 O didmetro de certa espécie de Arvore é uma varidvel aleatéria com distribuigéo normal de média 50 cm e desvio padrao de 6 cm Se o didmetro de uma arvore diferir da média de mais de 10 cm esta arvore é vendida por 10 um caso contrario é vendida por 20 um Qual o preco médio de venda de cada arvore Do problema temos que b50cm oc 6cm A probabilidade de uma arvore diferir mais do que 10 cm da média populacional é PX 60 cm PX 40cm PZ PZ a PZ 167 PZ 167 2PZ 167 205 P0 Z 167 205 0 45254 009492 A probabilidade de uma 4rvore apresentar diametro entre 40 e 60 cm é 1009492090508 Portanto 0 preco médio de venda de cada arvore é EX 10 x 009492 20 x 090508 09492 1811 1905 3 Os ovos da produgao de uma granja sao classificados em grande ou pequenos conforme seu diametro Verificouse que 45 dos ovos sao considerados grandes Supondo que os ovos sao colocados em caixas de 60 aleatoriamente perguntase a Em que porcentagem de caixas teremos pelo menos 50 de ovos grandes 50 é igual a 30 ovos b Em que porcentagem de caixas teremos exatamente 50 de ovos grandes Sendo am045 n60 na 045 x 60 27 O desvio padrao do numero de ovos por caixa é dado por Vnr1 7 60 x 045 x 055 3 85356 ovos a Usando aproximagao normal a binomial a probabilidade de uma caixa conter 30 ou mais ovos vale 295 27 PY 30 PX 295 PZ 3 85356 PZ065 05P0 Z 065 05 0 24215 0 25785 208 b A probabilidade de encontrarmos exatamente 30 ovos é 295 27 305 27 PY 30 P295 X 305 P Z 295 X 305 3 85356 3 85356 P065 Z091 031859 0 24215 00764 4 Sabese que a probabilidade de um individuo inoculado contra um surto de gripe vir a ter uma reacao séria idesejavel é de 005 Usando a aproximcao normal a distribuigao bino mial calcule a probabilidade de que mais de 16 individuos dentre 200 individuos inoculados tenham tais reacoes Com as informacoes do problema temos que mw 005 n 200 nm 200 x 005 10 n1 7 200 x 095 190 Vnz1 7 30822 A probabilidade de que mais de 16 individuos tenham reacoes é 165 10 PY 16 PY 17 PX 165 PZ PZ 21089 05 0 48257 00174 174 535 Exercicios propostos 1 Determinar a Area limitada pela curva normal em cada um dos casos abaixo a entre z0 e z12 b entre z068 e z0 c entre z046 e z221 d entre z081 e z194 e a esquerda de z06 f a direita de z123 g a direita de z205 e a esquerda de z144 h entre z1 e z1 i entre z196 e z196 j entre z256 e z256 209 2 A altura dos indivıduos de uma populacao distribuise normalmente com media de 156 m e desvio padrao de 009 m Qual a percentagem nesta populacao de indivıduos com altura de 180 m ou mais 3 O peso medio das reses que se encontram num curral de uma determinada fazenda e de 200 kg e o desvio padrao e de 10kg Em 120 animais retirados ao acaso do curral quantos pesarao mais de 185 kg Vamos considerar que o peso das reses tenha distribucao normal 4 Foi feito um estudo sobre a altura de plantas de milho de certo hıbrido observandose que ela se distribui normalmente com media 220 m e desvio padrao de 020 m Qual a porcentagem de plantas com altura aentre 215m e 225m bentre 200m e 240m cacima de 230m 5 Em indivıduos sadios o consumo renal de oxigˆenio tem distribuicao normal de media 12 cm3min e desvio padrao 15 cm3min a Determinar a proporcao de indivıduos sadios com consumo inferior a 10 cm3min su perior a 8 cm3min entre 94 e 132 cm3min igual a 116 cm3min b Determinar o valor do consumo renal que e superado por 985 dos indivıduos sadios c Determinar uma faixa simetrica em torno do valor medio que contenha 90 dos valores do consumo renal 6 A observacao dos pesos X de um grande numero de espigas de milho mostrou que essa variavel e normalmente distribuıda com media µ 90g e desvio padrao σ 7g Num pro grama de melhoramento entre outras caracterısticas uma cultivar deve satisfazer a condicao 78 X 104g onde X e a variavel aleatoria peso da espiga Nessas condicoes tendo se 100 linhagens perguntase a Qual a proporcao de linhagens que devera ser aceita b Qual o numero de linhagens que continuara participando do programa de melhoramento 7 Suponha que o conteudo de bacterias de um tipo particular presentes em um recipi ente de agua de 1 mililitro tenha distribuicao aproximadamente normal com media de 85 bacterias e desvio padrao de 9 bacterias Qual a probabilidade de uma dada amostra de 1ml conter mais de 100 bacterias 8 A distribuicao dos pesos de coelhos criados numa granja pode muito bem ser repre sentado por uma distribuicao normal com media de 5 kg e desvio padrao de 08 kg Um abatedouro comprara 5000 coelhos e pretende classificalos de acordo com o peso do seguinte modo 20 dos leves como pequenos os 55 seguintes como medios os 15 seguintes como grandes e os 10 mais pesados como extras Quais os limites de peso para cada classificacao 9 Num povoamento florestal de distribuicao aproximadamente normal dos diˆametros a 210 altura do peito DAP a média é de 162 cm e 0 desvio padrao é de 34 cm Determinar o valor D tal que tenhamos PDAP D 5 10 Suponha que a varidvel diametro de Paepalanthus tenha distribuigaéo normal com média 10mm e variadncia 4mm a Qual é a probabilidade de um Paepalanthus aleatoriamente retirado dessa populagao ter diametro maior que 14 b Se dois Paepalanthus forem selecionados aleatoriamente dessa populacao qual é a prob abilidade de ambos serem maiores que 14 11 Num povoamento florestal temos uma distribuigao aproximadamente normal dos diametros a altura do peito DAP das arvores com média de 126 cm e desvio padrao de 31 cm Se cortarmos todas as arvores de menos de 15 cm de didmetro qual a porcentagem de arvores que restarao de pé 12 Uma maquina de empacotar determinado produto apresenta variagoes de peso com desvio padrao de 20 g Em quanto deve ser regulado 0 peso médio do pacote para que apenas 10 tenham menos de 400 g 13 O peso bruto de latas de conserva é uma varidvel aleatéria com média 1000 gramas e desvio padrao 20 gramas As latas tem peso médio de 100 gramas e desvio padrao de 10 gramas também com distribuigao normal a Qual a probablidade de uma lata conter menos de 850 gramas de peso liquido b Qual a probabilidade de uma lata conter mais de 920 gramas de peso liquido OBS Considere X como sendo o peso bruto e Y como sendo o peso da lata Como X e Y sao independentes a VARX Y VARXVARY e0 DPXY VARX Y assim DPX Y 223606 14 As vendas de sementes de milho tem distribuigéo aproximadamente normal com média 500 sacos e desvio padrao 50 sacos Se a empresa decide produzir 600 sacos no més em estudo qual é a probabilidade de que nao possa atender a todos os pedidos do més por estar com a produgao esgotada 15 Se X é uma varidvel aleatéria N95 5625 determinar 6 tal que a PX b 0975 e b PX b 03708 16 Sabese que 0 comprimento de pétalas de uma populagao de plantas da espécie X é normalmente distribuida com média pp 32cm eo 18cm Qual a proporgao na populacao é esperada ter um comprimento de pétalas a maior do que 4 5cm bentre 29 e 36cm 211 c Determinar o valor do comprimento de petalas que e superado por 65 das plantas 17 Suponha que a altura em cm de uma cultivar de trigo e normalmente distribuıda com media de 100cm Se um melhorista exige que ao menos 90 das plantas tenham altura superior a 80cm qual o maior valor que σ pode assumir satisfazendo as exigˆencias do melhorista 18 Em um exame de estatıstica a nota media foi 70 com σ 4 5 Todos os alunos que obtiveram nota 75 a 89 receberam conceito B Se as notas tˆem distribuicao aproximadamente normal e se 10 estudantes obtiveram conceito B quantos se submeteram ao exame 19 Uma enchedora automatica de garrafas de vinho esta regulada para que o volume medio de lıquido em cada garrafa seja de µ 1000cm3 e o desvio padrao σ 10cm3 Podese admitir que a distribuicao da variavel seja normal a Qual a porcentagem de garrafas em que o volume de lıquido e menor que 990cm3 b Qual a porcentagem de garrafas em que o volume de lıquido nao se desvia da media em mais que dois desvios padroes em ambos os lados c O que acontecera com a porcentagem do item b se a maquina for regulada de forma que a media seja 1200cm3 e o desvio padrao 20cm3 Explique 20 A observacao dos pesos X de um grande numero de espigas de milho mostrou que essa variavel e normalmente distribuıda com media µ 90g e desvio padrao σ 7g Num programa de melhoramento entre outras caracterısticas uma cultivar deve satisfazer a condicao 78 X 104g onde X e a variavel aleatoria peso da espiga Nessas condicoes tendose 100 linhagens perguntase a qual a proporcao de linhagens que devera ser aceita b qual a proporcao de linhagens que devera ser rejeitada c qual o numero de linhagens que continuara participando do programa de melhoramento 21 Sabese que o peso medio em arrobas de abate de bovinos e normalmente dis tribuıdo com media 18 e variˆancia 225 Um lote de 5000 cabecas com essa caracterıstica foi destinado ao frigorıfico que abate so a partir de um peso mınimo w Supondo que foram abatidas apenas 4200 cabecas a qual o numero esperado de bovinos com peso entre 17 e 19 b qual o valor w c qual a Pw X µ 22 Suponha que os diˆametros de Paepalanthus sejam distribuıdos com media 12cm e desvio padrao 5cm Um Paepalanthus e considerado pequeno se seu diˆametro for menor que 4cm ou grande se seu diˆametro for maior que 19cm a Encontre a porcentagem de Paepalanthus considerados pequenos e grandes 212 b Quinze por cento dos Paepalanthus maiores sao classificados como grandes Encontre o diˆametro mınimo para ser classificado como grande 23 O tempo de validade de um princıpio ativo de um determinado inseticida tem dis tribuicao normal de media 803 dias e variˆancia 1581dias2 Determinar a probabilidade de validade deste inseticida a antes de 750 dias b entre 700 e 900 dias c depois do tempo medio 24 A distribuicao das relacoes alturacomprimento de conchas de mexilhoes Perna perna num ambiente de costao batido pode ser representada por uma distribuicao aproximada mente normal com media de 05 e desvio padrao de 002414 Um pesquisador pretende classificalos de acordo com a relacao acima do seguinte modo 25 dos mais leves como pe quenos os 50 seguintes como medios e os 25 restantes como grandes Quais os valores de alturacomprimento que classificam os mexilhoes como sendo pequenos medios e grandes 25 O comprimento do corpo de um animal da especie X segue uma distribuicao normal com media µ e desvio padrao σ 10mm a De quanto deve ser o comprimento medio do corpo µ para que apenas 10 dos animais tenham menos do que 500 mm b Com o comprimento medio µ obtido no item a qual a probabilidade de que o compri mento total de 4 animais escolhidos ao acaso seja inferior a 2000 mm 26 Uma maquina automatica para encher sacos de sementes de milho hıbridos esta regulada para que o peso medio de sementes em cada saco seja de 20Kg e o desvio padrao 0 2Kg Podese admitir que a distribuicao da variavel seja normal a Qual a porcentagem de sacos em que o peso de sementes nao se desvia da media em mais que dois desvios padroes b O que acontecera com porcentagem do item a se a maquina for regulada de forma que a madia seja 30Kg e o desvio padrao 0 30Kg c Qual a probabilidade de encontrar um saco com mais de 20 5Kg 27 O diˆametro de certa especie de arvore e uma variavel aleatoria com distribuicao normal de media 40cm e desvio padrao 5cm Se o diˆametro de uma arvore diferir da media de mais de 8cm esta arvore e vendida por 10um caso contrario e vendida por 20um a Qual o preco medio de venda de cada arvore b Qual e probabilidade de encontrar uma arvore com diˆametro entre 35cm e 45cm 28 Uma maquina de encher sacos de sementes de milho hıbridos pode ser regulada de modo a descarregar uma media de µKg de sementes por saco Admitindo que a quntidade 213 em Kg necessaria para encher um saco de sementes tenha distribuicao normal com desvio padrao de 0 3Kg por saco calcule o valor de µ de modo que sacos com mais de 22Kg ocorram apenas 1 das vezes 29 Numa especie de planta por exemplo a Grevilha robusta a altura das plantas tem distribuicao aproximadamente normal com desvio padrao de 4m e tal que 20 das plantas possuem alturas inferiores a 10m a Calcule a proporcao de arvores com altura superior a 18m b Nesta populacao qual e um valor da altura A cuja probabilidade de se encontrar uma arvore com altura maior ou igual a A seja de 10 isto e Paltura A 10 30 Num povoamento florestal considere que X a medida do diˆametro a altura do peito DAP tenha distribuicao normal aproximadamente com media µ 16 2cm e variˆancia σ2 11 56cm2 Tomandose ao acaso uma arvore do povoamento perguntase qual a probabilidade do DAP da arvore selecionada casualmente ser a menor que 196cm b entre 140 e 160cm c qual o valor de DAP que e superado por 10 dos valores Exercıcios Sobre Aproximacao Normal a Binomial 31 De um lote de sementes extraımos uma amostra de 100 sementes ao acaso se 10 das sementes do lote nao germinam calcular a probabilidade de 12 sementes da amostra nao germinarem 32 De um pomar de pessegueiros sao colhidos 2000 frutos se a probabilidade de um fruto colhido ser classificado como ideal para a industria de conservas e de 045 qual a probabilidade de 950 ou mais pˆessegos obterem a classificacao ideal 33 Dois pesquisadores desenvolveram a tecnica do transplante nuclear segundo a qual um nucleo de uma celula de um dos ultimos estagios de um embriao e transplantado para um zigoto celula unica o ovulo fertilizado para se verificar se o nucleo pode desenvolverse normalmente Se a probabilidade de que um transplante singelo seja bem sucedido e de 065 qual e a probabilidade de mais de 70 transplantes em 100 obterem sucesso 34 Para comparar a producao de duas cultivares A e B de uma determinada especie vegetal foram plantadas 60 areas de terras de 5 3 15m2 separadas em pares 30 pares segundo a fertilidade do solo isto e existe homogeneidade da fertilidade dentro do par entre os pares ha diferenca de fertilidade Uma area de cada par recebeu a cultivar A e a outra 214 Fertilidade B A B A A B A B Par 1 Par 3 Par 30 Par 2 Figura 520 Projeto experimental para comparacao de duas cultivares area do par recebeu a cultivar B Dentro de cada par foi feito um sorteio para saber qual a area que receberia a cultivar A e a B respectivamente Veja figura 520 As producoes nas 60 areas 30 pares das cultivares foram anotadas sendo que em 19 pares a cultivar A apresentou uma maior producao do que a cultivar B Se nao ha qualquer diferenca entre as duas cultivares quanto a producao isto e o fato da cultivar A produzir mais do que a B ou a cultivar B produzir mais do que a A e aleatoria casual Nesse caso a probabilidade p de que a producao de uma cultivar de um par seja maior que a producao de uma cultivar de um par seja maior que a producao da outra cultivar sera de 050 a Calcular a probabilidade desse resultado em 19 pares a cultivar A teve maior producao ter ocorrido por acaso Use a aproximacao normal a binomial b Caso essa probabilidade for menor ou igual a 5 considerase que essse resulatdo obtido no experimento indica que a cultivar A e realmente mais produtiva que a cultivar B Qual a sua conclusao 35 Dez por cento dos pes de milho que foram inoculados contra um certo vırus tiveram reacoes serias indesejaveis devido a inoculacao Calcule a probabilidade de que mais de 20 pes de milho dos 150 pes inoculados tenham tais reacoes 215 6 Introducao a Inferˆencia Estatıstica 61 Introducao Na secao 11 foi dito que um curso basico de estatıstica deve contemplar de forma esquematica os seguintes assuntos Analise Exploratoria de Dados Modelos Probabilısticos Amostragem e Inferˆencia Estatıstica Esquematicamente isso foi ilustrado na figura 12 Agora nos vamos ver como reunir a Analise Exploratoria de Dados Modelos Proba bilısticos e Amostragem para podermos desenvolver um estudo importantıssimo dentro da estatıstica conhecido pelo nome de Inferˆencia Estatıstica isto e como tirar conclusoes so bre parˆametros da populacao por exemplo sobre medias µ proporcoes π variˆancias σ2 com base no estudo de somente uma parte da populacao ou seja com base em uma amostra Veja figura 61 Uma populacao em estatıstica e formada por todos os valores possıveis de uma caracterıstica desejavel Esses valores nao precisam ser todos diferentes nem um numero finito Exemplos de populacoes 1 todos os valores possıveis da producao de milho em quilogramas por hectare kgha 2 todos os pesos ao nascer de coelhos da raca gigante em gramas 3 todos os valores de diˆametros de Biomphalarias do Pocao do Corrego Grande 4 todos os valores de micronucleos de roedores de uma regiao poluıda Por outro lado uma amostra e uma parte subconjunto da populacao Exemplos de amostras 1 os rendimentos de milho em kgha de uma amostra de 5 unidades experimentais canteiros 2 os pesos ao nascer de uma ninhada de coelhos da raca gigante 3 os diˆametros de uma amostra de 30 Biomphalarias do Pocao do Corrego Grande 4 os valores de micronucleos de uma amostra de 25 roedores Num experimento obtemos alguns dados experimentais amostra atraves do uso de repeticoes dos tratamentos e generalizamos os resultados para todos os experimentos simi lares populacao conceitual A figura 62 ilustra o processo de generalizacao numa situacao experimental Em inferˆencia estatıstica utilizamos uma notacao propria para diferenciar medidas usadas para descrever caracterısticas da amostra e da populacao Uma estatıstica e uma medida usada para descrever uma caracterıstica da amostra As sim por exemplo X a media da amostra S o desvio padrao da amostra e P a proporcao da amostra sao estatısticas Por outro lado um parˆametro e uma medida usada para descrever uma caracterıstica da populacao Geralmente sao representados por letras gregas assim por exemplo µ representa a media populacional π representa a proporcao populacional e σ representa o desvio padrao 216 População Amostra INFERÊNCIA ESTATÍSTICA Plano de Amostragem Figura 61 O raciocınio indutivo da inferˆencia estatıstica Alguns dados experimentais Um experimento Todos os experimentos similares Todos os valores possíveis População X S Generalizações σ µ Figura 62 O processo de generalizacao com experimentos 217 populacional Quando uma estatıstica assume um determinado valor temos o que denominase de estimativa Temos os dados de uma particular amostra calculamos o valor da estatıstica de interesse este valor e a nossa estimativa Por exemplo a estimativa da producao media por planta da cultivar Gala e de x 84 kgplanta Outro exemplo a estimativa da proporcao de peixes com comprimento total menor do que 50 mm e p 46 Um resumo da notacao utilizada e apresentada no quadro a seguir Notacao utilizada para representar parˆametros estatısticas ou estimadores e estimativas Caracterıstica Parˆametros Estatısticas ou Estimadores Estimativas Media µ X x Proporcao π P p Variˆancia σ2 S2 s2 Desvio padrao σ S s Os dois problemas basicos da inferˆencia estatıstica sao Estimacao e Testes de Hipoteses Vamos atraves de um exemplo ilustrar estas duas situacoes Exemplo um pesquisador esta interessado em avaliar a producao media por planta µ da cultivar de maca denominada Gala para as seguintes condicoes plantas com idade de aproximadamente 5 anos em bom estado fitossanitario cultivadas com alta tecnologia e para a regiao I do zoneamento agroclimatico de Santa Catarina A populacao e formada por todas as plantas da cultivar Gala nas condicoes citadas Mais especificamente a populacao e constituıda por todos os valores de producao por planta Para essa finalidade o pesquisador vai coletar uma amostra aleatoria de por exemplo 10 plantas6 da referida cultivar nas condicoes descritas Uma amostra de valores de producoes por planta em kg foi Plantas 1 2 3 4 5 6 7 8 9 10 Media x Desvio padrao s Producao 84 82 90 86 80 91 85 79 81 82 84 40552 Com os 10 valores de producaoplanta podemos calcular uma estimativa da producao media verdadeira por planta x 84 kg Portanto estamos usando a media da amostra X como estimador da media verdadeira µ Essa estimativa e chamada de estimativa pontual pois origina um unico valor Esse e um raciocınio tipicamente indutivo onde se parte do particular amostra para o geral populacao Esse e um exemplo de problema de estimacao Um fato importante que se observa quando trabalhamos com amostras e que sempre vamos ter que a media verdadeira µ e igual a media na amostra X mais um erro de 6O tamanho da amostra deve ser determinado com o auxılio da estatıstica 218 Tabela 61 Producao por planta em Kg de macas das cultivares Gala e Golden Plantas Variedades 1 2 3 4 5 6 7 8 9 10 Media x Desvio padraos Gala 84 82 90 86 80 91 85 79 81 82 840 406 Golden 95 102 85 93 104 89 98 99 107 106 978 732 amostragem A representacao disso e dada por µ X erro amostral onde o termo erro amostral e a diferenca entre a estatıstica X e o parˆametro µ Apesar do nome erro isto nao quer dizer que a amostragem foi feita de forma errada e que portanto devese coletar uma nova amostra Esse valor pode ser negativo ou positivo pequeno nulo ou grande Em todas as pesquisas vamos estar envolvidos com o erro amostral Dizemos que uma estimativa e precisa se tivermos alto grau de confianca de que o erro amostral associado a estimativa em questao e pequeno A precisao e a confianca sao dois conceitos chaves nesse estudo A precisao pode ser entendida como a diferenca maxima entre a estimativa e o parˆametro que o pesquisador deseja considerar no seu estudo Voltaremos a tratar deste assunto posteriormente Uma outra forma de estimacao e atraves da construcao de intervalos de confianca Nesse caso temos uma estimativa intervalar isto e temos um intervalo dentro do qual esperamos que o valor populacional se encontre Por exemplo para os dados de producaoplanta da cultivar Gala ao inves de dizer que a estimativa e de 84 kgplanta podemos dizer que a media esta no intervalo de 8110 a 8690 Essa forma de estimacao e muito mais informativa que a estimativa pontual O pesquisador pode verificar se esse intervalo e curto preciso informativo ou se e muito amplo pouco informativo Isto sera estudado no capıtulo 7 O segundo problema e o de teste de hipoteses sobre os parˆametros Por exemplo um pesquisador deseja saber se a producao mediaplanta da cultivar Gala e a mesma da producao mediaplanta da cultivar Golden Para isso foi obtida uma outra amostra aleatoria de 10 plantas da cultivar Golden sob as mesmas condicoes descritas para a cultivar Gala Os dados das duas amostras aleatorias estao apresentadas na tabela 61 As estimativas da producao media das duas cultivares calculadas com os dados das duas amostras foram 84 Kgplanta e 978 kgplanta para as cultivares Gala e Golden respectiva mente Portanto a diferenca verificada entre as duas cultivares com essas duas amostras foi de 138 kgplanta a favor da cultivar Golden 219 Observandose os dados individualmente verificamos que para as plantas 3 e 6 as producoes na cultivar Gala foram superiores a da Golden Portanto podemos pensar que e perfeitamente possıvel obtermos um par de amostras dentre todas as amostras possıveis de serem sorteadas no qual a producao media da cultivar Gala e superior a da Golden Isso devido simplesmente a amostragem ou seja variacoes devido a amostragem Assim o problema que se apresenta e o de decidir o que e uma diferenca real isto e devido a cultivar ou uma diferenca casual isto e devido a variacao casual na amostra Este topico sera estudado no capıtulo 8 Logicamente o pesquisador pretende generalizar os resultados obtidos na analise es tatıstica isto e ele deseja saber se ha diferenca significativa entre as medias verdadeiras µGala e µGolden desconhecidas pelo pesquisador Como ele esta trabalhando com duas amostras aleatorias dentre um grande numero de possıveis amostras ele nao pode fazer afirmacoes com 100 de certeza mas ele pode perfeitamente fazer uma afirmacao proba bilıstica indicando a probabilidade de erro ao fazer uma afirmacao sobre uma hipotese em teste Para isso utilizaremos as distribuicoes de probabilidades como veremos nas proximas secoes 62 Como Selecionar Uma Amostra Como vimos nos exemplos anteriores um pesquisador trabalha com apenas uma parte da populacao isto e com uma amostra A maneira como e selecionada uma amostra e de extrema importˆancia pois e atraves dos dados amostrais que serao calculadas as estimativas dos parˆametros desconhecidos da populacao e tambem serao feitas afirmativas sobre os mesmos E facil de se imaginar que e fundamental o pesquisador ter um bom conhecimento da populacao pois quanto mais ele conhecer a populacao mais informativa sera a amostra selecionada Por exemplo se um Biologo deseja fazer um estudo sobre a poluicao de uma baıa em peixes do genˆero Bagre ele vai precisar coletar uma amostra de peixes desse gˆenero e avaliar o numero de micronucleos em 5000 celulas Para se ter uma amostra que permita tirar conclusoes validas e necessario ter um bom conhecimento sobre o comportamento desse tipo de peixe As situacoes de amostragem nas ciˆencias biologicas e agronˆomicas na pratica sao inumeras e podem ser mais ou menos complexas Vejamos alguns exemplos de selecao de amostras 220 Exemplo 1 Desejamos desenvolver uma pesquisa socioeconˆomica sobre os agricultores integrados a uma empresa onde estamos interessados em diversos parˆametros relativos a atividade agropecuaria A populacao e constituıda por todos os agricultores integrados a em presa Podemos definir varias variaveis associadas a cada agricultor propriedade agrıcola Essas variaveis serao observadas sobre uma amostra de 200 agricultores Para selecionar os agricultores que participarao da amostra sorteamos com regras bem definidas 200 fichas de um fichario onde conste todos os agricultores integrados Exemplo 2 Estamos interessados numa pesquisa para tratar a glicemia7 em peixes Mandi8 atraves da injecao de glucagˆonio Um parˆametro de interesse seria o teor de acucar no sangue desses peixes A populacao e constituıda por todos os peixes Mandi do local de estudo Nesse caso o pesquisador nao tem acesso a toda a populacao de peixes Mandi Assim ele vai selecionar amostra aqueles que estao acessıveis Por exemplo se desejamos uma amostra de 15 peixes o pesquisador podera utilizar os peixes capturados com uma tarrafa ou selecionar alguns peixes em um laboratorio E importante que os peixes selecionados para participarem da amostra tenham as mesmas caracterısticas da populacao Exemplo 3 Numa pesquisa sobre propriedades quımicas de uvas da cultivar Cabernet com idade de 6 anos nas seguintes condicoes tratamentos Tratamento 1 plantas sadias Tratamento 2 plantas com infeccao media da virose do enrolamento Tratamento 3 plantas com infeccao forte da virose do enrolamento podemos estar interessados no parˆametro teor medio de acucar da cultivar sob cada uma das trˆes condicoes As populacoes sao formadas por todas as plantas adultas da cultivar cabernet na regiao considerada para cada um dos tratamentos Nesse caso o pesquisador seleciona intencionalmente 10 plantas para cada tratamento de um parreiral Portanto temos 3 amostras cada uma de tamanho igual a 10 Exemplo 4 Em estudos sobre a distribuicao e abundˆancia de primatas na natureza desejase conhecer o numero de animais em uma determinada area e a area de ocorrˆencia atual desses animais Necessitase fazer a abertura de algumas trilhas transectos na mata por onde serao feitas as observacoes e caminhadas O tamanho da amostra corresponde ao numero de vezes que cada trilha deve ser caminhada por exemplo 40 repeticoes A contagem por transectos 7Presenca de glicoce no sangue em cota fisiologica 8Designacao comum a varias especies de peixes siluriformes especialmente da famılia dos pimelodideos 221 lineares e um dos metodos mais usados para a estimativa da densidade de varias especies de animais Em resumo a obtencao de solucoes adequadas para problemas de amostragem exige em geral muito bom senso conhecimento do fenˆomeno biologico e experiˆencia Como percebe mos existem muitas maneiras de se retirar uma amostra de uma populacao Existe um campo dentro da estatıstica que trata especificamente dos projetos para retirar amostras Entretanto o plano mais simples e talvez o mais importante em estatıstica e o plano con hecido como Amostragem Casual Simples e e desse plano que trataremos agora 63 Amostragem Aleatoria Simples O que caracteriza este tipo de amostragem e que todos os elementos da populacao tem probabilidade igual de pertencer a amostra e todas as possıveis amostras tem igual probabilidade de serem sorteadas Vamos a partir de um exemplo apresentar com detalhes uma definicao precisa ou seja matematica de amostra aleatoria simples Essa e a definicao mais adequada a experi mentacao Exemplo considere a populacao das 17 alunas da turma de estatıstica basica do curso de Ciˆencias Biologicas Na tabela 62 esta representada a distribuicao dos valores de altura X das alunas da turma juntamente com a distribuicao de probabilidades Obter uma amostra aleatoria simples dessa populacao equivale matematicamente a colo car numa caixa de papel 17 pedacinhos de papeis numerados de 1 a 17 e apos proceder a um sorteio A altura x do primeiro elemento selecionado pode assumir qualquer valor da primeira coluna da tabela 62 com probabilidades apresentadas na terceira coluna da mesma Vamos representar essa primeira observacao por X1 Vamos repor esse papel na caixa O segundo papel escolhido aleatoriamente tambem pode assumir qualquer valor x da primeira coluna da tabela 62 com as probabilidades dadas na terceira coluna Vamos representar essa segunda observacao por X2 Repomos esse papel na caixa Repetimos esse procedimento ate selecionar todos os n elementos da amostra X1 X2 Xn Observe que a distribuicao de probabilidades de X1 e a mesma distribuicao da populacao isto e de X a distribuicao de probabilidades de X2 e a mesma distribuicao de probabilidades de X e assim para X3 Xn Entao dizse que X1 X2 Xn tem a mesma distribuicao de probabilidades e qual e esta distribuicao a distribuicao da populacao ou seja de X Dizemos que X1 X2 Xn 222 Tabela 62 Distribuicao de frequˆencias das alturas das alunas do curso de estatıstica basica Altura Frequˆencias absolutas Frequˆencias relativas 156 1 0059 160 4 0235 161 2 0117 162 1 0059 163 1 0059 165 1 0059 167 2 0117 168 1 0059 170 1 0059 172 2 0117 173 1 0059 Total 45 10000 sao identicamente distribuıdas De um modo geral as observacoes X1 altura da primeira aluna sorteada X2 altura da segunda aluna sorteadaXn altura da nesima aluna sorteada serao independentes caso a amostragem seja feita com reposicao Na pratica em particular na experimentacao a amostragem e feita sem reposicao o que acarreta perda da independˆencia porem para pop ulacoes grandes os resultados propriedades importantes para a inferˆencia podem ser con siderados equivalentes como sera mostrado mais adiante Agora podemos definir amostra aleatoria simples de forma precisa Definicao uma amostra aleatoria simples de tamanho n de uma variavel aleatoria X e aquela cujas n observacoes X1 X2 Xn sao independentes e identicamente distribuıdas 631 Obtencao de Uma Amostra Aleatoria Simples A obtencao de uma amostra verdadeiramente aleatoria vai depender muito da situacao da populacao de interesse Frequentemente nao e possıvel obterse uma amostra aleatoria aquela em que cada membro da populacao pode participar da amostra pois a mesma nao se adapta aos dados da pesquisa Por exemplo na pesquisa para tratar a glicemia em peixes Mandi atraves da injecao de glucagˆonio 200 µg os peixes que formam a amostra sao os 223 acessıveis que estao no laboratorio ou que serao capturados com uma tarrafa Na pesquisa para estudar o teor medio de acucar da cultivar cabernet em trˆes condicoes tratamentos diferentes quais sejam 1 plantas sadias 2 plantas com infeccao media da virose do enrolamento e 3 plantas com infeccao forte da virose do enrolamento o pesquisador selecionou intencionalmente 10 plantas de cada tratamento de um parreiral Uma outra situacao e o caso da pesquisa socioeconˆomica dos agricultores de um de terminado municıpio em que temos uma listagem de todos os agricultores desse municıpio Nesse caso podemos numerar todos os agricultores de 1 ate N sorteandose a seguir por meio de um processo bem definido que nos garanta a aleatoriedade n agricultores dessa sequˆencia os quais formarao a amostra Um procedimento util para realizar o sorteio e usar a tabela de numeros aleatorios Esta tabela e dada no apˆendice 7 As tabelas de numeros aleatorios contem os 10 algarismos 0 1 2 3 4 5 6 7 8 9 e sao formadas por sucessivos sorteios do conjunto deles Essas tabelas foram exaustivamente testadas e a sua aleatoriedade e garantida Na tabela de numeros aleatorios esses numeros podem ser lidos isoladamente ou em grupos de dois trˆes quatro ou mais algarismos podem ser lidos em qualquer ordem por colunas em qualquer sentido por linhas em qualquer sentido diagonalmente Vamos atraves de um exemplo fazer uma ilustracao do uso da tabela de numeros aleatorios Exemplo A finalidade da pesquisa e determinar o peso medio o peso total em toneladas e a porcentagem de fornecimentos abaixo de X toneladas de canadeacucar entregue pelos fornecedores a industria A populacao e formada por 250 fornecedores de canadeacucar Desejase sortear uma amostra de 21 fornecedores Primeiramente os 250 fornecedores sao listados por ordem alfabetica Apos isso a pop ulacao e numerada de 1 ate 250 Como a identificacao exigiu numeros com 3 algarismos e necessario lermos numeros de 3 algarismos na tabela de numeros aleatorios Utilizando a tabela apˆendice 7 sorteiase as colunas 8 9 e 10 e vamos ler percorrendo as colunas de 224 cima para baixo os numeros encontrados foram 826 97 820 176 452 328 868 817 402 253 232 497 174 397 419 519 699 13 415 772 406 207 313 348 963 476 932 870 827 718 140 490 499 134 719 209 681 471 612 424 537 56 331 742 981 662 625 957 450 331 902 910 7 929 775 785 935 30 573 941 611 264 893 441 809 813 113 79 933 136 883 233 640 655 520 815 440 69 798 928 741 234 746 312 616 173 995 496 138 694 806 952 876 3 876 436 379 A amostra selecionada e formada pelos numeros em italico na matriz Atraves desses numeros identificase os agricultores que vao fazer parte do estudo Em resumo para selecionarmos uma amostra com a utilizacao da tabela de numeros aleatorios devemos seguir os seguintes passos 1 faca uma lista dos itens da populacao 2 numere os itens da lista a comecar de 1 3 leia os numeros na tabela de numeros aleatorios de modo que o numero de algarismos em cada um seja igual ao numero de algarismos do ultimo numero da sua listagem Exemplo se o ultimo numero e 1370 devem ser lidos numeros com 4 algarismos Sortear o inıcio da leitura dos numeros por exemplo iniciar na quinta linha da esquerda para a direita 4 despreze os numeros que nao correspondem aos numeros da lista ou que sejam repeticoes de numeros lidos anteriormente amostragem sem reposicao Continue o processo ate ter o numero desejado de observacoes 5 use os numeros assim identificados para coletar os itens que vao fazer parte da amostra Exemplo Um pesquisador deseja comparar os teores medios de proteına de trˆes culti vares de cevada Para executar o experimento ele dispoe de uma area de terra homogˆenea mesma fertilidade mesma umidade etc de tamanho 288 m2 Portanto as trˆes cultivares vao ser comparadas em igualdade de condicoes Um princıpio basico da experimentacao 225 12 Cultivar 1 11 Cultivar 1 10 Cultivar 3 9 Cultivar 1 8 Cultivar 2 7 Cultivar 3 6 Cultivar 3 5 Cultivar 2 4 Cultivar 3 3 Cultivar 2 2 Cultivar 2 1 Cultivar 1 Figura 63 Croqui de campo indicando o processo de aleatorizacao do experimento e o uso de repeticoes ou seja sao necessarios pelo menos dois valores para cada cultivar Assim a area total vai ser dividida em 12 canteiros de tamanhos 6m 4m totalizando 24m2canteiro O numero de repeticoes tamanho da amostra por cultivar e 4 O croqui da area e dado na figura 63 A aleatorizacao das trˆes cultivares foi feita do seguinte modo enumerouse os canteiros de 1 a 12 como indicado no canto superior direito da figura 63 leuse numeros na tabela de numero aleatorios Apˆendice 7 com dois algarismos selecionandose apenas os valores que estao na faixa de 1 a 12 e desprezandose os valores repetidos Sorteouse a sexta linha para iniciar a leitura dos numeros da esquerda para a direita produzindo a seguinte listagem 12 1 11 9 5 8 3 2 7 10 6 4 os canteiros 12 1 11 e 9 receberam a cultivar 1 os canteiros 5 8 3 e 2 receberam a cultivar 2 e os canteiros 7 10 6 e 4 receberam a cultivar 3 Exercıcio A finalidade da pesquisa e o de determinar o numero de insetosquadrante e o total de insetos na area Sortear 15 quadrados de um total de 100 de 10 m2 cada 226 As tecnicas estatısticas que veremos nas secoes subsequˆentes deste livro pressupoem que a amostra foi selecionada aleatoriamente ou por algum processo equivalente Embora para os dados de uma pesquisa nem sempre uma amostra aleatoria e possıvel tomandose algu mas precaucoes especiais no delineamento da pesquisa esta suposicao amostra aleatoria pode ser pertinente por exemplo num experimento fazendose a casualizacao sorteio dos tratamentos as unidades experimentais Box et al 1978 64 Distribuicoes Amostrais O objetivo pelo qual selecionamos uma amostra e para obter estimativas de parˆametros desconhecidos da populacao µ σ2 π fazer afirmacoes sobre os mesmos e tambem para auxiliar na verificacao da forma distribuicao como a estatıstica se distribui Vamos raciocinar em cima da seguinte pergunta relativa ao exemplo em que o pesquisador esta interessado em avaliar a producao media µ por planta da cultivar de maca Gala O valor da producao media por planta x numa amostra de 10 plantas vai ser um valor proximo da verdadeira producao media referente a todas as plantas da cultivar Gala9 Como o valor da verdadeira producao media por planta e desconhecido responderemos a pergunta atraves do estudo de como se distribuem os possıveis valores de x Quando se extraem repetidas amostras de uma mesma populacao provavelmente os val ores das medias amostrais sao todos diferentes e tambem diferentes da verdadeira media da populacao simplesmente devido ao fato de serem considerados elementos diferentes da pop ulacao Como exemplo veja a terceira coluna amostras e a sexta coluna medias amostrais da tabela 64 Esta variabilidade e conhecida como variabilidade amostral Portanto torna se imprescindıvel quando vamos fazer inferˆencias sobre parˆametros populacionais levar em consideracao a distribuicao amostral Estas sao descritas pelas distribuicoes de probabili dades como a distribuicao normal e a binomial por exemplo Como exemplo de distribuicao amostral temos os 16 valores das medias amostrais dadas na tabela 64 obtidas das 16 amostras possıveis de tamanho n 2 Os valores da estatıstica calculados nas amostras vao formar uma nova populacao de medias de variˆancias de proporcoes cuja distribuicao recebe o nome de distribuicao amostral de medias de variˆancias de proporcoes Assim o conjunto x1 x2 xk e denominado de distribuicao amostral das medias ou da media o con junto 9Depende da estatıstica do tamanho da amostra e da variabilidade na populacao 227 Tabela 63 Pesos de 4 suinos Suinos Peso kg A 68 B 80 C 84 D 87 11 P2 Pr denominado de distribuicao amostral das proporcoes ou da proporao oO conjunto e ss3 57 6 denominado de distribuicéo amostral da variancia onde k é o ntmero de todas as amostras possiveis No exemplo temos k 16 Para ilustrar o desenvolvimento do estudo de distribuicao amostral da proporcao da média e da variancia vejamos um exemplo simples Salientamos que esse exemplo no qual a populacao é bastante pequena N 4 e a amostragem é feita com reposicao tem fim puramente didatico Para a nossa finalidade suponhamos conhecidos os pesos de todos os suinos embora o agricultor so iré conhecer os pesos dos suinos amostrados Os pesos dos animais sao dados na tabela 63 Os valores dos parametros proporcao7 de suinos com peso inferior a 75kg peso médioj varidnciao e desvio padraoc sao mr 14025 61 SaN 7975 kg 2 Dez H 20875 2 eo SO 8218 kg N 4 J og Vo 5218 722 kg 641 Distribuigao Amostral da Proporgao Vamos considerar que um suino com menos de 75 kg obtenha um preco bastante inferior na agroindustria Sabemos que existe apenas 1 suino nessa situagao na populagao portanto a proporcao 7 de suinos com peso inferior a 75 kg na populagao é de 14025 O agricultor deseja estimar esta proporcao de suinos com peso inferior a 75 kg observando alguns suinos da populagao Para isso ele decide selecionar uma amostra aleatéria de 2 228 Tabela 64 Todas as amostras possıveis de tamanho igual a dois com reposicao da pop ulacao dada na tabela 63 com as respectivas proporcoes medias e variˆancias amostrais Amostras Amostras Pesos Proporcao Media Variˆancia Variˆancia 75 kg P peso X 1 S2 2 S2 1 AB 6880 12050 740 720 3600 2 AC 6884 12050 760 1280 6400 3 AD 6887 12050 775 1805 9025 4 BC 8084 020 820 80 400 5 BD 8087 020 835 245 1225 6 CD 8487 020 855 45 225 7 BA 8068 12050 740 720 3600 8 CA 8468 12050 760 1280 6400 9 DA 8768 12050 775 1805 9025 10 CB 8480 020 820 80 400 11 DB 8780 020 835 245 1225 12 DC 8784 020 855 45 225 13 AA 6868 221 680 00 000 14 BB 8080 020 800 00 000 15 CC 8484 020 840 00 000 16 DD 8787 020 870 00 000 suınos com reposicao e usar a proporcao encontrada nesta amostra como estimativa da proporcao na populacao Isto nos sugere algumas perguntas fundamentais quais as proporcoes amostrais que o agricultor pode obter qual a probabilidade de cada uma qual a forma da distribuicao das proporcoes amostrais qual a media da distribuicao amostral das proporcoes qual a variˆancia da distribuicao amostral das proporcoes Para responder a essas perguntas precisamos construir a distribuicao amostral das pro porcoes Na tabela 64 temos todas as 16 amostras possıveis de tamanho igual a dois suınos N n 42 e as correspondentes 16 proporcoes amostrais Observe por exemplo para a amostra AA que nao temos uma ordenacao nos resultados pois so temos um suıno A 229 Proporções amostrais Probabilidades 00 01 02 03 04 05 06 00 01 02 03 04 05 06 07 08 09 10 Proporção populacional Figura 64 Distribuicao amostral da proporcao de suınos com peso abaixo de 75 kg tamanho da amostra igual a 2 A distribuicao amostral da proporcao de suınos com peso abaixo de 75 kg para n 2 fica xi 0 1 2 p xi2 0 050 1 ProbP p 91605625 61603750 11600625 onde xi representa os possıveis valores da variavel aleatoria X numero de suınos com peso inferior a 75 kg na amostra A representacao grafica da distribuicao amostral da proporcao de suınos com peso inferior a 75 kg para amostras de tamanho 2 extraıdas de uma populacao com 4 suınos e proporcao populacional igual a 025 e dada na figura 64 Como a nossa amostra e de tamanho dois e impossıvel obter uma proporcao amostral com valor igual a 025 Porem podemos observar que a verdadeira proporcao populacional encontrase entre 0 e 050 que sao os valores que apresentam as maiores probabilidades de ocorrˆencia na amostra A forma da distribuicao e assimetrica Como vimos no estudo de variaveis aleatorias discretas contagens ou proporcoes podem ser estudadas pela distribuicao binomial Vamos para a situacao em estudo verificar se as pressuposicoes do modelo binomial sao atendidas 1 Temos duas repeticoes n 2 2 Em cada repeticao somente temos duas possibilidades peso abaixo de 75 kg ou entao igual ou acima de 75 kg 230 3 As probabilidades permanecem constantes em todas as repeticdes do experimento 4 Os resultados das repetigdes sao independentes Portanto as pressuposicoes do modelo binomial sao todas atendidas para a varidvel aleatéria X Da tabela da distribuigao binomial Apéndice 1 para n 2 e 7 0 25 obtemos ProbP 0 PX 0 0 5625 ProbP 050 PX 1 03750 ProbP 1 PX 2 0 0620 Como podemos ver obtemos exatamente os mesmos valores da distribuigao amostral das proporcoes Assim na pratica nao é preciso construir empiricamente a distribuicao amostral das proporcoes pois a mesma pode ser obtida pela distribuigao binomial Conforme visto na secao 534 para determinadas condigoes de n e de 7 a distribuicgao binomial pode ser bem aproximada pela distribuigao normal com parametros x nt eoy nr17 conseqtientemente a distribuigao das proporgoes também pode ser aproximada pela dis tribuigao normal com parametros 2 m1 7 Lp T7e Op 7 Observase que a média das proporgoes amostrais é sempre igual a proporgao popula cional up 7 e a medida que n aumenta a variabilidade amostral diminui isso implica que amostras grandes tem forte tendéncia a fornecer uma estatistica amostral proxima do verdadeiro valor do parametro populacional O desvio padrao da distribuigao amostral das proporcoes é dado por op Va17n Como pode ser verificado com os dados da tabela 64 pep 054054050000505050404014040016 416 025 e op 05025 05 025 05 025 0 025 0 0 25 0 0 25 05 025 05 025 05 0 25 0 0 25 0 0 25 0 025 1025 0 025 0 0 25 0 0 2516 1516 009375 231 Note que wp 025 7 e 0 0 09375 0 187502 a1 zn Usualmente os processos de selecao de amostras sao feitos sem reposicao e isto implica em uma correcao na formula da variancia e do desvio padrao da proporcao mas nao na média Dos dados da tabela 64 vamos calcular a média a variancia e o desvio padrao das 12 primeiras amostras que representam os possiveis valores se o processo fosse sem reposicao Temos bp 0505050400405405405004012 312 025 e op 05 025 05 025 05 0 25 0 0 25 0 0 25 0 0 25 05 025 05 025 05 0 25 0 0 25 0 0 25 0 025 07512 00625 A corregao na variancia é feita através do termo N nN 1 um valor menor ou igual a 1 o valor 1 somente ocorre para n 1 Assim a variancia e o desvio padrao das proporgoes com a corregao sao dadas por mwla7Nn oP ONAL m1lam Nn oP VO OV NAT Podemos observar que a variancia das proporgées calculada com as 12 amostras sem reposicao o 00625 corresponde a N nN 14 24 1 23 da variancia das pro porgdes calculada com as 16 amostras com reposigao 0 009375 ou seja 0625 23 x 009375 No caso de populacoes infinitas este termo pode ser desconsiderado pois ele é aproxi madamente igual a 1 Nos casos de populacoes finitas este termo também pode ser ignorado quando o tamanho da amostra for menor do que 5 do tamanho da populagao n 005N Exemplo 1 Um processo de encher garrafas de vinho dé em média 10 de mal enchidas Extraida uma amostra de 125 garrafas qual a probabilidade de que a proporcao amostral de garrafas mal enchidas esteja entre 9 e 11 Como n é grande 7 nao é préximo de zero e na 1250 10 125 podemos considerar a distribuigao normal para aproximar probabilidades binomiais Nesse exemplo a populagao 10Rste termo é proveniente da variancia da distribuigao hipergeométrica distribuigao exata dos dados quando a amostragem é feita sem reposigéo Detalhes em Bussab Morettin 1987 232 é infinita pois ela é formada por todas as garrafas enchidas e que virao a ser enchidas portanto nao ha necessidade de se fazer a correcao para populagao finita no desvio padrao No exemplo a média e 0 desvio padrao valem a1 0 100 90 mt010 17 1010090 op ml m 0 100 90 0 0268 n 125 Vamos calcular os valores de z e 22 pa 009 010 0 37 1 Gp 0 0268 pam 011010 037 Gp 0 0268 Portanto a probabilidade vale Prob009 P 011 Prob0 37 z 037 2Prob0 z 037 20 1443 0 2886 28 86 Exemplo 2 Sabese que 5 das latas de péssego industrializados pela indtstria A em uma jornada de trabalho apresentam peso drenado fora dos padroes Qual a probabilidade de em uma amostra de 200 latas apresentaremse fora dos padroes a 6 ou mais e b 4 ou menos Temos n suficientemente grande e nz 200005 10 portanto em termos praticos podemos usar a distribuicao normal como aproximacao da distribuicéo binomial Vamos considerar a populacao como sendo infinita A média e o desvio padrao sao dados por 0 050 95 m005 1a1005095 op 200 00154 Para o item a a probabilidade vale 006 0 05 065 00154 ProbP 006 Probz 065 05 Prob0 z 065 05 0 2422 0 2578 25 78 Para o item b a probabilidade vale 004 005 065 00154 ProbP 004 Probz 065 05 0 2422 0 2578 25 78 Exemplo 3 Bussab Morettin 1987 Um procedimento de controle de qualidade foi planejado para garantir um maximo de 10 de itens defeituosos na produgao A cada 233 15 minutos sorteiase uma amostra de 50 pecas e havendo mais de 15 de defeituosas parase a producao para verificacoes Qual a probabilidade de uma parada desnecessaria Observacao os diferentes valores de p sao obtidos devido a variacao aleatéria na amostra Mesmo a populacéo tendo uma proporcéo 7 10 podemos obter uma amostra com p acima de 15 devido puramente ao azar de selecionar a amostra Por isso a pergunta acima qual a probabilidade de uma parada desnecessdria ou seja encontrar um p 15 quando na verdade temos 7 10 Temos que na 50010 5 Obtemos para a média e o desvio padrao os seguintes valores m010 1a1010090 op onal 20 0 0424 015 010 2Jopr 7 118 ProbP 015 Probz 118 01190 11 90 642 Distribuigao Amostral da Média Passamos agora a estudar a distribuicdo amostral da estatistica X a média amostral Para mostrarmos os principais resultados propriedades de uma distribuicéo amostral de médias retornemos ao exemplo da populacao de 4 suinos dada na tabela 63 e que o agricultor agora deseja estimar o peso médio dos suinos 1 Com o objetivo de avaliar a média populacional 44 7975 kg o agricultor decide selecionar uma amostra aleatéria simples de tamanho 2 com reposicao De forma andloga ao que foi feito para a proporcaéo amostral devemos observar todas as possiveis amostras de tamanho n 2 com reposicgao e para cada uma das amostras calcular a média Z Os resultados possiveis sao apresentados na tabela 64 Os valores da média variancia e desvio padrao da distribuicao amostral das médias sao 740 7604 775 800 84 0 870 px 16 7975 kg 9 740 79 75 760 7975 840 79 75 870 7975 ox IG 2609 kg ox v2609 511 kg 234 Observamos que o valor da média da distribuigéo amostral das médias 6 0 mesmo da média da populagao wx pw A variancia da distribuigao amostral das médias é dada por o 2609 es a O desvio padrao da distribuigao da média é dado por o Ox Vn No exemplo ox 7 222 511 kg No caso de populagao finita de tamanho N e amostragem aleatéria simples sem reposicao a média da distribuicao amostral da média é igual a média da populacao porém a variancia e o desvio padrao ficam dados por oNn ox oT a Nn ox Vil Wor Na tabela 64 vamos calcular a variancia e o desvio padrao das 12 médias de peso de suinos obtidas com amostras de tamanho n 2 Estas 12 médias sao obtidas de amostras sem reposicao de uma populacao finita 9 740 79 75 760 7975 835 79 75 855 7975 OR 1740 kg ox v1740417 kg O termo JN nN 1 é denominado fator de corregao para populacao finita Quando ocorrer a desigualdade n 005N este termo pode ser omitido da expressao da variancia Mostramos como fica a média e a variancia da distribuigao amostral da média O proximo passo é verificarmos a forma da distribuicao amostral das médias isto é qual modelo proba bilistico poderia ser utilizado para descrever a distribuigao amostral das médias Nas figuras 65 e 66 temos os histogramas das médias amostrais possiveis para amostras de tamanhos 2 e 3 respectivamente para os dados da tabela 63 Observamos que a medida que 0 tamanho da amostra aumenta de 2 para 3 as médias amostrais ficam mais concentradas em torno da média verdadeira ju porque o desvio padrao diminui Os casos extremos de médias muito grandes ou pequenas passam a ter uma menor freqiiéncia de ocorréncia E sabido que se a populagao sobre a qual desejamos selecionar uma amostra aleatéria simples X1 Xn tem 235 684 722 760 798 836 874 912 Médias amostrais 0 1 2 3 4 5 Freqüências absolutas Figura 65 Histograma da distribuicao amostral das medias para amostras de tamanho 2 684 722 760 798 836 874 912 Médias amostrais 0 5 10 15 20 25 30 Freqüências absolutas Figura 66 Histograma da distribuicao amostral das medias para amostras de tamanho 3 236 distribuicao normal com media µ e variˆancia σ2 a distribuicao amostral das medias tambem sera normal para qualquer tamanho de amostra com media µ e variˆancia σ2n Passamos agora a analisar o comportamento dos histogramas das medias para varias distribuicoes de X quando vamos aumentando o tamanho da amostra Na figura 67 tˆemse os histogramas correspondentes a distribuicao amostral das medias relativas a 3 diferentes distribuicoes Poisson Uniforme e Bimodal 237 0 1 2 3 4 5 6 7 8 9 10 Poissonmédia25 06 11 16 21 26 31 36 41 46 51 56 Médiasn5 10 13 17 20 23 26 30 33 36 40 43 Médiasn10 17 19 20 22 24 25 27 29 30 32 34 Médiasn30 0 36 72 108 144 180 216 252 288 324 360 Uniformea0b360 22 51 80 109 139 168 197 226 256 285 314 Médiasn5 80 101 121 141 161 182 202 222 243 263 283 Médiasn10 110 123 137 150 163 176 189 203 216 229 242 Médiasn30 03 13 22 32 42 52 62 71 81 91 101 Bimodalmédia45 e desvio padrão192 22 27 32 37 42 47 52 57 61 66 71 Médiasn5 24 28 32 37 41 46 50 54 59 63 67 Médiasn10 33 36 38 41 43 45 48 50 53 55 57 Médiasn30 Figura 67 Histogramas da distribuicao amostral das medias para trˆes populacoesPoisson Uniforme e Bimodal e para trˆes tamanhos de amostrasn5 n10 e n30 238 Os exemplos da figura 67 nos indicam que quando o tamanho da amostra vai aumen tando independente da distribuicao da variavel aleatoria X a distribuicao amostral das medias aproximase cada vez mais de uma distribuicao normal com media igual a media populacional 25 para a distribuicao de Poisson 180 para a Uniforme e 45 para a Bimodal e variˆancia decrescente A rapidez dessa convergˆencia depende da distribuicao da populacao original da qual a amostra e retirada Se a populacao original e uniforme sua convergˆencia e rapida Ja se a distribuicao da populacao tem a forma bimodal ou assimetrica essa con vergˆencia e mais demorada Este resultado fundamental na teoria de inferˆencia estatıstica e conhecido como teorema central do limite Esse teorema diz o seguinte se a populacao sobre a qual desejamos selecionar uma amostra aleatoria simples X1 Xn tem uma distribuicao qualquer com media µ e variˆancia σ2 a distribuicao amostral das medias sera aproximadamente normal com media µ e variˆancia σ2n para amostras suficientemente grandes Como sugestao aceitase que para amostras com mais de 30 observacoes a aproximacao ja pode ser considerada muito boa Em muitas das situacoes praticas com n grande e nN pequeno o teorema central do limite tambem se aplica quando a amostragem e sem reposicao Exemplo 1 Suponha que o peso dos 35000 alunos da UFSC matriculados no primeiro semestre de 2005 e normalmente distribuıdo com media de 605 kg e desvio padrao de 12 kg a Qual sera a media e o desvio padrao da distribuicao amostral da media na hipotese de utilizar amostras de tamanho n 36 sem reposicao b Qual e a probabilidade da media de uma amostra de tamanho n 36 se encontrar entre 58 e 62 kg c e abaixo de 55 kg e d e acima de 65 kg Resolucao a A media e o desvio padrao da distribuicao amostral valem µ X 60 5 kg σ X 12 36 2 kg pois 35000 3635000 1 1 nao necessitando da correcao para populacao finita b A probabilidade vale z1 58 60 5 2 1 25 z2 62 60 5 2 0 75 239 P58 X 62 P1 25 z 0 75 0 39435 0 27337 0 6677 c A probabilidade vale z 55 60 5 2 2 75 P X 55 Pz 2 75 0 0030 d Aprobabilidade vale z 65 60 5 2 2 25 P X 65 Pz 2 25 0 0122 Exemplo 2 Uma nova racao para aumento de peso deve ser aplicada a uma amostra aleatoria de 25 frangos n 25 de um grande lote o lote e a populacao Supondo que o desvio padao σ do ganho de peso no perıodo de um mˆes seja de 2 kg qual a probabilidade de que a media dessa amostra X difira da media de todo o lote µ em 05 kg ou mais X µ 0 5 considerando que os frangos tratados com a nova racao nao tem um ganho de peso maior do que os tratados com a racao padrao Inicialmente passamos a calcular o valor da variavel z z x µ σ X 0 5 2 25 0 5 0 4 1 25 Portanto a probabilidade pedida vale lembre do modulo Pz 1 25 Pz 1 25 2Pz 1 25 0 2112 62 A probabilidade de X diferir de µ em mais do que 05 kg devido ao acaso e de 2112 Exercıcios resolvidos 1 O governo coleta uma amostra aleatoria de 400 estudantes da UFSC para obter uma indicacao dos que sao a favor do ensino superior pago Determine a probabilidade de 240 obter uma proporcao amostral que difira por mais de 3 pontos percentuais da proporcao populacional de estudantes que sao a favor do ensino pago se esta proporcao é 10 007 0 10 013 010 Prob007 P 013 Prob z 010090 010090 400 400 Prob2 z 2 09545 Portanto a resposta é 10954500455 ou 455 2 Os camaroes machos da espécie Penaeus paulensis para serem considerados adultos devem apresentar um comprimento total maior ou igual a 22 mm Se numa populagao de camaroes machos a média dos comprimentos foi igual a 4 273mm e desvio padrao og 78mm portanto considerada como sendo uma populacao adulta Perguntase a Qual a probabilidade de para uma amostra de n 35 camaroes obtermos uma média X 22mm b Qual deve ser o valor para a média do comprimento total jz a fim de que a PX 22 005 ou 5 a 22 273 PX 22 P ae Pz 402 78V35 05 049997 000003 ou 0 003 b Para uma area de 5 no lado esquerdo da curva o valor de z é 1645 22 1645 pu 241688 13184 Se opesmmin 65 Exercicios Propostos 1 Se vamos extrair amostras de n100 observacoes de uma populacao muito grande em que a proporcao populacional é 20 que percentagem de proporgdes amostrais poderemos esperar nos intervalos a 16 a 24 b maior que 24 2 A proporgao de estomatos da epiderme abaxial da folha de macieira da variedade M9 com tamanho acima de um determinado valor é 7 012 ou 12 Extraida uma amostra de 35 folhas qual a probabilidade de que a proporcao esteja entre 8 e 13 241 3 Sabese que 46 de peixes Xenomelaniris brasiliensis na localidade da praia da Barra da Lagoa Florianopolis apresentam comprimento total acima de 50mm Qual e a probabilidade de uma amostra aleatoria com 35 peixes apresentar mais que 53 ou menos que 40 de peixes com comprimento total acima de 50 mm 4 Um distribuidor de sementes determina atraves de testes que 5 das sementes nao germinam Ele vende pacotes de 200 sementes com garantia de 90 de germinacao Qual a probabilidade de um pacote nao satisfazer a garantia 5 Os nıveis de glutationa na regiao do cerebelo em ratos apresentam media de 17µM e desvio padrao de 04µM Os nıveis de glutationa de uma amostra de 8 ratos foram mensurados A media da amostra e usada para decidir se os ratos estao estressados Aplica se a seguinte regra de decisao se o nıvel de glutationa da amostra de 8 ratos e igual ou maior do que 20 µM os ratos sao considerados estressados Qual a probabilidade de se considerar os ratos como estressados 6 Suponha que o rendimento de milho em kgha no Oeste Catarinense e uma variavel normalmente distribuıda com media de 7069 kgha e desvio padrao de 59315 kg Que valores esperase encontrar para a media e o desvio padrao da distribuicao amostral das medias na hipotese de utilizar amostras de tamanho n36 Qual e a probabilidade da media de uma amostra se encontrar a entre 6809 e 7395 kgha b abaixo de 6816 kgha c acima de 7389 kgha 7 O numero de hemocitosµl de hemolinfa THC em fˆemeas de camarao Macrobrachium rosemberguii e normalmente distribuıda com media µ de 18000 e desvio padrao σ de 5125 Em uma amostra aleatoria de n 30 fˆemeas qual a probabilidade de que o numero medio de hemocitosµl de hemolinfa THC seja maior do que 19000 8 O numero de estˆomatos da epiderme abaxial em areas aleatorias de 024 mm2 de macieira da variedade M9 e normalmente distribuıda com media µ 159 8 e desvio padrao de σ 34 5582 Em uma amostra aleatoria de n 35 folhas qual a probabilidade de que o numero medio de estˆomatos seja menor do que 140 9 Uma variavel aleatoria X tem distribuicao normal com media 100 e desvio padrao 10 a Qual a P90 X 110 b Se X e a media de uma amostra de 16 elementos retirados dessa populacao calcule P90 X 110 10 A proporcao esperada de filhotes machos de tartaruga Caretta caretta conhecida como cabecuda e de 050 Uma fˆemea desta especie bota 200 ovos numa determinada praia a Qual a probablidade da proporcao amostral de machos nesta ninhada estar entre 048 e 053 b Se a proporcao de nascimentos de machos for maior do que 060 pode indicar algum 242 desequilıbrio ambiental como por exemplo sombreamento da praia Qual a probabilidade disso ocorrer 243 7 Estimacao dos Parˆametros 71 Introducao Estimacao e o nome tecnico para o processo que consiste em utilizar os dados de uma amostra para avaliar parˆametros populacionais desconhecidos ou como o proprio nome indica estimar os mesmos Dentre as diversas caracterısticas parˆametros de uma populacao que podem ser estimadas nos vamos estudar as mais utilizadas quais sejam a mediaµ a proporcaoπ e a variˆanciaσ2 Um pesquisador sempre esta desenvolvendo um processo de estimacao Por exemplo um Biologo pode estar interessado na proporcao de micronucleos em 5000 celulas sanguıneas em peixes do genˆero bagre um Agrˆonomo pode estar interessado na producao media de uma cultura Outros exemplos os prejuızos causados pelo ataque de uma praga ou doenca o diˆametro de caramujos o tamanho de Lulas encontradas no trato digestivo de Atuns tamanho de crustaceos da classe Malacostraca e subclasse Eumalacostraca popularmente conhecida com o nome de Caprelas parˆametros estatısticos geneticos variˆancia genetica ambiental fenotıpica Os resultados estatısticos apresentados neste capıtulo tˆem um papel fundamental para os pesquisadores no sentido de responder aos objetivos do trabalho 72 Propriedades dos Estimadores Um estimador e uma estatıstica que sera usado para a estimacao de um parˆametro pop ulacional Os estimadores mais frequentes sao a media a proporcao e a variˆancia amostrais representados por X P e S2 respectivamente utilizados para estimar os parˆametros µ π e σ2 respectivamente E desejavel que os estimadores apresentem certas propriedades ou seja certas qualidades Dentre as propriedades desejaveis de um estimador podemos citar naotendencioso ou naoviesado quer dizer a media da sua distribuicao amostral e igual ao parˆametro populacional que desejamos estimar Em termos formais temos que para θ e ˆθ o parˆametro e o estimador de uma caracterıstica qualquer respecti vamente a nao tendenciosidade implica que Eˆθ θ isto e sua media deve ser igual ao parˆametro Por exemplo E X µ e EP π precisao quer dizer desejase que o estimador seja altamente concentrado isto e que 244 tenha pequena variancia amostral cada observacéo préxima da média de todas as observacoes e acurdcia quer dizer que o estimador seja 0 mais préximo possivel do parametro isto é que o erro amostral e 6 8 seja o menor possivel Cada observacao o mais proximo do parametro O exemplo a seguir tirado de Bussab Morettin 1987 serve bem para ilustrar as propriedades de um estimador No exemplo supoese que desejamos comprar um rifle e dentre muitos foram selecionados 4 deles denominados de A B C e D Com o objetivo de testalos foram dados 15 tiros com cada um deles A representagao grafica é dada na figura 71 Com o objetivo de selecionar uma arma dentre as quatro devemos adotar alguns critérios Os rifles B e D sao viesados isto é os tiros estao deslocados do alvo além disso o rifle B tem pouca precisao O rifle A nao é viesado porém apresenta baixa precisao isto é os tiros estaéo muito espalhados Os rifles A B e D apresentam baixa acuracia isto é os tiros nao acertam o alvo De acordo com esses critérios o rifle selecionado seria o C pois ele é naoviesado com boa precisao e acuracia Como ja vimos os estimadores X e P sao naotendenciosos para os parametros 1 e 7 respectivamente Para o parametro o um estimador néotendencioso é a variadncia amostral dada por Ss Doin Xi x n1 Podemos notar que a divisao é feita por n 1 e nao por n como seria esperado A divisao por n forneceria um estimador tendencioso como podemos verificar com os dados das duas ultimas colunas da tabela 64 BS 720 128000 00 5218 0 16 usando n 1 211 no denominador do calculo das variancias amostrais e BS 360 64040000 2609 4 16 usando n 2 no denominador do calculo das variancias amostrais Nas situagoes onde temos dois estimadores TJ e 7 naotendenciosos para 0 mesmo parametro 0 e desejamos decidir por um deles podemos utilizar o conceito de eficiéncia relativa definida por EFTT2 Vor VarT 245 a Rifle A naoviesado pouca precisao pouca acurˆacia b Rifle B viesado pouca precisao e pouca acurˆacia c Rifle C naoviesado boa precisao e acurˆacia d Rifle D viesado boa pre cisao e baixa acurˆacia Figura 71 Resultados de 15 tiros dos rifles A B C e D ilustracao das propriedades dos estimadores Fonte Bussab Morettin 1987 246 Dizemos que T2 e mais eficiente do que T1 se EFT1T2 for maior do que 1 Por exemplo para estimar a media populacional para uma variavel aleatoria com distribuicao normal a media X e a mediana Md amostrais sao dois estimadores naotendenciosos e podese mostrar que EFMdX V arMd V arX π2σ2n σ2n π 2 1 57 indicando que a media amostral e 57 mais eficiente do que a mediana amostral como estimador da media da populacao 73 Metodos para Encontrar Estimadores Se desejamos estimar a proporcao populacional π e intuitivo pensarmos em utilizar a proporcao amostral como estimador O mesmo valeria para a estimacao da media popula cional Porem existem situacoes que nao se tem uma indicacao tao clara de qual estimador e que deve ser usado Por exemplo um experimento foi instalado de acordo com o delinea mento inteiramente casualizado Neste delineamento as unidades experimentais sao as mais homogˆeneas possıveis portanto esperase que a variacao seja devida ao fator em estudo Como exemplos de fatores de interesse podemos citar locais variedades especies dietas etc O modelo matematico desse delineamento e dado por yij µ τi ϵij onde y e a caracterıstica que estamos interessados por exemplo comprimento do corpo de um animal µ e uma media geral τi e o efeito do iesimo nıvel do fator em estudo e ϵ sao variacoes aleatorias que ocorrem no experimento nao devidas ao fator de estudo O pesquisador tem interesse em estimar os parˆametros µ e τ Para estimar µ uma sugestao e usar a media geral do experimento Y Para estimar τ o que devemos usar Demonstrase que um estimador do iesimo nıvel do fator em estudo e dado por ˆτi Yi ˆY Fazse entao necessario a existˆencia de metodos apropriados para a obtencao de esti madores dos parˆametros que possam ser de interesse Os trˆes metodos mais utilizados sao 1 metodo da maxima verossimilhanca e 2 metodo dos momentos e 3 metodo dos mınimos quadrados Vamos apresentar o metodo da maxima verossimilhanca 247 731 Método da Maxima Verossimilhancga Suponha por exemplo que dentre n 3 sementes em teste obtemos 2 sucessos duas sementes germinaram e 1 fracasso uma semente nao germinou Vamos considerar que a probabilidade de uma semente germinar é 7 onde 0 7 1 Vamos definir a varidvel X como sendo o numero de sementes que germinaram O que devemos utilizar como estimador de 7 Este é um experimento binomial verifique as pressuposigdes do modelo binomial e a sua funcao de probabilidade é dada por MV kk nk PX k la Para n 3e k 2 temos 3 5 1 2 PX 2 5 7 la 3717 Vamos chamar esta expressao de fundo de maxima verossimilhanca representada por Lm 3n1 7 71 O estimador de maxima verossimilhanga de 7 é 0 valor P que maximiza a fungao 71 Do Calculo Diferencial sabemos que o valor desejado é aquele que anula a primeira derivada e faz com que a segunda derivada seja negativa apresentamos a seguir a primeria derivada de Lm em relagao a 7 Lt 2n1m71 2n177 In2n 17 In 3n 123n do que segue que p 0 ou p 23 pois sao os dois valores que anulam a primeira derivada E facil ver que o valor que maximiza a fungéo de maxima verossimilhanga é p 23 basta substituir o valor de 7 em 71 por esses dois valores de p onde obtemos L0 301 0 0 L23 3231 23 0 44 248 A derivada segunda em relacao a 7 fica 23n73 26z Da segunda derivada podemos ver que substituindose 7 por p 23 temos 2 623 2 assim como a segunda derivada é negativa temos que p 23 é ponto de maximo De modo geral 0 estimador de maxima verossimilhanga é 0 valor do parametro de in teresse que maximiza uma fungao denominada funcao de maxima verossimilhanca que é obtida a partir dos dados e a funcao de probabilidade associada aos mesmos 74 Estimativas Pontuais e Intervalares De modo geral vamos supor que os valores da populacao se distribuem segundo um dado modelo probabilistico cujos parametros sao desconhecidos e portanto precisam ser estimados Lembramos que os estimadores possuem as suas correspondentes distribuicdes amostrais Na estimacgao por ponto procedese a estimacao do parametro através de um tinico valor A obtencao dos estimadores X P e S é feita de forma direta aplicando as definigdes de média aritmética proporcao e desvio padrao aos dados da amostra tomandose o cuidado de que para o calculo do desvio padrao usase n 1 no denominador Assim uma estimativa pontual da média populacional wu é a média aritmética da amostra T 2n Uma estimativa da proporgao populacional 7 é obtida através do calculo da proporcao na amostra dada por p nn onde n é o numero de elementos na amostra que possuem determinada caracteristica desejada e n é 0 numero total de elementos na amostra Como estimativa do desvio padrao populacional 0 usase o desvio padrao da amostra s dado por s SapPn Por outro lado na estimacao por intervalo encontramos um limite inferior e um limite superior oS quais vao formar um intervalo de valores dentro do qual esperamos com certo grau de confianga que o verdadeiro valor do parametro esteja incluido O intervalo de confianga é muito mais informativo do que uma estimativa através de um unico valor Pois no intervalo além de termos a informacao pontual também temos uma boa idéia da variabilidade do parametro Devido a grande importancia dos intervalos de confiancga passamos agora a estudaélos com mais detalhes 249 741 Intervalos de Confianga Como ja tivemos a oportunidade de estudar 0 processo de obtencao de amostras aleatérias produz estimativas cujos valores sao diferentes do parametro populacional e também difer entes entre si gerando o que denominamos de variabilidade amostral da estatistica A variabilidade amostral é estudada através das distribuigdes amostrais Nos ja estudamos no capitulo 6 as distribuicdes amostrais da média e da proporcao portanto conhecemos o modelo probabilistico a média e a variancia das mesmas Devido a variabilidade amostral é importante que se faca uma estimativa intervalar para um parametro populacional Essa estimativa intervalar nos da um intervalo dentro do qual esperamos com um alto grau de confianga que o parametro se encontre Para compreendermos o processo de construcao de um intervalo de confianga vamos supor que tenhamos coletado uma amostra de 35 estudantes de graduacao do curso de Ciéncias Bioldgicas e observamos a idade média de 23 anos A questao que nos vem em mente é a seguinte serA que este valor de 23 anos esta proéximo do verdadeiro valor 1 desconhecido isto é proximo da média de idade de todos os alunos do curso Para responder a esta pergunta nds devemos levar em consideracao a distribuicao amostral da média Do estudo sobre distribuicdes amostrais vimos que a distribuicao amostral das médias 6 normal ou aproximadamente normal na maioria das situacoes praticas para um tamanho de amostra suficientemente grande Sendo normal simétrica em torno da média jz sabemos que 68 das médias amostrais estao a menos de 1 desvio padrao de cada lado da média da distribuicao amostral que é igual a média da populacao pz Vejamos os calculos P1Z1 p1s 1 68 on p1 X14 68 P n1 X1 68 vn vn P w15 Xp15 68 Vn vn A figura 72 mostra os resultados Observamos que 32 das médias amostrais estarao afas tadas mais do que desvio padrao da média verdadeira Assim se afirmarmos que a média de uma amostra se afasta menos do que 1 desvio padrao da média a partir da média verdadeira podemos esperar estar certos 68 das vezes e consequentemente errados 32 das vezes Vimos por construgao que 250 X uul c WU uti c vn Vn 68 16 16 m Figura 72 Intervalo para uma média com 68 de confianga PulaVn X pilaVn 68 Desejamos um intervalo de confianga para a média verdadeira jz portanto podemos reescr ever a desigualdade entre parenteses da seguinte forma PX laVn p X 1aVn 68 Podemos afirmar com uma confianga de 68 que a verdadeira média esta entre X 1an Sabemos também que 95 das médias amostrais estardo a menos de 196 desvios padroes de cada lado da média da distribuigaéo amostral x u Vejamos os calculos X U P196 Z 196 P 196 196 95 on P1992 Xp196 95 Vn MS 1 Vn 0 Pp 196 X 4196 95 bt Vn ee Vn 0 Pp192X p4196 95 Lt Jn Lt Jn 0 A figura 73 mostra os resultados Aqui cerca de 5 da médias estaraéo a mais de 196 desvios padroes da média verdadeira Se fizermos a afirmativa de que a média de uma amostra esta a menos de 196 desvios padroes da média a partir da média verdadeira podemos esperar estar certos 95 das vezes conseqiientemente errados 5 das vezes Porém estamos interessados no intervalo de confianga para a média verdadeira 4 portanto vamos 201 µ n σ µ 1 96 n σ µ 1 96 95 25 25 x Figura 73 Intervalo para uma media com 95 de confianca reescrever a desigualdade da seguinte forma P X 1 96σn µ X 1 96σn 95 Temos 95 de confianca de que a media verdadeira encontrase no intervalo X 1 96σn A figura 74 mostra os resultados para um intervalo com 99 de confianca Aqui cerca de 1 das medias estarao a mais de 258 desvios padroes da verdadeira media Se fizermos a afirmativa de que a media amostral esta a menos de 258 desvios padroes da verdadeira media podemos esperar estar certos 99 das vezes e consequentemente errados 1 das vezes Neste caso o intervalo de confianca e dado por X 2 58σn Na verdade nos nunca saberemos se uma media amostral esta bem proxima ou bem afastada da media verdadeira sendo assim so e possıvel construirmos um intervalo de con fianca dentro do qual esperamos que o verdadeiro valor da media populacional se encontre com um certo grau de confianca Esse intervalo e chamado de intervalo de confianca e a nossa confianca de estarmos certos e de 1 Probabilidade de erro dada em porcentagem e por isso chamase de nıvel de confianca representado pela letra grega γ lˆese gama A probabilidade de erro Perro denominase de nıvel de significˆancia e representase pela letra grega α lˆese alfa Do exposto podemos estabelecer a forma do intervalo de confianca para a media popu lacional considerando que a estatıstica X avaliada com os dados da amostra e x 252 µ n σ µ 2 58 n σ µ 2 58 99 05 05 x Figura 74 Intervalo para uma media com 99 de confianca ICµγx zα2σ X Onde x e a media da amostra zα2 e um valor obtido na tabela da distribuicao normal padrao ao nıvel de significˆancia α σ X e o desvio padrao da distribuicao amostral da media ou erro padrao da media calculado por σ X σn Interpretacao do Intervalo de Confianca De uma populacao com a caracterıstica X de interesse do estudo se retirarmos todas as amostras possıveis de tamanho n e para cada uma das amostras calcularmos o intervalo de confianca da forma x 1 96σn entao 95 deles conterao o parˆametro populacional µ A representacao grafica do significado do intervalo de confianca e dada na figura 75 Como vemos na figura 75 o intervalo pode ou nao conter o parˆametro µ mas pelo exposto nesta secao temos 95 de confianca de que o intervalo contenha o verdadeiro valor do parˆametro populacional Desse modo tudo o que foi feito e dito aqui para o estimador X do parˆametro µ e valido tambem para qualquer outro estimador por exemplo P S 742 Intervalo de Confianca para a Media da Populacao 253 x x 1 96σ 2 µ n σ µ 196 n σ µ 196 População com uma característica X de interesse Amostra 1 x x σ 1 196 x x σ 1 196 1x x x σ 2 196 2x Amostra 2 kx x kx σ 196 x kx σ 196 Amostra k x α225 α225 1α 95 Figura 75 Interpretacao de um intervalo de confianca para a media verdadeira com con fianca de 95 e variˆancia conhecida Vamos dividir o estudo do intervalo de confianca para a media da populacao µ em dois casos quando o desvio padrao da populacao σ e conhecido quando o desvio padrao da populacao σ nao e conhecido Intervalo de Confianca para a Media Populacional Quando o Desvio Padrao da Populacao e Conhecido Para que o intervalo de confianca tenha validade devese verificar a suposicao de que a distribuicao amostral das medias seja normal Conforme vimos isso e verdade se a variavel X tem distribuicao normal caso contrario sera aproximadamente normal se a amostra for suficientemente grande n 30 Quando o desvio padrao populacional e conhecido o intervalo de confianca para a media da populacao e dado por ICµγ x zα2σ X 72 254 onde σ X σn Exemplo 1 A distribuicao dos pesos de pacotes de sementes de milho enchidos auto maticamente por uma certa maquina e normal com desvio padrao σ conhecido e igual a 200 g Uma amostra de 15 pacotes retirada ao acaso apresentou os seguintes pesos em kg 2005 2010 2025 1978 1969 1990 2020 1989 1970 2030 1993 2025 2018 2001 2009 Construir os intervalos de 95 e 99 de confianca para o peso medio dos pacotes de sementes de milho Os valores da media e do desvio padrao da media sao n 15 x 20 02 σ X 0 20 15 0 0516 Como a populacao conceitualmente e infinita formada pelos pacotes enchidos e que virao a ser enchidos nao e necessario fazermos a correcao no desvio padrao Assim o intervalo de confianca fica ICµ 95 20 02 1 960 0516 20 02 0 1012 19 92 µ 20 12 Portanto temos 95 de confianca de que a media da populacao esteja entre os pesos 1992 e 2012 kgpacote O intervalo com confianca de 99 fica ICµ 99 20 02 2 580 0516 20 02 0 1332 19 89 µ 20 15 Podemos afirmar com 99 de confianca de que a media da populacao esta entre os pesos 1989 e 2015 kgpacote Intervalo de Confianca para a Media Populacional Quando o Desvio Padrao da Populacao e Desconhecido Na maioria das situacoes praticas o desvio padrao da populacao σ nao e conhecido usa se nesse caso o desvio padrao da amostra s como estimativa do desvio padrao populacional substituindose nas formulas σ por s 255 Esta substituicao pura e simples no intervalo de confianca dado em 72 causa uma alteracao no nıvel de confianca quando o tamanho da amostra e pequeno n 30 isto e o pesquisador pensa que esta trabalhando com um nıvel de confianca por exemplo de 95 quando na realidade o nıvel de confianca e menor portanto devese ampliar o intervalo Como e feito esse ajuste Sabemos que a media tem distribuicao normal com media µ e desvio padrao σn logo quando conhecemos σ a estatıstica Z X µ σn tera distribuicao normal padrao com media 0 zero e variˆancia 1 um e representase por Z N0 1 E assim usamos esse modelo para resolvermos o nosso problema de estimacao Porem quando usamos o desvio padrao da amostra S no lugar do desvio padrao da populacao σ obteremos uma nova estatıstica denominada de estatıstica t dada por tn1 X µ Sn Essa estatıstica t tem distribuicao t de Student11 com n 1 graus de liberdade12 As sim como a distribuicao normal ela e simetrica com media zero porem apresenta maior variabilidade nos extremos da distribuicao Quando o n e suficientemente grande o desvio padrao da amostra S aproximase do desvio padrao da populacao σ e as correspondentes distribuicoes tambem aproximamse Na figura 76 podemos verificar a forma da distribuicao das estatısticas t e Z A principal diferenca entre as duas distribuicoes e que a distribuicao t tem maior area nas extremidades isto e ela e mais dispersa devido ao uso do desvio padrao amostral S Isso significa que para um dado nıvel de confianca o valor de t sera um pouco maior que o correspondente valor de Z ampliando o intervalo Um intervalo de confianca para a media quando usamos o desvio padrao da amostra e 11O criador da distribuicao t de Student foi W S Gossett o qual adotou o pseudˆonimo de Student seculo XX Posteriormente essa distribuicao foi estudada por Ronald A Fisher 12Wonnacott Wonnacott 1981 pagina 186 explicam graus de liberdade da seguinte forma numa amostra de n observacoes existem n graus de liberdade para calcularmos o desvio padrao precisamos calcular os desvios em torno da media Xi X os primeiros n 1 resıduos sao livres porem o ultimo fica completamente determinado pela condicao ΣXi X 0 Exemplo consideremos uma amostra de 2 observacoes 21 e 15 Como X 18 os resıduos sao 3 e 3 o segundo resıduo sendo necessariamente o negativo do primeiro Enquanto o primeiro resıduo e livre o segundo e estritamente determinado logo ha apenas um grau de liberdade 256 1α 0 tc tc α2 α2 a Distribuicao t de Student 350 175 000 175 350 b Distribuicao normal padrao Figura 76 Forma das distribuicoes t de Student e normal padrao dado pela equacao ICµγx tn1α s n 73 onde x e s sao a media e o desvio padrao da amostra respectivamente n e o tamanho da amostra γ e o nıvel de confianca α e o nıvel de significˆancia e t e um valor de tabela da distribuicao t de Student obtido com n 1 graus de liberdade e nıvel de significˆancia α A distribuicao t so e teoricamente adequada quando a variavel em estudo apresentar dis tribuicao normal Na pratica quando n aumenta indo alem de 30 observacoes a necessidade de admitir normalidade diminui Uso da Tabela da Distribuicao t No apˆendice 4 temos a tabela da distribuicao de Student A distribuicao t de Student e ligeiramente diferente para cada amostra ou seja ela e dependente do tamanho da amostra Para obter um valor de t precisamos de duas informacoes 1 o nıvel de significˆancia desejado isto e a probabilidade de erro e 2 o numero de graus de liberdade isto e o tamanho da amostra menos um n 1 Por exemplo para α 0 05 e n 28 portanto 27 graus de liberdade o valor de t e 2052 Encontre este valor na tabela Notase que esta tabela esta disposta de forma diferente da tabela da distribuicao normal padrao As areas probabilidades estao na primeira linha da tabela e nao no corpo da tabela e observe que estas areas correspondem ao nıvel de significˆancia α os valores de t estao no corpo da tabela e os graus de liberdade estao relacionados na primeira coluna margem esquerda 257 Exemplo 1 O peso médio ao nascer de bezerros da raca Ibagé examinada uma amostra de 20 partos foi de 26 kg com um desvio padrao de 2 kg Dé a estimativa por intervalo do verdadeiro peso médio utilizando um nivel de confianga de 95 a 5 Da tabela da distribuigao t obtemos ty9005 2093 O intervalo de confianga fica IC 95 26 2093 2 Ci oO Lt 20 26 0936 25064 pw 26 936 Exemplo 2 Os residuos industriais jogados nos rios muitas vezes absorvem 0 oxigénio necessaério respiracao dos peixes e outras formas de vida aquatica Uma lei estadual exige um minimo de 5 ppm de oxigénio dissolvido a fim de que 0 contetido do mesmo seja suficiente para manter a vida aquatica Seis amostras de Agua retiradas de um rio revelaram os indices49 51 49 50 50 e 47 ppm de oxigénio dissolvido Construir 0 intervalo com 95 de confianga para a verdadeira média de oxigénio em ppm e interpretar A média e o desvio padrao da amostra valem 7 49333 e s 01366 O valor tabelado de t com 5 graus de liberdade e a 005 6 2571 O intervalo de confianga fica 0 1366 ICu 95 49333 2571 V6 49333 0 14337 479 p 508 Podemos afirmar com 95 de confianca que a verdadeira média de oxigénio dissolvido esta entre 479 e 508 ppm Portanto nao podemos afirmar que o conteudo de oxigénio dissolvido é suficiente para manter a vida aquatica 743 Intervalo de Confianga para Uma Proporgao Populacional O intervalo de confianca para uma proporcao populacional 7 6 muito semelhante ao intervalo de confianca para uma média populacional com o conhecido A principal diferenca esta no desvio padrao da distribuicao amostral das proporcoes que é dado por w1l7 op ay mta n 258 Assim o intervalo de confianga é dado por LCayp Za2 nO 74 Usamos z na expressao do intervalo de confianca pois como vimos a proporcao amostral P segue uma distribuicao aproximadamente normal para n suficientemente grande e 7 proximo de 050 entao pT z x17 tem distribuigéo normal com média 0 zero e variancia 1 um e para a 005 temos P196 Z 196 095 Isso implica que o intervalo de confianca para 7 com 95 é dado por l 7 w1l7 p 196 77 1 p196 77 n n Uma dificuldade encontrada para o calculo do desvio padrao é que precisamos saber o valor de 7 o qual é desconhecido e desejamos estimalo Sabemos que para uma amostra suficientemente grande esperase que a proporcao amostral P seja pr6xima da verdadeira proporgéo 7 Além disso vemos que ocorre uma compensagao entre P e 1 P Portanto na férmula do desvio padrao vamos substituir 7 pelo seu estimador P a qual fica PAP sp POP n A expressao do intervalo de confianga considerando a proporcaéo estimada com os dados de uma amostra é dada por LC13yp2a24 POP 75 Chamamos a atencao que para determinar o intervalo de confianga de uma proporcao nao usamos a distribuigao t de Student Exemplo 1 Em certo lago uma amostra de 1000 peixes acusou 290 tilapias Construa um intervalo de 95 de confianca para a verdadeira proporcéo de tildpias na populacéo 259 piscosa do lago Interpretar o intervalo A proporcao verificada na amostra estimativa pontual vale p 2901000 029 Para a 005 o valor de z é igual a 196 O intervalo de confianga é 0 290 71 IC795 0294 196 0 290 71 1000 029 0 0281 02619 r 03181 Podemos afirmar com 95 de confianca que a porcentagem de tildpias esta entre 2619 e 3181 Exemplo 2 Uma amostra de 35 peixes da espécie Xenomelaniris brasiliensis coletada na localidade Praia da Barra da Lagoa Floriandépolis SC apresentou 46 de peixes com comprimento total acima de 50 mm Encontre um intervalo com 99 de confianca dentro do qual deve estar a verdadeira proporcao de peixes com comprimento acima de 50 mm O valor de z para a 001 6 258 O intervalo fica 0 460 54 IC799 046 258 neo 046 0 2174 0 2426 r 06774 Observcao a amplitude do intervalo é muito grande Para obter um intervalo com maior precisao 6 necessaério aumentar o tamanho da amostra 744 Erro de Estimacao ou de Amostragem Erro de Estimacao da Média Ao coletarmos uma amostra e calcularmos a média dos valores desta amostra X difi cilmente ela vai ser igual a média verdadeira j apesar de estarem proximas para amostras suficientemente grandes Como a amostra é uma parte da populacao é l6gico pensar que os dois valores dificilmente vao coincidir Lembrese do estudo da distribuigao amostral da média Portanto quando vamos estimar um parametro sempre estamos sujeitos a come ter um erro denominado erro de estimacao ou de amostragem que é a diferenca entre a estatistica amostral e o parametro isto é eX yp 260 x t sn x t sn x Erro máximo Centro do intervalo µ Erro Limite inferior Limite superior µ Figura 77 Erro de estimacao associado a um intervalo de confianca A figura 77 ilustra o erro de estimacao associado a um intervalo de confianca Podemos ver que a media verdadeira µ pode estar proxima ou distante da media da amostra x assim no intervalo de confianca dizemos que temos por exemplo 95 de confianca de que elas nao diferem mais do que t5n1Sn A expressao do intervalo de confianca da media verdadeira quando o desvio padrao pop ulacional e desconhecido e dada por X t S n Com o intervalo de confianca podemos concluir com nıvel de confianca γ que a media da amostra nao se afasta mais do que tSn da media verdadeira Portanto o erro de estimacao maximo associado ao intervalo de confianca e dado por e t S n Podemos ver que o erro maximo de estimacao e a semiamplitude do intervalo de confianca Sendo assim e bastante comum na pratica especificarmos um erro maximo toleravel por exemplo 10 da media da amostra e encontrar o tamanho da amostra necessario para que a nossa pesquisa tenha uma precisao erro e confianca de acordo com o desejado Exemplo Um experimentador esta interessado em desenvolver um meio de cultura eficiente para micropropagacao da especie Eucalyptus viminalis Esse meio de cultura contem hormˆonio BAP na concentracao de 01 mgl e cinetina a 02 mgl Cada tubo de ensaio 261 recebeu um no de uma planta de 4 meses As culturas foram avaliadas apds 30 dias A variavel aqui estudada foi o numero de folhas Os resultados foram os seguintes Tubo 1 2341 5 7 8 9 10 Numero 10 10 2 8 14 11 11 12 8 Tubo 11 12 13 14 15 1617 18 19 20 Numero 1414 9 6 68 8612 8 Tubo 21 22 23 24 25 26 27 28 29 30 Numero 12 1015 5 7 649 1113 8 Estime o nimero médio de folhas utilizando um intervalo de confianca de 95 Faca uma interpretacgao Temos os seguintes resultados 7 9 3667 s 30904 n 30 e t00529 2 045 3 0904 ICu 95 93667 2045 V30 93667 1 1538 8 2128 pw 105205 Qual o erro maximo associado ao intervalo encontrado Faca a interpretacao O erro maximo é de 11538 folhas Portanto ficamos com a certeza de que a estimativa de 93667 folhas afastase da média verdadeira de no maximo 11538 folhas para um nivel de confianca de 95 Quando o desvio padrao populacional for conhecido o erro de estimacao é dado por o z Jn Erro de Estimacao Para Uma Proporcao Vimos que o erro de estimacao ou de amostragem nada mais é do que a metade da amplitude do intervalo de confianga No caso de uma proporao o intervalo de confianga é calculado por 1 p za2Pt n Donde obtemos o erro de estimagao p p 2 76 2q2 n 76 Exemplo No estudo dos peixes da espécie Xenomelaniris brasiliensis coletados na localidade da Praia da Barra da Lagoa Floriandépolis SC qual o erro maximo associado 262 ao intervalo encontrado Interpretar O erro maximo é de 02174 ou 2174 Portanto a proporcao amostral de 46 nao difere em mais do que 2174 da proporao populacional em ambos os lados para um nivel de confianca de 95 Vocé acha que a amplitude desse intervalo é pequena média ou grande 745 Determinacgao do Tamanho da Amostra Determinacao do Tamanho da Amostra Para Estimar Uma Média Populacional Uma das perguntas mais freqiientes em estatistica é qual é o tamanho da amostra necessdrio para estimar a média A resposta a esta pergunta so é possivel de ser dada apds o pesquisador da area de interesse fornecer algumas informagodes como veremos a seguir Podemos determinar o tamanho da amostra n através da formula do erro de estimacao associado a um intervalo de confianga o z Jn Para uma amostra aleatéria simples quando o desvio padrao populacional a é conhecido ou temos alguma informagao sobre 0 mesmo determinamos o tamanho da amostra pela expressao ZO 2 mo Na expressao 77 0 valor de e deve ser fornecido pelo pesquisador e indica a precisao desejada na pesquisa isto é quao préximas estao a média da amostra e a média da populagao Pense bem sobre isso pois a média verdadeira nos é desconhecida Definida pelo pesquisador a probabilidade de erro a encontramos a confianga desejada na pesquisa dada por 1 a Assim podemos ver que o pesquisador deve ter informacao sobre a precisao e a confianca que ele deseja para o seu trabalho Além da precisaéo e da confianca o pesquisador precisa ter alguma informacaéo sobre a variabilidade da populacao isto 6 sobre a variancia 07 Exemplo 1 Continuacao do exemplo dos pesos de pacotes de sementes de milho Que tamanho de amostra sera necessario coletar para produzir um intervalo de 95 de confianca para a verdadeira média com uma precisao de 50 gramas Veja figura 78 Portanto 263 OS x u005 a u005 E005 25 95 25 Figura 78 Tamanho de amostra para um erro de estimacao de 005 kg e confianca de 95 portanto nivel de significancia de 5 vamos encontrar um tamanho de amostra de modo que tenhamos 95 de confianca de que a média da amostra difere de no maximo 50 gramas para os dois lados da média da populagaéo Aplicando a férmula do tamanho da amostra obtemos 1 960 20 7 n 6146 62 005 Portanto necessitase de 62 pacotes de milho para estimar a média populacional com a precisao e a confianca desejadas Na pratica geralmente o desvio padrao populacional a é desconhecido ou nao temos conhecimento de um limite superior para o mesmo Nesse caso deveriamos usar o desvio padrao da amostra s e a distribuicgao t de Student Acontece que a amostra ainda nao foi coletada para que possamos conhecer o valor de s desvio padrao da amostra entao uma solucéo é coletar uma amostra piloto de n elementos para com base nela obtermos uma estimativa de s empregandose a seguir a expressao ts2 n 45 78 Onde t é 0 valor de tabela com n 1 graus de liberdade tamanho da amostra piloto menos um e probabilidade de erro igual aa Sen n implica que a amostra piloto ja é suficiente para a estimacao da média caso contrario devemos retirar mais elementos da populacao para completar o tamanho minimo da amostra 264 Exemplo 2 Continuacao do exemplo dos pesos ao nascer de bezerros da raca Ibagé Que tamanho de amostra serd necessdrio para produzir um intervalo de confianca de 95 para a verdadeira média com uma precisao de 5 da média da amostra preliminar A amostra piloto de tamanho n 20 nos forneceu uma 26 kg e s 2 kg Temos ainda que a precisao desejada vale e 00526 13 kg e t19005 2093 Portanto o tamanho da amostra vale n eee 1037 11 Necessitamos de uma amostra de 11 bezerros para a precisao e confianga estipuladas pelo pesquisador Como a amostra piloto tem tamanho n 20 maior que o tamanho da amostra necessario n 11 bezerros implica que a amostra piloto ja é suficiente para o estudo Podemos usar dois outros procedimentos para estimar o desvio padrao s quais sejam e sabemos que aproximadamente 96 dos valores de uma varidvel aleatéria com dis tribuigdéo normal encontramse no intervalo 2s e 2s assim o tamanho deste intervalo é 4s Podemos tomar os dois valores extremos dos dados disponiveis e calcular a amplitude de variagaéo A dos dados Para obter uma estimativa de s calculamos A4s8sA4 e uma estimativa de s pode ser obtida em artigos livros dissertagoes teses ou seja através de uma referéncia bibliografica Quando conhecemos o tamanho da populacao NV e verificase a desigualdade n 005N devese proceder a uma correcao ou ajuste para populagao finita do seguinte modo Preliminarmente a amostra é dimensionada para populacao infinita n 005N obtendo se o tamanho ne numa segunda fase corrigimos para populacao finita obtendose o tamanho ng dado por 79 Uma Aplicagao em Ecologia Método para Censo de Primatas na Natureza A utilizagao de trilhas transectos preferencialmente linhas retas abertas no local é um dos métodos mais usados para a estimativa da densidade contagem de varias espécies de animais importante que as trilhas estejam bem localizadas pois elas devem amostrar as diferentes vegetagdes do local em estudo 265 Aqui o tamanho da amostra corresponde ao numero de vezes que devemos percorrer cada trilha selecionada e é calculada através da expressao 2ts n Cts e2 Os termos que aparecem nesta formula ja foram discutidos Ressaltamos que a estimativa do desvio padrao da amostra s pode ser obtida através de uma amostra piloto preliminar Exemplo Desejamos determinar o tamanho da amostra numero de vezes que devemos percorrer as trilhas para obter um intervalo de confianga com 90 e erro de 02 animais De uma amostra piloto com 5 repeticdes em todas as trilhas obtevese uma estimativa do desvio padrao com sendo igual a 03 individuoskm Para o célculo do tamanho da amostra temos as seguintes informacoes tcom 514 graus de liberdade e a 0102132 s03 e02 O tamanho da amostra é dado por 22 1320 3 n 4090 41 0 2 De acordo com as exigéncias do intervalo de confianga precisamos de 41 repeticdes Como ja foram feitas 5 repeticoes necessitamos de mais 36 repeticoes A referéncia bibliografica utilizada foi oo eeeeeeeeeeeeees Determinacao do Tamanho da Amostra Para Estimar Uma Proporcao Populacional Para encontrarmos o tamanho necessdrio de uma amostra para estimarmos uma pro porcao da populacao procedemos de forma andloga ao que foi feito para o caso de estimacao de uma média da populacao De 76 obtemos a expressao para o tamanho da amostra dado por 22 9p1p Za Jo2 n 2 4 pl p 710 Acontece que nds nao sabemos o valor de p pois a amostra ainda nao foi retirada Podemos entretanto conhecer uma limitacgao superior para a proporgao em estudo Por 266 exemplo sabemos que a proporcao de sementes que germinam de uma determinada especie seguramente nao e superior a 090 Entao usamos esse valor para p A dificuldade de nao se conhecer uma estimativa do valor de π tambem pode ser resolvida atraves de uma amostra piloto de n elementos onde com base nesta amostra obtemos uma estimativa p e empregamos a seguir a expressao 710 Se n n a amostra piloto ja e o suficiente para a estimacao Caso contrario deveremos retirar da populacao os elementos necessarios a complementacao do tamanho mınimo da amostra Uma terceira alternativa e usar para p o valor 050 pois para este valor o produto p1 p e maximo e igual a 02514 Se substituırmos esse valor na expressao 710 obtemos n z2 α2 4e2 711 Entao quando nao temos a menor ideia sobre o valor de π podese inicialmente admitir π 0 50 para o calculo do tamanho da amostra Com este procedimento estamos superes timando o tamanho da amostra ou seja vamos trabalhar com uma amostra maior do que o necessario assim estaremos pecando por excesso Exemplo 1 Considere que uma amostra piloto de 35 peixes da especie Xenomelaniris brasiliensis foi coletada na localidade da Praia da Barra da Lagoa Florianopolis SC e apresentou 46 de peixes com comprimento total acima de 50 mm Se quisermos estimar a proporcao de peixes com comprimento acima de 50 mm qual o tamanho da amostra necessario para que tenhamos 99 de confianca de que o erro de nossa estimativa nao seja superior a 5 O valor de z para α 0 01 e 258 O tamanho da amostra necessario e n 2 582 0052 0 461 0 46 2662 560 2484 661 38 662 Portanto precisamos de uma amostra de 662 peixes para obtermos uma proporcao amostral que nao difira da proporcao verdadeira em mais do que 5 Neste mesmo exemplo suponha que nao saibamos nada sobre π qual deve ser o tamanho da amostra pesquisada 267 Temos y 99 e e 5 portanto 258 n 40 052 665 64 666 Do mesmo modo que para a estimacao de uma média se conhecermos o tamanho da populacao N e verificarmos a desigualdade n 005 devemos proceder a correcao para populacao finita dada em 79 Quando o tamanho da populacao é conhecido e a amostra representa mais do que 5 da populacao entao como ja foi mostrado anteriormente devemos aplicar um fator de correcao para populacgoes finitas para reduzir a estimativa do erro padrao da média e da proporcao Esse fator é dado por JN nN1 Exemplo 2 Sorteouse uma amostra aleatéria simples de 100 estudantes do curso de Engenharia AgronOmica e solicitouse aos mesmos que anotassem suas despesas com alimentacgao no periodo de um mes Ha 500 estudantes matriculados no curso O resultado da amostra foi uma despesa média de 40 um e um desvio padrao de 10 um um unidades monetarias a Construa um intervalo de 95 de confianga para a verdadeira média b Qual a importancia de uma amostra aleatéria nesse caso c Qual o tamanho da amostra necessario para que tenhamos 98 de confianga de que o erro na nossa estimativa nao seja superior a 20 um Como conhecemos o tamanho da populagaéo N 500 vamos verificar se a populacao pode ser considerada finita Como 100 005500 25 podemos considerdla como tal Portanto o erro padrao da média vale sz X2 oO 100 0 8953 JnV N1 VJ100V 5001 Como usamos o desvio padrao da amostra vamos usar a distribuicao t de Student O intervalo de confianga fica ICu 95 40 1990 8953 401782 38 218 pw 41 782 Sempre devemos ter uma amostra aleatéria Isso garante por exemplo a independéncia dos resultados O tamanho da amostra é dado por 2 n ea 13924 140 268 O tamanho da amostra com a corregao para populacao finita fica 140 No qm 107 9 108 1 x Exercicios resolvidos 1 De uma amostra de 100 peixes da espécie Xenomelaniris brasiliensis coletada na Armacao do Pantano do Sul Floriandépolis SC verificouse que 57 deles apresentavam com primento total maior que 50 mm Com base nessa informagao determine o intervalo de confianca de 99 para a verdadeira proporcao de peixes com comprimento total acima de 50 mm Qual o tamanho de amostra necessdrio para estimar a verdadeira proporgao com precisao de 5 usando uma confianca de 95 Temos n 100 p 57100 057eq1p043 0 570 43 IC799 0574 258 eer 057 0 12773 044227 m 06977 O calculo do tamanho da amostra fica 1967 057043 G a 570 43 37663 377 2 O diametro médio de Biomphalaria tenagophila examinada uma amostra de 35 ani mais foi de 0871 mm com um desvio padrao de 0057 mm a Dé a estimativa por intervalo do verdadeiro diametro médio utilizando um nivel de con fianca de 95 b Que tamanho de amostra sera necessdrio para produzir um intervalo de confianga de 95 para a verdadeira média com uma precisao de 2 da média da amostra preliminar Temos n 35 0871 mm s 0057 mm e 0 020 871 0 0174 0 057 ICu95 0871 2032 V35 0871 00196 08514 pw 08906 2 0320 057 n 0 0174 4421 45 269 3 Em um experimento 320 de 400 sementes germinaram Determine o intervalo de confianca de 98 para a verdadeira proporcao de sementes que germinam Para realizar o teste de germinacao quantas sementes serao necessarias utilizar se se deseja um intervalo de confianca de 95 com precisao de 4 Temos p 320400 0 80 IC798 080 2334 e 800020 080 0 0465 0 7535 7 08465 n Gan 800 20 384 16 385 0 04 75 Exercicios Propostos 1 Um antropdlogo mediu as alturas de uma amostra aleatéria de 100 homens de deter minada populacao encontrando a média amostral de 173 cm Se a variancia da populagao for de 9 cm a calcular um intervalo de 95 de confianga para a altura média de toda a populagcao Interpretar o IC b determinar um intervalo de 99 de confianga para a altura média de toda a populacao Interpretar o IC c Qual é a probabilidade de encontrar um homen com altura superior a 177 cm 2 Uma maquina enche pacotes de café com uma variancia igual a 100 g Ela estava regulada para enchélos com 500 g em média Agora ela se desregulou e queremos saber qual a nova média verdadeira populacional Uma amostra de 25 pacotes apresentou uma média igual a 485 g a Construir intervalos de confianga de 95 e 99 de confianga para a média verdadeira Interpretar os intervalos de confiancga b Qual o erro maximo associado aos intervalos encontrados em a Interpretar c Que tamanho de amostra seraé necessdrio para produzir um intervalo de confianga para a verdadeira média populacional com uma precisao de 35 gramas de café em qualquer dos sentidos dado que o desvio padrao da populacao é conhecido e igual a 10 gramas de café Use uma confianca de 99 270 3 De um povoamento de eucaliptos sorteouse 30 arvores e determinouse o diˆametro em cm com a finalidade de estimar o diˆametro medio do povoamento Diˆametros de 30 eucaliptos em cm 101 158 185 223 235 172 178 187 167 291 280 303 268 280 178 189 289 279 225 329 295 283 342 385 385 355 342 318 325 418 Com base nessa amostra calcule a os intervalos de confianca aos nıveis de 95 e 99 b qual o tamanho da amostra necessario para estimar o diˆametro medio de plantas de eucalipto se o erro maximo deve ser de 5 da media para um nıvel de confianca de 95 4 De 1000 lavouras de arroz foi levantada uma amostra de 25 lavouras e a informacao a respeito da produtividade permitiu o calculo do rendimento medio por hectare 1 ha 10000 m2 que foi de 3400 kg com um desvio padrao de 150 kg a Determine o intervalo de confianca a 95 e 99 para o verdadeiro rendimento medio b Que tamanho deve ter a amostra para que seja de 95 a confianca na estimativa 3400 100 5 Do rebanho bovino de determinado municıpio em maio constatouse que 30 de 20 animais examinados estavam com febre aftosa e em junho examinaramse outros 20 animais constatouse que 18 estavam acometidos daquela molestia Desejase saber entre que limites esteve a verdadeira proporcao de animais com febre aftosa tanto no mˆes de maio como no mˆes de junho Utilize um nıvel de confianca de 95 Qual o erro maximo associado aos intervalos encontrados Interpretar Num trabalho futuro qual o tamanho de amostra necessario para obter um intervalo de 95 de confianca para a proporcao com um erro toleravel de 008 em cada um dos mˆeses 6 Da producao de compotas de pˆessego da safra 7980 de uma determinada industria foram examinadas 30 latas e 3 delas estavam fora dos padroes para a exportacao Determinar o intervalo de confianca a 99 para a verdadeira proporcao de latas que estao fora dos padroes para exportacao 7 De uma partida de 1000 sacos de sementes de trigo tomouse uma amostra de 50 sacos e verificouse que 10 deles apresentavam teor de umidade acima do maximo permitido para o armazenamento Com base nessa informacao determine o intervalo de confianca de 99 para a verdadeira proporcao de sacos com teor de umidade acima do limite maximo permitido e o numero maximo e mınimo de sacos de sementes com esse problema 271 Tabela 71 Valores de comprimento Lagoa de Ibiraquera Fazenda de engorda de Laguna Classes Frequˆencias Classes Frequˆencias 470 507 2 76 82 2 507 544 2 82 88 0 544 581 11 88 94 9 581 618 11 94 100 13 618 655 3 100 106 4 655 692 1 106 112 2 8 Num experimento de campo o tratamento A com nove repeticoes tem media de 1500 kgha de feijao Temos uma estimativa do desvio padrao s180 kgha com 30 graus de liberdade Obter o intervalo de confianca para a media ao nıvel de 95 de confianca 9 De uma amostra de 26 valores de numero de colˆonias de Salmonella typhimurium em placas que contem a infusao de Bauhinia fortificata encontrouse um desvio padrao igual a 47 colˆonias e media igual a 7615 colˆonias a Qual o intervalo de confianca de 95 para a media populacional b Que tamanho deve ter uma amostra para que o intervalo 76 155 tenha 95 de confianca 10 Estime Intervalo de Confianca o comprimento medio µ de Pnaeus schmitti em condicoes normais no estuario Lagoa de Ibiraquera e num viveiro de cultivo Fazenda de engorda de Laguna sabendose que uma amostra de 30 indivıduos apresentou os resultados da tabela 71 Use γ 95 11 Uma amostra aleatoria de 60 progˆenies indica que 70 delas apresentam resistˆencia a antracnose Construir um intervalo de confianca para π a proporcao de progˆenies resistentes a antracnose com γ 95 12 O diˆametro de altura do peito DAP de Tabebuia ochracea o IpˆeAmarelo do Campo famılia Bigoniaceas e uma variavel aleatoria com distribuicao aproximadamente normal de media 070 cm e desvio padrao de 040 cm Encontre um intervalo de confianca em torno da media que contenha 95 dos valores de DAP 13 De um experimento anterior sabese que o desvio padrao da altura de plantas de um determinado hıbrido de milho e σ 0 80 m a Selecionada uma amostra de 72 plantas deste hıbrido observouse uma media de 210 m Qual o intervalo de confianca de 95 para a media populacional b Que tamanho deve ter uma amostra para que o intervalo 2 10 0 20 tenha 99 de confianca 272 14 Um agrˆonomo realizou um levantamento para estudar o desenvolvimento de duas especies de arvores a Bracatinga e a Canafıstula Para esta finalidade foram coletadas duas amostras de tamanhos igual a 10 arvores Os resultados para altura em metros estao descritos abaixo para as duas amostras Bracatinga Canafıstula 65 69 69 86 87 82 100 103 134 144 93 101 114 152 172 148 159 206 219 238 Para verificar a hipotese de que as alturas das duas especies sao diferentes o agrˆonomo adotou o seguinte criterio Construir os intervalos com 95 de confianca para cada uma das especies Se os intervalos se sobrepoem se interceptam concluir que nao ha diferencas significativas entre as duas alturas medias caso contrario concluir que ha diferencas entre as mesmas Baseado neste criterio qual a conclusao do agrˆonomo 15 As bromelias sao plantas epıfitas que vivem sobre galhos e troncos das arvores de nominados forofitos O estadio arboreo pioneiro e formado pela vegetacao que proporciona o sombreamento efetivo do solo originando um microclima umido e sombreado Uma amostra de 35 forofitos no estadio arboreo pioneiro da Floresta Ombrofila na Ilha de Santa Catarina apresentou 40 sem bromelias 1 Encontre um intervalo de confianca com 99 para a verdadeira proporcao de forofitos sem bromelias Faca a interpretacao do intervalo 2 Qual o erro maximo associado ao intervalo Faca a interpretacao 3 Para estimar a proporcao de forofitos sem bromelias π qual o tamanho de amostra necessario para que tenhamos 99 de confianca de que o erro de nosssa estimativa nao seja maior do que 5 Faca a interpretacao do n Considere a amostra com 35 forofitos como sendo uma amostra preliminar piloto 4 Uma outra amostra de 35 forofitos no estadio de floresta secundaria apresentou 2 sem bromelias Encontre o intervalo de confianca com 99 para a verdadeira proporcao π de forofitos sem bromelia 5 Para concluir se existe diferenca estatıstica entre as duas proporcoes oa Biologoa usou o seguinte criterio se os intervalos se sobrepoem se cruzam interceptam conclui que nao ha diferenca entre as duas proporcoes Qual a conclusao doa Biologoa Faca a representacao grafica dos intervalos 273 16 Os valores de DAP Diˆametro a Altura do Peito em cm de forofitos possuidores de Vriesea incurvata bromelia conhecida como espada de Davi em vegetacao primaria da Floresta Tropical Atlˆantica em Santo Amˆaro da Imperatriz SC foram 1002 1170 1392 1463 475 754 1230 780 266 613 920 990 1420 227 640 993 460 2220 1265 3360 720 890 1690 360 1075 1800 600 415 3180 3300 1 Construa o intervalo de confianca em torno da media verdadeira que contenha 95 dos valores de DAP 2 Que tamanho de amostra n sera necessario coletar para produzir um intervalo de confianca com 95 para a verdadeira media com precisao de 5 da media da amostra 274 8 Testes de Hipoteses Sobre os Parˆametros 81 Introducao Um problema que nos precisamos aprender a resolver e o de testar uma hipotese isto e feita uma determinada afirmacao sobre um parˆametro populacional por exemplo sobre uma media populacional ou uma proporcao populacional sera que os resultados de uma amostra contrariam ou nao tal afirmacao Podemos estar interessados em verificar por exemplo se as seguintes afirmacoes sao verdadeiras 1 a produtividade do milho em Santa Catarina e de 2300 kgha 2 os comprimentos medios dos antebracos de duas especies de morcˆegos sao iguais 3 a proporcao de fixacao de fitoplˆancton em dois tipos de solos e a mesma 4 a producao media de duas cultivares de feijao e a mesma 5 epocas de plantio estao associadas com a sobrevivˆencia das mudas O objetivo de um teste estatıstico de hipoteses e fornecer ferramentas que nos permitam aceitar ou rejeitar uma hipotese estatıstica atraves dos resultados de uma amostra Para exemplificar vamos considerar um teste de germinacao de sementes onde foram analisadas 400 sementes de milho obtidas por um processo de amostragem aleatoria de um grande lote de sementes encontrandose nesta amostra um poder germinativo de 928 Porem a distribuidora afirma que nao havera menos de 94 de germinacao no lote O que nos devemos responder com o auxılio de um teste de hipoteses e se podemos considerar a afirmacao da distribuidora como sendo verdadeira ou nao Aqui tambem devemos levar em consideracao a variabilidade amostral ja vista no estudo de distribuicoes amostrais Sabemos que retiramos somente uma amostra de 400 sementes deste lote na verdade poderıamos retirar k amostras de 400 sementes desse lote e para cada uma delas calcular a porcentagem de germinacao de sementes irıamos obter k valores de porcentagens provavelmente a maioria deles diferentes uns dos outros Entao existe o que nos conhecemos por variabilidade amostral e como vimos na secao 64 podem ser representadas pelas distribuicoes de probabilidades Assim uma pergunta que podemos fazer e a seguinte sera que este valor de 928 de poder germinativo pode ser considerado como sendo devido a esta variacao amostral ou e um valor muito distante de 94 sendo portanto uma diferenca real ou seja e pouco provavel obter uma amostra com 928 de 275 um lote com um poder germintativo de 94 Nao podemos responder essa pergunta sem o auxılio da estatıstica portanto precisamos fazer um teste estatıstico de hipoteses para chegarmos a uma conclusao Para todos os testes estatısticos inicialmente devemos formular as hipoteses Sempre vamos ter duas hipoteses estatısticas quais sejam 1 hipotese nula e a hipotese que sugere que a afirmacao que estamos fazendo sobre o parˆametro populacional e verdadeira Essa hipotese e representada por H0 No nosso exemplo a hipotese nula e que a verdadeira porcentagem de germinacao de sementes e de 94 portanto a distribuidora esta certa e a representamos por H0 π 94 2 Hipotese alternativa e a hipotese que sugere que a afirmacao que estamos fazendo sobre o parˆametro populacional e falsa e a representamos por H1 No nosso exemplo a hipotese alternativa e que o poder germinativo do lote e menor que 94 pois de vemos nos precaver contra o lote ter menos do que 94 de germinacao e portanto a distribuidora nao esta certa e a representamos por H1 π 94 Portanto a construcao da hipotese alternativa depende do grau de conhecimento biologico ou agronˆomico sobre o fenˆomeno ou das informacoes que se tˆem do problema em estudo Existem trˆes afirmacoes que podemos fazer em uma hipotese alternativa 1 H1 π 94 temos um teste bilateral 2 H1 π 94 temos um teste unilateral a direita 3 H1 π 94 temos um teste unilateral a esquerda Na subsecao 82 ilustrase estes trˆes casos Se apos realizado o teste estatıstico a decisao e a de nao rejeitar a hipotese nula entao dizemos que a diferenca verificada entre o valor encontrado na amostra e o valor alegado pela distribuidora e devido a variacao amostral e portanto o lote tem 94 de poder germinativo Por outro lado se o teste estatıstico indicar que nos devemos rejeitar a hipotese nula entao dizemos que a diferenca verificada entre o valor encontrado na amostra e o alegado pela distribuidora e real isto e o lote nao tem 94 de poder germinativo e de acordo com a hipotese alternativa ele apresenta menos de 94 de germinacao 276 Sempre que nos tomamos a decisao de nao rejeitar ou rejeitar uma hipotese nula estamos correndo o risco de uma decisao errOnea Por exemplo podemos rejeitar uma hipdtese nula quando deveriamos aceitala Assim como o que ocorre nos intervalos de confianca quando afirmamos que o parametro esta dentro do intervalo existe uma probabilidade de ele nao pertencer ao mesmo O que acontece na pratica é que nds sabemos qual é o valor dessa probabilidade e geralmente ele é baixo Portanto sempre que tomamos uma decisao de rejeitar uma hipotese nula temos uma alta probabilidade de estarmos certos No nosso exemplo a estatistica de interesse é a proporcao de sementes que germinam P dada em porcentagem Assim devemos conhecer a distribuicao amostral de uma proporao pois como sabemos ela descreve a variabilidade amostral Sabemos que a distribuigao amostral das proporgoes P quando 0 tamanho da amostra é suficientemente grande segue uma distribuicao normal com média 7 e desvio padrao op r1 m n onde 7 é a proporgao populacional e n é o tamanho da amostra Nesse caso estamos considerando a populagao como sendo infinita caso contrario é necessaério fazer a corregao para populagao finita no desvio padrao Assim se a afirmacao da distribuidora é verdadeira isto é se a nossa hipdtese nula realmente esta correta entao a nossa amostra com 928 de poder germinativo vem de uma distribuigao amostral com média wp 7 94 e desvio padrao 0940 06 Op non006 001187 1 187 Podemos usar a distribuigao normal para calcularmos a probabilidade de obter um valor de poder germinativo igual ou menor que 928 de uma amostra de 400 sementes ex traida de um lote populacgao com poder germinativo de 94 Com o auxilio da tabela da distribuigaéo normal padrao dada no apéndice 3 obtemos 0928 0940 ProbP 0928 Prob oT Probz 101 05 Prob0 z 101 05 0 34375 0 1563 1563 A figura 81 mostra a area da distribuigéo normal padrao correspondente ao valor de z 101 ou p 0928 Portanto nds temos uma probabilidade bastante alta de obter um 277 350 4765 494 000 475 350Escala padrio 0928 0940 Escala real Figura 81 Probabilidade de encontrar um valor menor que 928 de um lote com 940 de poder germinativo valor de poder germinativo igual ou menor que 928 devido a variagao amostral ou seja temos 1563 de probabilidade de obter uma amostra com um poder germinativo igual ou menor do que 928 de um lote com 94 de poder germinativo Se rejeitassemos Hp 7 94 o risco de erro ou seja rejeitar Ho quando na verdade deveriamos aceitar seria de 1563 o que é muito alto Isto nos leva a nao rejeitar Hp e assim concluir que a amostra é oriunda de um lote com 94 de poder germinativo e que a diferenga entre os valores 94 e 928 é devido a amostragem Este risco é chamado de nivel de significancia do teste e representase pela letra grega a A mesma interpretacao feita para os intervalos de confianga O nivel de significanica também é chamado de nivel descritivo ou valor p do teste No exemplo a 15 63 Agora vamos supor que a porcentagem de germinagao de sementes na amostra foi de 895 ao invés de 928 Neste caso a probabilidade de obter um valor de poder germina tivo amostral igual ou menor que 895 devido variacao amostral é dada por 0895 094 ProbP 0895 Prob Probz 378 05 Prob0 z 378 05 04999 00001 A figura 82 de acordo com os calculos mostra que é praticamente nula a probabilidade de se obter uma amostra com valor de 895 de um lote com 94 de poder germinativo Isto 278 0895 000 378 094 Escala real Escala padrão Figura 82 Probabilidade de encontrar um valor menor que 895 de um lote com 940 de poder germinativo significa que nos temos fortes indıcios para rejeitar a hipotese nula H0 π 94 Con cluımos portanto que e improvavel que esta amostra provenha de um lote de sementes com o poder germinativo alegado pela distribuidora Neste caso o risco de uma decisao errˆonea vale 00001 ou seja a probabilidade de rejeitarmos H0 quando na verdade deverıamos aceitala e de 00001 ou 001 Assim o valor p do teste e 001 Na pratica os nıveis de signifˆancia aceitaveis sao geralmente α 0 05 5 e α 0 01 1 Em alguns casos utilizase α 0 10 10 Supondo que o pesquisador defina como sendo de 5 o erro maximo de suas conclusoes Assim na amostra com 928 de poder germinativo o menor valor de α para o qual rejeitamos H0 vale 1563 portanto maior do que o erro maximo aceitavel pelo pesquisador isso implica que devemos aceitar a hipotese nula Na amostra com 895 de poder germinativo o menor valor de α para o qual rejeitamos H0 vale 001 portanto menor do que os 5 fixado pelo pesquisador isso implica que rejeitamos a hipotese nula Se o pesquisador fixar o nıvel de significˆancia em α 1 as conclusoes seriam as mesmas O leitor concorda Portanto em trˆes passos 1 formulacao das hipoteses 2 calculo das probabilidades com a estatıstica correta e 3 nao rejeitar ou rejeitar H0 podemos concluir um teste de hipoteses Ate aqui calculamos a probabilidade de encon trar um valor igual ou mais extremo do que o pesquisador encontrou no experimento α devido ao acaso variacoes aleatorias Se este valor for menor do que um valor fixado pelo pesquisador por exemplo α 5 rejeitamos a hipotese nula caso contrario aceitamos H0 279 Método Tradicional Uma outra forma de se fazer um teste de hipdteses o qual o denominaremos de método tradicional seria fixar o nivel de significancia desejado para o trabalho por exemplo a 5 Para este nivel de significancia considerado podemos encontrar os valores correspondentes de z e pe a partir deles definir as regioes de aceitacao e rejeicao da hipdtese nula Se os valores calculados de z ou de p com os dados da amostra pertencerem a regiao de aceitacao entao concluise a favor de Hp caso contrario rejeitase a hipdtese nula Vamos continuar com o nosso exemplo para mostrar como é feito o teste de hipdtese nesse caso Vamos considerar que 0 ntvel de significadncia valor p fixado pelo pesquisador seja a 5 Na distribuicéo normal padrao o valor de z abaixo do qual temos 5 da observacoes vale 165 Observe que o nosso teste é feito no lado esquerdo da curva isto é ele é um teste unilateral Vocé pode obter este valor diretamente da tabela da distribuicaéo normal padrao basta encontrar o valor de z que corresponde a uma probabilidade de 045 ou entao usar um programa software estatistico Nao esqueca que as probabilidades sao dadas no corpo da tabela da distribuigao normal padrao Encontre este valor Podemos encontrar o valor de p que corresponde ao valor de z 1 65 da seguinte forma pT poe Ee p 094 165 00119 p 092 92 A figura 83 ilustra as regides de aceitacao e de rejeicao da hipdtese nula para um nivel de signifcancia de 5 Embora esperamos que 0 poder germinativo seja de 94 nés temos 5 das porcentagens amostrais com valores abaixo de 92 de germinacéo Portanto se aceitarmos tomar z 165 ou p 92 como linha diviséria entre o que é uma diferenca casual ou real ha um risco de 5 de rejeitarmos a hipdétese nula quando ela é de fato verdadeira O valor de z calculado com os dados da amostra vale 0928 0940 2 Nong 101 A proporgao verificada na amostra foi igual a p 0928 928 Como podemos ver na figura 83 o valor calculado de z com os dados da amostra pertence a regiao de aceitacao da hipdétese nula Da mesma forma o valor da proporcao encontrada na amostra de 928 280 000 165 5 45 Região de rejeição de H0 Região de aceitação de H0 094 092 Figura 83 Regioes de aceitacao e de rejeicao da hipotese nula para uma probabilidade de erro de 5 pertence a regiao de aceitacao Portanto concluımos que nao devemos rejeitar a hipotese nula de que π 94 ao nıvel de significˆancia de 5 Pelo que foi exposto podemos estabelecer uma sequˆencia logica para a realizacao de um teste de hipotese pelo metodo tradicional Os itens dessa sequˆencia sao 1 todo o trabalho inicia com a formulacao das hipoteses estatısticas Como vimos todo teste estatıstico envolve duas hipoteses hipotese nula H0 e a hipotese alternativa H1 2 o pesquisador precisa decidir qual a estatıstica amostral ou estimador que ele vai usar X P S2 X1 X2 e ter conhecimento dos resultaods da distribuicao amostral do estimador pois como vimos ela descreve a variabilidade amostral 3 o pesquisador precisa fixar um nıvel de signifcˆancia α para o teste e assim delimitar as regioes de aceitacao e de rejeicao da hipotese nula 4 calcular o valor da estatıstica teste no nosso curso vamos usar as estatısticas z t e χ2 com os dados da amostra valor calculado que sera comparado com o valor de tabela valor crıtico 5 consiste em verificar se o valor da estatıstica teste valor calculado com os dados da 281 amostra pertence ou nao a regiao de rejeicao de H0 Se nao pertence a regiao de rejeicao nao rejeitamos H0 caso contrario rejeitamos H0 Ultimamente com a crescente disponibilizacao de microcomputadores e programas soft wares estatısticos e mais informativo encontrarmos o nıvel mınimo significativo nıvel des critivo ou valor p de um teste que em inglˆes denominase pvalue 82 Testes de Hipoteses Unilaterais e Bilaterais Vimos que existem trˆes possibilidades para a hipotese alternativa quais sejam H1 π π0 teste bilateral H1 π π0 teste unilateral a direita H1 π π0 teste unilateral a esquerda A figura 84 ilustra essas trˆes possibilidades para a hipotese alternativa Observe as respec tivas regioes de aceitacao e de rejeicao da hipotese nula em cada caso No teste bilateral as areas de rejeicao correspondem a α2 enquanto que nos testes unilaterais a area de rejeicao corresponde a α Observe que o sinal ou aponta para o lado da curva a ser utilizado Quando definimos o nıvel de significˆancia α do teste consequentemente temos o ponto crıtico ou seja o ponto limitrofico entre as duas regioes 83 Erros Tipo I e Tipo II De acordo com o que vimos quando rejeitamos a hipotese nula corremos o risco de estarmos tomando uma decisao errˆonea ou seja nos rejeitamos a hipotese nula quando na verdade deverıamos aceitala Este risco e o nıvel de significˆancia ou valor p do teste e e representado pela letra grega α Esse nıvel de significˆancia e tambem conhecido como erro tipo I e a probabilidade de sua ocorrˆencia vale α Um segundo tipo de erro que podemos cometer e aceitar a hipotese nula quando ela e de fato falsa Neste caso temos o erro tipo II o qual e representado pela letra grega β Esquematicamente temos Se H0 e verdadeira falsa nao rejeitar H0 decisao correta 1 α erro tipo II β Acao rejeitar H0 erro tipo I α decisao correta 1 β 282 α2 α2 1α Ponto crítico Ponto crítico Região de aceitação Região de rejeição Região de rejeição a Teste bilateral α 1α Ponto crítico Região de rejeição Região de aceitação b Teste unilateral a direita α 1α Ponto crítico Região de aceitação Região de rejeição c Teste unilateral a esquerda Figura 84 Testes de hipoteses unilaterais e bilaterais 283 Na pratica e costume escolherse nıveis tradicionais 5 e 1 para α e ignorar o erro tipo II ou seja vamos nos preocupar em controlar o erro tipo I 84 Testes de Medias Populacionais O objetivo de testarse hipoteses sobre medias verdadeiras e avaliar certas afirmacoes feitas sobre as mesmas Por exemplo podemos desejar verificar a afirmacao de que as alturas medias de plantas de feijao para sementes de alto e baixo vigor sao iguais Existem basicamente trˆes tipos de afirmacoes que se podem fazer quando se estuda medias populacionais quais sejam 1 a afirmacao diz respeito a uma media populacional entao temos o teste de uma media populacional Exemplo os pesos ao nascer de bezerros da raca Nelore no planalto Catarinense em agˆosto e de 255 kg 2 a afirmacao diz que as medias de duas populacoes dois tratamentos sao iguais temos entao o teste de comparacao de duas medias Exemplos 1 as producoes medias de batatinhas de duas variedades sao iguais e 2 as areas foliares especıficas medias da especie Cecropia glaziovi cujo nome vulgar e embauba ou embauva em amostras situadas na borda da mata e na mata fechada sao iguais 3 a afirmacao diz que as medias de mais de duas populacoes mais do que dois tratamen tos sao todas iguais temos entao o teste de comparacao de k medias com k 2 Neste caso devemos fazer uma Analise de Variˆancia Existem diversos livros especial izados em planejamento e analise de experimentos que tratam desse tipo de analise por exemplo os livros de Vieira 1999 e Steel Torrie 1960 Por exemplo dese jamos saber se ha diferencas entre trˆes locais Baıa Norte Baıa Sul e Pˆantano do Sul quanto ao numero medio de micronucleos por 5000 celulas sanguıneas de peixes do gˆenero bagre As tecnicas que nos vamos estudar pressupoem uma distribuicao normal da distribuicao amostral da estatıstica ou estimador X X1 X2 Como sabemos essa suposicao sera valida se a distribuicao da variavel em estudo seguir uma distribuicao normal e a amostragem for aleatoria e em geral com boa aproximacao se a amostra for suficientemente grande sugestao n 30 284 841 Teste de Uma Media Populacional Quando a Variˆancia Populacional for Desconhecida Como ja foi dito no estudo dos intervalos de confianca e comum na pratica nao conhecer mos o valor da variˆancia populacional σ2 Entao devemos estimala atraves dos valores obtidos na amostra atraves da variˆancia amostral S2 No estudo de intervalos de confianca ja discutimos que ao substituir σ pela sua estima tiva s devemos utilizar a distribuicao t de Student com n 1 graus de liberdade onde n e o tamanho da amostra Do estudo de intervalos de confianca obtemos a expressao da estatıstica teste a ser usada aqui dada por tn1 X µ0 S n 81 a qual tem distribuicao t de Student com n 1 graus de liberdade Como ja foi salientado para pequenas amostras e importante que a variavel em estudo tenha distribuicao normal X Nµ σ2 com µ e σ2 desconhecidos Para o teste de uma media a hipotese nula e dada por H0 µ µ0 Com conhecimento a respeito do assunto em estudo o pesquisador ira selecionar uma das seguintes hipoteses alternativas H1 µ µ0 teste bilateral H1 µ µ0 teste unilateral a direita H1 µ µ0 teste unilateral a esquerda Como ja foi dito na realizacao de um teste de hipotese costumase calcular o valor p do teste No caso do teste de uma media quando a variˆancia populacional for desconhecida o valor p e calculado como segue Para testar se µ e significativamente menor do que o valor estabelecido na hipotese H0 µ µ0 calculamos a probabilidade da variavel aleatoria t assumir um valor menor ou igual ao valor de tn1 calculado com os dados da pesquisa de acordo com a equacao 81 Quando a hipotese alternativa e H1 µ µ0 isto e temos um teste unilateral a esquerda esta probabilidade e Pt tn1 a qual pode ser obtida em tabelas da distribuicao t de Student Apˆendice 4 ou atraves de programas estatısticos A hipotese de nulidade H0 sera rejeitada se este valor p for bem pequeno digamos inferior a 285 5 Da mesma forma se a hipotese alternativa for H1 µ µ0 a hipotese nula H0 sera rejeitada se a Pt tn1 for bem pequena Se a hipotese alternativa for bilateral isto e H1 µ µ0 entao valores grandes negativos ou valores grandes positivos de tn1 sao fortes indicativos para a rejeicao da hipotese nula Neste caso a hipotese nula sera rejeitada se Pt tn1 Pt tn1 a qual e igual a 2Pt tn1 for pequena Vejamos agora a aplicacao do teste de hipotese de que uma media populacional µ e igual a um valor fixo µ0 supondose que a variˆancia populacional σ2 seja desconhecida Exemplo 1 Supoese que a produtividade media de feijao da safra no Estado de Santa Catarina e de 800 kgha Para investigar a veracidade dessa afirmacao consultouse uma publicacao do Instituto CEPASC onde obtevese os seguintes valores de produtividade media de feijao Safra 8081 8182 8283 8384 8485 8586 8687 8788 8889 Produtividade 1017 980 507 841 899 264 700 800 653 a Qual a conclusao ao nıvel de significˆancia de 5 b Dˆe a estimativa da verdadeira produtividade media com confianca de 95 A nossa variavel em estudo e a produtividade media anual Como sao valores medios podemos assumir que a distribuicao da variavel e normal Como nao temos informacoes adicionais se a produtividade media e maior ou menor do que 800 kg vamos construir as hipoteses do seguinte modo H0 µ 800 kgha versus H1 µ 800 kgha A amostra nos fornece x 740 11 kgha e s 240 68 kgha Como vamos fazer um teste sobre uma media populacional com variˆancia estimada com os dados de uma amostra usamos a estatıstica 81 a qual segue uma distribuicao t de Student com 9 1 8 graus de liberdade Para um nıvel de significˆancia de 5 e com o uso da tabela da distribuicao t apˆendice 4 ou de um programa estatıstico obtemos tn1α t91005 t8005 2 306 A regiao de rejeicao e dada pelos valores t8 2 306 a regiao de aceitacao compreende os valores inclusive entre 2306 e 2306 isto e t8 2 306 A figura 85 mostra as regioes de aceitacao e de rejeicao da hipotese Observe nesta figura como o teste e bilateral que o nıvel de significˆancia esta dividido em duas partes 0 052 ou seja 0025 na cauda do lado esquerdo e 0025 na cauda do lado direito Com os valores da amostra vamos calcular 286 000 0025 0025 095 2306 2306 Região de aceitação Região de rejeição Região de rejeição Figura 85 Regioes de aceitacao e de rejeicao da hipotese nula com α 5 para o teste de uma media populacional a estatıstica teste t8 740 11 800 24068 9 59 89 80 226 0 746 Como o valor calculado 0746 cai na regiao de aceitacao de H0 concluimos a favor de H0 Os dados da amostra indicam ao nıvel de significˆancia de 5 que a produtividade media pode ser considerada igual a 800 Kgha Acabamos de fazer o teste pelo metodo tradicional Podemos chegar a mesma conclusao calculando diretamente o menor nıvel para o qual rejeitamos a hipotese nula devido ao acaso isto e encontrando o nıvel mınimo significativo ou valor p do teste Devemos calcular a Pt 0 746 Pt 0 746 devido ao acaso Se esse valor for igual ou maior do que 5 devemos aceitar a hipotese nula caso contrario rejeitamos Com o uso de um programa estatıstico na distribuicao de Student com 8 graus de liberdade obtemos Pt 0 746 0 238507 Como a distribuicao e simetrica a Pt 0 746 tambem vale 0238507 assim o nıvel mınimo significativo do teste vale 2 0 238507 0 477017 Portanto nao rejeitamos a hipotese nula pois se a rejeitarmos a probabilidade do erro tipo I e de 4781 O intervalo de confianca para a media verdadeira fica ICµ 95 740 11 2 306240 68 9 287 740 11 185 00 555 1 µ 925 11 Observacao Podemos chegar a mesma conclusao de um teste de hipotese bilateral atraves do estudo do intervalo de confianca Sempre que o intervalo incluir o valor de H0 devemos aceitar a hipotese nula No exemplo 800 kgha esta contido no intervalo portanto aceitamos H0 µ 800 kgha Exemplo 2 Foi retirada uma amostra de tamanho 10 da populacao de pesos aos 210 dias de bezerros da raca Nelore Os valores em kg foram os seguintes 178 199 182 186 188 191 189 185 174 158 Teste as hipoteses H0 µ 186 vs H1 µ 186 ao nıvel de significˆancia de 5 A variavel em estudo e do tipo contınua e vamos assumir que a mesma tenha pelo menos aproximadamente distribuicao normal Como desejamos fazer um teste para uma media e temos uma estimativa da variˆancia vamos usar a estatıstica 81 Na amostra obtemos x 183 e s 11 18 Para α 5 da tabela da distribuicao t de Student para um teste unilateral de acordo com a hipotese alternativa obtemos t9005 1 83 Para encontrar este valor na tabela da distribuicao t de Student apˆendice 4 devemos entrar na coluna de P 0 10 pois a tabela e bilateral e o teste e unilateral A tabela so fornece valores positivos de t como ela e simetrica basta mudar o sinal A regiao de rejeicao corresponde aos valores menores do que 183 a regiao de aceitacao e formada pelos valores maiores ou igual a 183 A figura 86 mostra as duas regioes Com os dados da amostra temos t9 183 186 1118 10 0 847 O valor 0847 esta na regiao de aceitacao portanto aceitase a hipotese nula Os dados da amostra suportam a hipotese de que a media dos pesos aos 210 dias de bezerros da raca Nelore e igual a 186 kg com probabilidade de erro de 5 Podemos fazer o teste atraves da interpretacao do valor p Com o auxılio de um programa estatıstico vamos encontrar o valor p do teste O menor valor de α para o qual rejeitamos a hipotese nula e Pt 0 847 0 2095 20 95 Como 2095 e maior do que os 5 definido pelo pesquisador devemos aceitar a hipotese nula E assim o pesquisador admite uma probabilidade de erro de no maximo 5 neste 288 005 183 Regiao de rejeicao Regido de aceitacao Figura 86 Regioes de aceitacao e de rejeicao da hipdétese nula com a 5 para o teste de uma média populacional exemplo se ele rejeitar a hipdtese a probabilidade de erro é de 2095 portanto ele deve aceitar a hipdtese nula Exemplo 3 Continuacao do exemplo dos residuos industriais jogados nos rios da secao 742 Leia aquele enunciado Teste as hipdteses Ayo w5 versus Ay pA5 O valor da estatistica teste é 4933 5000 ts 22S 12014 0 1366V6 O valor tedrico de é t5005 2571 Portanto a regiao de aceitagao esta entre 2571 e 2571 Como o valor 12014 esta dentro desta regiao nao rejeitamos a hipdtese nula Uma Aplicagao em Distribuicao Espacial Sabemos que na distribuicao de Poisson os individuos se distribuem aleatoriamente num habitat Na distribuicao de Poisson a média py 6 igual a variancia 0 ou seja 0 u1 como visto na segao 47 Quando a razao 071 for menor do que 1 dizemos que a distribuicao é uniforme se a razao o7y for maior do que 1 conclufmos que a distribuicdo é agregada Neste caso estamos interessados em testar as seguintes hipdteses Hyo7u1 versus Hyo7uF1 ou seja sob Ho a distribuicao da espécie é aleatéria Para verificar as hipdteses assim formuladas a estatistica do teste é dada por SX 1 2n 1 289 Tabela 81 Distribuigao de Primula simenses X plantas por quadrado Numero de quadrados com X plantas 0 26 1 21 2 23 3 14 4 11 5 4 6 5 7 4 8 1 8 0 Total 109 a qual tem distribuicao t de Student com n 1 graus de liberdade Exemplo Uma certa regiao florestal foi dividida em 109 quadrados para estudar a dis tribuicéo de Primula simenses selvagem A priori supomos que este tipo distribuise aleato riamente na regiado A tabela 81 indica o nimero de quadrados com X Primula Simenses o numero médio de plantas por quadrado foi de 22 e a variancia foi igual a 39549 portanto o desvio padrao vale 19887 Encontre esses valores O valor da estatistica t é y Busi 0816 oy Vs 0 1361 1091 O valor de da tabela vale 198005 198 Como 602 198 rejeitamos a hipdtese nula e concluimos que a distribuicao é por agregado A referéncia bibliogrdafica utilizada foi Brower Zar ano 842 Teste de Duas Médias Populacionais com Variancias Populacionais De sconhecidas Vamos nesta secao estender o procedimento anterior para o caso de comparagao de duas médias populacionais quando as variancias populacionais sao desconhecidas A funda mentacgao basica continua sendo a mesma s6 se farao algumas alteragoes quanto a estatistica teste a ser utilizada 290 Inicialmente vamos supor que temos duas amostras selecionadas de populacoes normais variavel em estudo apresente pelo menos aproximadamente uma distribuicao normal A questao da normalidade e especialmente importante quando o tamanho da amostra e pequeno Para cada amostra vamos calcular a media e a variˆancia dos dados O objetivo do teste neste caso e decidir se as medias de duas populacoes sao iguais De modo geral vamos testar hipoteses referentes ao valor real da diferenca entre duas medias populacionais ou seja H0 µ1 µ2 Na pratica temos especial interesse quando 0 neste caso testamos a hipotese de igualdade das duas medias ou seja H0 µ1 µ2 Como no caso do teste de uma media populacional temos trˆes possibilidades para a hipotese alternativa quais sejam H1 µ1 µ2 teste bilateral H1 µ1 µ2 teste unilateral a direita H1 µ1 µ2 teste unilateral a esquerda Num teste de comparacao de duas medias temos dois casos a considerar quais sejam 1 dados pareados ou amostras dependentes Os dados de duas amostras con stituem dados pareados quando estao relacionados dois a dois segundo algum criterio que introduz um influˆencia marcante entre os diversos pares de valores Tambem e importante observar que deve haver independˆencia entre observacoes dentro de cada uma das amostras Exemplo desejamos fazer um teste estatıstico para verificar se existe diferenca signi ficativa entre as medias das notas obtidas na primeira avaliacao e na segunda avaliacao da disciplina de estatıstica Entao para cada aluno tomamos a sua nota na primeira avaliacao e na segunda avaliacao Como existem diferencas entre os alunos alguns es tudam mais outros tem mais facilidade com a disciplina etc os pares de notas cada aluno um par de notas nao sao independentes Existe o fator aluno introduzindo uma influˆencia forte entre os pares de dados Observe que para cada amostra como os alunos sao diferentes as observacoes sao independentes dentro delas Outro exemplo vamos submeter seis animais de determinada especie a uma nova dieta Afim de determinar o efeito da dieta foram tomados os pesos antes e depois 291 da dieta Nesse caso as observacoes foram feitas nos mesmos animais medindo uma caracterıstica antes e depois deles serem submetidos a uma dieta 2 dados nao pareados ou amostras independentes Neste caso os dados das duas amostras nao estao relacionados por nenhum fator que possa confundir misturar o efeito do fator em estudo Alem disso deve haver independˆencia entre observacoes dentro das amostras Exemplo vamos fazer um estudo com o objetivo de verificar se o comprimento do ante braco de morcˆegos de duas especies sao iguais Para isso tomamos uma amostra de morcˆegos da especie A e uma outra amostra de morcˆegos da especie B Podemos perce ber que os dados das duas amostras nao estao relacionados ou seja as duas amostras sao independentes pois os resultados de uma amostra nao interfere nos resultados da outra amostra Tambem verificamos que as observacoes dentro das amostras sao independentes pois sao morcˆegos distintos Para o caso de amostras independentes podemos ainda distinguir duas situacoes quais sejam 1 quando as variˆancias sao desconhecidas mas podem ser consideradas iguais ou seja a ordem de grandeza nao difere muito 2 quando as variˆancias sao desconhecidas e consideradas desiguais ou seja a ordem de grandeza difere bastante Vamos fazer dois testes de significˆancia para comparacao de duas medias de amostras independentes um para variˆancias homogˆeneas consideradas iguais e outro para variˆancias heterogˆeneas consideradas desiguais Portanto percebemos que tambem ha a necessidade de se fazer um teste de hipoteses para as variˆancias populacionais para podermos decidir se as mesmas podem ser consideradas iguais ou nao Teste para Dados Pareados Inicialmente vamos apresentar um exemplo que esta muito relacionado com o planeja mento de um experimento Na verdade vamos exemplificar a construcao do delineamento talvez o mais utilizado na experimentacao denominado de blocos ao acaso Vamos supor que desejamos colocar em teste duas cultivares de feijao Decidiuse que serao feitas sete repeticoes de cada cultivar portanto os tamanhos das amostras vao ser iguais e igual a 7 n1 n2 7 Tambem decidiuse que as unidades experimentais vao ser 292 formadas por areas de terra canteiros de 20 m2 e serao utilizadas 250 gramas de sementes por unidade experimental Como temos duas cultivares cada uma com 7 repeticoes vamos precisar de 14 unidades experimentais Vamos imaginar que a area que o pesquisador tem a disposicao para implantar o experimento apresenta uma consideravel inclinacao fazendo com que exista heterogeneidade entre as unidades experimentais quanto a fertilidade do solo Na parte alta do terreno a fertilidade e menor do que na parte baixa do mesmo E fundamental que o pesquisador encontre uma forma de dispor as unidades experimentais de tal forma que a diferenca de fertilidade seja eliminada da comparacao entre as duas cultivares Portanto ja de inıcio devemos descartar a possibilidade de se fazer uma sorteio aleatorio das duas cultivares nas 14 unidades experimentais Imagine que no sorteio a maioria das unidades experimentais que estao localizadas na faixa mais fertil da area receba a cultivar 1 Dessa forma nao saberemos distinguir o que e variacao devido a cultivar ou devido a fertilidade do solo os efeitos estao confundidos A forma correta do desenho experimental e dado na figura 87 Foram construıdos sete blocos dentro de cada bloco as unidades sao homogˆeneas quanto a fertilidade pois estao na mesma faixa do terreno Entre os blocos pode e deve existir diferencas de fertilidade O sorteio das cultivares as unidades experimentais e feito independentemente para cada bloco Portanto a formacao de blocos constitue um pareamento O criterio para a formacao dos pares pode ser por exemplo as formulacoes de um comprimido ou seja o que denominamos em experimentacao de fator Desejase comparar dois metodos de determinacao da quantidade de princıpio ativo presente nos comprimidos quais sejam 1 HPLC e 2 Titulacao Para cada formulacao aplicase os dois metodos Se temos por exemplo sete formulacoes teremos sete pares Vamos apresentar o teste de duas medias para dados pareados atraves de um exemplo Como fizemos para o caso do teste de hipotese de uma media aqui tambem vamos fazer o teste pelo enfoque tradicional ou seja fixamos o valor do nıvel de significˆancia α encon tramos as regioes de aceitacao e de rejeicao da hipotese e verificamos em qual destas regioes o valor da estatıstica teste se encontra e pelo metodo atual ou seja encontrandose qual o menor valor de α para o qual rejeitamos a hipotese nula ou seja o valor p Como podera ser verificado o teste para comparacao de duas medias de amostras pareadas e um teste para comparacao de uma media de valores de diferencas dos pares Exemplo Foi conduzido um experimento para estudar o conteudo de hemoglobina no sangue de suınos com deficiˆencia de niacina Aplicouse 20 mg de niacina em 8 suınos Podemos afirmar que o conteudo de hemoglobina no sangue diminuiu com a aplicacao de niacina ao nıvel de significˆancia de 5 Encontre o intervalo de confianca com 95 para a 293 Fertilidade C1 C1 C2 C2 C1 C1 C2 C2 C2 C1 C1 C2 C2 C1 Bloco I Bloco IV Bloco III Bloco V Bloco VI Bloco VII Bloco II Parte alta do terreno Parte baixa do terreno Figura 87 Delineamento blocos ao acaso 294 verdadeira diferenca entre as duas medias Foram mensurados os nıveis de hemoglobina no sangue antes e depois da aplicacao da niacina os resultados obtidos no experimento foram Suınos Antes A Depois B Diferencas AB 1 136 114 22 2 136 125 11 3 147 146 01 4 121 130 09 5 123 117 06 6 132 103 29 7 110 98 12 8 124 104 20 Vamos considerar que temos um suporte teorico para esperar que o conteudo de hemoglobina no sangue diminua com a aplicacao de niacina portanto as hipoteses ficam H0 µA µB versus H1 µA µB As mesmas hipoteses dadas em forma de diferencas entre as duas medias µD µA µB podem ser escritas como H0 µD 0 versus H1 µD 0 Trabalhandose com as diferencas na verdade estamos eliminando as diferencas entre os indivıduos no exemplo suınos Vamos admitir que sob H0 as diferencas de conteudo de hemoglobina seguem pelo menos aproximadamente uma distribuicao normal com media 0 zero e variˆancia σ2 D e a representamos por D N0 σ2 D Tomandose os valores das diferencas entre A e B caımos no caso do teste de uma media com variˆancia desconhecida cuja estatıstica teste e dada por tn1 D µD SD n 82 a qual segue uma distribuicao t de Student com n1 graus de liberdade Aqui D e a media das diferencas entre os valores de A e B SD e o desvio padrao das diferencas e µD e o valor dado na hipotese nula geralmente este valor e nulo Com os dados da amostra obtemos d 1 15 s d 1 225 Para um nıvel de significˆancia fixado em 5 e teste unilateral obtemos na tabela da distribuicao t de Student o valor t7 1 895 A estatıstica teste 82 calculada com os valores da amostra vale t7 1 15 0 1 225 8 2 655 295 000 Região de aceitação Região de rejeição 1α α 189 266 Figura 88 Teste de hipotese para comparar duas medias de dados pareados As regioes do teste de hipotese e o valor da estatıstica teste estao indicadas na figura 88 para o nıvel de significˆancia desejado Como o valor de t calculado na amostra cai na regiao de rejeicao de H0 concluımos ao nıvel de significˆancia de 5 que o conteudo de hemoglobina diminui com a aplicacao de 20 mg de niacina Podemos facilmente obter o nıvel mınimo significativo do teste determinando a proba bilidade de se encontrar um valor igual ou mais extremo do que 2655 devido ao acaso Com o auxılio de um programa estatıstico este valor e dado por Pt 2 655 0 016352 Portanto a probabilidade de que esse resultado tenha ocorrido devido ao acaso e de apenas 164 Como este valor e menor do que os 5 fixado pelo pesquisador rejeitamos a hipotese nula Importante devemos tomar muito cuidado quando estamos usando um programa es tatıstico para fazer um teste de hipotese no sentido de verificar se o programa esta fazendo um teste bilateral ou unilateral Por exemplo o programa Statistica para o exemplo em estudo fornece um valor p de 0032665 ou seja esta considerando um teste bilateral Neste caso devemos dividir 0032665 por 2 para obtermos o valor p correto O intervalo de confianca para µD e dado por ICµD 95 1 15 2 3651 225 8 1 15 1 0243 0 1257 µD 2 1743 83 296 Observe que o valor de t vale 2365 obtido diretamente na tabela para α 5 pois o intervalo de confianca e bilateral assim como a tabela por nos utilizada Teste para Comparacao de Duas Medias de Amostras Independentes e Variˆancias Desconhecidas e Supostas Iguais Como vimos o procedimento de teste de hipoteses sempre segue uma mesma sequˆencia o que muda e a estatıstica amostral de interesse do pesquisador e a estatıstica de teste a ser utilizada Vamos supor que as amostras sejam independentes oriundas de duas populacoes com distribuicao normal e que as variˆancias das duas populacoes sao desconhecidas e portanto precisam ser estimadas e que nao difiram muito em ordem de grandeza Para sabermos se duas variˆancias podem ser consideradas iguais ou seja se existe ho mogeneidade de variˆancias e necessario que se proceda a um teste de hipoteses sobre as variˆancias populacionais Portanto inicialmente vamos testar a hipotese de homogeneidade de variˆancias e em seguida dado que aceitamos que as variˆancias sao iguais vamos testar a hipotese de igualdade entre as medias das duas populacoes O teste de comparacao de duas medias quando as variˆancias sao desiguais ou heterogˆeneas sera apresentada na proxima secao A comparacao entre variˆancias e feita com o uso do teste F o qual passamos a estudar Teste F para Comparacao de Variˆancias Populacionais Como qualquer outro teste devemos sempre iniciar pela formulacao das hipoteses que nesse caso sao dadas por H0 σ2 1 σ2 2 versus H1 σ2 1 σ2 2 Onde σ1 e σ2 sao as variˆancias da populacao 1 e populacao 2 respectivamente A hipotese nula admite que as duas populacoes tem a mesma variˆancia Observe que na hipotese sempre temos os parˆametros A hipotese alternativa admite que a variˆancia da populacao 1 e maior do que a variˆancia da populacao 2 ou seja as variˆancias sao heterogˆeneas Portanto vamos aqui sempre fazer um teste unilateral Quando desejamos comparar variˆancias devemos utilizar a estatıstica F dada pelo quo ciente entre as duas estimativas de variˆancias s2 1 e s2 2 de σ2 1 e σ2 2 respectivamente distintas e supostas independentes Temos F s2 1 s2 2 84 297 As variˆancias s2 1 e s2 2 sao calculadas com os n1 e n2 dados das amostras respectivamente Assim dizemos que a s2 1 estao associados n11 graus de liberdade numerador e da mesma forma para s2 2 estao associados n2 1 graus de liberdade denominador Vamos admitir sempre que s2 1 e maior do que s2 2 ou seja no numerador vamos usar a variˆancia maior de tal modo que tenhamos F 1 A conclusao do teste pode ser feita atraves do nıvel mınimo significativo valor p Se este valor for bastante baixo digamos menor do que 5 rejeitamos a hipotese nula caso contrario nao rejeitamos Outra forma e fazer a comparacao do valor de F calculado com os dados das amostras Fcalculado e o valor de F crıtico obtido na tabela da distribuicao F dada no apˆendice 6 com n1 1 graus de liberdade no numerador e n2 1 graus de liberdade no denominador e com um nıvel α de probablidade fixado pelo pesquisador Entao por este procedimento rejeitamos H0 se Fcalculado Fn11n21α A tabela fornecida no apˆendice 6 apresenta o nıvel de significˆancia α fixado em 5 Existem tabelas para outros valores de α Porem os programas estatısticos ja nos fornecem as probabilidades atraves da distribuicao de F ou o valor p do teste Exemplo 1 As producoes de duas variedades de milho em toneladas por hectare foram as seguintes Variedade A 13 14 11 14 15 Variedade B 18 16 19 19 18 Dos dados das amostras obtemos xA 1 34 xB 1 80 s2 A 0 0231 e s2 B 0 0150 Inicialmente vamos testar a hipotese de homogeneidade de variˆancias Assim o valor da estatıstica F e F 0 0231 0 0150 1 54 a qual tem 5 1 4 graus de liberdade no numerador e 5 1 4 graus de liberdade no denominador Com o auxılio de um programa estatıstico encontramos que o nıvel mınimo significativo vale exatamente PF 1 54 0 343 Como este valor e maior do que 005 ou 5 concluımos que as duas variˆancias podem ser consideradas iguais Podemos fazer o teste de homogeneidade de variˆancias pelo metodo tradicional ou seja fixando o nıvel de significˆancia e construindo as regioes de aceitacao e de rejeicao da hipotese de nulidade Com o auxılio da tabela da distribuicao F apˆendice 6 com um nıvel de sig nificˆancia de 5 com 4 e 4 graus de liberdade no numerador e denominador respectivamente obtemos o valor de F crıtico como sendo igual a 639 Como o valor de Fcalculado e menor do que o F crıtico 154 639 aceitamos a hipotese nula portanto as variˆancias sao ho mogˆeneas A regiao de rejeicao e formada pelos valores de F maiores que 154 e a regiao de aceitacao e formada pelos valores de F menores ou igual a 154 298 Voltemos agora ao objetivo do pesquisador que é verificar se duas médias populacionais podem ser consideradas iguais ou nao No exemplo as hipdteses sao dadas por Ao papp versus Hy pa F pp Para estudar se duas médias populacionais sao iguais ou nao a estatistica teste a ser utilizada é dada por X Xo ni 1 ST n2185 1 1 mtn 2 E dl a qual tem distribuicao t de Student com n nz 2 graus de liberdade Vamos aplicar o teste no exemplo das duas variedades de milho A estatistica de teste 85 vale 134 180 0 0 46 tg U 34180 0 5 263 510023145100150 2 1 001910 40 V 552 55 Com o auxilio da tabela bilateral da distribuigaéo de Student para um teste bilateral com 8 graus de liberdade o nivel minimo significativo vale Pt 5269 Pt 5269 0001 Para obter este valor de probabilidade entramos na tabela com 8 graus de liberdades la coluna Seguimos pela linha dos 8 graus de liberdade até encontrar um valor igual ou mais proximo de 5263 O valor mais pr6ximo encontrado é 5041 cuja probabilidade vale 0001 Como o valor encontrado da estatistica teste 5263 é menor do que 5041 implica que o valor da probabilidade é menor do que 0001 Usando um software estatistico para 8 graus de liberdade teste bilateral obtemos exata mente a Pt 5 269 000756 ou 00756 portanto devemos rejeitar a hipdtese nula e concluimos que as producoes das duas variedades diferem entre si sendo que a cultivar B é mais produtiva ao nivel de significancia de 00756 Podemos também realizar o teste de hipdtese pela maneira tradicional Neste caso devemos fixar o nivel de significancia desejado encontrar as regides de aceitacao e de rejeigao da hipdtese nula e verificar em qual das regioes esta o valor da estatistica de teste Por exemplo para a 5 da tabela da distribuicao t teste bilateral obtemos tg5 2 306 As regides estéo mostradas na figura 89 Como o valor da estatistica teste t 5 269 esta na regiao de rejeicao da hipdtese nula concluimos que as médias diferem entre si com probabilidade de erro de 5 299 2306 000 2306 Regiao de Regiao de aceitagao Regiao de rejeigao rejeicao Figura 89 Teste de hipdtese para comparar duas médias dos dados de producao de duas variedades de milho Podemos calcular o intervalo de confianga para a diferencga entre as médias 44 Wp O intervalo de confianga é dado pela expressao TCwa be 95 La LB try tng25S847p onde szz 0 desvio padrao da diferenga entre as duas médias e é dado por n4 1S2 ng 1S2 1 1 1 natnp2 na nel Para o exemplo o intervalo de confiancga é dado por ICa p395 046 23060 0873 046 0 20131 0 6613 wy wp 0 2587 Portanto podemos afirmar com 95 de confianca que a verdadeira diferenca entre as duas médias encontrase no intervalo de 06613 e 02587 O intervalo de confianga também nos indica se existe ou nao diferenga significativa entre as duas médias ou seja ele nos fornece o resultado de um teste de hipdtese Ndés devemos aceitar a hipdtese nula Hp 14 pp se o valor desta hipdtese encontrase dentro do intervalo de confianga caso contrario devemos rejeitar a hipdtese nula Se Ho w4 Lp entao Hp 44 Up 0 portanto o valor da hipdtese é 0 zero Como vemos o valor da hipdtese nao esta incluido no intervalo isso implica que devemos rejeitar a hipdtese nula 300 Como o teste de hipdétese é oriundo do intervalo de confianga estamos seguros para utilizar esse critério Exemplo 2 Os tempos gastos na manobra dos arados Fugador e Erechim foram os seguintes Esperase que 0 arado Fugador produza melhores resultados gaste menos tempo na manobra Testar a hipdtese de que as médias de tempos gasto nao diferem significativamente ao nivel de 5 Encontre o intervalo de confianga para a diferenca das médias ur Wp Com os dados amostrais obtemos Zr 01745 Ze 03836 s 00018 e 5 0 0023 O primeiro passo é verificarmos se existe homogeneidade de variancias ou seja vamos testar as hipdteses Hp 0 0 vs Hy 07 od A estatistica F vale F ss 0 002300018 1 2778 com 10 graus de liberdade no numerador e 10 graus de liberdade no denominador Com o auxilio de um programa estatistico na distribuicao Ff obtemos o nivel minimo significativo do teste valor p o qual vale PF 12778 0352869 De acordo com esse resultado devemos aceitar a hipdtese de variancias semelhantes Fazendo o teste de outra forma podemos fixar a em 5 e encontrar o valor de F com 10 numerador e 10 denominador graus de liberdade Da tabela de F encontramos F0105 298 Como o valor de F calculado com os dados da amostra é menor do que o valor de F da tabela aceitamos a hipdtese nula Partimos agora para o teste sobre as médias populaionais As hipdéteses sobre as médias verdadeiras de interesse do pesquisador sao formuladas como Ao Ur Le A up Mp O valor da estatistica 85 vale 0 1745 0 3836 0 too 0 17 0 3836 08 10 831 1110001811100023 4 1 114112 la iil A probabilidade de encontrar um valor mais extremo do que 10831 devido ao acaso é praticamente nulo ou seja Pt 10831 0 301 Concluimos que o tempo gasto na manobra com o arado Fucador é realmente inferior ao arado Erechim Pelo método tradicional de testar uma hipdtese temos t295 1725 Como o valor de t calculado é menor do que o valor de t de tabela rejeitamos a hipdtese nula O intervalo de confianca de 95 para a diferenca entre as duas médias é dado por ICur Ue395 0 2091 20860 01931 0 2494 ur we 0 1688 Concluimos com confianga de 95 que a verdadeira diferenga entre as duas médias up lp esta entre 017 e 025 Teste para Comparacgao de Duas Médias de Amostras Independentes e Variadncias Desconhecidas e Supostas Desiguais Suponhamos que as amostras sejam oriundas de duas populagoes com distribuigao nor mal independentes e variancias heterogéneas e desconhecidas portanto precisam ser esti madas com os valores da amostra Neste caso a estatistica de teste da diferenga entre duas médias é dada por t Xi a te Ha 86 Vin tie Provase que esta varidvel tem uma distribuicao aproximada de Student com graus de liberdade corrigido dados por 28 n4 n2 Op Psp Exemplo 1 Em um centro agricola desejase testar o efeito de determinado fertilizante sobre a producao de trigo Para isso escolheramse 24 areas de terra cada uma com 5 x 2 10m de uma grande Area homogénea Metade dessas unidades sao tratadas com um fertilizante enquanto a outra metade nao recebe o fertilizante este 6 denominado de tratamento controle A producdéo média de trigo sem fertilizante foi de 1260 kgha com desvio padrao de 730 kgha enquanto que a produgao média com fertilizante foi de 1710 kgha com desvio padrao de 280 kgha Podemos afirmar que houve aumento significativo na producao de trigo devido a utilizacao do fertilizante Antes de fazermos 0 teste sobre as médias populacionais devemos verificar se as varidncias sao homogéneas ou nao para decidirmos qual estatistica t devemos usar 85 ou 86 Para 302 isso vamos utilizar a estatistica F dada em 84 que no exemplo vale F 53290078400 6 7972 com 11 numerador e 11denominador graus de liberdade A probabilidade de encontrar um valor maior do que 67972 devido ao acaso é PF 67972 001790 menor do que 5 portanto concluimos que as variancias sAo consideradas diferentes As hipoteses sobre a médias populacionais sao formuladas do seguinte modo Ao br uc A rp Uc De acordo com a hipétese alternativa o nosso teste é unilateral O valor da estatistica t é 1710 1260 0 p A710 1260 0 0 1 99 532900 78400 BD p com graus de liberdade 532900 78400 VVEAYN foe v Ce Ae 14172 15 re CA it Da distribuicgaéo t com 15 graus de liberdade o valor da probabilidade de encontrar um valor mais extremo do que 199 vale Pt 199 0 032570 Concluimos que o uso de fertilizante provocou um aumento real na producao de trigo ao nivel de significancia de 326 Fazendo o teste pelo método tradicional Fixandose 0 nivel de significancia a em 5 obtemos da distribuigao de Student ty55 001753 Como o valor calculado com os dados da amostra t 199 é maior do que o da distribuigdo t de Student rejeitamos Hp consequentemente podemos afirmar ao nivel de significancia de 5 que o uso de fertilizante causa um acréscimo significativo na produgao Exemplo 2 As seguintes medidas de Cytochrome oxidase foram determinadas em ma chos de peixes Periplaneta em mm por 10 minutos por miligrama 24 horas apos injegao de methoxyclor 081 Verifique se existe efeito significativo da aplicagao de methoxyclor quanto as médias de Cytochrome oxidase 303 Como primeiro passo vamos aplicar o teste F para verificar as hipdteses Ho 07 02 versus H 0 0 A estatistica F vale F 784081 968 com 2 e 4 graus de liberdade A PF 968 00293 consequentemente concluimos que as variancias sao heterogéneas Para a comparacao entre as duas médias vamos usar a estatistica 86 As hipoteses sobre as médias verdadeiras sao dadas por Ag erpto Ai pr F Le O valor da estatistica dada em 86 é 248 197 0 t 248 197 0 0 306 081 784 5 3 com graus de liberdade 284 4 784 v Cay 225 3 A probabilidade de encontrarmos um valor de t mais extremo do que 306 6 Pt 306 Pt 306 Pt 306 0054993 5 5993 Portanto ao nivel de significancia de 5 devemos aceitar a hipdtese nula Pelo método tradicional temos t35 3 182 portanto o valor 306 cai na regiao de aceitacgao de Ho O intervalo de confianca para a verdadeira diferenca entre as duas médias fica ICur 03 95 248 197 3 1821 6659 510 5 3010 0 2010 pr wc 104010 Concluimos com confianca de 95 que a verdadeira diferenca entre as duas médias esta entre 020 e 1040 Como o intervalo inclui o valor da hipétese nula devemos aceitala 85 Teste Para Proporcoes Aqui desejamos avaliar certas afirmacées feitas sobre proporgdes ou porcentagens pop ulacionais Vamos considerar o estudo de teste de hipdteses sobre proporgoes em duas situagoes quais sejam 1 teste para uma proporcaéo populacional e 2 teste para duas ou mais proporgoes 304 851 Teste Para Uma Proporgao Populacional Feita uma afirmacao sobre uma proporcao desejamos saber se os dados de uma amostra suportam ou nao tal afirmacéo Por exemplo verificar se a afirmativa de que 20 dos individuos de uma comunidade apresentam certa caracteristica genética A construcao de um teste de hipotese para uma proporcao segue 0 mesmo procedimento mostrado para o teste sobre uma média A hipdtese nula afirma que a proporcao verdadeira am igual a um certo valor 7 Entao Ho 77 70 Para a hipdtese alternativa devemos escolher adequadamente uma dentre as trés possibili dades H t7 teste bilateral Hy teste unilateral a direita H 77 teste unilateral esquerda Como vimos no estudo de distribuicao amostral de uma proporcao ou de contagens a estatistica P a proporgéo da amostra segue aproximadamente uma distribuicéo normal para n suficientemente grande isto é wl7 PN G n Portanto para se testar uma proporao vamos usar a estatistica Z dada por 7 y SE 87 mo170 Para testar se p é significativamente menor do que o valor estabelecido na hipdtese 7 calculamos a probabilidade da varidvel aleatéria normal padrao Z assumir um valor menor ou igual ao valor de z obtido com os dados da pesquisa Quando a hipdtese alternativa é Hy 7 1 esta probabilidade é PZ z a qual pode ser obtida em tabelas da distribuigaéo normal Apéndice 3 ou através de programas estatisticos A hipdtese de nulidade Ho sera rejeitada se este valor p for bem pequeno digamos inferior a 5 Da mesma forma se a hipotese alternativa for H 7 mo a hipdtese nula Ho sera rejeitada se a PZ z for bem pequena Se a hipdtese alternativa for bilateral isto é H 7 7 entao valores grandes negativos ou valores grandes positivos de z sao fortes indicativos para a rejeicao da 305 hipotese nula Neste caso a hipotese nula sera rejeitada se PZ z PZ z a qual é igual a 2PZ z for pequena Exemplo 1 O rdétulo de uma caixa de sementes informa que a porcentagem de ger minacao é de 90 Entretanto como a data limite de validade ja foi ultrapassada acreditase que a porcentagem de germinacéo seja inferior a 90 Fazse um experimento e de 400 se mentes testadas 350 germinaram Ao nivel de significancia de 10 rejeitase a hipdtese de que a porcentagem de germinacéo é de 90 Determine o intervalo de confianca para o verdadeiro poder germinativo As hipoteses ficam Hyo790 Hy 7 90 Como o tamanho da amostra é suficientemente grande assumimos que 0 900 10 PN090 400 Temos na amostra p 350400 0875 e op 000010 0015 A estatistica Z vale 0875 090 7 Pet Ee 167 Op 0015 A probabilidade de se encontrar um valor de z menor do que 167 devido ao acaso é valor encontrado com o uso de um software estatistico e teste unilateral Aprendemos a fazer este calculo de probabilidade usando a tabela da distribuigéo normal padrao na subsegao 532 Pz 167 004746 Como este valor 6 menor do que 010 rejeitamos a hipdtese de que o poder germinativo de uma caixa de sementes é de 90 em favor da hipdétese de que o poder germinativo é menor do que 90 ao nivel de significancia de 10 Pelo método tradicional de se fazer teste de hipdtese para a 10 com o auxilio da tabela da distribuicao normal padrao dada no apéndice 3 temos z 1 28 A figura 810 indica as regioes de aceitacao e de rejeicao da hipdtese de nulidade Como o valor 167 encontrase na regiao de rejeicao concluimos que 0 poder germinativo 6 menor do que 90 ao nivel de significancia de 10 O intervalo de confianca para a verdadeira proporgao de germinacgao dado em 75 é 08751 0 875 0875 1654 400 0875 0 0273 306 AN 350 175 000 175 350 128 Regiaio de rejeicao Regiado de aceitacao Figura 810 Teste de hipdtese de uma proporgao pelo método tradicional 0 8477 a 09023 Exemplo 2 Uma Bidlogoa com base em conhecimentos tedricos e praticos afirma que a proporcao 7 de fordéfitos no estadio arbéreo pioneiro da Floresta Ombrofila na Hha de Santa Catarina apresenta 47 sem bromélias Numa amostra de 35 for6fitos p 40 nao apresentaram bromélias Teste a afirmativa doa Bidlogoa Formular as hipdéteses do teste calcular o valor p e concluir Hipoteses Hyo747 Hy 447 Calculo do valor p 040 047 pa PW fa 0 8297 Lz 0471047 35 pz 0 8297 05 0 2967 0 2033 valor p 2 x 0 2033 0 4066 Portanto nao rejeitamos a hipdtese nula 852 Teste de Duas ou Mais Proporgoes Teste de QuiQuadrado Nos trabalhos de pesquisa 6 muito freqiiente os dados representarem freqiiéncias conta gens de ocorréncias de determinada caracteristica que podem classificarse em categorias de varidveis qualitativas Os dados de freqiiéncias classificados por categorias de varidveis qualitativas podem ser representados por uma tabela de contingéncia como a tabela 82 Embora os totais de linhas tenham sido previamente fixados ou seja trabalhouse com 240 307 Tabela 82 Distribuigaéo conjunta das freqiiéncias das varidveis época de plantioforma de corte e sobrevivéncia de raizes de ameixeiras EpocaForma Total Fora Primavera Longo 156 84 240 Fora Primavera Curto 107 133 240 Na Primavera Longo 84 156 240 Na Primavera Curto 31 209 240 enxertos para cada grupo isto nao acarreta nenhuma modificagao na analise dos dados De sejamos aqui testar a hipdtese de independéncia entre as duas classificagdes ou seja entre a combinacao épocaforma e a sobrevivéncia Na seco 2136 apresentamos em detalhes como calcular a estatistica quiquadrado y O leitor deve voltar Aquela secao caso nao esteja lembrado do calculo da estatistica O x é uma medida de afastamento da hipdtese de independencia isso implica que quanto maior for o valor da estatistica maior é a associagdo ou grau de dependéncia entre as variaveis O valor de x para a tabela 82 é Vv s 0 e i1 615 4 615 4 125 Lo 4 63 5 945 1455 945 1455 14105 O valor de quiquadrado estd entre 0 zero e 00 mais infinito O valor 0 indica que a sobrevivéncia nao depende da combinagao época de plantio e forma de corte Quanto maior é o valor do quiquadrado mais as freqtiéncias observadas se afastam das freqtiéncias esperadas Isto indica que a sobreviveéncia dos enxertos depende da combinacao época de plantio e forma de corte A questao que devemos responder agora é a seguinte sera que o valor encontrado de y 14105 é grande o suficiente para podermos afirmar que a dependéncia é significativa ou nao Para obter a resposta devemos fazer um teste de hipdteses envolvendo a estatistica y Esse teste foi desenvolvido pelo estatistico britanico Karl Pearson em 1960 Inicialmente vamos formular as hipdteses do teste e Hya combinagao época de plantio e forma de corte nao estd associada com a sobre vivencia de raizes 308 e H acombinacao época de plantio e forma de corte estdé associada com a sobrevivencia de raizes A estatistica que vamos utilizar para fazer o teste de hipdtese é dada por rs 0 e v 38 il a qual segue uma distribuicaéo de quiquadrado com r1s 1 graus de liberdade onde r o numero de linhas e s é 0 numero de colunas da tabela Esta distribuicao é dada no apendice 5 Existem diversos pacotes estatisticos que calculam as probabilidades para a distribuicdo de y e nds faremos o uso desses recursos Alguns softwares disponiveis sao Statistica Minitab Statgraphics SAS Excel Vamos calcular a probabilidade de encontrar um valor de y com 3 graus de liberdade mais extremo do que o encontrado na pesquisa devido ao acaso Temos Px 14105 000001 Portanto rejeitamos a hipdtese nula e concluimos que a sobrevivéencia de raizes de ameixeiras depende da combinacao entre época de plantio e forma de corte A probabilidade de estarmos tomando uma decisao erronea é praticamente nula Para usar a tabela da distribuicgao de quiquadrado assim como na distribuicao de Stu dent necessitamos fixar o nivel de significancia a do teste e calcular os graus de liberdade da estatistica Para fazer 0 teste pelo método tradicional precisamos fixar o nivel de sig nificancia e assim delimitar as regides de aceitacao e de rejeicao Por exemplo para a 5 e trés graus de liberdade da tabela da distribuicgdéo de quiquadrado obtemos X3s 7815 A figura 811 apresenta as regides de aceitacao e de rejeicao da hipdtese Observe que a distribuicao de quiquadrado é assimétrica diferentemente das distribuigdes normal e ft Como o valor de y 14105 calculado com os dados observados é maior do que o valor X35 7815 ou seja pertence a regiao de rejeicao chegamos a mesma conclusao ao nivel de significancia de 5 Restricgoes do Teste de QuiQuadrado Dado que a distribuicao da estatistica de quiquadrado 88 neste caso é uma dis tribuicao aproximada de y precisamos tomar certos cuidados na sua aplicacao Um dos cuidados é garantir que nao mais de 20 dos valores esperados das caselas sejam inferiores 309 95 5 000 625 1250 1875 2500 7815 Regiao de aceitagado Regido de rejeigao Figura 811 Teste de hipdétese para comparar proporcoes de sobrevivéncia de raizes de ameixeiras a 5 Se tal condigao nao se verificar devemos agrupar uma ou mais linhas ou colunas a fim de obter a freqtiéncia esperada minima Isto pode prejudicar os objetivos do trabalho Aumentar o tamanho da amostra é uma alternativa pois quanto maior for o tamanho da amostra mais a estatistica 88 se aproxima da distribuigao tedrica de QuiQuadrado Quando as freqiiéncias esperadas séo pequenas menores do que 5 e a tabela é 2 x 2 podemos usar o Teste Exato de Fisher Numa tabela 2 x 2 nenhuma freqtiéncia esperada deve ser menor que 5 Para tabelas 2 x 2 devese aplicar uma correcao chamada correcao de continuidade ou correcao de Yates que consiste em subtrair 05 das diferencas entre as freqtiéncias observadas e esperadas tomadas em médulo Isto porque em tabelas 2 x 2 0 teste de x tende a indicar mais significancia do que deveria Com esta correcdo diminuise o valor de x calculado melhorando a aproximacao com a distribuicao tedrica de x7 A estatistica de y com a corregao de continuidade é dada por TS 2 2 yo Were 057 89 il Exemplo continuagao do exemplo das raizes de ameixeiras Podemos querer saber se existe diferengas estatisticas entre as duas épocas de plantio ou seja verificar se existe diferenca entre plantar na primavera e fora da primavera Neste caso vamos construir uma nova tabela de contingéncia a partir da tabela 82 O resultado freqtiéncias observadas 310 Tabela 83 Distribuigao conjunta das freqiiéncias das varidveis época de plantio e sobre vivencia de raizes de ameixeiras Fora Primavera 263 217 480 Na Primavera 115 365 480 é a tabela 83 Os valores das freqiiéncias esperadas sob a hipdtese de independéncia sao Fora Primavera 189 291 480 Na Primavera 189 291 480 O valor da estatistica 89 é Oj Ej 0 5 S les ail 05 2858 2858 1856 1856 94 29 ej i1 Para um nivel de significancia de 5 e graus de liberdade igual a 21211 o valor critico de quiquadrado vale 3841 Portanto como o valor calculado é maior que o valor critico devemos rejeitar a hipdtese nula e assim podemos afirmar que existe diferenca entre as duas épocas de plantio ao nivel de significancia de 5 Temos que 548 dos enxertos plantados fora da primavera sobrevivem enquanto que na primavera 240 dos enxertos sobrevivem O menor valor de a para o qual rejeitamos a hipdtese nula valor p é Px 9429 000001 Portanto a probabilidade de rejeitarmos a hipdtese nula quando deveriamos aceitala 6 praticamente nula Exerctcio teste se existe efeito de forma de corte ao nivel de significancia de 5 En contre o valor p do teste 853 Teste de Aderéncia aplicagao a teoria Mendeliana Uma aplicacao importante do teste de y é verificar se as freqiiéncias observadas seguem estao de acordo as proporgées previstas por teorias ou hipdteses Um exemplo classico é o caso da segregacao mendeliana em ervilhas 311 Tabela 84 Segregacao mendeliana em ervilhas Tipos de ervilhas Frequˆencias observadas Frequˆencias esperadas Amarelas lisas 315 31275 Verdes lisas 108 10425 Amarelas rugosas 101 10425 Verdes rugosas 32 3475 Total 556 55600 Na descendˆencia obtida de cruzamentos entre plantas com sementes amarelas lisas e outras de sementes verdes rugosas obtemos na primeira geracao F1 ervilhas amarelas lisas Estas cruzadas entre si produzem em F2 ervilhas de quatro tipos indicadas na tabela 84 Pela teoria mendeliana as proporcoes esperadas para esses tipos de ervilhas sao 916 316 316 e 116 respectivamente Com base nessa teoria calculamos as frequˆencias es peradas dadas na tabela 84 Desejamos testar as seguintes hipoteses atraves do teste de quiquadrado H0 os dados concordam com a teoria mendeliana H1 os dados nao concordam com a teoria mendeliana A estatıstica de χ2 vale χ2 315 312 752 312 75 108 104 252 104 25 101 104 252 104 25 32 34 752 34 75 0 47 O valor de χ2 e bastante baixo sugerindo que nao devemos rejeitar a hipotese nula Entre tanto devemos encontrar o nıvel mınimo significativo do teste o qual vale Pχ2 0 47 0 925431 92 54 Este valor e muito superior a 5 portanto podemos afirmar que os dados concordam com a teoria mendeliana ao nıvel de significˆancia de 9234 Pelo metodo tradicional ao nıvel de significˆancia de 5 e com 3 graus de liberdade temos χ2 0053 7 81 Como o valor calculado de χ2 e menor do que o valor da distribuicao de χ2 nao rejeitamos H0 Portanto as frequˆencias observadas seguem as proporcoes estabelecidas por Mendel 312 86 Exercıcios Propostos 1 Sabese que a proporcao de sementes de soja com danos mecˆanicos provocados pelo beneficiamento e π 0 18 Foram feitas 40 observacoes durante um dia de trabalho e se constatou que p020 Verificar se a maquina precisa ser regulada ao nıvel de significˆancia de 5 2 Foram as seguintes as producoes medias de duas variedades de soja em tha variedade A media38 tha com variˆancia 036 tha2 variedade B media46 tha com variˆancia 004 tha2 As informacoes obtidas para as variedades A e B foram baseadas em amostras de tamanhos 30 e 35 respectivamente Teste a hipotese de que nao ha diferenca significativa entre as producoes medias ao nıvel de 1 de probabilidade 3Lindstrom1918 Snedecor Cochran1972 Em um experimento envolvendo o cruza mento de dois tipos de milho Lindstrom encontrou quatro tipos distintos verdeT1 douradoT2 listras verdes T3 e lisas verdes e douradas T4 De acordo com a heredi tariedade mendeliana as probabilidades de obter esses quatro tipos sao 916 316 316 e 116 respectivamente Em 1301 indivıduos da segunda geracao Lindstrom encontrou as seguintes frequˆencias T1 773 T2 231 T3 238 T4 59 total 1301 Teste a hipotese de que a distribuicao segue as leis da hereditariedade Mendeliana contra a hipotese alternativa de que a distribuicao nao segue as leis da hereditariedade 4 Que suposicoes sao feitas acerca das populacoes de onde se extraem amostras aleatorias independentes quando se utiliza a distribuicao t de Student exata para realizar inferˆencias a respeito da diferenca entre medias populacionais 5 A area foliar media da especie Laguncularia rancemosa do Manguezal do Bairro Santa Mˆonica nao poluıdo e de 5076 cm2 Esperase que a area foliar do Manguezal do Bairro Itacorubi seja maior devido a poluicao do ambiente Para verificar se essa afirmacao e verdadeira coletouse uma amostra de tamanho n 20 do Manguezal do Itacorubi cujos resultados foram 394 396 399 456 456 461 461 502 502 510 512 546 548 546 551 551 555 562 663 665 313 Tabela 85 Poder germinativo de duas cultivares de cebola Cultivares Germinacao Total Germinaram Nao germinaram Bola precoce 392 8 400 Norte 14 381 19 400 Total 773 27 800 aEsses resultados trazem evidˆencias estatısticas de que houve aumento da area foliar Use nıvel de significˆancia de 5 b Construir o intervalo de confianca com 90 para a verdadeira media da area foliar do Manguezal do Itacorubi Interpretar o resultado 6 Fazse um estudo com o objetivo de conhecer melhor a biologia e a distribuicao de fˆemeas de Macrobrachium potiuna na ilha de Santa Catarina comparandose dois locais em condicoes ambientais diferentes Para isso coletouse duas amostras uma no Corrego do Chico em Ratones A e a outra no Pocao do Corrego Grande B os resultados de comprimento total em mm de fˆemeas ovıgenas foram Local Amostra Media Desvio padrao Corrego do Chico 30 3225 326 Pocao do Corrego 30 2032 402 a Determinar o intervalo de confianca de 99 para a verdadeira media de comprimento total para cada um dos locais Interpretar b Qual deve ser o tamanho da amostra para que a amplitude total de um intervalo de 99 de confianca para a media populacional do Pocao do Corrego Grande seja no maximo igual a 4 mm c Vocˆe diria que a diferenca de comprimentos nos dois locais e estatısticamente significante use α 5 7 Foi conduzido um experimento com o objetivo de avaliar o poder germinativo de duas cultivares de cebola a Bola PrecoceEmpasc 352 e b Norte 14 foram utilizadas para o teste de germinacao 4 repeticoes de 100 sementes totalizando 400 sementes para cada cultivar A variavel de estudo e o numero de sementes que germinaram os resultados estao apresentados na tabela 85 Teste a hipotese de que nao ha dependˆencia entre cultivares e numero de sementes que germinam ao nıvel de significˆancia de 5 De outro modo poderia perguntar existe diferenca entre as duas cultivares quanto a germinacao 8 Um agricultor que planta frutıferas deseja testar um novo tipo de inseticida cujo 314 fabricante garante reduzir os prejuızos causados por certo tipo de inseto Para verificar essa afirmacao do fabricante do inseticida o agricultor pulveriza 200 arvores com o produto novo e 200 arvores com o produto que normalmente usa obtendo os resultados Inseticida novo Inseticida padrao Producao media kgplanta 240 227 Variˆancia 980 820 Estes dados indicam evidˆencia suficiente de que o inseticida novo e melhor do que o padrao normalmente usado 9 Desejase testar a hipotese da possibilidade da quantidade de proteınas totais no plasma depois de determinada operacao em portadores de esquistossomose mansˆonica ser diferente da quantidade antes da operacao Foi utilizada uma amostra de 17 pacientes cujos resultados foram Paciente Antes Depois 1 69 69 2 78 86 3 66 87 4 59 73 5 78 78 6 64 82 7 88 93 8 73 73 9 80 76 10 86 78 11 77 76 12 79 78 13 87 81 14 58 68 15 92 83 16 93 102 17 89 91 Faca o teste de hipotese e conclua 10 Um biologo esta interessado em determinar o diˆametro medio da roseta foliar da bromelia de sol ambiente de sol o diˆametro foi medido numa amostra de tamanho n 20 315 obtendose os seguintes resultados 73 82 91 34 105 36 95 48 91 68 52 84 54 66 64 58 66 70 48 91 a Estime o diˆametro medio da roseta foliar utilizando um intervalo de confianca de 95 b Sabese que o diˆametro medio da roseta foliar das bromeliaceas em area sombreada e de 16 cm Os dados amostrais obtidos evidenciam que as bromelias de sol desenvolvemse menos do que as de sombra Faca o teste de hipotese com nıvel de significˆancia de 5 c Num trabalho futuro com bromelias de sol determine o tamanho da amostra necessario para que o erro cometido na estimacao seja de no maximo 070 com probabilidade de 95 11 Para comparar o peso vivo e peso jejum do gado Crioulo Lageano um pesquisador selecionou aleatoriamente uma amostra de 15 animais e anotou o seus pesos Os dados resultantes estao descritos abaixo Esses dados tˆem evidˆencia suficiente para garantir que exite diferenca entre peso vivo e peso jejum Indique o nıvel mınimo significativo do teste α Animal Peso vivo Peso jejum Animal Peso vivo Peso jejum 1 498 453 9 398 353 2 510 466 10 410 380 3 540 491 11 450 412 4 580 480 12 495 453 5 440 405 13 508 462 6 350 315 14 515 477 7 595 557 15 560 505 8 513 477 12 Realizouse uma pesquisa para comparar dois locais Itajaı e Ararangua quanto a producao de arroz irrigado em tha na safra 8889 Dez progˆenies foram utilizadas nos dois locais e os seus resultados anotados Itajaı Ararangua 53 93 60 84 57 92 63 83 70 69 72 72 62 70 68 73 80 65 78 70 Teste a hipotese de igualdade entre as producoes medias 316 13 Um agrˆonomo realizou um levantamento para estudar o desenvolvimento de duas especies de arvores a bracatinga Mimosa scabrella e Canafıstula Peltophorum dubium Para esta finalidade foram coletadas duas amostras de tamanhos igual a 30 arvores Os resultados para altura dados fictıcios em metros foram Bracatinga Canafıstula 64 70 90 102 161 201 82 101 141 202 257 401 68 83 91 114 163 203 97 103 142 203 309 402 69 86 93 137 172 214 98 112 144 206 355 405 69 87 99 148 184 228 100 132 148 299 382 418 69 87 101 152 200 228 100 134 159 238 400 423 A hipotese levantada pelo pesquisador e que a Canafıstula deve apresentar uma altura media maior do que a Bracatinga Esses dados indicam evidˆencia suficiente para suportar a hipotese do pesquisador 14 Um biologo deseja fazer um estudo para verificar a especificidade do fungo Gigaspora gigantea com as plantas Spartina sp e Tibouchina sp Foram coletadas 20 amostras de solos em volta da Spartina sp e 20 amostras de Tibouchina sp e verificada a quantidade de fungo presente os resultados foram Spartina sp Tibouchina sp 303 78 59 15 305 74 60 18 116 93 43 10 110 95 40 11 117 63 41 5 110 62 40 4 115 63 35 6 112 60 32 9 84 55 25 3 85 53 22 4 Esses dados tem evidˆencia suficiente para indicar uma diferenca entre as quantidades medias de Gigaspora gigantea encontrada em plantas de Spartina sp e Tibouchina sp 15 Para determinar qual de duas cultivares de trigo e mais produtiva um Centro de Pesquisas em Agricultura selecionou quatro areas de terra cada area em uma regiao recomendada para a producao de trigo no Estado de Santa Catarina Cada area e totalmente homogˆenea e foi dividida em duas partes Foram semeadas as duas cultivares uma em cada parte da area atraves de um sorteio Entre as regioes devera haver diferencas de producao 317 As producoes em kgha foram Municıpio Cultivares CEP 15Batouı CEP 18Cavera Abelardo Luz 2912 3854 Chapeco 2528 3295 Campos Novos 3309 3916 Mafra 2324 2548 Qual e a cultivar de trigo mais produtiva Use nıvel de significˆancia de 5 Interpretar 16 Foi conduzido um experimento no qual avaliouse a utilizacao de uma duas e trˆes armadilhas raız de tayuya por 400 m2 com e sem inseticida para capturar a vaquinha Dia brotica speciosa na cultura do feijao Os dados obtidos relativos ao numero de vaquinhas capturadas foram Armadilhas Inseticida Total Com Sem Uma armadilha 114 197 301 Duas armadilhas 1067 362 1429 Trˆes armadilhas 715 273 988 Total 1896 822 2718 Podemos afirmar que existem diferencas significativas entre o numero de armadilhas uti lizadas com relacao ao uso de inseticida ao nıvel de significˆancia de 5 17 Um agricultor que planta frutas deseja testar um novo tipo de inseticida cujo fabri cante garante reduzir o prejuızo por danos causados por certo tipo de inseto consequente mente aumenta a producao Para verificar essa afirmacao do fabricante do inseticida o agricultor pulveriza 200 arvores com o novo inseticida e 200 arvores com o inseticida normal mente utilizado O agricultor anotou a producao media por arvore para os dois inseticidas aFormule as hipoteses do teste H0 e H1 em termos de medias populacionais b Dˆe a definicao de α para esse experimento 18 Foi realizado um experimento para avaliar o comportamento in vitro da especie Mandevilla velutina Apocinacea provenientes de duas regioes diferentes Cerrado e Restinga Apos isolar os explantes com um no com duas gemas axilares obtidos das plantas matrizes foi instalado o experimento com delineamento inteiramente casualizado com 20 repeticoes 20 explantes para o Cerrado e 20 para a Restinga portanto temos um total de 40 unidades experimentais Esse experimento produziu um desvio padrao s 1 5611 com 38 graus de liberdade A variavel utilizada foi a altura em cm dos explantes de Mandevilla cultivadas 318 in vitro durante 45 dias cujos resultados foram Cerrado Restinga 53 31 30 47 36 43 27 51 25 41 47 64 23 39 39 47 51 37 26 29 60 21 56 21 26 50 42 32 21 24 47 61 12 16 40 21 52 20 19 81 a Teste a hipotese de que nao ha diferenca entre as duas regioes ao nıvel de significˆancia de 5 para altura de explantes de Mandevilla b Construa o intervalo de confianca de 95 para a diferenca das medias populacionais 19 Foi desenvolvido um estudo para verificar a qualidade dos vinhos em um Estado Uma propriedade fısica avaliada nesse estudo foi a estabilidade dos vinhos dada em 4 categorias pessima problematica regular e aceitavel Numa amostra de 188 garrafas de vinho foram encontrados os seguintes resultados Vinho Estabilidade Total Pessima Problematica Regular Aceitavel Branco 8 29 28 7 72 Rosado 10 22 10 3 45 Tinto 29 21 13 8 71 Total 47 72 51 18 188 a Teste a hipotese de que nao ha relacao dependˆencia entre tipos de vinhos e estabilidade b Teste a hipotese de que os vinhos tinto e branco sao independentes da estabilidade Qual dos dois vinhos e pior quanto a estabilidade 20 Nitrogˆenio e o elemento mais comum aplicado no solo Em regioes tropicais ape nas uma parte do nitrogˆenio aplicado e aproveitado pelas culturas Informacao sobre µ a porcentagem media de nitrogˆenio perdido e importante para pesquisas sobre as condicoes otimas de crescimento das plantas Os dados a seguir descritos representam a quantidade de nitrogˆenio perdido dado em porcentagem do total de nitrogˆenio aplicado 108 135 118 90 147 105 80 100 98 103 140 95 87 138 128 a Faca o teste de hipotese ao nıvel de significˆancia de 5 para verificar se os dados da amostra suportam a hipotese de que a porcentagem media de nitrogˆenio perdido µ e menor 319 do que 13 b Calcule o valor p do teste e interprete 21 Para verificar a efetividade de um novo tratamento contra infestacao de pulgoes que atacam as folhas das plantas em 100 plantas atacadas e tratadas com o novo inseticida foram encontradas 9 plantas com pulgoes depois de uma semana do tratamento Desejamos saber se os resultados observados justificam a afirmacao de que menos de 15 da populacao de plantas tratadas terao infestacao de pulgoes Utilize um nıvel de significˆancia de 5 Calcule o valor p e interprete 22 Sabese que o mar na Baıa Norte em Florianopolis e poluıdo Os mexilhoes do gˆenero Perna perna sao animais filtradores ou seja alimentamse de materia orgˆanica dissolvida na agua Para mexilhoes cultivados em ambiente sem poluicao neste estudo e o local de Sambaqui admitese que o peso medio de mexilhoes e igual a 30 g Os valores medidos em 20 mexilhoes na Baıa Norte foram 26 265 27 28 285 29 294 31 32 325 335 34 35 364 376 385 387 41 406 416 Verifique atraves de um teste de hipotese se realmente o peso dos mexilhoes na Baıa Norte e maior do que em Sambaqui Use α 0 05 Estime atraves da construcao do intervalo de confianca com 95 o peso medio popula cional de mexilhoes na Baıa Norte 23 Queremos comparar dois metodos de poda em plantas de ervamate denominados de A e B Vamos considerar que dispomos de 40 arvores de erveiras numa mata nativa Considere duas maneiras no planejamento deste experimento 1 sorteamos 20 arvores aleatoriamente para receber o metodo A e as restantes receberam o metodo B Apos medimos a producao de massa verde de todas as arvores 2 medimos inicialmente os diˆametros dos caules das 40 arvores Em seguida numeramos as arvores em ordem crescente de seus diˆametros de 1 ate 40 Consideremos os 20 pares formados 12 34 563940 e de cada par sorteamos uma arvore para receber o metodo A a outra arvore do par recebe o metodo B Obtemos assim duas amostras de 20 arvores cada Apos medimos a producao de massa verde de todas as arvores Qual o teste estatıstico de hipoteses em cada caso Qual dos dois procedimentos vocˆe prefereria Por quˆe 320 24 Foi realizado um estudo para verificar a influˆencia da incidˆencia solar sobre a producao de espiguetas nas gramıneas da especie Paspalum notatum Flugge conhecida como grama batatais Levantouse a hipotese de que a reproducao sexuada da especie e prejudicada em areas com menor luminosidade Com esta finalidade efetuouse a contagem das espiguetas produzidas pelas plantas em dois locais quais sejam adjacentes ao sol e a sombra leve Os resultados de 20 amostras plantas por local foram Ambiente iluminado Ambiente sombra 44 54 60 60 70 44 47 52 55 57 75 79 80 81 83 59 60 61 62 63 86 88 88 89 90 64 66 67 67 68 91 95 101 107 108 68 69 71 73 76 Teste a hipotese levantada de que a media de espiguetas em local sombreado e menor do que a media em local adjacente ao sol Use nıvel de significˆancia de 5 25 Se a proporcao de nascimentos de filhotes machos da tartaruga Caretta caretta for maior do que 050 pode indicar algum desequilıbrio ambiental como por exemplo sombrea mento da praia Teste a hipotese de que a proporcao de nascimentos de filhotes machos e maior do que 50 ao nıvel de significˆancia de 5 dado que em 200 nascimentos observouse 120 filhotes machos 321 Bibliografia ALBERTSB BRAYD JOHNSONA LEWISJ RAFFM ROBERTSK WALTERP Fundamentos da biologia celular Uma introducao a biologia molecular da celula Edi tora Artes Medicas Sul Porto Alegre 1999 BARBETTAPA Estatıstica aplicada as ciˆencias sociais 4 ed Florianopolis Editora da Universidade Federal de Santa Catarina 2001 BATSCHELETE Introducao a matematica para biocientistas Sao Paulo Editora da Universidade de Sao Paulo 1978 BOXGEP HUNTERWG HUNTERJS Statistics for experimenters Canada John Wiley 1978 BROWND ROTHERYP Models in Biology mathematics statistics and computing New York John Wiley Sons 1994 BROWERJE ZARJH Fields Laboratory Methods for General Ecology 2 ed Dubuque Iowa WCB ano BUSSABWO MORETTINPA Estatıstica basica 4 ed Colecao Metodos Quantita tivos Sao Paulo Editora Atual 1987 CENTENOAJ Curso de estatıstica aplicada a biologia Goiˆania Editora da Universidade Federal de Goias 1982 FINNEYDJ An introduction to statistical science in agriculture HEATHOVS A estatıstica na pesquisa cientıfica v 1 Sao Paulo Editora da USP 1981 JUNIORPS MACHADOAA ZONTAEP da SILVAJB Curso de estatıstica v 1 e 2 Pelotas Editora Universitaria 1992 MENDENHALLN Probabilidade e estatıstica v 1 e 2 Rio de Janeiro Editora Campos 1985 MONTGOMERYDD Design and analysis of experiments 5 ed New York John Wiley Sons Inc 2001 MORETTINLG Estatıstica basica probabilidade 7 ed Sao Paulo Makron Books1999 322 PERESCA SALDIVACD Planejamento de experimentos Sao Paulo SP 5 Simposio Nacional de Probabilidade e Estatıstica SNEDECORGW COCHRANWS Statistical methods 6 ed Ames Iowa State Univ 1972 SOARESJF FARIASAA CESARCC Introducao a estatıstica Rio de Janeiro Edi tora Guanabara Koogan SA 1991 SOARESJF SIQUEIRAAL Introducao a estatıstica medica 1 ed Belo Horizonte Editora da Universidade Federal de Minas Gerais 1999 STEELRGD TORRIEJH Principles and procedures of statistics New York Willey 1960 TUKEYJW Exploratory data analysis Reading Mass AddisonWesley 1971 VIEIRAS Estatıstica experimental 2 ed Sao Paulo Editora Atlas SA 1999 WONNACOTTTH WONNACOTTRJ Estatıstica aplicada a economia e a adminin stracao 1 ed Rio de Janeiro Livros Tecnicos e Cientıficos Editora 1981 323 Apˆendice 1 Tabela da distribuicao binomial Tabela 1 Distribuicao binomial probabilidade de cada valor k em funcao de n e π π n k 005 010 015 020 025 030 035 040 045 050 1 0 09500 09000 08500 08000 07500 07000 06500 06000 05500 05000 1 00500 01000 01500 02000 02500 03000 03500 04000 04500 05000 2 0 09025 08100 07225 06400 05625 04900 04225 03600 03025 02500 1 00950 01800 02550 03200 03750 04200 04550 04800 04950 05000 2 00025 00100 00225 00400 00625 00900 01225 01600 02025 02500 3 0 08574 07290 06141 05120 04219 03430 02746 02160 01664 01250 1 01354 02430 03251 03840 04219 04410 04436 04320 04084 03750 2 00071 00270 00574 00960 01406 01890 02389 02880 03341 03750 3 00001 00010 00034 00080 00156 00270 00429 00640 00911 01250 4 0 08145 06561 05220 04096 03164 02401 01785 01296 00915 00625 1 01715 02916 03685 04096 04219 04116 03845 03456 02995 02500 2 00135 00486 00975 01536 02109 02646 03105 03456 03675 03750 3 00005 00036 00115 00256 00469 00756 01115 01536 02005 02500 4 00000 00001 00005 00016 00039 00081 00150 00256 00410 00625 5 0 07738 05905 04437 03277 02373 01681 01160 00778 00503 00313 1 02036 03281 03915 04096 03955 03602 03124 02592 02059 01563 2 00214 00729 01382 02048 02637 03087 03364 03456 03369 03125 3 00011 00081 00244 00512 00879 01323 01811 02304 02757 03125 4 00000 00005 00022 00064 00146 00284 00488 00768 01128 01563 5 00000 00000 00001 00003 00010 00024 00053 00102 00185 00313 6 0 07351 05314 03771 02621 01780 01176 00754 00467 00277 00156 continua na proxima pagina 324 Probabilidades binomiais continuacao da pagina anterior π n k 005 010 015 020 025 030 035 040 045 050 1 02321 03543 03993 03932 03560 03025 02437 01866 01359 00938 2 00305 00984 01762 02458 02966 03241 03280 03110 02780 02344 3 00021 00146 00415 00819 01318 01852 02355 02765 03032 03125 4 00001 00012 00055 00154 00330 00595 00951 01382 01861 02344 5 00000 00001 00004 00015 00044 00102 00205 00369 00609 00938 6 00000 00000 00000 00001 00002 00007 00018 00041 00083 00156 7 0 06983 04783 03206 02097 01335 00824 00490 00280 00152 00078 1 02573 03720 03960 03670 03115 02471 01848 01306 00872 00547 2 00406 01240 02097 02753 03115 03177 02985 02613 02140 01641 3 00036 00230 00617 01147 01730 02269 02679 02903 02918 02734 4 00002 00026 00109 00287 00577 00972 01442 01935 02388 02734 5 00000 00002 00012 00043 00115 00250 00466 00774 01172 01641 6 00000 00000 00001 00004 00013 00036 00084 00172 00320 00547 7 00000 00000 00000 00000 00001 00002 00006 00016 00037 00078 8 0 06634 04305 02725 01678 01001 00576 00319 00168 00084 00039 1 02793 03826 03847 03355 02670 01977 01373 00896 00548 00313 2 00515 01488 02376 02936 03115 02965 02587 02090 01569 01094 3 00054 00331 00839 01468 02076 02541 02786 02787 02568 02188 4 00004 00046 00185 00459 00865 01361 01875 02322 02627 02734 5 00000 00004 00026 00092 00231 00467 00808 01239 01719 02188 6 00000 00000 00002 00011 00038 00100 00217 00413 00703 01094 7 00000 00000 00000 00001 00004 00012 00033 00079 00164 00313 8 00000 00000 00000 00000 00000 00001 00002 00007 00017 00039 9 0 06302 03874 02316 01342 00751 00404 00207 00101 00046 00020 1 02985 03874 03679 03020 02253 01556 01004 00605 00339 00176 2 00629 01722 02597 03020 03003 02668 02162 01612 01110 00703 3 00077 00446 01069 01762 02336 02668 02716 02508 02119 01641 4 00006 00074 00283 00661 01168 01715 02194 02508 02600 02461 continua na proxima pagina 325 Probabilidades binomiais continuacao da pagina anterior π n k 005 010 015 020 025 030 035 040 045 050 5 00000 00008 00050 00165 00389 00735 01181 01672 02128 02461 6 00000 00001 00006 00028 00087 00210 00424 00743 01160 01641 7 00000 00000 00000 00003 00012 00039 00098 00212 00407 00703 8 00000 00000 00000 00000 00001 00004 00013 00035 00083 00176 9 00000 00000 00000 00000 00000 00000 00001 00003 00008 00020 10 0 05987 03487 01969 01074 00563 00282 00135 00060 00025 00010 1 03151 03874 03474 02684 01877 01211 00725 00403 00207 00098 2 00746 01937 02759 03020 02816 02335 01757 01209 00763 00439 3 00105 00574 01298 02013 02503 02668 02522 02150 01665 01172 4 00010 00112 00401 00881 01460 02001 02377 02508 02384 02051 5 00001 00015 00085 00264 00584 01029 01536 02007 02340 02461 6 00000 00001 00012 00055 00162 00368 00689 01115 01596 02051 7 00000 00000 00001 00008 00031 00090 00212 00425 00746 01172 8 00000 00000 00000 00001 00004 00014 00043 00106 00229 00439 9 00000 00000 00000 00000 00000 00001 00005 00016 00042 00098 10 00000 00000 00000 00000 00000 00000 00000 00001 00003 00010 11 0 05688 03138 01673 00859 00422 00198 00088 00036 00014 00005 1 03293 03835 03248 02362 01549 00932 00518 00266 00125 00054 2 00867 02131 02866 02953 02581 01998 01395 00887 00513 00269 3 00137 00710 01517 02215 02581 02568 02254 01774 01259 00806 4 00014 00158 00536 01107 01721 02201 02428 02365 02060 01611 5 00001 00025 00132 00388 00803 01321 01830 02207 02360 02256 6 00000 00003 00023 00097 00268 00566 00985 01471 01931 02256 7 00000 00000 00003 00017 00064 00173 00379 00701 01128 01611 8 00000 00000 00000 00002 00011 00037 00102 00234 00462 00806 9 00000 00000 00000 00000 00001 00005 00018 00052 00126 00269 10 00000 00000 00000 00000 00000 00000 00002 00007 00021 00054 11 00000 00000 00000 00000 00000 00000 00000 00000 00002 00005 continua na proxima pagina 326 Probabilidades binomiais continuacao da pagina anterior π n k 005 010 015 020 025 030 035 040 045 050 12 0 05404 02824 01422 00687 00317 00138 00057 00022 00008 00002 1 03413 03766 03012 02062 01267 00712 00368 00174 00075 00029 2 00988 02301 02924 02835 02323 01678 01088 00639 00339 00161 3 00173 00852 01720 02362 02581 02397 01954 01419 00923 00537 4 00021 00213 00683 01329 01936 02311 02367 02128 01700 01208 5 00002 00038 00193 00532 01032 01585 02039 02270 02225 01934 6 00000 00005 00040 00155 00401 00792 01281 01766 02124 02256 7 00000 00000 00006 00033 00115 00291 00591 01009 01489 01934 8 00000 00000 00001 00005 00024 00078 00199 00420 00762 01208 9 00000 00000 00000 00001 00004 00015 00048 00125 00277 00537 10 00000 00000 00000 00000 00000 00002 00008 00025 00068 00161 11 00000 00000 00000 00000 00000 00000 00001 00003 00010 00029 12 00000 00000 00000 00000 00000 00000 00000 00000 00001 00002 13 0 05133 02542 01209 00550 00238 00097 00037 00013 00004 00001 1 03512 03672 02774 01787 01029 00540 00259 00113 00045 00016 2 01109 02448 02937 02680 02059 01388 00836 00453 00220 00095 3 00214 00997 01900 02457 02517 02181 01651 01107 00660 00349 4 00028 00277 00838 01535 02097 02337 02222 01845 01350 00873 5 00003 00055 00266 00691 01258 01803 02154 02214 01989 01571 6 00000 00008 00063 00230 00559 01030 01546 01968 02169 02095 7 00000 00001 00011 00058 00186 00442 00833 01312 01775 02095 8 00000 00000 00001 00011 00047 00142 00336 00656 01089 01571 9 00000 00000 00000 00001 00009 00034 00101 00243 00495 00873 10 00000 00000 00000 00000 00001 00006 00022 00065 00162 00349 11 00000 00000 00000 00000 00000 00001 00003 00012 00036 00095 12 00000 00000 00000 00000 00000 00000 00000 00001 00005 00016 13 00000 00000 00000 00000 00000 00000 00000 00000 00000 00001 14 0 04877 02288 01028 00440 00178 00068 00024 00008 00002 00001 1 03593 03559 02539 01539 00832 00407 00181 00073 00027 00009 continua na proxima pagina 327 Probabilidades binomiais continuacao da pagina anterior π n k 005 010 015 020 025 030 035 040 045 050 2 01229 02570 02912 02501 01802 01134 00634 00317 00141 00056 3 00259 01142 02056 02501 02402 01943 01366 00845 00462 00222 4 00037 00349 00998 01720 02202 02290 02022 01549 01040 00611 5 00004 00078 00352 00860 01468 01963 02178 02066 01701 01222 6 00000 00013 00093 00322 00734 01262 01759 02066 02088 01833 7 00000 00002 00019 00092 00280 00618 01082 01574 01952 02095 8 00000 00000 00003 00020 00082 00232 00510 00918 01398 01833 9 00000 00000 00000 00003 00018 00066 00183 00408 00762 01222 10 00000 00000 00000 00000 00003 00014 00049 00136 00312 00611 11 00000 00000 00000 00000 00000 00002 00010 00033 00093 00222 12 00000 00000 00000 00000 00000 00000 00001 00005 00019 00056 13 00000 00000 00000 00000 00000 00000 00000 00001 00002 00009 14 00000 00000 00000 00000 00000 00000 00000 00000 00000 00001 15 0 04633 02059 00874 00352 00134 00047 00016 00005 00001 00000 1 03658 03432 02312 01319 00668 00305 00126 00047 00016 00005 2 01348 02669 02856 02309 01559 00916 00476 00219 00090 00032 3 00307 01285 02184 02501 02252 01700 01110 00634 00318 00139 4 00049 00428 01156 01876 02252 02186 01792 01268 00780 00417 5 00006 00105 00449 01032 01651 02061 02123 01859 01404 00916 6 00000 00019 00132 00430 00917 01472 01906 02066 01914 01527 7 00000 00003 00030 00138 00393 00811 01319 01771 02013 01964 8 00000 00000 00005 00035 00131 00348 00710 01181 01647 01964 9 00000 00000 00001 00007 00034 00116 00298 00612 01048 01527 10 00000 00000 00000 00001 00007 00030 00096 00245 00515 00916 11 00000 00000 00000 00000 00001 00006 00024 00074 00191 00417 12 00000 00000 00000 00000 00000 00001 00004 00016 00052 00139 13 00000 00000 00000 00000 00000 00000 00001 00003 00010 00032 14 00000 00000 00000 00000 00000 00000 00000 00000 00001 00005 15 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 continua na proxima pagina 328 Probabilidades binomiais continuacao da pagina anterior π n k 055 060 065 070 075 080 085 090 095 097 1 0 04500 04000 03500 03000 02500 02000 01500 01000 00500 00300 1 05500 06000 06500 07000 07500 08000 08500 09000 09500 09700 2 0 02025 01600 01225 00900 00625 00400 00225 00100 00025 00009 1 04950 04800 04550 04200 03750 03200 02550 01800 00950 00582 2 03025 03600 04225 04900 05625 06400 07225 08100 09025 09409 3 0 00911 00640 00429 00270 00156 00080 00034 00010 00001 00000 1 03341 02880 02389 01890 01406 00960 00574 00270 00071 00026 2 04084 04320 04436 04410 04219 03840 03251 02430 01354 00847 3 01664 02160 02746 03430 04219 05120 06141 07290 08574 09127 4 0 00410 00256 00150 00081 00039 00016 00005 00001 00000 00000 1 02005 01536 01115 00756 00469 00256 00115 00036 00005 00001 2 03675 03456 03105 02646 02109 01536 00975 00486 00135 00051 3 02995 03456 03845 04116 04219 04096 03685 02916 01715 01095 4 00915 01296 01785 02401 03164 04096 05220 06561 08145 08853 5 0 00185 00102 00053 00024 00010 00003 00001 00000 00000 00000 1 01128 00768 00488 00284 00146 00064 00022 00005 00000 00000 2 02757 02304 01811 01323 00879 00512 00244 00081 00011 00003 3 03369 03456 03364 03087 02637 02048 01382 00729 00214 00082 4 02059 02592 03124 03602 03955 04096 03915 03281 02036 01328 5 00503 00778 01160 01681 02373 03277 04437 05905 07738 08587 6 0 00083 00041 00018 00007 00002 00001 00000 00000 00000 00000 1 00609 00369 00205 00102 00044 00015 00004 00001 00000 00000 2 01861 01382 00951 00595 00330 00154 00055 00012 00001 00000 continua na proxima pagina 329 Probabilidades binomiais continuacao da pagina anterior π n k 055 060 065 070 075 080 085 090 095 097 3 03032 02765 02355 01852 01318 00819 00415 00146 00021 00005 4 02780 03110 03280 03241 02966 02458 01762 00984 00305 00120 5 01359 01866 02437 03025 03560 03932 03993 03543 02321 01546 6 00277 00467 00754 01176 01780 02621 03771 05314 07351 08330 7 0 00037 00016 00006 00002 00001 00000 00000 00000 00000 00000 1 00320 00172 00084 00036 00013 00004 00001 00000 00000 00000 2 01172 00774 00466 00250 00115 00043 00012 00002 00000 00000 3 02388 01935 01442 00972 00577 00287 00109 00026 00002 00000 4 02918 02903 02679 02269 01730 01147 00617 00230 00036 00008 5 02140 02613 02985 03177 03115 02753 02097 01240 00406 00162 6 00872 01306 01848 02471 03115 03670 03960 03720 02573 01749 7 00152 00280 00490 00824 01335 02097 03206 04783 06983 08080 8 0 00017 00007 00002 00001 00000 00000 00000 00000 00000 00000 1 00164 00079 00033 00012 00004 00001 00000 00000 00000 00000 2 00703 00413 00217 00100 00038 00011 00002 00000 00000 00000 3 01719 01239 00808 00467 00231 00092 00026 00004 00000 00000 4 02627 02322 01875 01361 00865 00459 00185 00046 00004 00001 5 02568 02787 02786 02541 02076 01468 00839 00331 00054 00013 6 01569 02090 02587 02965 03115 02936 02376 01488 00515 00210 7 00548 00896 01373 01977 02670 03355 03847 03826 02793 01939 8 00084 00168 00319 00576 01001 01678 02725 04305 06634 07837 9 0 00008 00003 00001 00000 00000 00000 00000 00000 00000 00000 1 00083 00035 00013 00004 00001 00000 00000 00000 00000 00000 2 00407 00212 00098 00039 00012 00003 00000 00000 00000 00000 3 01160 00743 00424 00210 00087 00028 00006 00001 00000 00000 4 02128 01672 01181 00735 00389 00165 00050 00008 00000 00000 5 02600 02508 02194 01715 01168 00661 00283 00074 00006 00001 6 02119 02508 02716 02668 02336 01762 01069 00446 00077 00019 continua na proxima pagina 330 Probabilidades binomiais continuacao da pagina anterior π n k 055 060 065 070 075 080 085 090 095 097 7 01110 01612 02162 02668 03003 03020 02597 01722 00629 00262 8 00339 00605 01004 01556 02253 03020 03679 03874 02985 02116 9 00046 00101 00207 00404 00751 01342 02316 03874 06302 07602 10 0 00003 00001 00000 00000 00000 00000 00000 00000 00000 00000 1 00042 00016 00005 00001 00000 00000 00000 00000 00000 00000 2 00229 00106 00043 00014 00004 00001 00000 00000 00000 00000 3 00746 00425 00212 00090 00031 00008 00001 00000 00000 00000 4 01596 01115 00689 00368 00162 00055 00012 00001 00000 00000 5 02340 02007 01536 01029 00584 00264 00085 00015 00001 00000 6 02384 02508 02377 02001 01460 00881 00401 00112 00010 00001 7 01665 02150 02522 02668 02503 02013 01298 00574 00105 00026 8 00763 01209 01757 02335 02816 03020 02759 01937 00746 00317 9 00207 00403 00725 01211 01877 02684 03474 03874 03151 02281 10 00025 00060 00135 00282 00563 01074 01969 03487 05987 07374 11 0 00002 00000 00000 00000 00000 00000 00000 00000 00000 00000 1 00021 00007 00002 00000 00000 00000 00000 00000 00000 00000 2 00126 00052 00018 00005 00001 00000 00000 00000 00000 00000 3 00462 00234 00102 00037 00011 00002 00000 00000 00000 00000 4 01128 00701 00379 00173 00064 00017 00003 00000 00000 00000 5 01931 01471 00985 00566 00268 00097 00023 00003 00000 00000 6 02360 02207 01830 01321 00803 00388 00132 00025 00001 00000 7 02060 02365 02428 02201 01721 01107 00536 00158 00014 00002 8 01259 01774 02254 02568 02581 02215 01517 00710 00137 00035 9 00513 00887 01395 01998 02581 02953 02866 02131 00867 00376 10 00125 00266 00518 00932 01549 02362 03248 03835 03293 02433 11 00014 00036 00088 00198 00422 00859 01673 03138 05688 07153 12 0 00001 00000 00000 00000 00000 00000 00000 00000 00000 00000 1 00010 00003 00001 00000 00000 00000 00000 00000 00000 00000 continua na proxima pagina 331 Probabilidades binomiais continuacao da pagina anterior π n k 055 060 065 070 075 080 085 090 095 097 2 00068 00025 00008 00002 00000 00000 00000 00000 00000 00000 3 00277 00125 00048 00015 00004 00001 00000 00000 00000 00000 4 00762 00420 00199 00078 00024 00005 00001 00000 00000 00000 5 01489 01009 00591 00291 00115 00033 00006 00000 00000 00000 6 02124 01766 01281 00792 00401 00155 00040 00005 00000 00000 7 02225 02270 02039 01585 01032 00532 00193 00038 00002 00000 8 01700 02128 02367 02311 01936 01329 00683 00213 00021 00003 9 00923 01419 01954 02397 02581 02362 01720 00852 00173 00045 10 00339 00639 01088 01678 02323 02835 02924 02301 00988 00438 11 00075 00174 00368 00712 01267 02062 03012 03766 03413 02575 12 00008 00022 00057 00138 00317 00687 01422 02824 05404 06938 13 0 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 1 00005 00001 00000 00000 00000 00000 00000 00000 00000 00000 2 00036 00012 00003 00001 00000 00000 00000 00000 00000 00000 3 00162 00065 00022 00006 00001 00000 00000 00000 00000 00000 4 00495 00243 00101 00034 00009 00001 00000 00000 00000 00000 5 01089 00656 00336 00142 00047 00011 00001 00000 00000 00000 6 01775 01312 00833 00442 00186 00058 00011 00001 00000 00000 7 02169 01968 01546 01030 00559 00230 00063 00008 00000 00000 8 01989 02214 02154 01803 01258 00691 00266 00055 00003 00000 9 01350 01845 02222 02337 02097 01535 00838 00277 00028 00004 10 00660 01107 01651 02181 02517 02457 01900 00997 00214 00057 11 00220 00453 00836 01388 02059 02680 02937 02448 01109 00502 12 00045 00113 00259 00540 01029 01787 02774 03672 03512 02706 13 00004 00013 00037 00097 00238 00550 01209 02542 05133 06730 14 0 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 1 00002 00001 00000 00000 00000 00000 00000 00000 00000 00000 2 00019 00005 00001 00000 00000 00000 00000 00000 00000 00000 3 00093 00033 00010 00002 00000 00000 00000 00000 00000 00000 continua na proxima pagina 332 Probabilidades binomiais continuacao da pagina anterior π n k 055 060 065 070 075 080 085 090 095 097 4 00312 00136 00049 00014 00003 00000 00000 00000 00000 00000 5 00762 00408 00183 00066 00018 00003 00000 00000 00000 00000 6 01398 00918 00510 00232 00082 00020 00003 00000 00000 00000 7 01952 01574 01082 00618 00280 00092 00019 00002 00000 00000 8 02088 02066 01759 01262 00734 00322 00093 00013 00000 00000 9 01701 02066 02178 01963 01468 00860 00352 00078 00004 00000 10 01040 01549 02022 02290 02202 01720 00998 00349 00037 00006 11 00462 00845 01366 01943 02402 02501 02056 01142 00259 00070 12 00141 00317 00634 01134 01802 02501 02912 02570 01229 00568 13 00027 00073 00181 00407 00832 01539 02539 03559 03593 02827 14 00002 00008 00024 00068 00178 00440 01028 02288 04877 06528 15 0 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 1 00001 00000 00000 00000 00000 00000 00000 00000 00000 00000 2 00010 00003 00001 00000 00000 00000 00000 00000 00000 00000 3 00052 00016 00004 00001 00000 00000 00000 00000 00000 00000 4 00191 00074 00024 00006 00001 00000 00000 00000 00000 00000 5 00515 00245 00096 00030 00007 00001 00000 00000 00000 00000 6 01048 00612 00298 00116 00034 00007 00001 00000 00000 00000 7 01647 01181 00710 00348 00131 00035 00005 00000 00000 00000 8 02013 01771 01319 00811 00393 00138 00030 00003 00000 00000 9 01914 02066 01906 01472 00917 00430 00132 00019 00000 00000 10 01404 01859 02123 02061 01651 01032 00449 00105 00006 00001 11 00780 01268 01792 02186 02252 01876 01156 00428 00049 00008 12 00318 00634 01110 01700 02252 02501 02184 01285 00307 00085 13 00090 00219 00476 00916 01559 02309 02856 02669 01348 00636 14 00016 00047 00126 00305 00668 01319 02312 03432 03658 02938 15 00001 00005 00016 00047 00134 00352 00874 02059 04633 06333 333 Apˆendice 2 Tabela da distribuicao de Poisson Tabela 3 Distribuicao de Poisson probabilidade de cada valor k em funcao de λ k λ 0005 001 0015 002 0025 003 0035 004 0045 005 0055 006 007 0 09950 09900 09851 09802 09753 09704 09656 09608 09560 09512 09465 09418 09324 1 00050 00099 00148 00196 00244 00291 00338 00384 00430 00476 00521 00565 00653 2 00000 00000 00001 00002 00003 00004 00006 00008 00010 00012 00014 00017 00023 3 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00001 4 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 k λ 009 01 02 03 04 05 06 07 08 09 1 12 14 0 09139 09048 08187 07408 06703 06065 05488 04966 04493 04066 03679 03012 02466 1 00823 00905 01637 02222 02681 03033 03293 03476 03595 03659 03679 03614 03452 2 00037 00045 00164 00333 00536 00758 00988 01217 01438 01647 01839 02169 02417 3 00001 00002 00011 00033 00072 00126 00198 00284 00383 00494 00613 00867 01128 4 00000 00000 00001 00003 00007 00016 00030 00050 00077 00111 00153 00260 00395 5 00000 00000 00000 00000 00001 00002 00004 00007 00012 00020 00031 00062 00111 6 00000 00000 00000 00000 00000 00000 00000 00001 00002 00003 00005 00012 00026 7 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00001 00002 00005 8 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00001 9 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 k λ 18 2 25 3 35 4 45 5 6 7 8 9 10 0 01653 01353 00821 00498 00302 00183 00111 00067 00025 00009 00003 00001 00000 1 02975 02707 02052 01494 01057 00733 00500 00337 00149 00064 00027 00011 00005 2 02678 02707 02565 02240 01850 01465 01125 00842 00446 00223 00107 00050 00023 3 01607 01804 02138 02240 02158 01954 01687 01404 00892 00521 00286 00150 00076 4 00723 00902 01336 01680 01888 01954 01898 01755 01339 00912 00573 00337 00189 5 00260 00361 00668 01008 01322 01563 01708 01755 01606 01277 00916 00607 00378 6 00078 00120 00278 00504 00771 01042 01281 01462 01606 01490 01221 00911 00631 7 00020 00034 00099 00216 00385 00595 00824 01044 01377 01490 01396 01171 00901 8 00005 00009 00031 00081 00169 00298 00463 00653 01033 01304 01396 01318 01126 9 00001 00002 00009 00027 00066 00132 00232 00363 00688 01014 01241 01318 01251 10 00000 00000 00002 00008 00023 00053 00104 00181 00413 00710 00993 01186 01251 11 00000 00000 00000 00002 00007 00019 00043 00082 00225 00452 00722 00970 01137 12 00000 00000 00000 00001 00002 00006 00016 00034 00113 00263 00481 00728 00948 13 00000 00000 00000 00000 00001 00002 00006 00013 00052 00142 00296 00504 00729 14 00000 00000 00000 00000 00000 00001 00002 00005 00022 00071 00169 00324 00521 15 00000 00000 00000 00000 00000 00000 00001 00002 00009 00033 00090 00194 00347 16 00000 00000 00000 00000 00000 00000 00000 00000 00003 00014 00045 00109 00217 17 00000 00000 00000 00000 00000 00000 00000 00000 00001 00006 00021 00058 00128 18 00000 00000 00000 00000 00000 00000 00000 00000 00000 00002 00009 00029 00071 19 00000 00000 00000 00000 00000 00000 00000 00000 00000 00001 00004 00014 00037 20 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00002 00006 00019 21 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00001 00003 00009 22 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00001 00004 23 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00002 continua na proxima pagina 334 Probabilidades de Poisson continuacao da pagina anterior k λ 18 2 25 3 35 4 45 5 6 7 8 9 10 24 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00001 25 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 00000 335 Apˆendice 3 Tabela da distribuicao normal padrao Tabela 4 Distribuicao normal padrao P e a probabili dade da variavel aleatoria Z estar entre 0 e Zc ou seja Prob0 Z Zc P 0 Zc Z P z Segunda decimal dos valores de z 0 1 2 3 4 5 6 7 8 9 00 00000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 continua na proxima pagina 336 Probabilidades da normal padrao continuacao da pagina anterior z Segunda decimal dos valores de z 0 1 2 3 4 5 6 7 8 9 17 04554 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04761 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 21 04821 04826 04830 04834 04838 04842 04846 04850 04854 04857 22 04861 04864 04868 04871 04875 04878 04881 04884 04887 04890 23 04893 04896 04898 04901 04904 04906 04909 04911 04913 04916 24 04918 04920 04922 04925 04927 04929 04931 04932 04934 04936 25 04938 04940 04941 04943 04945 04946 04948 04949 04951 04952 26 04953 04955 04956 04957 04959 04960 04961 04962 04963 04964 27 04965 04966 04967 04968 04969 04970 04971 04972 04973 04974 28 04974 04975 04976 04977 04977 04978 04979 04979 04980 04981 29 04981 04982 04982 04983 04984 04984 04985 04985 04986 04986 30 04987 04987 04987 04988 04988 04989 04989 04989 04990 04990 31 04990 04991 04991 04991 04992 04992 04992 04992 04993 04993 32 04993 04993 04994 04994 04994 04994 04994 04995 04995 04995 33 04995 04995 04995 04996 04996 04996 04996 04996 04996 04997 34 04997 04997 04997 04997 04997 04997 04997 04997 04997 04998 35 04998 04998 04998 04998 04998 04998 04998 04998 04998 04998 36 04998 04998 04999 04999 04999 04999 04999 04999 04999 04999 37 04999 04999 04999 04999 04999 04999 04999 04999 04999 04999 38 04999 04999 04999 04999 04999 04999 04999 04999 04999 04999 39 05000 05000 05000 05000 05000 05000 05000 05000 05000 05000 40 05000 05000 05000 05000 05000 05000 05000 05000 05000 05000 337 Apˆendice 4 Tabela da distribuicao t de Student Tabela 5 Distribuicao t de Student Valores crıticos de t tais que a probabilidade da variavel aleatoria t estar entre tc e tc vale 1α ou seja Ptc t tc 1 α 1α 0 tc tc α2 α2 Graus de Valores de α liberdade 030 020 010 005 004 002 001 0002 0001 1 1963 3078 6314 12706 15894 31821 63656 318289 636578 2 1386 1886 2920 4303 4849 6965 9925 22328 31600 3 1250 1638 2353 3182 3482 4541 5841 10214 12924 4 1190 1533 2132 2776 2999 3747 4604 7173 8610 5 1156 1476 2015 2571 2757 3365 4032 5894 6869 6 1134 1440 1943 2447 2612 3143 3707 5208 5959 7 1119 1415 1895 2365 2517 2998 3499 4785 5408 8 1108 1397 1860 2306 2449 2896 3355 4501 5041 9 1100 1383 1833 2262 2398 2821 3250 4297 4781 10 1093 1372 1812 2228 2359 2764 3169 4144 4587 11 1088 1363 1796 2201 2328 2718 3106 4025 4437 12 1083 1356 1782 2179 2303 2681 3055 3930 4318 13 1079 1350 1771 2160 2282 2650 3012 3852 4221 14 1076 1345 1761 2145 2264 2624 2977 3787 4140 15 1074 1341 1753 2131 2249 2602 2947 3733 4073 16 1071 1337 1746 2120 2235 2583 2921 3686 4015 continua na proxima pagina 338 Probabilidades da distribuicao t de Student continuacao da pagina anterior Graus de Valores de α liberdade 030 020 010 005 004 002 001 0002 0001 17 1069 1333 1740 2110 2224 2567 2898 3646 3965 18 1067 1330 1734 2101 2214 2552 2878 3610 3922 19 1066 1328 1729 2093 2205 2539 2861 3579 3883 20 1064 1325 1725 2086 2197 2528 2845 3552 3850 21 1063 1323 1721 2080 2189 2518 2831 3527 3819 22 1061 1321 1717 2074 2183 2508 2819 3505 3792 23 1060 1319 1714 2069 2177 2500 2807 3485 3768 24 1059 1318 1711 2064 2172 2492 2797 3467 3745 25 1058 1316 1708 2060 2167 2485 2787 3450 3725 26 1058 1315 1706 2056 2162 2479 2779 3435 3707 27 1057 1314 1703 2052 2158 2473 2771 3421 3689 28 1056 1313 1701 2048 2154 2467 2763 3408 3674 29 1055 1311 1699 2045 2150 2462 2756 3396 3660 30 1055 1310 1697 2042 2147 2457 2750 3385 3646 31 1054 1309 1696 2040 2144 2453 2744 3375 3633 32 1054 1309 1694 2037 2141 2449 2738 3365 3622 33 1053 1308 1692 2035 2138 2445 2733 3356 3611 34 1052 1307 1691 2032 2136 2441 2728 3348 3601 35 1052 1306 1690 2030 2133 2438 2724 3340 3591 40 1050 1303 1684 2021 2123 2423 2704 3307 3551 45 1049 1301 1679 2014 2115 2412 2690 3281 3520 50 1047 1299 1676 2009 2109 2403 2678 3261 3496 55 1046 1297 1673 2004 2104 2396 2668 3245 3476 60 1045 1296 1671 2000 2099 2390 2660 3232 3460 100 1042 1290 1660 1984 2081 2364 2626 3174 3390 339 Apˆendice 5 Tabela da distribuicao de QuiQuadrado χ2 Tabela 6 Distribuicao de QuiQuadrado Valores crıticos de quiquadrado tais que a probabilidade da variavel aleatoria χ2 ser maior do que χ2 c vale α ou seja Pχ2 χ2 c α α χ2 χ2c 0 Graus de Valores de α liberdade 030 020 010 005 004 002 001 0002 0001 1 1074 1642 2706 3841 4218 5412 6635 9549 10827 2 2408 3219 4605 5991 6438 7824 9210 12429 13815 3 3665 4642 6251 7815 8311 9837 11345 14796 16266 4 4878 5989 7779 9488 10026 11668 13277 16923 18466 5 6064 7289 9236 11070 11644 13388 15086 18908 20515 6 7231 8558 10645 12592 13198 15033 16812 20791 22457 7 8383 9803 12017 14067 14703 16622 18475 22601 24321 8 9524 11030 13362 15507 16171 18168 20090 24352 26124 9 10656 12242 14684 16919 17608 19679 21666 26056 27877 10 11781 13442 15987 18307 19021 21161 23209 27721 29588 11 12899 14631 17275 19675 20412 22618 24725 29354 31264 12 14011 15812 18549 21026 21785 24054 26217 30957 32909 13 15119 16985 19812 22362 23142 25471 27688 32536 34527 14 16222 18151 21064 23685 24485 26873 29141 34091 36124 15 17322 19311 22307 24996 25816 28259 30578 35627 37698 16 18418 20465 23542 26296 27136 29633 32000 37146 39252 continua na proxima pagina 340 Probabilidades da distribuicao de QuiQuadrado continuacao da pagina anterior Graus de Valores de α liberdade 030 020 010 005 004 002 001 0002 0001 17 19511 21615 24769 27587 28445 30995 33409 38648 40791 18 20601 22760 25989 28869 29745 32346 34805 40136 42312 19 21689 23900 27204 30144 31037 33687 36191 41610 43819 20 22775 25038 28412 31410 32321 35020 37566 43072 45314 21 23858 26171 29615 32671 33597 36343 38932 44522 46796 22 24939 27301 30813 33924 34867 37659 40289 45961 48268 23 26018 28429 32007 35172 36131 38968 41638 47392 49728 24 27096 29553 33196 36415 37389 40270 42980 48811 51179 25 28172 30675 34382 37652 38642 41566 44314 50223 52619 26 29246 31795 35563 38885 39889 42856 45642 51627 54051 27 30319 32912 36741 40113 41132 44140 46963 53022 55475 28 31391 34027 37916 41337 42370 45419 48278 54411 56892 29 32461 35139 39087 42557 43604 46693 49588 55792 58301 30 33530 36250 40256 43773 44834 47962 50892 57167 59702 31 34598 37359 41422 44985 46059 49226 52191 58536 61098 32 35665 38466 42585 46194 47282 50487 53486 59899 62487 33 36731 39572 43745 47400 48501 51743 54775 61256 63869 34 37795 40676 44903 48602 49716 52995 56061 62607 65247 35 38859 41778 46059 49802 50928 54244 57342 63955 66619 40 44165 47269 51805 55758 56946 60436 63691 70617 73403 45 49452 52729 57505 61656 62901 66555 69957 77179 80078 50 54723 58164 63167 67505 68804 72613 76154 83656 86660 55 59980 63577 68796 73311 74662 78619 82292 90061 93167 60 65226 68972 74397 79082 80482 84580 88379 96403 99608 341 Apˆendice 6 Tabela da distribuicao F Tabela 7 Distribuicao F valores crıticos de F A area achurada corresponde a 5 da area total e representa a probabilidade de se obter um valor de F maior do que um valor F005n11n21 onde n1 1 e n2 1 sao os graus de liberdade do numerador e denominador respectivamente 5 F Fc 0 Graus de liberdade Graus de liberdade do numerador do denominador 1 2 3 4 5 6 7 8 9 1 16145 19950 21571 22458 23016 23399 23677 23888 24054 2 1851 1900 1916 1925 1930 1933 1935 1937 1938 3 1013 955 928 912 901 894 889 885 881 4 771 694 659 639 626 616 609 604 600 5 661 579 541 519 505 495 488 482 477 6 599 514 476 453 439 428 421 415 410 7 559 474 435 412 397 387 379 373 368 8 532 446 407 384 369 358 350 344 339 9 512 426 386 363 348 337 329 323 318 10 496 410 371 348 333 322 314 307 302 11 484 398 359 336 320 309 301 295 290 12 475 389 349 326 311 300 291 285 280 13 467 381 341 318 303 292 283 277 271 14 460 374 334 311 296 285 276 270 265 15 454 368 329 306 290 279 271 264 259 continua na proxima pagina 342 Probabilidades da distribuicao F continuacao da pagina anterior Graus de liberdade Graus de liberdade do numerador do denominador 1 2 3 4 5 6 7 8 9 16 449 363 324 301 285 274 266 259 254 17 445 359 320 296 281 270 261 255 249 18 441 355 316 293 277 266 258 251 246 19 438 352 313 290 274 263 254 248 242 20 435 349 310 287 271 260 251 245 239 21 432 347 307 284 268 257 249 242 237 22 430 344 305 282 266 255 246 240 234 23 428 342 303 280 264 253 244 237 232 24 426 340 301 278 262 251 242 236 230 25 424 339 299 276 260 249 240 234 228 26 423 337 298 274 259 247 239 232 227 27 421 335 296 273 257 246 237 231 225 28 420 334 295 271 256 245 236 229 224 29 418 333 293 270 255 243 235 228 222 30 417 332 292 269 253 242 233 227 221 continua na proxima pagina 343 Probabilidades da distribuicao F continuacao da pagina anterior Graus de liberdade Graus de liberdade do numerador do denominador 10 11 12 13 14 15 16 17 18 1 24188 24298 24390 24469 24536 24595 24647 24692 24732 2 1940 1940 1941 1942 1942 1943 1943 1944 1944 3 879 876 874 873 871 870 869 868 867 4 596 594 591 589 587 586 584 583 582 5 474 470 468 466 464 462 460 459 458 6 406 403 400 398 396 394 392 391 390 7 364 360 357 355 353 351 349 348 347 8 335 331 328 326 324 322 320 319 317 9 314 310 307 305 303 301 299 297 296 10 298 294 291 289 286 285 283 281 280 11 285 282 279 276 274 272 270 269 267 12 275 272 269 266 264 262 260 258 257 13 267 263 260 258 255 253 251 250 248 14 260 257 253 251 248 246 244 243 241 15 254 251 248 245 242 240 238 237 235 16 249 246 242 240 237 235 233 232 230 17 245 241 238 235 233 231 229 227 226 18 241 237 234 231 229 227 225 223 222 19 238 234 231 228 226 223 221 220 218 20 235 231 228 225 222 220 218 217 215 21 232 228 225 222 220 218 216 214 212 22 230 226 223 220 217 215 213 211 210 23 227 224 220 218 215 213 211 209 208 24 225 222 218 215 213 211 209 207 205 25 224 220 216 214 211 209 207 205 204 26 222 218 215 212 209 207 205 203 202 27 220 217 213 210 208 206 204 202 200 28 219 215 212 209 206 204 202 200 199 29 218 214 210 208 205 203 201 199 197 30 216 213 209 206 204 201 199 198 196 344 Apˆendice 7 Tabela de numeros aleatorios Tabela 8 Tabela de numeros aleatorios 27 07 94 02 42 62 53 83 62 79 15 75 04 91 21 38 34 35 59 13 70 84 98 56 25 42 96 93 24 13 96 82 62 25 57 42 29 23 92 63 53 27 27 10 84 00 34 36 09 04 70 95 03 73 48 56 76 22 91 51 46 53 44 31 76 50 65 69 80 34 30 94 67 20 24 27 81 35 60 34 19 50 21 75 27 98 05 90 10 96 97 12 42 06 62 80 29 07 39 73 09 32 50 76 89 91 84 59 49 09 00 65 86 01 09 12 48 02 87 11 04 06 51 75 77 70 12 86 80 61 01 11 82 78 81 56 16 65 62 70 99 72 39 70 14 09 53 19 86 68 15 64 65 71 71 76 24 05 67 27 54 41 17 35 31 05 91 43 96 57 73 54 44 58 35 81 30 32 73 24 83 96 99 50 62 14 08 47 13 27 15 29 46 97 56 11 01 00 66 80 78 75 03 19 52 60 47 72 34 71 36 56 71 37 91 98 32 02 14 07 43 20 97 09 82 60 33 68 60 92 90 66 36 47 78 80 25 95 29 39 30 26 27 97 68 83 19 99 07 10 63 99 46 22 81 49 07 57 58 29 76 61 33 19 60 42 83 53 25 21 75 80 90 35 80 15 02 13 93 86 97 49 62 84 83 08 30 28 23 25 81 71 21 17 83 02 14 47 24 24 51 35 40 08 38 95 61 33 12 21 38 97 55 44 39 73 08 29 24 13 06 45 47 87 03 25 39 96 35 84 10 74 08 78 15 60 12 46 44 34 94 41 67 29 02 45 80 50 66 78 29 84 49 10 84 68 45 53 43 43 85 11 06 45 99 45 93 60 63 83 65 01 85 73 79 82 26 39 87 76 89 15 92 85 99 74 52 78 68 91 48 91 45 91 85 56 66 97 92 92 90 59 29 64 18 21 85 92 60 82 70 29 85 29 15 86 74 63 68 28 23 96 44 78 00 25 59 50 94 53 24 35 86 25 16 19 85 33 55 39 88 18 79 97 41 77 36 96 50 06 92 53 95 44 88 58 29 83 26 53 32 09 97 77 25 22 07 78 72 09 86 87 82 84 37 98 35 54 71 83 74 60 46 51 22 38 12 26 83 34 82 05 51 59 76 10 48 75 74 10 91 99 67 88 34 54 59 76 44 97 29 73 26 72 67 12 29 17 96 73 17 09 66 75 80 62 09 09 30 45 21 10 55 19 83 74 16 08 08 72 85 80 49 82 65 49 89 49 52 60 94 18 43 36 42 66 04 24 03 92 65 21 05 84 23 14 87 38 17 92 73 49 71 35 83 43 75 50 76 77 21 43 07 94 54 84 08 01 83 00 11 53 52 23 16 85 26 42 81 82 continua na proxima pagina 345 continuacao da pagina anterior 14 44 78 26 46 51 23 22 42 70 53 79 42 32 12 20 53 05 32 17 23 96 26 99 29 24 22 31 90 73 75 81 82 42 25 18 42 48 65 79 51 02 68 54 55 90 32 69 29 11 97 34 87 79 10 61 34 44 80 36 37 53 30 67 26 40 88 80 00 00 67 24 09 72 14 35 81 40 66 59 27 41 10 16 68 34 78 88 04 56 81 07 96 70 86 07 27 75 50 65 42 04 38 95 55 86 32 49 52 44 95 77 87 00 45 99 26 07 14 72 89 05 82 05 09 30 00 99 20 59 96 36 98 21 04 44 53 16 90 08 66 85 49 63 76 95 79 00 72 85 18 82 08 05 46 55 11 13 63 06 62 28 43 26 23 54 26 52 53 42 48 44 41 42 99 48 57 16 92 57 82 91 96 04 63 43 40 76 23 83 58 65 23 77 76 24 57 88 00 29 35 36 82 27 32 11 00 32 11 62 36 60 46 76 75 48 78 01 07 57 81 49 29 44 40 37 22 32 84 16 83 22 82 28 52 97 62 55 02 54 83 53 61 83 04 10 91 04 68 36 84 38 83 76 85 94 02 05 20 53 92 96 17 73 10 60 08 68 81 18 35 25 77 92 12 56 23 64 29 17 92 70 93 19 94 19 66 42 72 89 26 85 37 92 00 25 09 71 48 40 09 33 99 94 34 11 34 17 90 53 43 14 10 96 82 49 40 65 45 58 02 36 21 47 42 31 63 35 04 15 76 95 80 81 30 22 95 72 62 79 83 76 25 32 08 80 41 97 16 76 40 08 27 39 70 80 04 10 58 96 70 51 29 36 51 89 33 30 07 60 90 74 51 96 92 21 25 84 89 97 44 70 33 04 19 12 66 72 52 42 49 15 56 21 50 21 99 71 97 10 346 eee S Figura 1 Grafico da distribuigaéo conjunta de local e aborto A e Respostas de Alguns dos Exercicios Respostas dos exercicios sobre andalise exploratéria de dados Respostas dos exercicios da segao 2133 1 a Numero de abortos Local 1 2 Teal 1 21 5 1 27 2 24 11 3 38 Total 45 16 4 65 b Resposta figura 1 2 Veja figura 2 4 Veja figura 3 Respostas dos exercicios da secgao 2135 2 Sim Para os gripados 5217 nao foram vacinados ou seja mais da metade Para os nao egripados 5922 aplicaram duas doses da vacina ou seja a maioria dos nao gripados foram vacinados 3 b3029 c5650 4 Nao 347 g we ose PS P of Be ws o ZO 36 ey so Pr gee ey oe Oo Figura 2 Grafico da distribuicao conjunta da situagao de posse e adocao Br RS g 8 KS i 2 Ss yoo A ee ee oF Figura 3 Grafico da distribuigéo conjunta do local e peso de mexilhdes 348 2 2o 3 3o 4 4o 5 5o 1 1 1 2 2 2 2 3 3 3 3 3 5 6 8 8 8 0 0 3 5 5 6 9 9 0 0 2 2 5 6 6 8 0 9 Figura 4 Ramoefolhas da duracao do primeiro estadio ninfal 6 Sim pois fixandose os totais de locais em 100 verificamos no manguezal que 60 dos mexilhoes sao leves e somente 571 sao pesados Por outro lado no Sambaqui verificamos somente 294 de leves e 5588 de pesados Portanto no Sambaqui temos animais mais pesados Respostas dos exercıcios da secao 2137 1 C01567 C02216 O que demonstra que local e aborto estao fracamente associados 2 C 0 6008 C08496 O que demonstra que porte e habito estao associados 4 C 0 5634 C 0 7967 χ2 32 0898 V 0 6819 Respostas dos exercıcios da secao 21311 2 Ramoefolhas na figura 4 a 30 dias b Assimetrica a direita c Visualmente nao apresenta Respostas dos exercıcios da secao 2251 1 b r09840 portanto existe uma forte dependˆencia entre as duas variaveis Respostas dos exercıcios da secao 2261 349 1 a ˆy 4 777 3 780x b ˆy 1933 1332 1256 1570 4110 4787 3 ˆy 0 005 0 005x Vmax 200mmolmin e KM 1 0mM Os resultados das taxas de transportes sao 67 mmolmin e 198 mmolmin Respostas dos exercıcios propostos sobre modelos de probabilidades para exper imentos simples secao 39 1 a55 72 b 10 72 2 016 Independˆencia entre os resultados dos blocos 3 2 625 0 32 Idem ao exercıcio 2 4 a 077 b 054 c Os eventos sao mutuamente exclusivos 5 a 00385 b 00925 c os pares de cromossomos sao independentes 6 iPA12 iiPA13 7 a375 b010 02504040 c50 8 a5 8 b 7 8 c3 4 9 a3 8 b 7 8 c5 8 d 1 2 e 1 8 10 a33 95 b 14 95 c 48 95 11 4 9 12 a000 b065 c070 d00 13 059 14 05952 15 a 125 b 0391 c 00198 d 8594 16 3623 17 a06836 b EX2 18 fazer a tabela 19 a 085 b 045 c 010 d 015 20 a Nao sao independentes PF A PF altera as probabilidades b 8571 e c7857 Respostas dos exercıcios propostos sobre modelos de probabilidade para variaveis aleatorias discretas secao 49 350 1 108 2 EX np 156 0 0081 1 26 covas 3 a 2236 bacteriascm3 b 095957 4 EX18 DPX27 5 a 011 b 0119 6 a 094 b60 c 228 um dEX04 VARX0392 7 a 4 animais VARX32 animais2 DPX18 animais b 04236 c 0931 8 a EXnp24 entao esperase em media 24 machos por ninhada A proporcao media e245048 b Para X0 76 X1 351 e X2 648 X3 598 X4 276 X5 51 9 a 06454 b 12 27 29 c Concluo que a D de Poisson esta razoavelmente bem ade quada a esta situacao 10 DPX 8 2 828 Desvios de 1 2 ou 3 ocorrem frequentemnte Desvios maiores que trˆes sao raros 11 a02681 b 0 rato13 quadrantes 1 rato536 quad 2 ratos107 quad 12 a5554 b 10055544446 13 a24 b9424 14 a Numero medio de plantas doentes colhidas 0965 logo proporcao media 096527 00357 357 bPara X0 1124 X1 1124 X2 541 X3 167 e X4 036 cNao e muito boa a aproximacao Acreditamos modelo de Poisson seja melhor 15 EX nπ 812 4 PX4027 16956 17 Para 15 minutos o parˆametro Valor medio vale 5 PX5017546 18 a 01680 b 0800852 351 Figura 5 Curva caracteristica de operagao CCO 19 a Y Xx 01 243 Total 0 10010 1 1 0220 4 2 0222 6 3 0 220 4 4 10010 1 Total 2662 16 b Nao sao independentes pois PX e Y nao é igual a PXPY c EX 3216 EY 2416 fazendo ZXY temos que EZ4816 assim COVXY 4816 3216 2416 45 20 PX000824 PX 4 0126 21 a 0107 b 0599 0349 0107 e 0006 O grafico é dado na figura 5 22 1072 um que o preco médio por saco da proposta logo o produtor deve manter seu prego de 2000 um por saco 230091603 24 a PXk0 700 30 Veja figura 6 b PX 2 1PX 0 PX 1 1 000015 099985 c EX7 VARX21 25 a00337 b09933 c PX k e75k Veja figura 7 26151 27 a 0086138 b 0736098 28 a 0676676 b 0323324 29 a 7357 b2642 30 a 400000 um para o lote b 3952434 um para o lote Assim é melhor a opgao A 302 Número de sementes que germinam PXx 002 002 006 010 014 018 022 026 030 2 0 2 4 6 8 10 12 Figura 6 Grafico da distribuicao de probabilidades do numero de sementes que germinam x PXx 002 002 006 010 014 018 022 2 2 6 10 14 18 Figura 7 Grafico da distribuicao de probabilidades do numero de criancas imunizadas 31 1848 32 a 1111 b 1333 33 a 1 Existe n8 repeticoes do experimento 2 Ha independˆencia entre os nascimentos 3 So ha dois tipos de resultados possıveis 4 π constante em cada nascimento a probabilidade de sucesso e de 50 b EX4 DPX14142 c 636 d 34 a 1847 b 173 35 a 1153 b 000929 c 7345 36 a 2394 b 1 Cada dia e independente 2 Existe n30 repeticoes igualmente provaveis 353 Número de filhos Probabilidades 002 002 006 010 014 018 022 026 030 1 1 3 5 7 9 Figura 8 Distribuicao de probabilidade para numero de filhos homens 3 π constante 4 So ha 2 resultados possıveis chove ou nao chove 37 a Sim b 39 c 2929 d 0 38 a 1754 b 9595724 39 a 05 b 298 40 061 41 a 96059 Binomial e 096078 Poisson b 9994 Respostas dos exercıcios propostos para modelos de probabilidade para variaveis aleatorias contınuas secao 535 1 a 03848 b 02517 c03092 d07648 e02743 f08907 g09453 h068 i095 j099 200038 ou 038 3 PX 185kg 0 9332 Logo tˆemse 120x09332112 animais 4 a01974 b06826 c03085 5 a00918 09962 07463 0 b8745cm3min c95325 a 144675 6 a09336 b9336 progˆenicos 7 0047 8 433 554 602 9 z1645 logo D2179 cm 10 a00228 b 0053 11 2206 12 media4257 g 354 13 a 001222 b 018673 14 002275 2275 15 ab803 bb9253 16 a02358 b157 c2 507cm 17 15625 1875 19 a1587 b9545 c A porcentagem permanece a mesma Sempre existira das ob servacoes entre 2σ e 2σ da media se a distribuicao e normal padrao 20 a09336 b 00664 c 93 21a2486 bw1652 c034 22 a1356 bD1720 23 a00968 b09879 c05 24 x10484 x20516 25 a 51285mm b051 26a9545 b A porcentagem continua sendo a mesma pois se a distribuicao e normal entao entre a media 2 desvios padroes temse 9545 do dados c0621 27 a18904 b683 28 µ21303 29 1230 b A1852m 30 a08413 b0218230 c20569 31 010427 ou 1043 32 001321132 33 017361736 34 a004977 b Concluise que a cultivar A e mais produtiva que a B 35 3415 Respostas dos exercıcios propostos sobre distribuicoes amostrais secao 65 1 a 683 b015866 16 2 3387 3 ProbP 0 40 ProbP 0 53 0 2388 0 20327 0 4421 44 21 4 006 probgerminar095 probde naogerminar005 n200 Utilizar distribuicao normal padrao 355 5 P X 2 0 1 7 6 A media da distribuicao amostral e igual a 7069 kgha e o desvio padrao igual a 988583 kgha a 9953 b 052 c 006 7 Media populacional18000 desvio padrao populacional5125 n30 Resp014231423 8 P X 140 0 035 9 a68 b100 10 az1057 z2085 assim 021570302305180 ou 518 b 00021 ou 021 Respostas dos exercıcios propostos sobre avaliacao de parˆametros estimacao secao 75 1 a li172410 ls173589 b li172226 ls173774 c 918 2 a li481 ls489 li47984 ls49016 b 543455 pacotes 3 a li235963 ls295037 li225694 ls305306 b n14852149 4 a li333800 ls346192 li331609 ls348391 b n958510 5 Para o mˆes de maio Li00991 Ls05009 erro020 e n127 Para o mˆes de junho Li00116 Ls03489 erro01683 e n89 6 lizero ls02413 7 li0054 ls03459 mınimo54 maximo346 8 li13776 ls16224 kgha 9 57 16 µ 95 14 b n375 10 Lagoa 5 73 µ 6 51 Fazenda 9 31 µ 9 81 110 584 π 0 816 120 084 µ 1 484 13 a 1 9152 µ 2 2848 b n1065 107 14 7 5076 µBra 12 6524 11 5418 µCan 19 1182 Concluir que nao ha diferencas significativas entre as duas especies 15 a 0 1864 π 0 6136 Baixa precisao aumentar o tamanho da amostra n b e 0 2136 temos 99 de confianca que a proporcao obtida na amostra nao difere mais do que 02136 de π c n 640 d 0 041 π 0 081 e veja figura 9 16 a 8 7168 µ 15 0632 b n 855 Respostas dos exercıcios propostos sobre testes de hipoteses secao 86 356 5 5 10 15 20 25 30 35 40 45 50 55 60 65 70 Pioneiro Secundário Figura 9 Representacao grafica dos intervalos de confianca 1Zc0329 Zt1645 concluise que a maquina nao precisa ser regulada 2 gl 34 52 35 Tt2724 Tc698 Rejeitase H0 A variedade B e superior 3 χ2 9 27 χ2 0053 7 815 portanto a distribuicao nao segue as leis da hereditariedade 4 1o XA NµA σ2 A e XB NµB σ2 B 2o σ2 A σ2 B e 3o as amostras sao indepen dentes 5 t 0 2479 Aceitase a hipotese nula 48 25 µ 54 11 6 30 6097 µ 33 8904 18 2972 µ 22 3427 b n 31 c t12623 rejeitase a hipotese nula 7 χ2 3 8347 Aceitase a hipotese nula As duas variedades sao semelhantes quanto a germinacao de sementes 8 t 4 333 Rejeitase a hipotese nula o inseticida novo e melhor do que o padrao 9 t 1 598 aceitase a hipotese nula a quantidade de proteınas no plasma e a mesma 10 a 5 9373 µ 7 8227 b t 20 2482 portanto rejeitamos a hipotese nula c n 36 27 37 11 t 10 588 Pt 10 588 0 1 Rejeitase a hipotese nula 12 PF 3 02 0 057602 portanto aceitase H0 t 0 24 Pt 0 24 811620 portanto aceitase a hipotese nula 13 F4974 PF 4 974 0 000022 assim as variˆancias sao heterogˆeneas t 3 8977 Pt 3 8977 0 000181 existe diferenca significativa entre as alturas das duas especies 357 14 F 1 006 PF 1 006 0 494867 variˆancias homogˆeneas t 0 05417 Pt 0 05417 0 957084 95 71 aceitase H0 15 t 4 149 Pt 4 149 0 025441 2 54 A cultivar CEP 18Cavera e mais produtiva 16 χ2 164 62 com 2 graus de liberdade Pχ2 164 62 0 000000 Existe diferenca significativa entre o numero de armadilhas utilizadas na captura da vaquinha com relacao ao uso de inseticida 17 a H0 µN µU e H0 µN µU b E a probabilidade do agricultor aceitar como mel hor o inseticida novo sendo que na verdade nao existe diferenca entre os dois inseticidas quanto a producao 18 a t 0 688 com 38 graus de liberdade Pt 0 688 0 495631 49 56 aceitase a hipotese nula b0342021049366 µC µR 0 34 2 0210 49366 19 χ2 22 352 com 6 graus de liberdade Pχ2 22 352 0 001047 0 1047 existe diferencas entre os trˆes tipos de vinhos quanto a estabilidade b χ2 18 755 com 3 graus de liberdade Pχ2 18 755 0 000308 0 0308 existe diferencas entre os dois tipos de vinhos quanto a estabilidade O vinho tinto e pior que o branco 20 a tcalculado 3 35 ttabelado1761 rejeitase a hipotese de nulidade bvalor p 0 002382 tomandose como referˆencia o valor 005 rejeitase a hipotese nula 21 az168 Rejeitase H0 b valor p046479 rejeitase H0 22 t19 2 91 Pt 2 91 esta entre 01 e 05 portanto rejeitase a hipotese de nul idade e concluise que a media na Baıa Norte e realmente maior do que em Sambaqui O intervalo fica 31 0 µ 35 8 23 a no caso 1 devemos usar o teste t para comparacao de duas medias independentes com variˆancias desconhecidas e no caso 2 devemos usar o teste t para comparacao de duas medias para dados pareados b Prefereria o planejamento 2 pois devemos comparar as duas medias sob igualdade de condicoes 24 xI 81 45 e xS 62 45 H0 µI µS Ha µI µS F416 valor p0003 variˆancias heterogˆeneas t448 gl2763 e valor p000006 portanto rejeitase a hipotese nula ou seja realmente a reproducao sexuada e prejudicada em area sombreada 25 H0 π 0 50 Ha π 0 50 z283 Pz 2 83 0 50 0 4977 0 0023 portanto rejeitase a hipotese nula 358