·

Biomedicina ·

Bioestatística

Send your question to AI and receive an answer instantly

Ask Question

Preview text

BIOESTATÍSTICA E DELINEAMENTO DE EXPERIMENTOS CIÊNCIAS BIOMÉDICAS 2 1 ESTATÍSTICA DESCRITIVA A Estatística constituise em uma ciência destinada a decidir o melhor plano para a execução de uma pesquisa organizar e resumir dados de contagem mensuração e classificação inferir sobre populações de unidades indivíduos animais objetos quando uma parte amostra é considerada Um dos componentes de uma análise estatística é a exploração de dados comumente denominada estatística descritiva A estatística descritiva apresenta um conjunto de técnicas para sumarizar os dados em tabelas gráficos e medidas descritivas que permitem tirar muitas informações contidas nos dados 11 Introdução A palavra Estatística vem de Estado Significa de maneira mais ampla o Estudo do Estado Inicialmente descrevia um ramo da ciência política e se referia a fatos ou dados coletados por órgãos ou agências governamentais Esses dados diziam respeito à população riquezas áreas de terra recursos que eram sempre necessários para várias finalidades tais como entre outras taxação de impostos programas militares e econômicos Atualmente há uma multiplicidade de dados que são coletados não somente por órgãos governamentais mas também por outras agências Entre esses dados incluemse por exemplo nascimentos casamentos mortes e casos de doenças A estatística é uma ciência que se dedica à coleta análise e interpretação de dados Preocupase com os métodos de coleta organização resumo apresentação e interpretação dos dados assim como tirar conclusões sobre as características das fontes donde estes foram retirados para melhor compreender as situações A estatística inclui toda a elaboração que vai desde o planejamento coleta organização e descrição dos dados estatística descritiva até a análise e interpretação dos resultados estatística indutiva Essa elaboração envolve o tratamento dos dados de diferentes modos a fim de tornálos mais facilmente compreensíveis através da construção de tabelas gráficos cálculo de porcentagens médias etc O termo Bioestatística se refere à Estatística aplicada à vida e ciências da saúde como biomedicina biologia veterinária enfermagem medicina etc com a finalidade de planejar coletar organizar resumir analisar e interpretar os dados permitindo tirar conclusões sobre populações a partir do estudo de amostras 12 Tipos de variáveis Variáveis são características que podem assumir valores diferentes de um indivíduo para outro ou no mesmo indivíduo ao longo do tempo ou seja uma variável é uma 3 característica que varia entre os indivíduos estudados como a idade o peso a altura o sexo a raça etc É importante identificar que tipo de variável está sendo estudada uma vez que são recomendados procedimentos estatísticos diferentes em cada situação A principal divisão ocorre entre variáveis qualitativas e quantitativas Variáveis qualitativas são as que fornecem dados de natureza não numérica como a cor de uma flor a raça de uma ovelha ou o sexo de um paciente Mesmo que os dados possam ser codificados numericamente masculino 1 feminino 2 os números aqui são apenas símbolos sem valor quantitativo Neste tipo de variável as diferentes categorias que a compõem podem ter sido obtidas segundo dois níveis de mensuração a nível nominal nesse nível diferenciase uma categoria da outra somente por meio da denominação da categoria Assim classificase um coelho como do gênero masculino ou feminino e um paciente psiquiátrico como psicótico ou neurótico As variáveis nominais podem ainda ser divididas em binomiais binárias ou dicotômicas quando compostas por duas categorias como é o caso de pessoas Rh e Rh e polinomiais ou politômicas quando apresentam mais de duas categorias possíveis como os grupos A B AB e O do sistema sanguíneo ABO b nível ordinal quando suas categorias seguem uma ordenação natural Exemplos grau de instrução primário secundário superior estágio da doença inicial intermediário avançado Variáveis quantitativas são aquelas cujos dados são valores numéricos que expressam quantidades como os salários dos operários a idade dos alunos de uma universidade o número de filhos a altura das pessoas o número de sementes íntegras em uma vagem ou o nível sérico de cálcio em roedores Elas podem ainda ser classificadas em a Variáveis quantitativas discretas são aquelas em que os dados somente podem apresentar determinados valores em geral números inteiros Por exemplo número de filhos nascidos vivos número de obras catalogadas número de células aneuplóides por antera número de baixas hospitalares por paciente b Variáveis quantitativas contínuas quando as variáveis assumem teoricamente quaisquer valores entre dois limites Exemplo o peso dos alunos é uma variável contínua pois um aluno pode pesar 72 kg 725 kg 738 kg ou qualquer outro valor num determinado intervalo Exercício 1 Classifique as variáveis em qualitativa nominal QN qualitativa ordinal QO quantitativa discreta QD ou quantitativa contínua QC 4 a idade b renda familiar c cor dos olhos d status social e peso f número de filhos g quantidade de calorias h nota do aluno i sexo j religião k número de acidentes l altura m grau de instrução n número de ovos o temperatura p posição no exército q número de livros r tempo de estudo s salário t estado civil u nacionalidade v número de leitos hospitalares w raça x categorias do boxe y valor dos bens que possui z número de faltas 13 População e Amostra Normalmente entendese o termo população como um conjunto de pessoas Em estatística o sentido da palavra se torna mais amplo Entendese por população a totalidade dos elementos ou de um atributo dos elementos referentes a um conjunto determinado Assim é lícito na linguagem estatística falar de População de Botucatu cujos elementos são as pessoas que residem na cidade População de pacientes internados no HC que tem como elementos as pessoas internadas no Hospital das Clínicas 5 s total de observaçõe número na categoria frequência s total de observaçõe número frequência de um valor x A dificuldade em tratar conjuntos completos de dados faz com que se trabalhe com partes do conjunto original tidas como representantes do conjunto Convencionase denominar essas partes de amostras Desse modo uma amostra é uma parte tomada da população ou um conjunto de elementos da população selecionado segundo algum critério de amostragem 14 Distribuições de Frequências A Dados Qualitativos Nominais ou Qualitativos Ordinais Quando trabalhamos com dados qualitativos nominais ou qualitativos ordinais calculamos as frequências das categorias individuais A frequência relativa em porcentagem de uma categoria é dada por fr x 100 Exemplo Considere um problema de pesquisa de opinião Nessa pesquisa 280 alunos de uma universidade foram consultados a respeito de suas opiniões sobre o desempenho de um professor de Estatística Dadas as frequências observadas para cada categoria de resposta Bom Regular e Péssimo podemos calcular as frequências relativas Observe a Tabela 11 Tabela 11 Pesquisa de Opinião Resposta Frequência Frequência relativa Bom 152 152280 x 100 543 Regular 77 77280 x 100 275 Péssimo 51 51280 x 100 182 Total 280 100 B Dados Quantitativos Discretos Com dados quantitativos sumarizamos os dados numa tabela de distribuição de frequências que inclui as frequências relativas dadas por fr x 100 6 Exemplo Os dados abaixo representam o número de cáries encontradas em cada um dos 30 alunos de uma classe 4 3 4 3 3 5 3 4 3 3 4 4 4 4 4 5 5 2 4 3 3 3 7 4 3 5 6 4 5 5 Na Tabela 12 temos a distribuição de frequências para cada valor de x Tabela 12 Distribuição de frequências do número de cáries dos alunos no de cáries Frequência Frequência relativa 2 1 130 x 100 333 3 10 1030 x 100 3333 4 11 1130 x 100 3668 5 6 630 x 100 20 6 1 130 x 100 333 7 1 130 x 100 333 Total 30 100 C Dados Quantitativos Contínuos Na construção da distribuição de frequências de uma variável contínua consideramos intervalos de mesmo comprimento para determinarmos suas frequências relativas Assim seguimos o seguinte roteiro i achar o máximo e o mínimo dos dados ii escolher intervalos de mesmo comprimento que cubram a amplitude entre o mínimo e o máximo Esses intervalos são chamados de classes iii contar o número de observações que pertencem a cada intervalo de classe Esses números são as frequências observadas das classes iv calcular as frequências relativas de cada classe frequência relativa total de observações número frequência observada na classe Exemplo Abaixo temos aos pesos em kg de 30 alunos de um determinado curso 604 526 713 568 608 424 497 732 684 759 452 514 508 639 652 828 413 587 621 742 578 469 723 654 513 598 447 603 567 472 7 n 30 observações mínimo 413 kg máximo 828 kg amplitude máximo mínimo 415 kg número de classes k 1 3222 log n 576 6 intervalos largura do intervalo amplitude k 692 7 kg EXERCÍCIOS 2 Considerando as idades de 30 alunos construa a tabela de distribuição de frequências 18 19 23 21 18 22 20 19 22 21 18 20 22 23 22 21 20 21 22 23 20 21 20 20 18 19 21 21 22 19 3 Complete a tabela abaixo onde temos a distribuição de frequência das idades dos funcionários Peso kg Frequência Frequência acumulada Frequência relativa 41 48 6 6 6 30 02000 48 55 5 11 5 30 01667 55 62 8 19 8 30 02667 62 69 5 24 5 30 01667 69 76 5 29 5 30 01667 76 83 1 30 1 30 00333 Total 30 100 Intervalo Frequência Frequência relativa 18 25 24 030 025 16 53 60 005 Total 160 100 8 4 Calcule a frequência relativa na tabela abaixo 5 Encontre a frequência na tabela abaixo onde n 30 Número de atividades Frequência Frequência relativa 0 020 1 040 2 020 3 010 4 010 Total 100 6 Sabendo que o primeiro intervalo começa no valor 10 e que o último intervalo termina no valor 58 construa os intervalos na tabela de frequência 15 Representações por Tabelas e Gráficos Após a coleta dos dados construímos a tabela de distribuição de frequências e também fazemos um gráfico O gráfico estatístico é uma forma de apresentação dos dados estatísticos cujo objetivo é o de produzir no investigador ou no público em geral uma impressão mais rápida e viva do fenômeno em estudo Classe de Salários Frequência Frequência relativa 1 3 32 3 5 21 5 7 14 7 9 9 9 11 4 Total 80 Intervalo Frequência 4 7 10 12 5 2 Total 40 9 151 Gráfico ou Diagrama de Barras É usado para apresentar variáveis qualitativas nominais ou qualitativas ordinais Para fazer um gráfico de barras primeiro se traça o sistema de eixos cartesianos Depois colocamse no eixo das abscissas as categorias da variável em estudo Em seguida constroemse barras retangulares com base no eixo das abscissas e altura igual à frequência ou à frequência relativa da respectiva categoria As barras devem ser desenhadas separadas para ficar claro que a variável é qualitativa nominal ou qualitativa ordinal Como exemplo temos os dados da Tabela 13 que estão apresentados em gráfico de barras ou diagrama de barras na Figura 11 Tabela 13 Distribuição dos casos de sarna na população humana segundo os locais das lesões Mohanpur 19781979 Locais da lesão Frequência Frequência relativa Região entre os dedos pulso e mãos M 106 6127 Abdômen órgãos genitais e tórax T 37 2139 Orelhas e rosto R 21 1214 Pés e pernas P 9 520 Total 173 1000 Figura 11 Distribuição dos casos de sarna na população humana em relação aos locais das lesões diagrama de barras 152 Gráfico de Setores O gráfico de setores também é usado para apresentar variáveis qualitativas nominais ou qualitativas ordinais Para fazer um gráfico de setores primeiro se traça uma circunferência que como se sabe tem 360o Essa circunferência representa o total ou seja 100 Dentro dessa circunferência devem ser representadas as categorias da variável em estudo Para isso tomase a frequência relativa de cada categoria e calculase o ângulo 0 10 20 30 40 50 60 70 M T R P Percentual 10 63 fr xo central da seguinte maneira se 100 correspondem a 360o uma categoria com frequência relativa de fr terá um ângulo central xo tal que 100 360o f xo Logo o valor do ângulo central xo será Os ângulos centrais das demais categorias são obtidos da mesma maneira Para fazer o gráfico de setores marcamse na circunferência os ângulos calculados separandoos com o traçado dos raios Exemplo Uma representação gráfica das frequências relativas da tabela 11 pode ser vista no diagrama circular ou gráfico de setores dado na Figura 12 O cálculo dos ângulos para construir o gráfico de setores é feito da seguinte forma 36 x 543 19548o 36 x 275 99o 36 x 182 6552o Figura 12 Pesquisa de Opinião 153 Histograma Os dados quantitativos apresentados em tabelas de distribuição de frequências são apresentados graficamente em histogramas A distribuição de frequências de uma variável quantitativa discreta pode ser representada por um gráfico com retângulos verticais também chamado de histograma Como exemplo mostramos na Figura 13 o histograma da Tabela 12 63 100 360 fr fr xo 11 Figura 13 Número de cáries dos alunos Quando temos intervalos de classe e desejamos construir um histograma traçamse barras retangulares com bases iguais correspondendo aos intervalos de classe e com alturas determinadas pelas respectivas frequências A Figura 14 mostra o histograma feito com a distribuição de frequências apresentada na Tabela 14 Tabela 14 Nascidos vivos segundo o peso ao nascer em quilogramas Peso ao nascer Ponto médio xi Frequência 15 20 175 3 20 25 225 16 25 30 275 31 30 35 325 34 35 40 375 11 40 45 425 4 45 50 475 1 Expected Normal Peso ao nascer Freqüência 0 5 10 15 20 25 30 35 40 10 15 20 25 30 35 40 45 50 Figura 14 Nascidos vivos segundo o peso ao nascer em quilogramas Expected Normal Número de cáries 10 20 30 40 2 3 4 5 6 7 12 154 Polígono de Frequências Os dados quantitativos apresentados em tabela de distribuição de frequências também podem ser apresentados em gráficos denominados polígonos de frequências Para fazer esse tipo de gráfico primeiro se traça o sistema de eixos cartesianos Depois se os intervalos de classes são iguais marcamse pontos com abscissas iguais aos pontos médios das classes e ordenadas iguais às respectivas frequências Para fechar o polígono unemse os extremos da figura com o eixo horizontal nos pontos de abscissas iguais aos pontos médios de uma classe imediatamente inferior à primeira e de uma classe imediatamente superior à última Veja o polígono de frequências apresentado na Figura 15 construído para apresentar os dados da Tabela 14 Expected Normal Peso ao nascer Freqüência 0 5 10 15 20 25 30 35 40 10 15 20 25 30 35 40 45 50 Figura 15 Nascidos vivos segundo o peso ao nascer em quilogramas Exercício 7 No conjunto de dados abaixo são fornecidos os pesos arredondados em quilos de crianças nascidas em certo intervalo de tempo Construa uma tabela de distribuição de frequência desses pesos e faça um gráfico 18 36 18 27 36 27 32 32 32 36 45 41 32 27 45 36 23 41 27 14 32 27 18 32 27 41 32 18 32 27 36 36 41 50 36 32 45 36 23 32 32 27 23 45 36 41 32 23 27 23 13 16 Medidas de Posição As medidas de posição de uma distribuição são valores que representam as tendências de concentração dos dados observados As principais medidas de posição são média mediana moda quartil decil e percentil A média e a mediana como veremos indicam por critérios diferentes o centro da distribuição de frequências Por essa razão costumase dizer também que são medidas de tendência central A moda por sua vez indica a região de maior concentração de frequências na distribuição Média amostral Sejam x1 x2 xn representando os dados onde n é o número de observações A média amostral x é uma medida de centralidade dos dados dada pela média aritmética das observações Exemplo Os dados abaixo representam as taxas de glicogênio em miligramas por 100 g em fígado de ratos com 60 dias de idade submetidos à cirurgia simulada da parótida 83 73 82 80 82 69 81 90 A média amostral desses dados é Portanto a taxa média de glicogênio nessa amostra foi de 80 mg por 100 g de fígado É importante frisar que a média tem a mesma unidade de medida dos dados coletados A média de dados dispostos em uma tabela de distribuição de frequências Para exemplificar consideremos os dados da tabela de distribuição de frequências do número de filhos do sexo masculino relativo a 34 famílias Número de meninos xi fi 0 2 1 6 2 10 3 12 4 4 Total 34 n x x n i i 1 80 8 640 8 90 81 82 73 83 x 14 Neste caso como as frequências são números indicadores da intensidade de cada valor da variável elas funcionam como fatores de ponderação o que nos leva a calcular a média aritmética ponderada dada pela fórmula onde Assim teremos Portanto as famílias têm em média 23 filhos do sexo masculino Vejamos agora como se calcular a média quando os dados estão dispostos em classes na tabela de distribuição de frequências Exemplo Considere a distribuição de frequências dos pesos em kg de 30 alunos de uma escola de segundo grau A média dos dados acima é dada por Conclusão Na amostra estudada os alunos de uma escola de segundo grau apresentavam peso médio igual a 5873 kg Intervalo de classe Ponto médio xi Frequência fi 41 48 4148 2 445 6 48 55 4855 2 515 5 55 62 5562 2 585 8 62 69 6269 2 655 5 69 76 6976 2 725 5 76 83 7683 2 795 1 n f x x k i i i 1 k i if n 1 32 34 78 34 44 3 12 210 1 6 02 1 n f x x k i i i 5873 30 1762 1 5 5 8 5 6 1 79 5 572 5 565 5 858 5 5515 44 5 6 6 1 n f x x i i i 15 A distribuição de frequências de uma variável quantitativa contínua pode ser representada por um gráfico chamado de histograma Figura 16 Figura 16 Histograma do peso dos alunos Mediana A mediana amostral de um conjunto de dados ordenados x1 x2 xn que representamos por Md é o valor de centralidade quando n é ímpar Se n é par tomamos a média dos dois valores centrais Exemplo Os dados abaixo representam os tempos de sobrevivência de 6 cobaias submetidas a um experimento médico tempos de sobrevivência em dias 3 15 46 64 126 623 Como n 6 é par e os dados já estão ordenados tomamos a média entre as duas observações de centro 46 e 64 Portanto a mediana amostral é dada por A média amostral para esses dados é x 1462 dias Observamos que a última observação muito grande aumenta a média amostral Portanto para esses dados o melhor indicador de centro é a mediana amostral pois ela não sofre a influência de valores extremos Assim considerando os dados ordenados x1 x2 x3 xn temos que 0 1 2 3 4 5 6 7 8 9 41 48 48 55 55 62 62 69 69 76 76 83 Frequência Intervalo 55 dias 2 64 46 Md se n é ímpar Md se n é par Md 2 X X 2 2 n 2 n Considerando agora uma distribuição em classes de frequências podemos calcular um valor para sua mediana pela expressão onde L1 é o limite inferior da classe que contém a mediana n é o número de observações do conjunto de dados Fa é a soma das frequências das classes anteriores à que contém a mediana fmd é a frequência da classe que contém a mediana hmd é a amplitude da classe que contém a mediana Exemplo Calculemos a mediana da distribuição de frequência relativa às alturas em cm dos empregados de uma empresa Determinemos primeiramente a classe da mediana fazendo o seguinte cálculo 05 n 05 50 25 A classe da mediana é a de frequência acumulada Fa igual a 32 isto é frequência acumulada imediatamente superior a 25 Aplicando a fórmula teremos L1 1705 n 50 Fa 19 fmd 13 hmd 5 Intervalo de classe fi Fi 1555 1605 3 3 1605 1655 7 10 1655 1705 9 19 1705 1755 13 32 1755 1805 8 40 1805 1855 5 45 1855 1905 3 48 1905 1955 2 50 Total 50 2 n 1 X md md a 1 h f F 05n L Md 17281 5 13 25 19 170 5 h f F 05n L Md md md a 1 17 Quando não temos intervalo de classe basta identificar a frequência acumulada imediatamente superior à metade da soma das frequências A mediana será aquele valor da variável que corresponde a tal frequência acumulada Tomemos a distribuição relativa à tabela abaixo completandoa com a coluna correspondente à frequência acumulada Número de meninos xi fi Fi 0 2 2 1 6 8 2 10 18 3 12 30 4 4 34 Total 34 Sendo 05 n 05 34 17 a menor frequência acumulada que supera esse valor é 18 que corresponde ao valor 2 da variável sendo este o valor mediano Logo Md 2 meninos Nota No caso de existir uma frequência acumulada Fi tal que Fi 05 n a mediana será dada por Md xi xi1 2 isto é a mediana será a média aritmética entre o valor correspondente a essa frequência acumulada e o seguinte Exemplo Temos que F3 05 n 05 8 4 Logo Md 15 16 2 155 xi fi Fi 12 1 1 14 2 3 15 1 4 16 2 6 17 1 7 20 1 8 Total 8 18 Moda A moda Mo de um conjunto de valores é o valor que ocorre com a maior frequência isto é é o valor mais comum A moda pode não existir e mesmo que exista pode não ser única Exemplo 1 O conjunto 2 2 5 7 9 9 9 10 10 11 12 18 tem uma moda isto é Mo 9 Portanto é denominado unimodal Exemplo 2 O conjunto 3 5 8 10 12 15 16 não tem moda é amodal Exemplo 3 O conjunto 2 3 4 4 4 5 5 7 7 7 9 tem duas modas Mo 4 e Mo 7 e é denominado bimodal Para uma distribuição de frequências a moda pode ser obtida por meio da fórmula onde L1 é o limite inferior da classe modal isto é a classe que contém a moda d1 é a diferença entre a frequência da classe modal e a frequência da classe anterior d2 é a diferença entre a frequência da classe modal e a frequência da classe seguinte hmo é a amplitude da classe que contém a moda Exemplo Considere a distribuição de frequências das alturas dos empregados de uma empresa exemplo da página 16 Aplicando a fórmula teremos L1 1705 d1 13 9 4 d2 13 8 5 hmo 5 A moda é uma medida de posição pois indica a região das máximas frequências Por isso quando não temos intervalos de classe é possível identificar imediatamente a moda basta fixar o valor da variável de maior frequência Exemplo Na distribuição da tabela a seguir à frequência máxima 12 corresponde o valor 3 da variável Logo Mo 3 mo 2 1 1 1 h d d d L Mo 17272 5 5 4 4 1705 h d d d L Mo mo 2 1 1 1 19 Número de meninos xi fi 0 2 1 6 2 10 3 12 4 4 Total 34 Quartil Vimos que a mediana de uma distribuição ordenada é o valor que a divide em duas partes com o mesmo número de elementos Analogamente considerando os valores que dividem a distribuição em 4 partes com o mesmo número de elementos temos os quartis Desta forma temos três quartis o 1o quartil é o valor que separa ¼ dos valores à sua esquerda e ¾ à sua direita o 2o quartil que é igual à mediana e o 3o quartil que é o valor que tem ¾ dos valores da distribuição à sua esquerda e ¼ à sua direita Assim considerando os dados ordenados x1 x2 x3 xn temos que se n é ímpar Q1 se n é par Q1 se n é ímpar Q3 se n é par Q3 Quando os dados são agrupados em classes para determinar os quartis usamos as expressões e 1 1 Q Q a 1 1 h f F 025n L Q 3 3 Q Q a 1 3 h f F 075n L Q 4 n 1 X 2 X X 4 1 n 4 n 4 3n 1 X 2 X X 1 4 3n 4 3n 20 Exemplo Aplicando as fórmulas temos que o 1o quartil Q1 está no intervalo de classe 154 158 pois 025 n 025 40 10 F2 13 e o 3o quartil Q3 está no intervalo de classe 162 166 pois 075 n 075 40 30 F4 32 Assim temos que Exemplo Considere as notas de 20 alunos do curso de Ciências Biomédicas na 1ª prova da disciplina de Bioestatística e Delineamento de Experimentos observe que as notas já estão ordenadas 25 30 30 45 45 55 55 60 65 70 75 75 75 75 80 90 90 90 90 95 Para esses dados Q1 05 2 55 54 2 X X 6 5 Q3 58 2 09 08 2 X X 16 15 Estaturas cm fi Fi 150 154 4 4 154 158 9 13 158 162 11 24 162 166 8 32 166 170 5 37 170 174 3 40 Total 40 1567 4 9 4 10 154 h f F 025n L Q 1 1 Q Q a 1 1 165 4 8 24 30 162 h f F 075n L Q 3 3 Q Q a 1 3 21 Decil Denominamos decis os nove valores que separam uma série em 10 partes iguais Indicamos os decis por D1 D2 D3 D4 D5 D6 D7 D8 e D9 Como o decil é um caso particular do percentil pois D1 P10 D2 P20 D3 P30 D4 P40 D5 P50 D6 P60 D7 P70 D8 P80 e D9 P90 veremos apenas a fórmula do percentil Percentil Denominamos percentis os noventa e nove valores que separam uma série em 100 partes iguais Indicamos os percentis por P1 P2 P32 P50 P74 P99 É evidente que P50 Md Q2 P25 Q1 e P75 Q3 O cálculo do percentil é dado por Pk X001 k n onde k é o número de ordem do percentil Se os dados se agrupam em uma distribuição de frequências com intervalos de classe a fórmula para o cálculo do percentil é dada por k k P P a k h f F kn L P 01 0 1 onde L1 limite inferior da classe que contém o percentil k n é o número de elementos do conjunto de dados Fa é a soma das frequências das classes anteriores à que contém o percentil k fPk é a frequência da classe que contém o percentil k hPk é a amplitude da classe que contém o percentil k Exemplo Calcule o 10o o 1o o 23o e o 90o percentis da distribuição de frequência dada a seguir Estaturas cm fi Fi 150 158 5 5 158 166 12 17 166 174 18 35 174 182 27 62 182 190 8 70 Total 70 22 15933 cm 8 12 5 7 158 P10 15 112 cm 8 5 0 70 150 P1 16540 cm 8 2 1 5 16 1 158 P23 183 cm 8 8 62 63 182 P 0 9 Exemplo Considere os dados a seguir n 46 Calcule P5 P25 e P75 13 15 19 20 21 28 28 29 29 31 31 32 32 32 32 32 33 37 37 38 39 40 43 43 44 49 60 61 62 63 63 66 67 68 68 78 82 83 88 95 97 101 107 112 113 125 P5 X001546 X23 X2 X3 2 15 19 2 17 P25 X0012546 X115 X11 X12 2 31 32 2 315 P75 X0017546 X345 X34 X35 2 68 68 2 68 EXERCÍCIOS 1 Considere as idades 19 23 19 24 20 21 22 19 20 25 22 20 e 19 Calcule a idade média a idade mediana a idade modal o 1º quartil e o 3º quartil 2 Os salários de cinco funcionários são R 745 R 828 x R 670 e R 915 Sabendose que o salário médio é R 800 qual o valor de x Qual é a mediana 3 Assinale a alternativa falsa em relação ao peso em quilos de 10 funcionários cujos valores são 585 621 673 931 852 578 739 880 705 e 976 A mediana é 715 quilos Não existe moda é amodal O peso médio é 754 quilos A média é maior que a mediana 4 Considerando o tempo de internação em dias de vinte trabalhadores acidentados 5 8 13 12 10 17 23 10 12 19 17 21 5 14 6 12 11 18 5 22 escreva V verdadeiro ou F falso 23 Temos duas modas 5 dias e 12 dias O tempo médio de internação é de 13 dias O tempo mediano de internação é de 18 dias O maior tempo de internação é 22 dias O menor tempo de internação é de 5 dias 5 As notas de um candidato em seis provas de um concurso foram 84 91 72 68 87 e 72 Determine a a nota média b a nota mediana c a nota modal 17 Medidas de Dispersão ou de Variabilidade A informação fornecida pelas medidas de posição necessita em geral ser complementada pelas medidas de dispersão Estas servem para indicar o quanto os dados se apresentam dispersos em torno da região central Caracterizam portanto o grau de variação existente no conjunto de valores As medidas de dispersão que nos interessam são amplitude variância desvio padrão coeficiente de variação Amplitude Total Por definição é a diferença entre o maior e o menor valor observado AT xmáx xmín É claro que o valor da amplitude total está relacionado com a dispersão dos dados Entretanto por depender de apenas dois valores do conjunto de dados a amplitude contém relativamente pouca informação quanto à dispersão Salvo aplicações no controle de qualidade a amplitude não é muito utilizada como medida de dispersão Exemplo A amplitude dos valores 40 45 48 52 54 62 e 70 é AT 70 40 30 24 Quando dizemos que a amplitude total dos valores é 30 estamos afirmando alguma coisa do grau de sua concentração É evidente que quanto maior a amplitude total maior a dispersão ou variabilidade dos valores de variável Quando temos dados agrupados sem intervalos de classe a amplitude total é AT xmáx xmín Exemplo Considerando a tabela abaixo temos que AT 4 0 4 Quando temos dados agrupados com intervalos de classe a amplitude total é a diferença entre o limite superior da última classe e o limite inferior da primeira classe ou seja AT Lmáx Lmín Exemplo Considerando a distribuição abaixo temos que AT 174 150 24 cm Variância e Desvio Padrão Como vimos a amplitude total é instável por se deixar influenciar pelos valores extremos que são na sua maioria devidos ao acaso A variância e o desvio padrão são medidas que fogem a essa falha pois levam em consideração a totalidade dos valores da variável em estudo o que faz delas índices de variabilidade bastante estáveis e por isso mesmo os mais geralmente empregados xi 0 1 2 3 4 fi 2 6 12 7 3 Estaturas cm fi 150 154 4 154 158 9 158 162 11 162 166 8 166 170 5 170 174 3 Total 40 25 4114 7 288 7 51200 51488 7 8 640 51488 1 n n x x s 2 2 n 1 i i n 1 i 2 i 2 A variância baseiase nos desvios em torno da média aritmética porém determinando a média aritmética dos quadrados dos desvios Assim representando a variância por s2 temos que a variância amostral é dada por 1 n n x x 1 n x x s 2 n 1 i i n 1 i 2 i n 1 i 2 i 2 Nota Para calcular a variância populacional basta substituir n 1 por n Se os dados estiverem dispostos em uma tabela de frequências poderemos obter s2 por 1 n n f x f x 1 n x f x s 2 k 1 i i i k 1 i 2 i k 1 i 2 i 2 i i onde xi são os pontos médios das classes k é o número de classes e fi são as frequências das classes Exemplo Considerando os dados 83 73 82 80 82 69 81 e 90 obtenha a variância amostral Exemplo Considerando a distribuição a seguir calcule a variância amostral Estaturas cm fi xi fi xi fi xi 2 150 154 4 152 608 92416 154 158 9 156 1404 219024 158 162 11 160 1760 281600 162 166 8 164 1312 215168 166 170 5 168 840 141120 170 174 3 172 516 88752 Total 40 6440 1038080 26 318 39 1 036840 038080 1 39 40 6 440 038080 1 1 n n f x f x s 2 2 k 1 i i i k 1 i 2 i 2 i Portanto s2 318 cm2 Sendo a variância calculada a partir dos quadrados dos desvios ela é um número em unidade quadrada em relação à variável em questão o que sob o ponto de vista prático é um inconveniente Por isso mesmo imaginouse uma nova medida que tem utilidade e interpretação práticas denominada desvio padrão definida como a raiz quadrada da variância e representada por s Assim Exemplo No exemplo anterior o desvio padrão é s 564 cm Coeficiente de variação Pode existir interesse em relacionar a grandeza do desvio padrão com a grandeza da média Vamos supor para exemplificar que temos dois grupos de indivíduos cujas idades estão apresentadas na tabela abaixo Grupo I II 1 53 3 55 5 57 Idade de indivíduos segundo o grupo É fácil verificar que a idade média no grupo I é 3 anos e a idade média no grupo II é 55 anos A dispersão dos dados em torno da média é a mesma para os dois grupos pois ambos têm variância s2 4 anos2 e desvio padrão s 2 anos Entretanto as diferenças de dois anos na idade dos indivíduos do grupo I são muito importantes porque determinam grandes modificações tanto no aspecto físico como no comportamento desses indivíduos Isso já não é verdade em relação aos indivíduos do grupo II Vemos então que pode existir interesse em estabelecer a relação entre o desvio padrão que mede a dispersão dos dados e a média que mede a tendência central Dessa relação surge uma medida de dispersão relativa 2s s 27 x100 s CV Definimos então coeficiente de variação CV como a razão entre o desvio padrão e a média Esta medida é comumente expressa em porcentagem Então a fórmula para o cálculo do coeficiente de variação é Exemplo Usando a tabela de idade para os grupos I e II temos GRUPO I GRUPO II Como dissemos a dispersão dos dados é a mesma para os dois grupos Entretanto as médias são diferentes Isto determina a diferença na dispersão relativa medida pelo coeficiente de variação Dissemos que diferenças de 2 anos são muito importantes para os indivíduos do grupo I mas não o são para os indivíduos do grupo II Os coeficientes de variação confirmam essas afirmações pois há variação maior das idades do grupo I 6667 do que das idades do grupo II 364 EXERCÍCIOS 1 A altura de doze funcionários em cm é 175 181 172 184 167 170 168 173 169 188 160 178 Calcule o desvio padrão a variância e o coeficiente de variação 2 Numa fábrica as mulheres que trabalham no período diurno ganham em média R 65200 com desvio padrão de R 4300 As mulheres que trabalham no período noturno ganham em média R 78200 com desvio padrão de R 4700 Qual grupo apresenta maior grau de dispersão nos salários e por quê 3 Um grupo de cem estudantes tem uma estatura média de 1638 cm com um coeficiente de variação de 33 Qual o desvio padrão desse grupo 4 Calcule o desvio padrão e a variância Idade Frequência 18 10 19 15 20 23 21 12 22 10 Total 70 6667 3100 2 CV 364 55100 2 CV 28 5 Os salárioshora de cinco funcionários de uma companhia são R 75 R 90 R 83 R 142 e R 88 Assinale a alternativa correta O coeficiente de variação é 30 O desvio padrão é R 2658 A média é R 9500 A mediana é R 8300 A moda é R 7500 6 Uma amostra aleatória de 250 residências de famílias classe média com dois filhos revelou a seguinte distribuição do consumo mensal de energia elétrica Calcule a o consumo médio por residência b o consumo mediano c o consumo modal d a porcentagem de famílias com consumo mensal maior ou igual a 200 e menor que 250 e a porcentagem de famílias com consumo mensal menor que 200 kwh f a porcentagem de famílias com consumo maior ou igual a 250 kwh g 1º quartil h 3º quartil i 10º percentil j 90º percentil k 6º decil l a variância m o desvio padrão n o coeficiente de variação o faça um gráfico Consumo mensal kwh Número de famílias 0 50 2 50 100 15 100 150 32 150 200 47 200 250 50 250 300 80 300 350 24 29 2 PROBABILIDADE 21 Conceito de Probabilidade Até agora vimos como apresentar dados e como calcular medidas que descrevem características específicas destes dados Mas o pesquisador da área de saúde além de fazer tabelas e gráficos calcular médias e desvios padrões sempre tem a pretensão de fazer inferência Para entender melhor esta afirmativa imagine que um pesquisador anotou a idade e a pressão arterial de seus pacientes Os dados podem ser apresentados em tabelas e gráficos podem ser obtidas as médias e os desvios padrões Mas este pesquisador também gostaria de estender suas conclusões a outros pacientes além daqueles que examinou Então este pesquisador gostaria de fazer inferência Para fazer inferência estatística usamse técnicas que exigem o conhecimento de probabilidade Neste capítulo são dados alguns conceitos de probabilidade que preparam oa alunoa para entender os capítulos 5 e 6 que tratam da inferência estatística Se são possíveis n eventos mutuamente exclusivos e igualmente prováveis e se m desses eventos têm determinada característica a probabilidade de que ocorra um evento com essa característica é dada pela razão m n O resultado pode ser multiplicado por 100 para ser dado em porcentagem Como exemplo imagine que um dado será jogado uma vez Podem ocorrer os eventos 1 2 3 4 5 ou 6 Esses seis eventos são mutuamente exclusivos porque duas faces não podem ocorrer ao mesmo tempo Se o dado for honesto os seis eventos são igualmente prováveis Fica então fácil responder algumas perguntas Por exemplo qual é a probabilidade de sair número ímpar Dos seis eventos possíveis três são ímpares Então a probabilidade de sair número ímpar quando se joga o dado uma vez é Considere outro exemplo Uma carta será retirada ao acaso de um baralho Qual é a probabilidade de sair um ás Ora um baralho tem 52 cartas das quais quatro são ases Então a probabilidade de sair um ás e ou 50 50 2 1 6 3 7 69 0 0769 ou 13 1 52 4 30 01667 ou 1667 6 1 0 3333 ou 3333 3 1 B P B P A A probabilidade varia entre 0 e 1 ou entre 0 e 100 Se é certo ocorrer determinado evento a probabilidade desse evento é 1 ou 100 se é impossível ocorrer determinado evento a probabilidade desse evento á zero Por exemplo a probabilidade de ocorrer número menor do que 8 no lançamento de um dado é 1 ou 100 evento certo Já a probabilidade de ocorrer número maior do que 8 é zero evento impossível 22 Probabilidade Condicional e Independência 221 Probabilidade Condicional A ideia de probabilidade condicional pode ser entendida através de um exemplo Imagine que um dado foi jogado Qual é a probabilidade de ter ocorrido 5 Como o dado tem seis faces a probabilidade de ter ocorrido a face com número 5 é Imagine agora que o dado foi jogado e já se sabe que ocorreu a face com número ímpar Qual é a probabilidade de ter ocorrido 5 Note que a resposta a esta pergunta é diferente da resposta dada à pergunta anterior Se saiu face com número ímpar só podem ter ocorrido os números 1 3 ou 5 Logo a probabilidade de ter ocorrido 5 é A probabilidade de ocorrer determinado evento pode ser modificada quando se impõe uma condição Como mostra o exemplo a probabilidade de ocorrer 5 no jogo de um dado é 1667 mas sob a condição de ter ocorrido face com número ímpar a probabilidade de ocorrer 5 é 3333 Denominase probabilidade condicional à probabilidade de ocorrer determinado evento sob uma dada condição Indicase a probabilidade condicional de ocorrer o evento A sob a condição de ter ocorrido B por PAB que se lê probabilidade de A dado B PAB se PB 0 Como outro exemplo considere a probabilidade de ocorrer um acidente automobilístico dado que está chovendo Esta probabilidade é condicional porque se refere à probabilidade de ocorrer um evento acidente sob uma dada condição estar chovendo 31 222 Independência Para entender a ideia de independência imagine que um dado e uma moeda são jogados ao mesmo tempo e se pergunte a qual é a probabilidade de ocorrer cara na moeda b qual é a probabilidade de ocorrer cara na moeda sabendo que ocorreu face 6 no dado Na Tabela 21 estão os eventos que podem ocorrer quando se jogam um dado e uma moeda ao mesmo tempo Tabela 21 Eventos possíveis no lançamento de um dado e uma moeda Dado Moeda Cara Coroa 1 Cara 1 Coroa 1 2 Cara 2 Coroa 2 3 Cara 3 Coroa 3 4 Cara 4 Coroa 4 5 Cara 5 Coroa 5 6 Cara 6 Coroa 6 Dos 12 eventos possíveis e igualmente prováveis apresentados na Tabela 31 seis correspondem à saída de cara na moeda Então a probabilidade de sair cara na moeda é Para obter a probabilidade de sair cara na moeda sabendo que saiu 6 no dado observe a última linha da Tabela 31 Dos dois eventos que correspondem à saída de 6 no dado um corresponde à saída de cara na moeda Então a probabilidade de sair cara na moeda sabendo que ocorreu 6 no dado é Neste exemplo a probabilidade de ocorrer um evento sair cara na moeda não foi modificada pela ocorrência de outro evento sair 6 no dado Dizse então que esses eventos são independentes Por definição dois eventos são independentes quando a probabilidade de ocorrer um deles não é modificada pela ocorrência do outro Quando se jogam um dado e uma moeda o ou 50 50 2 1 12 6 ou 50 50 2 1 32 ou 50 50 2 1 resultado que ocorre na moeda não depende do que ocorre no dado Então esses eventos são independentes Escrevese PAB PA ou PBA PB Na área biológica existem vários exemplos de eventos dependentes e de eventos independentes Assim olhos claros e cabelos claros são eventos dependentes porque a probabilidade de uma pessoa ter olhos claros é maior se a pessoa tem cabelos claros Já olhos claros e idade avançada são eventos independentes porque a probabilidade de uma pessoa ter olhos claros não aumenta ou diminui com a idade 223 Teorema do Produto Uma moeda será jogada duas vezes Qual é a probabilidade de ocorrer cara nas duas jogadas Ora a probabilidade de ocorrer cara na primeira jogada é A probabilidade de ocorrer cara na segunda jogada também é porque o fato de ocorrer cara na primeira jogada não modifica a probabilidade de ocorrer cara na segunda jogada os eventos são independentes Para obter a probabilidade de ocorrer cara nas duas jogadas primeira e segunda faz se o produto Veja agora outro problema uma urna contém duas bolas brancas e uma vermelha Retiramse duas bolas da urna ao acaso uma em seguida da outra e sem que a primeira tenha sido recolocada na urna sem reposição Qual é a probabilidade de as duas bolas retiradas serem brancas A probabilidade de a primeira bola ser branca é A probabilidade de a segunda bola ser branca depende do que ocorreu na primeira retirada Se saiu bola branca a probabilidade de a segunda também ser branca é ou 50 50 2 1 ou 50 50 2 1 0 25 ou 25 4 1 2 2 x 1 1 0 6667 ou 6667 3 2 33 0 25 ou 25 4 1 ou 50 50 2 1 4 2 4 1 4 1 52 4 52 13 0 25 ou 25 4 1 Para obter a probabilidade de as duas bolas retiradas serem brancas fazse o produto Agora fica fácil entender o teorema do produto Se A e B são eventos independentes a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela probabilidade de ocorrer B Escrevese PA B PA PB Se A e B não são independentes a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela probabilidade condicional de ocorrer B dado que A ocorreu Escrevese PA B PA PBA 224 Teorema da Soma Fica mais fácil entender o teorema da soma com a ajuda de exemplos Suponha então que uma urna contém duas bolas brancas uma azul e uma vermelha Retirase uma bola da urna ao acaso Qual a probabilidade de ter saído bola colorida isto é azul ou vermelha Ora a probabilidade de sair bola azul é e a probabilidade de sair bola vermelha é Então a probabilidade de sair bola colorida isto é azul ou vermelha é dada pela soma Imagine agora que uma carta será retirada ao acaso de um baralho Qual é a probabilidade de sair uma carta de espada ou um ás Como um baralho tem 52 cartas das quais 13 são de espadas e 4 são ases alguém poderia pensar que a probabilidade de sair uma carta de espadas ou um ás é dada pela soma 0 3333 ou 3333 3 1 6 2 2 3 x 1 2 34 0 3077 ou 3077 13 4 52 16 52 1 52 4 52 13 mas esta resposta estaria errada porque existe uma carta o ás de espada que é tanto ás como espada Então o ás de espadas teria sido contado duas vezes A probabilidade de sair uma carta de espadas ou um ás é dada por Agora fica fácil entender o teorema da soma Se os eventos A e B não podem ocorrer ao mesmo tempo isto é são mutuamente exclusivos a probabilidade de ocorrer A ou B é dada pela probabilidade de A mais a probabilidade de B Escrevese PA B PA PB Se A e B podem ocorrer ao mesmo tempo a probabilidade de ocorrer A ou B é dada pela probabilidade de A mais a probabilidade de B menos a probabilidade de A e B Escrevese PA B PA PB PA B A propriedade acima pode ser estendida para mais de dois eventos Para 3 eventos quaisquer A B e C no espaço amostral a probabilidade do evento união A B C é PA B C PA PB PC PA B PA C PB C 2PA B C Se os eventos A B e C são mutuamente exclusivos então PA B C PA PB PC EXERCÍCIOS 1 O quadro abaixo representa a classificação por sexo e por estado civil de um conjunto de 50 deputados presentes em uma reunião Sexo Estado civil Homem Mulher Casado 10 8 Solteiro 5 3 Divorciado 7 5 Viúvo 8 4 35 Uma pessoa é sorteada ao acaso Sendo os eventos A ser um homem B ser uma mulher C ser uma pessoa casada D ser uma pessoa solteira E ser uma pessoa divorciada e F ser uma pessoa viúva calcule a PA C b PB F c PD E d PF e PE A 2 Uma rifa composta de 15 números irá definir o ganhador de dois prêmios sorteados um de cada vez Se você adquiriu três números qual é a probabilidade de ganhar os dois prêmios 3 No primeiro ano de uma faculdade 25 dos estudantes são reprovados em Matemática 15 são reprovados em Estatística e 10 são reprovados em ambas Um estudante é selecionado ao acaso nesta faculdade Calcule a probabilidade de que a Ele seja reprovado em Matemática sabendose que foi reprovado em Estatística b Ele não seja reprovado em Estatística sabendose que foi reprovado em Matemática 4 Considere um experimento e os eventos A e B associados tais que PA 1 2 PB 1 3 e PAB 1 4 Calcule a P A b P B c PA B d P A B e P A B f P A B 5 Suponha que dois eventos A e B associados a um experimento aleatório sejam independentes com PA 1 2 e PB 1 4 Calcule a PA B b P A B c PA B d P A B 6 Um casal tem dois filhos Qual é a probabilidade de a o primogênito ser homem b os dois filhos serem homens c pelo menos um dos filhos ser homem 7 Uma companhia possui o seguinte quadro de funcionários Sexo Atividade Homem H Mulher M Pessoal de obras P 70 40 Operadores de máquinas O 15 15 Administrativos A 10 20 Comercial C 20 10 36 Selecionase aleatoriamente um funcionário Calcule a PO b PH c PO H d PA C e PO H f PA H g PA C h PM A i PC H j PA M 8 Se PA B 08 PA 05 e PB x determine o valor de x no caso de a A e B serem mutuamente exclusivos b A e B serem independentes 9 Considere o seguinte quadro de informação do Ministério da Saúde Rh Sistema ABO O A B AB 36 34 8 25 9 8 2 05 Calcular as seguintes probabilidades a PRh O b PRh O c PRh d PAB e PO AB f PO A B 10 As probabilidades de um aluno ser aprovado em Fisiologia Morfologia e ambas são 075 084 e 063 respectivamente Qual a probabilidade de ser aprovado em Fisiologia sabendose que foi aprovado em Morfologia 3 MODELOS PROBABILÍSTICOS As variáveis aleatórias serão denotadas por letras maiúsculas e seus respectivos valores por letras minúsculas Por exemplo X número de filhos x 0 1 2 3 As variáveis aleatórias podem ser discretas ou contínuas As variáveis aleatórias discretas resultam usualmente de um processo de contagem número de ocorrência de eventos As contínuas são geralmente obtidas através de medições ou leituras de um aparelho e podem assumir valores em um intervalo da reta Uma variável aleatória pode ser estudada através de uma distribuição de probabilidade As variáveis aleatórias são agrupadas em classes denominadas modelos Assim cada distribuição de probabilidade pode ser vista como um modelo probabilístico que explica o comportamento da variável aleatória estudada descrevendo por exemplo a forma da distribuição simétrica ou não 37 De um modo geral modelos probabilísticos são expressos por fórmulas matemáticas Veremos dois modelos probabilísticos neste capítulo Consideremos a distribuição de frequências relativa ao número de acidentes diários em um estacionamento Em um dia a probabilidade de não ocorrer acidente é 73 0 30 p 22 ocorrer um acidente é 17 0 30 p 5 ocorrerem dois acidentes é 07 0 30 p 2 ocorrerem três acidentes é 03 0 30 p 1 Podemos então escrever Essa tabela é denominada distribuição de probabilidade Seja X uma variável aleatória que pode assumir os valores x1 x2 x3 xn A cada valor xi correspondem pontos do espaço amostral Associamos então a cada valor xi a probabilidade pi de ocorrência de tais pontos no espaço amostral Assim temos 1 1 n i ip Número de acidentes Frequência 0 22 1 5 2 2 3 1 Total 30 Número de acidentes X Probabilidade PX 0 073 1 017 2 007 3 003 Total 100 38 Os valores x1 x2 x3 xn e seus correspondentes p1 p2 p3 pn definem uma distribuição de probabilidade A função PX xi determina a distribuição de probabilidade da variável aleatória X 31 Modelo Binomial Consideremos repetições independentes de um experimento com dois resultados chamemos um dos resultados de sucesso e o outro de fracasso ou insucesso Seja p a probabilidade de sucesso tal que q 1 p seja a probabilidade de fracasso Se estamos interessados no número de sucessos e não na ordem em que eles ocorrem então aplicamos o seguinte teorema TEOREMA A probabilidade de exatamente x sucessos em n repetições do experimento é denotada por n x x p p x n x X P 1 x 0 1 2 n Esse é o modelo binomial cuja média é np e cuja variância é 2 np1p npq Exemplo 1 O cruzamento de plantas com flores vermelhas V e com flores brancas B produzem plantas onde 25 têm flores vermelhas Supor que um jardineiro cruza 5 pares de plantas com flores vermelhas e brancas produzindo 5 novas plantas a Qual é a probabilidade de não termos plantas com flores vermelhas b Qual é a probabilidade de 4 ou mais plantas terem flores vermelhas Definir X uma variável aleatória que representa o número de plantas com flores vermelhas entre as 5 plantas geradas pelos 5 pares Daí p Psucesso PV 1 4 n 5 Portanto x x x x X P 5 4 1 1 4 1 5 x 0 1 2 3 4 5 a 0 237 4 3 4 1 1 4 1 0 5 0 5 5 0 0 P X 39 b 5 5 5 5 4 4 4 1 1 4 1 5 5 4 1 1 4 1 4 5 5 4 4 P X P X P X 0 016 0 001 0 015 Exemplo 2 Uma moeda é lançada 5 vezes seguidas e independentes Calcule a probabilidade de serem obtidas 3 caras Ca nesses 5 lançamentos Temos n 5 e p Psucesso PCa 2 1 Portanto a probabilidade de obtermos 3 caras em 5 lançamentos da moeda é dada por 2 3 5 3 3 3 5 1 3 5 3 p q p p P X onde q 1 p Se a probabilidade de obtermos cara num só lançamento da moeda sucesso é p 05 e a probabilidade de não obtermos cara num só lançamento da moeda insucesso ou fracasso é q 1 05 05 então 0 3125 16 5 50 50 3 5 2 1 1 2 1 3 5 3 2 3 5 3 3 P X Exemplo 3 Dois times de futebol Corinthians e São Paulo jogam entre si 6 vezes Encontre a probabilidade do Corinthians ganhar 4 jogos Temos n 6 e p Pganhar 3 1 e q Pnão ganhar 1 p 2 3 Queremos x 4 Então 0 0823 243 20 3 2 3 1 4 6 3 1 1 3 1 4 6 4 2 4 6 4 4 P X EXERCÍCIOS 1 Um exame do tipo teste é constituído de 20 questões cada uma delas com cinco respostas alternativas das quais apenas uma é correta Se um estudante responde as questões ao acaso qual é a probabilidade dele conseguir acertar exatamente 10 questões 40 2 A probabilidade de um homem acertar um alvo é 4 1 Se ele atira 7 vezes qual é a probabilidade dele certar o alvo pelo menos duas vezes 3 Um time A tem 3 2 de probabilidade de vitória sempre que joga Se o time A joga 4 partidas encontre a probabilidade dele vencer a exatamente 2 partidas b pelo menos uma partida c mais que a metade das partidas 4 A probabilidade de uma pessoa sobreviver durante uma determinada cirurgia é 3 2 Seja X o número de pessoas que sobrevivem a Se 5 pessoas são submetidas à cirurgia determine a distribuição de probabilidade de X b Se 5 pessoas são submetidas à cirurgia determine a probabilidade de i exatamente 3 pessoas sobreviverem ii no mínimo 1 pessoa sobreviver iii mais de 2 pessoas não sobreviverem 5 A probabilidade de um menino ser daltônico é 008 Num grupo de 4 meninos qual é a probabilidade de 3 não serem daltônicos 6 Se a probabilidade de um indivíduo ter sangue Rh negativo é 010 qual é a probabilidade de 4 indivíduos que se apresentaram para o exame de sangue serem todos Rh negativo 7 A probabilidade de que um casal com olhos azuis escuros tenham filhos com olhos azuis é 025 Se houver 3 filhos na família qual a probabilidade de que pelo menos 2 tenham olhos azuis 32 Modelo Normal Entre as distribuições teóricas de variável aleatória contínua uma das mais empregadas é a distribuição normal ou Gaussiana A distribuição normal foi introduzida no século XVIII pelo matemático francês De Moivre como aproximação da distribuição binomial quando n é grande No início do século XIX é que foi verificada a sua importância em outros contextos como atestam as obras de Gauss e Laplace A função de densidade de probabilidade f d p do modelo normal possui as seguintes características 41 tem forma de sino é simétrica em torno de A área total sob a curva é 1 correspondendo a 100 da distribuição Cada distribuição pode ser completamente especificada por sua média e seu desvio padrão isto é estes parâmetros definem precisamente a curva que descreve a distribuição Por isso denotase uma distribuição normal por N 2 A expressão matemática para a curva é dada por 2 2 2 2 1 x e f x onde x 2 0 Como calcular Pa X b Pa X b b a x dx e 2 2 2 2 1 fx f a b 42 A integral não pode ser calculada exatamente e a probabilidade indicada só pode ser obtida aproximadamente por métodos numéricos No entanto para cada valor de e cada valor de teríamos que obter Pa X b para diversos valores de a e b Essa tarefa é facilitada através do uso da normal padronizada ou reduzida Quando 0 e 2 1 e temos a distribuição normal padrão ou reduzida Se X tem distribuição normal com média e variância 2 indicaremos assim X N 2 então a variável aleatória Z definida por Z X tem distribuição normal com média 0 e variância 1 Z N0 1 f 10 00 10 Z fz Observe que calcular Pa X b na curva equivale a calcular Pz1 Z z2 onde z1 a e 2 z b Notas Na tabela de distribuição normal padronizada ver tabela na página 45 encontramos a probabilidade de Z tomar qualquer valor entre 0 e z isto é P0 Z z Pz Z 0 P0 Z z Exemplo P2 Z 0 P0 Z 2 047725 P Z 0 P Z 0 05 PZ z P Z z PZ 0 P0 Z z Exemplo PZ 092 PZ 092 PZ 0 P0 Z 092 05 032121 082121 PZ z P Z z PZ 0 P0 Z z Exemplo PZ 06 PZ 06 PZ 0 P0 Z 06 05 022575 027425 Pz1 Z z2 Pz2 Z z1 P0 Z z1 P0 Z z2 43 Exemplo P 173 Z 047 P047 Z 173 P0 Z 173 P0 Z 047 045818 018082 027736 Exemplo 4 Os salários semanais dos operários industriais são distribuídos normalmente em torno da média de R 50000 com desvio padrão de R 4000 Calcule a probabilidade de um operário ter um salário semanal situado entre R 49000 e R 52000 Devemos inicialmente determinar os valores da variável de distribuição normal reduzida Assim 0 25 40 500 490 1 z e 50 40 500 520 2 z Logo a probabilidade procurada é dada por P490 X 520 P 025 Z 05 P 025 Z 0 P0 Z 05 P0 Z 025 P0 Z 05 009871 019146 029017 Portanto é de esperar que em média 2902 dos operários tenham salários entre R 49000 e R 52000 Exemplo 5 Os pesos de 600 estudantes são normalmente distribuídos com média µ 653 kg e desvio padrão 55 kg isto é X N653 kg 3025 kg2 Qual a probabilidade de termos alunos a com peso entre 60 e 70 kg P60 X 70 55 653 70 σ μ X 55 653 P 60 P 096 Z 085 P 0 Z 096 P0 Z 085 033147 030234 063381 b com peso maior que 632 kg PX 632 55 653 2 63 σ P X μ PZ 038 PZ 038 PZ 0 P0 Z 038 05 014803 064803 44 c com peso menor que 68 kg PX 68 55 653 68 σ P X μ PZ 049 PZ 0 P0 Z 049 05 018793 068793 EXERCÍCIOS 1 Em homens a quantidade de hemoglobina por 100 ml de sangue é uma variável aleatória com distribuição normal de média µ 16 g e desvio padrão 1 g Calcule a probabilidade de um homem apresentar a de 16 a 18 g de hemoglobina por 100 ml de sangue b mais de 18 g de hemoglobina por 100 ml de sangue 2 Sabese que o tempo médio para completar um teste feito para candidatos ao vestibular de uma escola é de 58 minutos com desvio padrão igual a 95 minutos Se o responsável pelo vestibular quiser que apenas 90 dos candidatos terminem o teste quanto tempo deve dar aos candidatos para que entreguem o teste 3 A taxa de glicose no sangue humano é uma variável aleatória com distribuição normal de média µ 100 mg por 100 ml de sangue e desvio padrão 6 mg por 100 ml de sangue Calcule a probabilidade de um indivíduo apresentar taxa a superior a 110 mg por 100 ml de sangue b entre 90 e 100 mg por 100 ml de sangue 4 A classificação do indivíduo quanto ao valor de referência do LDL Colesterol é a seguinte Ótimo 100 mgdL Desejável 100 mgdL a 130 mgdL Limite 130 mgdL a 159 mgdL Aumentado 159 mgdL Sabendose que em determinado grupo o LDL N115 484 qual a porcentagem de indivíduos em cada categoria de referência 45 Tabela da distribuição Normal reduzida ou padronizada P0 Z zc segunda casa decimal de zc zc 0 1 2 3 4 5 6 7 8 9 00 000000 000399 000798 001197 001595 001994 002392 002790 003188 003586 01 003983 004380 004776 005172 005567 005962 006356 006749 007142 007535 02 007926 008317 008706 009095 009483 009871 010257 010642 011026 011409 03 011791 012172 012552 012930 013307 013683 014058 014431 014803 015173 04 015542 015910 016276 016640 017003 017364 017724 018082 018439 018793 05 019146 019497 019847 020194 020540 020884 021226 021566 021904 022240 06 022575 022907 023237 023565 023891 024215 024537 024857 025175 025490 07 025804 026115 026424 026730 027035 027337 027637 027935 028230 028524 08 028814 029103 029389 029673 029955 030234 030511 030785 031057 031327 09 031594 031859 032121 032381 032639 032894 033147 033398 033646 033891 10 034134 034375 034614 034849 035083 035314 035543 035769 035993 036214 11 036433 036650 036864 037076 037286 037493 037698 037900 038100 038298 12 038493 038686 038877 039065 039251 039435 039617 039796 039973 040147 13 040320 040490 040658 040824 040988 041149 041308 041466 041621 041774 14 041924 042073 042220 042364 042507 042647 042785 042922 043056 043189 15 043319 043448 043574 043699 043822 043943 044062 044179 044295 044408 16 044520 044630 044738 044845 044950 045053 045154 045254 045352 045449 17 045543 045637 045728 045818 045907 045994 046080 046164 046246 046327 18 046407 046485 046562 046638 046712 046784 046856 046926 046995 047062 19 047128 047193 047257 047320 047381 047441 047500 047558 047615 047670 20 047725 047778 047831 047882 047932 047982 048030 048077 048124 048169 21 048214 048257 048300 048341 048382 048422 048461 048500 048537 048574 22 048610 048645 048679 048713 048745 048778 048809 048840 048870 048899 23 048928 048956 048983 049010 049036 049061 049086 049111 049134 049158 24 049180 049202 049224 049245 049266 049286 049305 049324 049343 049361 25 049379 049396 049413 049430 049446 049461 049477 049492 049506 049520 26 049534 049547 049560 049573 049585 049598 049609 049621 049632 049643 27 049653 049664 049674 049683 049693 049702 049711 049720 049728 049736 28 049744 049752 049760 049767 049774 049781 049788 049795 049801 049807 29 049813 049819 049825 049831 049836 049841 049846 049851 049856 049861 30 049865 049869 049874 049878 049882 049886 049889 049893 049896 049900 31 049903 049906 049910 049913 049916 049918 049921 049924 049926 049929 32 049931 049934 049936 049938 049940 049942 049944 049946 049948 049950 33 049952 049953 049955 049957 049958 049960 049961 049962 049964 049965 34 049966 049968 049969 049970 049971 049972 049973 049974 049975 049976 35 049977 049978 049978 049979 049980 049981 049981 049982 049983 049983 36 049984 049985 049985 049986 049986 049987 049987 049988 049988 049989 37 049989 049990 049990 049990 049991 049991 049992 049992 049992 049992 38 049993 049993 049993 049994 049994 049994 049994 049995 049995 049995 39 049995 049995 049996 049996 049996 049996 049996 049996 049997 049997 40 049997 049997 049997 049997 049997 049997 049998 049998 049998 049998 45 049999 050000 050000 050000 050000 050000 050000 050000 050000 050000 46 4 Inferência Estimação Pontual e Intervalar 41 Introdução O processo de estimação tem por finalidade avaliar parâmetros de uma distribuição Podemos utilizar um único número real para avaliar um parâmetro Neste caso estamos procedendo a uma estimação denominada Estimação por Ponto ou Pontual A estimativa pontual apresenta a seguinte dificuldade amostras diferentes conduzem normalmente a estimativas diferentes Esta variabilidade não pode ser controlada neste processo O controle estatístico desta variabilidade nos leva a fixar a estimação através de um intervalo real daí o nome de Estimação por Intervalo 42 Estimação por ponto da média variância desvio padrão e proporção O valor da média amostral é uma estimativa pontual ou por ponto da média populacional Da mesma forma o valor da variância desvio padrão e proporção amostrais são estimativas por ponto dos parâmetros variância desvio padrão e proporção populacionais respectivamente Estimador Estimativa por ponto Parâmetro x x 20 s2 s2 4 2 s s 2 pˆ 30 pˆ p 43 Estimação por Intervalo A questão que será agora abordada é estimar o parâmetro populacional por um conjunto de valores um intervalo no qual se possa depositar certo grau de confiança de que contenha o verdadeiro parâmetro desconhecido A tal intervalo denominase intervalo de confiança O grau de confiança 100 1 que se quer depositar na estimativa feita através de um intervalo vai depender de cada caso particular e pode ser 80 90 95 99 etc Se o grau de confiança também chamado coeficiente de confiança for de por exemplo 95 o intervalo dizse de 95 de confiança 47 431 Intervalo de Confiança para Média Populacional A Considerando o desvio padrão conhecido Uma alternativa à estimação por ponto da média populacional é a construção de um intervalo de confiança para Portanto devemos selecionar uma amostra aleatória para calcular um intervalo que contenha o verdadeiro valor do parâmetro com uma dada probabilidade ou nível de confiança Este nível de confiança em geral é fixado em 090 095 ou 099 Se X N 2 com variância conhecida então X N 2 n Portanto com 2 n conhecido e fixandose uma probabilidade 095 temos Interpretação A expressão acima significa que em amostras repetidas o intervalo aleatório n x 196 σ n x 196 σ inclui o parâmetro desconhecido com probabilidade 095 Notação O intervalo de confiança para com coeficiente de confiança 1 é dado por IC 1 n σ z n σ z 2 2 x x onde z2 é o valor obtido na tabela da Normal padronizada da página 45 Na tabela abaixo temos alguns valores de z2 para os níveis de confiança 1 mais utilizados 1 080 085 090 095 099 z2 128 144 1645 196 258 Exemplo 1 Suponha que a distribuição dos comprimentos de jacarés adultos de uma certa raça siga o modelo Normal com média desconhecida e variância igual a 001 m2 Uma amostra de dez animais foi sorteada e forneceu média 169 m Uma vez que a distribuição de probabilidade de X é Normal com média e variância 210 0001 m2 podemos obter o intervalo de confiança para com 95 de confiança 095 n 196 σ μ n 196 σ P x x 48 Da tabela da Normal temos que z2 z0025 196 de forma que IC 95 10 196 010 1 69 10 196 010 1 69 169 006 169 006 163 175 ou P 163 175 095 Exemplo 2 Um provedor de acesso à Internet está monitorando a duração do tempo das conexões de seus clientes com o objetivo de dimensionar seus equipamentos São desconhecidas a média e a distribuição de probabilidade desses equipamentos mas o desvio padrão por analogia a outros serviços é considerado igual a 50 minutos Uma amostra de 500 conexões resultou num valor médio observado de 25 minutos O que dizer da verdadeira média com confiança de 92 Apesar de não termos informações que garantam que a duração das conexões segue o modelo Normal o Teorema Central do Limite pode ser aplicado pois a amostra é grande Um intervalo de confiança aproximado de 92 para a média será dado por IC 92 n σ z n σ z 2 2 x x 500 50 175 25 500 50 175 25 2445 2555 Obs Note que em virtude do uso do Teorema Central do Limite obtemos um intervalo com coeficiente de confiança aproximadamente 1 sendo que esta aproximação melhora à medida que aumenta o tamanho da amostra Exercício 1 O tempo de reação de um novo medicamento por analogia a produtos similares pode ser considerado como tendo distribuição Normal com desvio padrão igual a 2 minutos a média é desconhecida Vinte pacientes foram sorteados receberam o medicamento e tiveram seu tempo de reação anotado Os dados foram os seguintes em minutos 29 34 35 41 46 47 45 38 53 49 48 57 58 50 34 59 63 46 55 e 62 Obtenha um intervalo de 96 de confiança para o tempo médio de reação Exercício 2 O intervalo 3521 3599 é o intervalo com confiança 95 construído a partir de uma amostra de tamanho 100 para a média de uma população Normal com desvio padrão 2 a Qual o valor encontrado para a média dessa amostra b Se utilizássemos essa mesma amostra mas uma confiança de 90 qual seria o novo intervalo de confiança 49 B Considerando o desvio padrão desconhecido Em geral o desvio padrão populacional é desconhecido O que fazemos é estimar por s o desvio padrão amostral A substituição de por s em Z resulta em uma nova variável aleatória n s μ T x t n1 Se X é uma amostra aleatória de uma distribuição Normal com média e desvio padrão a variável aleatória acima que denotaremos por T possui distribuição t de Student com n 1 graus de liberdade A caracterização com n 1 graus de liberdade é necessária porque para cada tamanho de amostra temos uma distribuição t de Student diferente A forma da distribuição t de Student é muito próxima da forma de uma distribuição N0 1 Ambas são simétricas em torno de zero Porém a distribuição t de Student apresenta maior dispersão pois ao substituirmos por s introduzimos uma nova fonte de variação À medida que o tamanho da amostra n cresce a distribuição t de Student aproximase da distribuição Normal padrão pois o desvio padrão amostral s aproximase do desvio padrão populacional O intervalo com coeficiente de confiança 1 para a média considerando uma amostra aleatória de tamanho n de uma v a Normal com média e desvio padrão desconhecido é dado por IC 1 n s t n s t 2 1 2 1 n n x x Obs Os valores de tn12 são encontrados na tabela da Distribuição t de Student da pág 59 Exemplo 3 Suponha que sementes geneticamente similares são selecionadas ao acaso e cultivadas em um ambiente sob condições padrão controle Após determinado período de tempo as plantas são cortadas secas e pesadas Os resultados expressos como o peso seco em gramas para amostra de 10 plantas são 417 558 518 611 450 461 517 453 533 514 Assumindo que o peso seco das plantas segue uma distribuição Normal construa um intervalo de 95 de confiança para o peso seco médio destas plantas Solução Temos que n 10 x 503 s 05831 e t9 0025 2262 Logo um intervalo de 95 de confiança para o peso seco médio destas plantas é dado por 50 IC 95 n s t n s t 2 1 2 1 n n x x 10 2 262 0 5831 5 03 10 2 262 0 5831 5 03 46129 54471 Podemos dizer com 95 de confiança que o peso médio das plantas varia entre 46129 e 54471 gramas Exemplo 4 Considere uma amostra aleatória de tamanho n 9 de uma população normal com média amostral x 83 e desvio padrão amostral s 12 Considerando um coeficiente de confiança 95 obtenha um intervalo de confiança para Temos que n 9 x 83 s 12 e t8 0025 2306 Logo um intervalo de 95 de confiança é dado por IC 95 9 21 2 306 38 9 21 2 306 38 73776 92224 Exemplo 5 As mudanças observadas no teor de colesterol do sangue mg100 ml após o tratamento com um produto foram medidas em 15 coelhos cujos resultados são dados a seguir 17 18 22 20 23 22 21 19 21 24 22 17 19 19 20 Construa um intervalo de 98 de confiança para a mudança média no teor de colesterol Temos que n 15 x 20267 s 212 e t14 001 2624 Logo um intervalo de 98 de confiança é dado por IC 98 15 2 624 212 20267 15 2 624 212 20267 188307 217033 Exercício 3 Admitindo que a pressão sanguínea arterial em homens siga o modelo Normal 7 pacientes foram sorteados e tiveram sua pressão medida obtendo os seguintes resultados 84 81 77 85 69 80 e 79 Determine o intervalo de confiança para com coeficiente de confiança de 98 Exercício 4 Considere uma amostra de 12 mudas de eucalipto aos 60 dias com altura em cm dadas por 325 334 350 331 370 383 360 342 365 340 373 357 a Calcule a média variância e coeficiente de variação para a amostra b Obtenha um intervalo com 90 de confiança para a altura média real 51 Exercício 5 Calcule o intervalo de confiança para a média em cada um dos casos abaixo média amostral tamanho da amostra desvio padrão da População coeficiente de confiança 170 cm 100 15 cm 95 165 cm 184 30 cm 85 180 cm 225 30 cm 70 Exercício 6 Uma amostra de 15 bezerros da raça Nelore aos 210 dias forneceu média de 180 kg e desvio padrão de 215 kg para a distribuição de pesos Obtenha um intervalo com 99 de confiança para o peso médio de Nelore aos 210 dias 432 Intervalo de Confiança para a Proporção Populacional de sucessos Como outro exemplo de aplicação do Teorema Central do Limite vamos considerar intervalos de confiança envolvendo a proporção p Como uma proporção é uma média um intervalo de 100 1 de confiança para uma proporção populacional é dado por IC p 1 n p p z p n p p z p ˆ 1ˆ ˆ ˆ 1ˆ ˆ 2 2 O intervalo acima é válido apenas para grandes amostras Exemplo 6 Em uma amostra aleatória 136 entre 400 pessoas que receberam uma vacina experimentaram algum desconforto Construa um intervalo de 95 de confiança para a verdadeira proporção de pessoas que experimentarão algum desconforto se tomarem a vacina Temos n 400 e uma estimativa pontual para p é dada por 0 34 400 136 ˆ p Da tabela da normal padronizada na página 45 temos z 0025 196 Logo um intervalo de 95 de confiança para a verdadeira proporção p é dado por IC p 95 400 0 34 0 34 1 196 0 34 400 0 34 0 34 1 196 0 34 0294 0386 Com 95 de confiança a verdadeira proporção de pessoas que poderão experimentar algum desconforto se receberem a vacina está entre 0294 e 0386 ou entre 294 e 386 52 Exemplo 7 Num experimento científico doentes contaminados com cercaria que é uma das formas do verme da esquistossomose recebem um certo medicamento e observase a proporção p de cura Em 200 pacientes verificase que 160 são curados Construa um intervalo de 95 de confiança para a verdadeira proporção de pessoas que serão curadas se receberem este medicamento Temos n 200 e uma estimativa pontual para p é dada por 0 80 200 160 ˆ p Da tabela da normal padronizada temos z 0025 196 Logo um intervalo de 95 de confiança para a verdadeira proporção p é dado por IC p 95 200 80 20 196 80 200 80 20 196 80 0745 0855 Com 95 de confiança a verdadeira proporção de pessoas que serão curadas se receberem o medicamento está entre 0745 e 0855 ou entre 745 e 855 433 Intervalo de Confiança para a diferença entre duas Médias Populacionais Considere que estamos interessados em construir um intervalo de confiança para a diferença entre médias de duas populações Ao tratarmos de duas populações precisamos verificar se estas estão ou não relacionadas Por exemplo é muito comum a situação antes depois onde observações são tomadas em uma mesma unidade amostral antes e depois de alguma intervenção A independência ou não das observações é um fator importante a ser considerado mas também é importante levarmos em consideração a variabilidade associada aos valores populacionais e amostrais Para procedermos à construção do intervalo de confiança para a diferença entre duas médias devemos verificar em qual situação se encontra as duas amostras Dependentes caso 1 2 amostras Variâncias conhecidas caso 2 Variâncias iguais Independentes caso 3A Variâncias desconhecidas Variâncias diferentes caso 3B 53 Caso 1 Amostras Dependentes As duas amostras são dependentes se para cada unidade amostral realizamos duas medições da característica de interesse De modo geral essas observações correspondem a medidas tomadas antes e após uma dada intervenção Par Grupo Diferença d Antes Depois 1 x1 y1 d1 x1 y1 2 x2 y2 d2 x2 y2 n xn yn dn xn yn Estrutura de dados e diferença d entre as duas variáveis respostas do caso de duas amostras dependentes ou emparelhadas As medidas X e Y são dependentes já que elas são tomadas no mesmo par Pelo fato de calcularmos as diferenças dentro de cada par o caso de duas amostras dependentes se reduz ao caso de uma única amostra Então é natural sintetizarmos as diferenças através da média d e do desvio padrão sd e usarmos as mesmas estruturas de intervalo de confiança já vistas Portanto um intervalo de confiança 100 1 para 1 2 é dado por IC 1 2 1 n s t n s t 2 1 2 1 d n d n d d onde t 2 com n 1 graus de liberdade é encontrado na tabela da distribuição t de Student Exemplo 8 Um pesquisador registrou a pressão sanguínea antes e depois do uso regular de um tipo de droga que reduz a pressão sanguínea por um período de 6 meses para um grupo de 15 animais Os dados obtidos em mm Hg estão apresentados na tabela a seguir Construa um intervalo de 90 95 e 99 de confiança para a diferença entre as médias Animal 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Antes x 70 80 72 76 76 76 72 78 82 64 74 92 74 68 84 Depois y 68 72 62 70 58 66 68 58 64 72 74 60 74 72 74 d x y 2 8 10 6 18 10 4 26 18 8 0 32 0 4 10 A média e o desvio padrão das diferenças são d 880 e sd 1098 Os valores da tabela t de Student da página 59 são para 90 t 14 005 1761 para 95 t 14 0025 2145 e para 99 t 14 0005 2977 Portanto os intervalos são dados por 54 IC 1 2 90 15 1 7611098 8 80 15 1 7611098 8 80 381 1379 IC 1 2 95 15 21451098 88 15 21451098 88 272 1488 IC 1 2 99 15 2 9771098 88 15 2 9771098 88 036 1724 Note que quanto maior o coeficiente de confiança maior a amplitude do intervalo de confiança o que é um resultado esperado Para 90 a amplitude do intervalo é 1379 381 998 para 95 a amplitude do intervalo é 1488 272 1216 e para um coeficiente de confiança de 99 a amplitude do intervalo é 1724 036 1688 Obs No caso em que o número de pares é grande n 30 podese usar a distribuição normal padrão para se construir intervalos de confiança Caso 2 Amostras independentes com variâncias conhecidas Se os dados não são dependentes ou emparelhados não terá sentido calcular diferenças entre valores das duas amostras Neste caso as duas amostras podem ter tamanhos diferentes que denotaremos por n1 e n2 Assim no caso de se desejar estimar a diferença 1 2 entre as médias de duas populações normais cujas variâncias 2 1 e 2 2 são conhecidas podemos obter um intervalo de confiança para 1 2 dado por IC 1 2 1 2 2 2 1 2 1 2 2 1 2 2 2 1 2 1 2 2 1 n σ n σ z x n x σ n σ z x x onde z 2 é encontrado na tabela da distribuição Normal padronizada na página 45 Exemplo 9 Alguns pesquisadores estudaram a capacidade vital em litros em uma amostra de 20 mulheres e 24 homens e encontraram xM 19 e xH 28 De estudos anteriores sabe se que na população feminina o desvio padrão é 08 e na população masculina o desvio padrão é 09 Construa um intervalo de 95 de confiança para a diferença de médias Temos xM 19 xH 28 M 08 H 09 nM 20 nH 24 e z 0025 196 55 IC M H 95 40 41 24 90 20 80 196 82 91 24 90 20 80 196 82 91 2 2 2 2 Caso 3A Amostras independentes com variâncias desconhecidas e iguais No caso de se desejar estimar a diferença 1 2 entre as médias de duas populações normais cujas variâncias são iguais 2 1 2 2 2 porém desconhecidas um intervalo de confiança para 1 2 é dado por IC121 2 1 2 p 2 2 n n 2 1 2 1 2 p 2 2 n n 2 1 n 1 n 1 s t x x n 1 n 1 s t x x 2 1 2 1 onde t 2 com n1 n2 2 graus de liberdade é encontrado na tabela da distribuição t de Student na página 59 e 2 n n 1s n 1s n s 2 1 2 2 2 2 1 1 2 p Exemplo 10 Num rebanho de 25 vacas leiteiras 12 vacas foram alimentadas com alfafa desidratada e outras 13 vacas com alfafa murcha obtendose os dados abaixo Construa um intervalo de 95 de confiança para a diferença entre a produção média diária de leite das vacas alimentadas com alfafa murcha em relação à alfafa desidratada Produção média diária de leite de vacas que receberam dois tipos de dietas Alfafa murcha 1 Alfafa desidratada 2 44 35 44 47 56 55 46 29 38 39 58 32 53 41 49 42 35 57 46 51 30 39 47 40 41 Dos dados acima temos que 1x 4515 s1 800 2x 4225 s2 874 n1 13 e n2 12 Para obter o intervalo precisamos calcular 6992 2 12 13 1 8 74 12 13 1 8 00 s 2 2 2 p O valor tabelado é t230025 2069 IC1295 12 1 13 2 069 6992 1 4225 12 4515 1 13 2 069 6992 1 4225 4515 290 6926 290 6926 4026 9826 Ou seja podese ter 95 de confiança ao dizer que a verdadeira diferença entre a produção média diária de leite das vacas alimentadas com alfafa murcha em relação à alfafa desidratada está compreendida no intervalo 4026 9826 56 Caso 3B Amostras independentes com variâncias desconhecidas e diferentes Supondo agora que as duas populações tenham variâncias diferentes e desconhecidas um intervalo de confiança para 1 2 é dado por IC 1 2 1 2 2 2 1 2 1 v 2 2 1 2 2 2 1 2 1 v 2 2 1 n s n s t x x n s n s t x x sendo v os graus de liberdade calculado por 2 1 n w 1 n w w w v 2 2 2 1 2 1 2 2 1 onde 1 2 1 1 n w s e 2 2 2 2 n s w Exemplo 11 As amostras disponíveis constam de seis pacotes de café produzidos pela máquina nova e nove pacotes de café produzidos pela máquina velha Os pesos em quilogramas desses pacotes estão no quadro abaixo Supondo que as variâncias são desconhecidas e diferentes obtenha um intervalo de 95 de confiança para 1 2 Máquina nova 1 Máquina velha 2 082 079 083 082 079 073 081 074 081 080 080 077 075 084 078 Dos dados temos que 1x 081 s1 2 000020 2x 078 s2 2 000135 n1 6 n2 9 1 2 1 1 n w s 00000333 2 2 2 2 n s w 000015 2 1 9 00015 0 1 6 0000333 0 0 00015 0 0000333 v 2 2 2 1195 12 Então devese procurar na tabela t de Student em 12 graus de liberdade t120025 2179 Portanto um intervalo de 95 de confiança para 1 2 é dado por IC1295 9 00135 0 6 0 0002 2179 0 78 0 81 9 00135 0 6 0 0002 2179 0 78 0 81 003 00295 003 00295 00005 00595 57 434 Intervalo de Confiança para a diferença entre duas Proporções Populacionais de sucesso No caso de se desejar estimar a diferença entre duas proporções populacionais p1 p2 a expressão para o intervalo de confiança será ICp1p2 1 2 2 2 1 1 1 2 2 1 2 2 2 1 1 1 2 2 1 ˆ ˆ 1 ˆ ˆ 1 ˆ ˆ ˆ ˆ 1 ˆ ˆ 1 ˆ ˆ n p p n p p z p p n p p n p p z p p onde z 2 é encontrado na tabela da distribuição Normal padronizada na página 45 Exemplo 12 Em uma pesquisa de opinião 32 dentre 80 homens declararam apreciar certa revista acontecendo o mesmo com 26 dentre 50 mulheres Construa um intervalo de 95 de confiança para p1 p2 Uma estimativa pontual para p1 e p2 é dada por 0 40 80 32 ˆ1 p e 0 52 50 26 ˆ 2 p Da tabela da distribuição Normal padronizada da página 54 encontramos z0025 196 Portanto um intervalo de 95 de confiança para p1 p2 é dado por IC p1p295 50 52 0 48 0 80 6040 196 0 52 40 50 52 0 48 0 80 6040 196 0 52 40 012 0175 012 0175 0295 0055 Exercício 7 Para se avaliar o nível de tensão ocasionada por exames escolares 12 alunos foram escolhidos e sua pulsação medida antes e depois do exame Obtenha um intervalo de 99 de confiança para 1 2 Estudante 1 2 3 4 5 6 7 8 9 10 11 12 Antes 87 78 85 93 76 80 82 77 91 74 76 79 Depois 83 84 79 88 75 81 74 71 78 73 76 71 Exercício 8 Dadas duas amostras aleatórias de tamanho 10 e 12 extraídas de duas populações normais independentes as quais forneceram respectivamente 1x 20 2x 24 s1 50 e s2 36 Obtenha um intervalo de 95 de confiança para a diferença entre as médias populacionais considere as variâncias iguais 58 Resumo dos Intervalos de Confiança Intervalo de Confiança para uma Média Populacional A Considerando o desvio padrão conhecido IC 1 n σ z n σ z 2 2 x x B Considerando o desvio padrão desconhecido IC 1 n s t n s t 2 1 2 1 n n x x Intervalo de Confiança para uma Proporção Populacional de sucessos IC p 1 n p p z p n p p z p ˆ 1ˆ ˆ ˆ 1ˆ ˆ 2 2 Intervalo de Confiança para a diferença entre duas Médias Populacionais Caso 1 Amostras Dependentes IC 1 2 1 n s t n s t 2 1 2 1 d n d n d d Caso 2 Amostras independentes com variâncias conhecidas IC 1 2 1 2 2 2 1 2 1 2 2 1 2 2 2 1 2 1 2 2 1 n σ n σ z x n x σ n σ z x x Caso 3A Amostras independentes com variâncias desconhecidas e iguais IC12 1 2 1 2 p 2 2 n n 2 1 2 1 2 p 2 2 n n 2 1 n 1 n 1 s t x x n 1 n 1 s t x x 2 1 2 1 onde 2 n n 1s n 1s n s 2 1 2 2 2 2 1 1 2 p Caso 3B Amostras independentes com variâncias desconhecidas e diferentes IC 1 2 1 2 2 2 1 2 1 v 2 2 1 2 2 2 1 2 1 v 2 2 1 n s n s t x x n s n s t x x sendo v os graus de liberdade calculado por 2 1 n w 1 n w w w v 2 2 2 1 2 1 2 2 1 onde 1 2 1 1 n w s e 2 2 2 2 n s w Intervalo de Confiança para a diferença entre duas Proporções Populacionais de sucesso ICp1p21 2 2 2 1 1 1 2 2 1 2 2 2 1 1 1 2 2 1 ˆ ˆ 1 ˆ ˆ 1 ˆ ˆ ˆ ˆ 1 ˆ ˆ 1 ˆ ˆ n p p n p p z p p n p p n p p z p p 59 Tabela da Distribuição t de Student n 1 010 10 005 5 0025 25 001 1 0005 05 1 3078 6314 12706 31821 63656 2 1886 2920 4303 6965 9925 3 1638 2353 3182 4541 5841 4 1533 2132 2776 3747 4604 5 1476 2015 2571 3365 4032 6 1440 1943 2447 3143 3707 7 1415 1895 2365 2998 3499 8 1397 1860 2306 2896 3355 9 1383 1833 2262 2821 3250 10 1372 1812 2228 2764 3169 11 1363 1796 2201 2718 3106 12 1356 1782 2179 2681 3055 13 1350 1771 2160 2650 3012 14 1345 1761 2145 2624 2977 15 1341 1753 2131 2602 2947 16 1337 1746 2120 2583 2921 17 1333 1740 2110 2567 2898 18 1330 1734 2101 2552 2878 19 1328 1729 2093 2539 2861 20 1325 1725 2086 2528 2845 21 1323 1721 2080 2518 2831 22 1321 1717 2074 2508 2819 23 1319 1714 2069 2500 2807 24 1318 1711 2064 2492 2797 25 1316 1708 2060 2485 2787 26 1315 1706 2056 2479 2779 27 1314 1703 2052 2473 2771 28 1313 1701 2048 2467 2763 29 1311 1699 2045 2462 2756 30 1310 1697 2042 2457 2750 31 1309 1696 2040 2453 2744 32 1309 1694 2037 2449 2738 33 1308 1692 2035 2445 2733 34 1307 1691 2032 2441 2728 35 1306 1690 2030 2438 2724 36 1306 1688 2028 2434 2719 37 1305 1687 2026 2431 2715 38 1304 1686 2024 2429 2712 39 1304 1685 2023 2426 2708 40 1303 1684 2021 2423 2704 41 1303 1683 2020 2421 2701 42 1302 1682 2018 2418 2698 43 1302 1681 2017 2416 2695 44 1301 1680 2015 2414 2692 45 1301 1679 2014 2412 2690 50 1299 1676 2009 2403 2678 60 Exercícios 1 Suponha que uma amostra de n 100 de uma distribuição normal N 2 forneceu x 5106 Supondo 2 conhecido e igual a 16 obtenha um intervalo de confiança para com coeficiente de 98 de confiança 2 Um engenheiro deseja estimar o tempo médio de secagem de uma mistura de cimento para tapar buracos numa rodovia Dos dados obtidos de secagem para 51 buracos tapados a média e o desvio padrão são iguais a 32 e 4 minutos respectivamente Usar este valor para determinar um intervalo de 99 de confiança para o tempo médio de secagem 3 Sabese que o peso de bovinos Nelore aos 220 dias tem distribuição N 2 144 kg2 Uma amostra casual de 30 bovinos fornece peso médio de 186 kg Obtenha uma estimativa por intervalo para o peso médio com 98 de confiança Idem com 90 Compare os resultados 4 A precipitação pluviométrica no mês de abril numa certa região é o nosso objetivo de estudo Nos últimos 12 anos verificouse neste mês as seguintes precipitações 313 306 352 334 302 277 300 327 334 291 315 e 356 Construa um intervalo de 99 de confiança para a precipitação pluviométrica média em abril 5 Dez crianças foram submetidas a uma dieta alimentar durante uma semana Elas tiveram seus pesos mensurados no início e no final da dieta Baseado nos pesos dados a seguir kg construa um intervalo de 95 de confiança para a diferença entre as médias Início 243 259 250 248 253 252 257 251 247 243 Final 262 271 269 265 270 268 267 264 268 266 6 Dos 61 pacientes anestesiados com Halotano 8 morreram e 10 dos 67 pacientes anestesiados com Morfina morreram Construa um intervalo de 95 de confiança para a diferença entre as proporções