·
Medicina Veterinária ·
Bioestatística
Send your question to AI and receive an answer instantly
Recommended for you
132
Bioestatistica-Medidas de Tendencia Central-Conceitos e Aplicacoes
Bioestatística
UECE
79
Bioestatistica-Apresentacao-Graficos-Tabelas-Amostragem-e-Tipos-de-Variaveis
Bioestatística
UECE
171
Bioestatistica para Medicina Veterinaria - Introducao Conceitos e Importancia
Bioestatística
UECE
1
Bioestatistica-Medidas de Posicao em Equinos Mangalarga
Bioestatística
CESCAGE
11
Bioestatística - Avaliação de Protocolos Anestésicos em Cães e Métodos de Castração em Caprinos
Bioestatística
IFPB
2
Lista de Exercicios Resolvidos - Distribuição de Probabilidade e Calculo Amostral
Bioestatística
USS
2
Programa Past
Bioestatística
UEMA
4
Exercícios Resolvidos Estatística Descritiva Salário Mínimo e Histogramas
Bioestatística
UFRRJ
1
Formulário Estatística Descritiva e Probabilidade - Resumo Completo
Bioestatística
UFRRJ
2
Prova Bioestatística - Análise de Variância e Correlação em Estudos Veterinários
Bioestatística
IFPB
Preview text
INTRODUÇÃO À Bioestatística SONIA VIEIRA 4ª EDIÇÃO ELSEVIER AVISO LEGAL Caso esta Obra na versão impressa possua quaisquer materiais complementares tais como CDs eou DVDs ou recursos online estes serão disponibilizados na versão adquirida a partir da Biblioteca Digital através do ícone Recursos Extras dentro da própria Biblioteca Digital Introdução à Bioestatística 4ª EDIÇÃO Sonia Vieira Professora Titular de Bioestatística da Unicamp ELSEVIER 2008 Elsevier Editora Ltda Todos os direitos reservados e protegidos pela Lei 9610 de 19021998 Nenhuma parte deste livro sem autorização prévia por escrito da editora poderá ser reproduzida ou transmitida sejam quais forem os meios empregados eletrônicos mecânicos fotográficos gravação ou quaisquer outros Capa fllio Design Editoração Eletrônica Rosane Guedes Esevier Editora Ltda Rua Sete de Setembro 111 16º andar 20050006 Centro Rio de Janeiro RJ Brasil Telefone 21 39709300 Fax 21 25071991 Emall infoelseviercombr Escritório São Paulo Rua Quintana 753 8 andar 04569011 Brooklin São Paulo SP Brasil Telefone 11 51058555 Conheça nosso catálogo completo cadastrese em wwwelseviercombr para ter acesso a conteúdos e serviços exclusivos e receber informações sobre nossos lançamentos e promoções NOTA O conhecimento médico está em permanente mudança Os cuidados normais de segurança devem ser seguidos mas como as novas pesquisas e a experiência clinica ampliam nosso conhecimento alterações no tratamento e terapia à base de drogas podem ser necessárias ou apropriadas Os leitores são aconselhados a checar informações mais atuais dos produtos fornecidas pelos fabricantes de cada droga a ser administrada para verificar a dose recomendada o método e a duração da administração e as contraindicações É responsabilidade do médico com base na experiência e contando com o conhecimento do paciente determinar as dosagens e o melhor tratamento para cada um individualmente Nem o editor nem o autor assumem qualquer responsabilidade por eventual dano ou perda a pessoas ou a propriedade originada por esta publicação ISBN 9788535250121 CIPBRASIL CATALOGAÇÃONAFONTE SINDICATO NACIONAL DOS EDITORES DE LlVROS RJ V718i Vieira Sonia 1942 Introdução à bioestatística recurso eletrônico Sonia Vleira Rio de Janeiro Esevier 2011 345 p recurso digital il Formato Flash Requisitos do sistema Adobe Flash Player Modo de acesso Word Wide Web Apêndice Inclui bibliografia e Indice ISBN 9788535250121 recurso eletrônico 1 Bioestatistica 2 Livros eletrônicos I Título 117080 211011 271011 CDD 57015195 CDU 570871 030757 O Editor Prefácio Bioestatística é a Estatística aplicada às ciências da saúde Profissionais e alunos dessas áreas querem aprender técnicas estatísticas porque elas são muito usadas na pesquisa como bem mostra a literatura especializada Mas Estatística é ciên cia complexa que não se aprende com a simples busca de um termo na Internet É difícil aprender Estatística Sim e não Aprender a fazer cálculos estatísticos usan do programas de computador não é difícil embora exija tempo interesse e aten ção Entretanto a condução e a avaliação de uma pesquisa dependem em boa par te do conhecimento do pesquisador sobre as potencialidades e as limitações das técnicas utilizadas E entre o cálculo e a interpretação do resultado há um cami nho a percorrer Este livro foi então escrito e reescrito muitas vezes na tentativa de facilitar a aprendizagem Buscamos explicar sempre a indicação e as restrições das técni cas ensinadas Os conceitos são transmitidos mais pela intuição do que por demons tração os exemplos são simples e das áreas da saúde e os exercícios exigem pouco trabalho de cálculo É grande a quantidade de exemplos e o número de exercíci os mais do que dobrou em relação à edição anterior para bem ilustrar as técni cas aprendidas A leitura do texto exige os conhecimentos de matemática que são exigidos em exames vestibulares De qualquer modo as seções que envolvem maior aptidão para a matemática foram assinaladas com asterisco Tais seções podem ser evitadas sem prejuízo do entendimento das subseqüentes Os cálculos podem ser feitos à mão ou com calculadora Alunos de cursos avançados de Estatística usam rotineiramen te um computador mas acreditamos que é preciso manusear fórmulas para enten der os conceitos básicos de Estatística Não há como ter completa segurança na discussão de uma média aritmética por exemplo sem nunca ter usado papel e lá pis para calcular esse tipo de estatística Assim sem despender muito tempo com cálculos e demonstrações o estudante adquíre neste livro conhecimentos su ficientes para tomarse usuário competente das técnicas estatísticas mais comuns Uma conseqüência importante de aprender Estatística mais importante do que possa parecer à primeira vista é a familiarização com o jargão próprio da área Alguns termos do vocabulário comum têm significado técnico e específico quando usados em Estatística É claro que o conhecimento do significado comum ajuda mas pode conduzir à interpretação errada quando substitui o significado técnico Essa 4ª edição de Introdução à Bioestatística totalmente revista e ampliada só foi possível porque o livro encontrou aceitação no meio acadêmico Agradecemos rv Prefácio pois a todos aqueles que prestigiaram nosso trabalho mas principalmente aos alunos que nos ensinaram a ensinar Importante porém é o fato de esse livro ter tido a revisão competente e altamente especializada de Martha Maria Mischan Ronaldo Wada fez alguns dos vários gráficos Márcio Vieira Hoffmann fez uma lei tura crítica dos originais e William Saad Hossne escreveu a 4ª capa Mas há tam bém que agradecer ao Centro de PósGraduação São Leopolde Mandic pela opor tunidade de trabalho A autora CAPÍTULO 1 NOÇÕES SOBRE AMOSTRAGEM 1 11 O que é Estatística 3 12 O que é população e o que é amostra 4 13 Por que se usam amostras 4 14 Como se obtém uma amostra 5 141 Amostra aleatória ou probabilística 5 142 Amostra semiprobabilística 6 1421 Amostra sistemática 7 1422 Amostra por conglomerados 7 1423 Amostra por quotas 8 143 Amostra não probabilística ou de conveniência 9 144 Avaliação das técnicas de amostragem 9 15 Estatísticas e parâmetros 10 16 Com quantas unidades se compõe uma amostra 11 1 7 A questão da representatividade 13 18 Exercícios resolvidos 14 1 9 Exercícios propostos 17 Sumário CAPÍTULO 2 APRESENTAÇÃO DE DADOS EM TABELAS 21 21 Dados e variáveis 23 22 Apuração de dados 24 23 Componentes das tabelas 26 24 Apresentação de dados qualitativos 28 25 Tabelas de contingência 30 26 Apresentação de dados numéricos 31 2 7 Exercícios resolvidos 38 28 Exercícios propostos 41 v1 Sumário CAPÍTULO 3 APRESENTAÇÃO DE DADOS EM GRÁFICOS 47 3 1 Apresentação de dados qualitativos 49 311 Gráficos de Barras 49 312 Gráfico de setores 54 32 Apresentação de dados numéricos 56 321 Diagrama de linhas 56 322 Gráfico de pontos 57 323 Histograma 57 324 Polígono de freqüências 58 33 Observações 59 34 Exercícios resolvidos 60 35 Exercícios propostos 62 CAPÍTULO 4 MEDIDAS DE TENDÊNCIA CENTRAL 65 41 Símbolos matemáticos 67 42 Média da amostra 68 43 Mediana da amostra 7 4 44 Moda da amostra 75 45 Exercícios resolvidos 77 46 Exercícios propostos 80 CAPÍTULO 5 MEDIDAS DE DISPERSÃO PARA UMA AMOSTRA 85 51 Mínimo máximo e amplitude 87 52 Quartil 89 521 Diagrama de caixa Box plot 91 53 Desvio padrão da amostra 93 531 Introduzindo a variância 93 532 Definindo o desvio padrão 95 533 Uma fórmula prática para calcular a variância 97 54 Coeficiente de variação 98 55 Exercícios resolvidos 99 56 Exercícios propostos 104 CAPÍTULO 6 NOÇÕES SOBRE CORRELAÇÃO 107 6 1 Diagrama de dispersão 109 62 Coeficiente de correlação 115 63 Pressuposições 119 64 Cuidados na interpretação do coeficiente de correlação 119 65 Exercícios resolvidos 120 66 Exercícios propostos 124 CAPÍTULO 7 NOÇÕES SOBRE REGRESSÃO 131 7 1 Gráfico de linhas 133 7 2 Reta de regressão 135 7 3 Escolha da variável explanatória 142 7 4 Coeficiente de determinação 143 7 5 Uma pressuposição básica 145 76 Outros tipos de regressão 147 77 Exercícios resolvidos 151 78 Exercícios propostos 155 CAPÍTULO 8 NOÇÕES SOBRE PROBABILIDADE 161 81 Definição clássica de probabilidade 163 82 Freqüência relativa como estimativa de probabilidade 164 83 Eventos mutuamente exclusivos e eventos independentes 166 831 Eventos mutuamente exclusivos 166 832 Eventos independentes 166 8321 Conjuntos 166 8322 Condição de independência 167 8323 Diferença nos conceitos 170 84 Probabilidade condicional 170 85 Teorema da soma ou a regra do ou 173 86 Teorema do produto ou a regra do e 174 87 Exercícios resolvidos 176 88 Exercícios propostos 180 Sumário v11 vm Sumário CAPÍTULO 9 DISTRIBUIÇÃO BINOMIAL 183 9 1 Variável aleatória 185 911 Variável aleatória binária 186 912 Variável aleatória binomial 186 92 Distribuição de probabilidades 187 9 3 Distribuição binomial 189 931 Caracterização da distribuição binomial 192 932 Função de distribuição na distribuição binomial 192 933 Média e variância na distribuição binomial 194 94 Revisão sobre análise combinatória 195 95 Exercícios resolvidos 195 96 Exercícios propostos 202 CAPÍTULO 1 O DISTRIBUIÇÃO NORMAL 205 101 Características da distribuição normal 209 102 Distribuição normal reduzida 213 103 Probabilidades na distribuição normal 216 104 Usos da distribuição normal 219 105 Exercícios resolvidos 221 106 Exercícios propostos 224 CAPÍTULO 11 INTERVALO DE CONFIANÇA 227 111 Intervalo de confiança para uma proporção 230 1111 Cálculo do intervalo de confiança para uma proporção 1112 Pressuposições 231 1113 A margem do erro 232 112 Intervalos de confiança para uma média 233 1121 Erro padrão da média 233 1122 Cálculo do intervalo de confiança para uma média 236 113 Cuidados na interpretação dos intervalos de confiança 237 114 Pequenas amostras 237 115 Exercícios resolvidos 240 116 Exercícios propostos 242 CAPÍTULO 12 TESTE DE QUlQUADRADO 245 121 Teste de X2 de Pearson para aderência 252 1211 Resumo do procedimento 255 122 Tabelas 2 x 2 256 1221 Teste de X2 para independência 256 1222 Usos e restrições do teste de X2 258 1223 Medida de associação 259 123 Exercícios resolvidos 260 124 Exercícios propostos 265 CAPÍTULO 13 TESTE t DE STUDENT 269 131 O teste r nos estudos com dados pareados 272 1311 Testes unilaterais e testes bilaterais 276 132 O teste t na comparação de dois grupos independentes 279 1321 O caso das variâncias desiguais 281 133 O teste t para o coeficiente de correlação 285 134 Exercícios resolvidos 286 135 Exercícios propostos 290 Respostas aos Exercícios Propostos 295 Tabelas 325 Sugestões para leitura 341 Índice Remissivo 343 Sumário 1x página deixada intencionalmente em branco Noções sobre Amostragem 1 página deixada intencionalmente em branco Capítulo 1 Noções sobre Amostragem 3 Grande parte das pessoas que conhecemos já ouviu falar de prévias eleito rais de censo de pesquisa de opinião A maioria das pessoas que conhe cemos já respondeu perguntas sobre a qualidade dos serviços de um bar ou de uma lanchonete já assistiu no rádio ou na televisão programas em que pedem para o ouvinte ou telespectador votar em um cantor ou em uma música ou dar opinião sobre determinado assunto por telefone ou por email O uso tão difundido de levantamento de dados que no Brasil chama mos popularmente de pesquisa faz pensar que esse é um trabalho fá cil Por conta disso ao ler um relatório de pesquisa no jornal da cidade muita gente se acha capaz de fazêlo e até melhor pois entende que para levantar dados basta fazer perguntas e depois contar as respostas Mas não é bem assim Um bom levantamento de dados exige conhecimentos de Estatística 11 0 QUE É ESTATÍSTICA 1 Para muitas pessoas a palavra Estatística lembra números Elas têm razão em parte a Estatística trata de números mas trata também de outras coisas Estatística é a ciência que fornece os princípios e os métodos para coleta organização resumo análise e interpretação de dados Dados corretamente coletados fornecem conhecimentos que não seriam obtidos por simples especulação Mas nem sempre é possível levantar todos os dados Um exemplo disso são as prévias eleitorais que fornecem as es timativas da porcentagem de votos em cada candidato As prévias são fei tas regularmente e publicadas Mas quem são as pessoas que os institutos de pesquisa devem entrevistar Se estivermos pensando em eleições presidenciais a idéia seria entre vistar todos os portadores de título de eleitor do Brasil Mas como as pré vias eleitorais são feitas com freqüência não é possível entrevistar todos os eleitores incluindo você e eu a cada 10 dias por exemplo para conhe cer as intenções de voto de todos nós Então as prévias eleitorais são fei tas com pequeno número de eleitores de 1500 a 3000 É o que chamamos de amostra 4 Introdução à Bioestatística 12 0 QUE É POPULAÇÃO E O QUE É AMOSTRA População ou universo é o conjunto de unidades sobre o qual desejamos obter informação Amostra é todo subconjunto de unidades retiradas de uma população para obter a informação desejada É importante entender que população é o termo que os estatísticos usam para descrever um grande conjunto de unidades que têm algo em comum Na área de saúde a população pode ser constituída por pacientes ou por animais mas também pode ser constituída por radiografias por prontuá rios por necropsias por contas hospitalares por certidões de óbito A distinção entre os dados realmente coletados amostra e a vasta quan tidade de dados que poderiam ser observados população é a chave para o bom entendimento da Estatística O uso de amostras permite obter res postas razoáveis com margem de erro conhecida Considere a questão das prévías eleitorais Os resultados desde que obtidos de amostras repre sentativas são confiáveis Na maioria das vezes a predição do ganhador da eleição é correta O levantamento de dados de toda a população chamase censo A Fun dação Instituto Brasileiro de Geografia e Estatística IBGE faz o Censo De mográfico do Brasil a cada 10 anos por exigência da Constituição da Re pública Federativa do Brasil São coletadas informações sobre sexo idade e nível de renda de todos os residentes no Brasil 13 POR QUE SE USAM AMOSTRAS As razões que levam os pesquisadores a trabalhar com amostras e não com toda a população são poucas mas absolutamente relevantes Custo e demora dos censos Populações muito grandes Impossibilidade física de examinar toda a população Comprovado valor científico das informações coletadas por meio de amostras A primeira razão para estudar uma amostra em lugar de toda a popu lação é a questão do custo e da demora dos censos Por exemplo qual é em média o peso ao nascer de nascidos vívos no Brasil em determinado ano Avaliar toda a população pode ser impossível para o pesquisador por que levaria muito tempo e seria muito caro Outra razão para estudar amostras é o fato de existirem populações tão grandes que estudálas por inteiro seria impossível Por exemplo quantos Capítulo 1 Noções sobre Amostragem 5 peixes tem o mar Esse número é em determinado momento matematica mente finito mas tão grande que pode ser considerado infinito para qual quer finalidade prática Então quem faz pesquisas sobre peixes do mar tra balha necessariamente com amostras Outras vezes é impossível estudlar toda a população porque o estudo des trói as unidades Uma empresa que fabrica fósforos e queira testar a qua lidade do produto que fabrica não pode acender todos os fósforos que fa bricou mas apenas alguns deles O uso de amostras tem ainda outra razão o estudo cuidadoso de uma amostra tem maior valor científico do que o estudo sumário de toda a po pulação Imagine como exemplo que um pesquisador queira estudar os hábitos de consumo de bebidas alcoólicas entre adolescentes de uma grande cidade É melhor que o pesquisador faça a avaliação criteriosa de uma amos tra do que a avaliação sumária de toda a população de adolescentes da cidade 14 COMO SE OBTÉM UMA AMOSTRA Antes de obter uma amostra é preciso definir os critérios que serão usa dos para selecionar as unidades que comporão essa amostra De acordo com a técniéa usada temsé um tipo âle àroostrà Serão definidàs àqui amostra aleatória casual ou probabilística amostra semiprobabilística amostra nãoprobabilística ou de conveniência 141 Amostra aleatória ou probabilística A amostra aleatória ou probabilística é constituída por n unidades retira das ao acaso da população Em outras palavras a amostra aleatória é ob tida por sorteio Logo toda unidade da população tem probabilidade conhe cida de pertencer à amostra Para obter uma amostra aleatória é preciso que a população seja co nhecida e cada unidade esteja identificada por nome ou por número Os ele mentos que constituirão a amost ra são escolhidos por sorteio Algumas pessoas acreditam que o sorteio por computador é mais sério ou mais exato Hoje em dia é mais fácil No entanto o sorteio feito com pa peizinhos em uma caixa ou bolas em uma urna usados em programas de televisão ajuda entender as regras do procedimento aleatório Uma amostra aleatória pode ser simples estratificada Introdução à Bioestatística A amostra aleatória simples é obtida por sorteio de uma população cons tituída por unidades homogêneas para a variável que você quer estudar Exemplo 11 Uma amostra aleatória simples Imagine que você precisa obter uma amostra de 2 dos 500 pacientes de uma clínica para entrevistálos sobre a qualidade de atendimento da secretária Qual seria o procedimento para obter uma amostra aleatória simples Solução Para obter uma amostra aleatória de 2 dos 500 pacientes você precisa sortear 1 O Você pode fazer isso da maneira mais antiga e conhecida e também a mais trabalhosa Comece escrevendo o nome de todos os pacientes em pedaços de papel Coloque todos os pedaços de papel em uma urna misture bem e retire um nome Repita o procedimento até ter os nomes dos 10 pacientes que comporão sua amostra A amostra aleatória estratificada é usada quando a população é consti tuída por unidades heterogêneas para a variável que se quer estudar Nesse caso as unidades da população devem ser identificadas depois as unida des similares devem ser reunidas em subgrupos chamados estratos O sor teio é feito dentro de cada estrato Exemplo 12 Uma amostra estratificada Imagine que você precisa obter uma amostra de 2 dos 500 pacientes de uma clí nica para entrevistálos sobre a qualidade de atendimento da secretária Você sus peita que homens sejam mais bem atendidos do que mulheres Aproximadamen te metade dos pacientes é do sexo masculino Você quer obter dados dos dois sexos Qual seria o procedimento Solução Comece separando homens de mulheres Você tem então dois estratos um de homens outro de mulheres Depois você obtém uma amostra aleatória de cada sexo ou cada estrato e reúne os dados dos dois estratos numa só amostra alea tória estratificada 142 Amostra semiprobabilística A amostra semiprobabilística é constituída por n unidades retiradas da po pulação por procedimento parcialmente aleatório Dentre as amostras semiprobabilísticas temos amostra sistemática Capítulo 1 Noções sobre Amostragem 1 amostra por conglomerados amostra por quotas 742 7 Amostra sistemática A amostra sistemática é constituída por n unidades retiradas da população segundo um sistema preestabelecido Por exemplo se você quiser uma amos tra constituída por 18 da população você sorteia um número que caia en tre 1 e 8 Se for sorteado o número 3 por exemplo a terceira unidade nú mero 3 será selecionada para a amostra A partir dai tome sistematica mente a terceira unidade de cada oito em seqüência No caso do exemplo a primeira unidade é 3 Seguem de oito em oito as unidades de números 11 19 27 etc Exemplo 13 Uma amostra sistemática Imagine que você precisa obter uma amostra de 2 dos 500 pacientes de uma clí nica para entrevistálos sobre a qualidade de atendimento da secretária Como você obteria uma amostra sistemática Solução Uma amostra de 2 dos 500 pacientes significa amostra de tamanho 1 O Para ob ter a amostra você pode dividir 500 por 1 O e obter 50 Sorteie então um número entre 1 e 50 inclusive Se sair o número 27 por exemplo esse será o número do primeiro paciente que será incluído na amostra Depois a partir do número 27 conte 50 e chame esse paciente Proceda dessa forma até completar a amostra de 10 pacientes 7422 Amostra por conglomerados A amostra por conglomerados é constituída por n unidades tomadas de al guns conglomerados O conglomerado é um conjunto de unidades que es tão agrupadas qualquer que seja a razão Um asilo é um conglomerado de idosos uma universidade pública é um conglomerado de pessoas com bom nivel socioeconômico um serviço militar é um conglomerado de adultos jovens saudáveis Como exemplo imagine que um dentista quer levantar dados sobre a necessidade de aparelho ortodôntico em crianças de 12 anos Ele pode sortear três escolas de primeiro grau conglomerados e examinar todas as crianças com 12 anos dessas escolas 1 Introdução à Bioestatística Exemplo 14 Uma amostra por conglomerados Um professor de Educação Física quer estudar o efeito da terapia de reposição hormonal uso de hormônios por mulheres depois da menopausa sobre o desem penho nos exercícios Como obteria uma amostra por conglomerados Solução O professor de Educação Física pode sortear duas academias de ginástica da ci dade e avaliar o desempenho das mulheres que freqüentam a academia e já ti veram a menopausa tanto as que fazem como as que não fazem uso da terapia de reposição hormonal para posterior comparação 7423 Amostra por quotas A amostra por quotas é constituída por n unidades retiradas da população segundo quotas estabelecidas de acordo com a distribuição desses elemen tos na população A idéia de quota é semelhante à de estrato com uma di ferença básica você seleciona a amostra por julgamento e depois confir ma as características das unidades amostradas A amostragem por quotas não é aleatória embora muitos pensem que é A grande vantagem é ser relativamente barata Por esta razão é muito usada em levantamentos de opinião e pesquisas de mercado Exemplo 15 Uma amostra por quotas Considere uma pesquisa sobre a preferência de modelo de carro Como se faz uma amostra por quotas Solução Você possivelmente irá entrevistar homens e mulheres com mais de 18 anos que vivem em uma metrópole por exemplo Curitiba na proporção apresentada pelo censo demográfico em termos de sexo idade e renda Você então sai às ruas para trabalhar com a incumbência de entrevistar determinada quota de pessoas com determinadas caracterfsticas Por exemplo você pode ser incumbido de entrevistar 30 homens com mais de 50 anos que recebam mais de seis e menos de 10 salários mínimos Então você deverá julgar pela aparência da pessoa se ela se enquadra nas características descritas homem de mais de 50 anos que ganha entre seis e 10 salários míni mos Se achar que viu a pessoa certa deve fazer a abordagem e depois confir mar as características com perguntas O número de pessoas em determinada quota depende do número delas na população Capítulo 1 Noções sobre Amostragem 9 143 Amostra nãoprobabilística ou de conveniência A amostra nãoprobabilística ou de conveniência é constituída por n unida des reunidas em uma amostra simplesmente porque o pesquisador tem fá cil acesso a essas unidades Assim o professor que toma os alunos de sua classe como amostra de toda a escola está usando uma amostra de conve niência Exemplo 16 Uma amostra nãoprobabilística Imagine que um nutricionista quer entrevistar 50 mães de crianças com idades de 3 e 4 anos para conhecer os hábitos alimentares dessas crianças Como obteria essa amostra Solução Se o nutricionista trabalha em uma escola para obter a amostra de 50 mães de crianças de 3 e 4 anos provavelmente procurará as mães de crianças matricula das na escola em que trabalha 144 Avaliação das técnicas de amostragem As amostras aleatórias exigem que o pesquisador tenha a listagem com todas as unidades da população porque é dessa listagem que serão sorteadas as unidades que comporão a amostra Essa exigência inviabiliza a tomada de amostras aleatórias em grande parte dos casos Por exemplo não é possí vel obter uma amostra aleatória de cariocas simplesmente porque não te mos uma lista com o nome de todos os cariocas A amostra sistemática não exige que a população seja conhecida mas é preciso que esteja organizada em filas em arquivos ou mesmo em ruas como os domicílios de uma cidade Por exemplo para tomar uma amostra dos domicílios de uma cidade partese de um ponto sorteado e tomase de tantos em tantos um domicílio para a amostra A amostra por conglomerados exige livre acesso aos conglomerados o que nem sempre se consegue Um médico pode sortear cinco hospitais da cidade de São Paulo para entrevistar pacientes internados por problemas cardíacos mas díficilmente conseguirá permissão da diretoria de todos esses cinco hospitais para fazer sua pesquisa A amostra por quotas exige algum conhecimento da população mas as unidades não precisam estar numeradas ou identificadas Se você quiser uma amostra de homens e de mulheres empregados de uma grande empresa bas ta saber por exemplo a proporção de homens e mulheres na empresa e amostrar na mesma proporção 11 Introdução à Bioestatística De qualquer forma as amostras probabilísticas são preferíveis do pon to de vista do estatístico mas na prática elas nem sempre são possíveis Na área de saúde o pesquisador trabalha necessariamente com unidades às quais tem acesso ratos de um laboratório universitários pacientes em tratamento no ambulatório da universidade crianças matriculadas em es colas As amostras de conveniência não invalidam a pesquisa mas precisam ser muito bem descritas porque representam apenas a população de indiví duos semelhantes àqueles incluídos na amostra Por essa razão uma enfermeira que usar os dados de um hospital para estimar a probabilidade de morte por desidratação poderá generalizar seus achados apenas para pacientes internados por desidratação Como são internados apenas os casos graves é possível que a mortalidade entre pa cientes internados seja maior do que entre pacientes nãointernados en tão não teria sentido generalizar os achados para todas os pacientes com desidratação 15 ESTATÍSTICAS E PARÂMETROS Já sabemos a diferença entre amostra e população Precisamos agora esta belecer distinção entre valores obtidos da amostra e valores obtidos da população A estatfstica resume uma característica da amostra o parâmetro resume uma característica da população Quando você ouve no noticiário que de acordo com a pesquisa de de terminado instituto 44 dos brasileiros aprovam determinada atitude do Presidente da República você foi apresentado a uma estatística Essa esta tística resume o que as pessoas que compuseram a amostra provavelmen te 1500 ou 2000 pensam da atitude em questão É um indicador ou uma estimativa do parâmetro correspondente a porcentagem da população brasileira que aprovou a atitude Mas não existe garantia de que as estatísticas estimativas obtidas com base nos dados da amostra tenham valor igual ou mesmo próximo do parâmetro valor verdadeiro na população No entanto isto ocorrerá na maioria das vezes desde que a amostra tenha sido obtida de acordo com a técnica correta e tenha sido bem dimensionada o tamanho seja ade quado Capítulo 1 Noções sobre Amostragem 11 16 COM QUANTAS UNIDADES SE COMPÕE UMA AMOSTRA Do ponto de vista do estatístico as amostras devem ser grandes para dar maior confiança às conclusões obtidas Para entender as razões desse pon to de vista imagine que em uma cidade existem dois hospitais1 Em um deles nascem em média 120 bebês por dia e no outro nascem 12 A ra zão de meninos para meninas é em média 50 nos dois hospitais Em uma ocasião nasceu em um dos hospitais duas vezes mais meninos do que meninas Em qual dos hospitais é mais provável que isso tenha ocor rido Para o estatístico a resposta é óbvia é mais provável que o fato te nha ocorrido no hospital em que nasce menor número de crianças A pro babilidade de uma estimativa desviarse muito do parâmetro do valor ver dadeiro é maior quando a amostra é pequena A qualidade de uma estimativa depende em muito do número de unidades que compõe a amostra tamanho da amostra No entanto desde que a população seja muito maior do que a amostra a qualidade da es tatística não depende do tamanho da população De qualquer modo as amostras não devem ser muito grandes porque isso seria perda de recur sos Também não devem ser muito pequenas porque o resultado do traba lho seria de pouca utilidade Como se determina o tamanho da amostra Na prática o tamanho da amostra é determinado mais por considerações reais ou imaginárias a res peito do custo de cada unidade amostrada do que por técnicas estatísticas Se seu orçamento for curto não tente enquadrar nele uma pesquisa ambi ciosa Mas o pesquisador precisa sempre levar em conta o que é usual na área Então você tem aqui a regra de ouro para determinar o tamanho da amostra veja o que se faz na sua área consultando a literatura mas veri fique também o que seu orçamento permite fazer De qualquer forma o tamanho da amostra pode ser determinado por critério estatístico2 As fórmulas de cálculo são bem conhecidas Mas a apli cação dessas fórmulas exige conhecimentos acima do nível deste livro Será apresentada aqui apenas uma equação que dará idéia do problema Um exemplo ajuda muito3 Imagine que um antropólogo está estudan do os habitantes de uma ilha isolada e que entre outras coisas quer de terminar a porcentagem de pessoas dessa ilha com sangue tipo O Quantas Baseado em um exemplo de KARNEMEN D e TVESKY A HJudgement under uncertainty heuristics and bias Science 185 27 de setembro de 1974 2Ver por exemplo 1 COCHRAN W Sampling techniques Nova York Wiley 1977 2 LOHR S L Sampling Design and analysis Pacific Grove Brooks1999 3 BOLFARINE H e BUSSAB W O Elementos de amostragem São Paulo Edgard Blucher 2005 0 exemplo é de COCHRAN W opus cited p 7273 1 2 Introdução à Bioestatística pessoas tamanho da amostra devem ser examinadas O tamanho da amostra pode ser determinado por uma equação que no entanto não pode ser re solvida sem resposta para algumas questões A primeira questão é qual é a margem de erro que o antropólogo ad mite em seus resultados Vamos imaginar que ele diz ficar satisfeito com uma margem de erro de 5 isto é se 43 das pessoas da amostra tive rem sangue tipo O a verdadeira porcentagem de pessoas com sangue tipo O na ilha deverá estar entre 38 e 48 ou seja no intervalo 43 5 Neste ponto convém avisar o antropólogo de que como estará traba lhando com uma só amostra existe a chance de ele por azar tomar uma amostra pouco representativa O antropólogo então concorda em admitir a probabilidade de uma amostra errada em cada 20 Isto significa que ele terá probabilidade Hセ Iッ LY ウ de obter a verdadeira porcentagem de sangue tipo O dentro do intervalo calculado Temos então o nível de confiança 95 Mas é preciso saber ainda o valor que o antropólogo espera para a por centagem de pessoas com sangue tipo O na ilha Ele diz que com base no que sabe de outras populações é razoável esperar que essa porcentagem esteja entre 30 e 60 Ótimo Admitiremos por simplicidade que essa porcentagem seja 50 Podemos agora aplicar a fórmula n z 2 plOOp d2 em que z é um valor dado em tabelas e associado ao nível de confiança conforme veremos no Capítulo 11 deste livro Aproximadamente z 2 logo z2 4 A porcentagem de pessoas com sangue tipo O na ilha segundo o antropólogo deve ser em porcentagem p 50 Logo 100 p 50 O valor d é a margem de erro Em porcentagem d5 Logo d2 25 Então o tamanho da amostra deve ser n 4x50x50 400 25 A equação dada aqui está simplificada e só vale se a população da ilha for tão grande que para finalidade de estatísticas possa ser considerada infini ta A equação também só pode ser aplicada se p estiver entre 30 e 70 Capítulo 1 Noções sobre Amostragem 1 3 Mas importante é saber que não basta ter em mãos uma fórmula ou um programa de computador para estimar o tamanho de uma amostra É preciso algum conhecimento prévio estimativas preliminares de um ou mais parâme tros obtidas de amostras piloto ou da literatura e uma boa dose de bom senso 17 A QUESTÃO DA REPRESENTATIVIDADE A amostra só traz informação sobre a população da qual foi retirada Não tem sentido por exemplo estudar os hábitos de higiene de índios bolivia nos e considerar que as informações servem para descrever os hábitos de higiene de moradores da periferia da cidade de São Paulo Ainda a amos tra deve ter o tamanho usual da área em que a pesquisa se enquadra Amos tras demasiado pequenas não dão informação útil Desconfie também de amostras muito grandes Será que o pesquisador observou cada unidade amostrada com o devido cuidado As amostras podem ser representativas ou nãorepresentativas E não se pode julgar a qualidade da amostra pelos resultados obtidos Se você jogar uma moeda 10 vezes podem ocorrer 10 caras Provável Não Possível Sim Conclusões e decisões tomadas com base em amostras só têm sentido na medida em que as amostras representam a população Para bem interpretar os dados é tiràr éondusões adequadas não basta olhar os números é pre ciso entender como a amostra foi tomada e se não incidiram no processo de amostragem alguns fatores que poderiam trazer tendência aos dados Como você sabe se uma amostra é tendenciosa Não há fórmulas de ma temática ou estatística para dizer se a amostra é tendenciosa ou represen tativa da população Você terá de ter bom senso e conhecimento na área São portanto necessários muitos cuidados porque os erros de amostragem podem ser sérios Tendência é a diferença entre a estimativa que se obteve na amostra e o parâmetro que se quer estinnar Exemplo 17 Uma amostra tendenciosa Em 1988 Shere Hite4 levantou por meio de questionários inseridos em revistas femininas americanas dados sobre a sexualidade feminina Estimase que cerca de 100000 mulheres foram colocadas em contato com o questionário mas só 4500 responderam Mesmo assim a amostra é grande Você acha que essa amostra pode dar boa idéia do comportamento sexual das mulheres americanas daquela época O exemplo é de SILVER M Estatística para Administração São Paulo Atlas 2000 14 Introdução à Bioestatística Solução O comportamento dos voluntários é diferente do comportamento dos nãovo luntários Então embora seja difícil ou até impossível estudar o comportamento de pessoas que não respondem a um questionário não se pode concluir que a amostra de respondentes representa toda a população incluindo aqueles que não respondem Conclusões baseadas em amostras de pessoas que voluntariamen te destacam o encarte de uma revista respondem ao questionário e o remetem pelo correio são tendenciosas Não se pode fugir à conclusão de que o questio nário foi respondido apenas por leitoras da revista e entre elas mulheres dispos tas a falar sobre sua vida pessoal Finalmente algumas pessoas dizem não acreditar em resultados obtidos de pesquisas porque elas próprias nunca foram chamadas para opinar Se você é dos que não acreditam em pesquisas porque nunca foi entrevistado então por coerência não tome um analgésico não dirija um carro não beba cerveja Afinal a qualidade desses produtos também é avaliada por amostragem das quais possivelmente você também não participou E ver dade que ocorrem erros é verdade que existem fraudes e é verdade que o improvável também acontece mas daí a achar que não existem acertos vai uma enorme distância O Brasil tem excelentes institutos de pesquisa 18 EXERCÍCIOS RESOLVIDOS 181 Os prontuários dos pacientes de um hospital estão organizados em um arquivo por ordem alfabética Qual é a maneira mais rápida de amostrar 13 do total de prontuários Selecionase para a amostra um de cada três prontuários ordenados por exemplo o terceiro de cada três 182 Um pesquisador tem 10 gaiolas cada uma com seis ratos Como o pes quisador pode selecionar 1 O ratos para uma amostra O pesquisador pode usar a técnica de amostragem aleatória estratificada isto é sortear um rato de cada gaiola para compor a amostra 183 Para levantar dados sobre o número de filhos por mulher em uma co munidade um pesquisador organizou um questionário que enviou pelo correio a todas as residências A resposta ao questionário era facultati va pois o pesquisador não tinha condições de exigir a resposta Nesse questionário perguntavase o número de filhos por mulher moradora na re sidência Você acha que os dados assim obtidos seriam tendenciosos Capítulo 1 Noções sobre Amostragem 1 5 Os dados devem ser tendenciosos porque é razoável esperar que a mu lheres com muitos filhos responderiam pensando na possibilidade de algum tipo de ajuda como instalação de uma creche no bairro b mulheres que recentemente tiveram o primeiro filho também responderiam c muitas das mulheres que não têm filhos não responderiam d mulheres com filhos adultos e emancipados não responderiam 184 Um pesquisador pretende levantar dados sobre o número de moradores por domicrio usando a técnica de amostragem sistemática Para isso o pesquisador visitará cada domiaio selecionado Se nenhuma pessoa es tiver presente na ocasião da visita o pesquisador excluirá o domicílio da amostra Esta última determinação torna a amostra tendenciosa Por quê Nos domicílios onde moram muitas pessoas será mais fácil o pesquisador encontrar pelo menos uma pessoa por ocasião de sua visita Então é razo ável admitir que os domicílios com poucos moradores tenham maior pro babilidade de serem excluídos da amostra 185 Muitas pessoas acreditam que as famílias se tornaram menores Suponha que para estudar essa questão um pesquisador selecionou uma amostra de 2000 casais e perguntou quantos ft1hos eles tinham quantos filhos ti nham seus pais e quantos filhos tinham seus avós O procedimento produz dados tendenciosos Por quê Os casais de gerações anteriores que não tiveram filhos não têm possibili dade de ser selecionados para a amostra Por outro lado os casais de ge rações anteriores que tiveram muitos filhos terão grande probabilidade de ser amostrados 186 Para estudar atitudes religiosas um sociólogo sorteia 10 membros de uma grande igreja para compor uma amostra casual simples Nota então que a amostra ficou composta por nove mulheres e um homem O sociólogo se espanta Gセ amostra não é aleatória Quase só tem mulher O que você diria Se a amostra é ou não aleatória depende de como foi selecionada e não de sua composição As probabilidades envolvidas no processo de constituir uma amostra aleatória podem determinar amostras atípicas 187 Para avaliar a expectativa de pais de adolescentes em relação às possi bilidades de estudo de seus filhos foram distribuídos 5000 questionários pelos estados do sul do Brasil Retornaram 1032 Cerca de 60 dos respondentes diziam que a maior preocupação deles era com o preço que 1 5 Introdução à Bioestatística se paga para um juvem cursar a universidade Você considera esse resul tado uma boa estimativa para o número de pais preocupados com essa questão Não é uma boa estimativa porque os respondentes foram relativamente pou cos cerca de 20 Ainda tendem a responder pais que querem seus filhos na universidade e estão preocupados com os custos 188 Um dentista quer levantar o tipo de documentação que seus colegas ar quivam quando fazem um tratamento ortodôntico A documentação de pende do caso mas também envolve questões legais e de bom senso do ortodontista Para essa pesquisa o dentista elabora um questionário que envia por correio a todos os profissionais inscritos no conselho de odon tologia O dentista pruvavelmente não receberá respostas de todos Você saberia dizer algumas das razões de isso acontecer Razões possíveis 1 Nem todos os endereços que constam dos arquivos de um conselho estão atualizados 2 Nem todas as pessoas que recebem ques tionários por correio o respondem seja porque não têm tempo têm pre guiça ou inércia imaginam razões espúrias para terem sido contatadas etc 3 Não dão respostas por correio pessoas que têm alguma dificuldade de che gar ao correio seja porque moram longe porque não gostam de andar ou não têm condução própria porque não têm hábito de enviar correspon dência porque a secretária não leva correspondência ao correio etc 4 Dos que não têm nenhum dos motivos citados ainda deixaria de responder o pro fissional que não tem boa documentação de casos ou não a tem em ordem 5 Provavelmente também não respondem profissionais que estejam enfren tando problema de ordem financeira legal de admissão em cursos etc 189 Para estudar o uso de serviços de saúde por mulheres em idade repro dutiva moradoras de uma grande capital um pesquisador buscou na Fun dação Instituto Brasileiro de Geografia e Estatistica IBGE as subdivisões da ddade utilizadas em censos conhecidas como setores censitários Como você procederia para tomar uma amostra de mulheres moradoras nesses setores e em idade reprodutiva Cada setor pode ser considerado como um conglomerado Podem ser sor teados quatro setores Depois em cada setor escolhese um ponto ao aca so e a partir daí tirase uma amostra sistemática A unidade amostral é um domicílio com mulheres em idade reprodutiva de 10 a 49 anos Devem ser excluídas do estudo mulheres que não queiram participar Capítulo 1 Noções sobre Amostragem 1 1 19 EXERCÍCIOS PROPOSTOS 191 Dada uma população de quatro pessoas Antônio Luís Pedro e Carlos escreva as amostras casuais simples de tamanho 2 que podem ser obtidas 192 Descreva três formas diferentes de obter uma amostra sistemática de quatro elementos de uma população de oito elementos A B C D E F GeH 193 Dada uma população de 40 alunos descreva uma forma de obter uma amostra casual simples de seis alunos 194 Organize uma lista com 10 nomes de pessoas em ordem alfabética Depois descreva uma forma de obter uma amostra sistemática de cinco nomes 195 Em uma pesquisa de mercado para serviços odontológicos tomouse a lista telefônica onde os nomes dos assinantes estão organizados em ordem al fabética do último sobrenome e se amostrou o décimo de cada 10 assi nantes Critique esse procedimento 196 Um fiscal precisa verificar se as farmácias da cidade estão cumprindo um novo regulamento A cidade tem 40 farmácias mas como a fiscalização demanda muito tempo o fiscal resolveu optar por visitar uma amostra de 1 O farmácias O cumprimento do regulamento que é evidentemente des conhecido do fiscal está apresentado na tabela a seguir Com base na ta bela a seguir a escolha uma amostra para o fiscal b estime com base na amostra a proporção de farmácias que estão cum prindo o regulamento c com base nos dados da população estime o parâmetro d você obteve uma boa estimativa 11 Introdução à Bioestatística Dados sobre cumprimento do regulamento Cumprimento do regulamento 1 Sim 11 Não 21 Sim 31 Sim 2 Sim 12 Sim 22 Sim 32 Sim 3 Não 13 Não 23Não 33Não 4 Sim 14Não 24 Sim 34 Sim 5 Sim 15 Sim 25 Não 35 Sim 6 Não 16 Não 26 Não 36 Não 7 Sim 17 Sim 27 Não 37 Não 8 Não 18Não 28 Sim 38 Não 9 Não 19 Não 29Não 39 Sim 10 Sim 20 Sim 30 Não 40 Sim 197 A maneira de fazer a pergunta pode influenciar a resposta da pessoa que responde Basicamente existem dois tipos de questões a questão fecha da e a questão イエ Gセ Na questão fechada o pesquisador fornece uma série de respostas possiveis e a pessoa que responde deve apenas as sinalar a alternativa ou as alternativas que lhe convém A questão aber ta deve ser respondida livremente Imagine que um dentista quer levantar dados sobre hábitos de higiene oral das pessoas de uma comunidade Es creva então uma questão fechada e uma questão イエG セ 198 Uma classe tem quatro alunos Eles foram submetidos a uma prova e suas notas foram João 10 José 6 Paulo 4 Pedro O Calcule a média da clas se parâmetro Depois construa todas as amostras de tamanho 2 e cal cule a média de cada uma estatísticas Verifique que a média das esta tísticas é igual ao parâmetro 199 Um fabricante de produtos alimentícios pede a você para escolher uma cidade do seu Estado para fazer o teste de um novo produto Como você escolheria a cidade por sorteio ou usaria o seu julgamento do que con sidera uma cidade típica do Estado Capítulo 1 Noções sobre Amostragem 1 9 1910 Pretendese obter uma amostra dos alunos de uma universidade para estimar o percentual que tem trabalho remunerado a Qual é a popula ção em estudo b Qual é o parâmetro que se quer estimar c Você acha que se obteria uma boa amostra dos alunos no restaurante universitário d No ponto de ônibus mais próximo 1911 Um editor de livros técnicos quer saber se os leitores preferem capas de cores claras com desenhos ou capas simples de cores mais escuras Se o editor pedir a você para estudar a questão como você definiria a popu lação do estudo 1912 Um dentista quer estudar a porcentagem de policiais militares com distúrbios na articulação têmporamandibular Calcule ao tamanho da amostra considerando que o dentista quer um nível de confiança de 95 z 2 uma margem de erro de 8 d 8 e que na população a por centagem de pessoas com esse tipo de distúrbio é 35 página deixada intencionalmente em branco Apresentação de Dados em Tabelas 2 página deixada intencionalmente em branco Capítulo 2 Apresentação de Dados em Tabelas 2 3 Você já aprendeu que os estatísticos coletam informações Essas informa ções podem ser sobre peso de pessoas eficiência de medicamentos incidên cia de doenças causas de morte quantidade de hemoglobina no sangue estresse ansiedade etc Neste Capítulo vamos aprender como essas informa ções são organizadas para facilitar a leitura Mas antes vamos aprender o que são dados e o que são variáveis 21 DADOS E VARIÁVEIS Variável é uma condição ou característica das unidades da população ava riável pode assumir valores diferentes em diferentes unidades Por exem plo a idade das pessoas residentes no Brasil é uma variável Dados são os valores da variável em estudo obtidos por meio de uma amostra Exemplo 21 Dados e variáveis O dono de uma academia de ginástica quer saber a opinião de seus clientes so bre a qualidade dos serviços que presta O que é variável e o que são dados nes se problema Solução A variável de interesse é a opinião dos clientes Os dados serão obtidos somente quando o dono da academia começar a pedir aos clientes que dêem uma nota a cada serviço Então se for pedido que o cliente dê uma nota de zero e 5 a cada serviço que utiliza os dados coletados poderão ser por exemplo 4 3 2 4 1 etc por serviço As variáveis são classificadas em dois tipos quantitativas ou numéricas qualitativas ou categorizadas Uma variável é qualitativa ou categorizada quando os dados são distri buídos em categorias mutuamente exclusivas São exemplos de variáveis qualitativas time de futebol do qual a pessoa é torcedora se a pessoa torce por um time não torce pelo outro sexo é masculino ou é feminino ci dade de nascimento se a pessoa nasceu em Niterói automaticamente fica excluída a possibilidade de ter nascido em outra cidade Uma variável é quantitativa ou numérica quando é expressa por núme ros São exemplos de variáveis quantitativas idade estatura número de crianças numa escola número de lápis numa caixa As variáveis qualitativas ou categorizadas são classificadas em dois tipos Nominal Ordinal Z 4 Introdução à Bioestatística A variável é nominal quando os dados são distribuídos em categorias mutuamente exclusivas mas são indicadas em qualquer ordem São variá veis nominais cor de cabelos loiro castanho preto ruivo tipo de san gue O A B AB gênero masculino feminino religião espírita católi co evangélico outras etc A variável é ordinal quando os dados são distribuídos em categorias mutuamente exclusivas que têm ordenação natural São variáveis ordinais escolaridade primeiro grau segundo grau terceiro grau classe social A B C D E gravidade de uma doença leve moderada severa etc As variáveis quantitativas ou numéricas são classificadas em dois tipos Discreta Contínua A variável discreta só pode assumir alguns valores em um dado inter valo São variáveis discretas número de filhos nenhum 1 2 3 4 etc quantidade de moedas num bolso zero 1 2 3 etc número de pessoas numa sala A variável contínua assume qualquer valor num dado intervalo São va riáveis contínuas peso tempo de espera quantidade de chuva etc Os dados são do mesmo tipo que o das variáveis Por exemplo uma va riável discreta produz dados discretos Veja o organograma Variáveis 1 Categorizadas Numéricas Qualitativas Quantitativas 1 1 1 Nominais Ordinais Discretas 1 Contfnuas 22 APURAÇÃO DE DADOS Dados são registrados em fichas em cadernos em computador Para obter apenas os dados de interesse para sua pesquísa você deve fazer uma apu ração Se a variável for qualitativa a apuração se resume a simples conta gem Veja como isto pode ser feito Capítulo 2 Apresentação de Dados em Tabelas 2 5 Para estudar a razão de sexos1 dos recémnascidos em uma maternidade e seus pesos ao nascer um pesquisador obteve uma amostra sistemática de 1000 prontuários de recémnascidos e escreveu numa folha de papel Masculino Feminino Depois examinou todos os prontuários e fez então um traço na linha que indicava cada sexo toda vez que o prontuário registrava que o re cémnascido era desse sexo Cada quadrado cortado pela diagonal repre senta cinco recémnascidos O total é dado pelo número de traços em cada linha Masculino Feminino 0 IZI IZI O 509 0 IZI D 1 491 Quando a variável é quantitativa é preciso anotar na apuração cada valor observado Para apurar dados de peso ao nascer2 o pesquisador deve anotar o número do prontuário e o peso ao nascer numa folha de papel O número do prontuário escrito ao lado do peso ao nascer facilita a pos terior verificação da apuração Nº do prontuário 10525 10526 10624 Peso ao nascer 3250 2010 2208 Razão de sexos número de homens por 100 mulheres 2 A apuração de peso ao nascer pode ser feita por sexo se o interesse é comparar pesos ao nascer de meninos e meninas Z 5 Introdução à Bioestatística 23 COMPONENTES DAS TABELAS Os dados devem ser apresentados em tabelas construídas de acordo com as normas técnicas ditadas pela Fundação Instituto Brasileiro de Geografia e Estatística IBGE 19933 As tabelas devem ser colocadas perto do ponto do texto em que são mencionadas pela primeira vez Devem ser inseridas na ordem em que aparecem no texto Veja a Tabela 21 que obedece às normas técnicas De acordo com essas normas uma tabela deve ter título corpo cabeçalho e coluna indicadora O título explica o que a tabela contém O corpo é formado pelos dados em linhas e colunas O cabeçalho especifica o conteúdo das colunas A coluna indicadora especifica o conteúdo das linhas Exemplo 22 Componentes de uma tabela TABELA21 População residente no Brasil segundo o sexo de acordo com o censo demográfico de 2000 Sexo Masculino Feminino Total Fonte IBGE 2003P Na Tabela 21 observe o título População residente 83576015 86223155 169799170 População residente no Brasil segundo o sexo de acordo com o censo demográfico de 2000 O cabeçalho é constituído por Sexo População residente As normas do IBGE são excelentes Veja em httpwww1ibgegovbrhomeestatistica populacaocenso2000tabelabrasil111shtm Disponível em 20 de abril de 2008 Veja também VIEIRA S Elementos de Estatística São Paulo Atlas 5 ed 2003 Capítulo 2 Apresentação de Dados em Tabelas 27 A coluna indicadora é constituída pelas especificações Sexo Masculino Feminino Total O corpo da tabela é formado pelos números População residente 83576015 86223155 169799170 Toda tabela deve ser delimitada por traços horizontais mas não deve ser delimitada por traços verticais Os traços verticais podem ser feitos somente para separar as colunas O cabeçalho deve ser separado do corpo da tabe la por um traço horizontal As tabelas podem conter fonte e notas Fonte é a entidade ou pesqui sador ou pesquisadores que publicaram ou forneceram os dados Veja a Ta bela 21 a fonte é a Fundação Instituto Brasileiro de Geografia e Estatísti ca IBGE que publicou os dados As notas esclarecem aspectos relevantes do levantamento dos dados ou da apuração Veja a nota apresentada na Tabela 22 a qual informa que na apuração foram suprimidos os casos com idade ou local de residên cia ignorados Z 1 Introdução à Bioestatística Exemplo 23 Uma tabela com nota de rodapé TABELA22 Número de internações hospitalares de mulheres pelo Sistema Único de Saúde SUS Brasil 2005 Grupo de doenças Número Gravidez parto e puerpério 2640438 Doenças do aparelho respiratório 736012 Doenças do aparelho circulatório 612415 Doenças do aparelho geniturinário 507295 Doenças infecciosas e parasitárias 480165 Doenças do aparelho digestivo 452894 Transtornos mentais e comportamentais 105354 Neoplasias 355570 Causas externas 233787 Demais causas 801123 Total 6925053 Fonte Ministério da SaúdeSEOatasus Sistema de Informações Hospitalares do SUS SIHSUS Nota Suprimidos os casos com idade ou local de residência ignorados 24 APRESENTAÇÃO DE DADOS QUALITATIVOS Quando observamos dados qualitativos classificamos cada unidade da amos tra em uma dada categoria Nosso conhecimento sobre os dados aumenta se contarmos quantas unidades caem em cada categoria A idéia seguinte é resumir as informações na forma de uma tabela que mostre as contagens freqüências em cada categoria Temos então uma tabela de distribuição de freqüências Exemplo 24 Uma tabela de distribuição de freqüências para dados ordinais Foram entrevistados 2500 brasileiros com 16 anos ou mais para saber a opinião deles sobre determinado técnico de fu1tebol Veja o que eles responderam 1300 achavam que o técnico era bom 450 achavam regular e 125 achavam ruim 625 não tinham opinião ou não quiseram opinar Como se organizam estes dados em uma tabela de distribuição de freqüências Capítulo 2 Apresentação de Dados em Tabelas 2 9 Solução Na Tabela 23 estão as respostas dadas pelos entrevistados primeira coluna e as freqüências dessas respostas segunda coluna A soma das freqüências é 2500 número de entrevistados TABELA 23 Opinião dos brasileiros sobre determinado técnico de futebol Respostas Freqüência Bom 1300 Regular 450 Ruim 125 Não sabe 625 Total 2500 Nas tabelas de distribuição de freqüências é usual fornecer a proporção freqüência relativa de unidades que caem em cada categoria Para obter a freqüência relativa de uma dada categoria calcule F セ 1 Freqüência reqüencrn re ativa Tamanho da amostra Exemplo 25 Uma tabela de distribuição de freqüências e freqüências relativas Calcule as freqüências relativas dos dados apresentados na Tabela 23 Solução Na Tabela 24 estão as respostas dadas pelos entrevistados primeira coluna as freqüências dessas respostas segunda coluna e as freqüências relativas tercei ra coluna Note que as freqüências rellativas somam 100 TABELA 24 Opinião dos brasileiros sobre determinado técnico de futebol Respostas Freqüência Freqüência relativa Bom 1300 1300 o 52 2500 Regular 450 450 018 2500 Ruim 125 125 005 2500 Não sabe 625 625 025 2500 Total 2500 100 31 Introdução à Bioestatística As freqüências relativas são em geral dadas em porcentagens Para transformar uma freqüência relativa em porcentagem basta multiplicar por 100 No exemplo dado na Tabela 24 afreqüência relativa de respostas bom é 052 Multiplicando esse resultado por 100 temos a porcentagem que é 52 Este resultado 52 de bom é bem entendido pelas pessoas As freqüências relativas dadas em porcentagens fornecem a informação mais relevante Mas sempre convém exibir o total tamanho da amostra que é indicador da credibilidade da informação dada4 25 TABELAS DE CONTINGÊNCIA Muitas vezes os elementos da amostra ou da população são classificados de acordo com duas variáveis qualitativas Os dados devem então ser apresen tados em tabelas de contingência isto é em tabelas de dupla entrada cada entrada relativa a uma das variáveis Exemplo 26 Uma tabela de contingência Foram feitos diagnósticos de depressão em 500 estudantes com idades entre 1 O e 17 anos metade de cada sexo Foram identificados 98 casos de depressão sendo 62 no sexo feminino Apresente os dados em uma tabela Solução Note que os dados estão classificados segundo duas variáveis sexo e presença de depressão TABELA 25 Sexo e presença de depressão Depressão Sexo Sim Não Total Masculino ll 214 250 Feminino 62 188 250 Total 00 402 ilO As tabelas de contingência podem apresentar freqüências relativas em porcentagens além das freqüências O tamanho da amostra é sempre im Não tem sentido fornecer resultados em porcentagens quando a amostra é muito pequena Por exemplo não tem sentido fornecer porcentagens se a amostra fosse constituída de cinco ou seis pessoas Capítulo 2 Apresentação de Dados em Tabelas 31 portante porque não se pode confiar em resultados obtidos com base em amostras muito pequenas e calcular porcentagens sobre alguns poucos casos Exemplo 27 Uma tabela de contingência com freqüências relativas Para verificar se o risco de óbito neornatal é maior quando a gestante é diabéti ca foram obtidos os dados apresentadlos na Tabela 26 Discuta TABELA26 Óbito neonatal e diabetes mellitus Óbito neonatal Percentual Gestante Sim Não Total de óbitos Diabética 3 21 24 125 Nãodiabética 21 830 851 25 Total 24 851 875 O risco de óbito neonatal dado pelo percentual de óbitos é maior quando ages tante é diabética 26 APRESENTAÇÃO DE DADOS NUMÉRICOS Os dados numéricos são apresentados na ordem em que são coletados Ge ralmente são obtidos dados relativos a diversas variáveis em cada pacien te Os pacientes são identificados nas pesquisas por números Exemplo 28 Uma tabela com dados numéricos Para estudar o desempenho cardíaco de pacientes submetidos à diálise renal fo ram obtidos valores de diversas variáveis de interesse da Cardiologia Na Tabela 27 são apresentadas apenas algumas informações para mostrar como se apre sentam dados numéricos 3 2 Introdução à Bioestatística TABElA 27 Idade em anos completos tempo de diálise em meses ahura em metros peso em quilogramas pressão sistólica e diastólica em milímetros de mercúrio de mulheres submetidas à diálise renal Número da Tempo de Pressão Pressão paciente Idade diálise Altura Peso sistólica diastólica 1 45 14 160 620 140 85 2 62 54 165 525 100 70 3 38 52 155 678 140 100 4 26 34 159 482 165 105 5 35 18 158 460 170 105 6 44 71 148 404 150 100 7 53 39 169 677 155 95 8 44 79 159 555 160 105 9 58 23 162 630 175 110 10 55 64 151 503 155 105 11 24 16 179 770 160 95 12 70 46 151 440 150 95 13 56 48 158 640 175 110 Dados numéricos também podem ser apresentados em tabelas de distri buição de freqüências Se os dados são discretos para organizar a tabela de distribuição de freqüências escreva os dados em ordem crescente conte quantas vezes cada valor se repete organize a tabela como já foi feito para dados qualitativos colocando no lugar das categorias os valores numéricos em ordem natural Veja o Exemplo 29 Capítulo 2 Apresentação de Dados em Tabelas 3 3 Exemplo 29 Uma tabela de distribuição de freqüências para dados dis cretos As faltas ao trabalho de 30 empregados de uma clínica em determinado semestre estão na Tabela 28 A partir dela faça uma tabela de distribuição de freqüências TABELA 28 Número de faltas dadas por 30 empregados de uma clínica no semestre 1 2 o 3 2 1 TABELA29 1 o 6 1 o 4 o o 3 1 1 3 Solução o 2 1 1 2 1 2 4 o o o Distribuição do número de faltas de 30 empregados de uma clínica no semestre Número de faltas o 1 2 3 4 5 6 Total Freqüência 9 10 5 3 2 o 30 Percentual 300 333 167 100 67 oo 33 1000 Tabelas com grande número de dados não oferecem ao leitor visão rá pida e global do fenômeno Observe os dados apresentados na Tabela 210 é difícil dizer como os valores se distribuem Por esta razão dados contí nuos desde que em grande número são apresentados em tabelas de distribuição de freqüências 34 Introdução à Bioestatística Exemplo 210 Uma tabela com dados contínuos TABELA 210 Peso ao nascer de nascidos vivos em quilogramas 2522 3200 1900 4100 4600 3400 2720 3720 3600 2400 1720 3400 3125 2800 3200 2700 2750 1570 2250 2900 3300 2450 4200 3800 3220 2950 2900 3400 2100 2700 3000 2480 2500 2400 4450 2900 3725 3800 3600 3120 2900 3700 2890 2500 2500 3400 2920 2120 3110 3550 2300 3200 2720 3150 3520 3000 2950 2700 2900 2400 3100 4100 3000 3150 2000 3450 3200 3200 3750 2800 2720 3120 2780 3450 3150 2700 2480 2120 3155 3100 3200 3300 3900 2450 2150 3150 2500 3200 2500 2700 3300 2800 2900 3200 2480 3250 2900 3200 2800 2450 Para construir uma tabela de distribuição de freqüências com dados con tínuos Ache o valor máximo e o valor mínimo do conjunto de dados Calcule a amplitude que é a diferença entre o valor máximo e o va lor mínimo Divida a amplitude dos dados pelo número de faixas que pretende or ganizar no caso do Exemplo 210 as faixas são de peso Essas fai xas recebem tecnicamente o nome de classes O resultado da divisão é o intervalo de classe É sempre melhor arredon dar esse número para um valor mais alto o que facilita o trabalho Organize as classes de maneira que a primeira contenha o menor valor observado Capítulo 2 Apresentação de Dados em Tabelas 3 5 Observe os dados apresentados na Tabela 210 O menor valor é 1570 kg e o maior valor 4600 kg A amplitude dos dados é 4600 1570 3030 Vamos definir sete classes Então calcule 3030 7 0433 Arredonde esse valor para 0500 e construa a primeira classe que será de 15 kg a 20 kg esta classe contém o menor valor depois construa a segunda classe que será de 20 kg a 25 kg e assim por diante como mos tra o esquema dado a seguir 15 r 20 20 r 25 25 r 3o 3o r 35 35 r 4o 4o r 45 45 r 5o Na classe de 15 kg até menos de 20 kg são colocados desde nascidos com 15 kg até os que nasceram com 1999 kg na classe de 20 kg até menos de 25 kg são colocados desde nascidos com 20 kg até os que nas ceram com 2499 kg e assim por diante Logo cada classe cobre um inter valo de 05 kg É mais fácil trabalhar com intervalos de classe iguais Denominamse extremos de classe os limites dos intervalos de classe Deve ficar claro na tabela de distribuição de freqüências se os valores iguais aos extremos estão ou não incluídos na classe Veja a notação usada no exem plo A primeira classe é 15 r 20 Isto significa que o intervalo é fechado à esquerda isto é pertencem à classe os valores iguais ao extremo inferior da classe por exemplo 15 na primeira classe Também significa que o intervalo é aberto à direita isto é não pertencem à classe os valores iguais ao extremo superior por exem plo o valor 20 não pertence à primeira classe 3 5 Introdução à Bioestatística Exemplo 211 Uma tabela de distribuição de freqüências para dados contínuos Para dar idéia geral sobre peso ao nascer de nascidos vivos o pesquisador quer apresentar não os pesos observados mas o número de nascidos vivos por fai xas de peso A Tabela 211 apresenta a distribuição de freqüências TABELA 211 Distribuição de freqüências para peso ao nascer de nascidos vivos em quilogramas Classe Freqüência 15 f 20 3 20 f 25 16 25 f 30 31 30 f 35 34 35 f 40 11 40 f 45 4 45 f 50 1 É importante lembrar aqui que existem outras maneiras de indicar se os extremos de classe estão ou não incluídos em determinada classe Aliás a Fundação Instituto Brasileiro de Geografia e Estatística IBGE usa nota ção diferente Para dados de idade por exemplo escreve De O até 4 anos De 5 até 9 anos De 10 até 14 anos e assim por diante A classe De O até 4 anos inclui desde indivíduos que acabaram de nascer até indivíduos que estão na véspera de completar 5 anos O número de classes deve ser escolhido pelo pesquisador em função do que ele quer mostrar Em geral convém estabelecer de 5 a 20 classes Se o número de classes for demasiado pequeno por exemplo 3 perdese muita informação Se o número de classes for grande por exemplo 30 têmse pormenores desnecessários Não existe um número ideal de classes para um conjunto de dados embora existam até fórmulas para estabelecer quantas classes devem ser construídas Capítulo 2 Apresentação de Dados em Tabelas 3 7 Os resultados obtidos por meio de fórmulas podem servir como referência mas não devem ser entendidos como obrigatórios Para usar uma des sas fórmulas faça n indicar o número de dados O número de classes será um inteiro próximo de k obtido pela fórmula k fn ou então por esta segunda fórmula k 1 3222 xlogn Exemplo 212 Cálculo do número de classes Para entender como se obtém o número de classes por meio de fórmula reveja a Tabela 211 Como n 100 aplicando a primeira fórmula dada temse que k ln vlCXl 10 Aplicando a segunda fórmula obtémse k l 3222 X log n l 3222 X Jog l 00 7 444 Para obter o número de classes apresentadas no Exemplo 211 foi aplicada a segunda fórmula e por isto foram construídas sete classes Numa distribuição de freqüências o extremo inferior da primeira clas se o extremo superior da última classe ou ambos podem não estar defini dos Ainda os intervalos de classe podem ser diferentes Exemplo 213 Uma tabela de distribuição de freqüências para dados contínuos com classes de tamanhos diferentes e extremo superior não definido Para dar uma idéia geral sobre pressão sangüínea sistólica de mulheres com 30 anos de idade o pesquisador apresentou não os valores observados mas o nú mero de mulheres por faixas de pressão Veja a Tabela 212 que também é um exemplo em que o extremo superior da última classe não está definido 31 Introdução à Bioestatística TABELA 212 Distribuição de freqüências para a pressão sangüínea sistólíca em milímetros de mercúrio de mulheres com 30 anos de idade Classe Freqüência 90 f100 6 100 f 105 11 105 f 110 12 110 f 115 17 115 f 120 18 120 f 125 11 125 f 130 9 130 f 135 6 135 f 140 4 140 f 150 4 150 f 160 1 160 e mais 1 As tabelas de distribuição de freqüências mostram a distribuição da va riável mas perdem em exatidão Por exemplo a Tabela 212 mostra que seis mulheres apresentaram pressão sangüínea sistólica entre 90 e 100 mas não dá informação exata sobre a pressão de cada uma delas 2 7 EXERCÍCIOS RESOLVIDOS 271 Converta as seguintes proporções em porcentagens 009 0955 033 0017 Basta multiplicar por 100 para obter 9 955 33 17 272 Converta as seguintes porcentagens em proporções 355 531 50 4657 Basta dividir por 100 para obter 0355 0531 050 04657 Capítulo 2 Apresentação de Dados em Tabelas 3 9 273 Para estudar a distribuição dos erros cometidos por alunos nas tomadas radiográficas foi feito um levantamento de dados na seção de Radiolo gia de uma faculdade de odontologia Calcule as freqüências relativas e os totais TABELA 213 Erros em tomadas radiográficas Erros Posição do paciente Fatores de exposição Processamento Produção de artefatos Posição do chassi Outros fatores TABELA 214 Erros em tomadas radiográficas Freqüência 598 288 192 101 83 53 Erros freqüência Posição do paciente 598 Fatores de exposição 288 Processamento 192 Produção de artefatos 101 Posição do chassi 83 Outros fatores 53 Total 1315 freqüência relativa 455 219 146 77 63 40 1000 274 De acordo com o Sistema Nacional de Infonnações TóxicoFannacológicas Sinitox em 2005 foram registrados 23647 casos de intoxicação huma na no Brasil por animais peçonhentos Desse total 8208 foram atribuídos a escorpiões 4944 a serpentes 4661 a aranhas e 5834 a outros animais peçonhentos Apresente esses dados em uma tabela 41 Introdução à Bioestatística TABELA 215 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal Total Porcentagem Escorpião 8208 3471 Serpente 4944 2091 Aranha 4661 1971 Outros animais 5834 2467 Total 23647 10000 Fonte Sinitox 20055 275 Construa uma tabela de distribuição de freqüências para apresentar os dados da Tabela 216 TABELA 216 Pressão arterial em milímetros de mercúrio de cães adultos anestesiados 130 105 120 111 99 116 107 125 100 107 120 143 135 130 135 127 00 104 100 145 125 104 101 102 134 158 110 102 00 107 121 135 102 119 115 125 107 140 121 107 113 93 Para determinar o número de classes pode ser usada a fórmula k 13222 xlogn onde n é igual a 49 Então k 13222xlog4964 82 115 136 101 124 117 103 De acordo com a fórmula podlem ser constituídas seis ou sete classes Como o menor valor observado é 82 e o maior valor é 158 é razoável cons truir classes com intervalos iguais a 10 a partir de 80 O número de clas ses será então oito um pouco maior do que o estabelecido pela fórmula 5httpwwwsauderjgovbranimaispeconhentosestatisticashtml Disponível em 30 de maio de 2008 Capítulo 2 Apresentação de Dados em Tabelas 41 TABELA 217 Distribuição da pressão arterial em milímetros de mercúrio de cães adultos anestesiados 1 Classe Número 80 f90 1 901 100 4 100 f1 10 16 110 1120 8 120 f130 9 130 f140 7 140 f1 50 3 150 f 160 1 276 Imagine6 que você quer comparar as distribuições de freqüências da mesma variável para homens e mulheres separadamente No entanto o núme ro de mulheres é consideravelmente maior do que o número de homens Você compararia as freqüências ou as freqüências relativas Por quê Dê um exemplo Você deve cómpatat as freqüências relativas As freqüências não são com paráveis uma vez que as amostras são de tamanhos diferentes Imagine que são 200 mulheres e 50 homens e que para uma dada classe a freqüência seja de quatro em ambas as distribuições Isto significa 2 das mulheres 4200 002 e 8 dos homens 450 008 uma diferença muito grande 28 EXERCÍCIOS PROPOSTOS 281 Especifique o tipo das seguintes variáveis a peso de pessoas b marcas comerciais de um mesmo analgésico mesmo principio ativo e tempe ratura de pessoas d quantidade anual de chuva na cidade de São Paulo e religião f número de dentes permanentes irrompidos em uma crian ça g número de bebês nascidos por dia em uma maternidade h com primento de cães 282 Faça uma tabela para mostrar que das 852 pessoas entrevistadas sobre determinado assunto 59 não tinham opinião ou não conheciam o assun to 425 eram favoráveis e as demais eram contrárias 6MINIUM E W CLARKE R C COLADARCI T Elements of Statistical Reasoning New York Wíley 2ed 1999 p33 4 2 Introdução à Bioestatística 283 Complete a Tabela 218 TABELA 218 Distribuição das notas de 200 alunos Nota do aluno Freqüência Freqüência relativa De 9a 10 008 De 8 a 89 36 De 65 a 79 00 De 5 a 64 3l Abaixo de 5 28 Total 200 10 284 Uma doença pode ser classificada em três estágios leve moderado e severo Foram examinados 20 pacientes e obtidos os dados moderado leve leve severo leve moderado moderado moderado leve leve se vero leve moderado moderado leve severo moderado moderado mo derado leve Com base nestes dados a determine a freqüência de cada categoria b calcule a freqüência relativa de cada categoria 285 Qual é o erro na distribuição de freqüências dada em seguida Classe 2030 3040 4050 6070 70 e mais 286 São dados os tipos de sangue de 40 doadores que se apresentaram no mês em um banco de sangue B A O A A A B O B A A AB O O A O O A A B A A A O O O A O A O O A O AB O O A AB B B Coloque os dados em uma tabela de distribuição de freqüências 287 Dos 80 alunos que fizeram um curso de Estatística 70 receberam grau B e 5 grau C Quantos freqüência alunos receberam grau A supondo que não tenha sido conferido nenhum outro grau Capítulo 2 Apresentação de Dados em Tabelas 43 288 Foram avaliadas por cirurgiõesdentistas com especialização em Orto dontia crianças no estágio de dentadura decídua entre 3 e 6 anos de ida de Não tinham hábitos de sucção 615 Das demais 190 tinham o hábito de sucção do polegar 588 usavam chupeta 618 usavam mamadeira Apre sente os dados em tabela Calcule o total e as freqüências relativas 289 Os pesos dos bombeiros que trabalham em determinada cidade variam entre 70 kg e 118 kg Indique os limites de 10 classes nas quais os pesos dos bombeiros possam ser agrupados 2810 O número de enfermeiros em serviço varia muito em um hospital Foi feita uma distribuição de freqüências com as seguintes classes 20 1 25 25 1 30 30 1 35 35 1 40 40 1 45 45 1 50 Qual é o intervalo de classes e qual é o intervalo de toda a distribuição 2811 Construa uma tabela de distribuição de freqüências para apresentar os dados da Tabela 219 usando intervalos de classes iguais Depois faça outra tabela com os seguintes intervalos 1 dia 2 ou 3 dias de 4 a 7 dias de 8 a 14 dias mais de 14 dias TABELA 219 Tempo de internação em dias de pacientes acidentados no trabalho em um dado hospital 7 8 1 7 13 6 12 12 3 17 4 2 4 15 2 14 3 5 10 8 9 8 5 3 2 7 14 12 10 8 1 6 4 7 7 11 2812 São dados o valor máximo e o valor mínimo de dois conjuntos A e B de dados no primeiro conjunto n 50 e no segundo n 100 No con junto A o valor mínimo é 24 e o valor máximo é 70 no conjunto B o valor mínimo é 187 e o valor máximo é 821 Dê os intervalos de classe para cada conjunto 44 Introdução à Bioestatística 2813 Com base nos dados apresentados na Tabela 220 calcule o percentual de pacientes que abandonaram o tratamento contra a tuberculose pulmo nar troca de abandono segundo a zona de moradia TABELA 220 Número de pacientes segundo o abandono do tratamento contra tuberculose pulmonar e a zona de moradia Zona de moradia Urbana Rural Abandono do tratamento Sim 15 70 Não 80 35 2814 Perguntouse a 100 dentistas se eles rotineiramente enfatizavam no consultório métodos de prevenção de cáries e doenças gengivais A resposta de 78 dentistas foi Bウゥュ Gセ Os demais disseram B ョッ Gセ Apresente estes da dos em uma tabela de distribuição de freqüências e discuta os resultados Os dados mostram que os dentistas adotam a prática da prevenção 2815 Calcule as freqüências relativas para os dados apresentados na Tabela 221 e comente TABELA221 Número de óbitos por grupos de causas Brasil 2004 Número Grupos de causas Masculino Doenças infecciosas e parasitárias 27437 Neoplasias 76065 Doenças do aparelho circulatório 150383 Doenças do aparelho respiratório 55785 Afecções originadas no perfodo perinatal 17530 Causas externas 107032 Demais causas definidas 88563 Fonte Ministério da Saúde SVS Sistema de lnfonnações sobre Mortalidade SIM Notas Feminino 18615 64724 135119 46369 13165 20368 75399 1 As análises devem considerar as limitações de cobertura e qualidade da informação da causa de óbito 2 Estão suprimidos os óbitos sem definição de causa httptabnetdatasusgovbrCGItabcgiexeidb2006c04def Disponível em 4 de maio de 2008 Capítulo 2 Apresentação de Dados em Tabelas 4 5 2816 Calcule as freqüências relativas para os dados apresentados na Tabela 222 e aponte a faixa etária de maior risco TABELA 222 Pacientes portadores de carcinoma epidermóide de base de língua segundo a faixa etária em anos Faixa etária Número 30 f 40 10 40 f 50 ffi 50 f 60 119 60 f 70 ffi 70 f 80 24 80 e mais 5 2817 Com base nos dados apresentados na Tabela 223 calcule o percentual de órgãos aproveitados taxa de aproveitamento para cada órgão TABELA 223 Número de órgãos obtidos de doadores cadáveres Órgão Número de doadores Número de órgãos aproveitados Rim 105 210 Coração 105 45 Fígado 105 20 Pulmões 105 17 página deixada intencionalmente em branco Apresentação de Dados em Gráficos 3 página deixada intencionalmente em branco Capítulo 3 Apresentação de Dados em Gráficos 49 Gráficos ajudam a visualizar a distribuição das variáveis Neste Capítulo vamos aprender como apresentar dados em gráficos seguindo as normas nacionais ditadas pela Fundação Instituto Brasileiro de Geografia e Estatís tica IBGE1 Todo gráfico deve apresentar título e escala O título deve ser colocado abaixo do gráfico As escalas devem crescer da esquerda para a direita e de baixo para cima As legendas explicativas devem ser colocadas de preferência à direita do gráfico 31 APRESENTAÇÃO DE DADOS QUALITATIVOS 31 1 Gráfico de barras O gráfico de barras é usado para apresentar variáveis qualitativas sejam elas nominais ou ordinais Para construir um gráfico de barras Desenhe o sistema de eixos cartesianos Escreva as categorias da variável estudada no eixo das abscissas eixo horizontal Escreva as freqüências ou as freqüências relativas porcentagens no eixo das ordenadas eixo vertical obedecendo a uma escala Desenhe barras verticais de mesma largura para representar as cate gorias da variável em estudo A altura de cada barra deve ser dada pela freqüência ou pela freqüência relativa geralmente em porcen tagem da categoria Coloque legendas nos dois eixos e titulo na figura Exemplo 31 Um gráfico de barras Foram entrevistadas 100 pessoas que haviam se submetido a uma cirurgia esté tica reparadora Perguntadas se consideravam que a cirurgia havia melhorado a aparência delas responderam como segue 66 disseram que sim 20 disseram que em parte 8 disseram que não e 6 não quiseram responder Organize os dados em uma tabela de distribuição de freqüências e desenhe o gráfico de barras As normas do IBGE são excelentes Veja essas normas em httpwwwlibgegovbrhome estatisticapopulacao censo2000tabelabrasill 11shtm Disponivel em 24 de abril de 2008 Veja também VIEIRA S Elementos de Estatística São Paulo Atlas 5 ed 2003 51 Introdução à Bioestatística Solução TABELA31 Você acha que a cirurgia melhorou sua aparência Respostas Freqüência Porcentagem Sim ffi ll6 Em parte 20 20 Não 8 8 Sem resposta 6 6 Total 100 100 80 70 60 E 50 Q CJ 40 e セQ 30 o o 20 10 0 Sim Em parte Não Sem resposta Resposta FIGURA 31 Você acha que a cirurgia melhorou sua aparência Para facilitar a leitura dos percentuais de cada categoria podem ser fei tas linhas auxiliares grades Capítulo 3 Apresentação de Dados em Gráficos 51 Exemplo 32 Gráfico de barras com grades Com os dados da Tabela 31 faça um gráfico de barras com linhas auxiliares Solução 80 70 60 E 50 Q CJ co 40 e セQ 30 o o 20 10 0 Sim Em parte Não Sem resposta Resposta FIGURA 32 Você acho que o cirurgia melhorou suo aparência Os percentuais podem ser apresentados acima das barras Exemplo 33 Gráfico de barras com percentuais nas barras Com os dados da Tabela 31 faça um gráfico de barras mas escreva os percen tuais acima das barras Solução 80 70 660 60 E 50 Q CJ co 40 e セQ 30 o o 20 200 10 80 60 0 Sim Em parte Não Sem resposta Resposta FIGURA 33 Você acho que o cirurgia melhorou suo aparência 5 2 Introdução à Bioestatística Os gráficos de barras podem ser feitos com perspectiva isto é em três dimensões Por isso são conhecidos como gráficos em 3D Eles são agra dáveis de ver mas difíceis de compreender quando apresentam muitas ca tegorias Exemplo 34 Gráfico de barras com 3D Com os dados da Tabela 31 faça um gráfico de barras em três dimensões Solução 80 70 60 E 50 Q CJ co 40 e セQ 30 o a 20 10 0 Sim Em parte Não Sem resposta Resposta AGORA 34 Você acha que a cirurgia melhorou sua aparência Nos gráficos de barras as barras podem ser apresentadas na po sição horizontal como mostra o Exemplo 35 Exemplo 35 Gráfico de barras horizontais Os dados sobre a etiologia de fraturas e corpos estranhos encontrados na face de 46 pacientes por meio de radiografias panorâmicas feitas em um centro de radiologia estão na Tabela 32 Desenhe um gráfico de barras mas com as barras em posição horizontal Capítulo 3 Apresentação de Dados em Gráficos 53 Solução TABELA32 Distribuição dos pacientes quanto à etiologia da fratura ou presença de corpo estranho Etiologia Acidente de trânsito Agressão Al1Tla de fogo Queda Acidente em esportes Assalto Cirurgia ortognática Total Cirurgia ortognática Assalto Acidente em esportes Queda Arma de fogo Freqüência 16 13 7 4 2 2 2 46 7 Agressão ii 13 Acidente de trânsito ャゥmゥMセゥ 16 o 5 10 Freqüência 15 20 RGURA 35 Distribuição dos pacientes quanto à etiologia do fraturo ou presença de corpo estranho 54 Introdução à Bioestatística 312 Gráfico de setores O gráfico de setores2 é especialmente indicado para apresentar variáveis nominais desde que o número de categorias seja pequeno Para construir um gráfico de setores trace uma circunferência uma circunferência tem 360º Essa circun ferência representará o total ou seja 100 divida a circunferência em tantos setores quantas sejam as catego rias da variável em estudo mas o ângulo de cada setor precisa ser cal culado é igual à proporção de respostas na categoria multiplicada por 360 marque na circunferência os ângulos calculados separe com o tra çado dos raios escreva a legenda e coloque título na figura Exemplo 36 Gráfico de setores Por meio de radiografias panormicas feitas em um centro de radiologia foram constatados fraturas e corpos estranhos na face de 46 pacientes 29 homens e 17 mulheres Faça um gráfico de setores para mostrar a distribuição por sexo des ses pacientes Solução TABELA 33 Distribuição por sexo de pacientes com fraturas e corpos estranhos na face Sexo Masculino Feminino Total Freqüência 29 17 46 Proporção 063 037 100 Para fazer o gráfico de setores é preciso calcular o ngulo de cada setor Para o sexo masculino calcule o ngulo 063 X 360 2268 e para o feminino calcule 037X3601332 20 grâfico de setores é mais conhecido como gráfico de pizza Este não é entretanto o nome técnico Capítulo 3 Apresentação de Dados em Gráficos 5 5 Mulheres 370 Homens 630 RGURA 36 Distribuição de pacientes com fraturas e corpos estranhos no face segundo o sexo Os gráficos de setores podem ser feitos em três dimensões Esse tipo de apresentação aparece em muitas revistas mas deve ser evitado porque di ficulta a avaliação da proporção de cada categoria Exemplo 37 Gráfico de setores em 30 Com os dados da Tabela 23 faça um gráfico de setores em três dimensões Solução Mulheres Homens 630 FIGURA 37 Distribuição de pacientes com fraturas e corpos estranhos no face segundo o sexo 5 5 Introdução à Bioestatística 32 APRESENTAÇÃO DE DADOS NUMÉRICOS 321 Diagrama de linhas Dados numéricos são muitas vezes apresentados em tabelas de distribuição de freqüências Se os dados são discretos as tabelas de distribuição de fre qüências apresentam os valores numéricos na ordem natural em lugar das categorias que aparecem nas distribuições de freqüências de dados quali tativos Reveja o Exemplo 29 do Capítulo 2 Para construir um diagrama de linhas Escreva os valores assumidos pela variável no eixo das abscissas eixo horizontal Escreva as freqüências ou freqüências relativas porcentagens no eixo das ordenadas eixo vertical Desenhe barras verticais com pequena largura para evidenciar que os dados são discretos a partir dos pontos marcados no eixo das abs cissas Os comprimentos das barras são dados pelas freqüências ou pe las freqüências relativas geralmente em porcentagem Coloque legendas nos dois eixos e título na figura Exemplo 38 Diagrama de linhas As faltas ao trabalho de 30 empregados de uma clínica em determinado semes tre estão na Tabela 28 do Capítulo 2 A partir dela foi feita uma tabela de dis tribuição de freqüências Faça o diagrama de linhas Solução 35 30 25 ü 20 e Q CT 15 Q セu 10 5 0 o 1 2 3 4 5 6 Nº de faltas AGURA 38 Diagrama de linhas para a distribuição do número de feitas ao trabalho de 30 empregados de uma clínica no semestre Capítulo 3 Apresentação de Dados em Gráficos 51 322 Gráfico de pontos Os dados contínuos ao contrário dos discretos são na maioria das ve zes uns diferentes dos outros Veja o Exemplo 39 os valores são todos di ferentes entre si Quando em pequeno número os dados contínuos podem ser apresentados por meio de um gráfico de pontos Para fazer um gráfico de pontos ou diagrama de pontos Desenhe uma linha na verdade o eixo das abscissas com escala de maneira que nela caibam todos os dados Desenhada a linha ponha sobre ela pontos que representem os dados obedecendo à escala Coloque legenda no eixo e título na figura Exemplo 39 Tempo de sobrevivência após transplante renal O número de dias que sete pacientes submetidos a um transplante renal sobrevi veram após a cirurgia em determinado hospital foi 17 5 48 120 651 64 150 Apresente esses dados em um gráfico de pontos Solução Para fazer um gráfico de pontos ou diagrama de pontos comece desenhando uma linha eixo das abscissas que vá do zero até 700 porque o maior número é 651 Desenhada a linha ponha os pontos que vão representar os dados sobre ela sem pre obedecendo à escala como mostra a Figura 39 o 100 200 300 400 500 600 700 AGURA 39 Diagrama de pontos para os dados de sobrevivência a transplante renal 323 Histograma Quando os dados são contínuos e a amostra é grande não se pode fazer um gráfico de pontos É mais conveniente condensar os dados isto é organizar uma tabela de distribuição de freqüências3 e dese nhar um histograma Para construir um histograma Trace primeiro o sistema de eixos cartesianos Faça de preferência tabelas de freqüência com intervalos iguais Se os intervalos de classe fo rem diferentes não se pode fazer o histograma como ensinado aqui Consulte textos mais avan çados 51 Introdução à Bioestatística Apresente as classes no eixo das abscissas Se os intervalos de classe forem iguais trace barras retangulares com bases iguais que corres pondam aos intervalos de classe Desenhe as barras com alturas iguais às freqüências ou às freqüên cias relativas das respectivas classes As barras devem ser justapos tas para evidenciar a natureza contínua da variável Coloque legendas nos dois eixos e título na figura Exemplo 310 Histograma Faça um histograma para apresentar os dados mostrados em distribuição de fre qüências na Tabela 211 do Capftulo 2 40 35 3J la e 25 e G 20 CI セ 15 Solução 15 f 20 20 f 25 25 f 30 30 f 35 35 f 40 40 f 45 45 f 50 Peso ao nascer FIGURA 310 Histograma para peso ao nascer de nascidos vivos em quilogramas 324 Polígono de freqüências Os dados apresentados em tabela de distribuição de freqüências tam bém podem ser mostrados em gráficos denominados polígonos de fre qüências Para fazer esse tipo de gráfico Trace o sistema de eixos cartesianos Marque no eixo das abscissas pontos que correspondam aos valores centrais4 das classes valor central ou ponto médio de uma classe é a média dos dois extremos de classe Capítulo 3 Apresentação de Dados em Gráficos 5 9 Marque no eixo das ordenadas as freqüências de classe Una os pontos por segmentos de reta Feche o polígono unindo os extremos da figura com o eixo horizontal nos pontos de abscissas iguais aos valores centrais de uma classe ime diatamente inferior à primeha e de uma classe imediatamente supe rior à última Coloque legendas nos dois eixos e título na figura 40 35 IJ 25 G e Q 20 oJ e Q セu 15 10 5 o 125 175 225 275 325 375 425 475 525 Peso ao nascer FIGURA 311 Polígono de freqüências para peso ao nascer de nascidos vivos em quilogramas 33 OBSERVAÇÕES 1 As barras no gráfico de barras tanto podem ser desenhadas na posição horizontal como na vertical A apresentação gráfica é a mesma Só o programa Excel muito usado para fazer gráfico no meia o gráfico da Figura 31 como gráfico de colunas Se as ca tegorias tiverem nomes extensos como é o caso do Exemplo 35 prefira desenhar as barras na posição horizontal porque isso fa cilita a leitura 2 Em geral as pessoas são mais capazes de comparar comprimentos de barras do que ângulos de gráficos de pizza Por isso desenhe pizzas somente quando o número de categorias for pequeno 3 Se você pretende desenhar um histograma organize a tabela de distribuição de freqüências com classes iguais 51 Introdução à Bioestatística 34 EXERCÍCIOS RESOLVIDOS 341 Faça um gráfico de barras e um gráfico de setores para apresentar os dados da Tabela 215 do Capítulo 2 O gráfico de barras está na Figura 312 e o gráfico de setores está na Fi gura 313 40 35 3471 30 2467 E Q 25 2091 cn 1971 20 e セQ 15 o a 10 5 00o Escorpião Serpente Aranha Outros animais Animal FIGURA 312 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal Outros animais 2467 Serpente 2091 Escorpião 3471 FIGURA 313 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal Capítulo 3 Apresentação de Dados em Gráficos 1 342 Faça um histograma e um polígono de freqüências para apresentar dados da Tabela 217 do Capítulo 2 18 16 14 co 12 ü 10 e Q o 8 e Q セu 6 4 2 o BOf90 90f100 100f110 110f120 120f130 130f140 140 f150 150f100 Pressão arterial FIGURA 314 Distribuição da pressão arterial em milímetros de mercúrio de cães adultos anestesiados 18 16 14 co 12 3 10 e Q o e Q セu 8 6 4 2 o 75 85 95 105 115 125 135 145 155 165 Pressão arterial FIGURA 3lS Distribuição da pressão arterial em milímetros de mercúrio de cães adultos anestesiados 5 2 Introdução à Bioestatística 343 Por que uma pessoa que conhece determinado assunto preferiria olhar uma tabela de distnõuição de freqüências em vez de um gráfico Qual seria um argumento razoável contra essa postura Como podem ser construídos gráficos muito diferentes com base nos mes mos dados a interpretação com base apenas neles pode não ser confiável Por outro lado a apresentação gráfica que faz ressaltar determinadas ca racterísticas dos dados ajuda o pesquisador Às vezes é melhor observar tanto dados como gráfico5 344 Quando um gráfico deve ser grande Quando deve ser pequeno O gráfico deve ser grande quando os valores que apresenta precisam ser li dos Um gráfico pequeno mostra apenas as características gerais do conjunto de dados 35 EXERCÍCIOS PROPOSTOS 351 Desenhe um gráfico de setores para apresentar a distribuição de freqüên cias que você construiu conforme pedido no Exercido 284 352 Desenhe um gráfico de barras para apresentar a distribuição de freqüên cias que você construiu conforme pedido no Exercido 286 353 Desenhe um gráfico de setores para apresentar a distribuição de freqüên cias que você construiu conforme pedido no Exercido 288 354 Desenhe um histograma para apresentar a distribuição de freqüências que você construiu usando intervalos de classes iguais conforme pedido no Exercido 2811 355 Desenhe dois gráficos de setores um para cada zona de moradia para apresentar a distribuição de freqüências que você construiu conforme pe dido no Exercido 2813 356 Desenhe um gráfico de barras as barras na posição horizontal para apresentar a distribuição de freqüências que você construiu conforme pe dido no Exercido 2815 Veja mais explicações no Capitulo 6 Capítulo 3 Apresentação de Dados em Gráficos 3 357 Desenhe um histograma para apresentar a distribuição de freqüências que você construiu conforme pedido no Exercicio 2816 358 Desenhe um gráfico de barras as barras na posição horizontal para apresentar a twca de aproveitamento para cada órgão usando os dados apresentados na Tabela 223 do Capítulo 2 359 Com base nos dados apresentados na Tabela 34 faça uma tabela de dis tribuição de freqüência Desenhe um histograma TABELA 34 Pressão sangüínea diastólica de 30 enfermeiros que trabalham em um hospital 81 89 91 81 79 82 70 80 92 64 73 ffi 87 74 72 75 90 ffi 83 79 82 82 78 85 77 83 85 87 88 80 3510 Com base nos dados apresentados na Tabela 34 faça uma tabela de distribuição de freqüências Desenhe um polígono de freqüências página deixada intencionalmente em branco Medidas de Tendência Central 4 página deixada intencionalmente em branco Capitulo 4 Medidas de Tendência Central 67 Muitas pessoas preferem para entender as características gerais de um conjunto de dados olhar uma figura1 Daí a importância dos métodos gráficos descritos no Capítulo 3 No entanto medidas numéricas são mais úteis do que gráficos para mostrar o padrão geral dos dados Além de se rem mais exatas elas podem ser escritas e faladas Neste Capítulo veremos as medidas de tendência central Antes porém de descrever essas medidas precisamos apresentar alguns símbolos matemáticos 41 SÍMBOLOS MATEMÁTICOS Para representar uma amostra com n unidades escrevemos O subscrito i indica a posição da medida xi é aiésima observação num conjunto de n observações Portanto x1 representa a primeira observação x2 representa a segunda e assim por diante Exemplo 41 Peso de bebês São dados os pesos em quilogramas de cinco recémnascidos em um hospital na ordem em que eles nasceram 3500 2850 3370 2250 3970 Escreva esse conjunto de dados na notação geral e identifique n Solução Em termos dos símbolos podemos escrever x1 3500 x2 2850 x3 3370 x4 2250 x5 3970 O último subscrito no caso 5 dá o tamanho da amostra Com relação ao Exemplo 41 na seqüência x1 x2 x3 x4 x5 não existe ordem com relação à grandeza dos dados O bebê menor não é necessaria mente o primeiro da amostra nem o bebê maior precisa ser o últímo Qual quer que for a amostra os valores x1 x2 x3 x estarão na ordem em que foram coletados Os pontos significam e assím por diante A soma dos valores x1 x2 x3 x é escrita como segue x1 x2x3 x ou de forma muito mais compacta n L X iI 1 Já disse alguém Um desenho vale por mil palavras 51 Introdução à Bioestatística que se lê somatório de x índice i i de 1 a n O símbolo I que indica o soma tório é a letra grega sigma maiúscula O subscrito i 1 sob I indica que o índice i deve ser substituído por números inteiros em ordem crescente sucessivamente começando por 1 e terminando em n Exemplo 42 A notação de somatório Lembre o exemplo 41 Os pesos dos bebês eram X1 3500 X2 2850 x3 3370 X4 2250 X5 3970 Calcule a soma desses pesos mas faça a indicação da soma usando a notação de somatório Solução Em termos dos símbolos podemos escrever 5 L X x1 X2 Xs il 3500 2850 3370 2250 3970 15940 Quando é fácil saber o número de parcelas que devem ser somadas pelo próprio texto podemos escrever apenas Ix em lugar L X iI 42 MÉDIA DA AMOSTRA A medida de tendência central mais conhecida e mais utilizada é a média aritmética ou símplesmente média Como se calcula uma média A média aritmética de um conjunto de dados é obtida somando todos os dados e dividindo o resultado pelo número deles Média Soma de todos os dados Tamanho da amostra A média que se indica média por x lêse xtraço ou xbarra tem uma fórmula Lx X n que se lê xtraço é igual ao somatório de x dividido por n Capitulo 4 Medidas de Tendência Central 69 Exemplo 43 A média da circunferência abdominal de 10 pessoas Um professor de Educação Física mediu a circunferência abdominal de 10 homens que se apresentaram em uma academia de ginástica Obteve os valores em cen tímetros 88 83 79 76 78 70 80 82 86 105 Calcule a média Solução Some todos os dados e divida o resultado pelo tamanho da amostra que é 1 O Então x 888379 76 78708082 86105 827 82 7 10 10 ou seja os homens mediram em média 827 cm de circunferência abdominal A média indica o centro de gravidade do conjunto de dados Para en tender essa afirmativa observe a Figura 41 que apresenta os dados do Exemplo 43 Imagine que o eixo das abscissas sejam os braços de uma ba lança e que cada ponto tenha uma unidade de massa Para haver equiliôrio é preciso que o fulcro da balança esteja sob a média isto é no ponto em que está a flecha Então a média é a abscissa do centro de gravidade 70 75 80 t 85 Circunferência abdominal 90 95 100 105 AGURA 41 Distribuição de dados de circunferência abdominal em centímetros sobre um eixo e o respectiva médio Quando a amostra é grande e os dados são discretos podem ocorrer valores repetidos Nesses casos como vimos no Capítulo 2 é razoável or ganizar os dados em uma tabela de distribuição de freqüências Veja a Ta bela 41 71 Introdução à Bioestatística TABELA41 Uma tabela de distribuição de freqüências 1 Dados Freqüência x t X2 f2 x f n Total IJ A média aritmética de dados agrupados em uma tabela de distribuição de freqüências isto é de x1 x2 x que se repetem f 1 fi f vezes na amostra é Exemplo 44 A média do número de filhos Para calcular a média do número de filhos em idade escolar que têm os funcio nários de uma empresa a psicóloga que trabalha em Recursos Humanos obteve uma amostra de 20 funcionários Os dados estão apresentados em seguida Como se calcula a média TABELA42 Número de filhos em idade escolar de 20 funcionários 1 o 1 o 2 1 2 1 2 2 1 5 o 1 1 1 3 o o o Solução Primeiro é preciso construir a tabela de distribuição de freqüências Veja a Ta bela 43 Capitulo 4 Medidas de Tendência Central 71 TABELA 43 Distribuição de freqüências para o número de filhos em idade escolar de 20 funcionários Número de filhos em idade escolar Freqüência o 1 2 3 4 5 6 8 4 1 o 1 Os cálculos intermediários para obter a média estão na Tabela 44 É preciso mul tiplicar cada valor possível x pela respectiva freqüência f somar e dividir a soma pelo tamanho da amostra n If TABELA 44 Cálculos auxiliares Número de filhos Freqüência Produto em idade escolar x f xf o 6 o 1 8 8 2 4 8 3 3 4 o o 5 1 5 Total I f 20 I xf 24 A média é obtida dividindo 24 por 20 que resulta em 12 filho em idade escolar por funcionário Aplicando a fórmula Ox6 lx 82x43xl 4x0 5xl 24 x 12 6841 01 w 7 2 Introdução à Bioestatística Em certos casos principalmente quando a variável é contínua e a amostra é grande são apresentadas apenas as tabelas de distribuição de freqüências os dados brutos não são fornecidos Para calcular a média de dados agrupados em classes é preciso calcular o valor central de cada classe O valor central é a média dos dois extremos de classe Veja o exem plo 45 Exemplo 45 A média de peso ao nascer de nascidos vivos No Exemplo 211 do Capítulo 2 os dados foram agrupados em faixas de peso Os nascidos vivos com pesos entre 15 inclusive e 20 kg exclusive constitufram a primeira classe os nascidos vivos com pesos entre 20 inclusive e 25 kg exclusive constituíram a segunda classe e assim por diante Nesse caso como se calcula a média TABELA45 Nascidos vivos segundo o peso ao nascer em quilogramas Classe Freqüência 15 f 20 3 20 f 25 16 25 f 30 31 30 f 35 34 35 f 40 11 40 f 45 4 45 f 50 1 Solução Primeiro é preciso obter o valor central de cada classe Para isso some os valo res mínimo e máximo da classe e divida por dois A classe 15 f 20 tem valor mí nimo 15 e valor máximo 20 O valor central da classe é 15 20 35 175 2 2 A classe 20 f 25 tem valor mínimo 20 e valor máximo 25 O valor central da classe é 20 25 45 2 25 2 2 Capitulo 4 Medidas de Tendência Central 73 Proceda da mesma forma para obter os demais valores centrais de classe Para calcular a média construa uma tabela com os cálculos auxiliares Escreva as classes os valores centrais x as freqüências f de classe e os produtos xf como mostra a Tabela 46 TABELA 46 Cálculos auxiliares Valor central Freqüência Produto Classe x f xf 15 f 20 175 3 525 20 1 25 225 16 36 25 f 30 275 31 8525 30 f 35 325 34 1105 35 f 40 375 11 4125 40 f 45 425 4 17 45 f 50 475 1 475 Soma I t 100 ixf 30000 A média é obtida dividindo 300 por 100 que dá 300 ou aplicando a fórmula x l75x3225xl6 475xl 300 300 316 l 100 ou seja a média do peso ao nascer nessa amostra é 300 kg A média é de longe a medida de tendência central mais usada e por isso mais conhecida quem nunca ouviu falar na média de aprovação em determinada disciplina ou no tempo médio de uma viagem por exem plo de São Paulo ao Rio de Janeiro ou na idade média dos jogadores de futebol Em certas circunstâncias porém é melhor usar outras medidas de tendência central como a mediana ou a moda Mas o que é mediana e o que é moda 7 4 Introdução à Bioestatística 43 MEDIANA DA AMOSTRA Mediana é o valor que ocupa a posição central do conjunto dos dados ordenados A mediana divide a amostra em duas partes uma com números meno res ou iguais à mediana outra com números maiores ou iguais à mediana Quando o número de dados é impar existe um único valor na posição cen tral Esse valor é a mediana Por exemplo o conjunto de dados 3 5 9 tem mediana 5 porque 5 é o valor que está no centro do conjunto quan do os números são escritos em ordem crescente Quando o número de da dos é par existem dois valores na posição central A mediana é a média desses dois valores Por exemplo o conjunto 3 5 7 9 tem a mediana 6 porque 6 é a média de 5 e 7 que estão na posição cen tral dos números ordenados Exemplo 46 Calculando a mediana do peso de bebês Calcule a mediana do peso em quilogramas de cinco bebês nascidos em um hos pital dados no Exemplo 41 Solução Coloque os dados em ordem crescente como segue 2250 2850 3370 3500 3970 A mediana é o valor que está na posição central ou seja 3370 kg Em algumas circunstâncias a mediana mais bem descreve a tendência central dos dados É o caso dos conjuntos com dados discrepantes isto é dados de conjuntos que têm um ou alguns valores bem maiores ou bem menores que os demais Veja o Exemplo 47 o valor 42 que é discrepante puxa a média para cima embora não afete a grandeza da mediana Capitulo 4 Medidas de Tendência Central 75 Exemplo 47 Escolhendo entre média e mediana Calcule a média e a mediana dos dados 42 3 9 5 7 9 1 9 Solução Para obter a média calcule X 423957 9 19 85 lÜ 625 8 8 Para obter a mediana é preciso ordenar os dados 135 799942 Como o número de dados é par a mediana é a média aritmética dos valores 7 e 9 que ocupam a posição central dos dados ordenados Então a mediana é 8 A média é maior do que a mediana porque 42 que é um valor discrepante puxa a média para cima Existem casos porém em que o uso da média aritmética é mais razoá vel do que a mediana mesmo que haja um valor discrepante Como exem plo considere que você jogou três vezes na loteria e ganhou na primeira vez x1 R 000 na segunda vez x2 R 000 na terceira vez JS R100000000 Qual medida melhor descreve o seu ganho A mediana é zero diga isso aos seus parentes mas a média é 13 do valor de x3 e esse valor diz mais sobre seu ganho nas três tentativas 44 MODA DA AMOSTRA Moda é o valor que ocorre com maior freqüência Exemplo 48 Determinando a moda Determine a moda dos dados O O 2 5 3 7 4 7 8 7 9 6 Solução A moda é 7 porque é o valor que ocorre o maior número de vezes 7 5 Introdução à Bioestatística Um conjunto de dados pode não ter moda porque nenhum valor se re pete maior número de vezes ou ter duas ou mais modas Assim o conjun to de dados o 2 4 6 8 10 não tem moda e o conjunto 1 2 2 3 4 4 5 6 7 tem duas modas 2 e 4 Quando uma tabela de distribuição de freqüências apresenta grande quantidade de dados é importante destacar a classe de maior freqüência a chamada classe modal Essa classe mostra a área em que os dados estão concentrados Exemplo 49 A moda de idade no Brasil no ano 2000 É dada a distribuição da população brasileira segundo a faixa de idade no Censo 2000 Determine a classe modal TABELA 47 População brasileira presente segundo a faixa de idade Brasil Censo 2000 Faixa de idade Número de pessoas De O a 9 anos 32918055 De 10a19 anos 35287882 De 20 a 29 anos 29991180 De 30 a 39 anos 25290473 De 40 a 49 anos 19268235 De 50 a 59 anos 12507316 De 60 a 69 anos 8182035 De 70 a 79 anos 4521889 De 80 a 89 anos 1570905 De 90 a 99 anos 236624 99 anos e mais 24576 Total 169799170 Fonte IBGE 20032 2Em httpwww1ibgegovbrhome estatisticapopulacao censo2000tabelabrasil111shtm Dis ponível em 14 de março de 2008 Capitulo 4 Medidas de Tendência Central 11 Solução A classe modal é de 10 a 19 anos porque é a classe com maior freqüência En tão a moda no ano 2000 era ter de 1 O até 19 anos A moda também pode ser usada para descrever dados qualitativos Nesse caso a moda é a categoria que ocorre com maior freqüência Exemplo 410 A moda para tipo de sangue Veja os dados apresentados na Tabela 48 Qual é a moda TABELA 48 Distribuição de indivíduos segundo o grupo sangüíneo Grupo sangüíneo Freqüência o 550 A 456 B 132 AB 29 Total 1167 Solução Nessa amostra o grupo sangüíneo O ocorreu com maior freqüência Então a moda nessa amostra é sangue tipo O A moda é bastante informativa quando o conjunto de dados é grande Se o conjunto de dados for relativamente pequeno menos de 30 observa ções você pode até obter a moda mas na maioria das vezes ela não terá qualquer sentido prático A média e a mediana fornecem nesses casos me lhor descrição da tendência central dos dados 45 EXERCÍCIOS RESOLVIDOS 451 Com base nos dados da Tabela 49 cakule o peso médio dos ratos em cada idade 71 Introdução à Bioestatística TABELA 49 Peso em gramas de ratos machos da raça Wistar segundo a idade em dias Idade Número do rato セ 34 38 42 46 1 76 95 99 122 134 2 81 00 101 125 136 3 ffi 60 62 72 85 4 47 Il 57 72 84 5 63 79 82 94 110 6 65 75 79 88 98 7 63 74 79 88 100 8 64 74 92 00 98 Para obter a média aritmética aos 30 dias basta calcular セ 76815047 63 65 63 64 509 63 6 8 8 Da mesma forma para 34 dias obtémse セ 95 90 6050 79 75 74 74 597 746 8 8 As médias para as demais idades são obtidas de maneira idêntica Essas médias apresentadas na Tabela 410 mostram que o peso médio dos ratos aumenta com a idade TABELA 410 Médias em gramas dos pesos de grupos de oito ratos machos Wistar segundo a idade em dias Idade Média 30 34 38 42 46 636 746 814 946 1056 Capitulo 4 Medidas de Tendência Central 79 452 Determine a mediana dos dados apresentados na Tabela 28 do Capítulo 2 Para obter a mediana os dados da Tabela 28 faltas ao trabalho de 30 empregados de uma clínica em determinado semestre foram arranjados em ordem crescente na Tabela 411 TABELA 411 Faltas ao trabalho de 30 empregados de uma clínica em determinado semestre em ordem crescente o o o o o o o o o 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4 4 6 Como o número de dados 30 é par a mediana é a média aritmética dos dois valores em negrito que ocupam a posição central ou seja a mediana é 1 Portanto metade dos empregados faltou um dia ou não faltou no se mestre 453 Foi feito um experimento para testar o efeito de um antiinflamat6rio droga que tem também efeito analgésico em pacientes com osteoar trite Os pacientes foram sorteados para receber placebo 2 x ao dia ou droga 60 mg 2 x ao dia Os dados apresentados na Tabela 412 são uma medida da dor à noite O nenhuma dor 100 dor extrema rela tada pelo paciente Calcule as diferenças entre os valores obtidos no fi nal e no início da pesquisa para placebo e para droga Calcule as médias dessas diferenças Discuta TABELA 412 Dados de dor referidos pelo paciente numa escala de zero a 100 segundo o tratamento Placebo Anti inflamatório Início Final Início Final 00 70 00 00 70 50 75 50 75 50 45 25 75 85 50 20 65 65 60 30 li Introdução à Bioestatística TABELA 413 Dados de dor referidos pelo paciente numa escala de zero a 100 e diferenças entre início e final do tratamento 1 Pia cebo Antiinflamatório Início Final Diferença Início Final Diferença 00 70 10 00 ffl 20 70 50 20 75 50 25 75 50 25 45 25 20 75 85 10 50 20 30 65 65 o ffl 30 30 1 365 320 45 310 185 125 Nota A última linha é o total ou soma As médias das diferenças são 90 para placebo e 250 para o antün flamatório A diminuição da dor foi maior quando se usou antünflamatório 46 EXERCÍCIOS PROPOSTOS 461 Detennine média mediana e moda dos seguintes conjuntos de dados a 8 3 O 6 8 b 8 16 2 8 6 e 4 16 10 6 20 10 d O 2 3 1 5 f I f I e 21 O 1 2 1 9 462 Imagine que você está dirigindo um carro numa estrada e observa que o número de carros que você ultrapassa é igual ao número de carros que ultrapassam você Nesse caso a velocidade de seu carro corresponde considerando as velocidades de todos esses carros a qual medida de tendência central 463 Dado um conjunto de dados qual das medidas de tendência central média mediana e moda corresponde sempre a um valor numérico do conjunto 464 Quatro pessoas reunidas numa sala têm em média 20 anos Se uma pessoa com 40 anos entrar na sala qual passa a ser a idade média do grupo Capitulo 4 Medidas de Tendência Central 81 465 Na Tabela 414 estão taxas de glicose em miligramas por 100 ml de san gue em ratos machos da raça Wistar com 30 dias de idade que serão usa dos em um experimento para o teste de detenninada droga Ache média e mediana TABELA 414 Taxa de glicose em miligramas por 100 mi de sangue de oito ratos machos da raça Wistar com 30 dias de idade 1 Nº do rato Taxa de glicose 1 101 2 00 3 97 4 104 5 95 6 105 466 Na Tabela 415 estão apresentados estaturas em metros pesos em quilo gramas e pressão arterial em milímetros de mercúrio de pacientes hospi talizados porque tiveram um acidente vascular cerebral AVC mais conhecido como derrame Calcule a média e a mediana para cada variável TABELA 415 Estaturas em metros pesos em quilogramas e pressão arterial em milímetros de mercúrio de 11 pacientes hospitalizados 1 Nº do paciente Estatura Peso Pressão arterial 1 175 00 180 2 158 00 200 3 180 00 140 4 165 76 220 5 180 70 170 6 173 65 150 7 168 72 140 8 165 70 140 9 165 75 180 10 175 70 160 11 165 70 140 12 Introdução à Bioestatística 467 Com os dados apresentados na Tabela 416 calcule o número médio de dentes cariados para cada sexo TABELA 416 Escolares de 12 anos segundo o número de dentes cariados e o sexo Sexo Número de dentes cariados Masculino Feminino o 16 13 1 2 5 2 3 3 3 2 2 4 2 2 468 Para estudar o tempo de latência de um sonífero usando ratos de labora tório um pesquisador administrou o sonífero a 10 ratos e determinou o tempo que eles demoravam em dormir Dos 10 ratos dois demoraram meio minuto quatro demoraram 1 minuto três demoraram 1 minuto e meio e um rato não dormiu Calcule o tempo médio de latência 469 Determine a média mediana e a moda para cada sexo dos dados apre sentados na Tabela 417 TABELA417 Consumo diário de sal em gramas por dia segundo o sexo Sexo Masculino Feminino 6 4 9 10 6 6 8 8 7 6 6 8 Capitulo 4 Medidas de Tendência Central 83 4610 Detennine a média a mediana e a moda para cada sexo dos dados apre sentados na Tabela 418 TABELA 418 Volume diário de urina em litros por sexo 1 Sexo Masculino Feminino 05 09 14 06 09 05 08 13 13 08 05 07 4611 Detennine a mediana e a moda para os dados apresentados na Tabela 419 e interprete TABELA 419 Tempo de retorno em dias às atividades de pacientes submetidas a histerectomia 1 Nº da paciente Tempo de retorno 1 20 2 lJ 3 15 4 20 5 40 6 f 7 25 8 lJ 9 15 10 35 84 Introdução à Bioestatística 4612 Detennine a média dos dados apresentados na Tabela 420 TABELA 420 Teor de vitamina C miligramas de ácido ascórbico em 100 mi em 10 caixas de 100 mi de suco de maçã encontrado no mercado 1 Nº da caixa Teor de vitamina C 1 25 2 49 3 41 4 08 5 24 6 57 7 33 8 74 9 16 10 35 4613 A média a mediana e a moda podem ser iguais Dê um exemplo 4614 Qual das medidas de tendência central não pode ser calculada para os dados da Tabela 421 Por quê TABELA 421 Número de reclamações recebidas pela diretoria de empregados de uma clínica em determinado semestre distribuídas segundo o sexo Sexo Número de reclamações Masculino Feminino o 16 13 1 8 3 2 3 3 3 2 1 4 ou mais 2 3 Medidas de Dispersão para uma Amostra 5 página deixada intencionalmente em branco Capítulo 5 Medidas de Dispersão para uma Amostra l 7 As medidas de tendência central resumem a informação contida em um con junto de dados mas não contam toda a história Por exemplo é fato de observação diária que na mesma cidade a temperatura varia ao longo do dia Ainda no mesmo dia registramse temperaturas muito diferentes em diferentes lugares do mundo O peso das pessoas varia ao longo da vida e a quantidade de dinheiro que carregam nos bolsos varia em função das cir cunstâncias Por causa da variabilidade a média a mediana e a moda que estudamos no Capítulo 4 não bastam para descrever um conjunto de dados elas informam a tendência central mas nada dizem sobre a variabilidade Para entender este ponto imagine dois domicílios no primeiro moram sete pessoas todas com 22 anos de idade A média de idade dos morado res desse domicílio coletivo uma república é evidentemente 22 anos No segundo domicHio também moram sete pessoas um casal ela com 17 e ele com 23 anos dois filhos um com 2 outro com 3 anos a mãe da moça com 38 anos de idade e um seu outro filho de 8 anos e a avó da moça com 65 anos Nesse segundo domicílio a média de idade também é 22 anos No entanto idade média de 22 anos descreve bem a situação no primei ro domicílio mas não no segundo As medidas de tendência central são tanto mais descritivas de um con junto de dados quanto menor for a variabilidade Então quando você apre senta medidas de tendência central para desétever um éonjunto de dados deve fornecer também uma medida de variabilidade ou dispersão Veremos neste Capítulo algumas medidas usadas para medir variabilidade 51 MÍNIMO MÁXIMO E AMPLITUDE O mínimo de um conjunto de dados é o número de menor valor O máximo de um conjunto de dados é o número de maior valor Para medir variabilidade você pode fornecer os valores minimo e má ximo do conjunto de dados e calcular a amplitude usando a fórmula amplitude máximo minimo A amplitude de um conjunto de dados definida como a diferença entre o máximo e o mínimo é uma medida de dispersão ou varia bilidade 11 Introdução à Bioestatística Exemplo 51 Mínimo máximo e amplitude das idades das crianças As idades das crianças que estão no pátio de uma escola são 3 6 5 7 e 9 anos Faça uma tabela para apresentar o tamanho da amostra a média o mínimo o máximo e a amplitude Solução Para obter a média você precisa calcular 3 6 579 6 5 Para obter a amplitude você ordena os dados como segue 3 5 6 7 9 A ampli tude é amplitude 9 3 6 TABELA 51 Estatísticas das idades das crianças Estatísticas Tamanho da amostra Média Mínimo Máximo Amplitude Resultados 5 6 3 9 6 Alguns autores fornecem os valores mínimos e máximos para descrever seus dados e não fornecem a amplitude Isto está certo porque esses va lores são muitas vezes mais úteis Por exemplo se alguém informar que os policiais que estão na ativa em certa corporação têm idades entre 18 e 52 anos estará fornecendo informação mais útil do que se disser que a amplitude das idades é 34 anos De qualquer modo a idéia de que os da dos de um conjunto têm amplitude de variação é básica em Estatística A amplitude é fácil calcular e é fácil de interpretar Mas essa medida não mede bem a variabilidade por uma razão simples para calculála usamse apenas os dois valores extremos Então dois conjuntos de dados podem ter variabilidades diferentes e apresentar a mesma amplitude Ainda um valor discrepante por ser muito grande ou muito pequeno faz a amplitu de aumentar muito Como dizem os estatísticos a amplitude é muito sen sível aos valores discrepantes Capítulo 5 Medidas de Dispersão para uma Amostra 1 9 Exemplo 52 Amplitude do barulho do tráfego São dados em seguida o barulho do tráfego em duas esquinas medido em decibéis durante os cinco dias úteis de determinada semana Calcule as amplitudes 1ª esquina 520 545 540 510 544 550 za esquina 540 515 520 510 530 77 1 Solução 1ª esquina amplitude 550 510 40 2ª esquina amplitude 771 510 261 Note que na segunda esquina houve um dia em que o barulho foi bem maior do que nos demais dias da semana Ocorreu então o que os estatísticos chamam de valor discrepante Esse valor 771 aumentou em muito a amplitude dos dados da segunda esquina 52 QUARTIL A mediana que você viu no Capítulo 4 divide um conjunto de dados em dois subconjuntos com o mesmo número de dados o que antecede a mediana dados iguais ou menores do que a me diana o que sucede a mediana dados iguais ou maiores do que a mediana Se o número de observações for grande digamos maior do que 30 o conceito de mediana pode ser estendido da seguinte forma a mediana di vide o conjunto de dados em duas metades os quartis como o nome su gere dividem o conjunto de dados em quatro quartos Os quartis dividem um conjunto de dados em quatro partes iguais Os quartis são portanto três o primeiro quartil o segundo quartil que é a mediana e o terceiro quartil Para obter os quartis1 Organize os dados em ordem crescente Ache a mediana que é tam bém o segundo quartil marque esse valor Os métodos usados para calcular os quartis têm pequenas diferenças Se você calcular os quartis para o exemplo 53 usando o Excel encontrarã valores diferentes Os valores calculados aqui são os quartis em inglês quartiles O outro método usado no Excel calcula as dobradiças em inglês hinges 9 8 Introdução à Bioestatística Ache o primeiro quartil da seguinte forma tome o conjunto de da dos à esquerda da mediana o primeiro quartil é a mediana do novo conjunto de dados Ache o terceiro quartil da seguinte forma tome o conjunto de da dos à direita dessa mediana o terceiro quartil é a mediana do novo conjunto de dados Exemplo 53 Obtendo os quartis de um conjunto com número ímpar de dados Determine os quartis do conjunto de dados 1 2 3 4 5 5 7 9 1 O Solução Os dados já estão ordenados Para obter a mediana observe que o número de da dos é ímpar Então a mediana é o valor central ou seja é 5 1 2 3 4 5 6 7 9 10 11 Para obter o primeiro quartil separe os dados menores do que a mediana A me diana desses dados 25 é o primeiro quartil 1 2 3 4 11 Para obter o terceiro quartil separe os dados maiores do que a mediana A me diana desses dados 8 é o terceiro quartil 6 7 9 10 11 Lembrese de que a amplitude é muito sensível aos valores discrepan tes isto é a amplitude pode mudar completamente se for incluída uma observação muito maior ou muito menor do que as outras Então também se define a distância interquartílica como medida de dispersão Distância interquartílica é a distância entre o primeiro e o terceiro quartil Distância interquartílica Terceiro quartil Primeiro quartil Capítulo 5 Medidas de Dispersão para uma Amostra 9 1 Exemplo 54 Distância interquartílica para o barulho do tráfego Reveja os dados do exemplo 52 Calcule as distâncias interquartílicas 1ª esquina 520 545 540 510 544 550 2 esquina 540 515 520 510 530 77 1 Solução Para achar a distância interquartílica primeiro ordene os dados Depois ache os quartis Então Para a Qセ esquina 510 520 540 544 545 550 Mediana 542 1º quartil 520 3 quartil 545 Distância interquartífica 5450 5200 25 Para a R セ esquina 510 515 520 530 540 77 1 Mediana 525 1º quartil 515 3º quartil 540 Distância interquartílica 540 515 25 Note que embora as amplitudes apresentadas no Exemplo 53 sejam muito dife rentes as distâncias interquartílicas são iguais 521 Diagrama de caixa Box plot As medidas que acabamos de ver esclarecem a informação contida em um conjunto de dados O diagrama de caixa mostra isso claramente Para de senhar o diagrama são necessárias cinco medidas mínimo primeiro quartil mediana terceiro quartil máximo Para desenhar um diagrama de caixa Desenhe um segmento de reta em posição vertical para representar a amplitude dos dados Marque nesse segmento o primeiro o segundo e o terceiro quartis Desenhe um retângulo box de maneira que o lado superior e o lado inferior passem exatamente sobre os pontos que marcam o primeiro e o terceiro quartis Faça um ponto para representar a mediana obedecendo a escala 9 2 Introdução à Bioestatística Exemplo 55 Um diagrama de caixa Desenhe um diagrama de caixa para apresentar o conjunto de dados 1 2 3 4 5 6 7 8 9 10 Mfnimo 1 Primeiro quartil 3 Mediana 55 Terceiro quartil 8 Máximo 10 12 10 8 cn g 6 Cl 4 2 o FIGURA 51 Diagramo de caixa Solução O retângulo do diagrama de canxa é dado pela distância interquartílica Esse retângulo contém cerca de 50 dos dados que estão no centro da distribuição Capítulo 5 Medidas de Dispersão para uma Amostra 9 3 53 DESVIO PADRÃO DA AMOSTRA O desvio padrão é uma medida de variabilidade muito recomendada porque mede bem a dispersão dos dados e permite por conta disso interpretação de interesse Mas para calcular o desvio padrão é preciso primeiro cal cular a variância Vamos então entender o que é variância 531 Introduzindo a variância Quando a média é usada como medida de tendência central ou seja quando a média indica o centro podemos calcular o desvio de cada observação em relação à média como segue Desvio observação média d X X Se os desvios forem pequenos os dados estão aglomerados em torno da média logo a variabilidade é pequena Por outro lado desvios grandes significam observações dispersas em torno da média e portanto variabi lidade grande Mas veja no Exemplo 56 como calcular desvios em relação à média Exemplo 56 Desvios em relação à média Dadas as idades de cinco crianças do Exemplo 51 isto é 3 6 5 7 e 9 anos cal cule os desvios em relação à média Solução Os desvios são obtidos subtraindo a média de cada observação No caso a média é 6 anos Os desvios estão apresentados na Tabela 52 TABELA 52 Cálculo dos desvios Obsetvação X 3 6 5 7 9 Desvio xx 363 66 Ü 561 76 1 96 3 9 4 Introdução à Bioestatística É preciso resumir todos os desvios em relação à média numa única me dida de variabilidade Calcular a média dos desvios pode parecer à primeira vista sugestão lógica No entanto existem desvios positivos e negativos A soma dos desvios negativos é sempre igual à soma dos positivos Aliás é este o motivo de a média ser uma boa medida de tendência central o peso dos desvios negativos é igual ao peso dos desvios positivos Isto pode ser verificado no Exemplo 56 30 1 1 30 ou em qualquer outro exemplo Para obter uma medida de variabilidade usando os desvios em relação à média é preciso eliminar os sinais antes de somar Uma maneira de eli minar sinais é elevar ao quadrado A soma assim obtida é chamada soma dos quadrados dos desvios A partir dessa soma obtémse a variância Veja a definição de variância da amostra que se indica por s2 Variância da amostra é a soma dos quadrados dos desvios de cada observação em relação à média dividida por n 1 8 2 zxx 2 nl Para calcular a variância calcule os desvios de cada observação em relação à média eleve cada desvio ao quadrado some os quadrados divida o resultado por n1 n é o número de observações Capítulo 5 Medidas de Dispersão para uma Amostra 9 5 Exemplo 57 Calculando a variância No Exemplo 56 foram calculados os desvios em relação à média para os dados do Exemplo 41 Calcule a variância Solução TABELA 53 Cálculo da variância Observação Desvio X xx 3 36 3 6 660 5 561 7 761 9 96 3 A soma dos quadrados dos desvios é A variância é 2 20 s 5 4 Quadrado do desvio xxf 32 9 020 12 1 l2 1 329 A variância quantifica a variabilidade dos dados em termos de desvios da média ao quadrado mas embora seja referida como média dos qua drados dos desvios usamos o divisor n1 em lugar de n Esse divisor n1 são os graus de liberdade 2 associados à variância 532 Definindo o desvio padrão É importante notar que o cálculo da variância envolve quadrados de des vios Então a unidade de medida da variância é igual ao quadrado da me dida das observações Veja o Exemplo 58 as observações são medidas em minutos Então a variância é dada em minutos ao quadrado o que não tem sentido prático 2A soma dos desvios é sempre zero Então dados os valores de n 1 desvios é possível calcular o valor do que estiver faltando Reveja o exemplo 56 que tem n 5 desvios Dados quatro de les por exemplo 3 O 1 e 1 é fácil verificar que a soma deles é 3 Para que seja zero é pre ciso somar 3 exatamente o desvio que não foi incluído na soma Os graus de liberdade repre sentam o número de desvios que estão livres para variar podem ter qualquer valor o últi mo estã determinado porque a soma dos itesvíos é necessariamente zero 9 5 Introdução à Bioestatística Para obter uma medida de variabilidade na mesma unidade de medida dos dados extraise a raiz quadrada da variância Obtémse assim o des vio padrão Desvio padrão é a raiz quadrada da variância com sinal positivo Exemplo 58 Calculando o desvio padrão É dada a duração em minutos das chamadas telefônicas feitas em três consul tórios médicos Calcule a média a variância e o desvio padrão Solução TABELA 54 Tempo em minutos de chamadas telefônicas feitas em uma manhã em três consultórios médicos Consultório A Consultório 8 Consultório C 4 9 9 6 1 1 4 5 1 6 5 2 5 1 8 5 9 9 TABELA 55 Estatísticas calculadas Estatísticas Consultório A Consultório 8 Consultório C Média 5 5 5 Variãncia 08 128 164 Desvio padrão 089 358 405 Capítulo 5 Medidas de Dispersão para uma Amostra 9 1 A duração em minutos das chamadas telefônicas feitas nos três consultórios mé dicos foi em média a mesma isto é 5 minutos No entanto a duração das cha madas variou muito de consultório para consultório Compare por exemplo o des vio padrão 089 minuto do consultório A com o desvio padrão 405 minutos no consultório C 533 Uma fórmula prática para calcular a variância A fórmula dada na Seção 531 para calcular a variância da amostra pode ser desenvolvida algebricamente Obtémse então uma segunda fórmula que embora pareça mais complicada à primeira vista permite que o cál culo da variância seja feito com menor número de operações aritméticas Prefira esta segunda fórmula se você faz cálculos à mão Lx2 rx2 s2 n n 1 Exemplo 59 Calculando a variância pela fórmula prática São dados os tempos em minutos que seis meninos permaneceram sobre seus skates 4 6 4 6 5 5 Calcule a variância usando a nova fórmula Solução TABELA 56 Cálculo da variância X Xz 4 16 6 li 4 16 6 li 5 25 5 25 LX30 Lx2 154 Então a variância é 154 302 s2 6 08 s 9 8 Introdução à Bioestatística 54 COEFICIENTE DE VARIAÇÃO O coeficiente de variação é a razão entre o desvio padrão e a média O resul tado é multiplicado por 100 para que o coeficiente de variação seja dado em porcentagem Então s CV xlOO X Para entender como se interpreta o coeficiente de variação imagine dois grupos de pessoas no primeiro grupo as pessoas têm idades 3 1 e 5 anos e a média é evidentemente 3 anos no segundo grupo as pessoas têm ida des 55 57 e 53 anos com média de 55 anos Observe que nos dois grupos a dispersão dos dados é a mesma ambos têm variância s2 4 Mas as diferenças de 2 anos são muito mais importantes no primeiro grupo que tem média 3 do que no segundo grupo que tem média 55 Agora veja os coeficientes de variação No primeiro grupo o coeficiente de variação é 2 CV X 100 66 67 3 e no segundo grupo o coeficiente de variação é CV2 55 X 100 3 64 Um coeficiente de variação de 6667 indica que a dispersão dos da dos em relação à média é muito grande ou seja a dispersão relativa é alta Um coeficiente de variação de 364 indica que a dispersão dos dados em relação à média é pequena Em outras palavras diferenças de 2 anos são relativamente mais importantes no primeiro grupo que tem média 3 o coeficiente de variação é 6667 do que no segundo grupo que tem mé dia 55 o coeficiente de variação é 364 Então o coeficiente de varia ção mede a dispersão dos dados em relação à média É importante notar que o coeficiente de variação pode ser expresso em porcentagem porque é adimensional isto é não tem unidade de medida Isto acontece porque média e desvio padrão são medidos na mesma unidade de medida então elas se cancelam Por ser adimensional o coeficiente de variação é útil para comparar a dispersão relativa de variáveis medidas em diferentes unidades Veja o Exercício 553 Capítulo 5 Medidas de Dispersão para uma Amostra 9 9 55 EXERCÍCIOS RESOLVIDOS 551 São dados os níveis de colesterol de cinco pessoas 260 160 200 210 240 Calcule média e a variância TABELA 57 Cálculo da média e da variância Nível de colesterol Desvio em relação à média Quadrado do desvio 260 46 2116 160 54 2916 200 14 196 210 4 16 240 26 676 Para obter a média é preciso calcular a soma dos níveis de colesterol 260 160 200 210 240 1070 A média é X lOO 214 Ü 5 Verifique que a soma dos desvios das observações em relação à média é igual a zero 4654144 26 Ü Para obter a variância é preciso calcular 462 542 142 4 2 262 2116 291619616 676 5920 A variância é s2 5920 148000 4 552 Dados os seguintes conjuntos de dados veja qual tem menor variância e quais têm maior variância sem fazer cálculos a 7 7 7 7 b6778 e 6 8 10 12 d QPセQPセ 110 112 O conjunto a tem a menor variâiilcia pois os dados são iguais entre si Os conjuntos c e d têm variâncias iguais variam de 2 em 2 e maiores do que as dos outros dois 111 Introdução à Bioestatística 553 Calcule a média o desvio padrão e o coeficiente de variação dos dados apresentados na Tabela 58 Comente os resultados TABELA 58 Peso em quilogramas e comprimento em centímetros de 10 cães 1 Peso Comprimento 23 104 l2 107 21 103 21 105 17 100 28 104 19 108 14 91 19 102 19 99 a Para peso a média é 203 kg e o desvio padrão é 374 kg O coeficiente de variação é 1842 b Para comprimento a média é 1023 cm e o desvio padrão é 485 cm O coeficiente de variação é 474o Não se podem comparar desvios padrões de peso e comprimento porque as unidades de medida são diferentes Mas os coeficientes de variação po dem ser comparados porque são adimensionais É fácil ver que a dispersão relativa dos dados de peso CV 1842 é maior do que a dispersão rela tiva dos dados de comprimento CV 474o Isto significa que os dados de comprimento variam menos em relação à média do que os dados de peso 554 Determine os quartis3 do conjunto de dados 1 2 2 5 5 7 8 10 11 11 Os dados já estão ordenados Para obter a mediana note que o número de dados é par Então a mediana é a média dos dois valores centrais ou seja de 5 e 7 que é 6 1 2 2 5 5 7 8 10 11 11 セ Os métodos usados para calcular os quartis têm pequenas diferenças Se você calcular os quartis para o Exemplo 45 usando o Excel encontrará 1 quartil 275 3 quartil 95 Não é o méto do ensinado aqui Capítulo 5 Medidas de Dispersão para uma Amostra 1 11 Para obter o primeiro quartil separe os dados menores do que a medi ana 6 O primeiro quartil é a mediana desses dados ou seja é 2 1 2 2 5 5 Para obter o terceiro quartil separe os dados iguais ou maiores do que a mediana O terceiro quartil é a mediana desses dados ou seja é 10 7 8 10 11 11 1t 555 Para comparar dois programas de treinamento para executar um servi ço especializado foi feito um experimento Dez homens foram seleciona dos ao acaso para serem treinados pelo método A e outros 1 O para serem treinados pelo método B Terminado o treinamento todos os homens fi zeram o serviço e foi registrado o tempo em que cada um desempenhou a tarefa Os dados estão na Tabela 59 Desenhe dois diagramas de caixa e compare TABELA 59 Tempo em minutos despendido em executar o serviço segundo o método de treinamento Método 1 A B 15 Z3 20 31 11 13 Z3 19 16 Z3 21 17 18 28 16 26 27 25 24 28 1 11 Z Introdução à Bioestatística Método A Mínimo 11 Primeiro quartil16 Mediana 19 Terceiro quartil 23 Máximo 27 Método B Mínimo 13 Primeiro quartil19 Mediana 24 Terceiro quartil 28 Máximo 31 セ 32 28 1 o 24 e E o 20 1 e E セ 16 12 8 A B Método FIGURA S2 Comparação de dois diagramas de caixa A Figura 52 mostra que a mediana do tempo despendido por homens treinados pelo método A foi menor A variabilidade é pra ticamente a mesma para os dois métodos Prefira o método A Capítulo 5 Medidas de Dispersão para uma Amostra 1 13 556 Caltvle a variância e o desvio padrão dos dados apresentados na Tabe la 4 9 do Capítulo 4 em cada idade Comente o resultado A variância é dada pela fórmula Usando uma calculadora obtémse a Para 30 dias de idade Ix2 33305 Ix 509 Ix2 259081 b Para 34 dias de idade Ix2 46043 Ix 597 Ix2 356409 c Para 38 dias de idade y 54765 Ix 651 Ix2 423801 d Para 42 dias de idade y 74417 Ix 757 Ix2 573049 e Para 46 dias de idade Ix2 92041 Ix 845 Ix2 714025 Para calcular o desvio padrão basta extrair a raiz quadrada da variância Os valores dos desvios padrões estão apresentados na Tabela 510 É fácil ver que os desvios padrões aumentam com a idade Portanto a dispersão dos dados em torno da média aumenta com a idade TABELA 510 Desvio padrão do peso em gramas de grupos de oito ratos machos da raça Wistar segundo a idade em dias Idade Desvio padrão IJ 115 34 146 38 160 42 199 46 200 114 Introdução à Bioestatística 56 EXERCÍCIOS PROPOSTOS 561 Dados os valores 5 3 2 e 1 ache a I mínimo b o máximo c a am plitude 562 Dados os valores 3 8 5 6 4 3 e 6 ache a Ix b Lx x 2 5 63 Calcule a média e o desvio padrão para o seguinte conjunto de dados 3 9 4 1 3 564 A variância de uma amostra é 100 e a soma de quadrados dos desvios é 500 Qual é o tamanho da amostra 565 A média das idades das quatro pessoas que estão reunidas em uma sala é 20 anos e a variância é zero Se uma pessoa com 40 anos entrar na sala qual será a idade média do novo grupo e qual será a variância 566 São dadas na Tabela 511 as notas de três alunos em cinco provas Calcu le para cada aluno a média e o desvio padrão das notas obtidas Discuta TABELA 511 Notas de quatro alunos em cinco provas Aluno f prova ZJ prova 3 prova 41 prova 5 prova Antônio 5 5 5 5 5 João 6 4 5 4 6 Pedro 10 10 5 o o 5 6 7 Responda às questões a O valor do desvio padrão pode ser maior do que o valor da média b O valor do desvio padrão pode ser igual ao va lor da média c O valor do desvio padrão pode ser negativo d Quando o desvio padrão é igual a zero 568 Calcule a variância o desvio padrão e o coeficiente de variação para os dados apresentados no Exercício 465 do Capítulo 4 569 Os tempos de latência em minutos de um analgésico em seis pacientes foram 4 6 4 6 5 5 Calcule a média e a variância Capítulo 5 Medidas de Dispersão para uma Amostra 1 15 5610 Responda às questões a qual é a desvantagem de usar a amplitude para comparar a variabilidade de dois conjuntos de dados b a variância pode ser negativa c a variância pode ser menor do que o desvio padrão 5611 Um professor de Odontologia quer saber se alunos que começam a aten der pacientes em disciplinas clínicas têm aumento na pressão sistólica Mediu então a pressão sistólica de cinco alunos de primeiro ano que não cursam disciplinas clínicas e de cinco alunos do segundo ano logo an tes do primeiro atendimento de pacientes Os dados estão na Tabela 512 Calcule as médias e os desvios padrões Discuta TABELA 512 Pressão sangüínea sistólica em milímetros de mercúrio de alunos segundo o ano que cursavam fR ano 113 121 115 123 118 セ ョッ 126 131 146 126 126 5612 Para verificar se duas dietas indicadas para pessoas que precisam per der peso são igualmente eficientes um médico separou ao acaso um con junto de 12 pacientes em dois grupos Cada paciente seguiu a dieta de signada para seu grupo Decorrido certo tempo o médico obteve a perda de peso em quilogramas de cada paciente de cada grupo Os dados es tão na Tabela 513 Calcule as médias e as variâncias Discuta TABELA 513 Perda de peso em quilogramas segundo a dieta A 8 5 6 7 4 6 Dieta B 7 8 2 5 12 8 115 Introdução à Bioestatística 5 613 Calcule as médias e os desvios padrões das notas obtidas por alunos dos cursos diurnos e noturnos de uma universidade brasileira no Exame Na cional de Cursos Provão em determinado ano Compare TABELA 514 Notas obtidas por alunos de determinada universidade no Exame Nacional de Cursos Provão em determinado ano Curso Curso diurno Curso noturno Administração 512 471 Direito 551 59 Matemática 433 357 Letras 46 466 Flsica 43 43 Ouimica 466 465 Ciências biológicas 495 426 Pedagogia 633 582 História 293 298 Noções sobre Correlação 6 página deixada intencionalmente em branco Capítulo 6 Noções sobre Correlação 1 19 Você já deve ter ouvido falar que a pressão arterial aumenta quando a idade avança Você também já deve ter ouvido falar que o desempenho de um atle ta melhora com o treinamento E você provavelmente já ouviu dizer que o número de cáries diminui com uma higiene oral bemfeita Estes exemplos mostram que existem relações entre variáveis ou em linguagem nada téc nica que existem variáveis que andam juntas 61 DIAGRAMA DE DISPERSÃO Vamos pensar em duas variáveis numéricas e só para facilitar vamos chamar uma delas de X e a outra de Y Então cada unidade da amostra for nece dois valores numéricos um referente à variável X outro referente à variável Y Você já sabe calcular a média o mínimo o máximo e o desvio padrão de cada uma das duas variáveis Mas neste Capítulo vamos buscar responder às questões a Existe relação entre as variáveis X e Y b Que tipo de relação existe entre elas c Qual é o grau da relação Para estudar a relação entre duas variáveis numéricas você pode fazer um gráfico da seguinte maneira Trace um sistema de eixos cartesianos e represente uma variável em cada eixo Estabeleça as escalas de maneira a dar ao diagrama o aspecto de um quadrado Escreva os nomes das variáveis nos respectivos eixos e faça depois as graduações Desenhe um ponto para representar cada par de valores das variáveis O gráfico assim obtido é chamado diagrama de dispersão O diagrama de dispersão permite visualizar a relação entre duas variáveis Se X e Y cres cem no mesmo sentido existe uma correlação positiva entre as variáveis Se X e Yvariam em sentidos contrários existe correlação negativa entre as va riáveis Exemplo 61 Correlação positiva e correlação negativa A Tabela 61 apresenta dois conjuntos de pares de valores das variáveis X e Y A correlação é positiva no Conjunto A porque X e Y crescem juntas a correlação é negativa no Conjunto B porque X cresce enquanto Y decresce Observe os diagra mas de dispersão da Figura 61 é mais fácil ver a relação que existe entre as va riáveis nos diagramas 111 Introdução à Bioestatística TABELA 61 Dois conjuntos de pares de valores de duas variáveis Conjunto A ConjuntoB X y X y 1 2 8 2 o 2 12 3 6 3 8 4 3 4 10 5 9 5 4 6 4 6 9 7 10 7 3 8 8 8 6 9 12 9 o 10 8 10 2 Solução 14 14 12 12 10 10 Q 8 Q 8 6 6 4 4 2 2 o l o 2 4 6 8 10 12 o 2 4 6 8 10 12 Variável X Variável X Conjunto A Conjunto B FIGURA 61 Correlação positiva à esquerda e correlação negativa à direita Capítulo 6 Noções sobre Correlação 111 A correlação será tanto maior quanto menor for a dispersão dos pon tos O Exemplo 62 apresenta três gráficos com correlação positiva quan do os pontos estão muito espalhados como no conjunto A a correlação é fraca Quando os pontos estão concentrados em torno de uma reta imagi nária como no conjunto B a correlação é forte Exemplo 62 Correlação fraca correlação forte correlação perfeita A Tabela 62 apresenta três conjuntos de pares de valores das variáveis X e Y a correlação é fraca no Conjunto A é forte no Conjunto B e é perfeita porque os pontos estão sobre a reta no Conjunto C É fácil apreender a intensidade da cor relação entre as variáveis de cada um dos conjuntos observando os diagramas de dispersão da Figura 62 TABELA 62 Três conjuntos de pares de valores de duas variáveis Conjunto A Conjunto B Conjunto C X y X y X y 1 6 1 2 1 3 2 3 2 6 2 4 3 5 3 5 3 5 4 7 4 8 4 6 5 2 5 6 5 7 6 11 6 9 6 8 7 9 7 10 7 9 8 3 8 8 8 10 9 6 9 12 9 11 10 8 10 10 10 12 11 2 Introdução à Bioestatística Correlação fraca Correlação forte 14 14 12 12 10 10 Q 8 Q 8 6 6 4 4 2 2 o o o 2 4 6 8 10 12 o 2 4 6 8 Variável X Variável X Conjunto A Correlação perfeita QT セ セ 12 10 Q 8 6 4 2 o Conjunto B o 2 4 6 8 10 12 Variável X Conjunto C FIGURA 62 Correlações fraca forte e perfeita 10 12 Pode acontecer no entanto de a variação de Y não estar relacionada com a variação de X Nesses casos o diagrama de dispersão mostra que X cresce e Yvaria ao acaso Dizemos então que a correlação entre as variáveis é nula ou o que é o mesmo que não existe correlação entre as variáveis Capítulo 6 Noções sobre Correlação 113 Exemplo 63 Correlação nula A Tabela 63 apresenta um conjunto de pares de valores das variáveis X e Y O dia grama de dispersão apresentado na Figura 63 mostra que não existe qualquer tipo de relação entre as variáveis TABELA 63 Pares de valores de duas variáveis X y 1 3 2 1 3 6 4 4 5 3 6 2 7 6 8 4 9 3 10 2 Solução Correlação nula 10 8 6 Q 4 co 2 o o 2 4 6 8 10 12 Variável X FIGURA 63 Correlação nula 11 4 Introdução à Bioestatística Quando você olha o diagrama de dispersão vê o tipo de relação en tre as variáveis Se os pontos estão dispersos em torno de uma reta como acontece nos dois conjuntos de dados mostrados no Exemplo 61 a rela ção entre as variáveis é linear Algumas variáveis têm relação nãolinear Veja o Exemplo 64 a relação entre as variáveis é nãolinear Neste livro porém serão estudadas apenas as relações lineares entre duas variáveis Exemplo 64 Relação nãolinear entre duas variáveis Observe o diagrama de dispersão da Figura 64 que apresenta os dados X e Y da Tabela 64 Note que a relação entre as variáveis é nãolinear TABELA 64 Uma relação nãolinear entre duas variáveis X y 15 10 20 20 30 30 40 35 50 30 60 20 65 10 40 30 Q 20 10 oo oo 20 40 60 80 Variável X FIGURA 64 Uma relação nãolinear entre duas variáveis Capítulo 6 Noções sobre Correlação 115 62 COEFICIENTE DE CORRELAÇÃO Existe uma medida para o grau de correlação linear entre duas variáveis nu méricas1 Essa medida é o coeficiente de correlação de Pearson que se re presenta por r e é definido pela fórmula Para entender como se aplica esta fórmula veja o Exemplo 65 e o Exem plo 66 Os dados já foram apresentados na Tabela 61 e na Figura 61 Exemplo 65 Cálculo do coeficiente de correlação Reveja os dados apresentados na Tabela 61 Calcule o coeficiente de correlação para os dados do Conjunto A Para obter o coeficiente de correlação entre X e Yforam feitos os cálculos interme diários que estão na Tabela 65 Na última linha dessa tabela estão os somatórios TABELA 65 Cálculos intermediários para a obtenção do coeficiente de correlação Conjunto A da Tabela 61 Conjunto A X y XY x2 y2 1 2 2 1 4 2 o o 4 o 3 6 18 g E 4 3 12 16 g 5 g 45 25 81 6 4 24 36 16 7 10 70 49 100 8 8 64 64 64 g 12 108 81 144 10 8 80 100 64 LX 55 lY62 LXY423 IX2 385 1Y2 518 1 Para estudar a correlação entre variáveis ordinais calculase o coeficiente de correlação de Spear man Veja em VIEIRA S Bioestatística Tópicos Avançados Rio de Janeiro CampusElsevier 2004 11 5 Introdução à Bioestatística Substituindo na fórmula os somatórios pelos valores calculados na Tabela 65 e lembrando que n é o tamanho da amostra no exemplo n 10 obtemos 423 55x62 イ MZッセMセ ャセ o セ 385 it s 18 セG 82 r J825x 1336 r 0781 Exemplo 66 Cálculo do coeficiente de correlação Reveja os dados apresentados na Tabela 61 Calcule o coeficiente de correlação para os dados do Conjunto B Para obter o coeficiente de correlação entre X e Y foram feitos os cálculos inter mediários apresentados na Tabela 66 Na última linha dessa tabela estão os somatórios TABELA 66 Cálculos intermediários para a obtenção do coeficiente de correlação Conjunto B da Tabela 61 ConjuntoB X y XY x2 y2 1 8 8 l 64 2 12 24 4 144 3 8 24 9 64 4 10 40 16 100 5 4 20 25 16 6 9 54 36 81 7 3 21 49 9 8 6 48 64 36 9 o o 81 o 10 2 20 100 4 D55 lY 62 DY259 lX2 385 lY2 518 Capítulo 6 Noções sobre Correlação 117 Substituindo na fórmula os somatórios pelos valores calculados na Tabela 66 e lembrando que n é o tamanho da amostra no exemplo n 10 obtemos 259 55x62 r 10 セ SXU セ G 518 セ G 82 r Jc825x1336 r 0781 O coeficiente de correlação varia entre 1 e 1 inclusive isto é 1 セ r セ 1 Veja então como se interpreta o valor do coeficiente de correlação r 1 correlação perfeita positiva r 1 correlação perfeita negativa r O correlação nula O r 1 correlação positiva 1 r O correlação negativa Nas ciências físicas são encontrados valores grandes para os coeficien tes de correlação mas nas ciências da saúde os coeficientes de correlação são bem menores devido à grande variabilidade dos fenômenos biológicos Nas ciências do comportamento são raros coeficientes de correlação iguais ou maiores do que 070 Em nenhuma ciência porém você encontra coe ficientes de correlação iguais a 1 ou iguais a 1 Mas que valor deve ter o coeficiente de correlação para que a relação entre as variáveis seja julgada por exemplo forte Para ter significado es tatístico o valor do coeficiente de correlação r deve ser julgado consi derando o tamanho da amostra n por meio de um teste estatístico2 Uma regra prática para julgar o valor de r embora rudimentar3 é a seguinte O r 025 ou 025 r O correlação pequena ou nula 025 r 050 ou 050 r 025 correlação fraca 050 r 075 ou 0 75 r 050 correlação moderada 075 r 100 ou 1 r 075 correlação forte ou perfeita per feita ser 1 ou r 1 2 Veja o teste t no Capitulo 13 3 A regra é imprecisa mas serve como primeira aproximação Ainda valores de r entre 030 e 030 embora possam ter significância estatística não são perceptíveis nos diagramas ln COLTON T Statistics in Medicine New York Little Brown and Company 1974p 20911 111 Introdução à Bioestatística Exemplo 65 Altura e peso de pessoas Um fisioterapeuta mediu altura X em metros e peso Y em quilogramas de 22 homens Como se estuda a correlação entre essas variáveis TABELA 67 Altura em metros e peso em quilogramas de 22 homens Número Altura Peso Número Altura Peso 1 170 llO 12 180 75 2 168 68 13 179 71 3 175 85 14 175 70 4 168 67 15 178 87 5 165 68 16 177 9J 6 180 102 17 180 80 7 175 llO 18 185 85 8 170 llO 19 178 70 9 160 50 20 180 80 10 182 85 21 175 82 11 164 43 22 170 50 Com um diagrama de dispersão você vê a relação entre as variáveis Parecera zoável considerar que a relação é linear e positiva 120 100 80 o llO Q o 40 20 o 150 160 170 180 190 Altura FIGURA 65 Altura em metros e peso em quilogramas de 22 homens Capítulo 6 Noções sobre Correlação 11 9 O valor do coeficiente de correlação que mede o grau de correlação entre as variáveis e você pode calcular é r 0747 que pode ser considerada uma correlação positiva forte Portanto o peso de um homem está altamente correlacionado com a sua altura 63 PRESSUPOSIÇÕES Para calcular o coeficiente de correlação é preciso que algumas pressu posições estejam satisfeitas 1 As unidades medidas foram selecionadas ao acaso ou pelo me nos são representativas de uma grande população 2 Cada unidade deve fornecer tanto valores de X como de Y 3 As variáveis X e Y devem ser medidas independentemente Se os va lores de Y foram obtidos por uma fórmula que inclui X o coefici ente de correlação nunca será zero Por exemplo se você calcular o coeficiente de correlação entre as notas de aprovação em um curso com as notas obtidas na primeira prova e a nota de aprovação in cluir a nota obtida na primeira prova o coeficiente de correlação N nao sera zero 64 CUIDADOS NA INTERPRETAÇÃO DO COEFICIENTE DE CORRELAÇÃO O diagrama de dispersão dá idéia da relação entre duas variáveis O coe ficiente de correlação de Pearson mede apenas a relação linear entre duas variáveis numéricas Mas para que o valor de r estudado aqui tenha sig nificado é preciso que no diagrama de dispersão os pontos estejam es palhados em tomo de uma linha reta Portanto antes de calcular o valor de r convém desenhar um diagrama de dispersão se a relação não for li near o valor de r não mede a relação entre as variáveis Outro ponto importante é saber que correlação não implica causa Uma correlação positiva entre duas variáveis mostra que essas variáveis cres cem no mesmo sentido mas não indica que aumentos sucessivos em uma das variáveis causam aumentos sucessivos na outra variável Da mesma forma uma correlação negativa entre duas variáveis mostra apenas que elas variam em sentidos contrários mas não indica que acréscimos em uma das variáveis causam decréscimos na outra variável Mas cuidado com o chavão correlação não significa causa Afinal pode existir uma relação de causa e efeito entre as variáveis 1 Z 1 Introdução à Bioestatística De qualquer forma um exemplo antigo mas muito interessante foi dado por um estatístico que mostrou que havia correlação positiva entre o número de recém nascidos e o número de cegonhas em uma pequena ci dade da Dinamarca4 no decorrer dos anos 30 A correlação entre essas duas variáveis é espúria não indica relação de causa e efeito Existe uma tercei ra variável o crescimento da cidade que implicava tanto no número de recémnascidos quanto maior a cidade mais crianças nascem quanto no número de casas com chaminés perto das quais as cegonhas faziam seus ninhos 65 EXERCÍCIOS RESOLVIDOS 651 Calcule os coeficientes de correlação para cada um dos três conjuntos de dados apresentados no Exemplo 62 Solução Para o conjunto A IX 55 IY 60 IXY 352 IX2 385 LY2 434 Portanto r 0282 Para o conjunto B IX 55 LY 76 IXY 487 IX2 385 lY2 654 Portanto r 0869 Para o conjunto C IX 55 lY 75 IXY 495 IX2 385 lY2 645 Portanto r 1000 652 Em um trabalho sobre acumulação de placa dental em pacientes jovens foi obtido tanto um índice clínico para medir a quantidade de placa como o peso seco das placas em miligramas Os dados estão na Tabela 68 Cons trua um diagrama de dispersão Você acha que existe correlação entre as medidas Se existe a correlação é linear 4 O exemplo é de Gustav Fischer que apresentou em grãfico a população da cidade de Oldenburg durante sete anos de 1930 a 1936 e o número de cegonhas observadas em cada ano ln BOX G E P HUNTER W G HUNTER J S Statistics for experimenters New York Wiley 1978 Capítulo 6 Noções sobre Correlação 1 i 1 Solução TABELA 68 Peso seco em miligramas das placas dentais de 10 pacientes e índice clínico Peso seco Índice clínico 23 25 28 45 35 fí 37 ffi 58 00 69 100 82 120 105 128 119 132 142 135 160 140 o 120 u 5 100 e 00 セQ C e 60 40 20 o o 2 4 6 8 10 12 14 16 Peso seco das placas FIGURA 66 lndice clínico e peso seco em miligramas das placas dentais em 10 pacientes Existe correlação positiva entre as variáveis pois ambas crescem no mesmo sentido No entanto essa correlação é nãolineaP 5 Existe uma explicação para o fato o índice clínico mede apenas a extensão da ãrea coberta pelas placas e não o volume que determina o peso 1 2 2 Introdução à Bioestatística 653 Faça um diagrama de dispersão e calcule o coeficiente de correlação para os dados apresentados na Tabela 69 Discuta o resultado TABELA69 Peso em quilogramas e comprimento em centímetros de sete recémnascidos 1 Peso Comprimento 35 51 37 49 31 48 42 53 28 48 35 Il 32 49 54 o e 53 co e E 52 Q セQ 51 Q Il o e Q 49 M セセe 48 E o 47 25 3 35 4 45 Peso de recémnascidos FIGURA 67 Peso em quilogramas e comprimento em centímetros de sete recémnascidos Capítulo 6 Noções sobre Correlação 1i3 TABELA 610 Cálculos intermediários para obtenção do coeficiente de correlação Peso X Comprimento Y x2 y2 XY 35 51 1225 2601 1785 37 49 1369 2401 1813 31 48 961 2304 1488 42 53 1764 2809 2226 28 48 784 2304 1344 35 50 12 25 2500 175 32 49 1024 2401 1568 LX24 1Y 348 1X2 8352 IY2 17320 1XY 11974 Usando a fórmula obtémse r 0869 ou seja existe correlação posi tiva alta entre peso e comprimento de recémnascidos 654 A Tabela 611 fornece o peso a estatura e o IMC índice de massa cor poral de 10 pessoas É razoável calcular os coeficientes de correlação das três variáveis combinadas duas a duas Por exemplo altura versus peso altura versus IMC peso versus IMC TABELA 611 Peso em quilogramas estatura em centímetros e IMC de 10 pessoas 1 Altura Peso IMC 156 535 2198 158 584 2339 161 592 2284 162 532 2027 165 64 2351 172 575 1944 173 67 2239 174 ffi 2180 179 77 2403 18 ffi 2037 1 2 4 Introdução à Bioestatística Solução O IMC é dado pela fórmula IMC Peso Altura x Altura e indica a condição da pessoa como segue IMC Condição Abaixo de 185 Abaixo do peso De 185 a 249 Peso normal De 25 a 299 Sobrepeso De 30 a 349 Obesidade grau 1 De 35 a 399 Obesidade grau li 4D e mais Obesidade grau Ili É perfeitamente cabível calcular a correlação entre peso e altura mas nunca de qualquer dessas variáveis contra IMC uma vez que esta variável é calculada a partir das outras duas Calcular a correlação entre peso e IMC ou entre altura e IMC por exemplo entraria em conflito com a pressupo sição de independência 66 EXERCÍCIOS PROPOSTOS 661 Explique o que cada um dos seguintes coeficientes de correlação infor ma sobre a relação entre X e Y a r 1 b r 1 c r O d r 090 e r 090 662 Sem ver os dados que tipo de correlação você espera entre a idade de pessoas adultas e velocidade de corrida b número de vendedores na loja e volume de vendas feitas por dia c a estatura de um homem e o núme ro de dentes presentes na boca 663 Um estudo mostrou que a taxa de morte por doenças do coração era maior entre motoristas de ônibus do que entre cobradores A princípio se pensou que o tipo de trabalho fosse a maior causa da doença mas depois se notou que o tamanho dos uniformes que se fornecia aos motoristas era sempre bem maior que o dos cobradores O que isto sugere a você Capítulo 6 Noções sobre Correlação 1 i 5 6 6 4 Os valores de X e Y devem ser medidos na mesma unidade para que se possa calcular o coeficiente de correlação 665 Indique a afirmativa que mais bem descreve o diagrama a o diagra ma b e o diagrama c apresentados na Figura 68 1 Forte correlação positiva 2 Forte correlação negativa 3 Correlação nula ou próxima de nula 4 Correlação positiva fraca 5 Correlação negativa fraca 6 Correlação perfeita positiva 7 Correlação perfeita negativa a FIGURA 68 Diagramas de dispersão e b 1 2 5 Introdução à Bioestatística 666 Preencha os vazios O maior valor possível para o coeficiente de correlação é Se todos os pontos caírem exatamente sobre uma reta o valor de r será ou dependendo de a correlação ser ou Se todos os pontos estiverem espalhados ao acaso no diagrama de dispersão o coeficiente de correlação terá valor pró ximo de Quanto mais próximos de uma reta estiverem to dos os pontos será o valor absoluto de r 667 A correlação entre idade e expectativa de vida é a positiva b nula e negativa d irregular 668 O diagrama de dispersão dever ser feito para estabelecer a se as variáveis estão ou não correlacionadas b se as variáveis são positivas e se as variáveis são negativas d a qualidade das variáveis 669 Faça um diagrama de dispersão e calcule o coeficiente de correlação para os dados apresentados na Tobela 612 Discuta o resultado TABELA 612 Dados relativos a duas variáveis X e Y 1 X y 3 2 5 2 4 7 2 7 1 2 Capítulo 6 Noções sobre Correlação 1 i 1 6610 Faça diagramas de dispersão e calcule os valores der para os conjun tos de dados da Tabela 613 TABELA 613 Dois conjuntos de pares de valores de duas variáveis 1 Conjunto A Conjunto B X y X y 1 1 1 1 2 3 15 2 3 6 3 3 4 5 45 2 5 8 5 1 6611 Se todos os valores de Y forem iguais qual será o valor der 6612 Calcule o coeficiente de correlação para os dados apresentados na Ta bela 614 TABELA 614 Idade gestacional em semanas e peso ao nascer em quilogramas de recémnascidos 1 Idade gestacional Peso ao nascer 28 125 32 125 35 175 38 225 39 325 41 325 42 425 6613 Calcule os coeficientes de correlação de Pearson para os dados dos dois conjuntos a seguir Discuta a razão de os valores de r serem tão diferen tes embora os dados sejam tão semelhantes 1 Z 1 Introdução à Bioestatística TABELA 615 Dois conjuntos de pares de valores de duas variáveis 1 Conjunto A Conjunto 8 X y X y 1 2 1 2 2 4 2 4 3 6 3 6 4 8 4 8 5 10 5 o 6614 Suponha que os seguintes dados6 foram obtidos de pacientes com enfi sema X é o número de anos que o paciente fumou e Y é a avaliação uma nota do próprio médico do paciente sobre a diminuição da capacidade pulmonar medida numa escala de zero a 100 Os resultados para 10 pacientes estão na Tabela 616 Calcule o valor do coeficiente de corre lação Saiba que LXY 18055 IX2 11053 EY2 30600 TABELA 616 Tempo do hábito de fumar X em anos e diminuição da capacidade pulmonar Y avaliada pelo médico do paciente Número do paciente X Y 1 2 3 4 5 6 7 8 9 10 25 36 22 15 48 39 42 31 28 33 55 00 50 30 75 70 70 55 30 35 OTT L e MENDENHALL W Understanding Statistics Belmont Wadsworth 6 ed 1994 p 487 Capítulo 6 Noções sobre Correlação 1 9 6615 O volume máximo de oxigênio inalado VOnáx tem sido usado como medida da situação cardíaca tanto de indivíduos saudáveis como de pes soas que sofrem de doenças cardíacas Os dados de VO náx em mililitros por quilograma por minuto para 12 homens saudáveis depois de exercí cios estão na Tabela 617 Desenhe um diagrama de dispersão Olhando o diagrama você diria que VO náx diminui quando aumenta a atividade TABELA 617 Duração do exercício em minutos e V02 máx em mililitros por quilograma por minuto para 12 homens saudáveis 1 Duração do exercício VOfáX 10 82 95 73 102 ffi 105 74 11 ffi 113 63 116 58 12 54 12 1 ffi 125 51 128 55 13 44 7 OTI L e MENDENHALL W Understanding St atistics Belmont Wadsworth 6 ed 1994 p 503 página deixada intencionalmente em branco Noções sobre Regressão 7 página deixada intencionalmente em branco Capitulo 7 Noções sobre Regressão 133 O Capítulo 6 mostrou como se estuda a relação entre duas variáveis Mui tas vezes porém interessa estudar como uma variável varia em função da outra Por exemplo todos nós sabemos que as crianças crescem as va riáveis idade e altura têm correlação positiva mas é preciso saber tam bém como a altura de uma criança varia em função da idade Todos nós sa bemos que a população do Brasil aumentou nas últimas décadas Mas como e quanto Para dar uma primeira resposta a estas questões é importante desenhar um gráfico de linhas 7 1 GRÁFICO DE LINHAS Para aprender como se faz um gráfico de linhas vamos pensar em duas va riáveis numéricas e como fizemos no Capítulo 6 chamar uma delas de X e a outra de Y Então cada unidade da amostra fornece dois valores um para cada variável Quando se estuda a variação da variável Y em função da variável X diz se que Y é a variável dependente e que X é a variável explanatória Por exemplo altura de criança varia em função da idade Então altura é ava riável dependente e idade é a variável explanatória Quem trabalha na área de saúde costuma observar como uma variável évolui ao longo do térnpo Com os dados obsérvados dé Yao longo do témpo X é possível fazer um gráfico de linhas Para fazer esse gráfico Colete valores da variável Y nos tempos que você quer estudar Trace um sistema de eixos cartesianos represente o tempo X no eixo das abscissas e a variável Y no eixo das ordenadas Estabeleça as escalas e faça em cada eixo as necessárias graduações Escreva os nomes das variáveis nos respectivos eixos Desenhe um ponto para representar cada par de valores X Y Una os pontos por segmentos de reta Escreva o titulo Exemplo 71 Gráfico de linhas Na Tabela 71 são dados pares de valores das variáveis X e Y A variável X é o ano do Censo Demográfico do Brasil e a variável Y é a população residente Veja a Fi gura 7 1 o gráfico de linhas mostra o crescimento no período de forma a comple mentar os dados da Tabela 71 1 3 4 Introdução à Bioestatística TABELA 71 População residente no Brasil segundo o ano do censo demográfico Ano do censo População 19401 41236315 19501 51944397 19601 70191370 1970 93139037 1980 119002706 1991 145815796 2000 169799170 fonte IBGE 20031 180000 160000 140000 セ セ 120000 セ Q 100000 g 80000 u 3 e 60000 d 40000 20000 P KMNMLNMNMNMNMセMQ 1930 1940 1950 1960 1970 1980 1990 2000 201 o Ano do censo FIGURA 71 População residente no Brasil segundo o ano do censo demográfico IBGE Censo 2000 um retrato do Brasil na década de 90 Disponível em http wwwibgegovbr Acesso em abr 2003 Capitulo 7 Noções sobre Regressão 135 7 2 RETA DE REGRESSÃO A variação de Y em função de X deve ser observada no gráfico de linhas Se os pontos ficam dispersos em tomo de uma reta é razoável traçar uma reta no meio desses pontos A melhor reta melhor no sentido que tem proprie dades estatísticas desejáveis recebe o nome de reta de regressão2 São dadas nesta seção as fórmulas para obter essa reta Exemplo 72 A idéia de regressão Observe os dados apresentados na Tabela 72 Foi colocada a mesma quantidade de plasma humano em oito tubos de ensaio e depois se ajuntou em cada tubo uma quantidade fixa de procafna anestésico local Mediuse então em tempos diferentes a quantidade de procafna que já havia se hidrolisado O diagrama de dispersão apresentado na Figura 72 mostra que a quantidade de procafna hidro lisada varia em função do tempo decorrido após sua administração TABELA 72 Quantidade de procaína hidrolisada em 10 moleslitro no plasma humano em função do tempo em minutos decorrido após sua administração Tempo Quantidade hidrolisada 2 35 3 57 5 99 8 163 10 193 12 257 14 282 15 326 Muitos autores referemse à reta de regressão como reta de mínimos quadrados porque esse é o método estatístico utilizado para chegar às fórmulas dadas nesta Seção 1 3 5 Introdução à Bioestatística 35 31 co o 25 co Nセo セo 20 E Q o co 15 o e co 10 CI 5 o o 2 4 6 8 10 12 14 16 Tempo AGURA 72 Quantidade de procaína hidrolisada em 1 O moleslitro no plasma humano em função do tempo em minutos decorrido após sua administração Vamos discutir um pouco mais o Exemplo 72 Parece razoável concluir observando a Figura 7 2 que a variação da quantidade de procaína hidro lisada no plasma humano em função do tempo decorrido após sua adminis tração pode ser descrita por meio de uma reta de regressão Para ajustar uma reta de regressão isto é estabelecer a equação da reta aos dados apresentados na Tabela 7 2 é preciso obter o coeficiente linear e o coeficiente angular da reta também chamados coeficientes de regressão Convém lembrar o que são esses coeficientes No sistema de eixos cartesianos a equação Y a bX é uma reta O co eficiente linear da reta indicado neste livro por a dá a altura em que a reta corta o eixo das ordenadas Se a for um número positivo a reta corta o eixo das ordenadas acima da origem negativo a reta corta o eixo das ordenadas abaixo da origem zero a reta passa na origem do sistema de eixos cartesianos Capitulo 7 Noções sobre Regressão 13 7 Exemplo 73 Equação da reta coeficientes lineares diferentes y 10 y 5 9 4 8 3 7 2 6 1 5 o 4 1 3 2 X 2 3 1 4 o 5 o 1 2 3 X 4 y 10 9 8 Y2X 7 6 5 4 3 2 1 o o 1 2 3 X 4 FIGURA 7 J Apresentação gráfico de retas com diferentes coeficientes lineares O coeficiente angular da reta indicado neste livro por b dá a inclina ção da reta3 Se b for um número positivo a reta é ascendente negativo a reta é descendente zero a reta é paralela aos eixos das abscissas 3 O coeficiente angular chamado neste livro de b é a tangente trigonométrica do ângulo for mado pelo eixo das abscissas e pela reta de equação Y a bX 1 31 Introdução à Bioestatística Exemplo 74 Equação da reta coeficientes angulares diferentes y 10 y 5 9 4 Y 32X 8 3 7 2 6 1 5 o 4 1 1 3 3 2 2 3 X 1 4 o 5 o 1 2 3 X 4 y 10 9 8 7 6 Y3 5 4 3 2 1 o o 1 2 3 X 4 FIGURA 74 Apresentação gráfica de retas com diferentes coeficientes angulares Em Estatística o coeficiente angular da reta é obtido por meio da fór mula LXY LXLY b n I X セxIR n e o coeficiente linear é obtido por meio da fórmula a Y bX em que Y e X são as médias de Y e X respectivamente Veja o Exemplo 7 5 Capitulo 7 Noções sobre Regressão 139 Exemplo 75 Cálculo dos coeficientes de regressão Calcule a reta de regressão para o prolblema apresentado no Exemplo 72 TABELA 73 Cálculos intermediários para a obtenção de a e de b X V 2 35 3 57 5 99 8 163 10 193 12 257 14 282 15 326 69 1412 Aplicando as fórmulas obtémse 158912 69 xl412 b 8 2 767 69 8 XV 7 17 1 495 1304 193 3084 3948 489 15892 37135 216 171875 QTセR 69 a 8 2l6xs 098 2 4 9 25 64 100 144 196 225 767 Para traçar a reta de regressão é preciso dar valores arbitrários para X e depois calcular os valores de Y Indicamse os valores calculados de A Ypor Y Fazendo X 5 temse que A Y 098 216 X 5 982 e fazendo X 15 temse que A Y 098 216 X 15 3142 A A Os dois pares de valores X 5 e Y 982 e X 15 e Y 3142 per mitem traçar a reta de regressão 1 41 Introdução à Bioestatística Exemplo 76 Traçado da reta de regressão Apresente no diagrama de dispersão da Figura 72 a reta de equação セY 098 216 X 35 3J co O 25 co a o セO 20 E Q O 15 co O e co 10 o 5 o o 2 4 6 8 10 12 14 16 Tempo FIGURA 7 5 Reta de regressão quantidade de procaína hidrolisada em 1 O moleslitro no plasma humano em função do tempo em minutos decorrido após suo ッュゥョゥウエイッセッN A equação da reta de regressão permite estimar valores de Y para quaisquer valores de X dentro do intervalo estudado mesmo que tais va lores não existam na amostra Observe os dados apresentados na Tabela 7 2 Não existe o valor X 13 mas é possível estimar o valor de Y para X 13 Basta fazer セY Ü98 216 X 13 27lQ O valor Y 2710 é uma previsão feita com base na equação da reta de regressão para a quantidade dle procaína que deve estar hidrolisada 13 minutos após sua administração Dada a reta de regressão fica fácil calcular o valor de Y para qualquer valor de X No entanto o bom senso deve fazer com que você não estime valores de Y para valores de X muito além do intervalo estudado a ex trapolação pode levar ao absurdo porque a relação entre X e Y linear no intervalo estudado pode não ser linear fora desse intervalo É verdade que as pessoas tendem a prever com base no que se obser vou em determinado período o que acontecerá em outro período próximo ou longínquo A extrapolação é geralmente incorreta ou até desastrosa Por exemplo por volta dos 6 anos começam a irromper dentes permanen Capitulo 7 Noções sobre Regressão 141 tes em crianças mas isso só acontece até certa idade Ninguém espera pelo fato de terem irrompido quatro dentes numa criança entre os 7 e os 8 anos que isso ocorra entre 30 e 31 anos de idade Exemplo 77 A extrapolação indevida A Tabela 74 apresenta as temperaturas médias mensais nos primeiros sete me ses do ano de uma cidade do sul do Brasil Esses dados estão no diagrama de dis persão da Figura 76 Se alguém ajustar uma reta como a mostrada no diagrama e quiser usar essa reta para prever a temperatura na cidade em dezembro mês 12 chegará a um valor absurdo menor do que 2 graus negativos A razão disso é óbvia o fenômeno não é linear além do período estudado TABELA 74 Temperaturas médias segundo o mês de uma cidade do sul do Brasil Mês Janeiro Fevereiro Março Abril Maio Junho Julho Q E o e l2 O Õ E セco セto セQ a E セ Número do mês Temperatura média no mês 1 23 2 22 3 20 4 18 5 15 6 12 7 9 3J 25 A Y 266 239X 20 15 10 5 P KMNMNMNMセNMNMNMNMNセNMNMNM MQ o 1 2 3 4 5 6 7 8 9 10 11 12 Mês FIGURA 76 Reta ajustada às temperaturas rmédias de uma cidade do sul do Brasil segundo o mês 142 Introdução à Bioestatística 7 3 ESCOLHA DA VARIÁVEL EXPLANATÓRIA Quando os valores de X são fixados antes do início da coleta dos dados ajustase a regressão de Y contra X No Exemplo 7 2 o pesquisador fixou os tempos em que iria observar a quantidade de procaína que estaria hidrolisada no plasma antes de iniciar a pesquisa Então a quantidade de procaína hidrolisada depende do tempo em que foi medida não o con trário Nem sempre os valores de X são fixados antes do início dos trabalhos Nesses casos tanto se pode ajustar a regressão de Y contra X como a re gressão de X contra Y mas recomendase identificar a variável que deve ser prevista conhecido o valor da outra variável e ajustar a regressão de Y con tra X toda vez que se pretende estudar a variação de Y prever Y em fun ção da variação de X Exemplo 78 A escolha da variável explanatória Calcule a reta de regressão para os dados apresentados na Tabela 75 É razoável estudar a variação da pressão arterial Y em função do peso X por que é o peso que pode explicar explanar a pressão arterial e não o contrário Então se deve ajustar uma regressão da pressão arterial Y contra o peso X TABELA 75 Pressão arterial PA em milímetros de mercúrio e peso de homens adultos em quilogramas Peso PA Peso PA Peso PA 14 105 18 113 21 127 14 102 19 107 22 125 15 111 19 125 22 116 15 104 19 130 23 130 15 107 19 110 23 107 16 00 19 107 23 103 16 105 20 102 24 135 16 102 20 116 24 143 16 126 21 135 28 121 17 134 21 100 28 135 Capitulo 7 Noções sobre Regressão 143 Foram calculados 271159 3624 X 2238 b 30 188 2238 2 167386 30 3624 188x 2238 a 30 30 191 A reta de regressão A Y 191 l88X apresentada na Figura 77 mostra a tendência de ocorrer aumento de pressão ar terial quando aumenta o peso mas convém observar que os pontos estão muito dispersos em torno da reta Isso significa que a previsão da pressão arterial de um homem adulto em função de seu peso tem grande margem de erro 160 150 Y 191188X 140 Cõ 130 Q t 120 o cn 110 cn Q セo 100 90 00 64 68 72 76 80 84 Peso FIGURA 77 Reta de regressão para pressão arterial em função do peso 7 4 COEFICIENTE DE DETERMINAÇÃO Antes de aprender o que é coeficiente de determinação vamos entender o que é uma relação matemática e o que é uma relação estatística Se você aumentar o lado de um quadrado em 1 cm a área aumenta E se você con tinuar aumentando o lado do quadrado de 1 cm em 1 cm a área continua rá aumentando Você sabe dizer exatamente a área do quadrado para cada tamanho de lado porque a relação entre a área de um quadrado e seus la dos é matemática área lado x lado 144 Introdução à Bioestatística Pense agora em uma pessoa que quer diminuir o peso porque seu médico lhe disse os gordos têm tendência a ter pressão arterial alta Sabese portanto que o aumento da pressão arterial é função do aumen to de peso Será que existe uma relação exata entre essas duas variáveis isto é para cada quilo a mais haverá um aumento fixo na pressão arte rial Não é assim Existe tendência de a pressão arterial aumentar com o aumento de peso mas a pressão arterial também aumenta em função de outros fatores como idade vida sedentária hereditariedade e certos hábi tos como o hábito de fumar e o consumo excessivo de sal E mesmo que conhecêssemos muitas das causas que explicam o aumento da pressão ar terial ainda assim não saberíamos prever exatamente a pressão arterial de uma pessoa A relação entre pressão arterial e peso é probabilística e por tanto sujeita a erro Com estes exemplos queremos lembrar a você que existem relações determinísticas como é a relação entre lado e área de um quadrado e relações probabilísticas como é a relação entre peso e pressão arteri al No primeiro caso não existe erro na previsão isto é dado o lado de um quadrado você pode dizer exatamente qual é a área está determinado No segundo caso a previsão é possível mas dentro de certas margens de erro Neste ponto a pergunta é inevitável qual é o tamanho desse erro Existe uma estatística chamada coeficiente de determinàção indicada por R2 que mede a contribuição de uma variável na previsão de outra Parece complicado mas tente entender este exemplo imagine que você quer com prar uma camiseta para uma criança Você chega na loja e pede ajuda à vendedora O que primeiro ela pergunta A idade da criança claro Por quê Porque o tamanho de uma criança é função da idade Boa parte da varia ção do tamanho das crianças é explicada pela variação de suas idades o que é medido pelo R2 Portanto saber a idade da criança ajuda na previ são do tamanho da sua camiseta4 O coeficiente de determinação é a proporção da variação de Y explicada pela variação de X O coeficiente de determinação é dado pelo quadrado do coeficiente de correlação Não pode portanto ser negativo Varia entre zero e 1 inclu sive Para interpretar o coeficiente de determinação é melhor transformá lo em porcentagem multiplicando o resultado obtido em seu cálculo por 100 Veja o Exemplo 79 4A vendedora também pergunta se o presente é para menino ou menina Essa informação tam bém contribui embora menos do que idade para a escolha do tamanho na primeira infância os meninos são maiores mas ajuda na escolha do modelo Capitulo 7 Noções sobre Regressão 145 Exemplo 79 Coeficiente de determinação Calcule o coeficiente de determinação para os dados apresentados na Tabela 72 e na Tabela 75 e discuta cada um deles Usando os cálculos intermediários já apresentados na Tabela 73 é possível ob ter R2 0994 Isto significa que 994o da variação da quantidade de procaína hidrolisada no plasma se explica pelo tempo decorrido após sua administração Em outras palavras se você souber o tempo que decorreu depois que a procaína foi colocada no plasma poderá justificar 994 da variação de procafna que hidrolisou Para os dados da Tabela 75 com a ajuda de um computador ou de seu profes sor é possível obter R2 0282 um valor baixo Se fosse alto a explicação seria de que dado o peso de um homem a pressão arterial seria altamente previsível No entanto fatores como idade vida sedentária hereditariedade e certos hábi tos como o hábito de fumar e consumo abusivo de sal devem ser também im portantes 75 UMA PRESSUPOSIÇÃO BÁSICA Para ajustar uma regressão linear simples de X contra Y é preciso que os dados de X e Y tenham sidos obtidos independentemente Então quando você for interpretar os resultados do ajuste de uma regressão verifique como foram obtidos os dados de X e Y Veja o Exemplo 77 a regressão obtida é uma falácia porque não se pode fazer uma regressão da diferença das va riáveis contra o valor inicial Exemplo 710 Uma falácia Observe os dados da Tabela 76 que estão no diagrama de dispersão da Figura 78 os pontos não sugerem correlação entre as variáveis O coeficiente de deter minação é R2 0030 No entanto se você fizer a diferença YX e colocar a dife rença como função do valor inicial X obterá o diagrama de dispersão da Figura 79 com R2 0582 Só que isso não pode ser feito a regressão obtida é uma fa lácia 1 4 5 Introdução à Bioestatística TABELA 76 Notas de 10 alunos em duas provas l prova 2 prova Diferença 2 prova 11 prova 7 7 o 5 5 o 4 8 4 9 9 o 2 10 8 4 3 1 8 4 4 10 6 4 6 4 2 7 3 4 12 R2 0030 10 8 co セE 6 セ o 4 2 o o 2 4 6 8 10 12 1ª prova FIGURA 78 Nota na segunda prova em função da nota na primeira prova Capitulo 7 Noções sobre Regressão 14 7 10 8 6 R2 0582 co 4 e Q 2 セQ ô o 2 4 6 1 prova FIGURA 79 oゥヲイョセッ dos notas de 10 alunos em duas provas em função do 1 noto 7 6 OUTROS TIPOS DE REGRESSÃO Existem situações em que os pares de valores das variáveis X e Y apresen tados em diagrama de dispersão não se distribuem em tomo de urna reta5 Veja o Exemplo 711 Exemplo 711 Uma regressão nãolínear Observe os dados da Tabela 77 apresentados em diagrama de dispersão na Fi gura 71 O os pontos estão dispersos em torno de uma curva TABELA 77 Valores de duas variáveis X e Y X y o 40 06 80 12 150 15 226 18 364 21 453 24 600 No programa EXCEL você encontra as seguintes opções para ajuste de regressão linear que vimos até aqui logarítmica polinomial que não serâ visto neste livro potência exponencial média móvel que não serâ visto neste livro 1 41 Introdução à Bioestatística 70 ff fí Q e 40 セQ Q ll 20 10 o o 05 1 15 2 25 3 Valores de X FIGURA 710 Diagrama de dispersão para os valores Xe Yapresentados na Tabela 77 Quando os pontos apresentados em diagrama de dispersão não estão em torno de uma reta devemos experimentar transformar a variável Y Por exemplo podemos experimentar fazer um diagrama de dispersão colocan do em lugar de valores de Y os valores do logaritmo neperiano6 de Y Para os dados apresentados no Exemplo 711 os valores de X e dos loga ritmos neperianos de Y estão apresentados na Tabela 7 8 e na Figura 7 11 TABELA 78 Valores de X e valores dos logaritmos neperianos de Y X lnY o 13863 06 20794 12 27081 15 3 1179 18 35946 2 1 38133 24 40943 6No Excel procure a opção exponencial Capitulo 7 Noções sobre Regressão 149 45 40 35 30 Q O 25 Q 20 セ9 co 15 10 05 00 o 05 1 15 2 25 3 Valores de X FIGURA 711 Diagrama de dispersão O diagrama de dispersão apresentado na Figura 7 11 mostra pontos pra ticamente sobre uma reta Então é possível ajustar uma regressão linear de lnY contra X Para calcular a e b são necessários os cálculos intermediári os apresentados na Tabela 79 TABELA 79 Cálculos intermediários para a obtenção de a e b 1 X lnY XlnY 1 o 13863 00000 o 06 20794 12477 036 12 27081 32497 144 15 3 1179 46769 225 18 35946 64702 324 21 38133 80079 441 24 40943 98264 576 96 20794 334788 1746 Com base nos cálculos apresentados na Tabela 79 é possível obter 334788 96 X 207940 b 7 11554 2 1746 96 7 a 207940 11554x 96 13861 7 7 1 51 Introdução à Bioestatística A equação de reta de regressão de lny contra X é A lnY 13861 l1554X Se você quiser voltar ao valor da variável Y é preciso calcular o antilogaritmo da equação Então você obtém A Y antilnl3861 e1554x ou A f 3999 el1554X Esta equação é chamada de exponencial porque traz a variável expla natória no expoente Para que uma regressão linear possa ser ajustada aos dados muitas ve zes basta transformar uma das variáveis7 Outras vezes é preciso transfor mar ambas as variáveisª Também podem ser utilizadas outras transforma ções além da transformação logaritmica mostrada aqui Assim são também usadas a extração de raiz quadrada e a inversão além de outras mais com plicadas As transformações são em geral empíricas isto é dados n pares deva lores X e Y é preciso fazer várias tentativas até achar a transformação que permita ajustar uma regressão linear aos pares de dados Algumas vezes porém o modelo é especificado teoricamente Por exemplo a equação de Arrenhius dá a velocidade de uma reação química em função da tempera tura em que a reação se processa Se T é a temperatura em graus Kelvin em que ocorre a reação química a equação de Arrenhius estabelece que a ve locidade V é dada por A ln V C x 1 R T em que ln V é o logaritmo neperiano da velocidade da reação quimica à tem peratura Te Ré uma constante 1987 caljgraumol Para ajustar a equação de Arrenhius aos dados de temperatura e de velocidade de uma reação quí mica é preciso calcular os valores das variáveis transformadas isto é o logaritmo neperiano da velocidade e o inverso da temperatura Depois se ajusta uma regressão linear do logaritmo neperiano de V contra o inverso de T isto é Então C a e A Rb lnVa b1 T Para ajustar uma regressão logarftmica transforme X isto é ajuste a regressão dos logaritmos de X contra Y Para ajustar uma regressão potência transforme X e Y isto é ajuste a regressão dos logaritmos de X contra os logaritmos de Y veja mais sobre o assunto em VIEIRA S Bioestatístíca tópicos avançados 2 ed Rio de Janei ro Campus 2004 Capitulo 7 Noções sobre Regressão 151 Uma regra porém é básica antes de ajustar uma reta de regressão aos dados devemse colocar os pontos X Y em um diagrama de dispersão e estudar o conhecimento disponível na literatura sobre o fenômeno A ins peção dos dados numéricos é obrigatória Às vezes é possível ajustar mais de um modelo aos dados e depois escolher com base nas estatísticas obtidas coeficientes de determinação etc o modelo que melhor se ajusta aos dados Neste Capítulo vimos como se ajusta uma regressão linear simples aos dados linear porque é uma reta e simples porque está no plano isto é existe uma só variável dependente e uma só variável explanatória Mas a variação da variável dependente pode ser posta em função de diversas va riáveis isto é podem existir diversas variáveis explanatórias É o caso por exemplo da pressão arterial que depende não apenas de peso como mos trado no exemplo mas da idade de fatores hereditários da alimentação etc Nesses casos ajustase aos dados uma regressão múltipla isto é uma função com diversas variáveis explanatórias Mas este tema não será trata do aqui 7 7 EXERCÍCIOS RESOLVIDOS 771 Faça um gráfico de linhas para os dados apresentados na Tabela 710 Discuta TABELA 710 Número de nascidos vivos no Brasil no período de 1996 a 2005 Ano Número de nascidos vivos 1996 2945425 1997 3026658 1998 3148037 1999 3256433 2000 3206761 2001 3115474 2002 3059402 2003 3038251 2004 3026548 2005 3035096 fonte DATASUS 20089 Disponível em httptabnetdatasusgovbrcgijdeftohtmexeidb2006a02def em 10 de abril de 2008 1 5 2 Introdução à Bioestatística Solução 3300 セMセ 3250 セ 3200 n セセ 3150 ᄋセe 3100 セセ 3050 c 2 3000 2950 2900 KMN M セMセMセMセMセMQ 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Ano FIGURA 712 Número de nascidos vivos no Brasil no período de 1996 a 2005 O número de nascidos vivos no Brasil aumentou até 1999 De lá para 2006 observase decréscimo 772 Faça um gráfico de linhas para os dados apresentados no Exercido 652 do Capítulo 6 para mostrar como o índice clínico varia em função do peso seco das placas Discuta 160 140 120 o 2 100 s 3 80 Q 2 e 60 e 40 20 o o 2 4 6 8 10 12 14 16 Peso seco das placas FIGURA 713 Índice clínico em função do peso seco das placas bacterianas Capitulo 7 Noções sobre Regressão 153 A Figura 7 13 mostra que o índice clínico usado para medir a quanti dade de placa aumenta linearmente e aceleradamente com o peso seco das placas em miligramas até cerca de 8 mg Depois tende a estabilizar Isto talvez se explique pelo fato de o índice clínico medir a área dos dentes com placas bacterianas mas não o volume Ora o peso leva em conta o volu me que aumenta quando o acúmulo de placas é grande 773 Ajuste uma reta de regressão aos dados apresentados no Exercido 653 do Capítulo 6 para estudar peso em função do comprimento dos recém nasddos Calcule o coefidente de detenninação 45 4 35 3 セ Q 25 a 2 15 05 Y 74647 02191X R2 07558 ッ KMセNMセ 46 48 50 52 54 Comprimento FIGURA 714 Reta de regressão para peso de recémnascidos em função do comprimento 774 Ajuste uma reta de regressão aos dados apresentados no Exercido 654 do Capítulo 6 para estudar peso em função da altura Calcule o coefid ente de detenninação 1 5 4 Introdução à Bioestatística 00 75 70 65 o Q a 60 55 50 Y4860165941X 45 R2 06206 40 155 160 165 170 175 180 185 Altura FIGURA 715 Reta de regressão para peso em função da altura Capitulo 7 Noções sobre Regressão 155 7 8 EXERCÍCIOS PROPOSTOS 781 Faça um gráfico de linhas para os dados apresentados na Tabela 711 Discuta TABELA 711 Razão de sexosº no Brasil em 2005 Faixa etária Menos de 1 ano De 1 a 4 anos De 5 a 9 anos De 10a14 anos De 15a19 anos De 20 a 24 anos De 25 a 29 anos De 30 a 34 anos De 35 a 39 anos De 40 a 44 anos De 45 a 49 anos De 50 a 54 anos De 55 a 59 anos De 60 a 64 anos De 65 a 69 anos De 70 a 74 anos De 75 a 79 anos 80 e mais anos Fonte DATASUS11 200B ºRazão de sexos número de homens por 100 mulheres Razão de sexos 10436 10359 10349 10316 10229 10005 9757 9513 9441 9284 9261 9363 9040 8709 8149 8008 7781 6449 Disponível em httptabnetdatasusgovbrcgijdeftohtmexeidb2006a02def em 10 de abril de 2008 1 5 5 Introdução à Bioestatística 782 Faça um gráfico de linhas para os dados apresentados na Tabela 712 Discuta TABELA 712 Coeficiente de mortalidade infantil12 no Brasil de 1889 a 1998 Ano 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 Fonte DATASUS 200813 Coeficiente de mortalidade infantil 5202 4940 4699 4479 4280 4101 3940 3797 3670 3610 783 Ajuste uma reta de regressão aos dados apresentados na Tabela 713 TABELA 713 Teor de vitamina C mg de ácido ascórbico100 mi de suco de maçã em função do período de armazenamento em dias Período de armazenamento Teor de vitamina C 1 409 45 327 00 245 135 327 180 164 Taxa ou coeficiente de mortalidade infantil é a razão entre o total de óbitos de menores de 1 ano de idade excluídos os nascidos mortos e o total de nascidos vivos em detenninado perio do de tempo normalmente 1 ano Essa razão é multiplicada por 1000 A taxa de mortalidade infantil estima o risco que um nascido vivo tem de morrer antes de completar 1 ano de idade A Organização Mundial de Saúde considera altas as taxas de 50 por 1000 ou mais médias as que ficam entre 20 e 49 e baixas as menores do que 20 13Disponivel em httptabnetdatasusgovbrcgijmortinfmibrhtmtopo em 10 de abril de 2008 Capitulo 7 Noções sobre Regressão 15 7 784 A reta de regressão será a mesma se você trocar X por Y O coeficiente de correlação muda 785 É preciso que X e Y tenham as mesmas unidades para poder se calcular a reta de regressão 786 Se os filhos fossem exatamente 5 cm mais altos do que seus pais como ficaria a reta de regressão que daria a altura dos filhos em função da al tura de seus pais 787 Como seria a reta de regressão se todos os pontos de X tivessem o mes mo valor 788 Os dados da Tabela 714 foram apresentados com a finalidade de mos trar que existe relação entre CPOD médio a média de um índice de cáries ou seja a média da soma do número de dentes afetados pela cárie em uma amostra de crianças C cariados P perdidos por cárie O obturados ou seja restaurados devido ao ataque de cárie e a média do número de anos de estudo do responsável pelas crianças O que você acha TABELA 714 Número médio de anos de estudo do responsável pelas crianças de uma amostra e CP00 médio 1 Anos de estudo do responsável CPOOmédio o 170 14 185 5 8 075 9 11 044 789 Uma cadeia de padarias queria saber se a quantidade de dinheiro gasto em propaganda faz aumentar as vendas Durante seis semanas fez em ordem aleatória gastos com propaganda de valores variados conforme mostra a Tabela 715 e anotou os valores recebidos nas vendas Calcule a reta de regressão e coloque em gráfico O que você acha 1 51 Introdução à Bioestatística TABELA 715 Gastos com propaganda em reais na semana e valores recebidos em reais nas vendas 1 Gastos Valores recebidos 10000 102000 15000 161000 20000 203000 25000 256000 30000 280000 7810 Com os dados14 apresentados no Exercido 6614 do Capítulo 6 obti dos de pacientes com enfisema calcule a reta de regressão 7811 Com os dados14 apresentados no Exercido 6615 do Capítulo 6 sobre o volume máximo de oxigênio inalado VOfTláx você diria que a variável di minui lineannente quando a atividade aumenta Calcule a reta de regressão 7812 Os dados15 apresentados na Tabela 716 referemse à pressão sangüínea diast6lica em milímetros de mercúrio quando a pessoa está em repouso Os valores de X indicam o tempo em minutos desde o inicio do repouso e os valores Y são valores de pressão sangüínea Desenhe um diagrama de dis persão Por que não se deve ajustar uma reta de regressão aos dados TABELA 716 Tempo em minutos desde o início do repouso e pressão sangüínea diastólica em milímetros de mercúrio 1 Tempo em minutos desde Pressão sangüínea o início do repouso diastólica o 72 5 66 10 70 15 64 20 66 OTI L e MENDENHALL W Understanding Statistics Belmont Wadsworth 6 ed 1994 p 487 SCHORK M A e REMINGTON R D Statistics with applications to the biological and health sciences New Jersey Prentice Hall 3 ed 2000 p 297 Capitulo 7 Noções sobre Regressão 159 7813 Faça um diagrama de dispersão para apresentar os dados da Tabela 717 Calcule a reta de regressão Coloque a reta no gráfico Quanto devem pesar 10 ratos com 32 dias TABELA 717 Idade em dias e peso médio em gramas de 10 ratos machos da raça Wistar Idade 3J 34 38 42 46 Peso médio 64 74 82 95 100 7814 Ajuste uma equação exponencial aos dados da Tabela 718 TABELA 718 Dados de X e Y 1 X y 28 125 32 125 35 175 38 225 39 325 41 325 42 425 página deixada intencionalmente em branco Noções sobre Probabilidade 8 página deixada intencionalmente em branco Capítulo 8 Noções sobre Probabilidade 153 Você já sabe o que é probabilidade se alguém perguntar qual é a probabi lidade de sair cara no jogo de moeda você responde 12 ou 50 A questão aqui é saber como se chega a esse resultado Mas você deve ter pensado quando se joga uma moeda tanto pode sair cara como coroa as duas faces não podem ocorrer ao mesmo tempo logo cara ocorre em metade das vezes Portanto quando alguém diz que a probabilidade de sair cara num jogo de moedas é 12 mesmo que esteja pensando em jogar a moeda uma úni ca vez está fornecendo como resposta a proporção de caras que obte ria se jogasse a moeda um grande número de vezes E a pessoa não sabe o que vai acontecer em uma única jogada Neste exemplo ficam claras duas características dos fenômenos pro babilísticos Não se pode antecipar um resultado Existe um padrão de comportamento previsível no longo prazo Todo fenômeno probabilístico tem como resultado um evento acon tecimento e o conjunto de eventos possíveis é chamado espaço amostral Exemplo 81 Espaço amostral Dê o espaço amostral do lançamento de duas moedas Solução caracara caracoroa coroacara coroacoroa 81 DEFINIÇÃO CLÁSSICA DE PROBABILIDADE Se forem possíveis n eventos mutuamente exclusivos e igualmente prová veis se m desses eventos tiverem a característica que chamaremos A a pro babilidade de que ocorra um evento com a característica A é indicada por PA e é dada pela razão mn P A m n Simplificando você deve ter aprendido que a probabilidade de obter um evento favorável um evento com uma característica que chamamos de A é dada por PA n2 deeventos favoráveis nº de eventos posslveis 114 Introdução à Bioestatística Exemplo 82 Cálculo de probabilidade Qual é a probabilidade de ocorrer face 6 quando se joga um dado Solução Quando se joga um dado pode ocorrer um dos seis n 6 eventos do espaço amostral 1 2 3 4 5 ou 6 Só existe um evento m 1 com a característica pedida face 6 Então a probabi lidade de ocorrer 6 é 1 P66 01667 Na prática é comum que as pessoas falem em porcentagens quando tra tam de probabilidades Por exemplo a maioria das pessoas diria que a pro babilidade de sair cara quando se lança uma moeda é 50 Os estatísti cos preferem expressar valores de probabilidade por números entre zero e 1 Mas se você quiser expressar probabilidade em porcentagem basta mul tiplicar o valor dado pela definição por 100 Veja agora duas propriedades das probabilidades A soma das probabilidades de todos os eventos possíveis dados no espaço amostral é obrigatoriamente 1 ou 100 A probabilidade varia entre zero e 1 ou entre 0 e 100 inclusive1 Exemplo 83 Extremos zero ou 1 Evento certo tem probabilidade 1 ou 100 Por exemplo a probabilidade de que qualquer um de nós venha morrer um dia é 1 ou 100 Evento impossfvel tem probabilidade zero Por exemplo a probabilidade de que qualquer um de nós seja imortal é zero 82 FREQÜÊNCIA RELATIVA COMO ESTIMATIVA DE PROBABILIDADE O estudo de probabilidades tem enorme aplicação nas ciências em geral mas começou com os jogos de azar As pessoas queriam entender a lei que rege esses jogos para ganhar dinheiro nos cassinos2 E os matemáticos acabaram estabelecendo a teoria das probabilidades Não existe por exemplo 200 de probabilidade Expressões deste tipo aparecem na linguagem coloquial na intenção de enfatizar uma certeza Não têm lógica 20s jogos de azar são antiqüíssimos e foram praticados não só como apostas mas também para prever o futuro decidir conflitos dividir heranças De qualquer modo a teoria de probabilida des tem em Blaise Pascal que viveu no século XVIl uma figura de destaque Capítulo 8 Noções sobre Probabilidade 155 Mas a definição clássica de probabilidade que se aplica bem aos jogos de azar é de certa forma uma definição teórica Mesmo sem ter feito qualquer observação ou coleta de dados construímos o espaço amostral e associamos um valor para a probabilidade de ocorrer cada evento Na área de saúde porém é preciso dispor de dados para estimar probabilidades Perguntas como qual é a probabilidade de um nascituro apresentar doença ou defeito sério ou qual é a probabilidade de um recémnascido chegar aos 90 anos ou qual é a probabilidade de um fumante ter câncer do pulmão só podem ser respondidas com base em dados Então é impor tante entender que na área de saúde as probabilidades são estimadas por freqüências relativas A freqüência relativa de um evento obtida de uma série de dados cole tados nas mesmas condições estima a probabilidade de esse evento ocorrer As freqüências relativas são empíricas porque são calculadas com base nos dados de uma amostra As amostras fornecem estimativas variáveis mesmo que tais amostras tenham sido tomadas no mesmo local e na mesma época As probabilidades são teóricas porque são construídas com base em teoria ou com base nos dados de toda a população em estudo Exemplo 84 Estimativa de probabilidade por freqüência relativa Foram examinadas3 2000 crianças em idade escolar e observouse que 65 delas tinham ausência congênita de um ou mais dentes permanentes anodontia par cial Qual é a probabilidade de uma criança ter anodontia parcial Solução Com base nos dados podemos construir uma tabela TABELA81 Distribuição dos escolares segundo o fato de terem ou não anodontia parcial Anodontia parcial Sim Não Total Freqüência 63 1937 2060 Freqüência relativa 00315 09685 10000 Com base na amostra estimase que a probabilidade de uma criança ter anodontia parcial é 00315 ou 3 15 VEDOVELO FILHO M Prevalência de agenesias dentárias em escolares de Piracicaba 1972 Tese mestrado FOPINICAMP 111 Introdução à Bioestatística 83 EVENTOS MUTUAMENTE EXCLUSIVOS E EVENTOS INDEPENDENTES 831 Eventos mutuamente exclusivos Dois eventos são mutuamente exclusivos quando não podem ocorrer ao mesmo tempo Exemplo 85 Eventos mutuamente exclusivos Quando se joga uma moeda ou sai cara ou sai coroa Os dois eventos não po dem ocorrer ao mesmo tempo a saída de cara exclui a possibilidade de ter saf do coroa Se a cirurgia foi um sucesso fica exclufda a possibilidade de ter sido um fracasso Se o paciente tem IMC igual a 35 fica exclufda a possibilidade de ter naque le momento IMC igual a 25 pode até ser uma meta 832 Eventos independentes 8321 Conjuntos Antes de definir eventos independentes vamos lembrar um pouco da teo ria dos conjuntos que você já deve ter estudado União de dois conjuntos na linguagem comum usamos a expressão ou no sentido exclusivo isto é quando dizemos João ou José queremos di zer um dos dois não ambos Na linguagem dos conjuntos que é a lingua gem das probabilidades A ou B significa A ou B ou ambos Escrevemos AUB e lêse A união B Exemplo 86 União de dois conjuntos ou a regra do ou linguagem comum quando você diz quero sorvete de creme ou de chocolate sig nifica que aceita qualquer um deles e não que você aceita um deles ou o ou tro ou os dois Linguagem dos conjuntos uma médica suspeita que sua paciente que tem cân cer de mama tenha desenvolvido a doença na medula ou no ffgado Isto significa que a doença pode ter atingido a medula ou o fígado ou os dois Capítulo 8 Noções sobre Probabilidade 157 Interseção de dois conjuntos a idéia de dois eventos que ocorrem juntos é expressa pela conjunção e Na linguagem dos conjuntos que é a lingua gem das probabilidades escrevemos AnB e lêse A interseção B significa A e B juntos Exemplo 87 Interseção de dois conjuntos ou a regra do e Linguagem comum quando você pede um sorvete e diz quero de creme e choco late significa que você quer os dois sabores Linguagem dos conjuntos quando uma enfermeira diz à parturiente que ela aca bou de dar à luz um menino e uma menina isso significa gêmeos 8322 Condição de independência No nosso diaadia muitas vezes dizemos uma coisa não tem nada a ver com outra Em linguagem técnica queremos dizer que os eventos são in dependentes O Exemplo 88 serve para ilustrar a condição de independên cia que veremos em seguida Mas você intui o resultado mesmo sem ver os cálculos Veja a pergunta quando se jogam um dado e uma moeda o que ocorre na moeda influi no que sai no dado ou não tem nada a ver Exemplo 88 Condição de independência Um dado e uma moeda são jogados ao mesmo tempo Qual é a probabilidade de ocorrer cara na moeda e face 6 no dado Solução Na Tabela 82 está o espaço amostral TABELA 82 Eventos possíveis no jogo de um dado e uma moeda Moeda Dado Cara Coroa 1 1 Cara 1 Coroa 2 2 Cara 2 Coroa 3 3 Cara 3 Coroa 4 4 Cara 4 Coroa 5 5 Cara 5 Coroa 6 6 Cara 6 Coroa 111 Introdução à Bioestatística A Tabela 82 mostra que seis dos 12 eventos do espaço amostral correspondem à saída de cara na moeda Então a probabilidade desse evento é 6 1 Pcara 12 2 A Tabela 82 também mostra que dois dos 12 eventos correspondem à saída de seis no dado A probabilidade é P6 2 12 6 Na mesma Tabela você vê que apenas um dos 12 eventos corresponde ao que foi pedido cara na moeda e 6 no dado um conjunto interseção A probabilidade é 1 Pcara n 6 12 Então para este exemplo 1 1 Pcara n 6 PcaraXP6 X 1 2 6 12 Dois eventos são independentes se a probabilidade de que ocorram jun tos é igual ao produto das probabilidades de que ocorram em separado Escrevese PA n B PAXPB Esta é a condição de independência de dois eventos Exemplo 89 Eventos independentes na área da saúde Para determinar se existe associação entre implantes mamários e doenças do te cido conjuntivo e outras doenças4 foram observadas durante vários anos 749 mulheres que haviam recebido implante e exatamente o dobro de mulheres que não haviam recebido o implante Verificouse que cinco das mulheres que havi am recebido implantes e 10 das que não haviam recebido implante tiveram do enças do tecido conjuntivo Você acha que ter doenças do tecido conjuntivo não depende de a mulher ter implantes mamários GABRIEL SE et alii Risk of connective tissues diseases and other disorders after breast implantation New Engl J Med 33016971702 1994 Apud MOTIJLSKY H lntuitive Biostatistics Nova York Oxford University Press 1995 p318 Capítulo 8 Noções sobre Probabilidade 159 Solução Com base nos dados podemos construir a Tabela 83 TABELA 83 Distribuição de mulheres com implante mamário e o fato de terem ou não doenças do tecido conjuntivo e outras Implante mamário Sim Não Total Proporção de mulheres que tiveram doença Doenças do tecido conjuntivo e outras Sim Não 5 744 10 1488 15 2232 15 2232 2247 2247 Total 749 1498 2247 Proporção que receberam implante mamário 749 2247 1498 2247 A Tabela 83 mostra que 749 das 2247 mulheres observadas receberam implante mamário Então a probabilidade de nessa amostra uma mulher escolhida ao acaso ter implante mamário é 749 2247 A Tabela 83 também mostra que 15 das 2247 mulheres observadas tiveram do enças do tecido conjuntivo e outras doenças Então a probabilidade de nessa amos tra uma mulher escolhida ao acaso ter doença do tecido conjuntivo e outras do enças é 15 2247 Como cinco das 2247 mulheres observadas receberam implante mamário e tive ram doenças do tecido conjuntivo e outras doenças a probabilidade de ter implan te mamário e ter doença é 5 2247 Agora é fácil verificar se ocorre a condição de independência PA íl B PAXPB 1 71 Introdução à Bioestatística Veja 749 15 1 15 5 X X 2247 2247 3 2247 2247 Logo os eventos são independentes porque Pimplante n doença PimplantexPdoença 8323 Diferença nos conceitos É importante considerar aqui o perigo de confundir eventos independentes com eventos mutuamente exclusivos Às vezes as pessoas entendem que as duas expressões querem dizer a mesma coisa que os eventos não se sobre põem No entanto eventos mutuamente exclusivos se um ocorre o ou tro não pode ocorrer não são independentes Pense no jogo de uma moeda quando se joga uma moeda não há como ocorrer cara e coroa ao mesmo tempo Logo esses eventos são mutuamen te exclusivos Eles são independentes Não a probabilidade de sair cara é 12 mas dada a condição de que ocorreu coroa é zero Então a probabi lidade de sair cara muda se sair coroa Pense nisso 84 PROBABILIDADE CONDICIONAL Muitas vezes relatamos probabilidades que ocorrem sob uma dada condi ção Por exemplo a probabilidade de um universitário trabalhar bem em um computador é maior se estivermos nos referindo aos alunos de Ciências da Computação e não a todos os universitários do Brasil Denominase probabilidade condicional à probabilidade de ocorrer determinado evento sob uma dada condição Indicase a probabilidade condicional de ocorrer o evento A sob a condição de B ter ocorrido por PAIB que se lê probabilidade de A dado B Capítulo 8 Noções sobre Probabilidade 171 Exemplo 810 Cálculo de probabilidade condicional Um dado foi lançado Qual é a probabilidade de a ter ocorrido a face 5 b ter ocorrido a face 5 sabendo que ocorreu face com número impatl Solução a Quando se joga um dado pode ocorrer um dos eventos 1 2 3 4 5 ou 6 Só existe um evento com o atributo desejado face 5 Então a probabilidade é 1 6 b Dada a condição de que ocorreu número ímpar só podem ter ocorrido os nú meros 13ou 5 Note que houve redução do espaço amostral porque foi dada a condição saiu número ímpar Como só existe um evento com o atributo desejado face 5 a probabilidade é 1 3 Vamos discutir um pouco mais o Exemplo 810 A probabilidade de ocor rer face 5 no dado foi modificada quando foi feita a redução do espaço amostral Isto foi feito porque foi dada a condição em que o evento ocor reu havia saído número ímpar Aprendemos que a probabilidade de ocorrer determinado evento depen de muitas vezes das condições em que ocorre esse evento Isto é conhe cido na área de saúde na condição de obeso a probabilidade de doença cardíaca aumenta na condição de chuva e vento fortes a probabilidade de acidente automobilístico aumenta em boas condições de higiene oral a probabilidade de uma pessoa ter cáries diminui Muitas pesquisas são fei tas para estudar os fatores que modificam as probabilidades Veja um exem plo em que o valor de probabilidade se modifica quando é imposta uma condição 1 7 2 Introdução à Bioestatística Exemplo 811 Probabilidade condicional na área de saúde Para verificar se a condição de hospital público ou privado modifica a probabili dade de cesarianas toram apresentados os dados que estão na Tabela 84 coletados em dois hospitais da mesma cidade TABElA 84 Número de cesarianas em dois hospitais um público e um privado Cesariana Hospital Sim Não Total Proporção de cesarianas Privado 89 11 100 89 0 890 100 Público 350 1091 1441 350 O 243 1441 Fonte Fabri et alii 20025 A Tabela 84 mostra que nos hospitais privados 89 dos 100 partos foram por ce sariana Então a probabilidade estimada de cesariana em hospitais privados com base nessa amostra é 0890 A Tabela 84 também mostra que 350 dos 1441 partos feitos em hospitais públi cos foram por cesariana Então a probabilidade estimada de cesariana em hospi tais públicos com base nessa amostra é 0243 Veja a relação entre as duas estimativas de probabilidade 0890 3 7 0243 É fácil ver que a probabilidade estimada de cesariana é bem maior em hospitais privados 37 vezes maior Então a probabilidade estimada de cesariana está con dicionada à categoria do hospital se público ou privado6 5FABRI RH et alü Estudo comparativo das indicações de cesariana entre um hospital públicouni versitário e um hospital privado Rev Eras Saúde Mater Infant v 2 n 1 Recife Jan Abril 2002 os autores explicam que o aumento de cesarianas no hospital privado deve ser decorrente de iteratividade distocia e a escolaridade mais elevada das pacientes Capítulo 8 Noções sobre Probabilidade 173 85 TEOREMA DA SOMA ou A REGRA DO ou A probabilidade de ocorrer A ou B é dada pela probabilidade de ocorrer A mais a probabilidade de ocorrer B menos a probabilidade de ocorrer A e B porque a probabilidade de ocorrer A e B é contada duas vezes Escrevese PA UB PAPB PAn B No entanto se A e B são mutuamente exclusivos a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A mais a probabilidade de ocorrer B Escrevese PA U B PAPB Exemplo 812 A ou B Uma carta será retirada ao acaso de um baralho Qual é a probabilidade de sair uma carta de espadas ou um ás Solução Como um baralho tem 52 cartas das quais 13 são de espçidas e quatro são ases alguém poderia pensar que a probabilidade de sair uma carta de espadas ou um ás é dada pela soma 13 4 52 52 mas esta resposta estaria errada porque existe uma carta o ás de espadas que é tanto ás como espadas Então o ás de espadas teria sido contado duas vezes A probabilidade de sair uma carta de espadas ou um ás é dada por PA U B PA PB PA íl B 13 4 1 16 4 52 52 52 52 13 1 7 4 Introdução à Bioestatística Exemplo 813 A ou 8 disjuntos Uma urna contém quatro bolas duas brancas uma vermelha e uma azul Retira se uma bola da urna ao acaso Qual a probabilidade de ter saído uma bola colori da isto é azul ou vermelha A probabilidade de sair bola azul é Solução 1 4 e a probabilidade de sair bola vermelha é 1 4 Então a probabilidade de sair bola colorida isto é azul ou vermelha é dada pela soma PAuB PAPB 1 1 2 1 4 4 4 2 86 TEOREMA DO PRODUTO OU A REGRA DO E Muitas vezes queremos saber a probabilidade de dois eventos ocorrerem juntos ou um em seguida do outro Queremos então a probabilidade do conjunto interseção Para resolver esse tipo de problema existe a regra do e ou teorema do produto Se A e B são dependentes a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela probabilidade condicional de ocorrer B dado que A tenha ocorrido Escrevese PA e B PA x PB 1 A Se A e B são eventos independentes a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela probabilidade de ocorrer B Escrevese PA e B PA x PB Capítulo 8 Noções sobre Probabilidade 17 5 Exemplo 813 Teorema do produto eventos independentes Uma moeda será jogada duas vezes Qual é a probabilidade de ocorrer cara nas duas jogadas Solução A probabilidade de ocorrer cara na primeira jogada é 1 2 A probabilidade de ocorrer cara na segunda jogada também é 1 2 porque ocorrer cara na primeira jogada não modifica a probabilidade de ocorrer cara na segunda jogada os eventos são independentes Para obter a probabili dade de ocorrer cara nas duas jogadas primeira e segunda fazse o produto 1 1 1 X 2 2 4 Exemplo 814 Teorema do produto eventos dependentes Uma urna contém três bolas duas brancas e uma vermelha Retiramse duas bo las da urna uma em seguida da outra e sem que a primeira tenha sido recolocada Qual é a probabilidade de as duas serem brancas Solução A probabilidade de a primeira bola ser branca é 1 3 A probabilidade de a segunda bola ser branca depende do que ocorreu na primeira retirada Se a bola branca saiu na primeira retirada a probabilidade de a segun da também ser branca é 1 2 Para obter a probabilidade de as duas bolas retiradas serem brancas fazse o pro duto 1 1 1 x 3 2 6 1 7 5 Introdução à Bioestatística 8 7 EXERCÍCIOS RESOLVIDOS 871 De uma classe com 30 alunos dos quais 14 são meninos um aluno é es colhido ao acaso Qual é a probabilidade de a o aluno escolhido ser um menino b o aluno escolhido ser uma menina A classe tem 30 alunos n 30 e todos têm a mesma probabilidade de se rem escolhidos Como 14 são meninos m 14 a a probabilidade de o aluno escolhido ser menino é 1430 ou 7 15 b a probabilidade de o aluno escolhido ser menina é 1630 ou 815 872 Uma pessoa comprou um número de uma rifa que tem 100 números e irá sortear cinco prêmios Qual é a probabilidade de essa pessoa a ganhar um prêmio b de não ganhar Todos os 100 números n 100 da rifa têm igual probabilidade de serem sorteados Serão sorteados números m 5 Então a a probabilidade de uma pessoa que comprou um número ser sorteada é 5100 ou 120 b a probabilidade de a pessoa não ser sorteada é 95100 ou 1920 873 Uma urna tem 10 bolas brantas e quatro pretas Retirase uma bola ao acaso Qual é a probabilidade de essa bola a ser branca b ser preta A urna tem 10 bolas brancas e quatro pretas n 14 Retirase uma bola ao acaso A probabilidade de essa bola a ser branca m 10 é 1014 ou 57 b ser preta m 4 é 414 ou 27 874 Jogase um dado Qual é a probabilidade de sair a o número 3 b nú mero maior do que 3 c número menor do que 3 d número par Quando se joga um dado pode ocorrer um dos eventos 1 2 3 4 5 ou 6 a Apenas um m 1 dos seis eventos n 6 é igual a 3 Então a proba bilidade de ocorrer 3 é 16 b Dos seis eventos três m 3 são maiores do que 3 4 5 6 Então a probabilidade de ocorrer número maior do que 3 é 36 ou 12 c Dos seis eventos dois m 2 são menores do que 3 1 2 Então a pro babilidade de ocorrer número menor do que 3 é 13 d Dos seis eventos três m 3 são números pares 2 4 6 Então a pro babilidade de ocorrer número par é 12 Capítulo 8 Noções sobre Probabilidade 177 875 Jogamse duas moedas Qual é a probabilidade de saírem a duas caras b duas coroas c uma cara e uma coroa Para resolver este problema é conveniente escrever todos os eventos que podem ocorrer quando se joga uma moeda Veja a Tabela 85 TABELA 85 Resultados possíveis no jogo de duas moedas Evento 1ª moeda 2 moeda 1 cara coroa 2 coroa cara 3 cara cara 4 coroa coroa A Tabela 84 mostra n 4 eventos mutuamente exclusivos e igualmente pro váveis A probabilidade de saírem a duas caras evento 3 na Tabela é 14 b duas coroas evento 4 na Tabela é 1 4 c uma cara e uma coroa eventos 1 e 2 na Tabela é 24 876 Em uma família com três filhos qual é a probabilidade de os três serem homens Suponha que a probabilidade de nascer menino é 12 Como o sexo de um filho não depende do sexo do anterior a probabilidade de o primeiro filho ser homem e de o segundo filho ser homem e de o ter ceiro filho ser homem é pelo teorema do produto 1 1 1 1 xx 2 2 2 8 8 7 7 Em uma família com três filhos qual é a probabilidade de a dois se rem homens b um ser homem e nenhum ser homem Suponha que me ninos e meninas têm a mesma probabilidade de nascer Para resolver este problema é conveniente escrever todas as possibilidades em uma família com três filhos Veja a Tabela 86 171 Introdução à Bioestatística TABELA 86 Resultados possíveis em uma família com três filhos 1 Evento tq filho 2 filho 1 Homem Homem 2 Homem Homem 3 Homem Mulher 4 Homem Mulher 5 Mulher Homem 6 Mulher Homem 7 Mulher Mulher 8 Mulher Mulher A probabilidade de a dois serem homens eventos 2 3 e 5 na Tabela é 38 b de um ser homem eventos 4 6 e 7 na Tabela é 38 e nenhum ser homem evento 8 na Tabela é 18 3 filho Homem Mulher Homem Mulher Homem Mulher Homem Mulher 878 Um casal tem dois filhos Qual é a probabilidade de a o primogênito ser homem b os dois filhos serem homens c pelo menos um filho ser homem Suponha que a probabilidade de nascer menino é 1 2 e que o sexo do se gundo filho não depende do sexo do primeiro Então a a probabilidade de o primogênito ser homem é 12 b a probabilidade de os dois filhos serem homens pode ser obtida pelo teorema do produto o primeiro ser homem e o segundo ser homem 1 1 x 1 2 2 4 e a probabilidade de ser homem pelo menos um dos filhos pode ser obti da pelo teorema da soma o primeiro ser homem ou o segundo ser ho mem ou os dois serem homens 1 1 1 3 4 4 4 4 879 No cruzamento de ervilhas amarelas homozigotos AA com ervilhas ver des homozigotas aa ocorrem ervilhas amarelas heterozigotas Aa Se estas ervilhas forem cruzadas entre si ocorrem três ervilhas amarelas para cada ervilha verde a proporção é de três para um Suponha que foram pegas ao acaso três ervilhas resultantes do cruzamento de ervilhas ama relas heterozigotas Qual a probabilidade de as três serem verdes Capítulo 8 Noções sobre Probabilidade 179 A probabilidade de uma ervilha resultante do cruzamento Aa x Aa ser ver de é 14 Logo a probabilidade de as três ervilhas pegas ao acaso serem verdes é 1 1 1 x x 1 4 4 4 64 8710 Qual é a probabilidade de o filho de um homem nonnal XY e de uma filha de hemofílico XhX ser hemofílico XhY Um homem normal XY não transmite a hemofilia para gerações seguintes Uma mulher portadora do gene Xh tem 50 de probabilidade de ter um fi lho hemofi1ico O filho será normal XY ou hemofílico HセyI L com a mes ma probabilidade isto é 12 8711 Jogamse duas moedas ao mesmo tempo Os eventos ucara na primeira moeda e 1aces iguais nas duas moedas são independentes Veja o espaço amostral TABELA87 Resultados possíveis no jogo de duas moedas 1 Evento f moeda moeda 1 Cara Cara 2 Cara Coroa 3 Coroa Cara 4 Coroa Coroa Os eventos possíveis são quatro Só um deles caracara atende cara na primeira moeda que chamaremos de A e faces iguais nas duas moedas 11 que chamaremos B Então a probabilidade pedida é P A n B l 4 Mas a probabilidade de cara 11 na primeira moeda é 2 l PA 4 2 e a probabilidade de faces iguais nas duas moedas 11 é 2 1 PB 4 2 Então P A n B PAxPB A condição de independência foi portanto satisfeita Os eventos cara na primeira moeda e faces iguais nas duas moedas 11 são independentes 111 Introdução à Bioestatística 88 EXERCÍCIOS PROPOSTOS 881 Uma carta é retirada ao acaso de um baralho bem embaralhado Qual é a probabilidade de a ser um ás b ser uma carta de ouro c ser um ás de ouro 882 Uma urna tem 1 O bolas numeradas de 1 a 1 O Retirase uma bola ao acaso Qual é a probabilidade de essa bola a ter número maior do que 7 b ter número menor do que 7 c ter número 1ou10 883 Uma urna tem 15 bolas numeradas de 1a15 Retirase uma bola ao aca so Qual é a probabilidade de essa bola a ter número par b ter núme ro ímpar c ter número maior do que 15 884 Para melhorar as condições de pacientes com determinada doença crô nica existem cinco drogas A B C D e E Um médico tem verba para com parar apenas três delas Se ele escolher três drogas ao acaso para com parar qual é a probabilidade de a a droga A ser escolhida b as dro gas A e B serem escolhidas 885 Dois dados um vermelho outro azul são lançados ao mesmo tempo e se pergunta a qual é a probabilidade de ocorrer face 6 no dado verme lho b qual é a probabilidade de ocorrer face 6 no dado vermelho sa bendo que saiu face 6 no dado azul 886 Um exame feito em jovens que terminaram o curso fundamental mostrou que 20 foram reprovados em Matemática 10 foram reprovados em Português e 5 foram reprovados tanto em Matemática como em Portu guês Os eventos ser reprovado em Matemática e ser reprovado em Por tuguês são independentes 887 Um casal tem dois filhos Qual é a probabilidade de a o segundo filho ser homem b o segundo filho ser homem dado que o primeiro é homem 888 A probabilidade de determinado teste para a AIDS dar resultado negati vo em portadores de anticorpos contra o vírus falsonegativo é 10 Supondo que falsosnegativos ocorrem independentemente qual é a pro babilidade de um portador de anticorpos contra o vírus da AIDS que se apresentou três vezes para o teste ter tido nas três vezes resultado ne gativo Capítulo 8 Noções sobre Probabilidade 111 889 Uma pessoa nonnal filha de pais nonnais tem um avô albino aa Se os outros avós não forem portadores do gene para albinismo AA qual é a probabilidade de essa pessoa ser portadora do gene para albinismo Aa 8810 Suponha que a probabilidade de uma pessoa ser do tipo sangüíneo O é 40 ser A é 30 e ser B é 20 Suponha ainda que o fator Rh não de penda do tipo sangüíneo e que a probabilidade de Rh é de 100 Nestas condições qual é a probabilidade de uma pessoa tomada ao acaso da po pulação ser a O Rh b AB Rh página deixada intencionalmente em branco Distribuição Binomial 9 página deixada intencionalmente em branco Capitulo 9 Distribuição Binomial 1 15 A Estatística formaliza o que nós muitas vezes já sabemos Por exemplo você sabe que as idades das pessoas da sua família variam Portanto você tem consciência da variabilidade Você sabe que no Nordeste faz calor o ano todo o que não acontece no Sul Então você tem consciência de que no decorrer de um ano as temperaturas dos estados nordestinos são em mé dia mais altas do que as temperaturas dos estados do sul do país E se você acha que o peso de uma pessoa depende da altura está mostrando que sabe o que é correlação Ainda todos nós sabemos que ganhar na loteria não é fácil Temos portanto percepção sobre probabilidade Vamos agora definir o que é variável aleatória que você intuitivamente talvez já conheça 91 VARIÁVEL ALEATÓRIA Quando você joga uma moeda ou sai cara ou sai coroa O acaso determi na o resultado Quando num jogo de baralho você tira uma carta pode sair carta de paus de ouros de espadas ou de copas O acaso determina o resultado Mas não é apenas nos jogos de azar que os resultados ocorrem ao acaso Imagine que uma casa foi escolhida por sorteio de uma comunidade de 5000 domicílios Todas as casas tiveram portanto igual probabilidade de serem amostradas Um entrevistador vai então até a casa selecionada e pergunta gênero idade e renda de todos os moradores As respostas estão evidentemente associadas à casa escolhida Se a casa sorteada tivesse sido outra provavelmente o conjunto de respostas seria diferente Logo as res postas coletadas pelo entrevistador foram determinadas pelo acaso uma vez que a casa foi escolhida por processo aleatório Uma variável é aleatória quando o acaso tem influência em seus valores As variáveis aleatórias são indicadas por números Se um jogador ganha quando sai cara associamos o número 1 à saída de cara e o número zero à saída de coroa Se a pessoa entrevistada numa pesquisa disser que tem 42 anos a variável aleatória que representa idade de pessoas assumiu nesse caso valor 42 As variáveis aleatórias são portanto numéricas Logo podem ser dis cretas e contínuas Neste Capítulo vamos estudar as variáveis aleatórias dis cretas 115 Introdução à Bioestatística 911 Variável aleatória binária Alguns experimentos só podem resultar em uma de duas possibilidades o evento no qual estamos interessados que é denominado sucesso e o even to contrário chamado de fracasso O exemplo mais conhecido é o jogo de moedas Quando se joga uma moeda ou sai cara ou sai coroa as duas faces não podem ocorrer ao mesmo tempo Dizemos então que a variável aleatória é binária Na área de saúde encontramos muitas variáveis binárias Veja alguns exemplos um exame laboratorial pode dar resultado positivo ou negativo um nascituro pode ser menino ou menina um medicamento pode surtir ou não o efeito esperado um doador de sangue pode ser Rh ou Rh a dieta pode ser adequada ou nãoadequada determinado material pode estar contaminado ou não Variável aleatória binária é aquela que resulta em um de dois eventos mutuamente exclusivos ou é sucesso ou é fracasso Associamos o valor 1 ao sucesso e valor zero ao fracasso 912 Variável aleatória binomial Muitas vezes contamos o número de vezes que ocorre o evento de interesse ou sucesso em uma série de tentativas ou de experimentos Por exemplo Um jogador conta quantas caras saem quando lança 10 moedas Um pesquisador conta quantos dos 500 chefes de família que entre vistou eram mulheres Um médico conta quantos dos 100 pacientes que tratou com uma nova droga ficaram curados Um biomédico conta quantos dos 32 hemogramas que fez no dia in dicaram doença contagiosa Uma enfermeira conta quantos dos nascidos vivos durante determi nado ano em uma maternidade tinham doença ou defeito sério A variável que resulta da soma dos resultados de uma variável aleatória binária em n tentativas é uma variável aleatória binomial Capitulo 9 Distribuição Binomial 1 17 Exemplo 91 Variável aleatória binomial Escreva os eventos que podem ocorrer quando se lança uma moeda duas vezes Conte o número X de caras em cada um desses eventos Apresente os resultados em uma tabela Solução TABELA 91 Eventos possíveis e número de caras quando uma moeda é lançada duas vezes Eventos possíveis coroa e coroa coroa e cara cara e coroa cara e cara 92 DISTRIBUIÇÃO DE PROBABILIDADES Valor de X o 1 1 2 Os valores observados da カイゥカ セ aleatória X são indicados por x1 x2 xk e as respectivas probabilidades por Px1 Px2 Pxk Obrigatoria mente 1 A soma das probabilidades de ocorrerem todos os valores possíveis de X é 1 2 A probabilidade de ocorrer qualquer valor de X é igual ou maior que zero não pode ser negativa 111 Introdução à Bioestatística Exemplo 92 Distribuição de probabilidades A variável X representa o número de caras que se obtêm quando se lança uma moeda duas vezes Apresente a distribuição de probabilidades de X em tabela e em gráfico Solução Quando se joga uma moeda duas vezes os eventos possíveis são coroa coroa coroa cara cara coroa cara cara Se saírem duas coroas a variável X assume valor zero A probabilidade de isso acontecer é 1 1 1 PcoroaxPcoroa 2 x 2 4 025 Se saírem uma coroa e uma cara a variável X assume valor um A probabilidade de isso acontecer é 1 1 1 1 1 1 PcoroaxPcara PcaraxPcoroa x x 050 2 2 2 2 4 4 Se safrem duas caras a variável X assume valor dois A probabilidade de isso acon tecer é 1 1 1 PcaraXPcara 2 x 2 4 025 A Tabela 92 e a Figura 91 apresentam um resumo destes cálculos ou seja apre sentam a distribuição de probabilidades de X A soma das probabilidades é 1 TABELA 92 Distribuição de probabilidades do número de caras em dois lançamentos de uma moeda Evento Valor de X Coroa e Coroa o Coroa e Cara ou Cara e Coroa 1 Cara e Cara 2 Total PX 1 1 l X 2 2 4 1 1 1 1 2 X X 2 2 2 2 4 l 1 x l 2 2 4 Capitulo 9 Distribuição Binomial 1 19 06 05 Q 04 co e E 03 co o o セe 02 o 1 o o 1 2 Número de caras FIGURA 91 Distribuição de probabilidades do número de caras em dois lançamentos de uma moeda Neste ponto é importante deixar claro que existe diferença entre dis tribuição de probabilidades e distribuição de freqüências As distribuições de freqüências tratadas no Capítulo 2 são empíricas porque são construídas com base nos dados de amostras As amostras variam mesmo que sejam to madas no mesmo local e na mesma época A distribuição de probabilidades é teórica porque é construída com base em teoria ou com base nos dados de toda a população em estudo A distribuição de probabilidades é estável 93 DISTRIBUIÇÃO BINOMIAL Uma distribuição de probabilidades bem conhecida é a distribuição binomial que estuda o número X de sucessos em n tentativas e as suas respectivas probabilidades Para aprender a trabalhar com a distribuição binomial imagine que em determinada maternidade nasceram três bebês em um dia Vamos estudar a distribuição de meninos em três nascimentos Fazendo A indicar menina e O indicar menino os eventos possíveis são os seguintes AAA AAO AOO 000 AOA OAO OAA OOA 1 91 Introdução à Bioestatística O número de meninos que pode ocorrer em três nascimentos é uma va riável aleatória binomial que indicaremos por X A Tabela 93 apresenta os valores possíveis de X e o número de vezes que cada um deles ocorre con forme mostrado no esquema TABELA 93 Números possíveis de meninos em três nascimentos Valor de X Freqüência o 1 2 3 1 3 3 1 Seja p a probabilidade de nascer menino e q a probabilidade de nascer menina Evidentemente p q 1 Se nascerem três meninas isto é se ocorrer o evento AAA a variável aleatória X assume valor zero com probabilidade P X 0 PA x PA X PA q X q X q q3 Se nascerem duas meninas e um menino X assume valor 1 Mas duas meninas e um menino podem ocorrer de três maneiras diferentes Veja as probabilidades Então PA X PA x PO q X q X p pf PA X PO X PA qxp X q pf PO X PA X PA p X q X q pf P X 1 3pq2 Se nascerem uma menina e dois meninos X assume valor 2 Mas uma menina e dois meninos podem ocorrer de três maneiras diferentes Veja as probabilidades Então PA X PO X PO q X p X p p2q PO X PA X PO p x q x p p2q PO X PO X PA p X p x q p2q Capitulo 9 Distribuição Binomial 1 91 Se nascerem três meninos isto é se ocorrer o evento 000 a variável ale atória X assume valor 3 com probabilidade P X 3 PO X PO X PO p X p x p p3 A distribuição binomial do número X de meninos em n 3 nascimen tos está na Tabela 94 São dados os resultados possíveis de X e suas res pectivas probabilidades TABELA 94 Distribuição de probabilidades do número de meninos em três nascimentos 1 Valor de X Probabilidade o q3 1 3pq2 2 3p2q 3 p3 Vamos considerar por facilidade que a probabilidade de nascer meni no é p 05 e que a probabilidade de nascer menina é q 05 embora se saiba que a probabilidade de nascer menino é ligeiramente maior do que 05 Estamos também ignorando nascimentos de gêmeos e nascimentos múltiplos Considerando p 05 e q 05 obtemos a distribuição de pro babilidades do número de meninos em três nascimentos apresentada na Tabela 95 e na Figura 92 TABELA95 Distribuição de probabilidades do número de meninos em três nascimentos p q 05 1 Valor de X PX J 1 1 1 o XX0125 2 2 2 8 1 1 1 1 3 3X X X 0375 2228 2 1 1 1 3 3xxx0375 2 2 2 8 J 1 l l 3 x x 0125 2 2 2 8 Total 1 1 9 Z Introdução à Bioestatística 04 O 1 ッ セ o 1 1 1 2 Valores de X 3 FIGURA 92 Distribuição de probabilidades do número de meninos em três nascimentos 931 Caracterização da distribuição binomial Uma distribuição binomial tem as seguintes características Consiste de n ensaios ou n tentativas ou n eventos idênticos Cada ensaio só pode resultar em um de dois resultados identificados como sucesso e fracasso com valores 1 e zero respectivamente A variável aleatória X é o número de sucessos em n ensaios A probabilidade de sucesso ocorrer o evento de interesse é p e o valor de p permanece o mesmo em todos os ensaios Os ensaios são independentes o resultado de um ensaio não tem efei to sobre o resultado de outro A distribuição binomial fica portanto definida quando são dados dois parâmetros n isto é o número de ensaios p ex se uma moeda for lançada 10 vezes p isto é a probabilidade de sucesso em uma tentativa por exemplo a probabilidade de sair cara quando se joga uma moeda 932 Função de distribuição na distribuição binomial Vamos aceitar sem demonstração que dada uma distribuição binomial de parâmetros n e p a probabilidade de ocorrerem x eventos favoráveis é dada pela fórmula px x11x em que é a combinação1 de n x a x Portanto a probabilidade de ocor rerem x eventos favoráveis em n tentativas é dada pela fórmula Uma rápida revisão sobre análise combinatória está inserida no final deste Capitulo Capitulo 9 Distribuição Binomial 1 9 3 PX x n pxx xn x Veja agora um exemplo que ajuda a entender como trabalhamos com a distribuição binomial Exemplo 93 Eventos em uma distribuição binomial Um dentista vai examinar uma amostra de quatro crianças de 6 anos de idade para saber se elas têm Sim indicado por S ou não Não indicado por N cárie Quais são os eventos possíveis Solução Os eventos possíveis são os que seguem NNNN NNNS NNSS NSSS ssss NNSN NSNS SNSS NSNS NSSN SSNS SNNN SNNS SSSN SNSN SSNN Exemplo 94 Distribuição binomial Reveja o Exemplo 93 Faça X indicar o número de crianças com cárie p indicar a probabilidade de uma criança ter cárie e q indicar a probabilidade de uma crian ça não ter cárie Escreva a distribuição Solução TABELA 96 Distribuição de probabilidades do número de crianças com cárie em quatro crianças Evento Valor de X PX Nenhuma criança com cárie o q4 Uma criança com cárie 1 4pq3 Duas crianças com cárie 2 6p2q2 Três crianças com cárie 3 4p3q Quatro crianças com cárie 4 p4 1 9 4 Introdução à Bioestatística Exemplo 95 Dístribuição binomial n 4 p 04 Reveja o Exemplo 94 Considere que na população estudada a probabilidade de uma criança de 6 anos ter cárie é p 04 ou seja 40 Qual é a probabilidade de duas das quatro crianças examinadas terem cáries Solução A Tabela 96 mostra a probabilidade de a variável X assumir valor 2 Se a proba bilidade de uma criança dessa população ter cárie é p 04 então PX 2 6p2q2 6 X 042 X 062 6 X 016 X 036 03456 Exemplo 96 Cálculo de probabilidades na distribuição binomial Reveja o Exemplo 94 A probabilidade de uma criança de 6 anos ter cárie é p 04 ou 40 Calcule a probabilidade de duas X 2 das quatro n crianças exami nadas terem cáries aplicando a fórmula PX RIHセIクP L T R x06 2 03456 A probabilidade de o dentista encontrar duas de quatro crianças com cárie nes sa população é 03456 933 Média e variância na distribuição binomial A média µ lêse mi de uma distribuição binomial é dada pela fórmula µnp e a variância J2 lêse sigma ao quadrado é dada pela fórmula 0 2 npq Exemplo 97 Média e variância da distribuição binomial A probabilidade de nascer um menino é p 05 ignorando nascimentos de gêmeos e nascimentos múltiplos Calcule a média e a variância do número de meninos em 1000 nascituros Solução A média é µ np 1000 x 05 500 meninos e a variância é cr2 npq 1000 X 05 X 05 250 Capitulo 9 Distribuição Binomial 1 9 5 94 REVISÃO SOBRE ANÁLISE COMBINATÓRIA Se n é um número inteiro positivo maior do que zero por definição fatorial de n que se indica por n é dado por n n n 1 n2 1 O fatorial de 5 é portanto 5 5 X 4 X 3 X 2 X 1120 O desenvolvimento de um fatorial pode ser interrompido antes de che gar ao número 1 desde que se coloque o símbolo que indica o fatorial logo após o último número Escrevese 5 5x4x3l porque 3 3X2X 1 O fatorial de zero que se indica por O é por definição igual a 1 Dado um conjunto de n elementos onde n O e dado o número x n combinação de n x a x é indicada por n n x xnx Esta fórmula dá o número de diferentes conjuntos de x elementos que podem ser formados com n elementos distintos Seja n 5 ex 3 Então a combinação de 5 3 a 3 é 5 5 2 10 3 353 32 Convém observar que para todo n n n n nnn 95 EXERCÍCIOS RESOLVIDOS 2l nO 951 Ache o erro nas duas afinnativas feitas em seguida a A probabilidade de você ser aprovado em Estatística é 2 e de ser repro vado é 02 b A probabilidade de chover amanhã é 20 de ficar nublado sem chuva é 10 e de ter sol é 80 A soma de probabilidades deve ser 1 ou 100 Nas duas afirmativas as somas excedem o valor 1 ou 100o 1 9 5 Introdução à Bioestatística 952 Numa prova2 o aluno deve assinalar a resposta que fornece as datas na ordem em que estão mencionadas de três acontecimentos históricos Des coberta do Brasil Descoberta da América Independência do Brasil As op ções são a 1492 1822 1500 b 1822 1492 1500 e 1492 1500 1822 d 1822 1500 1492 e 1500 1492 1822 f 1500 1822 1492 Um aluno que nada sabe sobre a matéria tenta adivinhar Qual é dis tribuição de probabilidades do número de acertos A resposta correta é a resposta e Descoberta do Brasil 1500 Desco berta da América 1942 Independência do Brasil 1822 Mas outras res postas têm as datas de um ou dois acontecimentos na ordem correta Veja o número de acertos em cada resposta Resposta Probabilidade til de acertos na resposta a 16 o b 16 1 e 16 1 d 16 o e 16 3 f 16 1 TABELA 97 Distribuição de probabilidade do número de acertos 1 Acertos Probabilidade o 26 1 36 2 o 3 16 Total 1 Adaptado de MOSTELLER F ROURKE R E K THOMAS JR G B Probability and Statistics Reading AddisonWesley 1961 p 160 Capitulo 9 Distribuição Binomial 1 9 7 953 Na população branca do Brasil 85 têm Rh Três pessoas são amostradas ao acaso dessa população Construa a distribuição binomial e faça um gráfico No problema TABELA 98 n é o número de pessoas n 3 X é o número de pessoas com Rh na amostra p é a probabilidade de Rh p 085 q é a probabilidade de Rh q 015 Cálculos intermediários para obter a distribuição binomial Eventos Valores possíveis de X Cálculos Probabilidade Rh Rh Rh 3 085 X 085 X 085 0614125 Rh Rh Rh 2 085 X 085 X 015 0108375 Rh Rh Rh 2 085 X 015 X 085 0108375 Rh Rh Rh 2 015 X 085 X 085 0108375 Rh Rh Rh 1 085 X 015 X 015 0019125 Rh Rh Rh 1 015 X 085 X 015 0019125 Rh Rh Rh 1 015 X 015 X 085 0Õ19125 Rh Rh Rh o 015 X 015 X 015 0003375 Para construir a tabela de distribuição binomial você soma as proba bilidades dos eventos que levam ao mesmo valor de X A distribuição é dada na Tabela 99 TABELA 99 Distribuição de probabilidades do número de pessoas com Rh numa amostra de três pessoas 1 Valores de X Probabilidade 3 0614125 2 0325125 1 0057375 o 0003375 1 91 Introdução à Bioestatística e o 0003375 e E 0057375 o u 1 o 0325125 2 Q o Q 0614125 O o 3 z Probabilidades FIGURA 93 Distribuição de probabilidades ido número de pessoas com Rh em três pessoas 954 Apresente em tabela e em gráfico a distribuição do número de meni nos que podem ocorrer em uma família com seis crianças No problema n é o número de crianças 6 p é a probabilidade de meni no 12 e q é a probabilidade de menina 12 Para obter a probabilida de de X assumir o valor O ou seja de não ocorrer nenhum menino calcule PX ッ IM HセI ク HセIᄎ ク Hセj M 6 1 l 1 xx 1 61 2 26 64 Para obter a probabilidade de X assumir o valor 1 isto é de ocorrer um menino em uma família com seis crianças calcule 6 1 1 1 5 6 P X 1 1 X 2 X 2 64 Para obter a probabilidade de x assumir o valor 2 isto é de ocorrerem dois meninos em uma família com seis crianças calcule 6 1 2 1 4 15 PX 2 2 X 2 X 2 64 Para obter a probabilidade de X assumir o valor 3 calcule p H x S I HセIクH セI S ク H セ j セ Para obter a probabilidade de X assumir o valor 4 calcule 6 1 4 1 2 15 PX 4 4 X 2 X z 64 Capitulo 9 Distribuição Binomial 1 9 9 Para obter a probabilidade de X assumir o valor 5 calcule 6 1 5 1 1 6 PX 5 5 X 2 X 2 64 Para obter a probabilidade de X assumir o valor 6 calcule Com os valores de X e as respectivas probabilidades podemos construir a Tabela 910 que apresenta uma distribuição binomial para n 6 e p 05 O gráfico de barras está na Figura 94 TABELA 910 Distribuição do número de meninos em uma família com seis crianças Evento X P X Nenhum menino o 164 1 menino 1 664 2 meninos 2 1564 3 meninos 3 2064 4 meninos 4 1564 5 meninos 5 664 6 meninos 6 164 035 03 025 Q O co 02 E a co 015 o セo Cl 01 005 o o 1 2 3 4 5 6 Número de meninos FIGURA 94 Distribuição do número de meninos em uma família com seis crianças Z 11 Introdução à Bioestatística 955 A probabilidade de um menino ser daltônico é 8 Qual é a probabili dade de serem daltônicos todos os quatro meninos que se apresentaram em determinado dia para um exame oftalmológico No problema p 008 Então q 1 008 092 O número de meninos é n 4 Para obter a probabilidade de X assumir valor 4 aplicase a fórmula Então PX x px qnx PX 4 x08 4 x092 0000040 ou 0004096 956 O resultado do cruzamento de ervilhas amarelas homozigotas AA com ervilhas verdes homozigotas aa são ervilhas amarelas heterozigotas Aa Se estas ervilhas forem cruzadas entre si ocorrem ervilhas amarelas e verdes na proporção de 3 para 1 Portanto a probabilidade de num cru zamento desse tipo ocorrer ervilha amarela é p 34 e a probabilidade de ocorrer ervilha verde é q 1 4 Logo o número de ervilhas amarelas em um conjunto de n ervilhas é uma variável aleatória com distribuição binomial de parâmetros n e p 34 Foram pegas ao acaso quatro er vilhas resultantes do cruzamento de ervilhas amarelas heterozigotas Qual é a probabilidade de duas dessas quatro ervilhas serem de cor amarela A probabilidade de duas das quatro ervilhas serem amarelas é dada por 4 3 2 t 2 PX 2 2 X 4 4 02109 ou 2109 957 Considere novamente o cruzamento de ervilhas amarelas e verdes des crito no Exercido 95 6 Qual é a média de ervilhas amarelas considerando uma amostra de n 100 ervilhas Qual é a variância Um conjunto de n 100 ervilhas tem em média e variância µ 100x1 7 5 ervilhas amarelas 4 3 1 cr 2 lOOxx18 75 4 4 Capitulo 9 Distribuição Binomial 211 958 Um exame é constituído de 100 testes com cinco opções onde apenas uma é correta Um aluno que nada sabe sobre a matéria do exame acerta em média quantos testes Qual é a variância da distribuição A probabilidade de um aluno acertar uma resposta por acaso é p 15 Existem n 100 testes Então aplicando a fórmula vem µ 100x 20 5 ou seja um aluno que nada sabe sobre a matéria acerta em média 20 tes tes A variância da distribuição é cr 2 lOOxx 4 16 5 5 959 Um pesquisador de mercado quer saber a proporção de consumidores que preferem café sem cafeína Se ele perguntar a 500 pessoas que tipo de café adquiriu em sua última compra como ele estimaria a média e a variância da distribuição O pesquisador terá respostas Sim e Não além de outras como Não sei Não me lembro Não tenho tempo para responder questionários Se as respostas do tipo Sim e Não chegarem a 70 isto é se a taxa de res posta for de 70 quando a quantidade de nãorespondentes é grande a pesquisa não tem validade terá uma distribuição binomial A média será obtida pela fórmula µnp e a variância セ pela fórmula cr npq O valor de p é obtido dividindo o número de consumidores que prefere café sem cafeína pelo número n de respondentes 9510 Numa cirurgia experimental uma cobaia pode sobreviver S ou mor rer M O pesquisador não sabe é isto que ele está pesquisando mas considere que a probabilidade de uma cobaia sobreviver na cirurgia é 025 A cirurgia será feita em duas cobaias Se ambas sobreviverem operamse mais duas Se só uma sobreviver outra é operada Se as duas morrerem o pesquisador pára o experimento Qual é a probabüidade de não se fazer uma segunda seqüência de cirurgias as duas primeiras cobaias operadas morrerem Qual é a probabilidade de quatro cobaias ser operadas e as quatro sobreviverem Z 1 Z Introdução à Bioestatística As respostas são dadas na Tabela 911 Se as duas cobaias morrerem sobre vivência zero o pesquisador pára o experimento A probabilidade de isso ocorrer é 05625 Se as duas cobaias sobreviverem sobrevivência 2 o pes quisador opera mais duas A probabilidade de isso ocorrer é 00625 X 00625 00039 TABELA 911 Probabilidade de sobrevivência de cobaias submetidas a uma cirurgia experimental 1ª seqüência 2 seqüência Total Operadas Vivas Pvivas Operadas Vivas Pvivas Operadas Vivas Pvivas 2 o 05625 o 2 o 05625 2 1 03750 1 o 07500 3 1 02813 1 02500 2 00938 2 2 00625 2 o 05625 4 2 00352 1 03750 3 00234 2 00625 4 00039 96 EXERCÍCIOS PROPOSTOS 961 Há três bolas numeradas em uma caixa cada uma com um número dife rente Os números são 1 2 e 3 Tirase uma bola da caixa e em seguida outra Formase então um número de dois dígitos com os números das bolas retiradas Por exemplo se saiu 3 e depois 2 foi formado o número 32 Um jogador ganha se sair número par Nesse jogo se ganha mais do que se perde ou é justamente o contrário 962 Seja X a variável aleatória que indica o número de meninos em uma fa mília com cinco crianças Apresente a distribuição de X em uma tabela Faça um gráfico 963 Um exame é constituído de 10 testes tipo certoerrado Um aluno que nada sabe sobre a matéria do exame quantos testes em média acerta Qual é a variância da distribuição Capitulo 9 Distribuição Binomial 213 964 Um exame é constituído de 10 testes com cinco opções das quais apenas uma é correta Um aluno que nado sabe sobre a matéria do exame acerta em média quantos testes Qual é a variância da distribuição 9 65 Suponha que determinado medicamento usado para o diagnóstico pre coce da gravidez é capaz de confinnar casos positivos em apenas 90 das gestantes muito jovens Isto porque em 10 das gestantes muito jovens ocorre uma escamação do epitélio do útero que é confundida com a mens truação Nestas condições qual é a probabilidade de duas de três gestan tes muito jovens que fizeram uso desse medicamento não terem confir mado precocemente a gravidez 966 A probabilidade de um casal heterozigoto para o gene da fenilcetonúria Aa x Aa ter um filho afetado aa é 14 Se o casal tiver três filhos qual é a probabilidade de ter um filho com a doença 967 A probabilidade de um indivíduo ter sangue Rh é 10 na população brasileira toda Qual é a possibilidade de se apresentarem em determinado dia em um banco de sangue cinco doadores de sangue todos Rh 968 Foi feito um levantamento da opinião de 1000 enfermeiras que traba lhavam em determinado hospital sobre determinada questão que tinha duas alternativas Sim e BnッGセ As respostas têm distribuição binomial Algumas enfermeiras não responderam ao questionário Que efeito isso pode ter sobre as respostas 969 A experiência demonstra que um detector de mentiras dá resposta posi tiva indicando mentira 10 das vezes em que uma pessoa está dizen do a verdade e 95 das vezes em que a pessoa está mentindo Imagine que seis suspeitos de um crime são submetidos ao detector de mentiras Todos os suspeitos se dizem inocentes e estão dizendo a verdade Qual é a probabilidade de ocorrer uma resposta positiva 9610 O diretor de uma grande empresa está preocupado com a questão de acidentes e quer fazer um levantamento da situação Existem os registros do número de acidentes por dia na empresa Essa variável tem distribui ção binomial página deixada intencionalmente em branco Distribuição Normal 10 página deixada intencionalmente em branco Capítulo 10 Distribuição Normal Zl7 No Capítulo 3 deste livro você aprendeu a apresentar dados contínuos em histogramas ou em polígonos de freqüências Esses gráficos mostram a con figuração de distribuições empíricas isto é de distribuições obtidas com base em dados observados Veja o Exemplo 101 Exemplo 101 Uma distribuição empírica Um matemático belga do século XIX pôs na cabeça a idéia de descrever o homem médio e por conta disso mediu muitas e muitas variáveis1 A Tabela 101 mos tra a distribuição do perímetro torácico2 que esse matemático mediu em nada menos do que 5732 soldados escoceses As medidas estão em polegadas Como uma polegada vale 254 cm você vê que as medidas variaram entre 8382 cm e 12192 cm3 Veja o histograma apresentado na Figura 101 TABELA 101 Distribuição de freqüências para perímetro torácico de homens adultos em polegadas Perímetro torácico Freqüência Freqüência relativa 33 3 000052 34 19 000331 35 81 001413 3l 189 003297 37 409 007135 38 753 013137 39 1002 018528 40 1082 018876 41 935 016312 42 646 011270 43 313 005461 44 168 002931 45 f 000872 46 18 000314 47 3 000052 48 1 000017 Fonte Oaly F Hand O Jones C Lunn AO 1995 1Adolphe Quetelet 17961874 2DALY F HAND D JONES C LUNN AD Elements of Statistics Addison Wesley 1995 Os homens eram em média menores do que são hoje Z 11 Introdução à Bioestatística 020 セMセ 018 016 ᄋセ 014 セ 012 ᄋセ 010 セ e cr 008 セ 006 004 002 oooi 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 Perfmetro torácico FIGURA 101 Histograma poro o distribuição de freqüências do perímetro torácico de homens adultos em polegadas Muitas distribuições de freqüências têm a aparência da distribuição da Figura 10 1 Todas elas se aproximam de uma distribuição teórica chamada distribuição normal também conhecida como distribuição de Gauss apre sentada em gráfico na Figura 102 Nenhuma distribuição empírica no en tanto tem todas as características da distribuição normal Mas o fato de pressupor que uma variável tem distribuição normal permite resolver muitos problemas em Estatística FIGURA 102 Gráfico do distribuição normal Capítulo 10 Distribuição Normal Zl 9 101 CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL Os gráficos apresentados nas Figuras 101 e 102 têm configuração seme lhante Mas o primeiro é empírico e o segundo é teórico o que os tornam diferentes Observe novamente o histograma da Figura 101 a freqüência relativa de unidades em cada intervalo é dada pela altura medida no eixo das ordenadas do retângulo que representa o intervalo Então a propor ção de homens adultos com perímetro torácico igual a 37 polegadas por exemplo é dada no eixo das ordenadas aproximadamente 007 Essas pro porções são estimativas de probabilidade A distribuição teórica dada na Figura 102 representa uma população in finita Logo o eixo das ordenadas não mostra a proporção de indivíduos em cada categoria porque não há como calcular proporções sobre um total que é infinito Mas a curva abriga toda a população em estudo Então a área to tal sob a curva é 1 ou seja 100 porque toda a população está sob a curva A distribuição normal fica definida quando são dados dois parâmetros a média que se representa pela letra grega µ lêse mi e o desvío padrão que se representa pela letra grega cr lêse sigma Algumas características da distribuição normal são bem conhecidas a média a mediana e a moda coincidem e estão no centro da distri buição o gráfico da distribuição normal tem aspecto típico é uma curva em forma de sino simétrica em tomo da média como a curva é simétrica em tomo da média 50 dos valores são iguais ou maiores do que a média e 50 dos valores são iguais ou menores do que a média Exemplo 102 Uma distribuição nonnal Um teste de inteligência4 foi idealizado pressupondo que quociente de inteligên cia tem distribuição normal de média µ 100 e desvio padrão cr 15 Veja a Fi gura 103 e note que de acordo com esse teste As pessoas têm em média OI igual a 100 Metade das pessoas tem OI igual ou maior do que 100 e metade tem OI igual ou menor do que 100 Pessoas com OI muito alto na cauda à direita da curva são raras como tam bém são raras pessoas com OI muito baixo na cauda à esquerda da curva Existem muitas maneiras de medir inteligência embora nenhuma delas explique exatamente o que está sendo medido Mas um dos testes Weschler foi idealizado pressupondo que inteli gência tem distribuição normal como mostrado no exemplo ln MOTULSKY H Intuitive Biostatistics Nova York Oxford Press 1995 p38 Z 11 Introdução à Bioestatística A grande vantagem de pressupor que uma variável tem distribuição nor mal é o fato de ser possível porque a distribuição é conhecida cal cular as probabilidades relacionadas a essa variável Essas probabilidades são dadas pelas áreas sob a curva Mas como isso é feito Você já sabe a rela ção entre a área sob a curva e a média metade das observações é maior do que a média e obviamente metade das observações é menor do que a mé dia Mas também existem relações entre a área sob a curva e o desvio pa drão da variável Veja Provase teoricamente5 que se a variável tem distribuição normal 3413o da área sob a curva estão entre a média µ e um ponto de abscissa igual à média mais um desvio padrão µ cr A curva é simétrica em torno da média Seguese dai que 34 13 da área sob a curva está entre a média µ e um ponto de abscissa igual à média menos um desvio padrão µ cr Se você somar as porcentagens terá 6826 Então entre µ cr e µ cr estão 6826o da área da curva como mostra a Figura 103 A proporção da área sob a curva dá a probabilidade de ocorrerem casos no mesmo intervalo Veja o Exemplo 103 40 50 60 70 80 90 100 110 120 130 14D 150 160 FIGURA 103 Distribuição normal 6826o dos casos estão entre a média 1 desvio padrão Neste livro você aprende como usar as tabelas prontas A teoria é encontrada em textos teóri cos de Estatística Capítulo 10 Distribuição Normal Zt 1 Exemplo 103 Média desvio padrão Reveja o Exemplo 102 Pressupondo que quociente de inteligência tem distribui ção normal de média µ 100 e desvio padrão cr 15 então 34 13 das pessoas segundo o teste têm quociente de inteligência entre µ 100 e µ cr 100 15 115 ou seja entre 100 e 115 34 13 das pessoas segundo o teste têm quociente de inteligência entre µ 100 eµ cr 100 15 85 ou seja entre 100 e 85 6826 das pessoas segundo o teste têm quociente de inteligência entre 85 e 115 Olhe novamente a Figura 102 as áreas sob a curva diminuem à medi da que os valores de X se afastam da média Provase teoricamente que se a variável tem distribuição normal 1359 da área sob a curva estão entre a média mais um desvio pa drão µ o e um ponto de abscissa igual à média mais dois desvios padrões µ 2o A curva é simétrica em torno da média Seguese daí que 1359 da área sob a curva estão entre a média menos um desvio padrão µ cr e um ponto de abscissa igual à média menos dois desvios padrões µ 2o Veja a Figura 104 40 50 60 70 80 90 100 110 120 130 140 150 160 FIGURA 104 Distribuição normal 1359 dos casas entreµ o eµ 2o e 1359o dos casos entre µ o e µ 2o Z 1 2 Introdução à Bioestatística Exemplo 104 Outros dois intervalos Reveja o Exemplo 102 Pressupondo que quociente de inteligência tem distribui ção normal de média µ 100 e desvio padrão J 15 então 1359 das pessoas segundo o teste têm quociente de inteligência entreµ cr 100 15 115 e µ 2J 100 30 130 ou seja entre 115 e 130 1359 das pessoas segundo o teste têm quociente de inteligência entreµ cr 100 15 85 e µ 2J 100 30 70 ou seja entre 70 e 85 Vamos agora reunir as informações das duas últimas figuras Isso sig nifica calcular a probabilidade de uma observação cair no intervalo µ 2cr ou o que é o mesmo estar entre µ 2cr e µ 2J Escrevemos P µ 2J Xµ 2cr Lembrando os valores apresentados nas figuras 103 e 104 podemos escrever P µ 2J X µ 2J 1359 3413 3413 1359 9544 Logo o intervalo µ 2J engloba 9544 da área sob a curva Exemplo 105 Média 2 desvios padrões Reveja o Exemplo 102 Pressupondo que quociente de inteligência tem distribui ção normal de médiaµ 100 e desvio padrão J 15 então 9544 das pesso as segundo o teste têm quociente de inteligência entre 70 e 130 isto é entre µ 2cr 100 2 X 15 70 e µ 2J 10 2 X 15 130 Agora olhe novamente a Figura 104 a área sob a curva depois do ponto de abscissa µ 2cr é muito pequena Do que foi visto é fácil entender que essa área tem probabilidade 500 3413 1359 228 Por similaridade a área sob a curva antes do ponto de abscissa µ 2J tem como se vê na Figura 104 probabilidade 500 34 13o 1359o 228 Capítulo 1 O Distribuição Normal Z 13 Exemplo 106 Caudas da distribuição Reveja o Exemplo 102 Pressupondo que quociente de inteligência tem distribui ção normal de médiaµ 100 e desvio padrão cr 15 qual é o valor da abscissa OI que delimita os 228 de OI mais alto E qual é o valor da abscissa OI que delimita os 228 de OI mais baixo Solução Os 228 das pessoas com OI mais alto são os que estão acima deµ 2cr 100 2 x 15130 Os 228 das pessoas com OI mais baixo são os que estão abaixo de µ 2cr 100 2 X 15 70 Portanto pessoas com OI muito alto na cauda à direita da curva são raras como também são raras pessoas com OI muito baixo na cauda à esquerda da curva É importante lembrar que no exemplo dado os valores obtidos pres supõem distribuição normal Na prática encontramos distribuições aproxi madamente normais Então os resultados obtidos são aproximações De qualquer forma na maioria das vezes o intervalo x s captura a maioria dos casos e o intervalo x 2 s engloba a grande maioria de casos 102 DISTRIBUIÇÃO NORMAL REDUZIDA Distribuição normal reduzida ou distribuição normal padronizada é a distribuição normal de média zero e variância 1 A variável que tem distribuição normal reduzida ou distribuição normal padronizada é chamada variável reduzida ou padronizada e é indicada pela letra z A distribuição normal reduzida tem grande importância 1 As probabilidades associadas à distribuição normal reduzida são da das em tabelas o que torna fácil saber as probabilidades associadas a essa distribuição Basta procurar na tabela 2 Podemos transformar qualquer variável aleatória X com distribuição normal de média e desvio padrão conhecidos numa distribuição nor mal reduzida Z 1 4 Introdução à Bioestatística 3 Dos itens 1 e 2 seguese que qualquer probabilidade associada a X pode ser obtida transformando X distribuição normal em z distri buição normal reduzida Vamos aprender como se acham as probabilidades na distribuição nor mal reduzida Por exemplo qual é a probabilidade de ocorrer valor entre a média zero e o valor z 125 Essa probabilidade é encontrada na ta bela de distribuição normal reduzida que você acha neste livro em Apên dice Mas parte dessa tabela foi reproduzida neste Capítulo é a Tabela 102 Para aprender como se usa a tabela de distribuição normal reduzida observe a Figura 105 A probabilidade de ocorrer valor entre a média zero e o valor z 125 corresponde à área sombreada na Figura 105 60 50 40 30 20 10 00 10 20 30 40 50 60 FIGURA 105 Probabilidade de ocorrer valor entre zero e z 125 Agora olhe a Tabela 102 na primeira coluna está o valor 12 negrito na primeira linha da Tabela 102 está o valor 5 negrito O número 12 com põe com o algarismo 5 o número z 125 No cruzamento da linha 12 com a coluna 5 está o número 03944 negrito Esta é a probabilidade de ocor rer valor entre a média zero e o valor z 125 área sombreada na Figura 105 Capítulo 10 Distribuição Normal TABELA 102 Tabela parcial de distribuição normal reduzida probabilidade de valor entre zero e 125 o 1 2 3 4 5 00 00000 00040 00080 00120 00160 00199 01 00398 00438 00478 00517 00557 00596 02 00793 00832 00871 00910 00946 00987 03 01179 01217 01255 01293 01331 01368 04 01554 01591 01628 01664 01700 01736 05 01915 01950 01985 02019 02054 02088 06 02257 02291 02324 02357 02389 02422 07 02580 02611 02642 02673 02703 02734 08 02881 02910 02939 02967 02995 03023 09 03159 03186 03212 03238 03264 03289 10 03413 03438 03461 03485 03508 03531 1 1 03643 03665 03686 03708 03729 03749 12 03849 03869 03888 03907 03925 03944 13 04032 04049 04066 04082 04099 04115 14 04192 04207 04222 04236 04251 04265 Exemplo 107 Probabilidade na distribuição normal reduzida Qual é a probabilidade de ocorrer valor maior do que z 125 Solução 6 00239 00636 01026 01406 01772 02123 02454 02764 03051 03315 03554 03770 03962 04131 04279 A probabilidade de ocorrer valor entre a média zero e o valor z 125 área som breada é 03944 como foi visto anteriormente Essa probabilidade corresponde à área pontilhada na Figura 105 A probabilidade de ocorrer valor maior do que a média zero é 05 Então a probabilidade pedida área com hachuras é 05 03944 O 1056 ou 1056 Z15 Z 1 5 Introdução à Bioestatística Exemplo 108 Probabilidade na distribuição normal reduzida Qual é a probabilidade de ocorrer valor menor do que z 075 A probabilidade de ocorrer valor menor do que z 075 é dada pela área com hachuras na Figura 106 Observe a área pontilhada entre zero e z 075 é igual à área sombreada entre zero e z 075 Para achar essa área procure na primeira coluna da tabela de distribuição normal reduzida o número 07 e na primeira linha o número 5 Você compôs o número z 075 No cruzamento entre a coluna 07 e a linha 5 você lê 02734 que é a probabilidade de ocorrer valor entre zero e z 075 área pontilhada 60 50 40 30 20 10 00 10 20 30 40 50 60 FIGURA 106 Probabilidade de ocorrer valor menor do que z 075 A probabilidade de ocorrer valor menor do que z 075 área com hachuras é igual à probabilidade de ocorrer valor maior do que z 075 área em branco Como a probabilidade de ocorrer valor maior do que a média zero é 05 a probabilida de pedida é dada por 05 02734 02266 ou 2266 103 PROBABILIDADES NA DISTRIBUIÇÃO NORMAL Você aprendeu a trabalhar com a distribuição normal reduzida Aprenda agora como trabalhar com a distribuição normal Mas como se transforma uma variável que tem distribuição normal com média µ e desvio padrão cr em uma variável com distribuição normal re duzida de média zero e desvio padrão 1 Basta calcular z X µ Capítulo 10 Distribuição Normal Zt 7 Com o valor de z calculado pela fórmula dada você procura a proba bilidade pedida na tabela de distribuição normal reduzida como mostra a Seção 102 deste Capítulo Exemplo 109 Probabilidade na distribuição normal A quantidade de colesterol em 100 m 1 de plasma sangüíneo humano tem distri buição normal com média 200 mg e desvio padrão 20 mg Qual é a probabilidade de uma pessoa apresentar entre 200 e 225 mg de colesterol por 100 mi de plasma Solução Observe a Figura 107 A probabilidade pedida corresponde à área sombreada Como você acha o valor dessa área 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 FIGURA 107 Probabilidade de taxa de colesterol entre 200 e 225 mg por 100 mi de sangue Para obter a probabilidade pedida é preciso transformar a distribuição normal em distribuição normal reduzida Na distribuição normal reduzida a média é zero Para obter X 225 na distribui ção normal reduzida calcule X µ コ Mセ cr 225 200 20 l25 Z 11 Introdução à Bioestatística A área sombreada na Figura 107 corresponde à área sombreada na Figura 105 Então a probabilidade de X assumir valor entre 200 e 225 é igual à probabilidade de Z assumir valor entre zero e z 125 que como se viu na Seção 102 é 03944 ou 3944 Logo a probabilidade de uma pessoa apresentar taxa de colesterol en tre 200 e 225 mg por 100 mi de plasma é 03944 ou 3944 Exemplo 1010 Probabilidade na distribuição normal A quantidade de colesterol em 100 mi de plasma sangüíneo humano tem distri buição normal com média 200 mg e desvio padrão 20 mg Qual é a probabilidade de uma pessoa apresentar menos do que 195 mg de colesterol por 100 mi de plasma Solução Essa probabilidade corresponde à área com hachuras na Figura 108 120 130 140 150 160 170 180 190 200 21 o 220 230 240 250 260 270 280 FIGURA 108 Probabilidade de taxa de colesterol menor do que 195 mg por 100 mi de sangue É preciso transformar o valor X 195 em z Obtémse então z 195 ro 025 2 A probabilidade de ocorrerem valores de z iguais ou menores do que D25 é igual à probabilidade de valores dez iguais ou maiores do que 025 Capítulo 10 Distribuição Normal Zt 9 A probabilidade de ocorrerem valores de z entre a média zero e 025 você encon tra na tabela de distribuição normal reduzida é 00987 no cruzamento da coluna 02 e da linha 5 A probabilidade de valores de z iguais ou maiores do que 025 é portanto 05 00987 04013 ou 40 13 Então a probabilidade de uma pessoa apresentar 195 mg de colesterol por 100 mi de plasma ou menos é 04013 ou 4013 104 Usos DA DISTRIBUIÇÃO NORMAL Imagine que você está lendo um artigo da área de Cardiologia Nesse artigo você lê que a amostra de 100 pacientes forneceu para pressão sistólica a média x 1234 mm de mercúrio e desvio padrão s 140 mm de mercú rio Esses valores estimam os parâmetros isto é a médiaµ e o desvio pa drão cr da população de onde essa amostra proveio Por que essa informa ção é útil Primeiro é razoável assumir que a pressão sistólica tem distribuição normal Veja o gráfico da Figura 109 Depois você já aprendeu que A probabilidade de ocorrer valor de X no intervalo µ cr é 06826 34 1303413 A probabilidade de ocorrer valor de X no intervalo µ 2cr é 09544 0477204772 No caso da amostra em discussão temos que x s 1234 140 1094 X S 1234 14Ü 137 4 x 2s 1234 2xl40 954 x 2s 1234 2xl40 1514 Considerando a média e o desvio padrão obtidos da amostra como boas estimativas deµ e cr respectivamente vem que A probabilidade de encontrar pessoas na população de onde a mos tra proveio com pressão sistólica entre 1094 e 1374 mm de mercúrio é aproximadamente porque a distribuição é aproximadamente normal e os parâmetros estão estimados 6826 Ou seja cerca de 23 da população estudada deve ter pressão sistólica entre 1094 e 1374 mm de mercúrio Z Z 1 Introdução à Bioestatística A probabilidade de encontrar pessoas na população de onde a mos tra proveio com pressão sistólica entre 954 e 1514 mm de mercú rio é aproximadamente porque a distribuição é aproximadamente normal e os parâmetros estão estimados 9544 Ou seja a grande maioria da população estudada deve ter pressão sistólica entre 954 e 1514 mm de mercúrio 04772 04772 70 80 90 100 11 0 120 130 140 150 160 170 FIGURA 109 Distribuição da pressão sistólica A distribuição normal tem ainda outro uso importante em Estatística Você já sabe que amostras tomadas ao acaso da mesma população são di ferentes Logo as médias dessas amostras são diferentes Pense no exem plo que acabamos de examinar Foi medida a pressão sistólica de uma amos tra de 100 pessoas tomadas ao acaso da mesma população A média cal culada foi 1234 mm de mercúrio Se fossem obtidas outras 50 amostras dessa mesma população as médias de pressão sistólica variariam e teriam uma distribuição Mas qual seria essa distribuição Qualquer que seja a distribuição dos dados as médias terão distribui ção normal de acordo com um teorema da Estatística o teorema do limi te central Como conseqüência se tomarmos amostras de centenas de ob servações podemos ignorar a distribuição dos dados A grande aplicação desta informação o intervalo de confiança para uma média será vis ta no Capítulo 11 Mas o uso da distribuição normal vai mais além Em exames radiológi cos e laboratoriais o uso da distribuição normal é comum Veja como isto Capítulo 10 Distribuição Normal ZZ1 é feito Com base em grandes amostras estimamseµ e d Depois com base na distribuição normal definemse critérios de normalidade e nãonorma lidade Por exemplo para densidade mineral óssea BMD porque em inglês é bane mineral density que é medida em gramas por centímetro ao qua drado a Organização Mundial de Saúde considera Normal qualquer valor mais alto que µ cr Osteopenia ou osteoporose préclínica valores entre µ cr e µ 25cr Osteoporose valores abaixo de µ 25cr osteoporose セ 1 µ25o 1 セ osteopenia セ 1 µo 1 セ normal Figura 1010 Distribuição de BMD Então se for aceito que para coluna lombar o BMD médio é 1061 com desvio padrão 10 a pessoa que t iver BMD 0060 é diagnosticada como tendo osteopenia 105 EXERCÍCIOS RESOLVIDOS 1051 Em uma distribuição nonnal reduzida que proporção de casos cai a fora dos limites z 1 e z 1 b fora dos limites z 196 e z 196 a A probabilidade de ocorrer valor maior do que a média zero é 05 A ta bela de distribuição normal reduzida mostra que a probabilidade de ocorrer valor entre a média zero e z 1 procure z 1 na tabela é 03413 Então a probabilidade de ocorrer valor maior do que z 1 é 05000 03413 O 1587 Como a curva é simétrica a probabilidade de ocorrer valor fora dos limites z 1 e z 1 é 2 X 01587 03174 Z Z Z Introdução à Bioestatística b A probabilidade de ocorrer valor maior do que a média zero é 05 A ta bela de distribuição normal reduzida mostra que a probabilidade de ocorrer valor entre a média zero e z 196 procure z 196 na tabe la é 04975 Então a probabilidade de ocorrer valor maior do que z 196 é 05000 04975 00025 Como a curva é simétrica a probabilidade de ocorrer valor fora dos limites z 196 e z 196 é 2 X 00025 00500 1052 Em homens a quantidade de hemoglobina por 100 ml de sangue é uma variável aleatória com distribuição normal de média µ 16 g e desvio padrão J 1 g Calcule a probabilidade de um homem apresentar de 16 a 18 g de hemoglobina por 100 ml de sangue Primeiro é preciso calcular x µ 18 16 z J 1 2 A probabilidade de X assumir valor entre a média 16 e o valor 18 cor responde à probabilidade de Z assumir valor entre a média zero e o valor 2 área sombreada na Figura 1011 Esta probabilidade que pode ser en contrada na tabela de distribuição normal reduzida é 04772 Então a probabilidade de um homem apresentar de 16 a 18 g de hemoglobina por 100 ml de sangue é 04772 ou 47 72 60 50 40 30 20 10 00 10 20 30 40 50 60 FIGURA 1011 Probabilidade de taxa de hemoglobina entre 16 e 18 g de hemoglobina por 100 mi de sangue Capítulo 10 Distribuição Normal ZZ3 1053 No problema 1052 qual é a probabilidade de um homem apresentar mais de 18 g de hemoglobina por 100 ml de sangue Como para x 18 corresponde z 2 e a probabilidade de Z assumir valor entre a média zero e o valor z 2 é 04772 seguese que a probabilidade de Z assumir valor maior do que 2 é 05 04772 00228 ou 228 1054 Sabese que o tempo médio para completar um teste feito para candi datos ao vestibular de uma escola é de 58 minutos com desvio padrão igual a 95 minutos Se o responsável pelo vestibular quiser que apenas 90 dos candidatos terminem o teste quanto tempo deve dar aos candi datos para que entreguem o teste Para resolver o problema primeiro observe a Figura 1012 Lembre que a média delimita 05 da distribuição Então é preciso achar o valor de z que corresponde à probabilidade 04 porque 04 05 09 ou seja os 90 pedidos Na tabela de distribuição normal reduzida você encontra para 03997 que é o valor mais próximo de 04 o ponto z 128 Como xµ z cr xµzcr 58 128 x957016 ou seja devem ser fixados 70 minutos ou mais exatamente 7016 minu tos para terminar o teste 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98 FIGURA 1012 Distribuição do tempo despendido para completar o leste Z Z 4 Introdução à Bioestatística 1055 Se X tem distribuição nonnal de média µ 150 e 975 dos valores de X são menores do que 210 qual é o desvio padrão da distribuição A média delimita 05 da distribuição Observe a Figura 1013 é preci so achar o valor dez que corresponde à probabilidade 0475 porque 0475 05 0975 ou seja 975 Na tabela de distribuição normal reduzi da você encontra para 0475 o ponto z 196 Como xµ z cr cr x µ 210 150 3061 z 196 0475 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 FIGURA 1013 Distribuição da variável X 106 EXERCÍCIOS PROPOSTOS 1061 O quociente de inteligência tem média 100 e desvio padrão 15 Qual é a proporção de pessoas com quodente de inteligência acima de 135 1062 Em uma distribuição nonnal reduzida que valores dez englobam a 50 dos casos que ficam no centro da distribuição b 90 dos casos que ficam no centro da distribuição c 95 dos casos que ficam no centro da distribuição Capítulo 10 Distribuição Normal ZZ5 1063 Suponha que a pressão sangüínea sistólica em indivíduos com idade entre 15 e 25 anos é uma variável aleatória com distribuição aproximadamen te normal de médiaµ 120mmHg e desvio padrão o 8mmHg Nestas condições calcule a probabilidade de um indivíduo dessa faixa etária apresentar pressão a entre 110 e 130mmHg b maior do que 130mmHg 1064 A troca de glicose no sangue humano é uma variável aleatória com dis tnõuição normal de médiaµ 100 mg por 100 ml de sangue e desvio padrão o 6 mg por 100 ml de sangue Calcule a probabilidade de um indivíduo apresentar troca a superior a 110 mg por 100 ml de sangue b entre 90 e 100 mg por 100 ml de sangue 1065 Em um hospital psiquiátrico os pacientes permanecem internados em média 50 dias com um desvio padrão de 1 O dias Se for razoável pressu por que o tempo de permanência tem distribuição aproximadamente nor mal qual é a probabilidade de um paciente permanecer no hospital a mais de 30 dias b menos de 30 dias 1066 A estatura de recémnascidos do sexo masculino é uma variável alea tória com distribuição aproximadamente normal de média µ 50 cm e desvio padrão J 250 cm Calcule a probabilidade de um recémnascido do sexo masculino ter estatura a inferior a 48 cm b superior a 52 cm 1067 A concentração de sódio no plasma tem média igual 1395 mEql de plasma com desvio padrão igual a 3 mEqL de plasma Que valor você poria como ponto de corte para dizer que está alta a concentração de só dio no plasma de uma pessoa 1068 Em uma distribuição normal reduzida que proporção de casos cai a acima dez 1 b abaixo dez 2 c abaixo dez O d acima dez 128 1069 Na distribuição normal reduzida a média é sempre zero Isso sugere que metade dos escores é positiva e metade é negativa Explique sua resposta 10610 Em uma academia os ginastas levantam em média 80 kg de peso com desvio padrão de 12 kg Pressupondo distribuição normal que pro porção dos ginastas levanta mais de 100 kg página deixada intencionalmente em branco Intervalo de Confiança 11 página deixada intencionalmente em branco Capítulo 11 Intervalo de Confiança 2 2 9 Os resultados das pesquisas são expressos de maneiras diferentes A forma de apresentar os resultados depende em muito do tipo de variável e do delineamento do experimento Neste Capítulo vamos nos concentrar em duas formas de expressar resultados por meio de uma proporção nas pesquisas em que a variável é qualitativa ou por meio de uma média nas pesquisas em que a variável é quantitativa Veja dois exemplos que tornam a situação mais concreta Exemplo 111 Uma proporção Um dentista examinou 100 crianças que ingressavam no ensino fundamental e ve rificou que 33 delas não tinham cárie A proporção de crianças sem cárie na amos tra é 33100 ou seja 033 Essa proporção é uma estimativa da probabilidade de uma criança da mesma população de onde proveio a amostra não ter cáries Será uma boa estimativa Antes de responder à pergunta é preciso saber se as crianças examinadas são realmente representativas da população em estudo Se o dentista disser que sim tomaremos isso como pressuposição porque para saber se a amostra é represen tativa da população são necessários conhecimentos na área em que a pesquisa se enquadra não de Estatfstica Depois é preciso pensar na margem de erro da estimativa fornecida pela pesqui sa Será que as crianças selecionadas para a amostra poderiam ter experiência de cárie mais alta ou mais baixa do que as crianças da população de onde a amos tra foi retirada por simples acaso É preciso informar de alguma maneira a con fiança que se pode ter na estimativa É isto que veremos neste Capftulo Exemplo 112 A média Um professor de Fisioterapia obteve dados biométricos dos alunos que ingressa ram na faculdade A média da pressão sangüfnea sistólica de 100 alunos foi 1203mmHg com desvio padrão de 140mmHg O professor considera que esses alunos constituem amostra representativa de outros alunos que ingressam em outros cursos da universidade em outros anos Mas que confiança pode ter na es timativa da média que está fornecendo Z 31 Introdução à Bioestatística 111 INTERVALO DE CONFIANÇA PARA UMA PROPORÇÃO O fato de sabermos a proporção de determinado evento em uma amostra não nos garante o conhecimento da proporção desse evento na popula ção O que podemos fazer usando conhecimentos de Estatística é calcu lar um intervalo que possa incluir a proporção do evento na população o parâmetro A maioria dos pesquisadores considera aceitável um intervalo de 95 de confiança Isto significa que o pesquisador terá 95 de probabilidade de obter com base em uma amostra um intervalo de confiança que venha a conter a proporção do evento na população o parâmetro Entenda bem se você calculou um intervalo de confiança com base em uma amostra não sabe se o parâmetro valor na população está contido no intervalo que calculou No entanto você sabe que 95o dos intervalos construídos da mesma forma conterão o parâmetro 1111 Cálculo do intervalo de confiança para uma proporção Você viu no Capítulo 9 o que é uma variável aleatória com distribuição binomial são feitas n tentativas cada tentativa só pode resultar em um de dois eventos possíveis o número de vezes que ocorre o evento de interes se é a variável X Agora reveja o Exemplo 111 um dentista examinou 100 crianças Cada criança foi classificada como tendo ou não experiência de cárie Então o número de crianças sem experiência de cárie nas 100 exa minadas é uma variável binomial A proporção de valores X obtida com base em uma amostra é X p n Essa proporção é uma estimativa da probabilidade de ocorrer o evento de interesse na população Essa estimativa está associada a uma variabi lidade A variabilidade é medida pelo desvio padrão O desvio padrão é dado por イ セ ーZア O intervalo de 95 de confiança para a probabilidade p obedecidas às condições apontadas na Seção 113 é dado por p KャLYV セ ーZア Capítulo 11 Intervalo de Confiança 2 31 Os valores 196 são obtidos da distribuição normaP Lembre que são esses os valores de z que englobam 95o dos casos que ficam no centro da distribuição Esta fórmula vale para grandes amostras Exemplo 113 Intervalo de confiança para uma proporção Lembre o Exemplo 111 um dentista examinou 100 crianças e verificou que 33 de las não tinham cárie A proporção de crianças sem cárie é 033 O dentista quer então saber se esse valor é uma boa estimativa da probabilidade de uma criança da mesma população de onde proveio a amostra não ter cáries O intervalo de confiança é dado por p l96pq No exemplo p 033 q 1 033067n100 Logo 033 l96 033x067 100 033 196x0047 0330092 Os limites do intervalo de 95 de confiança são portanto 033 0092 0238 e 033 0092 0422 Podemos então ter 95 de confiança de que a probabili dade de uma criança da população de onde proveio a amostra não ter cáries es teja entre 0238 e 0422 ou em porcentagem entre 238 e 422 1112 Pressuposições Para construir um intervalo de confiança algumas pressuposições precisam ser feitas Primeiro a amostra deve ser representativa da população Por exemplo se for pedido num show de televisão que os telespectadores te lefonem dizendo se gostam ou não do programa não tem sentido usar como indicador do grau de aprovação a proporção de pessoas que telefonaram dizendo que gostam do programa pelo simples fato de que quem não gosta de um programa provavelmente não o assiste 1Essa fórmula considera que a distribuição da variável binomial aproximase de uma distribuição normal Para que isso aconteça é preciso que a amostra seja grande Use a fórmula se np 5 e nq 5 ou pelo menos que 03 p 07 Z 3 2 Introdução à Bioestatística Outra pressuposição importante é a de independência das observações O fato de uma pessoa ter sido selecionada para a amostra não deve mudar a probabilidade de outra pessoa ser também selecionada Por exemplo não se deve entrevistar alguém e depois pedir para essa pessoa trazer outras para serem entrevistadas Finalmente uma observação que não se refere às pressuposições mas à interpretação de um intervalo de confiança O intervalo que você cons truiu pode conter ou não conter o parâmetro Sabese que se você repetir o procedimento da mesma maneira muitas e muitas vezes espera se que 95 dos intervalos calculados contenham o parâmetro Portanto não é correto dizer que a probabilidade de o intervalo conter o parâmetro é de 95 1113 A margem de erro A proporção de determinado evento na amostra estima a proporção desse evento na população de onde a amostra foi selecionada O intervalo de con fiança na forma apresentada nest e Capítulo fornece a margem de erro da estimativa Essa margem é dada pela amplitude do intervalo de confiança Exemplo 114 Margem de erro amostra pequena Lembre o Exemplo 111 um dentista examinou 100 crianças e verificou que 33 de las não tinham cárie A proporção de crianças sem cárie é 033 O dentista obte ve o intervalo de 95 de confiança Os limites desse intervalo são 0238 e 0422 Qual é a margem de erro A margem de erro é dada pela amplitude do intervalo ou seja pela diferença 0422 0238 O 184 Então o dentista está 95 seguro de que a proporção de crianças sem cárie na população estudada está entre 238 e 422 A margem de erro é de 184 Para diminuir a margem de erro é preciso aumentar a amostra Daí a insistência dos estatísticos em dizer que a amost ra deva ser tão grande quanto possíveF Veja o Exemplo 115 2No caso de estimativas de proporções que em geral são transformadas em porcentagem as amostras devem ser maiores do que 100 Se p for muito pequeno as amostras devem ser ainda maiores Capítulo 11 Intervalo de Confiança 2 3 3 Exemplo 115 Margem de erro amostra grande Lembre o Exemplo 111 Imagine que o dentista examinou não 100 mas 1000 cri anças e verificou que 330 delas não tinham cárie A proporção de crianças sem cárie é 033 Qual é a margem de erro O intervalo de confiança é dado por p ᄆャ L YV セ ー ア Em que p 033 q 1 033 067 n 1000 Logo 033 l96 033x067 1000 033 196 JOOOJ221 033 196 x001487 0330029 Os limites do intervalo são 0301 e 0359 A margem de erro é dada pela diferen ça 0359 0301 0058 Neste exemplo o dentista está 95 seguro de que a proporção de crianças sem cárie na população está entre 30 1 e 359 A margem de erro é de 58 Com pare este resultado com aquele obtido no Exemplo 114 e verifique a margem de erro diminui quando a amostra aumenta 112 INTERVALO DE CONFIANÇA PARA UMA MÉDIA Imagine uma amostra casual simples de n elementos A média dos dados dessa amostra constitui uma estimativa da média da população de onde essa amostra proveio Veja o Exemplo 112 O intervalo de confiança para a mé dia que veremos aqui indica a precisão da estimativa Antes porém de aprender como calcular o intervalo de confiança é preciso entender o que é erro padrão da média 1121 Erro padrão da média Imagine uma população constituída pelos valores 4 10 e 16 A média dessa população que se indica porµ é µ 410 16 30 10 3 3 Z 3 4 Introdução à Bioestatística Considere agora todas as amostras possíveis de dois elementos que podem ser retirados dessa população admitindo que todo elemento reti rado para compor a amostra é reposto antes da retirada do segundo Isso significa que dois elementos podem ser retirados ad infinitum da popula ção Portanto podemos entender a população como infinita Essas amos tras e as respectivas médias estão na Tabela 111 e na Figura 111 É fácil ver observando a Figura 111 que as médias das amostras distribuemse em tomo da média µ 10 da população TABELA 111 Médias das amostras de dois elementos obtidos da população constituída pelos números 4 10 e 16 Amostra Média 4e4 4 4 e 10 7 4 e 16 10 10 e 4 7 10 e 10 10 10 e16 13 16e 4 10 16 e10 13 16 e 16 16 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Médias FIGURA 111 Distribuição das médias das amostras O grau de dispersão das médias das amostras em torno da média da po pulação é dado pela variância da média Essa medida que se indica por cr セ G é dada pela fórmula Lx µ2 2 iI cr r Capítulo 11 Intervalo de Confiança 2 3 5 em que xí é a média da iésima amostra e r é o número de amostras que podem ser obtidas da população Para as médias apresentadas na Tabela 111 a variância da média é 2 4 1027 10210 102 16 102 108 cr 12 X 9 9 Na prática é impossível calcular a variância da média pela fórmula apre sentada o pesquisador não dispõe de todas as amostras possíveis mas de uma única amostra para estimar a média µ da população e obter uma medida de precisão dessa estimativa Existe no entanto uma solução já se demonstrou que uma estimativa da variância da média5 é dada pela fórmula 2 2 s s X n em que s2 é a variância da amostra As médias as variâncias e as variâncias das médias das amostras apre sentadas na Tabela 111 estão na Tabela 112 É importante notar que a média das médias coincide com a média µ 10 da população e que a mé dia das variâncias das médias das amostras é igual a 12 calculada ante riormente TABELA 112 Médias variâncias e variâncias das médias das amostras apresentadas na Tabela 111 Amostra Média Variância Variância da média 4 e4 4 o o 4 e10 7 18 9 4 e16 10 72 36 10 e 4 7 18 9 10 e 10 10 o o 10 e16 13 18 9 16 e4 10 72 36 16 e10 13 18 9 16 e 16 16 o o Média 10 24 12 Note que para isto ser verdade é preciso que as variâncias das amostras tenham sido estima das usando os graus de liberdade como divisor Z 3 5 Introdução à Bioestatística Por definição erro padrão da média é a raiz quadrada com sinal posi tivo da variância da média Indicase a estimativa do erro padrão da mé dia por Sx O erro padrão da média é uma estimativa da variabilidade das médias que seriam obtidas caso o pesquisador tivesse tomado nas mesmas condições um grande número de amostras A fórmula é S s x Fn Exemplo 116 Erro padrão da média Reveja o Exemplo 112 A média da pressão sangüínea sistólica de 100 alunos foi 1203mmHg com desvio padrão de 140mmHg Qual é o erro padrão da média Aplicando a fórmula vem S s 140 1 4 t Fn flOO 1122 Cálculo do intervalo de confiança para uma média É pouco provável que com base nos dados de uma amostra o pesquisador obtenha uma estimativa por exemplo da média igual ao parâmetro no caso da média da população Mas intuitivamente você sabe que se for examinada boa parte da população a média da amostra terá valor próxi mo da média da população se a variável variar pouco a média terá valor próximo ao da média da população Então uma estimativa é tanto melhor quanto maior for a amostra e quanto menor for a variabilidade dos dados Imagine agora que o pesquisador está estudando uma variável X com distribuição normal de médiaµ e variância cr2 Foram obtidas com base em uma amostra casual simples de n elementos dessa população estimativas da média do desvio padrão e do erro padrão da média Mas o pesquisador pre cisa dar indicação da precisão da estimativa da média Deve então calcu lar um intervalo de confiança Já vimos que os pesquisadores geralmente aceitam que o intervalo calculado inclua o valor populacional com proba bilidade de 95 O intervalo de 95 de confiança para a média µ desde que a amostra seja suficientemente grande4 é dado por µ 196 sx Esta fórmula serve para amostras grandes que no caso de estimativas de médias devem ser pelo menos de tamanho maior do que 30 Capítulo 11 Intervalo de Confiança 2 3 7 Exemplo 117 Intervalo de confiança para a média Reveja o Exemplo 112 A média da pressão sangüfnea sistólica de 100 alunos foi 1203mmHg com desvio padrão de 140 milímetros de mercúrio e erro padrão da média igual a 14mmHg Que confiança o professor pode ter no resultado O intervalo de confiança é dado por X 196 SX No exemplo a média é 1203 e o erro padrão da média é 14 n 100 Logo 120 3 196 X 14 1203 2 74 Os limites do intervalo de 95 de confiança são portanto 1203 274 11756 e 1203 274 12304 Podemos então ter 95 de confiança de que a média da pressão sangüínea sistólica dos alunos que ingressam na faculdade está entre 11756 e 12304mmHg 113 CUIDADOS NA INTERPRETAÇÃO DOS INTERVALOS DE CONFIANÇA A interpretação do intervalo de confiança exige cuidados Na prática o pesquisador dispõe de urna única amostra que fornece urna só estimativa de determinado parâmetro O pesquisador calcula um intervalo de 95o de con fiança mas não sabe se o parâmetro está ou não contido no intervalo que calculou Sabe apenas que 95 dos intervalos de confiança calculados da mesma forma contêm o parâmetro A margem de erro da estimativa é dada pela amplitude do intervalo de confiança Quanto maior a amostra menor é a margem de erro o intervalo de confiança fica menor mas ainda assim não significa que contenha o parâmetro 114 PEQUENAS AMOSTRAS Este livro não ensina como calcular o intervalo de confiança para uma pro porção nos casos de pequenas amostras No caso de variáveis contínuas desde que a distribuição seja aproximadamente normal é possível calcu lar o intervalo de confiança para a média de maneira similar à apresenta da na Seção 112 Z 31 Introdução à Bioestatística Você calcula o intervalo x t1 S n 1 X em que tn tJ é um valor encontrado na Tabela de distribuição de t veja Apêndice A variável t é obtida de uma distribuição teórica5 chamada dis tribuição t de certa forma parecida com a distribuição normal reduzida O gráfico da distribuição tem a forma de sino e é simétrico em tomo da mé dia zero Para entender como se acha o valor crítico de t veja a Tabela 113 que reproduz parte da Tabela de distribuição t É preciso especificar os graus de liberdade No caso do intervalo de confiança para uma média os graus de liberdade são os do erro padrão da média ou seja n 1 Você tam bém precisa especificar a confiança que em geral é de 90 ou 95 En tão para achar o valor de t que se usa na fórmula siga os passos 1 O tamanho da amostra é n Digamos que n 15 Ache os graus de li berdade isto é n 1 No caso 15 1 14 2 Escolha o nível de confiança que você quer Ache o valor de ex sub traindo o nível de confiança de 100 Para 95 de confiança cal cule ex 100 95 5 3 Procure na Tabela de valores de t o valor que fica no cruzamento da coluna x 5 éOm a linha graus de liberdade 14 4 Você acha t 2 145 Então o intervalo de 95 de confiança é X 2145 Sx TABELA 113 Tabela parcial de distribuição t 1 Graus de Nível de sígnificância liberdade 001 005 010 11 3106 2201 1796 12 3055 2179 1782 13 3012 2160 1771 14 2977 2145 1761 15 2947 2131 1753 16 2921 2120 1746 Existe uma distribuição t para cada tamanho de amostra Portanto existe uma familia de dis tribuições t Capítulo 11 Intervalo de Confiança 2 3 9 Exemplo 118 Intervalo de confiança para a média amostras pequenas Com base em uma amostra casual simples de n 25 indivíduos foram obtidos a média x 198 mg100 mi e o desvio padrão s 30 mg1 OOml da taxa de colesterol no plasma sangüíneo humano Ache o intervalo de 90 de confiança Para um nível de 90 de confiança ex 10 Como n 25 indivíduos n 1 25 1 24 O valor de t na Tabela dos valores de t veja Apêndice para a 10 e com 24 graus de liberdade é 171 A expressão do intervalo de confiança fica en tão como segue 18774 µ 20826 É preciso considerar aqui dois fatos importantes 1 Na área da saúde e em outras áreas muitas vezes o resultado do trabalho é apresentado na forma X s X 2s Como aprendemos no Capítulo 10 esses intervalos referemse aos da dos porque na fórmula está o desvio padrão que mede a variabi lidade dos dados Se a média e o desvio padrão da amostra são boas estimativas dos parâmetros µ e cr é razoável considerar que o primei ro intervalo X s contenha cerca de 23 dos dados 6826 e o segundo X 2s contenha perto de 95 dos dados 9544 2 Entretanto é preciso deixar claro que a área da saúde e em ou tras áreas também se apresenta o resultado do trabalho na forma xs X ou x2s X Neste caso o primeiro intervalo é um intervalo de 6826 de confian ça para o parâmetro µ a média da população desde que a amos tra seja suficientemente grande porque no cálculo entra o erro pa drão da média O segundo é um intervalo de 9544 de confiança para o parâmetroµ a média da população desde que a amostra Z 41 Introdução à Bioestatística seja suficientemente grande Este não é porém verdade do caso das amostras pequenas como as amostras de tamanho 6 ou 10 Finalmente um lembrete algumas revistas internacionais não aceitam informações do tipo 193 21 porque não sabem exatamente o signifi cado desse intervalo se é um intervalo de confiança para os dados 21 se ria o desvio padrão ou se é um intervalo de confiança para a média 21 seria o erro padrão da média Exemplo 119 Intervalo de confiança para a média amostra de tamanho 6 Calcule o intervalo de 90 de confiança para a média de uma amostra de seis ele mentos O valor de t dado na Tabela de valores de t no final do livro é 202 Então o inter valo de 90 de confiança é x202sx o dobro do intervalo que às vezes se apresenta sem determinar o nível de con fiança 115 EXERCÍCIOS RESOLVIDOS X Sx 1151 Dos 90 pacientes que se submeteram a uma nova técnica cirúrgica mor reram nove Calcule o intervalo de 95 de confiança para a probabilidade de morte na cirurgia A proporção de mortes na amostra foi P 9 90 010 e atende aos requisitos para aplicar a distribuição normal np 90 x 01 9 5 e nq 90 x 09 81 5 Então p 196 OlOxl OlO 010196 x 00316 010 00620 90 00380 p 01620 Capítulo 11 Intervalo de Confiança 2 41 1152 Foi feito um ensaiei com 100 pacientes para testar uma nova droga que se presume abaixa a pressão sangüínea Verificouse que a nova droga em comparação à droga usualmente recomendada padrão diminui a pressão em 6 Você pode calcular um intervalo de confiança para essa porcentagem Embora esta questão pareça similar à anterior não é Na questão anterior havia realmente uma proporção Nesta questão a porcentagem é uma mu dança em uma medida então não se pode calcular o intervalo de confiança 1153 O extremo inferior de um intervalo de confiança para proporção pode ser negativo Pode ser igual a zero É impossível o extremo inferior de um intervalo de confiança para propor ção ser negativo e só é zero quando o desvio padrão é zero 1154 A pressão sangüínea sist6lica medida em 100 militares apresentou mé dia igual a 125mmHg e desvio padrão é 9mmHg Calcule o erro padrão da média e ache o intervalo de 95 para a média populacional s 9 09 X Jiõõ x l96sx 125196x0901251764 O intervalo varia entre 1232mmHg e 1268mmHg 1155 A pressão sangüínea sist6lica medida em 10 militares apresentou mé dia igual a 125mmHg e o desvio padrão é igual a 9mmHg Calcule o erro padrão da média e ache o intervalo de 95 para a média populacional s x 2 2846 Jiõ x 196sx 125196 x 2846 125 5578 O intervalo varia entre 119AmmHg e 1306mmHg 115 6 Compare os intervalos de confiança obtidos nos exercícios 1154 e 1155 O erro padrão da média diminui quando você aumenta o tamanho da amos tra Não se espera que isso aconteça com o desvio padrão que mede ava Este problema foi proposto em MOTULSKY H Intuitive Biostatistics Nova York Oxford University Press 1995 p316 242 Introdução à Bioestatística riabilidade dos dados E verdade que se você aumentar a amostra os parâ metros ficam estimados com maior exatidão O valor do desvio padrão pode então mudar mas não existe tendência de o desvio padrão aumen tar ou diminuir quando se aumenta o tamanho da amostra No entanto o erro padrão da média diminui porque a média da amostra tende a ter va lor mais próximo da média verdadeira E você vê isso na amplitude do in tervalo de confiança 116 EXERCÍCIOS PROPOSTOS 11 61 Foi feito um estudo para levantar a proporção de adultos que sofrem de síndrome de fadiga crônica Para isso foram selecionados ao acaso 4000 membros saudáveis de uma organização em Seattle Para essas pes soas foram distribuídos questionários nos quais se perguntava se nos seis meses anteriores elas haviam sentido cansaço excessivo que interferisse no trabalho ou nas responsabilidades em casa Das 3066 pessoas que res ponderam possível tendência devido à falta de quase um quarto de não respondentes 590 relataram fadiga crônica Estime a proporção de pes soas que pensam ter síndrome de fadiga crônica e o intervalo de 95 de confiança 1162 No estudo apresentado no problema anterior os pesquisadores exami naram os 590 questionários de pessoas que relataram fadiga crônica e eli minaram todos aqueles cujos problemas de natureza médica ou psiquiá trica pudessem explicar a fadiga Sobraram 7 4 questionários Destes apenas três tinham a síndrome que se caracteriza por falta de concentra ção falha na memória recente dificuldade em donnir dores musculares e nas articulações Qual seria a proporção de adultos portadores da síndrome 1163 Seja X a variável aleatória que representa a pressão sangüínea sistólica em indivíduos com idade entre 20 e 25 anos Essa variável tem distribui ção aproximadamente normal Suponha que com base em uma amostra de 100 indivíduos foi obtida a média x 123mmHg e o desvío padrão s BmmHg Determine o intervalo de 90 de confiança para a média da população µ 1164 Seja X a variável aleatória que representa a taxa de hemoglobina em mulheres Imagine que com base em uma amostra aleatória de 200 mu lheres obtevese a média x 162 g de hemoglobina por 100 ml de sangue 7 ALIAGA M e GUNDERSON B Interactive Statistics New Jersey Prentice Hall 2 ed 2003 p 539 Capítulo 11 Intervalo de Confiança 2 4 3 e o desvio padrão s 11 g Detennine o intervalo de 95 de confiança para JJy supondo que X é uma variável com distribuição nonnal 1165 Seja X a variável aleatória que representa a estatura ao nascer para o sexo masculino Com base em 28 recémnascidos masculinos obtiveram se x 50 cm e s 25 cm Calcule o intervalo de 90 de confiança para JJy pressupondo distribuição nonnal 1166 Seja X a variável aleatória que representa a taxa de glicose no sangue humano Detennine o intervalo de 95 de confiança paraµ supondo que wna amostra de 25 pessoas forneceu média x 95 mg de glicose por 100 ml de sangue e o desvio padrão s 6 mg Suponha que X tem distribuição nonnal 1167 É possível calcular8 com base em uma amostra um intervalo de 100 de confiança para um parâmetro p que indica determinada probabilidade 1168 Num estudo sobre qualidades nutricionais9 de lanches rápidos mediu se a quantidade de gordura em 100 hambúrgueres de determinada cadeia de restaurantes Achouse média de 302 gramas e desvio padrão de 38 gramas Construa um intervalo de 95 de confiança para a quantidade média de gordura nos hambúrgueres servidos nesses restaurantes 1169 No mesmo estudo citado no Exercício 1467 foi medida a quantidade de sal e se achou média 658 mg e desvio padrão 47 mg Ache o intervalo de 98 de confiança 11 61 O Uma enfermeira mediu o comprimento de 105 bebês do sexo masculi no e achou o intervalo de 90 de confiança para a média em centíme tros 453 532 Responda brevemente às questões feitas em seguida a A média da população está no intervalo 453 532 b A média da amostra está no intervalo 453 532 c Novas amostras de 105 bebês do sexo masculino darão médias no inter valo 453 532 c Um intervalo de 99o de confiança seria mais estreito Este problema foi proposto em MOTULSKY H Intuitive Biostatistics Nova York Oxford University Press 1995 p318 JOHNSON R E TSUI K W Statistical reasoning and methodsNova York Wiley 1998 p338 página deixada intencionalmente em branco Teste de Quiquadrado 12 página deixada intencionalmente em branco Capítulo 12 Teste de Quiquadrado 2 4 7 As pesquisas são feitas com o objetivo de responder perguntas Para res ponder perguntas são necessárias informações que na área de saúde são quase sempre obtidas por meio de amostras Mas os pesquisadores querem generalizar seus achados para toda a população de onde a amostra foi re tirada Isto pode ser feito desde que a generalização seja fundamentada em um teste de hipóteses Para fazer o teste a pergunta do pesquisador é transformada em duas hipóteses ou seja é escrita na forma de duas afirmativas que se contra dizem como nos testes de falsoverdadeiro A idéia de construir hi póteses é complexa mas fica bem entendida com um exemplo da área ju rídica Exemplo 121 Hipóteses inocente ou culpado Um réu está sendo julgado Quais são as hipóteses possíveis O réu é inocente do ato que o acusam O réu é culpado do ato que o acusam Construídas as hipóteses passase à análise dos dados para tomar deci são por uma das hipóteses Exemplo 122 Decisão inocente ou culpado Um réu está sendo julgado Quais são as decisões possíveis Considerar o réu culpado Considerar o réu inocente As decisões são tomadas com base em conhecimento de parte dos fatos Então a decisão tomada pode estar errada Exemplo 123 Erros possíveis O réu está sendo julgado Quais são os erros associados às decisões possíveis Dizer que o réu é culpado quando é inocente Dizer que o réu é inocente quando é culpado Vamos pensar agora em uma pesquisa na área da saúde Z 41 Introdução à Bioestatística Exemplo 124 Construindo as hipóteses Duas médicas1 se perguntaram se a probabilidade de baixo peso ao nascer é maior quando a mãe faz uso continuado de drogas ilícitas durante a gestação Para responder à pergunta é preciso comparar o peso ao nascer de filhos de dois grupos de mães Que usaram drogas ilícitas durante a gestação Que não usaram drogas ilícitas durante a gestação Quais são as hipóteses A probabilidade de ter filhos com baixo peso ao nascer é a mesma para os dois grupos de mães A probabilidade de ter filhos com baixo peso ao nascer é maior para mães que usaram drogas ilícitas durante a gestação A pergunta escrita na forma de duas frases afirmativas que se contra dizem são as hipóteses A primeira é chamada de hipótese da nulidade e é indicada por H0 lêse agázero Na grande maioria das vezes a hipótese da nulidade é a de que não existe diferença entre grupos de dados A segunda hipótese contradiz a primeira e é por isso chamada de hipótese alternativa Indicase por H1 lêse agáum Na grande maioria das vezes a hipótese alternativa é o que o pesquisador gostaria de poder afirmar Exemplo 125 Coletando a amostra Para responder à pergunta feita as médicas acompanharam a gravidez e anota ram o peso ao nascer dos filhos de 456 adolescentes usuárias e nãousuárias de drogas ilícitas Portanto as médicas conheciam bem as adolescentes que partici param da pesquisa amostra Mas o que elas observaram na amostra pode ser estendido para toda a população de adolescentes de onde a amostra foi retirada Os pesquisadores sempre querem generalizar seus achados para toda a população Querem portanto fazer uma inferência Até que ponto os pes quisadores têm o direito de generalizar para todos os indivíduos a popu lação a informação obtida com base em alguns indivíduos a amostra Para tomar uma decisão objetiva os pesquisadores da área da saúde fazem inferência estatística 1QUINUVAN JA EVANS SF The impact of continuing illegal drug use on teenage pregnancy outcomes Australia BJOG An International Joumal of Obstetrics Gynaecology109 101148 532002 Capítulo 12 Teste de Quiquadrado 2 4 9 Dizemos que uma inferência estatística é feita quando se estabelecem conclusões para a população com base nos dados de uma amostra e no resultado de um teste estatístico A inferência estatística é feita por meio de testes de hipóteses mas como toda inferência está sujeita a erro Os pesquisadores têm apenas uma amostra do imenso universo que é a população em estudo e por puro azar podem ter observado uma amostra pouco representativa da popu lação de onde a amostra foi retirada Quais são os tipos de erro Erro tipo I rejeitar a hipótese da nulidade quando essa hipótese é ver dadeira Erro tipo II não rejeitar a hipótese da nulidade quando essa hipóte se é falsa Exemplo 126 Definindo os erros Com base nos dados coletados e no resultado de um teste de hipóteses as mé dicas devem decidir por uma das hipóteses Quais são os erros possfveis Erro tipo 1 rejeitar H0 quando H0 é verdadeira dizer que a probabilidade de filhos com baixo peso ao nascer é mãíor para mães usuárias de drogas ilícitas na gra videz se isso não for verdade Erro tipo li aceitar H0 quando H0 é falsa dizer que a probabilidade de filhos com baixo peso ao nascer é a mesma para os dois grupos de mães se isso não for verdade Os pesquisadores consideram grave o erro de rejeitar a hipótese da nulidade quando ela é verdadeira Por quê Porque isso significa mudar padrões e comportamentos sem necessidade só porque um centro de pesquisas apontou como verdadeira uma diferença que não existe Exemplo 127 Erros tipo 1 Dizer que uma nova droga é melhor qllle a tradicional quando isso não for verdade Dizer que uma dieta aumenta a longevidade quando isso não for verdade Dizer que um produto muito usado é cancerfgeno quando isso não for verdade Dizer que uma vitamina faz atletas quando isso não for verdade Z 51 Introdução à Bioestatística Para ter maior segurança na decisão o pesquisador aplica um teste de hipóteses O teste não elimina a probabilidade de erro mas fornece o pvalor valor de probabilidade O pvalor diz quão provável seria obter uma amostra tal qual a que foi obtida quando a hipótese da nulidade é verdadeira Os pesquisadores se sentem seguros para rejeitar a hipótese da nulida de assumir que existe a diferença procurada quando o pvalor é peque no2 Isto porque seria muito pouco provável ter o resultado obtido se a diferença não existisse Mas quem rejeita H0 não pode ter certeza absoluta não tem 100 de confiança de que a decisão tomada está correta sabe apenas que a probabilidade de erro é pequena Por convenção se o pvalor for menor do que 005 p 005 conclui se que a hipótese da nulidade deve ser rejeitada É comum dizer nos casos em que p 005 que os resultados são estatisticamente significantes No caso do Exemplo 124 as pesquisadoras não rejeitaram H0 porque obtiveram pvalor maior do que 005 p 005 Concluíram3 então que não tinham evidência suficiente para dizer que baixo peso ao nascer depende de a mãe ter usado drogas ilícitas dUrante a gestação Exemplo 128 Interpretando o pvalor Imagine que uma enfermeira suspeita que gestantes muito jovens tenham maior probabilidade de ter filhos com baixo peso Fez então um levantamento de dados na maternidade onde trabalha e obteve os dados Distribuiu as mães em duas ca tegorias com menos de 20 anos e com 20 anos ou mais Distribuiu também os recémnascidos em duas categorias de baixo peso e de peso normal Obteve os dados apresentados na Tabela 121 Quando reduzimos a probabilidade de cometer um tipo de erro aumentamos a probabilidade de cometer o outro tipo de erro Como os pesquisadores consideram cometer erro tipo I mais gra ve esse tipo de erro é reduzido em geral a 5 3 As autoras concluíram que o uso de drogas ili citas por gestantes parece não afetar o peso do nascituro mas existem outros comprometimentos Capítulo 12 Teste de Quiquadrado 2 51 TABELA 121 Peso ao nascer segundo a faixa de idade da mãe Peso ao nascer Percentual Faixa de idade Menos Z500g e com materna de2500g mais Total baixo peso Menos de 20 anos 10 4D 50 2000 20 anos ou mais 10 14D 150 667 Total 20 180 200 A enfermeira levou então os dados a um estatístico para que ele fizesse a aná lise O estatístico fez as hipóteses Hipótese da nulidade A probabilidade de filhos com baixo peso é a mesma para mães com menos de 20 anos e para mães com 20 anos ou mais Hipótese alternativa A probabilidade de filhos com baixo peso depende da faixa etária da mãe Depois fez um teste de quiquadrado que você aprende na seção 1221 e infor mou à enfermeira que o pvalor é 00065 A conclusão da enfermeira pode então ser escrita como segue a probabilidade de filhos com baixo peso é significantemente maior para mães de menos de 20 anos Como você vê feito o teste estatístico a pesquisadora se sentiu segura para di zer que a diferença realmente existe Mas o que significa pvalor de 00175 Significa que se mães com menos de 20 anos e mães com 20 anos ou mais as duas populações tiverem a mesma proba bilidade de ter filho com baixo peso ao nascer somente 175 dos levantamen tos similares aos que foram feitos mostrariam diferenças pelo menos tão gran des como a obtida por puro acaso Calcular o pvalor é extremamente difícil e isso só é feito hoje em dia usando programas de computador No entanto não é difícil calcular a es tatística do teste e comparar com valores dados em tabelas Mas vamos ver ist o na próxima seção Z 5 2 Introdução à Bioestatística 121 TESTE DE X2 DE PEARSON PARA ADERÊNCIA 4 O teste de X2 proposto por Pearson tem indicação precisa serve para tes tar a hipótese de que dados de freqüência se distribuem de acordo com al guma teoria ou postulado é o teste de aderência que veremos aqui ser ve também para testar a hipótese de que duas variáveis nominais são in dependentes é o teste de independência que veremos na próxima seção Veja então o teste de aderência Um pesquisador pode ter interesse em verificar se a distribuição dos elementos numa dada amostra está de acor do adere com uma dada teoria O exemplo que será usado aqui é históri co porque se trata de um experimento feito por Gregor Mendel o monge austríaco que no final do século XIX construiu as bases da Genética Em um célebre experimento Mendel polinizou 15 plantas de sementes lisas e albume amarelo com plantas de sementes rugosas e albume verde As plantas resultantes desse cruzamento tinham sementes lisas e albume amarelo amarelolisas Cruzando essas plantas entre si Mendel obteve 556 sementes distribuídas conforme mostra a Tabela 122 TABELA 122 Distribuição das ervilhas em um dos experimentos de Mendel Sementes Amarelolisas Amarelorugosas Verdelisas Verderugosas Total Fonte Bishop et ai 19755 Freqüência 315 101 100 32 556 A teoria postulada por Mendel estabelece que a segregação neste caso deve ocorrer na seguinte proporção 9 3 3 1 Leiase teste de quiquadrado para aderência O símbolo X é uma letra grega de nome qui que equivale ao e do nosso alfabeto lése qui como estã elevado à segunda potência lêse quiqua drado BISHOP VMM et alii Discrete multivariate analysis theory and practice Cambridge MIT Press 1977 Capítulo 12 Teste de Quiquadrado 2 5 3 Será que os resultados obtidos experimentalmente por Mendel estão de acordo com a teoria que ele postulava Temos então as duas hipóteses H0 a segregação obedece à lei de Mendel H1 a segregação não obedece à lei de Mendel Para fazer o teste os estatísticos usam um programa de computador que fornece além do valor de x2 o pvalor Mas neste livro estamos fazendo os cálculos sem usar computador Como é extremamente trabalhoso calcular o valor de p vamos optar por usar as tabelas clássicas de x2 Para isso é preciso estabelecer o nível de significância do teste Mas o que é nível de significância Nível de significância do teste é a probabilidade de cometer erro tipo I isto é rejeitar H0 quando H0 é verdadeira É usual indicar o nível de significância pela letra grega a Lêse alfa O nível de significância deve ser estabelecido antes do início do teste Vamos então estabelecer a 005 Para verificar se os dados se distribuem de acordo com a teoria vamos aplicar o teste de x2 O valor de x2 é dado pela fórmula 2 f oi E 2 X k il Ei em que O i 1 r representam as freqüências observadas e E represen l tam as freqüências esperadas r são as categorias da variável em análise que no exemplo são 4 Foram obtidas 556 ervilhas Então a freqüência esperada pela teoria de Mendel de amarelolisas é 9 16 X 556 31275 afreqüência esperada de amarelorugosas é 3 X 556 10425 16 a freqüência esperada de verdelisas é 3 X 556 10425 16 Z 5 4 Introdução à Bioestatística e a freqüência esperada de verderugosas é I X 556 3475 16 Todos estes valores estão apresentados na Tabela 123 TABELA 123 Distribuição dos valores esperados pela teoria de Mendel no experimento Sementes Freqüência Amarelolisas 31275 Amarelorugosas 10425 Verdelisas 10425 Verderugosas 3475 Total 55600 Compare a Tabela 122 com a Tabela 123 As diferenças entre as freqüên cias observadas e esperadas são respectivamente 315 31275 225 101 10425 325 108 10425 375 32 3475 275 Para verificar se a distribuição de freqüências observadas está de acor do com a teoria vamos aplicar o teste de x2 Para o exemplo 2 225 2 3252 375 2 275 o 47 X 31275 10425 10425 3475 O valor calculado de quiquadrado deve ser comparado com o valor da tabela de x2 ao nível de significância estabelecido e com r 1 graus de li berdade Então Se o valor calculado da estatística for menor do que o valor crítico da tabela não rejeite a hipótese da nulidade H0 ao nível estabele cido de significância Capítulo 12 Teste de Quiquadrado 2 5 5 Se o valor calculado da estatística for igual ou maior do que o valor crítico da tabela rejeite a hipótese da nulidade H0 em favor da al ternativa H1 ao nível estalbelecido de significância A Tabela de X2 é apresentada no final deste livro Para entender como se usa essa tabela observe a Tabela 124 que reproduz parte da Tabela de X2 do Apêndice O valor de X2 com 3 graus de liberdade ao nível de significância de 5 está em negrito na Tabela 124 TABELA 124 Tabela parcial de x2 segundo os graus de liberdade e o valor de cx Nível de significância Graus de liberdade 111 5 1 1 271 384 664 2 460 599 921 3 625 7fl 1134 4 778 949 1328 5 924 1107 1509 Para o exemplo que estamos desenvolvendo o valor calculado de x2 foi 047 O valor dado na tabela de x2 com r 1 4 1 3 graus de li berdade e ao nível de 5 de significância é 782 Como o valor calculado X2 047 é menor do que o valor dado na tabela X2 782 não se re jeita ao nível de significância de 5o a hipótese de que a segregação ocor reu de acordo com a teoria 1211 Resumo do procedimento É importante saber que o teste estatístico não é uma prova apenas in dica que é muito provável que a hipótese alternativa seja verdadeira As hipóteses são escritas de maneira que a hipótese da nulidade colocada em teste seja a hipótese em que o pesquisador não acredita Para fazer o teste 1 Defina H0 e H1 2 Escolha o valor de ex 3 Calcule o valor da estatística de teste 4 Compare o valor calculado com o valor da tabela de valores críticos 5 Se o valor calculado da estatística de teste for menor do que o valor crítico da tabela não rejeite a hipótese da nu lidade H0 Z 5 5 Introdução à Bioestatística igual ou maior do que o valor crítico da tabela rejeite a hipótese da nulidade H0 em favor da alternativa H1 6 Se você usou um programa de computador para fazer os cálculos tem o pvalor Se p 005 rejeite a hipótese da nulidade em favor da alter nativa Cabem aqui algumas observações sobre o nível de significância que se indica pela letra grega a É usual ou tradicional fazer testes ao nível de significância a 5 ou ao nível de significância a 1 Mas esses valo res são arbitrários Quando se rejeita a hipótese da nulidade ao nível de significância de 5 dizse que o resultado é significante Quando se rejeita a hipótese da nu lidade ao nível de significância de 1 dizque que o resultado é altamente significante 122 TABELAS 2 X 2 LÊSE TABELA DOIS POR DOIS 1221 Teste de X2 para independência Para estudar a efetividade de determinada droga no alívio da dor após a instrumentação endodôntica tratamento de canal um cirurgiãodentista fez um experimento Antes do procedimento clíníco administrou dois com primidos de placebo para 50 pacientes grupo controle e dois compri midos da droga para 150 pacientes grupo tratado Os comprimidos foram acondicionados em envelopes codificados para que o paciente não soubesse se estava recebendo a droga em teste para o alívio da dor ou se estava re cebendo placebo Os dados estão na Tabela 125 TABELA 125 Distribuição dos pacientes segundo o grupo e o relato sobre dor Grupo Controle Tratado Total Relato de dor Sim Não 10 4 15 135 25 175 Percentual de Total pacientes com dor 50 200 150 100 200 A Tabela 125 é uma tabela 2 x 2 porque apresenta duas variáveis cada uma com duas categorias Variável 1 grupo com duas categorias controle tratado Variável 2 relato de dor com duas categorias com dor sem dor Capítulo 12 Teste de Quiquadrado 2 5 7 O pesquisador quer saber se essas variáveis são independentes isto é quer testar a hipótese da nulidade A probabilidade de relatar dor depois do tratamento não depende de o paciente ter recebido ou não a droga contra a hipótese alternativa a probabilidade de relatar dor depois do tratamento muda se o paciente tiver recebido a droga Vamos estabelecer o nível de significância a 005 Para testar a hipótese de nulidade isto é a hipótese de que a proba bilidade de relatar dor depois do tratamento não depende de o paciente ter recebido ou não a droga aplicase o teste de x2 Mas é preciso conhecer a fórmula Nesta seção será apresentar uma fórmula simplificada que serve para testar a hipótese de que duas variáveis nominais ou categorizadas são independentes No caso do exemplo que estamos desenvolvendo temos duas variáveis categorizadas grupo tratado ou controle e relato de dor sim ou não Agora veja a Tabela 126 que apresenta os valores literais no caso de uma tabela 2 x 2 isto é de urna tabela que apresenta duas variáveis categorizadas indicadas aqui por X e Y A variável X tem duas categorias X1 e X2 a variável Y tem também duas categorias Y1 e Y2 TABELA 126 Valores literais em uma tabela 2 x 2 Variável V Variável X v yz Total X a b ab Xz e d e d Total ac bd n o valor de x2 é dado pela fórmula 2 ad bc2 n X a bc da cb d Nas tabelas 2 x 2 como a Tabela 126 o valor de x2 está associado a 1 grau de liberdade porque você tem duas variáveis que no caso da Tabela 126 são X e Y cada variável tem duas categorias Z 51 Introdução à Bioestatística então você tem 1 grau de liberdade para cada variável o valor de x2 está então associado a 1 x 1 1 grau de liberdade Para calcular o valor de x2 verifique que no exemplo que estamos de senvolvendo veja a Tabela 125 temos os seguintes valores a 10 b40 e 15 dl35 o valor de X2 é obtido como segue 2 10xl35 40xl52 x 200 X 104015 135101540135 1350 6002 X 200 50x150 x 25 xl75 112500000 3 429 32812500 O valor de x2 é 3429 e está associado a 1 grau de liberdade Mas como você toma a decisão por uma das hipóteses vendo o resultado do teste Toda vez que o valor calculado de x2 for igual ou maior do que o valor dado na Tabela de x2 ao nível de significância estabelecido e com os mes mos graus de liberdade rejeitase H0 Na Tabela de X2 no final do livro para o nível de significância de 5o e com 1 grau de liberdade encontrase o valor 384 Como o valor calcula do X2 3429 é menor do que 384 não se rejeita a hipótese da nulidade Portanto a probabilidade de relatar dor depois do tratamento é a mesma para pacientes que receberam e não receberam a droga 1222 Usos e restrições do teste de x2 Por questões teóricas6 1 O teste de x2 só deve ser aplicado quando a amostra tem mais de 20 elementos 2 Se 20 n 40 o teste de x2 só pode ser aplicado se nenhuma fre qüência esperada for menor do que 1 3 As variáveis devem ser nominais Para variáveis ordinais aplique o teste de x2 para tendências 4 Existe uma correção a correção de Yates que torna o teste mais conservador6 6Veja em VIEIRA S Bioestatística Tópicos Avançados Rio de Janeiro CampusEsevier 2 ed 5 tiragem 2008 Capítulo 12 Teste de Quiquadrado 2 5 9 1223 Medida da associação Para medir o grau de associação de duas variáveis qualitativas usamse os coeficientes de associação Nesta seção será explicado o coeficiente de Yule que só se aplica às tabelas 2 x 2 Para entender o que é uma associação entre variáveis veja a Tabela 127 TABELA 127 Participantes de uma pesquisa classificada segundo o hábito de fumar e doença periodontal Participantes da pesquisa Nãofumantes Fumantes Doença periodontal Não Sim 18 13 14 10 Total 24 24 Proporção de pessoas com periodontite 6 0250 24 lO 0417 24 A Tabela 12 7 mostra 24 fumantes e 24 nãofumantes Também mostra a proporção de pessoas com doença periodontal doença da gengiva tam bém conhecida como gengivite em cada grupo Nãofumantes 0250 Fumantes 0417 A probabilidade da doença aumenta quando surge o hábito de fumar Isto significa que existe associação positiva entre as variáveis as duas au mentam juntas O coeficiente de Yule mede o grau de associação entre duas variáveis categorizadas É indicado por Y e definido pela fórmula y adbc adbc O coeficiente de Yule varia entre 1 e 1 inclusive isto é 1 セ Y 1 Veja então como se interpreta o valor do coeficiente de associação Y 1 associação perfeita positiva Y 1 associação perfeita negativa Y O associação nula O Y 1 associação positiva 1 Y O associação negativa Z 11 Introdução à Bioestatística Para os dados da Tabela 12 7 o coeficiente de Yule é Y 18x10 6x14 96 036 18x106x14 264 o que significa que a associação entre hábito de fumar e doença periodontal é positiva É importante observar que O coeficiente de Associação de Yule mede o grau de associação entre duas variáveis nominais apresentadas numa tabela 2 x 2 O teste de x2 estabelece se a associação entre duas variáveis nominais é significante ou seja se é muito provável que a hipótese alternati va de associação seja a verdadeira Como são estatísticas diferentes a primeira mede o grau de asso ciação e a segunda a significância dessa associação recomendase calcular as duas e depois discutir os resultados 123 EXERCÍCIOS RESOLVIDOS 1231 Você tem uma hipótese determinada doença é genética e dominante Esperase então que metade dos filhos de pessoas com a doença tenha também a doença Como um teste preliminar para essa hipótese você exa mina 40 filhos de pessoas doentes e encontra 14 deles com a doença Você rejeita sua hipótese inicial Você espera que em 40 filhos 20 tenham a doença É preciso comparar o que foi observado com o esperado usando o teste de x2 para aderência Veja a Tabela 128 TABELA 128 H0p050 H 1pt050 05 Filhos de pais doentes segundo o fato de terem a doença ou não Doença Sim Não Total Número de filhos Observados 0 Espe1ados E 14 26 40 20 20 40 OE 6 6 o 0 E2 Capítulo 12 Teste de Quiquadrado 2 51 Aplicando a fórmula 2 r Oi E 2 X L il E vem 2 36 36 X 20 20 360 Na Tabela de x2 você encontra para 1 grau de liberdade e o 5 o valor 364 Como o valor calculado é menor do que o da tabela não se rejeita a hipótese de que a doença é hereditária e de caráter dominante As discre pâncias entre os valores observados e esperados são casuais 1232 Com base nos dados apresentados na Tabela 129 teste a hipótese de que a proporção de recémnascidos defeituosos é a mesma qualquer que tenha sido a época em que a gestante foi atacada de rubéola Faça a 1 TABELA 129 Recémnascidos segundo a época de ataque de rubéola na gestante e a condição Condição Época do ataque Normal Com defeito Total Até o terceiro mês 36 14 50 Depois do terceiro mês 51 3 54 Total 87 17 104 Fonte Hill et alii 1958P Hipótese da nulidade A probabilidade de recémnascidos defeituosos é a mesma qualquer que tenha sido a época em que a gestante foi atacada de rubéola Hipótese alternativa A probabilidade de recémnascidos defeituosos depende da época em que a gestante foi atacada de rubéola Nível de significância 1 HILL B A et alii Virus diseases in pregnancy and congenital defects Brit J Prev Soe Med 12 11958 Apud BERQUÓ E Bioestatística São Paulo Fac Hig Saúde Publ USP1968 Z 1 Z Introdução à Bioestatística Estatística de teste 2 ad bc2 n X abc dacbd 36x3 14x512 x104 X 36 1451 336 5114 3 108 714 2 x104 50x54x87xl7 38192544 9 56 3993300 Na Tabela de X2 para a 1 e 1 grau de liberdade temse o valor 664 Como o valor calculado 956 é maior do que 664 concluise que a pro porção de recémnascidos com defeito é maior quando o ataque de rubéo la na gestante ocorre nos três primeiros meses de gestação 1233 Louis Pasteur conduziu uma série de experimentos em que mostrava o papel das leveduras e das bactérias na fermentação Esses trabalhos deram a Joseph Lister9 um médico britânico a idéia de que as infecções huma nas poderiam ter origem similar Ele então usou áddo fênico como desin fetante nas salas de drurgia Dos 40 pacientes amputados com uso de áddo fênico 34 sobreviveram Dos 35 amputados sem uso de áddo fênico 19 sobreviveram Escreva as hipóteses que podem ser colocadas em teste Calcule as proporções de sobreviventes com e sem uso de áddo fênico Faça o teste de quiquadrado ao nível de 1 de significância Hipótese da nulidade A probabilidade de sobrevivência em cirurgias de amputação é a mesma quer se faça ou não desinfecção na sala cirúrgica Hipótese alternativa A probabilidade de sobrevivência em cirurgias de amputação está associada à desinfecção da sala cirúrgica Nível de significância 1o WINSLOW C The Conquest of Epidemie Diseases Princeton Princeton University Press 1943 p 303 Apud AUAGA M e GUNDERSON B Interactive Statistics 2 ed New Jersey Prentice Hall 2003 p 673 Capítulo 12 Teste de Quiquadrado 2 5 3 TABELA 1210 Sobrevivência de amputados com e sem uso de ácido fênico na sala cirúrgica Ácido fênico Proporção de Sobrevivência Sim Não Total sobreviventes Sim 34 6 40 0850 Não 19 16 35 0543 Total 53 l2 75 fonte Winslow 1943 Estatística de teste 2 adbc 2n X a bc da cb d 2 34x166x192x75 X 34 6191634 19616 4302 X75 40355322 40355322 13867500 8 50 1632400 Para a 1 e 1 grau de liberdade temse na Tabela de X2 o valor 664 Como o valor 850 é maior do que 664 rejeitase H0 ao nível de 1 de significância 1234 O Estudo do Coração de Helsinque Helsinki Heart Study 1º mostrou re dução na incidência de eventos Cardíacos em homens de meiaidade com nível alto de colesterol mas sem diagnóstico de doença coronariana com o uso de uma droga genjibrozila Dos 2051 participantes que durante cinco anos receberam a droga para reduzir o nível de colesterol 56 re gistraram evento cardíaco Dos 2030 participantes que receberam placebo durante cinco anos 84 registraram evento cardíaco a Qual é a proporção de participantes que registraram evento cardíaco no grupo tratado b Qual é a proporção de participantes que registraram evento cardíaco no grupo placebo ºMARSHALL KG Canadian Medical Association Journal May 15 1996 Apud AUAGA M e GUNDERSON B Interactive Statistics 2 ed New Jersey Frentice Hall 2003 p 679 Z 14 Introdução à Bioestatística c Existe evidência suficiente do benefício da droga d No relatório final do estudo afinnouse que o uso da droga reduziu a incidência de eventos cardíacos em 34 Como isso foi calculado a e b Veja a Tabela 1211 TABELA 1211 Participantes da pesquisa segundo o tratamento e o registro ou não de evento cardíaco Evento cardíaco Tratamento Sim Não Total Droga ffi 1995 2051 Placebo 84 1946 2030 Total 140 3941 4081 fonte Marshall 1996 c É preciso fazer um teste estatístico Então Nível de significância 5 Calcule a estatística de teste HoP1 p2 H1P1P2 2 ad bc2n X a b e da e b d Proporção com registro de evento 00273 00414 2 56x19461995x842 x4081 X 56199584 1946568419951946 58604 2x4081 610 2051 2030 140 3941 Rejeitase H0 ao nível de 5 de significância temos portanto a evidência de que a droga teve o efeito d Faça a diferença entre as duas proporções e divida pela proporção do gru po que recebeu placebo Multiplique por 100 para ter a diferença em relação ao placebo expressa em porcentagem 00414 00273 xlOO 34 00414 Então usar a droga reduziu em 34 a incidência de eventos cardíacos Capítulo 12 Teste de Quiquadrado 2 5 5 124 EXERCÍCIOS PROPOSTOS 1241 A proporção de recémnascidos com defeito ou doença séria é 3 Ima gine que um médico suspeita que esta proporção tenha aumentado Exa minou então 1000 recémnascidos e encontrou 34 com defeito ou doença séria Você acha que a suspeita do médico é procedente 1242 Com base nos dados apresentados na Tabela 1212 teste ao nível de significância de 5 a hipótese de que a proporção de recémnascidos vivos portadores de anomalia é a mesma nos dois sexos TABELA 1212 Recémnascidos vivos segundo o sexo e a presença ou não de anomalia Sexo Masculino Feminino Sim 28 45 Anomalia Não 1485 1406 1243 Com base nos dados apresentados na Tabela 1213 teste ao nível de significância de 1 a hipótese de que a ausência congênita de dentes independe do sexo TABELA 1213 Escolares segundo o sexo e a ausência congênita de dentes Sexo Masculino Feminino Fonte Vedovelo Filho 197211 Ausência congênita de dentes Sim 23 40 Não 1078 859 1244 Muitos pesquisadores consideram com base em grandes amostras que a ausência congênita de dentes está associada ao sexo da pessoa Amos tras pequenas não permitem rejeitar H0 Isso se deve provavelmente à pequena associação Calcule o coeficiente de associação de Yule para os dados do Exercido 127 Você considera grande a associação Calcule as 11VEDOVELO FILHO M Prevalência de agenesias dentárias em escolares de Piracicaba 1972 Tese mestrado FOPINICAMP Z 11 Introdução à Bioestatística proporções As diferenças são percentualmente grandes Veja o Exercido 1263 para calcular esse percentual 1245 Com base nos dados apresentados na Tabela 1214 calcule o coeficiente de associação Faça o teste de quiquadrado TABELA 1214 Resultados de casos de diagnóstirco prénatal segundo a idade da gestante e a presença ou ausência de aberração cromossômica 1 Idade da gestante De 35 até 40 anos 40 anos ou mais Aberração cromossômica Sim Não 10 18 447 510 1246 Para determinar se existe associação entre implantes mamários e doen ças do tecido conjuntivo e outras doenças 12 foram observadas durante vários anos 749 mulheres que haviam recebido implante e exatamente o dobro de mulheres que não haviam recebido o implante Eles verificaram que cinco mulheres que receberam implantes e 10 das que não receberam tiveram doenças do tecido conjuntivo Quais são as hipóteses em teste Quais são as proporções de mulheres doentes nos dois grupos 1247 Com base nos dados apresentados na Tabela 1215 você rejeita a hipó tese de que a probabilidade de natimorto é a mesma para os dois sexos TABELA 1215 Recémnascidos segundo o sexo e a condição de vivo ou natimorto Sexo Masculino Feminino Vivo 1513 1451 Condição Natimorto 37 ll 1248 Com base nos dados apresentados na Tabela 1216 ache o coeficiente de Yule O que significa GABRIEL SE et alii Risk of connective tissues diseases and other disorders after breast implantation New Engl J Med 33016971702 1994 Apud Motulsky H Intuitive Biostatistics Nova York Oxford University Press 1995 p318 Capítulo 12 Teste de Quiquadrado 217 TABELA 1216 Recémnascidos segundo a idade materna e o tempo de gestação Idade materna De 10a19 anos De 20 a 34 anos Total Fonte Azevedo et alii 20023 Tempo de gestação Até 36 semanas De 37 a 41 semanas 612 1378 13176 34942 13788 36320 Total 1990 48118 50108 1249 Com base nos dados apresentados na Tabela 1217 você rejeita a hi pótese de que a probabilidade de dormir mais de 8 horas é a mesma para as duas faixas de idade TABELA 1217 Participantes da pesquisa segundo o tempo de sono em horas e a faixa de idade Faixa de idade De 30 a 40 anos De 60 a 70 anos Tempo de sono Menos de 8 horas 172 120 8 horas ou mais 78 130 12410 Com base nos dados apresentados na Tabela 1218 você rejeita a hi pótese de que a probabilidade de ter gripe é a mesma para pessoas vaci nadas e nãovacinadas TABELA 1218 Participantes da pesquisa segundo o fato de ter sido vacinada contra gripe e ter tido gripe 1 Vacina Sim Não Sim 11 70 Gripe 538 464 AZEVEDO G D et alii Efeito da idade materna sobre os resultados perinatais REGO 24 3 2002 página deixada intencionalmente em branco Teste t de Student 13 página deixada intencionalmente em branco Capítulo 13 Teste t de Student 2 71 Os pesquisadores trabalham com amostras mas suas conclusões devem ser generalizadas para as populações de onde as amostras foram retiradas com base na aplicação de teste estatístico Dizemos então que foi feita uma inferência estatística Os testes estatísticos testam hipóteses a respeito da população O pesquisador faz duas hipóteses a primeira é a hipótese da nulidade que na grande maioria das vezes afirma não existir diferença entre gru pos de dados Depois o pesquisador constrói a hipótese alternativa que como diz o próprio nome contradiz a primeira Então ele aplica o teste estatístico para decidir por uma das hipóteses Como isso é feito Os testes estatísticos fornecem o pvalor valor de probabilidade que permite decidir com base nos dados se há evidência suficiente para rejei tar a hipótese da nulidade Por convenção se o pvalor é menor do que 005 p 005 a hipótese da nulidade deve ser rejeitada1 Em outras pa lavras se p 005 os resultados são estatisticamente significantes Neste Capítulo veremos como comparar duas médias2 da mesma variá vel quantitativa obtidas de dois grupos de dados por meio de um teste estatístico Exemplo 131 Comparando duas médias Para verificar se meninos e meninas aprendem a falar na mesma idade um pes quisador obteve para um grande número de crianças a idade em que cada uma delas começou a falar A primeira hipótese da nulidade é a de que a média das idades em que os meninos começam a falar meninos da população de onde a amostra foi retirada não apenas os da amostra é igual à média das idades em que as meninas começam a falar meninas da população de onde a amostra foi retirada não apenas as da amostra H0 as médias são iguais A segunda hipótese alternativa é a de que a média das idades em que os meninos começam a falar é diferente da média das idades em que as meninas co meçam a falar H as médias são diferentes 0 pvalor pequeno indica ser muito improvável obter resultado igual ou menor do que o achado quando a hipótese da nulidade é verdadeira Para comparar mais de duas médias aplicamse a análise de variância e os testes de compara ções múltiplas Veja o assunto em VIEIRA S Análise de variância ANOVA São Paulo Atlas 2006 Z 7 Z Introdução à Bioestatística Para comparar duas médias o teste estatístico mais usado é o teste t de Student Vamos ver como se faz este teste em duas situações diferentes 1 quando os dados são pareados 2 quando os grupos são independentes 131 0 TESTE t NOS ESTUDOS COM DADOS PAREADOS Muitas vezes as unidades físicas ou biológicas são medidas duas ve zes no decorrer da pesquisa A lógica é verificar se houve ou não discre pância entre as medições Outras vezes as unidades são consideradas aos pares A idéia é verificar se há ou não diferença na resposta ou no desem penho dos pares A análise com dados pareados é apropriada nos seguin tes casos Quando se mede a mesma variável nas mesmas unidades antes e de pois de uma intervenção Quando os participantes da pesquisa são recrutados aos pares ou são pareados por idade sexo estágio da doença Nesses casos um dos par ticipantes recebe a droga em teste e o outro participante recebe o tratamento convencional Quando se mede a mesma variável em gêmeos ou em um par como mãe e filho Quando se faz um experimento em laboratório com várias repetições e em cada repetição se prepara ao mesmo tempo um controle e um teste Exemplo 132 Ensaio com dados pareados duas medidas no mesmo indivíduo Para verificar se duas drogas diferentes usadas como antitussfgenos bloqueadores de tosse alteram o tempo de sono foi feito um ensaio com nove voluntários Eles tomaram um dos antitussfgenos na primeira noite e o outro na noite seguinte Foi registrado o tempo de sono de cada voluntário nas duas noites A proposta é com parar as médias de tempo de sono sob o efeito de cada antitussfgeno Capítulo 13 Teste t de Student 2 7 3 Exemplo 133 Ensaio com dados pareados medidas feitas em pares de unidades Para verificar se uma droga é eficiente na inibição do crescimento de tumores fo ram injetadas células cancerosas em 14 ratos similares Depois os tumores foram medidos e foram formados pares de ratos com tumores de mesmo tamanho Por sorteio um rato de cada par recebeu a droga grupo tratado e o outro foi man tido como controle A idéia é comparar as médias dos tamanhos de tumores de ratos tratados e ratos controles Quando temos dois grupos de dados pareados aplicamos o teste t Mas entenda o pareamento deve ter algum tipo de lógica não basta que os dois grupos tenham o mesmo número de unidades Para fazer o teste t 1 Estabeleça as hipóteses 2 Escolha o nível de significância 3 Siga os passos a calcule as diferenças entre todas as observações pareadas d x2 x1 b calcule a média dessas difernças úi d n e calcule a variância dessas diferenças fá 2 fá 2 s2 n n 1 d calcule o valor de t que está associado a n 1 graus de liberda de pela fórmula d t fl e compare o valor absoluto do t calculado com o valor crítico dado na Tabela de valores de t no nível estabelecido de significância e com os mesmos graus de liberdade Toda vez que o valor absoluto do t cal culado for igual ou maior que o valor crítico dado na tabela rejeite a hipótese de que as médias são iguais no nível estabelecido de significância Para entender como se acha o valor crítico de t veja a Tabela 131 que reproduz parte da Tabela de valores de t incluída no final deste livro O va lor crítico de t para por exemplo 4 graus de liberdade e 005 de significância está no cruzamento da linha 4 com a coluna 005 É 278 em negrito na Tabela 13 1 274 Introdução à Bioestatística TABELA 131 Tabela parcial de valores de t Nível de significância Graus de liberdade 10 5 1 1 631 1271 6366 2 292 430 992 3 235 318 584 4 213 278 460 5 202 257 403 Exemplo 134 Aplicando o teste tem ensaio com dados pareados Lembre o Exemplo 132 Para verificar se duas drogas diferentes usadas como antitussfgenos bloqueadores de tosse alteram o tempo de sono foi feito um en saio com nove voluntários Os tempos de sono dos voluntários com cada droga es tão na Tabela 132 As hipóteses em teste são H0 o tempo médio de sono é o mesmo para as duas drogas H as drogas determinam tempos médios de sono diferentes Nfvel de significância 005 TABELA132 Tempos de sono dos voluntários em horas segundo a droga Droga Voluntário A B 1 7 9 2 7 7 3 6 6 4 6 8 5 9 10 6 6 8 7 7 7 8 8 8 9 5 7 Capítulo 13 Teste tde Student 275 Para fazer o teste a calcule as diferenças entre os tempos de sono com cada droga para cada vo luntário conforme está apresentaclo na Tabela 133 TABELA 133 Tempos de sono em horas segundo a droga e as respectivas diferenças Droga Voluntário A B Diferença 1 7 9 2 2 7 7 o 3 6 6 o 4 6 8 2 5 9 10 1 6 6 8 2 7 7 7 o 8 8 8 o 9 5 7 2 b calcule a média das diferenças d 1 e calcule a variância das diferenças 2 8 s 1 91 d calcule o valor de t 1 t セ S que tem n 1 9 1 8 graus de liberdade e compare o valor absoluto do t calculado com o valor crítico dado em Tabela de valores de t no nível de significância de 005 e com 8 graus de liberdade Como o valor absoluto do t calculado 300 é maior que o valor crítico 231 rejeite a hipótese de que o tempo de sono para as duas drogas é em média o mesmo no nível de significância de 005 Em termos práticos em média o tempo de sono quando se administra a droga B é significantemente diferente do tempo de sono com a droga A Z 7 5 Introdução à Bioestatística Se você fizer os cálculos em computador3 para o Exemplo 132 você obtém o pvalor 00171 A conclusão é a mesma 1311 Testes unilaterais e testes bilaterais A hipótese da nulidade sempre afirma não há diferença ou então a diferença é nula No exemplo que acabamos de ver a hipótese alternativa afirma existe diferença mas não informa o sinal da diferença Pode acontecer porém de o pesquisador ter noção do sinal da diferença e que rer testar a hipótese da nulidade contra uma hipótese alternativa que dê o sinal da diferença Se a hipótese alternativa especifica o sinal da diferen ça dizemos que o teste é unilateral Se a hipótese alternativa não especi fica o sinal da diferença dizemos que o teste é bilateral Exemplo 135 Teste unilateral Um professor quer saber se um curso de leitura dinâmica faz aumentar a veloci dade de leitura dos alunos Mede então a velocidade de leitura de 22 alunos que se dispuseram a participar da pesquisa Depois ministra um curso de leitura di nâmica e novamente mede a velocidade de leitura desses alunos Quais são as hipóteses em teste A hipótese da nulidade é a de que em média a velocidade de leitura é a mesma antes e depois do curso A hipótese alternativa é a de que em média a velocidade de leitura depois do curso é maior É sempre mais seguro4 aplicar um teste bilateral aquele em que você tanto pode concluir por um aumento como uma diminuição da medida depois da intervenção Afinal de contas o tratamento pode dar resultado contrário ao esperado Exemplo 136 Teste unilateral ou bilateral Um nutricionista quer saber se determinada dieta alimentar leva a uma diminui ção de peso Submete então 20 voluntários a essa dieta durante um mês Quais são as hipóteses em teste A hipótese da nulidade é a de que em média a peso das pessoas é o mesmo antes e depois da dieta Quanto à hipótese alternativa é mais seguro que seja a de que os pesos antes e depois da dieta são em média diferentes Isto porque qual É muito complicado calcular o pvalor razão por que não se fornece aqui nenhuma fórmula de cálculo Existem muitas razões que determinam a preferência dos estatísticos por testes bilaterais Uma delas é o fato de eles serem mais conservadores têm menor probabilidade de rejeitar H0 Capítulo 13 Teste t de Student 2 7 7 quer que seja a área de conhecimentos alguns tratamentos têm às vezes efeito contrário ao esperado No caso deste exemplo um teste bilateral estaria consi derando a possibilidade de a dieta levar a aumento de peso Mas não seria erra do proceder a um teste unilateral se houver informações de pesquisas anterio res informando que a dieta deve determinar diminuição de peso A questão agora é saber como se faz um teste unilateral O procedimento é o mesmo Muda apenas a maneira de procurar o valor crítico na Tabela de valores de t Para um teste unilateral ao nível de 005 de significância e com n 1 graus de liberdade você procura o valor crítico de t com os mesmos graus de liberdade mas com o dobro do nível de significância isto é procure ex 0 10 Exemplo 137 Ensaio com dados pareados teste t unilateral Uma droga é tradicionalmente usada para alfvio de dor nos casos de enxaqueca Uma empresa oferece um genérico Para verificar se o efeito do genérico não é significantemente inferior foi feito um ensaio com sete voluntários5 Todos os vo luntários usaram em períodos distintos tanto a droga tradicional como o genéri co Os tempos de alívio da dor registrados pelos voluntários com cada droga es tão na Tabela 134 H0 o tempo médio de alívio da dor é o mesmo para as duas drogas H o tempo médio de alívio da dor é menor quando se administra o genérico Nível de significância de 5 TABELA 134 Tempos de alívio da dor em horas segundo a droga Droga Voluntário TTadicional Genérico 1 45 4 2 55 55 3 6 6 4 6 5 5 55 45 6 55 6 7 8 65 Este tipo de teste é conhecido como de nãoinferioridade O número de voluntários deve estar em tomo de 25 Z 71 Introdução à Bioestatística Para fazer o teste calcule as diferenças entre os tempos obtidos com a droga tra dicional e o genérico conforme está apresentado na Tabela 135 TABELA 135 Tempos de alívio da dor em horas segundo a droga e as respectivas diferenças Droga Voluntário Tradicional Genérico Diferença 1 45 4 05 2 55 55 o 3 6 6 o 4 6 5 1 5 55 45 1 6 55 6 05 7 8 65 15 Fazendo os cálculos você acha a média das diferenças que é 05 e a variância das diferenças que é 05 Aplicando a fórmula para calcular o valor de t quando os dados são pareados você obtém d t s v n エM セ ᄎ ᄋ U 05 1871 7 No nível de significância de 5 para um teste unilateral e com 6 graus de liber dade o valor de t na Tabela de valores de t é 194 leia na coluna de 10 Como considerando a hipótese alternativa o valor calculado de tdeve ser menor do que zero adote o seguinte critério para decisão se tcalculado for menor do que o valor negativo do t crítico da tabela de valores de t rejeite H0 Neste exemplo o valor calculado de t 1871 é maior que o valor negativo do t crítico 194 Então não rejeite a hipótese de que o tempo de alívio da dor é em média o mesmo para a droga tradicional e o genérico Em termos práticos não há evidência estatística de que o tempo de alívio da dor seja menor quando se usa o genérico O pvalor é 00553 005 Capítulo 13 Teste t de Student 2 7 9 132 0 TESTE t NA COMPARAÇÃO DE DOIS GRUPOS INDEPENDENTES Muitas vezes os pesquisadores querem comparar dois grupos independentes Podem comparar por exemplo o novo tratamento contra o controle ou então comparar dois tratamentos conhecidos Exemplo 138 Para saber se determinado produto faz nascer cabelos em pessoas calvas um mé dico pode fazer um ensaio clínico um grupo de pessoas calvas recebe o tratamento em teste grupo tratado enquanto um grupo de pessoas calvas recebe um placebo grupo controle O teste t de Student é indicado para testar a igualdade de duas médias quando os grupos são independentes Para calcular o valor de t siga os passos a calcule a média de cada grupo b calcule a variância de cada grupo c calcule a variância ponderada dada pela fórmula 2 n 1s nz lsi s P n1 71i 2 d calcule o valor de t que está associado a n1 n2 2 graus de liber dade pela fórmula XI X1 t 1 l 2 Sp n1 n2 e compare o valor calculado de t em valor absoluto com o valor críti co de t no nível estabelecido de significância e com os mesmos graus de liberdade No caso de teste bilateral se o valor absoluto do t cal culado for igual ou maior do que o da tabela rejeite a hipótese de que as médias são iguais no nível estabelecido de signíficância Exemplo 139 Teste t para comparar dois grupos bilateral Um nutricionista quer comparar o efeito de duas dietas alimentares para perda de peso Seleciona então voluntários que querem perder peso e os divide ao acaso em dois grupos um grupo é designado para a dieta A e o outro para a dieta B Os dados estão na Tabela 136 Faça o teste t ao nível de 5 de significância Z 11 Introdução à Bioestatística TABELA 136 Perda de peso em quilogramas segundo a dieta Dieta A B 12 15 8 19 15 15 13 12 10 13 12 16 14 15 11 12 13 Para o exemplo apresentado neste capítulo veja como se faz o teste t H0 as perdas de peso são em média as mesmas para qualquer das duas dietas H1 as dietas determinam perdas médias de peso diferentes Nível de significância 005 a as médias de grupos são b as variâncias de grupo são e a variância ponderada é X i 12 x 2 15 ウセ 40 sf 50 2 l0 lx40 7 lx50 s 44 107 2 d o valor de t com n n2 2 1 O 7 2 15 graus liberdade é t 15 12 2902 1 4 4 10 7 Capítulo 13 Teste tde Student 211 e como o valor calculado de t em valor absoluto é maior que o valor crítico de t 2902213 no nível de 5 de significância você rejeita a hipótese de que as duas dietas determinam em média a mesma perda de peso Em termos práticos o nutricionista pode concluir que as perdas de peso são em média significantemente maiores quando os voluntários são submetidos à dieta B O pvalor neste exemplo é 00109 005 1321 O caso das variâncias desiguais O teste t tal como foi apresentado só deve ser aplicado quando as variâncias das populações são iguais Mas o que deve ser feito para saber se as variâncias das populações são iguais Existe uma regra prática comparam se as variâncias das duas amostras se a maior variância for até quatro vezes a menor admitese que as duas populações têm variâncias iguais Exemplo 1310 Comparação de variâncias regra prática Imagine duas amostras 1 e 2 com variâncias ウセ 1564 e s 680 respectiva mente Como S12 1564 2304 s 680 é razoável admitir que as variâncias são iguais Mas é melhor aplicar um teste es tatístico Para testar a hipótese de que as variâncias das duas populações são iguais aplicase o teste F Para fazer um teste unilateral 1 Estabeleça as hipóteses H0 as variâncias na população são iguais H1 uma das variâncias é maior do que a outra 2 Escolha o nível de significância 3 Siga os passos a Calcule a variância de cada grupo ウセ Z variância do grupo 1 s variância do grupo 2 Z 1 Z Introdução à Bioestatística b Calcule o valor de F dado pela razão entre a maior e a menor variância Então se s s o valor 2 F i si está associado a n1 1 numerador e n2 1 denominador graus de liberdade c Para o teste unilateral compare o valor calculado de F com o valor dado na Tabela de valores F com o nível de significância estabeleci do e com n1 1 e n2 1 graus de liberdade Para um teste bila teral que é mais indicado faça os cálculos da mesma maneira mas procure na Tabela de valores de F o valor crítico com os mesmos graus de liberdade mas com a metade do nível estabelecido de significância Rejeite a hipótese de que as variâncias das duas popu lações são iguais toda vez que o valor calculado de F for igual ou maior do que o valor da tabela de valores F Para entender como se acha o valor de F na tabela observe a Tabela 13 7 que reproduz parte dessa tabela apresentada no final deste livro Foi co locado em negrito o valor de F no nível de significância de 25 e com 7 e 8 graus de liberdade que deve ser utilizado para um teste bilateral na forma descrita aqui com nível de significância de 5 e com os mesmos graus de liberdade TABELA 137 Tabela parcial de valores de F para cx 25o Número de graus de Número de graus de liberdade do numerador liberdade do denominador 1 2 3 4 5 6 7 8 9 1 6480 8000 8640 9000 9220 9370 9480 9570 9630 2 385 390 392 392 393 393 394 394 394 3 174 160 154 15 1 149 147 146 145 145 4 122 106 998 960 936 920 907 898 890 5 100 843 776 739 715 698 685 676 668 6 881 726 660 623 599 582 570 560 552 7 807 654 589 552 529 512 499 490 482 8 757 606 542 505 482 465 453 443 436 9 721 571 508 472 448 432 420 410 403 Capítulo 13 Teste tde Student 213 Se as variâncias são diferentes para comparar duas médias aplicase o teste t na forma descrita aqui É preciso calcular a a média de cada grupo Indicase Xi média do grupo 1 Xi média do grupo 2 b a variância de cada grupo Indicase s variância do grupo 1 ウ セZ variância do grupo 2 c o valor de t dado pela fórmula onde n1 é o número de elementos do grupo 1 e n2 é o número de ele mentos do grupo 2 d o número de graus de liberdade associado ao valor de t que é a parte inteira do número g obtido pela fórmula H ウセ si 2 e feitos os cálculos é preciso procurar o valor de t na tabela de valo res de t no nível estabelecido de signíficância e com g graus de li berdade Toda vez que o valor absoluto de t calculado for igual ou maior do que o valor de t dado na tabela concluise que no nível es tabelecido de significância as médias não são iguais Exemplo 1311 Teste t para comparar dois grupos variâncias diferentes Para verificar se determinada dieta leva à perda de peso um médico separou ao acaso um conjunto de pacientes em dois grupos um grupo foi submetido à dieta grupo tratado enquanto o outro manteve os mesmos hábitos alimentares gru po controle Decorrido determinado perfodo de tempo o médico obteve a perda de peso de cada paciente em cada grupo Os valores estão na Tabela 138 Z 14 Introdução à Bioestatística TABELA 138 Perdas de peso em quilogramas de pacientes segundo o grupo Grupo Tratado Controle 12 1 14 o 12 o 9 1 14 05 14 1 9 o Para proceder ao teste é preciso primeiro estabelecer o nível de significância Seja a 5 Depois é preciso calcular a a média de cada grupo Xi 12149 12 7 lOO X2 05 b a variância de cada grupo 2 Si 2 2 1038 842 7 6 3 25 35 2 7 6 500 025 c o valor de F porque como as variâncias são muito diferentes convém fazer o teste Seja a 5 s 2 F T 5 2000 S2 025 O valor calculado de F está associado a 6 numerador e 6 denominador graus de liberdade A Tabela de valores F veja no final do livro fornece para a 25 com 6 e 6 graus de liberdade o valor F 582 Então rejeitase a hi pótese de que as variâncias são iguais no nfvel de significância de 5 Agora é preciso calcular d o valor de t t Capítulo 13 Teste tde Student 215 0512 50 025 7 7 ll 5 t 1328 jULセU e o número de graus de liberdade 05625 66 0085247 O valor calculado de testá associado a aproximadamente 6 graus de liberdade Como o valor de t na Tabela de valores t veja no final do livro no nível de significância de 5 e com 6 graus de liberdade é 245 rejeitase a hipótese de que as médias são iguais Em termos práticos a perda de peso foi em mé dia significativamente maior no grupo submetido à dieta 133 0 TESTE t PARA O COEFICIENTE DE CORRELAÇÃO O teste t apresentado neste Capítulo tem outros usos além da comparação de médias Pode ser usado por exemplo para testar a hipótese de que o coeficiente de correlação entre dllas variáveis é igual a zero contra a hi pótese de que é diferente de zero Reveja o ítem 62 do Capítulo 6 O coeficiente de correlação varia en tre 1 e 1 Se o coeficiente de correlação entre duas variáveis for igual a zero não existe correlação linear entre elas E se o coeficiente calculado for r 0775 Não se pode julgar o valor desse coeficiente sem saber o ta manho da amostra Quando a amostra é muito pequena coeficientes de cor relação com valores altos podem não ter significado estatístico Z 15 Introdução à Bioestatística Exemplo 1312 Teste t para coeficiente de correlação O coeficiente de correlação entre duas variáveis X e Y calculado com base em uma amostra de tamanho 14 é r 0775 Esse valor é estatisticamente significante Para aplicar o teste t usase a fórmula t T Jn 2 J12 onde ré o valor calculado para o coeficiente de correlação e n é o tamanho da amostra Esse valor de testá associado a n 2 graus de liberdade No caso do exemplo r 0775 e n 14 Portanto t 0775 J142 0775x346425 Ji0601 0632 com n 2 12 graus de liberdade No nfvel de significância de 5 a Tabela de valores t veja no final do livro for nece para 12 graus de liberdade o valor t 2 18 Como o valor calculado de t é em valor absoluto maior do que 2 18 a correlação entre as variáveis é significante no nfvel de 5 134 EXERCÍCIOS RESOLVIDOS 1341 Os valores apresentados na Tabela 139 permitem testar a hipótese de que recémnascidos de ambos os sexos têm em média a mesma estatura Teste essa hipótese no nível de significância de 5 TABELA 139 Tamanho da amostra média e variância da estatura em centímetros de recémnascidos segundo o sexo Sexo Masculino Feminino n 1442 1361 4929 4854 576 630 Antes de proceder ao teste t convém testar a igualdade das variâncias Para isso calcule F 63º 109 576 que está associado a 1360 numerador e 1441 denominador graus de liberdade Para um teste bilateral no nível de significância de 5 você deve comparar o valor calculado de F com o valor crítico de F dado na Tabela Capítulo 13 Teste tde Student 217 de valores de F com Cl 25 com 1360 e 1441 graus de liberdade A tabela não tem esses números de graus de liberdade mas corno os núme ros são muito grandes use o valor de F associado a infinitos graus de li berdade tanto para numerador corno para denominador Esse valor é 100 O valor calculado de F é maior do que 100 Portanto no nível de significância de 5 as variâncias são diferentes O teste t no caso de variâncias desiguais deve ser calculado corno segue t 49294854 8076 576 630 1442 1361 que está associado aos graus de liberdade 576 630 2 g iM2iT6i 2772 576 2 630 2 1442 1361 l441 1360 O valor calculado de t é maior do que o valor dado na Tabela de valores t veja Apêndice Rejeite então no nível de significância de 5 a hipótese de que recémnascidos de ambos os sexos têm em média a mesma estatura Em termos práticos os meninos nascem com estatura maior do que as meninas 1342 Com base nos dados apresentados na Tabela 1310 teste no nível de significância de 5 a hipótese de que o calibre da veia esplênica é em média o mesmo antes e após a oclusão da veia porta TABELA 1310 Calibre da veia esplênica em seis cães antes e após a oclusão da veia porta 1 Oclusão da veia porta Número do cão Antes Depois 1 75 85 2 fí 75 3 fí 70 4 00 65 5 fí 60 6 70 00 Z 11 Introdução à Bioestatística Note que foram tomadas duas medidas do calibre da veia esplênica em cada cão uma antes outra após a oclusão da veia porta Para aplicar o teste t é preciso calcular a diferença observada em cada animal Tais diferenças estão na Tabela 1311 TABELA 1311 Diferenças de calibre da veia esplênica antes e após a oclusão da veia porta 1 Oclusão da veia porta Número do cão Antes Depois Diferença 1 75 セ 10 2 fJ 75 25 3 fJ 70 20 4 00 65 5 5 fJ 60 10 6 70 00 20 A média das diferenças é d 150 e a variância é s2 6000 O valor de t associado a 5 graus de liberdade é 150 4 74 エ セ G 6000 6 Na tabela de t para ex 5o e com 5 graus de liberdade está o valor 257 Como o valor calculado de t é maior do que o da tabela no nível es tabelecido de significância a hipótese de que em média o calibre da veia esplêníca é o mesmo antes e depois da oclusão da veia porta deve serre jeitada Em termos práticos a oclusão da veia porta determina aumento sig nificativo do calibre da veia esplênica 1343 Reveja o Exemplo 5611 um professor de Odontologia quer saber se alunos que começam a atender pacientes em disciplinas clínicas têm au mento na pressão sistólica Mediu então a pressão sistólica de cinco alu nos de primeiro ano que não cursam disciplinas clínicas e de cinco alu nos do segundo ano logo antes do primeiro atendimento de pacientes Os Capítulo 13 Teste tde Student 219 dados foram apresentados na Tabela 512 do Capítulo 5 Você calculou as médias e os desvios padrões Aplique agora um teste t unilateral Você já calculou 1º ano média 1180 desvio padrão 4 12 2º ano média 1310 desvio padrão 866 Faça o teste das variâncias F 441 não significante no nível de 5 F crítico 960 pvalor 01796 O teste t unilateral fornece t 303 significante ao nível de 5 t crítico 186 pvalor 00082 Com base neste resultado é razoável concluir que alunos que começam a atender pa cientes em disciplinas clínicas têm aumento significante na pressão sistólica p 005 1344 Um nutricionista6 quer saber se existe diferença entre iogurtes feitos de leite desnatado quando se adiciona ou não determinada bactéria Para isso procura amostras de leite desnatado de sete marcas comerciais di ferentes Inocula então metade da amostra de cada marca com a bacté ria e a outra metade deixa sem a bactéria para servir como controle Depois de prontos os iogurtes o nutricionista mede a firmeza da massa Os dados estão apresentados na Tabela 1312 Faça o teste TABELA 1312 Firmeza da massa de iogurte segundo a marca e a presença ou não de bactéria Bactéria Marca Sim Não A 68 61 B 75 69 e 62 64 D 86 76 E 52 52 F 46 38 G 72 68 H0 a firmeza do iogurte é em média a mesma com ou sem adição de bactéria H1 a adição de bactéria muda a média da firmeza do iogurte Nível de significância 005 6JOHNSON R E TSUI K W Statistical reasoning and methods Nova York Wiley 1998 p 437 Z 91 Introdução à Bioestatística Os resultados estão apresentados na Tabela 1313 O valor para t é sig nificante Portanto há evidência de que a bactéria modifica a firmeza do iogurte TABELA 1313 Médias desvios padrões valor de t para firmeza da massa de iogurte 1 Bactéria Média Desvio padrão Testet pvalor Presente 659 137 Ausente 611 126 Diferença 471 435 287 00285 135 EXERCÍCIOS PROPOSTOS 1351 Dez ratos machos adultos criados em laboratório foram separados alea toriamente em dois grupos um grupo foi tratado com a ração normalmen te usada no laboratório e o outro grupo foi submetido a uma nova ração experimental Decorrido certo periodo de tempo pesaramse os ratos Os pesos estão apresentados na Tabela 1314 Teste a hipótese de que o peso médio dos ratos é o mesmo para os dois tipos de ração TABELA 1314 Pesos em gramas de ratos adultos segundo a ração 1 Ração Padrão Experimental 200 220 180 200 100 210 100 220 180 210 1352 Os quocientes de inteligência QJ de 10 crianças medidos segundo dois testes de inteligência A e B estão apresentados na Tabela 1315 Verifi que através do teste t se os dois testes de inteligência dão em média o mesmo valor Capítulo 13 Teste tde Student 291 TABELA 1315 Valores de OI em 10 crianças segundo o teste de inteligência aplicado Teste A B 100 105 105 108 98 102 101 103 100 100 108 110 98 100 100 100 99 103 99 103 1353 A Tabela 1316 apresenta dados de pressão sangüínea sistólica de mu lheres na faixa etária de 30 a 35 anos que usavam e que não usavam anticoncepdonais orais Teste a hipótese de que o uso de anticoncepdo nais não tem efeito sobre a pressão sangüínea sistólica TABELA 1316 Pressão sangüínea sistólica de mulheres de 30 a 35 anos segundo o uso de anticoncepcionais Uso de anticoncepcionais Sim Não 111 109 119 113 121 120 113 117 116 108 126 120 128 122 123 124 122 115 121 112 Z 9 2 Introdução à Bioestatística 1354 A Tabela 1317 apresenta o tamanho da amostra a média e a variância dos pesos ao nascer de nascidos vivos de ambos os sexos Teste ao nível de significância de 1 a hipótese de que os dois sexos têm em média o mesmo peso ao nascer TABELA 1317 Tamanho da amostra média e variância de pesos ao nascer de nascidos vivos segundo o sexo Sexo Masculino Feminino n 14 13 3253 3130 52 0261 0265 1355 Para mais bem conhecer o efeito do frio pesquisadores fizeram um experimento com ratos de laboratório Doze ratos foram divididos ao acaso em dois grupos Um grupo ficou durante 12 horas na temperatura de 26 C e o outro grupo ficou numa temperatura de 5C pelo mesmo tempo Depois os pesquisadores mediram a pressão sangüínea dos 12 ratos Os re sultados estão na Tabela 1318 O que você conclui TABELA 1318 Pressão sangüínea dos ratos segundo a temperatura a que foram submetidos Tem peratura 5ºC 26C 152 384 157 369 179 354 182 375 176 366 149 423 1356 Para comparar o tempo de absorção de duas drogas A e B nove pes soas foram designadas ao acaso para receber a droga A e sete para rece ber a droga B Depois se determinou o tempo que demorou até as drogas alcançarem determinado nível no sangue Com base nas estatísticas apre sentadas na Tabela 1319 faça o teste t 70TT L e MENDENHALL W Understanding Statistics Belmont Wadsworth 6 ed 1994 p 305 Capítulo 13 Teste tde Student 293 TABELA 1319 Médias e variâncias do tempo despendido para as drogas alcançarem determinado nível no sangue Droga Estatísticas A 8 Número de pessoas 9 7 Média 272 335 Varincia 1636 1892 1357 Para saber se o tempo de alívio da dor no pósoperatório é significante mente maior quando se administra a droga A em lugar da droga B mais comumente usada observouse o tempo do alívio da dor de 25 pessoas que receberam a droga A no pósoperatório e 20 que receberam a droga B Com base nas estatísticas apresentadas na Tabela 1320 faça o teste t TABELA 1320 Médias e variâncias do tempo de alívio da dor segundo a droga Droga Estatísticas A 8 Número de pacientes 25 20 Média 55 50 Varincia 225 169 1358 Acreditase que um novo método de armazenamento mantenha por mais tempo o ácido ascórbico do caqui do que o método usual Foram então armazenados 20 caquis pelo novo método e 20 pelo método usual Com base nas estatísticas apresentadas na Tabela 1321 faça o teste t TABELA 1321 Médias e variâncias do teor de ácido ascórbico em miligramas por 100 gramas da fruta segundo o processo de armazenamento Estatísticas Número de caquis Média Variância Armazenamento Método usua 20 334 40 Novo método 20 410 60 Z 9 4 Introdução à Bioestatística 1359 Um nutricionista designa ao acaso 12 ciclistas para dois grupos os dois grupos são instruídos a usar a dieta normal mas o primeiro recebe um suplemento de vitaminas enquanto o segundo recebe um placebo Decor rido um mês o nutricionista mede o tempo que cada ciclista demora em percorrer 10 km Os dados estão na Tabela 1322 Formule as hipóteses e faça o teste TABELA 1322 Tempo em minutos para percorrer 10 km segundo o grupo Grupo Suplemento de vitaminas Placebo 15 16 18 12 20 15 14 15 16 14 19 18 13510 Alguns estudosª indicam que o açúcar toma as crianças mais ativas outros não acham evidência de que isso aconteça Foi feito um estudo com 25 crianças normais com idades entre 3 e 5 anos e 23 crianças que os pais diziam ficar hiperativas quando ingeriam açúcar Os nutricionistas foram até as casas e retiraram todos os alimentos Depois forneceram os alimen tos por 4 semanas As famílias receberam dois tipos de dieta uma com açúcar outra com alimentos adoçados com sacarina Foram feitas medi das de comportamento nos dois grupos de crianças Os dois grupos nun ca foram comparados As comparações foram feitas dentro de grupos Esses dados constituem exemplo de dados pareados ou de grupos independen tes Que hipóteses estão em teste 8ALIAGA M e GUNDERSON B Interactive Statistics 2 ed New Jersey Prentice Hall 2003 p 679 Respostas aos Exercícios Propostos página deixada intencionalmente em branco Respostas aos Exercícios Propostos 2 9 7 CAPÍTULO 1 191 Podem ser obtidas seis amostras diferentes 1 Antônio e Luís 2 An tônio e Pedro 3 Antônio e Carlos 4 Luís e Pedro 5 Luís e Carlos 6 Pedro e Carlos 192 Podem ser selecionados a os elementos de ordem par b os elemen tos de ordem ímpar c os quatro primeiros elementos 193 Numeramse os alunos e sorteiamse seis 194 Divida 10 por cinco e obterá dois Sorteie um dos dois primeiros nú meros isto é 1 ou 2 Se sair 1 chame para a amostra o primeiro o terceiro o quinto o sétimo e o nono nomes se sair 2 chame o segun do o quarto o sexto o oitavo e o décimo nomes 195 O tipo de serviço odontológico que uma família demanda depende da sua renda A amostragem coIIll base na lista telefônica é incorreta por que seleciona apenas aqueles que têm telefone fixo o que está asso ciado com renda 196 a qualquer conjunto de 10 unidades como por exemplo 3 5 8 13 19 22 26 27 30 40 b no caso da amostra sugerida na resposta an terior 03 ou 30 c 05 ou 50 d Boa nota não são boas as esti mativas O 01 09 1 197 Questão fechada Você costuma escovar os dentes todos os dias Sim O Não O Questão aberta Como você limpa seus dentes 198 A média da população parâmetro é 5 As médias das amostras esta tísticas são João e José 8 João e Paulo 7 João e Pedro 5 José e Paulo 5 José e Pedro 3 Paulo e Pedro 2 A média das médias das amostras é 5 igual à média da população 199 O costume é escolher uma cidade representativa de todo o Estado 1910 a alunos da universidade b percentual de alunos que têm trabalho remunerado c não porque talvez no restaurante fiquem mais alu nos que têm trabalho d não porque excluiria os que têm condução própria Z 91 Introdução à Bioestatística 1911 Leitores de livros técnicos 1912 143 policiais militares CAPÍTULO 2 281 a peso de pessoas numérica contínua b marcas comerciais de um mesmo analgésico nominal e temperatura de pessoas numérica con tínua d quantidade anual de chuva na cidade de São Paulo numérica contínua e religião nominal f número de dentes permanentes irrom pidos em uma criança numérica discreta g número de bebês nascidos por dia em uma maternidade numérica discreta h comprimento de cães numérica contínua 282 Distribuição das pessoas segundo a opinião Opinião Freqüência Percentual Favorável 425 499 Contrária 368 432 Não temnão sabe 59 69 Total 852 1000 283 Distribuição das notas de 200 alunos Nota do aluno Freqüência Freqüência relativa De 9 a 10 16 008 De 8 a 89 36 018 De 65 a 79 90 045 De 5 a 64 30 015 Abaixo de 5 28 014 Total 200 1 Respostas aos Exercícios Propostos 2 9 9 284 Distribuição dos pacientes segundo o estágio da doença Estágio da doença Freqüência Freqüência relativa Leve 8 040 Moderado 9 045 Severo 3 015 Total 20 100 285 Não está definido se os valores iguais aos extremos de classe estão ou não incluídos na classe Os intervalos se sobrepõem por exemplo de 20 a 30 e de 30 a 40 o valolr 30 aparece nos dois intervalos e falta uma classe de 50 a 60 286 Distribuição dos doadores de sangue segundo o tipo de sangue Tipo de sangue Freqüência Freqüência relativa o 15 0375 A 16 04 8 6 0 15 AB 3 0075 Total 40 1 287 20 alunos 288 Distribuição das crianças segundo o hábito de sucção Hábito de sucção Freqüência Percentual Sucção do polegar 190 94 Chupeta 588 292 Mamadeira 618 307 Não têm o hábito 615 306 Total 2011 1000 311 Introdução à Bioestatística 289 Classe 70 f 75 75 f 80 80 f 85 85 f 90 90 f 95 95 f100 100 f105 105 f110 110f115 115 f120 2810 O intervalo de classes é 5 enfermeiros em serviço O intervalo de toda a distribuição é 30 2811 Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias Classe Freqüência o f3 5 3 f6 8 6 f9 11 9 f12 4 12f15 6 15f17 2 Total 36 Respostas aos Exercícios Propostos 311 Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias Classe Freqüência 1 dia 2 De 2 a 3 dias 6 De 4 a 7 dias 12 De 8 a 14 dias 14 Mais de 14 dias 2 Total 36 2812 Conjunto A para achar o número de classes a 701 7 amplitude dos dados 70 24 46 Dividindo a amplitude total pelo número de classes achase o intervalo de classe 46 7 66 7 24 f 31 31 f38 38 f45 45 f 52 52 f 59 59 f 66 66 f 73 Conjunto B para achar o número de classes J100 10 amplitude dos dados 821 187 634 Dividindo a amplitude total pelo número de classes achase o intervalo de classe 634 10 634 65 Para faci litar os cálculos faça o extremo inferior da primeira classe igual a 185 185 f 250 250 f315 315 f380 380 f445 445 f 510 510 f 575 575 f640 640 f 705 705 f 770 770 f835 31 Z Introdução à Bioestatística 2813 2814 2815 Taxa de abandono do tratamento contra tuberculose pulmonar segundo a zona de moradia Zona Urbana Rural Total Abandono do tratamento Sim 15 70 85 Não ll 35 115 Total ffi 105 200 Taxa de abandono 158 667 425 Distribuição dos dentistas segundo a adoção de métodos de prevenção de cáries e doenças gengivais no consultório Prevenção Sim Não Total Freqüência 78 22 100 Percentual 780 220 1000 A prática da prevenção deveria ser adotada por 100 dos dentistas Número de óbitos por grupos de causas Brasil 2004 Masculino Feminino Grupos de causas N9 NR Doenças infecciosas e parasitárias 27437 52 18615 50 Neoplasias 76065 145 64724 173 Doenças do aparelho circulatório 150383 288 135119 362 Doenças do aparelho respiratório 55785 107 46369 124 Afecções originadas no período perinatal 17530 34 13165 35 Causas externas 107032 205 20368 54 Demais causas definidas 88563 169 75399 202 Total 522795 1000 373759 1000 Foram 896554 óbitos com causa definida 583 homens e 417 mu lheres Doenças do aparelho circulatório respondem pela maior propor ção de mortes Chama atenção a grande proporção de óbitos de homens por causas externas acidentes e homicídios 2816 2817 Respostas aos Exercícios Propostos 313 Pacientes portadores de carcinoma epidermóide de base de língua segundo a faixa etária em anos Faixa etária Número Freqüência relativa 30 f40 10 34 40 f 50 fi6 228 50 f 60 119 410 60 f 70 fi6 228 70 f 80 24 83 80 e mais 5 17 Total 290 1000 A faixa etária de maior risco dos 50 aos 60 anos Número de órgãos obtidos de doadores cadáveres Órgão Número de Número de órgãos Taxa de doadores aproveitados aproveitamento Rim 105 210 1000 Coração 105 45 429 Ffgado 105 20 190 Pulmões 105 17 81 Nota Cada cadáver é potencialmente doador de dois rins um coração um ffgado e dois pulmões A taxa de aproveitamento é sobre número de órgãos não de cadáveres CAPÍTULO 3 351 450 Leve 400 Distribuição dos pacientes segundo o estágio da doença 314 Introdução à Bioestatística 352 353 354 18 16 16 14 co ü 12 e 10 Q cr 8 Q セu 6 4 2 o o A B AB npo de sangue Distribuição dos doadores de sangue segundo o tipo de sangue Hábito de sucção Não tem o hábito Mamadeira Chupeta Sucção do polegar 0 100 200 300 400 500 600 700 Freqüência Distribuição das crianças segundo o hábito de sucção co ü e Q cr Q セu 12 10 8 6 4 2 o 1f3 3f6 6f9 9f12 12f15 15f18 Dias Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias 355 356 Respostas aos Exercícios Propostos 315 Sim Urbana Rural Não 333 Não 842 Taxa de abandono do tratamento contra tuberculose pulmonar segundo a zona de moradia Sim 667 Grupo de causas Sexo masculino Doenças do aparelho circulatório õiiiõiiiiiõl 288 Causas externas Neoplasias Doenças do aparelho respiratório Doenças infecciosas e parasitárias Afecções originadas no perfodo perinatal liiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiill 20 5 ii 145 iiiiiiiiiiil 1 07 セ U N R E 34 Demais causas definidas eセ A Qᄃ V Nセ Y Eセᄎ セMj Grupo de causas Doenças do aparelho circulatório Neoplasias Doenças do aparelho respiratório Causas externas Doenças infecciosas e parasitárias Afecções originadas no periodo perinatal Demais causas definidas 0 5 10 15 20 25 30 35 40 Sexo feminino 362 173 124 54 i 50 セ SNUE 202 0 5 10 15 20 25 30 35 40 Proporção de óbitos por grupos de causas Brasil 2004 315 Introdução à Bioestatística 357 Nesses gráficos as grandes causas foram colocadas em ordem decrescen te considerando as porcentagens Mas os dois gráficos podem ser reu nidos em um só como na figura que se segue Demais causas definüdas Causas externas 11 Feminino 1 Masculino IS Afecções originadas no perlodo perinata Doenças do aparelho respiratório Doenças do aparelho circulatório Neoplasias Doenças infecciosas e parasitárias 00 50 100 150 200 250 300 350 400oc co e Q o cr Q セu Proporção de óbitos por grupos de causas Brasil 2004 140 120 100 00 00 40 20 o 30f40 40150 50f60 60170 70f80 80 e mais Faixa etária Pacientes portadores de carcinoma epidermóide de base de lfngua segundo a faixa etária em anos 358 359 3510 Pulmões Figa do Coração Rim s 0 Respostas aos Exercícios Propostos 317 20 40 60 80 100 120 Taxa de aproveitamento de órgãos Taxa de aproveitamento de órgãos obtidos de doadores cadáveres 14 12 10 G 8 e Q oJ e セQ 6 u 4 2 o 1 1 64f70 70f76 76f82 82f88 88f94 94f100 Pressão sangüfnea diastól ica Pressão sangüfnea diastólica de 35 enfermeiros que trabalham em um hospital QT セセ セ 12 10 G fil 8 oJ セ 6 u 4 2 01caJ 61 67 73 79 85 91 97 103 Pressão sangüfnea diastólica Pressão sangüfnea diastólica de 35 enfermeiros que trabalham em um hospital 311 Introdução à Bioestatística CAPÍTULO 4 461 a Média 5 mediana 6 moda 8 b Média 8 mediana 8 moda 8 c Média 11 mediana 10 moda 10 d Média 1 mediana O não tem moda e Média 2 mediana 1 duas modas 1 e 2 462 Mediana 463 Moda 464 24 anos 465 A média é 100 miligramas por 100 ml de sangue e a mediana é 995 miligramas por 100 ml de sangue 466 Estatura média 1 70 m mediana 168 m Peso média 725 kg mediana 70 kg Pressão arterial média 1655mmHg mediana 160mmHg 467 Masculino média 088 dente cariado feminino média 1 dente cariado 468 106 minuto O rato que não dormiu não entra na média porque tem po de latência é o tempo para a droga fazer efeito no caso dormir 469 Masculino média 700 gramas por dia mediana 65 gramas por dia Feminino média 700 gramas por dia mediana 70 gramas por dia 4610 Masculino média 090 litro por dia mediana 085 litro por dia Feminino média 080 litro por dia mediana 075 litro por dia 4611 Metade das pacientes retomou às atividades menos de 275 dias depois de submetidas à histerectomia não houve moda ou seja nenhum nú mero de dias foi mais freqüente 4612 362 miligramas de ácido ascórbico em 100 ml 4613 Sim 1 2 3 3 3 4 5 a média a mediana e a moda são iguais a 3 4614 A média porque a última classe não tem o extremo superior definido Respostas aos Exercícios Propostos 319 CAPÍTULO 5 561 a 1 b 5 c 4 562 a Ix 35 b iLHクMセIG 20 563 A média é 4 e o desvio padrão é 3 564 O tamanho da amostra é 6 565 Média 24 e variância 80 566 Antônio média 5 desvio padrão O João média 5 desvio padrão 1 Pedro média 5 desvio padrão 5 As notas de Antônio não variaram as notas de Pedro variaram muito mais do que as de João 567 a O desvio padrão pode ser maior do que o valor da média exemplo 2 O 2 b O valor do desvio padrão pode ser igual ao valor da média exemplo 10 10 5 O O c O valor do desvio padrão não pode ser ne gativo por definição d O desvio padrão é igual a zero quando todos os dados do conjunto são iguais entre si 568 A variância é 16 o desvio padrão é 4 e o coeficiente de variação é 4 569 A média é 5 e a variância é 08 5610 a Desvantagem de usar a amplitude os dois conjuntos podem ter am plitudes iguais e variabilidades diferentes b Não c Sim quando me nor do que 1 5611 1º ano média 1180 desvio padrão 412 2º ano média 1310 desvio padrão 866 A média do 2º ano é 11 maior do que a do 1 ano e a variabilidade é praticamente o dobro 5612 A diferença de médias não é muito grande mas a diferença de variabi lidades é tão grande que justificaria preferir a primeira dieta para perda de peso Como as respostas são mais homogêneas a expectativa do re sultado é mais previsível 31 1 Introdução à Bioestatística 5613 Diurno média 475 desvio padrão 93 Noturno média 454 desvio padrão 94 A média é um pouco maior no diurno mas as variabilidades são prati camente as mesmas CAPÍTULO 6 661 a r 1 correlação perfeita positiva b r 1 correlação perfeita negativa c r O correlação nula d r 090 correlação positiva alta e r 090 correlação negativa alta 662 a correlação negativa b correlação positiva c correlação nula 663 O sobrepeso pode ser um fator de risco para a morte por doenças do coração 664 Não 665 a Correlação perfeita negativa b Forte correlação positiva c Correlação nula ou próxima de zero 666 1 1 ou 1 positiva ou negativa zero maior 66 7 Negativa 668 Se as variáveis estão ou não correlacionadas 669 Não existe correlação entre as variáveis r O O diagrama de disper são mostra isso Respostas aos Exercícios Propostos 311 8 7 6 Q 5 C セQ 4 o ro 3 2 1 o o 1 2 3 4 5 6 Valores de X Dados relativos as duas variáveis X e Y 6610 Para o Conjunto A r 0936 portanto alta correlação positiva Para o Conjunto B r O o que no caso não significa correlação nula mas como mostra o gráfico ッイ セ ッ nãolinear 9 35 8 3 7 25 6 Q Q C 5 C 2 Q Q セ 4 5 15 Q 3 ro 1 2 05 1 ºo o 1 2 3 4 5 6 o 1 2 3 4 5 6 Valores de X Valores de X Conjunto A Conjunto B Dois conjuntos de pares de valores de duas variáveis 6611 Não é possível calcular o valor de r mas obviamente não existe cor relação entre as variáveis X cresce e Y permanece constante 6612 Ix 255 Lx2 9443 Iy 1725 Iy2 504375 Ixy 66025 Logo r 0913 Divisão por zero uma vez que a variância de Y que aparece no denominador é zero 31 2 Introdução à Bioestatística 6613 Para o Conjunto A r 1 portanto correlação perfeita positiva Para o Conjunto B r O o valor altamente discrepante anula a correlação Mas atenção retire o valor discrepante apenas no caso de ter havido erro na leitura ou no registro do dado Outras situações demandam discus são Note ainda o valor discreJPante mudou totalmente o valor de r pelo fato de a amostra ser pequena 6614 O valor de ré 0774 correlação positiva alta 6615 ill セMNL Q 00 e 70 o ᄋ セ 2 00 C0 á3 fí E N セ Q X 40 5 o 3 20 10 o o 2 4 6 8 セ 10 12 14 Duração do exercfcio Duração do exercício em minutos e V02máx em mililitros por quilograma por minuto para 12 homens saudáveis Olhando o diagrama é razoável afirmar que V0 2máx diminui quando aumenta a atividade CAPÍTULO 7 781 A razão de sexos que se inicia acima de 100 o que significa que nas cem mais homens do que mulheres começa a diminuir dos 15 aos 30 anos tende a estabilizar a queda até os 55 anos depois cai cada vez mais rapidamente Respostas aos Exercícios Propostos 31 3 110 100 o Q 00 ᄋセ Q 00 o N 70 co e ff fí o 10 20 30 40 50 60 70 80 90 Valor central da classe Razão de sexos no Brasil em 2005 782 A taxa de mortalidade infantil diminuiu no período mas ainda não é baixa 60 ffi 50 s セ co 40 E ro 31 t o セ 20 co セ 10 P ᄋMQMセMQ 1988 1990 1992 1994 1996 1998 2000 Ano Taxa de mortalidade infantil no Brasil de 1889 a 1998 7 83 Tanto o gráfico como a reta ajustada indicam que o teor de vitamina C no suco de maçã diminui à medida que aumenta o tempo de armaze namento 31 4 Introdução à Bioestatística 45 4 35 co 3 E ê 25 セ 2 O 5 15 セ 1 05 Y3930011X ッ NMNMセNMNMセNMNMセNMNMQ o 25 50 75 100 125 150 175 200 Perfodo de armazenamento Teor de vitamina C mg de ácido ascórbico100 mi de suco de maçã em função do perfodo de annazenamento em dias 7 84 O coeficiente de correlação não muda mas a reta de regressão será ou tra As duas retas se cruzarão no ponto de coordenadas iguais às mé dias de X e Y 785 Não 7 86 y 5 X 787 Não seria possível achar o valor de b pela fórmula uma vez que o de nominador seria zero Mas a idéia é de uma reta paralela ao eixo das ordenadas 788 Os dados são poucos para discutir assunto tão complexo mas em ge ral podese afirmar que escolaridade está associada ao nível de renda que significa maiores gastos com produtos de higiene e maior busca de profissionais de saúde além da facilidade de ter e buscar novos conhe cimentos De qualquer forma ensinar métodos preventivos dá bons re sultados O que não se pode é usar estatísticas de má qualidade tra çouse a reta pelos pontos médios de X e pelas médias de Y o que de terminou maior R2 mesmo que seja para provar assuntos compro vados ou para demonstrar boas intenções 789 Os gastos com propaganda aumentaram as vendas O valor de R2 0984 indica que a proporção da variação do volume de vendas Y explicada pela variação do gasto em propaganda é muito alta Mas cuidado não se pode extrapolar Respostas aos Exercícios Propostos 31 5 3500 300 Y200902X o 2500 12 o Q 2000 Q セ 1500 Q セo 1000 Cõ 500 o o 100 200 300 400 Gastos com propaganda Gastos com propaganda em reais na semana e valores recebidos em reais nas vendas 7810 yll2413oJX 7811 O V02máxinalado diminui linearmente quando aumenta a atividade no intervalo estudado y 16257 8841X 74 72 t セ 70 º 6 68 o ffi セQ Cl 64 62 o 5 10 15 20 25 Tempo Tempo em minutos desde o início do repouso e pressão sangüfnea diastólica em milímetros de mercúrio 31 5 Introdução à Bioestatística 7812 Para se ajustar uma reta de regressão aos dados é preciso que as ob servações sejam independentes Observações feitas ao longo do tempo não são independentes 7813 7814 120 100 o セ 00 o lil e o Q a 40 20 o o Y 1555 2625X R209943 10 20 Idade 30 40 50 Idade em dias e peso médio em gramas de 1 O ratos machos da raça Wistar Peso aos 32 dias 6845 gramas A regressão exponencial traz a variável explanatória no expoente Es crevese y aehX Para ajustála é preciso calcular o logaritmo neperiano de X Ajustase yAblnX Cálculos auxiliares X V nY XnY xz 28 125 022314 624802 784 32 125 022314 714059 1024 35 175 055962 1958655 1225 38 225 081093 3081535 1444 39 325 117865 4596754 1521 41 325 117865 4832485 1681 42 425 144692 6077060 1764 IX255 LY 1725 Lln Y 562106 IXln Y 21885351 IX2 9443 Respostas aos Exercícios Propostos 31 7 Aplicando as fórmulas obtémse CAPÍTULO 8 881 882 883 4 a 1 52 13 b セNAN 52 4 l c 52 8 a iO b 2 10 c 2 10 7 a 15 b セ 15 c zero y 2535 009164lnX y QQ792eº0916x 884 É mais fácil resolver o problema construindo o espaço amostral 1 2 3 4 5 6 7 8 9 10 ABC ABD ABE ACO ACE ADE BCD BCE BDE COE 885 l a 6 b 6 311 Introdução à Bioestatística 886 Os eventos ser reprovado em Matemática e ser reprovado em Portu guês não são independentes porque a condição de independência dada em seguida não é satisfeita PA í B PA PB Temos PReprovado em Português 010 PReprovado em Matemática 020 PReprovado em Português í Reprovado em Matemática 005 005 F 010 X 020 887 a 50 b 50 888 oLャセッ 889 50o 8810 a 36 b 1 CAPÍTULO 9 961 Eventos e respectivos resultados no jogo Eventos Resultados possíveis 12 Ganha 13 Perde 21 Perde 23 Perde 31 Perde 32 Ganha O jogador perde mais vezes do que ganha porque só 2 é par e 1 e 3 são ímpares O jogo é injusto Respostas aos Exercícios Propostos 31 9 962 Distribuição do número de meninos em uma família de cinco crianças 1 963 µ 5 J2 25 964 µ 2 cr2 16 965 27 966 27 64 ou 422 967 0001 X PX o 1 2 3 4 5 132 532 1032 1032 532 132 968 a As respostas têm distribuição binomial b Depende da taxa de res postas que deve ser igual ou superior a 70 isto é pelo menos 70 dos questionários devem ter sido respondidos Um cuidado importan te aqui é saber se a pergunta feita não induz um tipo de resposta por exemplo dizer não pode ser prejudicial para a enfermeira ou pode ofender colegas Nesse caso as respostas poderiam eventualmente ser tendenciosas e a taxa de respostas pequena 969 354 9610 Se considerarmos cada dia como um ensaio em cada dia podem ocorrer mais de dois eventos ocorreu acidente ou não Interessa o número de acidentes por dia e depois o estudo da distribuição de freqüências em quantos dias houve um acidente 2 3 etc e o estudo das causas Por tanto a variável não é binomial CAPÍTULO 10 1061 4901 3Z1 Introdução à Bioestatística 1062 a 067 b 164 c 196 1063 a 7888 b 1056 1064 a 475 b 4525 1065 a 9772 b 228 1066 a 21 19 b 21 19 1067 Usando apenas os conhecimentos adquiridos com a distribuição normal é razoável dizer que a média mais um desvio padrão é ponto de aler ta no caso 1425 5 rnEqL de plasma média mais dois desvios padrões no caso 14555 mEqL de plasma seria ponto de corte para dizer que está alta a concentração de sódio no plasma de uma pessoa 1068 a 01587 ou 1587 b 00228 ou 228 c 05 ou 50 d 01003 ou aproximadamente 10o 1069 Sim metade dos escores é positiva e metade é negativa porque a dis tribuição normal reduzida é simétrica em tomo da média 10610 00475 OU 475o CAPÍTULO 11 1161 A proporção de adultos que pensam que sofrem da síndrome é 590 3066 01924 O intervalo de 95 de confiança vai de 0178 a 0206 1162 A resposta mais razoável talvez seja 3 3066 0000978 ou 00978 1163 O intervalo de 90 de confiança vai de 1217 a 1243mmHg 1164 O intervalo de 99 de confiança vai de 1550 a 1690 g de hemoglobina por 100 ml de sangue 1165 O intervalo de 90 de confiança vai de 4920 a 5080 cm 1166 O intervalo de 95o de confiança vai de 925 a 975 mg de glicose por 100 ml de sangue Respostas aos Exercícios Propostos 3Z1 1167 O intervalo teria de ser O p 1 Mas esse intervalo não tem qualquer utilidade 1168 O intervalo de 95 de confiança vai de 2946 a 3094 g 1169 O intervalo de 98 de confiança vai de 64705 a 66895 mg 11610 a Não necessariamente b Sim c Não necessariamente d Não CAPÍTULO 12 1241 Um teste de quiquadrado ao nível de 5o de significância não rejeita a hipótese de que é de 3a proporção de recémnascidos com defeito ou doença séria 1242 J2 482 A proporção de recémnascidos portadores de anomalia con gênita é maior no sexo feminino 1243 a2 904 A ausência congênita de dentes ocorre mais em meninas 1244 O coeficiente de Yule é 0372 A anodontia está associada ao sexo na ordem de 37 1245 a2 132 A associação é 022 relativamente pequena O teste não re jeita a hipótese de que presença de aberração cromossômica no feto não depende da faixa de idade da gestante ser de 35 até 40 anos ou de 40 anos ou mais 1246 Hipótese da nulidade existe associação entre implantes mamários e doenças do tecido conjuntivo e outras doenças Hipótese alternativa doenças do tecido conjuntivo e outras não estão associadas aos implan tes mamários A proporção é 000668 nos dois grupos 1247 Hipótese da nulidade a probabilidade de natimorto é a mesma para os dois sexos Hipótese alternativa a probabilidade de natimorto é mai or para um dos sexos u 5ºo Calculado x2 1 15 menor que o da Tabela de x2 com 1 grau de liberdade Não se rejeita H0 3 2 2 Introdução à Bioestatística 1248 O coeficiente de Yule é 00816 Associação positiva mas muito pequena da ordem de 8 1249 Hipótese da nulidade a probabilidade de dormir mais de 8 horas é a mesma para as duas faixas de idade Hipótese alternativa a proba bilidade de dormir mais de 8 horas é diferente para as duas faixas de idade ex 1 x2 2226 portanto rejeite H0 ao nível de 1 de significância 12410 x2 4824 rejeitase H0 ao nível de 1 CAPÍTULO 13 1351 A tabela dada em seguida apresenta as médias e os desvios padrões de pesos de ratos Estatísticas Média Desvio padrão Médias e desvios padrões de pesos de ratos Padrão 1880 37 Ração Experimental 2120 37 O valor de t é 4536 significante a 5o Os ratos submetidos à ração ex perimental ganharam mais peso 1352 Observações pareadas t 4226 significante ao nível de 5 O teste B dá em média resultados significantemente maiores de OI do que o teste A 1353 t 1642 nãosignificante a 5 Os dados não mostram que o uso de anticoncepcionais orais aumenta a pressão sangüínea sistólica 1354 t 0623 nãosignificante a 5 Os dados não mostram diferença de peso ao nascer entre sexos 1355 A tabela dada em seguida apresenta as médias e as variâncias da pres são sangüínea dos ratos Respostas aos Exercícios Propostos 3 Z 3 Médias e variâncias da pressão sangüínea dos ratos segundo a temperatura a que foram submetidos Estatísticas Média Variância 5º C 1658 21817 Temperatura 26º C 3785 57390 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 005 1356 Rejeitase a hipótese de médias iguais p 00097 1357 Estatísticas para comparar do tempo de alivio da dor obtido com a nova droga em relação à antiga Estatístíca Valor de F rrvalor Variância ponderada Valor de t pvalor unilateral Resultado 133 02652 2003 118 01227 Não se rejeita a hipótese de variâncias iguais p 005 Também não há evidência de que a droga nova seja melhor do que a antiga p 005 1358 Estatísticas para comparar os dois métodos de processamento Estatístíca Resultado Valor de F 150 pvalor 01924 Variância ponderada 5000 Valor de t 1075 pvalor unilateral 00000 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 00000 005 3 2 4 Introdução à Bioestatística 1359 Estatísticas para comparar as duas dietas Estatística Resultado Valor de F 118 pvalor 04290 Variância ponderada 2183 Valor de t 234 pvalor unilateral 00205 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 00205 005 13510 Teste t pareado porque a mesma criança foi observada duas vezes a quando recebeu alimentos adoçados com açúcar e b quando recebeu alimentos adoçados com sacarina Os dois grupos de crianças mais ve lhas hiperativas e de crianças mais novas normais não são compa ráveis porque diferem quanto a dois fatores idade e hiperatividade Tabelas página deixada intencionalmente em branco Tabelas 327 TABELA 1 Distribuição normal reduzida PO Z z Último dígito o 1 2 3 4 5 6 7 B g oo 00000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02703 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04554 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04658 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04761 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 2 1 04821 04826 04830 04834 04838 04842 04846 04850 04854 04857 22 04861 04864 04868 04871 04875 04878 04881 04884 04887 04890 23 04893 04896 04898 04901 04904 04906 04909 04911 04913 04916 24 04918 04920 04922 04925 04927 04929 04931 04932 04934 04936 25 04938 04940 04941 04943 04945 04946 04948 04949 04951 04952 26 04953 04955 04956 04957 04959 04960 04961 04962 04963 04964 27 04965 04966 04967 04968 04969 04970 04971 04972 04973 04974 28 04974 04975 04976 04977 04977 04978 04979 04979 04980 04981 29 04981 04982 04982 04983 04984 04984 04985 04985 04986 04986 30 04987 04987 04987 04988 04988 04989 04989 04989 04990 04990 321 Introdução à Bioestatística TABELA2 Valores de X segundo os graus de liberdade e o valor de a a Graus de liberdade 10 5 1 1 271 384 664 2 460 599 921 3 625 782 1134 4 778 949 1328 5 924 1107 1509 6 1064 1259 1681 7 1202 1407 1848 8 1336 1551 2009 9 1468 1692 2167 10 1599 1831 2321 11 1728 1968 2472 12 1855 2103 2622 13 1981 2236 2769 14 2106 2368 2914 15 2231 2500 3058 16 2354 2630 3200 17 2477 2759 3341 18 2599 2887 3480 19 2720 3014 3619 20 2841 3141 3757 21 2962 3267 3893 22 3081 3392 4029 23 3201 3517 4164 24 3320 3642 4298 25 3438 3765 4431 26 3556 3888 4564 27 3674 4011 4696 28 3792 4134 4828 29 3909 4256 4959 30 4026 4377 5089 Tabelas 329 TABELA3 Valores de F para a 25o segundo o número de graus de liberdade do numerador e do denominador N1 de g 1 do denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 00 Número de graus de liberdade do numerador 1 2 3 4 5 6 7 8 9 648 800 864 900 922 937 948 957 963 385 390 392 392 393 393 394 394 394 174 160 154 151 149 147 146 145 145 122 106 998 960 936 920 907 898 890 100 843 776 739 715 698 685 676 668 881 726 807 654 757 606 721 571 694 546 672 526 655 510 641 497 630 486 620 477 612 469 604 462 598 456 592 451 587 446 583 442 579 438 575 435 572 432 569 429 566 427 563 424 561 422 559 420 557 418 542 405 529 393 5 15 380 502 369 660 623 589 552 542 505 508 472 483 447 463 428 447 412 435 400 424 389 415 380 408 373 401 366 395 361 390 356 386 351 382 348 378 344 375 341 372 338 369 335 367 333 365 331 363 329 361 327 359 325 346 313 334 301 323 289 312 279 599 529 482 448 424 404 389 377 366 358 350 344 338 333 329 325 322 318 315 313 310 308 306 304 303 290 279 267 257 582 570 512 499 465 453 432 420 407 395 388 376 373 361 360 348 350 338 341 329 334 322 328 316 322 310 317 305 313 301 309 297 305 293 302 290 299 287 297 285 294 282 292 280 290 278 288 276 287 275 274 262 263 251 252 239 241 229 560 490 443 410 385 366 351 339 329 320 312 306 301 296 291 287 284 281 278 275 273 271 269 267 265 253 241 230 219 552 482 436 403 378 359 344 331 321 312 305 298 293 288 284 280 276 273 270 268 265 263 261 259 257 245 2 33 222 2 11 continua 3 31 Introdução à Bioestatística Continuação da Tabela 3 N de g 1 do Número de graus de liberdade do numerador denominador 10 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 969 977 985 993 394 394 394 394 144 143 143 142 884 875 866 856 662 652 643 633 546 537 527 5 17 476 467 457 447 430 420 410 400 396 387 377 367 372 362 352 342 353 343 333 323 337 328 3 18 307 325 315 305 295 3 15 305 295 284 306 296 286 276 299 289 279 268 292 282 272 262 287 277 267 256 282 272 262 251 277 268 257 246 273 264 253 242 270 260 250 239 267 257 247 236 264 254 244 233 261 251 241 230 259 249 239 228 257 247 236 225 255 245 234 223 253 243 232 221 251 241 231 220 239 229 2 18 207 227 217 206 194 216 205 194 182 205 194 183 171 Fonte SCHEFFÉ 1959 997 1000 101 o 1010 1010 1020 395 395 395 395 395 395 141 14 1 140 140 139 139 851 846 841 836 831 826 628 623 618 612 607 602 512 507 501 496 490 485 442 436 431 425 420 414 395 389 384 378 373 367 361 356 351 345 339 333 337 331 326 320 3 14 308 317 312 306 300 294 288 302 296 291 285 279 272 289 284 278 272 266 260 279 273 267 261 255 249 270 264 259 252 246 240 263 257 251 245 238 232 256 250 244 238 232 225 250 244 238 232 226 2 19 245 239 233 227 220 2 13 241 235 229 222 2 16 209 237 231 225 218 211 204 233 227 221 2 14 208 200 230 224 218 211 204 197 227 221 2 15 208 201 194 224 218 212 205 198 191 222 216 209 203 195 188 219 213 207 200 193 185 217 211 205 198 191 183 215 209 203 196 189 181 214 207 201 194 187 179 201 194 188 180 172 164 188 182 174 167 158 148 176 169 161 153 143 131 164 157 148 139 127 100 Tabelas 331 TABELA4 Valores de F para cx 5o segundo o número de graus de liberdade do numerador e do denominador ft de g 1 do denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 00 Número de graus de liberdade do numerador 1 2 3 4 5 6 7 8 161 200 185 190 101 955 771 694 661 579 599 514 559 474 532 446 512 426 496 410 484 398 475 389 467 381 460 374 454 368 449 363 445 359 441 355 438 352 435 349 432 347 430 344 428 342 426 340 424 339 423 337 421 335 420 334 418 333 417 332 408 323 400 315 392 307 384 300 216 225 192 192 928 912 659 639 541 519 476 453 435 412 407 384 386 363 371 348 359 336 349 326 341 318 334 311 329 306 324 301 320 296 316 293 313 290 310 287 307 284 305 282 303 280 301 278 299 276 298 274 296 273 295 271 293 270 292 269 284 261 276 253 268 245 260 237 230 193 901 626 505 439 397 369 348 333 320 311 303 296 290 285 281 277 274 271 268 266 264 262 260 259 257 256 255 253 245 237 229 221 234 237 239 193 194 194 894 889 885 6 16 609 604 495 488 482 428 421 4 15 387 379 373 358 350 344 337 329 323 322 314 307 309 301 295 300 291 285 292 283 277 285 276 270 279 271 264 274 266 259 270 261 255 266 258 251 263 254 248 260 251 245 257 249 242 255 246 240 253 244 237 251 242 236 249 240 234 247 239 232 246 237 231 245 236 229 243 235 228 242 233 227 234 225 2 18 225 217 210 2 17 209 202 2 1 o 201 194 9 241 194 881 600 477 410 368 339 318 302 290 280 271 265 259 254 249 246 242 239 237 234 232 230 228 227 225 224 222 221 212 204 196 188 continua 3 3 2 Introdução à Bioestatística Continuação da Tabela 4 fV9 de g 1 do Número de graus de liberdade do numerador denominador 10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 242 244 246 248 194 194 194 194 879 87 4 870 866 596 591 586 580 474 468 462 456 406 400 394 387 364 357 351 344 335 328 322 3 15 314 307 301 294 298 291 285 277 285 279 272 265 275 269 262 254 267 260 253 246 260 253 246 239 254 248 240 233 249 242 235 228 245 238 231 223 241 234 227 219 238 231 223 2 16 235 228 220 2 12 232 225 218 210 230 223 2 15 207 227 220 2 13 205 225 218 2 11 203 224 216 209 201 222 215 207 199 220 2 13 206 197 219 212 204 196 218 210 203 194 2 16 209 201 193 208 200 192 184 199 192 184 175 191 183 175 166 183 175 167 157 Fonte SCHEFFÉ 1959 249 250 251 252 253 254 195 195 195 195 195 195 864 862 859 857 855 853 577 575 572 569 566 563 453 450 446 443 440 436 384 381 377 374 370 367 341 338 334 330 327 323 312 308 304 301 297 293 290 286 283 279 275 271 274 270 266 262 258 254 261 257 253 249 245 240 251 247 243 238 234 230 242 238 234 230 225 221 235 231 227 222 218 213 229 225 220 216 211 207 224 219 215 211 206 201 219 215 2 10 206 201 196 215 211 206 202 197 192 211 207 203 198 193 188 208 204 199 195 190 184 205 201 196 192 187 181 203 198 194 189 184 178 201 196 191 186 181 176 198 194 189 184 179 173 196 192 187 182 177 171 195 190 185 180 175 169 193 188 184 179 173 167 191 187 182 177 171 165 190 185 181 175 170 164 189 184 179 174 168 162 179 174 169 164 158 151 170 165 159 153 147 139 161 155 150 143 135 125 152 146 139 132 122 100 Tabelas 333 TABELA 5 Valores de F para cx 10 segundo o número de graus de liberdade do numerador e do denominador ri de g 1 do denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 00 Número de graus de liberdade do numerador 1 2 3 4 5 6 7 8 399 495 536 558 853 900 916 924 554 546 539 534 454 432 419 411 406 378 362 352 378 346 329 318 359 326 307 296 346 311 292 281 336 301 281 269 329 292 273 261 323 286 266 254 318 281 261 248 314 276 256 243 310 273 252 239 307 270 249 236 305 267 246 233 303 264 244 231 301 262 242 229 299 261 240 227 297 259 238 225 296 257 236 223 295 256 235 222 294 255 234 221 293 254 233 219 292 253 232 218 291 252 231 217 290 251 230 217 289 250 229 216 289 250 228 21 5 288 249 228 214 284 244 223 209 279 239 218 204 275 235 213 199 271 230 208 194 572 929 531 405 345 311 288 273 261 252 245 239 235 231 227 224 222 220 218 216 214 213 211 210 209 208 207 206 206 205 200 195 190 185 582 589 933 935 528 527 401 398 340 337 305 301 283 278 267 262 255 251 246 241 239 234 233 228 228 223 224 219 221 216 218 213 215 210 213 208 211 206 209 204 208 202 206 201 205 199 204 198 202 197 201 196 200 195 200 194 199 193 198 193 193 187 187 182 182 177 177 172 594 937 525 395 334 298 275 259 247 238 230 224 220 2 15 2 12 209 206 204 202 200 198 197 195 194 193 192 191 190 189 188 183 177 172 167 9 599 938 524 394 332 296 272 256 244 235 227 221 216 212 209 206 203 200 198 196 195 193 192 191 189 188 187 187 186 185 179 174 168 163 continua 3 3 4 Introdução à Bioestatística Continuação da Tabela 5 fl de g 1 do Número de graus de liberdade do numerador denominador 10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 00 120 602 607 612 617 939 941 942 944 523 522 520 5 18 392 390 387 384 330 327 324 321 294 290 287 284 270 267 263 259 254 250 246 242 242 238 234 230 232 228 224 220 225 221 217 212 219 215 210 206 2 14 2 10 205 201 2 1 o 205 201 196 206 202 197 192 203 199 194 189 200 196 191 186 198 193 189 184 196 191 186 181 194 189 184 179 192 188 183 178 190 186 181 176 189 184 180 174 188 183 178 173 187 182 177 172 186 181 176 171 185 180 175 170 184 179 174 169 183 178 173 168 182 177 172 167 176 171 166 161 171 166 160 154 165 160 155 148 160 155 149 142 Fonte SCHEFFÉ 1959 620 623 625 628 63 1 633 945 946 947 947 948 949 518 517 516 515 514 513 383 382 380 379 378 376 319 317 316 314 312 310 282 280 278 276 27 4 272 258 256 254 251 249 247 240 238 236 234 232 229 228 225 223 221 218 216 218 216 213 2 11 208 206 2 10 208 205 203 200 197 204 201 199 196 193 190 198 196 193 190 188 185 194 191 189 186 183 180 190 187 185 182 179 176 187 184 181 178 175 172 184 181 178 175 172 169 181 178 175 172 169 166 179 176 173 170 167 163 177 174 171 168 164 161 175 172 169 166 162 159 173 170 167 164 160 157 172 169 166 162 159 155 170 167 164 161 157 153 169 166 163 159 156 152 168 165 161 158 154 150 167 164 160 157 153 149 166 163 159 156 152 148 165 162 158 155 151 147 164 161 157 154 150 146 157 154 151 147 142 138 151 148 144 140 135 129 145 141 137 132 126 119 138 134 130 124 117 100 Tabelas 335 TABELA 6 Valores de t segundo os graus de liberdade e o valor de a X Graus de liberdade 10o 56 1o 1 631 1271 6366 2 292 430 992 3 235 318 584 4 213 278 460 5 202 257 403 6 194 245 371 7 190 236 350 8 186 231 336 9 183 226 325 10 181 223 317 11 180 220 311 12 178 218 306 13 177 216 301 14 176 214 298 15 175 213 295 16 175 212 292 17 174 211 290 18 173 210 288 19 173 209 286 20 173 209 284 21 172 208 283 22 172 207 282 23 171 207 281 24 171 206 280 25 171 206 279 26 171 206 278 27 170 205 277 28 170 205 276 29 170 204 276 30 170 204 275 40 168 202 270 60 167 200 266 120 166 198 262 00 164 196 258 TABELA 7 Valores da amplitude total estudentizada q para a 5o segundo o número de tratamento k os graus de liberdade do resíduo fl1 de graus 5 de lib do Número de tratamentos k S o resíduo 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ê O Cllt o 1 80 270 328 371 404 431 454 474 491 ffi6 520 532 543 554 563 572 580 588 596 ai OJ 2 608 833 980 109 117 124 130 135 140 144 147 151 154 157 159 161 164 166 168 õ CD 3 450 591 682 750 804 848 885 918 946 972 995 102 103 105 107 108 110 11 1 112 6i 4 393 504 576 629 671 705 735 760 783 803 821 837 852 866 879 891 903 913 923 52 Q 5 364 460 522 567 603 633 658 680 699 7 17 732 747 760 772 783 793 803 812 821 6 346 434 490 530 563 590 612 632 649 665 679 692 703 714 724 734 743 751 759 7 334 416 468 506 536 561 582 600 616 630 643 655 666 676 685 694 702 710 717 8 326 404 453 489 517 540 560 577 592 605 618 629 639 648 657 665 673 680 687 9 320 395 441 476 502 524 543 559 574 587 598 609 619 628 636 644 651 658 664 10 315 388 433 465 491 512 530 546 560 572 583 593 603 6 11 619 627 634 640 647 11 311 382 426 457 482 503 520 535 549 561 571 581 590 598 606 613 620 627 633 12 308 377 420 451 475 495 512 527 539 551 561 571 580 588 595 602 609 615 621 13 306 373 415 445 469 488 505 519 532 543 553 563 571 579 586 593 599 605 611 14 303 370 411 441 464 483 499 513 525 536 546 555 564 571 579 585 591 597 603 TABELA 7 cont Valores da amplitude total estudentizada q para a 5o segundo o número de tratamento k os graus de liberdade do resíduo ft de graus de lib do resíduo 15 16 17 18 19 20 24 30 40 60 120 00 Número de tratamentos k 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2JJ 301 367 408 437 459 478 494 508 520 531 540 549 557 565 572 578 585 590 596 300 365 405 433 456 474 490 503 515 526 535 544 552 559 566 573 579 584 590 298 363 402 430 452 470 486 499 511 521 531 539 547 554 561 567 573 579 584 297 361 400 428 449 467 482 496 507 517 527 535 543 550 557 563 569 574 579 296 359 398 425 447 465 479 492 504 514 523 531 539 546 553 559 565 570 575 295 358 396 423 445 462 477 490 501 511 520 528 536 543 549 555 561 566 571 292 353 390 417 437 454 468 481 492 501 510 518 525 532 538 544 549 555 559 289 349 286 344 283 340 280 336 277 331 385 410 430 446 460 472 482 492 500 508 515 521 379 404 423 439 452 463 473 482 490 498 504 511 374 398 416 431 444 455 465 473 481 488 494 500 368 392 410 424 436 447 456 464 471 478 484 490 363 386 403 417 429 439 447 455 462 468 474 480 527 533 538 543 547 5 16 522 527 531 536 506 511 515 520 524 495 500 504 509 513 485 489 493 497 501 Fonte SCHEFFt 1959 Qjl it CD êii TABELA 8 Valores da amplitude total estudentizada q para a 10o segundo o número de tratamento k e os graus de liberdade do resíduo N9 de graus 5 de lib do Número de tratamentos k S o resíduo 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 aJ ê O Cllt o 1 893 134 164 185 202 215 226 236 245 252 259 265 271 276 281 285 290 293 297 ai OJ 2 413 573 677 754 814 863 905 941 972 100 103 105 107 109 111 112 114 115 117 õ CD 3 333 447 520 574 616 651 681 706 729 749 767 783 798 812 825 837 848 858 868 6i 4 301 398 459 503 539 568 593 614 633 649 665 678 691 702 713 723 733 741 750 52 Q 5 285 372 426 466 498 524 546 565 582 597 610 622 634 644 654 663 671 679 686 6 275 356 407 444 473 497 517 534 550 564 576 587 598 607 616 625 632 640 647 7 268 345 393 428 455 478 497 514 528 541 553 564 574 583 591 599 606 613 619 8 263 337 383 417 443 465 483 499 513 525 536 546 556 564 572 580 587 593 600 9 259 332 376 408 434 454 472 487 501 513 523 533 542 551 558 566 572 579 585 10 256 327 370 402 426 447 464 478 491 503 513 523 532 540 547 554 561 567 573 11 254 323 366 396 420 440 457 471 484 495 505 515 523 531 538 545 551 557 563 12 252 320 362 392 416 435 451 465 478 489 499 508 516 524 531 537 544 549 555 13 250 318 359 388 412 430 446 460 472 483 493 502 510 518 525 531 537 543 548 14 249 316 356 385 408 427 442 456 468 479 488 497 505 512 519 526 532 537 543 TABELA 8 cont Valores da amplitude total estudentizada q para a 10o segundo o número de tratamento k e os graus de liberdade do resíduo fl1 de graus de lib do Número de tratamentos k resíduo 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 aJ 15 248 314 354 383 405 423 439 452 464 475 484 493 501 508 515 521 527 532 538 16 247 312 352 380 403 421 436 449 461 471 481 489 497 504 511 517 523 528 533 17 246 3 11 350 378 400 418 433 446 458 468 477 486 493 501 507 513 519 524 530 18 245 310 349 377 398 416 431 444 455 465 475 483 490 498 504 510 516 521 526 19 245 309 347 375 397 414 429 442 453 463 472 480 488 495 501 507 513 518 523 20 244 308 346 374 395 412 427 440 451 461 470 478 485 492 499 505 510 516 520 24 242 305 342 369 390 407 421 434 444 454 463 471 478 485 491 497 502 507 5 12 30 240 302 339 365 385 402 416 428 438 447 456 464 471 477 483 489 494 499 503 40 238 299 335 360 380 396 410 421 432 441 449 456 463 469 475 481 486 490 495 60 236 296 331 356 375 391 404 416 425 434 442 449 456 462 467 473 478 482 486 120 234 293 328 352 371 386 399 410 419 428 435 442 448 454 460 465 469 474 478 00 233 290 324 348 366 381 393 404 413 421 428 435 441 447 452 457 461 465 469 Fonte SCHEFFt 1959 Qjl it CD êii página deixada intencionalmente em branco Sugestões para leitura ALIAGA M e GUNDERSON B Interactive Statistics New Jersey Prentice Hall 2 ed 2003 ARMITAGE P Statistical methods in medical research Oxford Blackwel Scientific Publications 1971 BLAND M An introduction to medical statistics Oxford Oxford Medical Publications 1987 BROWN BW e HOLLANDER M Statistics a biomedical introduction New York Wiley 1977 BISHOP VMM et alii Discrete multivariate analysis theory and practice Cambridge MIT Press 1977 BUSSAB We MORETIIN P A Estatística Básica São Paulo Saraiva 2002 COCHRAN W Sampling techniques New York Wiley 1977 CHOW S C e LIU JL Design and analysis of clinical trials New York Wiley 2004 DANIEL C Applications of Statistics New York Wiley 1976 DANIEL W W Biostatistics a foundation for analysis in the health sciences New York Wiley 1987 DAWSON B TRAPP RG Bioestatística básica e clínica Rio de Janeiro McGraw 3 ed 1994 DEAN A VOSS D Design and analysis of experiments New York Springer 1999 ELSTON RC e JOHNSON WD Essentials of biostatistics Philadelphia FA Davis Company 1987 FREUND J E E SMITH R M Statistics a first course Englewood Cliffs Prentice Hall 4 ed 1986 GLANTZ SA Primer of biostatístics New York McGraw 1987 JOHNSON R E TSUI K W Statistical reasoning and methodsNova York Wiley 1998 LOHR S L Sampling Design and analysis Pacific Grave Brooks1999 MATTHEWS DE e FAREWELL V Using and understanding medical statistics New York Karger 1985 MINIUM E W CLARKE R C COLADARCI T Elements of Statistical Reasoning New York Wiley 2 ed1999 MOTULSKY H Intuitive Biostatistics New York Oxford Press 1995 OTT L e Mendenhall W Understanding Statistics Belmont Wadsworth 6 ed1994 342 Introdução à Bioestatfstica SCHORK M A e REMINGTON R D Statistics with applications to the biological and health sciences New Jersey Frentice Hall 3 ed 2000 VIEIRA S Elementos de Estatística São Paulo Atlas 5 ed 2003 VIEIRA S Bioestatística Tópicos Avançados Rio de Janeiro Campus Elsevier 2 ed5ª tiragem2008 VIEIRA S E HOSSNE W S Metodologia cientifica para a área de saúde São Paulo Rio de Janeiro CampusElsevier VIEIRA S Análise de variância São Paulo Atlas2006 VIEIRA S e HOSSNE W S Experimentação com seres humanos São Paulo Moderna 3 ed 1988 ZAR J H Biostatistical analysis New Jersey Frentice Hall 4ed 1999 A Amostra 4 aleatória estratificada 6 aleatória ou probabilística 5 9 nãoprobabilística ou de conveniência 9 nãorepresentativa 13 por conglomerados 7 9 por quotas 8 9 razões de trabalhar com 45 representativa 13 semiprobabilística 6 sistemática 7 9 tendenciosa 13 Amplitude 34 87 Apresentação de dados numéricos 31 56 Apresentação de dados qualitativos 28 49 Apuração de dados 24 Áreas sob a curva normal 210 Associação positiva 259 e Cabeçalho tabela 26 Cálculo de probabilidade 164 Cálculo de probabilidade condicional 171 Cálculo de probabilidades na distribuição binomial 194 Cálculo do intervalo de confiança para uma média 236 Cálculo do intervalo de confiança para uma proporção 230 231 Cálculo do número de classes 3 7 Cálculo dos coeficientes de regressão 139 Caracterização da distribuição binomial 192 Caudas da distribuição 213 Classe modal 76 Coeficiente angular da reta 137 Coeficiente de correlação 115 Coeficiente de correlação de Pearson 115 Coeficiente de determinação 143 144 145 Coeficiente de variação 98 Coeficiente de Yule 259 Coeficientes de associação 259 Coeficientes de regressão cálculo dos 139 Coluna indicadora tabela 26 Colunas tabela 26 Comparação de variâncias 281 Componentes das tabelas 26 Condição de independência 167 Corpo tabela 26 lndice Correlação 185 de Pearson coeficiente de 115 forte 111 112 fraca 111 112 negativa 109 nula 113 perfeita 111 112 positiva 109 Cuidados na interpretação dos intervalos de confiança 237 D Dados 23 Dados contínuos 33 Dados discrepantes 7 4 Dados discretos 32 Dados numéricos apresentação de 31 56 Dados qualitativos apresentação de 28 Dados apuração de 24 Desvio padrão 95 209 211 212 Desvio padrão da amostra 93 Diagrama de caixa Box plot 91 Diagrama de dispersão 109 149 Diagrama de linhas 56 Dispersão 87 Dispersão relativa 98 Distãncia interquartílica 90 Distribuição binomial 189 193 194 cálculo de probabilidades na 194 caracterização da 192 média na 194 variãncia na 194 Distribuição de freqüências 189 Distribuição de Gauss 208 Distribuição de probabilidades 187 188 Distribuição normal 208 209 padronizada 213 reduzida 213 usos da 219 Distribuição teórica 208 Distribuições empíricas 207 E Ensaio com dados pareados 272 Equação da reta 13 7 Erro 249 Erro padrão da média 233 236 239 Erro tipo 1 249 Erros definindo os 249 344 lnd1ce Escolha da variâvel explanatória 142 Espaço amostral 163 Estatística definição 3 1 O Estimativas de probabilidade 209 freqüência relativa como 164 165 Evento 163 Evento certo 164 Evento impossivel 164 Eventos dependentes 175 Eventos independentes 166 168 174 175 diferença de eventos mutuamente exclusivos 170 Eventos mutuamente exclusivos 166 diferença de eventos independentes 170 Extrapolação 140 Extremos de classe 35 F Fonte e notas tabela 27 Freqüência esperada 253 Freqüência relativa 29 30 como estimativa de probabilidade 164 165 G Gráfico de barras 49 com 3 D 52 com grades 51 com percentuais nas barras 51 horizontais 52 Gráfico de linhas 133 Gráfico de pontos 57 Gráfico de setores 54 em 3D 55 Grau de associação 259 Grau de correlação linear 115 Graus de liberdade 95 238 H Hipótese alternativa 248 Hipótese da nulidade 248 Hipóteses 247 Histograma 5 7 58 Inferência 248 Inferência estatistica 249 Interpretando o pvalor 250 Intervalo de classe 34 Intervalo de confiança l cuidados na interpretação dos 237 para uma média 233 para urna proporção 230 Levantamento de dados 3 limites dos intervalos de classe 35 Linhas tabela 26 M Margem de erro 12 229 232 Máximo 87 Média 185 209 211 212 229 Média aritmética 68 Média da amostra 68 Média da população 239 Média dos quadrados dos desvios 95 Média na distribuição binomial 194 Mediana da amostra 74 Medida da associação 259 Medida de variabilidade 87 Medidas de tendência central 67 Mínimo 87 Moda da amostra 75 N Nível de confiança 12 Nível de significância 256 Nível de significância do teste 253 Notação de somatório 68 Número de classes 3 7 p Parâmetros definição 10 Polígono de freqüências 58 População 4 População infinita 209 Precisão 236 Probabilidade associada à distribuição normal 213 cálculo de 164 condicional 170 171 172 definição clássica de 163 distribuição de 187 188 na distribuição normal reduzida 215 216 na distribuição normal 216 217 Proporção freqüência relativa 29 pvalor 250 Q Qualidade de uma estimativa 11 Quartil 89 R Regra do e 167 174 Regra do ou 166 173 Regressão linear simples 151 múltipla 151 nãolinear 147 Relação nãolinear entre duas variâveis 114 Relações determinísticas 144 Relações entre variáveis 109 Relações probabilísticas 144 Representatividade 13 Reta de regressão 135 traçado da 140 s Soma de quadrados dos desvios 94 Somatório notação de 68 T Tabela de distribuição de freqüências 28 Tabela de distribuição de t 238 Tabela de distribuição normal reduzida 214 Tabelas 2 X 2 256 Tabelas de contingência 30 Tabelas de distribuição de freqüências 32 33 Tabelas componentes das 26 Tamanho da amostra 11 Tendência 13 Tendência central medidas de 67 Teorema da soma 173 Teorema do produto 174 Teoria das probabilidades 164 Teste de X2 para independência 256 258 Teste de aderência 252 Teste de hipóteses 247 Teste F 281 283 Teste t na comparação de dois grupos independentes 279 Índice 345 para dados pareados 272 para o coeficiente de correlação 285 Testes bilaterais 276 Testes unilaterais 276 Título tabela 26 Traçado da reta de regressão 140 Traços horizontais tabela 27 Traços verticais tabela 27 Transformação logarítmica 150 V Valor máximo 34 Valor mínimo 34 Variabilidade 87 185 236 Variãncia 93 94 da média 234 na distribuição binomial 194 desiguais 281 Variável categorizada 23 contínua 24 dependente 133 discreta 24 explanatória 133 nominal 24 numérica 23 ordinal 24 qualitativa 23 quantitativa 23 Variável aleatória 185
Send your question to AI and receive an answer instantly
Recommended for you
132
Bioestatistica-Medidas de Tendencia Central-Conceitos e Aplicacoes
Bioestatística
UECE
79
Bioestatistica-Apresentacao-Graficos-Tabelas-Amostragem-e-Tipos-de-Variaveis
Bioestatística
UECE
171
Bioestatistica para Medicina Veterinaria - Introducao Conceitos e Importancia
Bioestatística
UECE
1
Bioestatistica-Medidas de Posicao em Equinos Mangalarga
Bioestatística
CESCAGE
11
Bioestatística - Avaliação de Protocolos Anestésicos em Cães e Métodos de Castração em Caprinos
Bioestatística
IFPB
2
Lista de Exercicios Resolvidos - Distribuição de Probabilidade e Calculo Amostral
Bioestatística
USS
2
Programa Past
Bioestatística
UEMA
4
Exercícios Resolvidos Estatística Descritiva Salário Mínimo e Histogramas
Bioestatística
UFRRJ
1
Formulário Estatística Descritiva e Probabilidade - Resumo Completo
Bioestatística
UFRRJ
2
Prova Bioestatística - Análise de Variância e Correlação em Estudos Veterinários
Bioestatística
IFPB
Preview text
INTRODUÇÃO À Bioestatística SONIA VIEIRA 4ª EDIÇÃO ELSEVIER AVISO LEGAL Caso esta Obra na versão impressa possua quaisquer materiais complementares tais como CDs eou DVDs ou recursos online estes serão disponibilizados na versão adquirida a partir da Biblioteca Digital através do ícone Recursos Extras dentro da própria Biblioteca Digital Introdução à Bioestatística 4ª EDIÇÃO Sonia Vieira Professora Titular de Bioestatística da Unicamp ELSEVIER 2008 Elsevier Editora Ltda Todos os direitos reservados e protegidos pela Lei 9610 de 19021998 Nenhuma parte deste livro sem autorização prévia por escrito da editora poderá ser reproduzida ou transmitida sejam quais forem os meios empregados eletrônicos mecânicos fotográficos gravação ou quaisquer outros Capa fllio Design Editoração Eletrônica Rosane Guedes Esevier Editora Ltda Rua Sete de Setembro 111 16º andar 20050006 Centro Rio de Janeiro RJ Brasil Telefone 21 39709300 Fax 21 25071991 Emall infoelseviercombr Escritório São Paulo Rua Quintana 753 8 andar 04569011 Brooklin São Paulo SP Brasil Telefone 11 51058555 Conheça nosso catálogo completo cadastrese em wwwelseviercombr para ter acesso a conteúdos e serviços exclusivos e receber informações sobre nossos lançamentos e promoções NOTA O conhecimento médico está em permanente mudança Os cuidados normais de segurança devem ser seguidos mas como as novas pesquisas e a experiência clinica ampliam nosso conhecimento alterações no tratamento e terapia à base de drogas podem ser necessárias ou apropriadas Os leitores são aconselhados a checar informações mais atuais dos produtos fornecidas pelos fabricantes de cada droga a ser administrada para verificar a dose recomendada o método e a duração da administração e as contraindicações É responsabilidade do médico com base na experiência e contando com o conhecimento do paciente determinar as dosagens e o melhor tratamento para cada um individualmente Nem o editor nem o autor assumem qualquer responsabilidade por eventual dano ou perda a pessoas ou a propriedade originada por esta publicação ISBN 9788535250121 CIPBRASIL CATALOGAÇÃONAFONTE SINDICATO NACIONAL DOS EDITORES DE LlVROS RJ V718i Vieira Sonia 1942 Introdução à bioestatística recurso eletrônico Sonia Vleira Rio de Janeiro Esevier 2011 345 p recurso digital il Formato Flash Requisitos do sistema Adobe Flash Player Modo de acesso Word Wide Web Apêndice Inclui bibliografia e Indice ISBN 9788535250121 recurso eletrônico 1 Bioestatistica 2 Livros eletrônicos I Título 117080 211011 271011 CDD 57015195 CDU 570871 030757 O Editor Prefácio Bioestatística é a Estatística aplicada às ciências da saúde Profissionais e alunos dessas áreas querem aprender técnicas estatísticas porque elas são muito usadas na pesquisa como bem mostra a literatura especializada Mas Estatística é ciên cia complexa que não se aprende com a simples busca de um termo na Internet É difícil aprender Estatística Sim e não Aprender a fazer cálculos estatísticos usan do programas de computador não é difícil embora exija tempo interesse e aten ção Entretanto a condução e a avaliação de uma pesquisa dependem em boa par te do conhecimento do pesquisador sobre as potencialidades e as limitações das técnicas utilizadas E entre o cálculo e a interpretação do resultado há um cami nho a percorrer Este livro foi então escrito e reescrito muitas vezes na tentativa de facilitar a aprendizagem Buscamos explicar sempre a indicação e as restrições das técni cas ensinadas Os conceitos são transmitidos mais pela intuição do que por demons tração os exemplos são simples e das áreas da saúde e os exercícios exigem pouco trabalho de cálculo É grande a quantidade de exemplos e o número de exercíci os mais do que dobrou em relação à edição anterior para bem ilustrar as técni cas aprendidas A leitura do texto exige os conhecimentos de matemática que são exigidos em exames vestibulares De qualquer modo as seções que envolvem maior aptidão para a matemática foram assinaladas com asterisco Tais seções podem ser evitadas sem prejuízo do entendimento das subseqüentes Os cálculos podem ser feitos à mão ou com calculadora Alunos de cursos avançados de Estatística usam rotineiramen te um computador mas acreditamos que é preciso manusear fórmulas para enten der os conceitos básicos de Estatística Não há como ter completa segurança na discussão de uma média aritmética por exemplo sem nunca ter usado papel e lá pis para calcular esse tipo de estatística Assim sem despender muito tempo com cálculos e demonstrações o estudante adquíre neste livro conhecimentos su ficientes para tomarse usuário competente das técnicas estatísticas mais comuns Uma conseqüência importante de aprender Estatística mais importante do que possa parecer à primeira vista é a familiarização com o jargão próprio da área Alguns termos do vocabulário comum têm significado técnico e específico quando usados em Estatística É claro que o conhecimento do significado comum ajuda mas pode conduzir à interpretação errada quando substitui o significado técnico Essa 4ª edição de Introdução à Bioestatística totalmente revista e ampliada só foi possível porque o livro encontrou aceitação no meio acadêmico Agradecemos rv Prefácio pois a todos aqueles que prestigiaram nosso trabalho mas principalmente aos alunos que nos ensinaram a ensinar Importante porém é o fato de esse livro ter tido a revisão competente e altamente especializada de Martha Maria Mischan Ronaldo Wada fez alguns dos vários gráficos Márcio Vieira Hoffmann fez uma lei tura crítica dos originais e William Saad Hossne escreveu a 4ª capa Mas há tam bém que agradecer ao Centro de PósGraduação São Leopolde Mandic pela opor tunidade de trabalho A autora CAPÍTULO 1 NOÇÕES SOBRE AMOSTRAGEM 1 11 O que é Estatística 3 12 O que é população e o que é amostra 4 13 Por que se usam amostras 4 14 Como se obtém uma amostra 5 141 Amostra aleatória ou probabilística 5 142 Amostra semiprobabilística 6 1421 Amostra sistemática 7 1422 Amostra por conglomerados 7 1423 Amostra por quotas 8 143 Amostra não probabilística ou de conveniência 9 144 Avaliação das técnicas de amostragem 9 15 Estatísticas e parâmetros 10 16 Com quantas unidades se compõe uma amostra 11 1 7 A questão da representatividade 13 18 Exercícios resolvidos 14 1 9 Exercícios propostos 17 Sumário CAPÍTULO 2 APRESENTAÇÃO DE DADOS EM TABELAS 21 21 Dados e variáveis 23 22 Apuração de dados 24 23 Componentes das tabelas 26 24 Apresentação de dados qualitativos 28 25 Tabelas de contingência 30 26 Apresentação de dados numéricos 31 2 7 Exercícios resolvidos 38 28 Exercícios propostos 41 v1 Sumário CAPÍTULO 3 APRESENTAÇÃO DE DADOS EM GRÁFICOS 47 3 1 Apresentação de dados qualitativos 49 311 Gráficos de Barras 49 312 Gráfico de setores 54 32 Apresentação de dados numéricos 56 321 Diagrama de linhas 56 322 Gráfico de pontos 57 323 Histograma 57 324 Polígono de freqüências 58 33 Observações 59 34 Exercícios resolvidos 60 35 Exercícios propostos 62 CAPÍTULO 4 MEDIDAS DE TENDÊNCIA CENTRAL 65 41 Símbolos matemáticos 67 42 Média da amostra 68 43 Mediana da amostra 7 4 44 Moda da amostra 75 45 Exercícios resolvidos 77 46 Exercícios propostos 80 CAPÍTULO 5 MEDIDAS DE DISPERSÃO PARA UMA AMOSTRA 85 51 Mínimo máximo e amplitude 87 52 Quartil 89 521 Diagrama de caixa Box plot 91 53 Desvio padrão da amostra 93 531 Introduzindo a variância 93 532 Definindo o desvio padrão 95 533 Uma fórmula prática para calcular a variância 97 54 Coeficiente de variação 98 55 Exercícios resolvidos 99 56 Exercícios propostos 104 CAPÍTULO 6 NOÇÕES SOBRE CORRELAÇÃO 107 6 1 Diagrama de dispersão 109 62 Coeficiente de correlação 115 63 Pressuposições 119 64 Cuidados na interpretação do coeficiente de correlação 119 65 Exercícios resolvidos 120 66 Exercícios propostos 124 CAPÍTULO 7 NOÇÕES SOBRE REGRESSÃO 131 7 1 Gráfico de linhas 133 7 2 Reta de regressão 135 7 3 Escolha da variável explanatória 142 7 4 Coeficiente de determinação 143 7 5 Uma pressuposição básica 145 76 Outros tipos de regressão 147 77 Exercícios resolvidos 151 78 Exercícios propostos 155 CAPÍTULO 8 NOÇÕES SOBRE PROBABILIDADE 161 81 Definição clássica de probabilidade 163 82 Freqüência relativa como estimativa de probabilidade 164 83 Eventos mutuamente exclusivos e eventos independentes 166 831 Eventos mutuamente exclusivos 166 832 Eventos independentes 166 8321 Conjuntos 166 8322 Condição de independência 167 8323 Diferença nos conceitos 170 84 Probabilidade condicional 170 85 Teorema da soma ou a regra do ou 173 86 Teorema do produto ou a regra do e 174 87 Exercícios resolvidos 176 88 Exercícios propostos 180 Sumário v11 vm Sumário CAPÍTULO 9 DISTRIBUIÇÃO BINOMIAL 183 9 1 Variável aleatória 185 911 Variável aleatória binária 186 912 Variável aleatória binomial 186 92 Distribuição de probabilidades 187 9 3 Distribuição binomial 189 931 Caracterização da distribuição binomial 192 932 Função de distribuição na distribuição binomial 192 933 Média e variância na distribuição binomial 194 94 Revisão sobre análise combinatória 195 95 Exercícios resolvidos 195 96 Exercícios propostos 202 CAPÍTULO 1 O DISTRIBUIÇÃO NORMAL 205 101 Características da distribuição normal 209 102 Distribuição normal reduzida 213 103 Probabilidades na distribuição normal 216 104 Usos da distribuição normal 219 105 Exercícios resolvidos 221 106 Exercícios propostos 224 CAPÍTULO 11 INTERVALO DE CONFIANÇA 227 111 Intervalo de confiança para uma proporção 230 1111 Cálculo do intervalo de confiança para uma proporção 1112 Pressuposições 231 1113 A margem do erro 232 112 Intervalos de confiança para uma média 233 1121 Erro padrão da média 233 1122 Cálculo do intervalo de confiança para uma média 236 113 Cuidados na interpretação dos intervalos de confiança 237 114 Pequenas amostras 237 115 Exercícios resolvidos 240 116 Exercícios propostos 242 CAPÍTULO 12 TESTE DE QUlQUADRADO 245 121 Teste de X2 de Pearson para aderência 252 1211 Resumo do procedimento 255 122 Tabelas 2 x 2 256 1221 Teste de X2 para independência 256 1222 Usos e restrições do teste de X2 258 1223 Medida de associação 259 123 Exercícios resolvidos 260 124 Exercícios propostos 265 CAPÍTULO 13 TESTE t DE STUDENT 269 131 O teste r nos estudos com dados pareados 272 1311 Testes unilaterais e testes bilaterais 276 132 O teste t na comparação de dois grupos independentes 279 1321 O caso das variâncias desiguais 281 133 O teste t para o coeficiente de correlação 285 134 Exercícios resolvidos 286 135 Exercícios propostos 290 Respostas aos Exercícios Propostos 295 Tabelas 325 Sugestões para leitura 341 Índice Remissivo 343 Sumário 1x página deixada intencionalmente em branco Noções sobre Amostragem 1 página deixada intencionalmente em branco Capítulo 1 Noções sobre Amostragem 3 Grande parte das pessoas que conhecemos já ouviu falar de prévias eleito rais de censo de pesquisa de opinião A maioria das pessoas que conhe cemos já respondeu perguntas sobre a qualidade dos serviços de um bar ou de uma lanchonete já assistiu no rádio ou na televisão programas em que pedem para o ouvinte ou telespectador votar em um cantor ou em uma música ou dar opinião sobre determinado assunto por telefone ou por email O uso tão difundido de levantamento de dados que no Brasil chama mos popularmente de pesquisa faz pensar que esse é um trabalho fá cil Por conta disso ao ler um relatório de pesquisa no jornal da cidade muita gente se acha capaz de fazêlo e até melhor pois entende que para levantar dados basta fazer perguntas e depois contar as respostas Mas não é bem assim Um bom levantamento de dados exige conhecimentos de Estatística 11 0 QUE É ESTATÍSTICA 1 Para muitas pessoas a palavra Estatística lembra números Elas têm razão em parte a Estatística trata de números mas trata também de outras coisas Estatística é a ciência que fornece os princípios e os métodos para coleta organização resumo análise e interpretação de dados Dados corretamente coletados fornecem conhecimentos que não seriam obtidos por simples especulação Mas nem sempre é possível levantar todos os dados Um exemplo disso são as prévias eleitorais que fornecem as es timativas da porcentagem de votos em cada candidato As prévias são fei tas regularmente e publicadas Mas quem são as pessoas que os institutos de pesquisa devem entrevistar Se estivermos pensando em eleições presidenciais a idéia seria entre vistar todos os portadores de título de eleitor do Brasil Mas como as pré vias eleitorais são feitas com freqüência não é possível entrevistar todos os eleitores incluindo você e eu a cada 10 dias por exemplo para conhe cer as intenções de voto de todos nós Então as prévias eleitorais são fei tas com pequeno número de eleitores de 1500 a 3000 É o que chamamos de amostra 4 Introdução à Bioestatística 12 0 QUE É POPULAÇÃO E O QUE É AMOSTRA População ou universo é o conjunto de unidades sobre o qual desejamos obter informação Amostra é todo subconjunto de unidades retiradas de uma população para obter a informação desejada É importante entender que população é o termo que os estatísticos usam para descrever um grande conjunto de unidades que têm algo em comum Na área de saúde a população pode ser constituída por pacientes ou por animais mas também pode ser constituída por radiografias por prontuá rios por necropsias por contas hospitalares por certidões de óbito A distinção entre os dados realmente coletados amostra e a vasta quan tidade de dados que poderiam ser observados população é a chave para o bom entendimento da Estatística O uso de amostras permite obter res postas razoáveis com margem de erro conhecida Considere a questão das prévías eleitorais Os resultados desde que obtidos de amostras repre sentativas são confiáveis Na maioria das vezes a predição do ganhador da eleição é correta O levantamento de dados de toda a população chamase censo A Fun dação Instituto Brasileiro de Geografia e Estatística IBGE faz o Censo De mográfico do Brasil a cada 10 anos por exigência da Constituição da Re pública Federativa do Brasil São coletadas informações sobre sexo idade e nível de renda de todos os residentes no Brasil 13 POR QUE SE USAM AMOSTRAS As razões que levam os pesquisadores a trabalhar com amostras e não com toda a população são poucas mas absolutamente relevantes Custo e demora dos censos Populações muito grandes Impossibilidade física de examinar toda a população Comprovado valor científico das informações coletadas por meio de amostras A primeira razão para estudar uma amostra em lugar de toda a popu lação é a questão do custo e da demora dos censos Por exemplo qual é em média o peso ao nascer de nascidos vívos no Brasil em determinado ano Avaliar toda a população pode ser impossível para o pesquisador por que levaria muito tempo e seria muito caro Outra razão para estudar amostras é o fato de existirem populações tão grandes que estudálas por inteiro seria impossível Por exemplo quantos Capítulo 1 Noções sobre Amostragem 5 peixes tem o mar Esse número é em determinado momento matematica mente finito mas tão grande que pode ser considerado infinito para qual quer finalidade prática Então quem faz pesquisas sobre peixes do mar tra balha necessariamente com amostras Outras vezes é impossível estudlar toda a população porque o estudo des trói as unidades Uma empresa que fabrica fósforos e queira testar a qua lidade do produto que fabrica não pode acender todos os fósforos que fa bricou mas apenas alguns deles O uso de amostras tem ainda outra razão o estudo cuidadoso de uma amostra tem maior valor científico do que o estudo sumário de toda a po pulação Imagine como exemplo que um pesquisador queira estudar os hábitos de consumo de bebidas alcoólicas entre adolescentes de uma grande cidade É melhor que o pesquisador faça a avaliação criteriosa de uma amos tra do que a avaliação sumária de toda a população de adolescentes da cidade 14 COMO SE OBTÉM UMA AMOSTRA Antes de obter uma amostra é preciso definir os critérios que serão usa dos para selecionar as unidades que comporão essa amostra De acordo com a técniéa usada temsé um tipo âle àroostrà Serão definidàs àqui amostra aleatória casual ou probabilística amostra semiprobabilística amostra nãoprobabilística ou de conveniência 141 Amostra aleatória ou probabilística A amostra aleatória ou probabilística é constituída por n unidades retira das ao acaso da população Em outras palavras a amostra aleatória é ob tida por sorteio Logo toda unidade da população tem probabilidade conhe cida de pertencer à amostra Para obter uma amostra aleatória é preciso que a população seja co nhecida e cada unidade esteja identificada por nome ou por número Os ele mentos que constituirão a amost ra são escolhidos por sorteio Algumas pessoas acreditam que o sorteio por computador é mais sério ou mais exato Hoje em dia é mais fácil No entanto o sorteio feito com pa peizinhos em uma caixa ou bolas em uma urna usados em programas de televisão ajuda entender as regras do procedimento aleatório Uma amostra aleatória pode ser simples estratificada Introdução à Bioestatística A amostra aleatória simples é obtida por sorteio de uma população cons tituída por unidades homogêneas para a variável que você quer estudar Exemplo 11 Uma amostra aleatória simples Imagine que você precisa obter uma amostra de 2 dos 500 pacientes de uma clínica para entrevistálos sobre a qualidade de atendimento da secretária Qual seria o procedimento para obter uma amostra aleatória simples Solução Para obter uma amostra aleatória de 2 dos 500 pacientes você precisa sortear 1 O Você pode fazer isso da maneira mais antiga e conhecida e também a mais trabalhosa Comece escrevendo o nome de todos os pacientes em pedaços de papel Coloque todos os pedaços de papel em uma urna misture bem e retire um nome Repita o procedimento até ter os nomes dos 10 pacientes que comporão sua amostra A amostra aleatória estratificada é usada quando a população é consti tuída por unidades heterogêneas para a variável que se quer estudar Nesse caso as unidades da população devem ser identificadas depois as unida des similares devem ser reunidas em subgrupos chamados estratos O sor teio é feito dentro de cada estrato Exemplo 12 Uma amostra estratificada Imagine que você precisa obter uma amostra de 2 dos 500 pacientes de uma clí nica para entrevistálos sobre a qualidade de atendimento da secretária Você sus peita que homens sejam mais bem atendidos do que mulheres Aproximadamen te metade dos pacientes é do sexo masculino Você quer obter dados dos dois sexos Qual seria o procedimento Solução Comece separando homens de mulheres Você tem então dois estratos um de homens outro de mulheres Depois você obtém uma amostra aleatória de cada sexo ou cada estrato e reúne os dados dos dois estratos numa só amostra alea tória estratificada 142 Amostra semiprobabilística A amostra semiprobabilística é constituída por n unidades retiradas da po pulação por procedimento parcialmente aleatório Dentre as amostras semiprobabilísticas temos amostra sistemática Capítulo 1 Noções sobre Amostragem 1 amostra por conglomerados amostra por quotas 742 7 Amostra sistemática A amostra sistemática é constituída por n unidades retiradas da população segundo um sistema preestabelecido Por exemplo se você quiser uma amos tra constituída por 18 da população você sorteia um número que caia en tre 1 e 8 Se for sorteado o número 3 por exemplo a terceira unidade nú mero 3 será selecionada para a amostra A partir dai tome sistematica mente a terceira unidade de cada oito em seqüência No caso do exemplo a primeira unidade é 3 Seguem de oito em oito as unidades de números 11 19 27 etc Exemplo 13 Uma amostra sistemática Imagine que você precisa obter uma amostra de 2 dos 500 pacientes de uma clí nica para entrevistálos sobre a qualidade de atendimento da secretária Como você obteria uma amostra sistemática Solução Uma amostra de 2 dos 500 pacientes significa amostra de tamanho 1 O Para ob ter a amostra você pode dividir 500 por 1 O e obter 50 Sorteie então um número entre 1 e 50 inclusive Se sair o número 27 por exemplo esse será o número do primeiro paciente que será incluído na amostra Depois a partir do número 27 conte 50 e chame esse paciente Proceda dessa forma até completar a amostra de 10 pacientes 7422 Amostra por conglomerados A amostra por conglomerados é constituída por n unidades tomadas de al guns conglomerados O conglomerado é um conjunto de unidades que es tão agrupadas qualquer que seja a razão Um asilo é um conglomerado de idosos uma universidade pública é um conglomerado de pessoas com bom nivel socioeconômico um serviço militar é um conglomerado de adultos jovens saudáveis Como exemplo imagine que um dentista quer levantar dados sobre a necessidade de aparelho ortodôntico em crianças de 12 anos Ele pode sortear três escolas de primeiro grau conglomerados e examinar todas as crianças com 12 anos dessas escolas 1 Introdução à Bioestatística Exemplo 14 Uma amostra por conglomerados Um professor de Educação Física quer estudar o efeito da terapia de reposição hormonal uso de hormônios por mulheres depois da menopausa sobre o desem penho nos exercícios Como obteria uma amostra por conglomerados Solução O professor de Educação Física pode sortear duas academias de ginástica da ci dade e avaliar o desempenho das mulheres que freqüentam a academia e já ti veram a menopausa tanto as que fazem como as que não fazem uso da terapia de reposição hormonal para posterior comparação 7423 Amostra por quotas A amostra por quotas é constituída por n unidades retiradas da população segundo quotas estabelecidas de acordo com a distribuição desses elemen tos na população A idéia de quota é semelhante à de estrato com uma di ferença básica você seleciona a amostra por julgamento e depois confir ma as características das unidades amostradas A amostragem por quotas não é aleatória embora muitos pensem que é A grande vantagem é ser relativamente barata Por esta razão é muito usada em levantamentos de opinião e pesquisas de mercado Exemplo 15 Uma amostra por quotas Considere uma pesquisa sobre a preferência de modelo de carro Como se faz uma amostra por quotas Solução Você possivelmente irá entrevistar homens e mulheres com mais de 18 anos que vivem em uma metrópole por exemplo Curitiba na proporção apresentada pelo censo demográfico em termos de sexo idade e renda Você então sai às ruas para trabalhar com a incumbência de entrevistar determinada quota de pessoas com determinadas caracterfsticas Por exemplo você pode ser incumbido de entrevistar 30 homens com mais de 50 anos que recebam mais de seis e menos de 10 salários mínimos Então você deverá julgar pela aparência da pessoa se ela se enquadra nas características descritas homem de mais de 50 anos que ganha entre seis e 10 salários míni mos Se achar que viu a pessoa certa deve fazer a abordagem e depois confir mar as características com perguntas O número de pessoas em determinada quota depende do número delas na população Capítulo 1 Noções sobre Amostragem 9 143 Amostra nãoprobabilística ou de conveniência A amostra nãoprobabilística ou de conveniência é constituída por n unida des reunidas em uma amostra simplesmente porque o pesquisador tem fá cil acesso a essas unidades Assim o professor que toma os alunos de sua classe como amostra de toda a escola está usando uma amostra de conve niência Exemplo 16 Uma amostra nãoprobabilística Imagine que um nutricionista quer entrevistar 50 mães de crianças com idades de 3 e 4 anos para conhecer os hábitos alimentares dessas crianças Como obteria essa amostra Solução Se o nutricionista trabalha em uma escola para obter a amostra de 50 mães de crianças de 3 e 4 anos provavelmente procurará as mães de crianças matricula das na escola em que trabalha 144 Avaliação das técnicas de amostragem As amostras aleatórias exigem que o pesquisador tenha a listagem com todas as unidades da população porque é dessa listagem que serão sorteadas as unidades que comporão a amostra Essa exigência inviabiliza a tomada de amostras aleatórias em grande parte dos casos Por exemplo não é possí vel obter uma amostra aleatória de cariocas simplesmente porque não te mos uma lista com o nome de todos os cariocas A amostra sistemática não exige que a população seja conhecida mas é preciso que esteja organizada em filas em arquivos ou mesmo em ruas como os domicílios de uma cidade Por exemplo para tomar uma amostra dos domicílios de uma cidade partese de um ponto sorteado e tomase de tantos em tantos um domicílio para a amostra A amostra por conglomerados exige livre acesso aos conglomerados o que nem sempre se consegue Um médico pode sortear cinco hospitais da cidade de São Paulo para entrevistar pacientes internados por problemas cardíacos mas díficilmente conseguirá permissão da diretoria de todos esses cinco hospitais para fazer sua pesquisa A amostra por quotas exige algum conhecimento da população mas as unidades não precisam estar numeradas ou identificadas Se você quiser uma amostra de homens e de mulheres empregados de uma grande empresa bas ta saber por exemplo a proporção de homens e mulheres na empresa e amostrar na mesma proporção 11 Introdução à Bioestatística De qualquer forma as amostras probabilísticas são preferíveis do pon to de vista do estatístico mas na prática elas nem sempre são possíveis Na área de saúde o pesquisador trabalha necessariamente com unidades às quais tem acesso ratos de um laboratório universitários pacientes em tratamento no ambulatório da universidade crianças matriculadas em es colas As amostras de conveniência não invalidam a pesquisa mas precisam ser muito bem descritas porque representam apenas a população de indiví duos semelhantes àqueles incluídos na amostra Por essa razão uma enfermeira que usar os dados de um hospital para estimar a probabilidade de morte por desidratação poderá generalizar seus achados apenas para pacientes internados por desidratação Como são internados apenas os casos graves é possível que a mortalidade entre pa cientes internados seja maior do que entre pacientes nãointernados en tão não teria sentido generalizar os achados para todas os pacientes com desidratação 15 ESTATÍSTICAS E PARÂMETROS Já sabemos a diferença entre amostra e população Precisamos agora esta belecer distinção entre valores obtidos da amostra e valores obtidos da população A estatfstica resume uma característica da amostra o parâmetro resume uma característica da população Quando você ouve no noticiário que de acordo com a pesquisa de de terminado instituto 44 dos brasileiros aprovam determinada atitude do Presidente da República você foi apresentado a uma estatística Essa esta tística resume o que as pessoas que compuseram a amostra provavelmen te 1500 ou 2000 pensam da atitude em questão É um indicador ou uma estimativa do parâmetro correspondente a porcentagem da população brasileira que aprovou a atitude Mas não existe garantia de que as estatísticas estimativas obtidas com base nos dados da amostra tenham valor igual ou mesmo próximo do parâmetro valor verdadeiro na população No entanto isto ocorrerá na maioria das vezes desde que a amostra tenha sido obtida de acordo com a técnica correta e tenha sido bem dimensionada o tamanho seja ade quado Capítulo 1 Noções sobre Amostragem 11 16 COM QUANTAS UNIDADES SE COMPÕE UMA AMOSTRA Do ponto de vista do estatístico as amostras devem ser grandes para dar maior confiança às conclusões obtidas Para entender as razões desse pon to de vista imagine que em uma cidade existem dois hospitais1 Em um deles nascem em média 120 bebês por dia e no outro nascem 12 A ra zão de meninos para meninas é em média 50 nos dois hospitais Em uma ocasião nasceu em um dos hospitais duas vezes mais meninos do que meninas Em qual dos hospitais é mais provável que isso tenha ocor rido Para o estatístico a resposta é óbvia é mais provável que o fato te nha ocorrido no hospital em que nasce menor número de crianças A pro babilidade de uma estimativa desviarse muito do parâmetro do valor ver dadeiro é maior quando a amostra é pequena A qualidade de uma estimativa depende em muito do número de unidades que compõe a amostra tamanho da amostra No entanto desde que a população seja muito maior do que a amostra a qualidade da es tatística não depende do tamanho da população De qualquer modo as amostras não devem ser muito grandes porque isso seria perda de recur sos Também não devem ser muito pequenas porque o resultado do traba lho seria de pouca utilidade Como se determina o tamanho da amostra Na prática o tamanho da amostra é determinado mais por considerações reais ou imaginárias a res peito do custo de cada unidade amostrada do que por técnicas estatísticas Se seu orçamento for curto não tente enquadrar nele uma pesquisa ambi ciosa Mas o pesquisador precisa sempre levar em conta o que é usual na área Então você tem aqui a regra de ouro para determinar o tamanho da amostra veja o que se faz na sua área consultando a literatura mas veri fique também o que seu orçamento permite fazer De qualquer forma o tamanho da amostra pode ser determinado por critério estatístico2 As fórmulas de cálculo são bem conhecidas Mas a apli cação dessas fórmulas exige conhecimentos acima do nível deste livro Será apresentada aqui apenas uma equação que dará idéia do problema Um exemplo ajuda muito3 Imagine que um antropólogo está estudan do os habitantes de uma ilha isolada e que entre outras coisas quer de terminar a porcentagem de pessoas dessa ilha com sangue tipo O Quantas Baseado em um exemplo de KARNEMEN D e TVESKY A HJudgement under uncertainty heuristics and bias Science 185 27 de setembro de 1974 2Ver por exemplo 1 COCHRAN W Sampling techniques Nova York Wiley 1977 2 LOHR S L Sampling Design and analysis Pacific Grove Brooks1999 3 BOLFARINE H e BUSSAB W O Elementos de amostragem São Paulo Edgard Blucher 2005 0 exemplo é de COCHRAN W opus cited p 7273 1 2 Introdução à Bioestatística pessoas tamanho da amostra devem ser examinadas O tamanho da amostra pode ser determinado por uma equação que no entanto não pode ser re solvida sem resposta para algumas questões A primeira questão é qual é a margem de erro que o antropólogo ad mite em seus resultados Vamos imaginar que ele diz ficar satisfeito com uma margem de erro de 5 isto é se 43 das pessoas da amostra tive rem sangue tipo O a verdadeira porcentagem de pessoas com sangue tipo O na ilha deverá estar entre 38 e 48 ou seja no intervalo 43 5 Neste ponto convém avisar o antropólogo de que como estará traba lhando com uma só amostra existe a chance de ele por azar tomar uma amostra pouco representativa O antropólogo então concorda em admitir a probabilidade de uma amostra errada em cada 20 Isto significa que ele terá probabilidade Hセ Iッ LY ウ de obter a verdadeira porcentagem de sangue tipo O dentro do intervalo calculado Temos então o nível de confiança 95 Mas é preciso saber ainda o valor que o antropólogo espera para a por centagem de pessoas com sangue tipo O na ilha Ele diz que com base no que sabe de outras populações é razoável esperar que essa porcentagem esteja entre 30 e 60 Ótimo Admitiremos por simplicidade que essa porcentagem seja 50 Podemos agora aplicar a fórmula n z 2 plOOp d2 em que z é um valor dado em tabelas e associado ao nível de confiança conforme veremos no Capítulo 11 deste livro Aproximadamente z 2 logo z2 4 A porcentagem de pessoas com sangue tipo O na ilha segundo o antropólogo deve ser em porcentagem p 50 Logo 100 p 50 O valor d é a margem de erro Em porcentagem d5 Logo d2 25 Então o tamanho da amostra deve ser n 4x50x50 400 25 A equação dada aqui está simplificada e só vale se a população da ilha for tão grande que para finalidade de estatísticas possa ser considerada infini ta A equação também só pode ser aplicada se p estiver entre 30 e 70 Capítulo 1 Noções sobre Amostragem 1 3 Mas importante é saber que não basta ter em mãos uma fórmula ou um programa de computador para estimar o tamanho de uma amostra É preciso algum conhecimento prévio estimativas preliminares de um ou mais parâme tros obtidas de amostras piloto ou da literatura e uma boa dose de bom senso 17 A QUESTÃO DA REPRESENTATIVIDADE A amostra só traz informação sobre a população da qual foi retirada Não tem sentido por exemplo estudar os hábitos de higiene de índios bolivia nos e considerar que as informações servem para descrever os hábitos de higiene de moradores da periferia da cidade de São Paulo Ainda a amos tra deve ter o tamanho usual da área em que a pesquisa se enquadra Amos tras demasiado pequenas não dão informação útil Desconfie também de amostras muito grandes Será que o pesquisador observou cada unidade amostrada com o devido cuidado As amostras podem ser representativas ou nãorepresentativas E não se pode julgar a qualidade da amostra pelos resultados obtidos Se você jogar uma moeda 10 vezes podem ocorrer 10 caras Provável Não Possível Sim Conclusões e decisões tomadas com base em amostras só têm sentido na medida em que as amostras representam a população Para bem interpretar os dados é tiràr éondusões adequadas não basta olhar os números é pre ciso entender como a amostra foi tomada e se não incidiram no processo de amostragem alguns fatores que poderiam trazer tendência aos dados Como você sabe se uma amostra é tendenciosa Não há fórmulas de ma temática ou estatística para dizer se a amostra é tendenciosa ou represen tativa da população Você terá de ter bom senso e conhecimento na área São portanto necessários muitos cuidados porque os erros de amostragem podem ser sérios Tendência é a diferença entre a estimativa que se obteve na amostra e o parâmetro que se quer estinnar Exemplo 17 Uma amostra tendenciosa Em 1988 Shere Hite4 levantou por meio de questionários inseridos em revistas femininas americanas dados sobre a sexualidade feminina Estimase que cerca de 100000 mulheres foram colocadas em contato com o questionário mas só 4500 responderam Mesmo assim a amostra é grande Você acha que essa amostra pode dar boa idéia do comportamento sexual das mulheres americanas daquela época O exemplo é de SILVER M Estatística para Administração São Paulo Atlas 2000 14 Introdução à Bioestatística Solução O comportamento dos voluntários é diferente do comportamento dos nãovo luntários Então embora seja difícil ou até impossível estudar o comportamento de pessoas que não respondem a um questionário não se pode concluir que a amostra de respondentes representa toda a população incluindo aqueles que não respondem Conclusões baseadas em amostras de pessoas que voluntariamen te destacam o encarte de uma revista respondem ao questionário e o remetem pelo correio são tendenciosas Não se pode fugir à conclusão de que o questio nário foi respondido apenas por leitoras da revista e entre elas mulheres dispos tas a falar sobre sua vida pessoal Finalmente algumas pessoas dizem não acreditar em resultados obtidos de pesquisas porque elas próprias nunca foram chamadas para opinar Se você é dos que não acreditam em pesquisas porque nunca foi entrevistado então por coerência não tome um analgésico não dirija um carro não beba cerveja Afinal a qualidade desses produtos também é avaliada por amostragem das quais possivelmente você também não participou E ver dade que ocorrem erros é verdade que existem fraudes e é verdade que o improvável também acontece mas daí a achar que não existem acertos vai uma enorme distância O Brasil tem excelentes institutos de pesquisa 18 EXERCÍCIOS RESOLVIDOS 181 Os prontuários dos pacientes de um hospital estão organizados em um arquivo por ordem alfabética Qual é a maneira mais rápida de amostrar 13 do total de prontuários Selecionase para a amostra um de cada três prontuários ordenados por exemplo o terceiro de cada três 182 Um pesquisador tem 10 gaiolas cada uma com seis ratos Como o pes quisador pode selecionar 1 O ratos para uma amostra O pesquisador pode usar a técnica de amostragem aleatória estratificada isto é sortear um rato de cada gaiola para compor a amostra 183 Para levantar dados sobre o número de filhos por mulher em uma co munidade um pesquisador organizou um questionário que enviou pelo correio a todas as residências A resposta ao questionário era facultati va pois o pesquisador não tinha condições de exigir a resposta Nesse questionário perguntavase o número de filhos por mulher moradora na re sidência Você acha que os dados assim obtidos seriam tendenciosos Capítulo 1 Noções sobre Amostragem 1 5 Os dados devem ser tendenciosos porque é razoável esperar que a mu lheres com muitos filhos responderiam pensando na possibilidade de algum tipo de ajuda como instalação de uma creche no bairro b mulheres que recentemente tiveram o primeiro filho também responderiam c muitas das mulheres que não têm filhos não responderiam d mulheres com filhos adultos e emancipados não responderiam 184 Um pesquisador pretende levantar dados sobre o número de moradores por domicrio usando a técnica de amostragem sistemática Para isso o pesquisador visitará cada domiaio selecionado Se nenhuma pessoa es tiver presente na ocasião da visita o pesquisador excluirá o domicílio da amostra Esta última determinação torna a amostra tendenciosa Por quê Nos domicílios onde moram muitas pessoas será mais fácil o pesquisador encontrar pelo menos uma pessoa por ocasião de sua visita Então é razo ável admitir que os domicílios com poucos moradores tenham maior pro babilidade de serem excluídos da amostra 185 Muitas pessoas acreditam que as famílias se tornaram menores Suponha que para estudar essa questão um pesquisador selecionou uma amostra de 2000 casais e perguntou quantos ft1hos eles tinham quantos filhos ti nham seus pais e quantos filhos tinham seus avós O procedimento produz dados tendenciosos Por quê Os casais de gerações anteriores que não tiveram filhos não têm possibili dade de ser selecionados para a amostra Por outro lado os casais de ge rações anteriores que tiveram muitos filhos terão grande probabilidade de ser amostrados 186 Para estudar atitudes religiosas um sociólogo sorteia 10 membros de uma grande igreja para compor uma amostra casual simples Nota então que a amostra ficou composta por nove mulheres e um homem O sociólogo se espanta Gセ amostra não é aleatória Quase só tem mulher O que você diria Se a amostra é ou não aleatória depende de como foi selecionada e não de sua composição As probabilidades envolvidas no processo de constituir uma amostra aleatória podem determinar amostras atípicas 187 Para avaliar a expectativa de pais de adolescentes em relação às possi bilidades de estudo de seus filhos foram distribuídos 5000 questionários pelos estados do sul do Brasil Retornaram 1032 Cerca de 60 dos respondentes diziam que a maior preocupação deles era com o preço que 1 5 Introdução à Bioestatística se paga para um juvem cursar a universidade Você considera esse resul tado uma boa estimativa para o número de pais preocupados com essa questão Não é uma boa estimativa porque os respondentes foram relativamente pou cos cerca de 20 Ainda tendem a responder pais que querem seus filhos na universidade e estão preocupados com os custos 188 Um dentista quer levantar o tipo de documentação que seus colegas ar quivam quando fazem um tratamento ortodôntico A documentação de pende do caso mas também envolve questões legais e de bom senso do ortodontista Para essa pesquisa o dentista elabora um questionário que envia por correio a todos os profissionais inscritos no conselho de odon tologia O dentista pruvavelmente não receberá respostas de todos Você saberia dizer algumas das razões de isso acontecer Razões possíveis 1 Nem todos os endereços que constam dos arquivos de um conselho estão atualizados 2 Nem todas as pessoas que recebem ques tionários por correio o respondem seja porque não têm tempo têm pre guiça ou inércia imaginam razões espúrias para terem sido contatadas etc 3 Não dão respostas por correio pessoas que têm alguma dificuldade de che gar ao correio seja porque moram longe porque não gostam de andar ou não têm condução própria porque não têm hábito de enviar correspon dência porque a secretária não leva correspondência ao correio etc 4 Dos que não têm nenhum dos motivos citados ainda deixaria de responder o pro fissional que não tem boa documentação de casos ou não a tem em ordem 5 Provavelmente também não respondem profissionais que estejam enfren tando problema de ordem financeira legal de admissão em cursos etc 189 Para estudar o uso de serviços de saúde por mulheres em idade repro dutiva moradoras de uma grande capital um pesquisador buscou na Fun dação Instituto Brasileiro de Geografia e Estatistica IBGE as subdivisões da ddade utilizadas em censos conhecidas como setores censitários Como você procederia para tomar uma amostra de mulheres moradoras nesses setores e em idade reprodutiva Cada setor pode ser considerado como um conglomerado Podem ser sor teados quatro setores Depois em cada setor escolhese um ponto ao aca so e a partir daí tirase uma amostra sistemática A unidade amostral é um domicílio com mulheres em idade reprodutiva de 10 a 49 anos Devem ser excluídas do estudo mulheres que não queiram participar Capítulo 1 Noções sobre Amostragem 1 1 19 EXERCÍCIOS PROPOSTOS 191 Dada uma população de quatro pessoas Antônio Luís Pedro e Carlos escreva as amostras casuais simples de tamanho 2 que podem ser obtidas 192 Descreva três formas diferentes de obter uma amostra sistemática de quatro elementos de uma população de oito elementos A B C D E F GeH 193 Dada uma população de 40 alunos descreva uma forma de obter uma amostra casual simples de seis alunos 194 Organize uma lista com 10 nomes de pessoas em ordem alfabética Depois descreva uma forma de obter uma amostra sistemática de cinco nomes 195 Em uma pesquisa de mercado para serviços odontológicos tomouse a lista telefônica onde os nomes dos assinantes estão organizados em ordem al fabética do último sobrenome e se amostrou o décimo de cada 10 assi nantes Critique esse procedimento 196 Um fiscal precisa verificar se as farmácias da cidade estão cumprindo um novo regulamento A cidade tem 40 farmácias mas como a fiscalização demanda muito tempo o fiscal resolveu optar por visitar uma amostra de 1 O farmácias O cumprimento do regulamento que é evidentemente des conhecido do fiscal está apresentado na tabela a seguir Com base na ta bela a seguir a escolha uma amostra para o fiscal b estime com base na amostra a proporção de farmácias que estão cum prindo o regulamento c com base nos dados da população estime o parâmetro d você obteve uma boa estimativa 11 Introdução à Bioestatística Dados sobre cumprimento do regulamento Cumprimento do regulamento 1 Sim 11 Não 21 Sim 31 Sim 2 Sim 12 Sim 22 Sim 32 Sim 3 Não 13 Não 23Não 33Não 4 Sim 14Não 24 Sim 34 Sim 5 Sim 15 Sim 25 Não 35 Sim 6 Não 16 Não 26 Não 36 Não 7 Sim 17 Sim 27 Não 37 Não 8 Não 18Não 28 Sim 38 Não 9 Não 19 Não 29Não 39 Sim 10 Sim 20 Sim 30 Não 40 Sim 197 A maneira de fazer a pergunta pode influenciar a resposta da pessoa que responde Basicamente existem dois tipos de questões a questão fecha da e a questão イエ Gセ Na questão fechada o pesquisador fornece uma série de respostas possiveis e a pessoa que responde deve apenas as sinalar a alternativa ou as alternativas que lhe convém A questão aber ta deve ser respondida livremente Imagine que um dentista quer levantar dados sobre hábitos de higiene oral das pessoas de uma comunidade Es creva então uma questão fechada e uma questão イエG セ 198 Uma classe tem quatro alunos Eles foram submetidos a uma prova e suas notas foram João 10 José 6 Paulo 4 Pedro O Calcule a média da clas se parâmetro Depois construa todas as amostras de tamanho 2 e cal cule a média de cada uma estatísticas Verifique que a média das esta tísticas é igual ao parâmetro 199 Um fabricante de produtos alimentícios pede a você para escolher uma cidade do seu Estado para fazer o teste de um novo produto Como você escolheria a cidade por sorteio ou usaria o seu julgamento do que con sidera uma cidade típica do Estado Capítulo 1 Noções sobre Amostragem 1 9 1910 Pretendese obter uma amostra dos alunos de uma universidade para estimar o percentual que tem trabalho remunerado a Qual é a popula ção em estudo b Qual é o parâmetro que se quer estimar c Você acha que se obteria uma boa amostra dos alunos no restaurante universitário d No ponto de ônibus mais próximo 1911 Um editor de livros técnicos quer saber se os leitores preferem capas de cores claras com desenhos ou capas simples de cores mais escuras Se o editor pedir a você para estudar a questão como você definiria a popu lação do estudo 1912 Um dentista quer estudar a porcentagem de policiais militares com distúrbios na articulação têmporamandibular Calcule ao tamanho da amostra considerando que o dentista quer um nível de confiança de 95 z 2 uma margem de erro de 8 d 8 e que na população a por centagem de pessoas com esse tipo de distúrbio é 35 página deixada intencionalmente em branco Apresentação de Dados em Tabelas 2 página deixada intencionalmente em branco Capítulo 2 Apresentação de Dados em Tabelas 2 3 Você já aprendeu que os estatísticos coletam informações Essas informa ções podem ser sobre peso de pessoas eficiência de medicamentos incidên cia de doenças causas de morte quantidade de hemoglobina no sangue estresse ansiedade etc Neste Capítulo vamos aprender como essas informa ções são organizadas para facilitar a leitura Mas antes vamos aprender o que são dados e o que são variáveis 21 DADOS E VARIÁVEIS Variável é uma condição ou característica das unidades da população ava riável pode assumir valores diferentes em diferentes unidades Por exem plo a idade das pessoas residentes no Brasil é uma variável Dados são os valores da variável em estudo obtidos por meio de uma amostra Exemplo 21 Dados e variáveis O dono de uma academia de ginástica quer saber a opinião de seus clientes so bre a qualidade dos serviços que presta O que é variável e o que são dados nes se problema Solução A variável de interesse é a opinião dos clientes Os dados serão obtidos somente quando o dono da academia começar a pedir aos clientes que dêem uma nota a cada serviço Então se for pedido que o cliente dê uma nota de zero e 5 a cada serviço que utiliza os dados coletados poderão ser por exemplo 4 3 2 4 1 etc por serviço As variáveis são classificadas em dois tipos quantitativas ou numéricas qualitativas ou categorizadas Uma variável é qualitativa ou categorizada quando os dados são distri buídos em categorias mutuamente exclusivas São exemplos de variáveis qualitativas time de futebol do qual a pessoa é torcedora se a pessoa torce por um time não torce pelo outro sexo é masculino ou é feminino ci dade de nascimento se a pessoa nasceu em Niterói automaticamente fica excluída a possibilidade de ter nascido em outra cidade Uma variável é quantitativa ou numérica quando é expressa por núme ros São exemplos de variáveis quantitativas idade estatura número de crianças numa escola número de lápis numa caixa As variáveis qualitativas ou categorizadas são classificadas em dois tipos Nominal Ordinal Z 4 Introdução à Bioestatística A variável é nominal quando os dados são distribuídos em categorias mutuamente exclusivas mas são indicadas em qualquer ordem São variá veis nominais cor de cabelos loiro castanho preto ruivo tipo de san gue O A B AB gênero masculino feminino religião espírita católi co evangélico outras etc A variável é ordinal quando os dados são distribuídos em categorias mutuamente exclusivas que têm ordenação natural São variáveis ordinais escolaridade primeiro grau segundo grau terceiro grau classe social A B C D E gravidade de uma doença leve moderada severa etc As variáveis quantitativas ou numéricas são classificadas em dois tipos Discreta Contínua A variável discreta só pode assumir alguns valores em um dado inter valo São variáveis discretas número de filhos nenhum 1 2 3 4 etc quantidade de moedas num bolso zero 1 2 3 etc número de pessoas numa sala A variável contínua assume qualquer valor num dado intervalo São va riáveis contínuas peso tempo de espera quantidade de chuva etc Os dados são do mesmo tipo que o das variáveis Por exemplo uma va riável discreta produz dados discretos Veja o organograma Variáveis 1 Categorizadas Numéricas Qualitativas Quantitativas 1 1 1 Nominais Ordinais Discretas 1 Contfnuas 22 APURAÇÃO DE DADOS Dados são registrados em fichas em cadernos em computador Para obter apenas os dados de interesse para sua pesquísa você deve fazer uma apu ração Se a variável for qualitativa a apuração se resume a simples conta gem Veja como isto pode ser feito Capítulo 2 Apresentação de Dados em Tabelas 2 5 Para estudar a razão de sexos1 dos recémnascidos em uma maternidade e seus pesos ao nascer um pesquisador obteve uma amostra sistemática de 1000 prontuários de recémnascidos e escreveu numa folha de papel Masculino Feminino Depois examinou todos os prontuários e fez então um traço na linha que indicava cada sexo toda vez que o prontuário registrava que o re cémnascido era desse sexo Cada quadrado cortado pela diagonal repre senta cinco recémnascidos O total é dado pelo número de traços em cada linha Masculino Feminino 0 IZI IZI O 509 0 IZI D 1 491 Quando a variável é quantitativa é preciso anotar na apuração cada valor observado Para apurar dados de peso ao nascer2 o pesquisador deve anotar o número do prontuário e o peso ao nascer numa folha de papel O número do prontuário escrito ao lado do peso ao nascer facilita a pos terior verificação da apuração Nº do prontuário 10525 10526 10624 Peso ao nascer 3250 2010 2208 Razão de sexos número de homens por 100 mulheres 2 A apuração de peso ao nascer pode ser feita por sexo se o interesse é comparar pesos ao nascer de meninos e meninas Z 5 Introdução à Bioestatística 23 COMPONENTES DAS TABELAS Os dados devem ser apresentados em tabelas construídas de acordo com as normas técnicas ditadas pela Fundação Instituto Brasileiro de Geografia e Estatística IBGE 19933 As tabelas devem ser colocadas perto do ponto do texto em que são mencionadas pela primeira vez Devem ser inseridas na ordem em que aparecem no texto Veja a Tabela 21 que obedece às normas técnicas De acordo com essas normas uma tabela deve ter título corpo cabeçalho e coluna indicadora O título explica o que a tabela contém O corpo é formado pelos dados em linhas e colunas O cabeçalho especifica o conteúdo das colunas A coluna indicadora especifica o conteúdo das linhas Exemplo 22 Componentes de uma tabela TABELA21 População residente no Brasil segundo o sexo de acordo com o censo demográfico de 2000 Sexo Masculino Feminino Total Fonte IBGE 2003P Na Tabela 21 observe o título População residente 83576015 86223155 169799170 População residente no Brasil segundo o sexo de acordo com o censo demográfico de 2000 O cabeçalho é constituído por Sexo População residente As normas do IBGE são excelentes Veja em httpwww1ibgegovbrhomeestatistica populacaocenso2000tabelabrasil111shtm Disponível em 20 de abril de 2008 Veja também VIEIRA S Elementos de Estatística São Paulo Atlas 5 ed 2003 Capítulo 2 Apresentação de Dados em Tabelas 27 A coluna indicadora é constituída pelas especificações Sexo Masculino Feminino Total O corpo da tabela é formado pelos números População residente 83576015 86223155 169799170 Toda tabela deve ser delimitada por traços horizontais mas não deve ser delimitada por traços verticais Os traços verticais podem ser feitos somente para separar as colunas O cabeçalho deve ser separado do corpo da tabe la por um traço horizontal As tabelas podem conter fonte e notas Fonte é a entidade ou pesqui sador ou pesquisadores que publicaram ou forneceram os dados Veja a Ta bela 21 a fonte é a Fundação Instituto Brasileiro de Geografia e Estatísti ca IBGE que publicou os dados As notas esclarecem aspectos relevantes do levantamento dos dados ou da apuração Veja a nota apresentada na Tabela 22 a qual informa que na apuração foram suprimidos os casos com idade ou local de residên cia ignorados Z 1 Introdução à Bioestatística Exemplo 23 Uma tabela com nota de rodapé TABELA22 Número de internações hospitalares de mulheres pelo Sistema Único de Saúde SUS Brasil 2005 Grupo de doenças Número Gravidez parto e puerpério 2640438 Doenças do aparelho respiratório 736012 Doenças do aparelho circulatório 612415 Doenças do aparelho geniturinário 507295 Doenças infecciosas e parasitárias 480165 Doenças do aparelho digestivo 452894 Transtornos mentais e comportamentais 105354 Neoplasias 355570 Causas externas 233787 Demais causas 801123 Total 6925053 Fonte Ministério da SaúdeSEOatasus Sistema de Informações Hospitalares do SUS SIHSUS Nota Suprimidos os casos com idade ou local de residência ignorados 24 APRESENTAÇÃO DE DADOS QUALITATIVOS Quando observamos dados qualitativos classificamos cada unidade da amos tra em uma dada categoria Nosso conhecimento sobre os dados aumenta se contarmos quantas unidades caem em cada categoria A idéia seguinte é resumir as informações na forma de uma tabela que mostre as contagens freqüências em cada categoria Temos então uma tabela de distribuição de freqüências Exemplo 24 Uma tabela de distribuição de freqüências para dados ordinais Foram entrevistados 2500 brasileiros com 16 anos ou mais para saber a opinião deles sobre determinado técnico de fu1tebol Veja o que eles responderam 1300 achavam que o técnico era bom 450 achavam regular e 125 achavam ruim 625 não tinham opinião ou não quiseram opinar Como se organizam estes dados em uma tabela de distribuição de freqüências Capítulo 2 Apresentação de Dados em Tabelas 2 9 Solução Na Tabela 23 estão as respostas dadas pelos entrevistados primeira coluna e as freqüências dessas respostas segunda coluna A soma das freqüências é 2500 número de entrevistados TABELA 23 Opinião dos brasileiros sobre determinado técnico de futebol Respostas Freqüência Bom 1300 Regular 450 Ruim 125 Não sabe 625 Total 2500 Nas tabelas de distribuição de freqüências é usual fornecer a proporção freqüência relativa de unidades que caem em cada categoria Para obter a freqüência relativa de uma dada categoria calcule F セ 1 Freqüência reqüencrn re ativa Tamanho da amostra Exemplo 25 Uma tabela de distribuição de freqüências e freqüências relativas Calcule as freqüências relativas dos dados apresentados na Tabela 23 Solução Na Tabela 24 estão as respostas dadas pelos entrevistados primeira coluna as freqüências dessas respostas segunda coluna e as freqüências relativas tercei ra coluna Note que as freqüências rellativas somam 100 TABELA 24 Opinião dos brasileiros sobre determinado técnico de futebol Respostas Freqüência Freqüência relativa Bom 1300 1300 o 52 2500 Regular 450 450 018 2500 Ruim 125 125 005 2500 Não sabe 625 625 025 2500 Total 2500 100 31 Introdução à Bioestatística As freqüências relativas são em geral dadas em porcentagens Para transformar uma freqüência relativa em porcentagem basta multiplicar por 100 No exemplo dado na Tabela 24 afreqüência relativa de respostas bom é 052 Multiplicando esse resultado por 100 temos a porcentagem que é 52 Este resultado 52 de bom é bem entendido pelas pessoas As freqüências relativas dadas em porcentagens fornecem a informação mais relevante Mas sempre convém exibir o total tamanho da amostra que é indicador da credibilidade da informação dada4 25 TABELAS DE CONTINGÊNCIA Muitas vezes os elementos da amostra ou da população são classificados de acordo com duas variáveis qualitativas Os dados devem então ser apresen tados em tabelas de contingência isto é em tabelas de dupla entrada cada entrada relativa a uma das variáveis Exemplo 26 Uma tabela de contingência Foram feitos diagnósticos de depressão em 500 estudantes com idades entre 1 O e 17 anos metade de cada sexo Foram identificados 98 casos de depressão sendo 62 no sexo feminino Apresente os dados em uma tabela Solução Note que os dados estão classificados segundo duas variáveis sexo e presença de depressão TABELA 25 Sexo e presença de depressão Depressão Sexo Sim Não Total Masculino ll 214 250 Feminino 62 188 250 Total 00 402 ilO As tabelas de contingência podem apresentar freqüências relativas em porcentagens além das freqüências O tamanho da amostra é sempre im Não tem sentido fornecer resultados em porcentagens quando a amostra é muito pequena Por exemplo não tem sentido fornecer porcentagens se a amostra fosse constituída de cinco ou seis pessoas Capítulo 2 Apresentação de Dados em Tabelas 31 portante porque não se pode confiar em resultados obtidos com base em amostras muito pequenas e calcular porcentagens sobre alguns poucos casos Exemplo 27 Uma tabela de contingência com freqüências relativas Para verificar se o risco de óbito neornatal é maior quando a gestante é diabéti ca foram obtidos os dados apresentadlos na Tabela 26 Discuta TABELA26 Óbito neonatal e diabetes mellitus Óbito neonatal Percentual Gestante Sim Não Total de óbitos Diabética 3 21 24 125 Nãodiabética 21 830 851 25 Total 24 851 875 O risco de óbito neonatal dado pelo percentual de óbitos é maior quando ages tante é diabética 26 APRESENTAÇÃO DE DADOS NUMÉRICOS Os dados numéricos são apresentados na ordem em que são coletados Ge ralmente são obtidos dados relativos a diversas variáveis em cada pacien te Os pacientes são identificados nas pesquisas por números Exemplo 28 Uma tabela com dados numéricos Para estudar o desempenho cardíaco de pacientes submetidos à diálise renal fo ram obtidos valores de diversas variáveis de interesse da Cardiologia Na Tabela 27 são apresentadas apenas algumas informações para mostrar como se apre sentam dados numéricos 3 2 Introdução à Bioestatística TABElA 27 Idade em anos completos tempo de diálise em meses ahura em metros peso em quilogramas pressão sistólica e diastólica em milímetros de mercúrio de mulheres submetidas à diálise renal Número da Tempo de Pressão Pressão paciente Idade diálise Altura Peso sistólica diastólica 1 45 14 160 620 140 85 2 62 54 165 525 100 70 3 38 52 155 678 140 100 4 26 34 159 482 165 105 5 35 18 158 460 170 105 6 44 71 148 404 150 100 7 53 39 169 677 155 95 8 44 79 159 555 160 105 9 58 23 162 630 175 110 10 55 64 151 503 155 105 11 24 16 179 770 160 95 12 70 46 151 440 150 95 13 56 48 158 640 175 110 Dados numéricos também podem ser apresentados em tabelas de distri buição de freqüências Se os dados são discretos para organizar a tabela de distribuição de freqüências escreva os dados em ordem crescente conte quantas vezes cada valor se repete organize a tabela como já foi feito para dados qualitativos colocando no lugar das categorias os valores numéricos em ordem natural Veja o Exemplo 29 Capítulo 2 Apresentação de Dados em Tabelas 3 3 Exemplo 29 Uma tabela de distribuição de freqüências para dados dis cretos As faltas ao trabalho de 30 empregados de uma clínica em determinado semestre estão na Tabela 28 A partir dela faça uma tabela de distribuição de freqüências TABELA 28 Número de faltas dadas por 30 empregados de uma clínica no semestre 1 2 o 3 2 1 TABELA29 1 o 6 1 o 4 o o 3 1 1 3 Solução o 2 1 1 2 1 2 4 o o o Distribuição do número de faltas de 30 empregados de uma clínica no semestre Número de faltas o 1 2 3 4 5 6 Total Freqüência 9 10 5 3 2 o 30 Percentual 300 333 167 100 67 oo 33 1000 Tabelas com grande número de dados não oferecem ao leitor visão rá pida e global do fenômeno Observe os dados apresentados na Tabela 210 é difícil dizer como os valores se distribuem Por esta razão dados contí nuos desde que em grande número são apresentados em tabelas de distribuição de freqüências 34 Introdução à Bioestatística Exemplo 210 Uma tabela com dados contínuos TABELA 210 Peso ao nascer de nascidos vivos em quilogramas 2522 3200 1900 4100 4600 3400 2720 3720 3600 2400 1720 3400 3125 2800 3200 2700 2750 1570 2250 2900 3300 2450 4200 3800 3220 2950 2900 3400 2100 2700 3000 2480 2500 2400 4450 2900 3725 3800 3600 3120 2900 3700 2890 2500 2500 3400 2920 2120 3110 3550 2300 3200 2720 3150 3520 3000 2950 2700 2900 2400 3100 4100 3000 3150 2000 3450 3200 3200 3750 2800 2720 3120 2780 3450 3150 2700 2480 2120 3155 3100 3200 3300 3900 2450 2150 3150 2500 3200 2500 2700 3300 2800 2900 3200 2480 3250 2900 3200 2800 2450 Para construir uma tabela de distribuição de freqüências com dados con tínuos Ache o valor máximo e o valor mínimo do conjunto de dados Calcule a amplitude que é a diferença entre o valor máximo e o va lor mínimo Divida a amplitude dos dados pelo número de faixas que pretende or ganizar no caso do Exemplo 210 as faixas são de peso Essas fai xas recebem tecnicamente o nome de classes O resultado da divisão é o intervalo de classe É sempre melhor arredon dar esse número para um valor mais alto o que facilita o trabalho Organize as classes de maneira que a primeira contenha o menor valor observado Capítulo 2 Apresentação de Dados em Tabelas 3 5 Observe os dados apresentados na Tabela 210 O menor valor é 1570 kg e o maior valor 4600 kg A amplitude dos dados é 4600 1570 3030 Vamos definir sete classes Então calcule 3030 7 0433 Arredonde esse valor para 0500 e construa a primeira classe que será de 15 kg a 20 kg esta classe contém o menor valor depois construa a segunda classe que será de 20 kg a 25 kg e assim por diante como mos tra o esquema dado a seguir 15 r 20 20 r 25 25 r 3o 3o r 35 35 r 4o 4o r 45 45 r 5o Na classe de 15 kg até menos de 20 kg são colocados desde nascidos com 15 kg até os que nasceram com 1999 kg na classe de 20 kg até menos de 25 kg são colocados desde nascidos com 20 kg até os que nas ceram com 2499 kg e assim por diante Logo cada classe cobre um inter valo de 05 kg É mais fácil trabalhar com intervalos de classe iguais Denominamse extremos de classe os limites dos intervalos de classe Deve ficar claro na tabela de distribuição de freqüências se os valores iguais aos extremos estão ou não incluídos na classe Veja a notação usada no exem plo A primeira classe é 15 r 20 Isto significa que o intervalo é fechado à esquerda isto é pertencem à classe os valores iguais ao extremo inferior da classe por exemplo 15 na primeira classe Também significa que o intervalo é aberto à direita isto é não pertencem à classe os valores iguais ao extremo superior por exem plo o valor 20 não pertence à primeira classe 3 5 Introdução à Bioestatística Exemplo 211 Uma tabela de distribuição de freqüências para dados contínuos Para dar idéia geral sobre peso ao nascer de nascidos vivos o pesquisador quer apresentar não os pesos observados mas o número de nascidos vivos por fai xas de peso A Tabela 211 apresenta a distribuição de freqüências TABELA 211 Distribuição de freqüências para peso ao nascer de nascidos vivos em quilogramas Classe Freqüência 15 f 20 3 20 f 25 16 25 f 30 31 30 f 35 34 35 f 40 11 40 f 45 4 45 f 50 1 É importante lembrar aqui que existem outras maneiras de indicar se os extremos de classe estão ou não incluídos em determinada classe Aliás a Fundação Instituto Brasileiro de Geografia e Estatística IBGE usa nota ção diferente Para dados de idade por exemplo escreve De O até 4 anos De 5 até 9 anos De 10 até 14 anos e assim por diante A classe De O até 4 anos inclui desde indivíduos que acabaram de nascer até indivíduos que estão na véspera de completar 5 anos O número de classes deve ser escolhido pelo pesquisador em função do que ele quer mostrar Em geral convém estabelecer de 5 a 20 classes Se o número de classes for demasiado pequeno por exemplo 3 perdese muita informação Se o número de classes for grande por exemplo 30 têmse pormenores desnecessários Não existe um número ideal de classes para um conjunto de dados embora existam até fórmulas para estabelecer quantas classes devem ser construídas Capítulo 2 Apresentação de Dados em Tabelas 3 7 Os resultados obtidos por meio de fórmulas podem servir como referência mas não devem ser entendidos como obrigatórios Para usar uma des sas fórmulas faça n indicar o número de dados O número de classes será um inteiro próximo de k obtido pela fórmula k fn ou então por esta segunda fórmula k 1 3222 xlogn Exemplo 212 Cálculo do número de classes Para entender como se obtém o número de classes por meio de fórmula reveja a Tabela 211 Como n 100 aplicando a primeira fórmula dada temse que k ln vlCXl 10 Aplicando a segunda fórmula obtémse k l 3222 X log n l 3222 X Jog l 00 7 444 Para obter o número de classes apresentadas no Exemplo 211 foi aplicada a segunda fórmula e por isto foram construídas sete classes Numa distribuição de freqüências o extremo inferior da primeira clas se o extremo superior da última classe ou ambos podem não estar defini dos Ainda os intervalos de classe podem ser diferentes Exemplo 213 Uma tabela de distribuição de freqüências para dados contínuos com classes de tamanhos diferentes e extremo superior não definido Para dar uma idéia geral sobre pressão sangüínea sistólica de mulheres com 30 anos de idade o pesquisador apresentou não os valores observados mas o nú mero de mulheres por faixas de pressão Veja a Tabela 212 que também é um exemplo em que o extremo superior da última classe não está definido 31 Introdução à Bioestatística TABELA 212 Distribuição de freqüências para a pressão sangüínea sistólíca em milímetros de mercúrio de mulheres com 30 anos de idade Classe Freqüência 90 f100 6 100 f 105 11 105 f 110 12 110 f 115 17 115 f 120 18 120 f 125 11 125 f 130 9 130 f 135 6 135 f 140 4 140 f 150 4 150 f 160 1 160 e mais 1 As tabelas de distribuição de freqüências mostram a distribuição da va riável mas perdem em exatidão Por exemplo a Tabela 212 mostra que seis mulheres apresentaram pressão sangüínea sistólica entre 90 e 100 mas não dá informação exata sobre a pressão de cada uma delas 2 7 EXERCÍCIOS RESOLVIDOS 271 Converta as seguintes proporções em porcentagens 009 0955 033 0017 Basta multiplicar por 100 para obter 9 955 33 17 272 Converta as seguintes porcentagens em proporções 355 531 50 4657 Basta dividir por 100 para obter 0355 0531 050 04657 Capítulo 2 Apresentação de Dados em Tabelas 3 9 273 Para estudar a distribuição dos erros cometidos por alunos nas tomadas radiográficas foi feito um levantamento de dados na seção de Radiolo gia de uma faculdade de odontologia Calcule as freqüências relativas e os totais TABELA 213 Erros em tomadas radiográficas Erros Posição do paciente Fatores de exposição Processamento Produção de artefatos Posição do chassi Outros fatores TABELA 214 Erros em tomadas radiográficas Freqüência 598 288 192 101 83 53 Erros freqüência Posição do paciente 598 Fatores de exposição 288 Processamento 192 Produção de artefatos 101 Posição do chassi 83 Outros fatores 53 Total 1315 freqüência relativa 455 219 146 77 63 40 1000 274 De acordo com o Sistema Nacional de Infonnações TóxicoFannacológicas Sinitox em 2005 foram registrados 23647 casos de intoxicação huma na no Brasil por animais peçonhentos Desse total 8208 foram atribuídos a escorpiões 4944 a serpentes 4661 a aranhas e 5834 a outros animais peçonhentos Apresente esses dados em uma tabela 41 Introdução à Bioestatística TABELA 215 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal Total Porcentagem Escorpião 8208 3471 Serpente 4944 2091 Aranha 4661 1971 Outros animais 5834 2467 Total 23647 10000 Fonte Sinitox 20055 275 Construa uma tabela de distribuição de freqüências para apresentar os dados da Tabela 216 TABELA 216 Pressão arterial em milímetros de mercúrio de cães adultos anestesiados 130 105 120 111 99 116 107 125 100 107 120 143 135 130 135 127 00 104 100 145 125 104 101 102 134 158 110 102 00 107 121 135 102 119 115 125 107 140 121 107 113 93 Para determinar o número de classes pode ser usada a fórmula k 13222 xlogn onde n é igual a 49 Então k 13222xlog4964 82 115 136 101 124 117 103 De acordo com a fórmula podlem ser constituídas seis ou sete classes Como o menor valor observado é 82 e o maior valor é 158 é razoável cons truir classes com intervalos iguais a 10 a partir de 80 O número de clas ses será então oito um pouco maior do que o estabelecido pela fórmula 5httpwwwsauderjgovbranimaispeconhentosestatisticashtml Disponível em 30 de maio de 2008 Capítulo 2 Apresentação de Dados em Tabelas 41 TABELA 217 Distribuição da pressão arterial em milímetros de mercúrio de cães adultos anestesiados 1 Classe Número 80 f90 1 901 100 4 100 f1 10 16 110 1120 8 120 f130 9 130 f140 7 140 f1 50 3 150 f 160 1 276 Imagine6 que você quer comparar as distribuições de freqüências da mesma variável para homens e mulheres separadamente No entanto o núme ro de mulheres é consideravelmente maior do que o número de homens Você compararia as freqüências ou as freqüências relativas Por quê Dê um exemplo Você deve cómpatat as freqüências relativas As freqüências não são com paráveis uma vez que as amostras são de tamanhos diferentes Imagine que são 200 mulheres e 50 homens e que para uma dada classe a freqüência seja de quatro em ambas as distribuições Isto significa 2 das mulheres 4200 002 e 8 dos homens 450 008 uma diferença muito grande 28 EXERCÍCIOS PROPOSTOS 281 Especifique o tipo das seguintes variáveis a peso de pessoas b marcas comerciais de um mesmo analgésico mesmo principio ativo e tempe ratura de pessoas d quantidade anual de chuva na cidade de São Paulo e religião f número de dentes permanentes irrompidos em uma crian ça g número de bebês nascidos por dia em uma maternidade h com primento de cães 282 Faça uma tabela para mostrar que das 852 pessoas entrevistadas sobre determinado assunto 59 não tinham opinião ou não conheciam o assun to 425 eram favoráveis e as demais eram contrárias 6MINIUM E W CLARKE R C COLADARCI T Elements of Statistical Reasoning New York Wíley 2ed 1999 p33 4 2 Introdução à Bioestatística 283 Complete a Tabela 218 TABELA 218 Distribuição das notas de 200 alunos Nota do aluno Freqüência Freqüência relativa De 9a 10 008 De 8 a 89 36 De 65 a 79 00 De 5 a 64 3l Abaixo de 5 28 Total 200 10 284 Uma doença pode ser classificada em três estágios leve moderado e severo Foram examinados 20 pacientes e obtidos os dados moderado leve leve severo leve moderado moderado moderado leve leve se vero leve moderado moderado leve severo moderado moderado mo derado leve Com base nestes dados a determine a freqüência de cada categoria b calcule a freqüência relativa de cada categoria 285 Qual é o erro na distribuição de freqüências dada em seguida Classe 2030 3040 4050 6070 70 e mais 286 São dados os tipos de sangue de 40 doadores que se apresentaram no mês em um banco de sangue B A O A A A B O B A A AB O O A O O A A B A A A O O O A O A O O A O AB O O A AB B B Coloque os dados em uma tabela de distribuição de freqüências 287 Dos 80 alunos que fizeram um curso de Estatística 70 receberam grau B e 5 grau C Quantos freqüência alunos receberam grau A supondo que não tenha sido conferido nenhum outro grau Capítulo 2 Apresentação de Dados em Tabelas 43 288 Foram avaliadas por cirurgiõesdentistas com especialização em Orto dontia crianças no estágio de dentadura decídua entre 3 e 6 anos de ida de Não tinham hábitos de sucção 615 Das demais 190 tinham o hábito de sucção do polegar 588 usavam chupeta 618 usavam mamadeira Apre sente os dados em tabela Calcule o total e as freqüências relativas 289 Os pesos dos bombeiros que trabalham em determinada cidade variam entre 70 kg e 118 kg Indique os limites de 10 classes nas quais os pesos dos bombeiros possam ser agrupados 2810 O número de enfermeiros em serviço varia muito em um hospital Foi feita uma distribuição de freqüências com as seguintes classes 20 1 25 25 1 30 30 1 35 35 1 40 40 1 45 45 1 50 Qual é o intervalo de classes e qual é o intervalo de toda a distribuição 2811 Construa uma tabela de distribuição de freqüências para apresentar os dados da Tabela 219 usando intervalos de classes iguais Depois faça outra tabela com os seguintes intervalos 1 dia 2 ou 3 dias de 4 a 7 dias de 8 a 14 dias mais de 14 dias TABELA 219 Tempo de internação em dias de pacientes acidentados no trabalho em um dado hospital 7 8 1 7 13 6 12 12 3 17 4 2 4 15 2 14 3 5 10 8 9 8 5 3 2 7 14 12 10 8 1 6 4 7 7 11 2812 São dados o valor máximo e o valor mínimo de dois conjuntos A e B de dados no primeiro conjunto n 50 e no segundo n 100 No con junto A o valor mínimo é 24 e o valor máximo é 70 no conjunto B o valor mínimo é 187 e o valor máximo é 821 Dê os intervalos de classe para cada conjunto 44 Introdução à Bioestatística 2813 Com base nos dados apresentados na Tabela 220 calcule o percentual de pacientes que abandonaram o tratamento contra a tuberculose pulmo nar troca de abandono segundo a zona de moradia TABELA 220 Número de pacientes segundo o abandono do tratamento contra tuberculose pulmonar e a zona de moradia Zona de moradia Urbana Rural Abandono do tratamento Sim 15 70 Não 80 35 2814 Perguntouse a 100 dentistas se eles rotineiramente enfatizavam no consultório métodos de prevenção de cáries e doenças gengivais A resposta de 78 dentistas foi Bウゥュ Gセ Os demais disseram B ョッ Gセ Apresente estes da dos em uma tabela de distribuição de freqüências e discuta os resultados Os dados mostram que os dentistas adotam a prática da prevenção 2815 Calcule as freqüências relativas para os dados apresentados na Tabela 221 e comente TABELA221 Número de óbitos por grupos de causas Brasil 2004 Número Grupos de causas Masculino Doenças infecciosas e parasitárias 27437 Neoplasias 76065 Doenças do aparelho circulatório 150383 Doenças do aparelho respiratório 55785 Afecções originadas no perfodo perinatal 17530 Causas externas 107032 Demais causas definidas 88563 Fonte Ministério da Saúde SVS Sistema de lnfonnações sobre Mortalidade SIM Notas Feminino 18615 64724 135119 46369 13165 20368 75399 1 As análises devem considerar as limitações de cobertura e qualidade da informação da causa de óbito 2 Estão suprimidos os óbitos sem definição de causa httptabnetdatasusgovbrCGItabcgiexeidb2006c04def Disponível em 4 de maio de 2008 Capítulo 2 Apresentação de Dados em Tabelas 4 5 2816 Calcule as freqüências relativas para os dados apresentados na Tabela 222 e aponte a faixa etária de maior risco TABELA 222 Pacientes portadores de carcinoma epidermóide de base de língua segundo a faixa etária em anos Faixa etária Número 30 f 40 10 40 f 50 ffi 50 f 60 119 60 f 70 ffi 70 f 80 24 80 e mais 5 2817 Com base nos dados apresentados na Tabela 223 calcule o percentual de órgãos aproveitados taxa de aproveitamento para cada órgão TABELA 223 Número de órgãos obtidos de doadores cadáveres Órgão Número de doadores Número de órgãos aproveitados Rim 105 210 Coração 105 45 Fígado 105 20 Pulmões 105 17 página deixada intencionalmente em branco Apresentação de Dados em Gráficos 3 página deixada intencionalmente em branco Capítulo 3 Apresentação de Dados em Gráficos 49 Gráficos ajudam a visualizar a distribuição das variáveis Neste Capítulo vamos aprender como apresentar dados em gráficos seguindo as normas nacionais ditadas pela Fundação Instituto Brasileiro de Geografia e Estatís tica IBGE1 Todo gráfico deve apresentar título e escala O título deve ser colocado abaixo do gráfico As escalas devem crescer da esquerda para a direita e de baixo para cima As legendas explicativas devem ser colocadas de preferência à direita do gráfico 31 APRESENTAÇÃO DE DADOS QUALITATIVOS 31 1 Gráfico de barras O gráfico de barras é usado para apresentar variáveis qualitativas sejam elas nominais ou ordinais Para construir um gráfico de barras Desenhe o sistema de eixos cartesianos Escreva as categorias da variável estudada no eixo das abscissas eixo horizontal Escreva as freqüências ou as freqüências relativas porcentagens no eixo das ordenadas eixo vertical obedecendo a uma escala Desenhe barras verticais de mesma largura para representar as cate gorias da variável em estudo A altura de cada barra deve ser dada pela freqüência ou pela freqüência relativa geralmente em porcen tagem da categoria Coloque legendas nos dois eixos e titulo na figura Exemplo 31 Um gráfico de barras Foram entrevistadas 100 pessoas que haviam se submetido a uma cirurgia esté tica reparadora Perguntadas se consideravam que a cirurgia havia melhorado a aparência delas responderam como segue 66 disseram que sim 20 disseram que em parte 8 disseram que não e 6 não quiseram responder Organize os dados em uma tabela de distribuição de freqüências e desenhe o gráfico de barras As normas do IBGE são excelentes Veja essas normas em httpwwwlibgegovbrhome estatisticapopulacao censo2000tabelabrasill 11shtm Disponivel em 24 de abril de 2008 Veja também VIEIRA S Elementos de Estatística São Paulo Atlas 5 ed 2003 51 Introdução à Bioestatística Solução TABELA31 Você acha que a cirurgia melhorou sua aparência Respostas Freqüência Porcentagem Sim ffi ll6 Em parte 20 20 Não 8 8 Sem resposta 6 6 Total 100 100 80 70 60 E 50 Q CJ 40 e セQ 30 o o 20 10 0 Sim Em parte Não Sem resposta Resposta FIGURA 31 Você acha que a cirurgia melhorou sua aparência Para facilitar a leitura dos percentuais de cada categoria podem ser fei tas linhas auxiliares grades Capítulo 3 Apresentação de Dados em Gráficos 51 Exemplo 32 Gráfico de barras com grades Com os dados da Tabela 31 faça um gráfico de barras com linhas auxiliares Solução 80 70 60 E 50 Q CJ co 40 e セQ 30 o o 20 10 0 Sim Em parte Não Sem resposta Resposta FIGURA 32 Você acho que o cirurgia melhorou suo aparência Os percentuais podem ser apresentados acima das barras Exemplo 33 Gráfico de barras com percentuais nas barras Com os dados da Tabela 31 faça um gráfico de barras mas escreva os percen tuais acima das barras Solução 80 70 660 60 E 50 Q CJ co 40 e セQ 30 o o 20 200 10 80 60 0 Sim Em parte Não Sem resposta Resposta FIGURA 33 Você acho que o cirurgia melhorou suo aparência 5 2 Introdução à Bioestatística Os gráficos de barras podem ser feitos com perspectiva isto é em três dimensões Por isso são conhecidos como gráficos em 3D Eles são agra dáveis de ver mas difíceis de compreender quando apresentam muitas ca tegorias Exemplo 34 Gráfico de barras com 3D Com os dados da Tabela 31 faça um gráfico de barras em três dimensões Solução 80 70 60 E 50 Q CJ co 40 e セQ 30 o a 20 10 0 Sim Em parte Não Sem resposta Resposta AGORA 34 Você acha que a cirurgia melhorou sua aparência Nos gráficos de barras as barras podem ser apresentadas na po sição horizontal como mostra o Exemplo 35 Exemplo 35 Gráfico de barras horizontais Os dados sobre a etiologia de fraturas e corpos estranhos encontrados na face de 46 pacientes por meio de radiografias panorâmicas feitas em um centro de radiologia estão na Tabela 32 Desenhe um gráfico de barras mas com as barras em posição horizontal Capítulo 3 Apresentação de Dados em Gráficos 53 Solução TABELA32 Distribuição dos pacientes quanto à etiologia da fratura ou presença de corpo estranho Etiologia Acidente de trânsito Agressão Al1Tla de fogo Queda Acidente em esportes Assalto Cirurgia ortognática Total Cirurgia ortognática Assalto Acidente em esportes Queda Arma de fogo Freqüência 16 13 7 4 2 2 2 46 7 Agressão ii 13 Acidente de trânsito ャゥmゥMセゥ 16 o 5 10 Freqüência 15 20 RGURA 35 Distribuição dos pacientes quanto à etiologia do fraturo ou presença de corpo estranho 54 Introdução à Bioestatística 312 Gráfico de setores O gráfico de setores2 é especialmente indicado para apresentar variáveis nominais desde que o número de categorias seja pequeno Para construir um gráfico de setores trace uma circunferência uma circunferência tem 360º Essa circun ferência representará o total ou seja 100 divida a circunferência em tantos setores quantas sejam as catego rias da variável em estudo mas o ângulo de cada setor precisa ser cal culado é igual à proporção de respostas na categoria multiplicada por 360 marque na circunferência os ângulos calculados separe com o tra çado dos raios escreva a legenda e coloque título na figura Exemplo 36 Gráfico de setores Por meio de radiografias panormicas feitas em um centro de radiologia foram constatados fraturas e corpos estranhos na face de 46 pacientes 29 homens e 17 mulheres Faça um gráfico de setores para mostrar a distribuição por sexo des ses pacientes Solução TABELA 33 Distribuição por sexo de pacientes com fraturas e corpos estranhos na face Sexo Masculino Feminino Total Freqüência 29 17 46 Proporção 063 037 100 Para fazer o gráfico de setores é preciso calcular o ngulo de cada setor Para o sexo masculino calcule o ngulo 063 X 360 2268 e para o feminino calcule 037X3601332 20 grâfico de setores é mais conhecido como gráfico de pizza Este não é entretanto o nome técnico Capítulo 3 Apresentação de Dados em Gráficos 5 5 Mulheres 370 Homens 630 RGURA 36 Distribuição de pacientes com fraturas e corpos estranhos no face segundo o sexo Os gráficos de setores podem ser feitos em três dimensões Esse tipo de apresentação aparece em muitas revistas mas deve ser evitado porque di ficulta a avaliação da proporção de cada categoria Exemplo 37 Gráfico de setores em 30 Com os dados da Tabela 23 faça um gráfico de setores em três dimensões Solução Mulheres Homens 630 FIGURA 37 Distribuição de pacientes com fraturas e corpos estranhos no face segundo o sexo 5 5 Introdução à Bioestatística 32 APRESENTAÇÃO DE DADOS NUMÉRICOS 321 Diagrama de linhas Dados numéricos são muitas vezes apresentados em tabelas de distribuição de freqüências Se os dados são discretos as tabelas de distribuição de fre qüências apresentam os valores numéricos na ordem natural em lugar das categorias que aparecem nas distribuições de freqüências de dados quali tativos Reveja o Exemplo 29 do Capítulo 2 Para construir um diagrama de linhas Escreva os valores assumidos pela variável no eixo das abscissas eixo horizontal Escreva as freqüências ou freqüências relativas porcentagens no eixo das ordenadas eixo vertical Desenhe barras verticais com pequena largura para evidenciar que os dados são discretos a partir dos pontos marcados no eixo das abs cissas Os comprimentos das barras são dados pelas freqüências ou pe las freqüências relativas geralmente em porcentagem Coloque legendas nos dois eixos e título na figura Exemplo 38 Diagrama de linhas As faltas ao trabalho de 30 empregados de uma clínica em determinado semes tre estão na Tabela 28 do Capítulo 2 A partir dela foi feita uma tabela de dis tribuição de freqüências Faça o diagrama de linhas Solução 35 30 25 ü 20 e Q CT 15 Q セu 10 5 0 o 1 2 3 4 5 6 Nº de faltas AGURA 38 Diagrama de linhas para a distribuição do número de feitas ao trabalho de 30 empregados de uma clínica no semestre Capítulo 3 Apresentação de Dados em Gráficos 51 322 Gráfico de pontos Os dados contínuos ao contrário dos discretos são na maioria das ve zes uns diferentes dos outros Veja o Exemplo 39 os valores são todos di ferentes entre si Quando em pequeno número os dados contínuos podem ser apresentados por meio de um gráfico de pontos Para fazer um gráfico de pontos ou diagrama de pontos Desenhe uma linha na verdade o eixo das abscissas com escala de maneira que nela caibam todos os dados Desenhada a linha ponha sobre ela pontos que representem os dados obedecendo à escala Coloque legenda no eixo e título na figura Exemplo 39 Tempo de sobrevivência após transplante renal O número de dias que sete pacientes submetidos a um transplante renal sobrevi veram após a cirurgia em determinado hospital foi 17 5 48 120 651 64 150 Apresente esses dados em um gráfico de pontos Solução Para fazer um gráfico de pontos ou diagrama de pontos comece desenhando uma linha eixo das abscissas que vá do zero até 700 porque o maior número é 651 Desenhada a linha ponha os pontos que vão representar os dados sobre ela sem pre obedecendo à escala como mostra a Figura 39 o 100 200 300 400 500 600 700 AGURA 39 Diagrama de pontos para os dados de sobrevivência a transplante renal 323 Histograma Quando os dados são contínuos e a amostra é grande não se pode fazer um gráfico de pontos É mais conveniente condensar os dados isto é organizar uma tabela de distribuição de freqüências3 e dese nhar um histograma Para construir um histograma Trace primeiro o sistema de eixos cartesianos Faça de preferência tabelas de freqüência com intervalos iguais Se os intervalos de classe fo rem diferentes não se pode fazer o histograma como ensinado aqui Consulte textos mais avan çados 51 Introdução à Bioestatística Apresente as classes no eixo das abscissas Se os intervalos de classe forem iguais trace barras retangulares com bases iguais que corres pondam aos intervalos de classe Desenhe as barras com alturas iguais às freqüências ou às freqüên cias relativas das respectivas classes As barras devem ser justapos tas para evidenciar a natureza contínua da variável Coloque legendas nos dois eixos e título na figura Exemplo 310 Histograma Faça um histograma para apresentar os dados mostrados em distribuição de fre qüências na Tabela 211 do Capftulo 2 40 35 3J la e 25 e G 20 CI セ 15 Solução 15 f 20 20 f 25 25 f 30 30 f 35 35 f 40 40 f 45 45 f 50 Peso ao nascer FIGURA 310 Histograma para peso ao nascer de nascidos vivos em quilogramas 324 Polígono de freqüências Os dados apresentados em tabela de distribuição de freqüências tam bém podem ser mostrados em gráficos denominados polígonos de fre qüências Para fazer esse tipo de gráfico Trace o sistema de eixos cartesianos Marque no eixo das abscissas pontos que correspondam aos valores centrais4 das classes valor central ou ponto médio de uma classe é a média dos dois extremos de classe Capítulo 3 Apresentação de Dados em Gráficos 5 9 Marque no eixo das ordenadas as freqüências de classe Una os pontos por segmentos de reta Feche o polígono unindo os extremos da figura com o eixo horizontal nos pontos de abscissas iguais aos valores centrais de uma classe ime diatamente inferior à primeha e de uma classe imediatamente supe rior à última Coloque legendas nos dois eixos e título na figura 40 35 IJ 25 G e Q 20 oJ e Q セu 15 10 5 o 125 175 225 275 325 375 425 475 525 Peso ao nascer FIGURA 311 Polígono de freqüências para peso ao nascer de nascidos vivos em quilogramas 33 OBSERVAÇÕES 1 As barras no gráfico de barras tanto podem ser desenhadas na posição horizontal como na vertical A apresentação gráfica é a mesma Só o programa Excel muito usado para fazer gráfico no meia o gráfico da Figura 31 como gráfico de colunas Se as ca tegorias tiverem nomes extensos como é o caso do Exemplo 35 prefira desenhar as barras na posição horizontal porque isso fa cilita a leitura 2 Em geral as pessoas são mais capazes de comparar comprimentos de barras do que ângulos de gráficos de pizza Por isso desenhe pizzas somente quando o número de categorias for pequeno 3 Se você pretende desenhar um histograma organize a tabela de distribuição de freqüências com classes iguais 51 Introdução à Bioestatística 34 EXERCÍCIOS RESOLVIDOS 341 Faça um gráfico de barras e um gráfico de setores para apresentar os dados da Tabela 215 do Capítulo 2 O gráfico de barras está na Figura 312 e o gráfico de setores está na Fi gura 313 40 35 3471 30 2467 E Q 25 2091 cn 1971 20 e セQ 15 o a 10 5 00o Escorpião Serpente Aranha Outros animais Animal FIGURA 312 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal Outros animais 2467 Serpente 2091 Escorpião 3471 FIGURA 313 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal Capítulo 3 Apresentação de Dados em Gráficos 1 342 Faça um histograma e um polígono de freqüências para apresentar dados da Tabela 217 do Capítulo 2 18 16 14 co 12 ü 10 e Q o 8 e Q セu 6 4 2 o BOf90 90f100 100f110 110f120 120f130 130f140 140 f150 150f100 Pressão arterial FIGURA 314 Distribuição da pressão arterial em milímetros de mercúrio de cães adultos anestesiados 18 16 14 co 12 3 10 e Q o e Q セu 8 6 4 2 o 75 85 95 105 115 125 135 145 155 165 Pressão arterial FIGURA 3lS Distribuição da pressão arterial em milímetros de mercúrio de cães adultos anestesiados 5 2 Introdução à Bioestatística 343 Por que uma pessoa que conhece determinado assunto preferiria olhar uma tabela de distnõuição de freqüências em vez de um gráfico Qual seria um argumento razoável contra essa postura Como podem ser construídos gráficos muito diferentes com base nos mes mos dados a interpretação com base apenas neles pode não ser confiável Por outro lado a apresentação gráfica que faz ressaltar determinadas ca racterísticas dos dados ajuda o pesquisador Às vezes é melhor observar tanto dados como gráfico5 344 Quando um gráfico deve ser grande Quando deve ser pequeno O gráfico deve ser grande quando os valores que apresenta precisam ser li dos Um gráfico pequeno mostra apenas as características gerais do conjunto de dados 35 EXERCÍCIOS PROPOSTOS 351 Desenhe um gráfico de setores para apresentar a distribuição de freqüên cias que você construiu conforme pedido no Exercido 284 352 Desenhe um gráfico de barras para apresentar a distribuição de freqüên cias que você construiu conforme pedido no Exercido 286 353 Desenhe um gráfico de setores para apresentar a distribuição de freqüên cias que você construiu conforme pedido no Exercido 288 354 Desenhe um histograma para apresentar a distribuição de freqüências que você construiu usando intervalos de classes iguais conforme pedido no Exercido 2811 355 Desenhe dois gráficos de setores um para cada zona de moradia para apresentar a distribuição de freqüências que você construiu conforme pe dido no Exercido 2813 356 Desenhe um gráfico de barras as barras na posição horizontal para apresentar a distribuição de freqüências que você construiu conforme pe dido no Exercido 2815 Veja mais explicações no Capitulo 6 Capítulo 3 Apresentação de Dados em Gráficos 3 357 Desenhe um histograma para apresentar a distribuição de freqüências que você construiu conforme pedido no Exercicio 2816 358 Desenhe um gráfico de barras as barras na posição horizontal para apresentar a twca de aproveitamento para cada órgão usando os dados apresentados na Tabela 223 do Capítulo 2 359 Com base nos dados apresentados na Tabela 34 faça uma tabela de dis tribuição de freqüência Desenhe um histograma TABELA 34 Pressão sangüínea diastólica de 30 enfermeiros que trabalham em um hospital 81 89 91 81 79 82 70 80 92 64 73 ffi 87 74 72 75 90 ffi 83 79 82 82 78 85 77 83 85 87 88 80 3510 Com base nos dados apresentados na Tabela 34 faça uma tabela de distribuição de freqüências Desenhe um polígono de freqüências página deixada intencionalmente em branco Medidas de Tendência Central 4 página deixada intencionalmente em branco Capitulo 4 Medidas de Tendência Central 67 Muitas pessoas preferem para entender as características gerais de um conjunto de dados olhar uma figura1 Daí a importância dos métodos gráficos descritos no Capítulo 3 No entanto medidas numéricas são mais úteis do que gráficos para mostrar o padrão geral dos dados Além de se rem mais exatas elas podem ser escritas e faladas Neste Capítulo veremos as medidas de tendência central Antes porém de descrever essas medidas precisamos apresentar alguns símbolos matemáticos 41 SÍMBOLOS MATEMÁTICOS Para representar uma amostra com n unidades escrevemos O subscrito i indica a posição da medida xi é aiésima observação num conjunto de n observações Portanto x1 representa a primeira observação x2 representa a segunda e assim por diante Exemplo 41 Peso de bebês São dados os pesos em quilogramas de cinco recémnascidos em um hospital na ordem em que eles nasceram 3500 2850 3370 2250 3970 Escreva esse conjunto de dados na notação geral e identifique n Solução Em termos dos símbolos podemos escrever x1 3500 x2 2850 x3 3370 x4 2250 x5 3970 O último subscrito no caso 5 dá o tamanho da amostra Com relação ao Exemplo 41 na seqüência x1 x2 x3 x4 x5 não existe ordem com relação à grandeza dos dados O bebê menor não é necessaria mente o primeiro da amostra nem o bebê maior precisa ser o últímo Qual quer que for a amostra os valores x1 x2 x3 x estarão na ordem em que foram coletados Os pontos significam e assím por diante A soma dos valores x1 x2 x3 x é escrita como segue x1 x2x3 x ou de forma muito mais compacta n L X iI 1 Já disse alguém Um desenho vale por mil palavras 51 Introdução à Bioestatística que se lê somatório de x índice i i de 1 a n O símbolo I que indica o soma tório é a letra grega sigma maiúscula O subscrito i 1 sob I indica que o índice i deve ser substituído por números inteiros em ordem crescente sucessivamente começando por 1 e terminando em n Exemplo 42 A notação de somatório Lembre o exemplo 41 Os pesos dos bebês eram X1 3500 X2 2850 x3 3370 X4 2250 X5 3970 Calcule a soma desses pesos mas faça a indicação da soma usando a notação de somatório Solução Em termos dos símbolos podemos escrever 5 L X x1 X2 Xs il 3500 2850 3370 2250 3970 15940 Quando é fácil saber o número de parcelas que devem ser somadas pelo próprio texto podemos escrever apenas Ix em lugar L X iI 42 MÉDIA DA AMOSTRA A medida de tendência central mais conhecida e mais utilizada é a média aritmética ou símplesmente média Como se calcula uma média A média aritmética de um conjunto de dados é obtida somando todos os dados e dividindo o resultado pelo número deles Média Soma de todos os dados Tamanho da amostra A média que se indica média por x lêse xtraço ou xbarra tem uma fórmula Lx X n que se lê xtraço é igual ao somatório de x dividido por n Capitulo 4 Medidas de Tendência Central 69 Exemplo 43 A média da circunferência abdominal de 10 pessoas Um professor de Educação Física mediu a circunferência abdominal de 10 homens que se apresentaram em uma academia de ginástica Obteve os valores em cen tímetros 88 83 79 76 78 70 80 82 86 105 Calcule a média Solução Some todos os dados e divida o resultado pelo tamanho da amostra que é 1 O Então x 888379 76 78708082 86105 827 82 7 10 10 ou seja os homens mediram em média 827 cm de circunferência abdominal A média indica o centro de gravidade do conjunto de dados Para en tender essa afirmativa observe a Figura 41 que apresenta os dados do Exemplo 43 Imagine que o eixo das abscissas sejam os braços de uma ba lança e que cada ponto tenha uma unidade de massa Para haver equiliôrio é preciso que o fulcro da balança esteja sob a média isto é no ponto em que está a flecha Então a média é a abscissa do centro de gravidade 70 75 80 t 85 Circunferência abdominal 90 95 100 105 AGURA 41 Distribuição de dados de circunferência abdominal em centímetros sobre um eixo e o respectiva médio Quando a amostra é grande e os dados são discretos podem ocorrer valores repetidos Nesses casos como vimos no Capítulo 2 é razoável or ganizar os dados em uma tabela de distribuição de freqüências Veja a Ta bela 41 71 Introdução à Bioestatística TABELA41 Uma tabela de distribuição de freqüências 1 Dados Freqüência x t X2 f2 x f n Total IJ A média aritmética de dados agrupados em uma tabela de distribuição de freqüências isto é de x1 x2 x que se repetem f 1 fi f vezes na amostra é Exemplo 44 A média do número de filhos Para calcular a média do número de filhos em idade escolar que têm os funcio nários de uma empresa a psicóloga que trabalha em Recursos Humanos obteve uma amostra de 20 funcionários Os dados estão apresentados em seguida Como se calcula a média TABELA42 Número de filhos em idade escolar de 20 funcionários 1 o 1 o 2 1 2 1 2 2 1 5 o 1 1 1 3 o o o Solução Primeiro é preciso construir a tabela de distribuição de freqüências Veja a Ta bela 43 Capitulo 4 Medidas de Tendência Central 71 TABELA 43 Distribuição de freqüências para o número de filhos em idade escolar de 20 funcionários Número de filhos em idade escolar Freqüência o 1 2 3 4 5 6 8 4 1 o 1 Os cálculos intermediários para obter a média estão na Tabela 44 É preciso mul tiplicar cada valor possível x pela respectiva freqüência f somar e dividir a soma pelo tamanho da amostra n If TABELA 44 Cálculos auxiliares Número de filhos Freqüência Produto em idade escolar x f xf o 6 o 1 8 8 2 4 8 3 3 4 o o 5 1 5 Total I f 20 I xf 24 A média é obtida dividindo 24 por 20 que resulta em 12 filho em idade escolar por funcionário Aplicando a fórmula Ox6 lx 82x43xl 4x0 5xl 24 x 12 6841 01 w 7 2 Introdução à Bioestatística Em certos casos principalmente quando a variável é contínua e a amostra é grande são apresentadas apenas as tabelas de distribuição de freqüências os dados brutos não são fornecidos Para calcular a média de dados agrupados em classes é preciso calcular o valor central de cada classe O valor central é a média dos dois extremos de classe Veja o exem plo 45 Exemplo 45 A média de peso ao nascer de nascidos vivos No Exemplo 211 do Capítulo 2 os dados foram agrupados em faixas de peso Os nascidos vivos com pesos entre 15 inclusive e 20 kg exclusive constitufram a primeira classe os nascidos vivos com pesos entre 20 inclusive e 25 kg exclusive constituíram a segunda classe e assim por diante Nesse caso como se calcula a média TABELA45 Nascidos vivos segundo o peso ao nascer em quilogramas Classe Freqüência 15 f 20 3 20 f 25 16 25 f 30 31 30 f 35 34 35 f 40 11 40 f 45 4 45 f 50 1 Solução Primeiro é preciso obter o valor central de cada classe Para isso some os valo res mínimo e máximo da classe e divida por dois A classe 15 f 20 tem valor mí nimo 15 e valor máximo 20 O valor central da classe é 15 20 35 175 2 2 A classe 20 f 25 tem valor mínimo 20 e valor máximo 25 O valor central da classe é 20 25 45 2 25 2 2 Capitulo 4 Medidas de Tendência Central 73 Proceda da mesma forma para obter os demais valores centrais de classe Para calcular a média construa uma tabela com os cálculos auxiliares Escreva as classes os valores centrais x as freqüências f de classe e os produtos xf como mostra a Tabela 46 TABELA 46 Cálculos auxiliares Valor central Freqüência Produto Classe x f xf 15 f 20 175 3 525 20 1 25 225 16 36 25 f 30 275 31 8525 30 f 35 325 34 1105 35 f 40 375 11 4125 40 f 45 425 4 17 45 f 50 475 1 475 Soma I t 100 ixf 30000 A média é obtida dividindo 300 por 100 que dá 300 ou aplicando a fórmula x l75x3225xl6 475xl 300 300 316 l 100 ou seja a média do peso ao nascer nessa amostra é 300 kg A média é de longe a medida de tendência central mais usada e por isso mais conhecida quem nunca ouviu falar na média de aprovação em determinada disciplina ou no tempo médio de uma viagem por exem plo de São Paulo ao Rio de Janeiro ou na idade média dos jogadores de futebol Em certas circunstâncias porém é melhor usar outras medidas de tendência central como a mediana ou a moda Mas o que é mediana e o que é moda 7 4 Introdução à Bioestatística 43 MEDIANA DA AMOSTRA Mediana é o valor que ocupa a posição central do conjunto dos dados ordenados A mediana divide a amostra em duas partes uma com números meno res ou iguais à mediana outra com números maiores ou iguais à mediana Quando o número de dados é impar existe um único valor na posição cen tral Esse valor é a mediana Por exemplo o conjunto de dados 3 5 9 tem mediana 5 porque 5 é o valor que está no centro do conjunto quan do os números são escritos em ordem crescente Quando o número de da dos é par existem dois valores na posição central A mediana é a média desses dois valores Por exemplo o conjunto 3 5 7 9 tem a mediana 6 porque 6 é a média de 5 e 7 que estão na posição cen tral dos números ordenados Exemplo 46 Calculando a mediana do peso de bebês Calcule a mediana do peso em quilogramas de cinco bebês nascidos em um hos pital dados no Exemplo 41 Solução Coloque os dados em ordem crescente como segue 2250 2850 3370 3500 3970 A mediana é o valor que está na posição central ou seja 3370 kg Em algumas circunstâncias a mediana mais bem descreve a tendência central dos dados É o caso dos conjuntos com dados discrepantes isto é dados de conjuntos que têm um ou alguns valores bem maiores ou bem menores que os demais Veja o Exemplo 47 o valor 42 que é discrepante puxa a média para cima embora não afete a grandeza da mediana Capitulo 4 Medidas de Tendência Central 75 Exemplo 47 Escolhendo entre média e mediana Calcule a média e a mediana dos dados 42 3 9 5 7 9 1 9 Solução Para obter a média calcule X 423957 9 19 85 lÜ 625 8 8 Para obter a mediana é preciso ordenar os dados 135 799942 Como o número de dados é par a mediana é a média aritmética dos valores 7 e 9 que ocupam a posição central dos dados ordenados Então a mediana é 8 A média é maior do que a mediana porque 42 que é um valor discrepante puxa a média para cima Existem casos porém em que o uso da média aritmética é mais razoá vel do que a mediana mesmo que haja um valor discrepante Como exem plo considere que você jogou três vezes na loteria e ganhou na primeira vez x1 R 000 na segunda vez x2 R 000 na terceira vez JS R100000000 Qual medida melhor descreve o seu ganho A mediana é zero diga isso aos seus parentes mas a média é 13 do valor de x3 e esse valor diz mais sobre seu ganho nas três tentativas 44 MODA DA AMOSTRA Moda é o valor que ocorre com maior freqüência Exemplo 48 Determinando a moda Determine a moda dos dados O O 2 5 3 7 4 7 8 7 9 6 Solução A moda é 7 porque é o valor que ocorre o maior número de vezes 7 5 Introdução à Bioestatística Um conjunto de dados pode não ter moda porque nenhum valor se re pete maior número de vezes ou ter duas ou mais modas Assim o conjun to de dados o 2 4 6 8 10 não tem moda e o conjunto 1 2 2 3 4 4 5 6 7 tem duas modas 2 e 4 Quando uma tabela de distribuição de freqüências apresenta grande quantidade de dados é importante destacar a classe de maior freqüência a chamada classe modal Essa classe mostra a área em que os dados estão concentrados Exemplo 49 A moda de idade no Brasil no ano 2000 É dada a distribuição da população brasileira segundo a faixa de idade no Censo 2000 Determine a classe modal TABELA 47 População brasileira presente segundo a faixa de idade Brasil Censo 2000 Faixa de idade Número de pessoas De O a 9 anos 32918055 De 10a19 anos 35287882 De 20 a 29 anos 29991180 De 30 a 39 anos 25290473 De 40 a 49 anos 19268235 De 50 a 59 anos 12507316 De 60 a 69 anos 8182035 De 70 a 79 anos 4521889 De 80 a 89 anos 1570905 De 90 a 99 anos 236624 99 anos e mais 24576 Total 169799170 Fonte IBGE 20032 2Em httpwww1ibgegovbrhome estatisticapopulacao censo2000tabelabrasil111shtm Dis ponível em 14 de março de 2008 Capitulo 4 Medidas de Tendência Central 11 Solução A classe modal é de 10 a 19 anos porque é a classe com maior freqüência En tão a moda no ano 2000 era ter de 1 O até 19 anos A moda também pode ser usada para descrever dados qualitativos Nesse caso a moda é a categoria que ocorre com maior freqüência Exemplo 410 A moda para tipo de sangue Veja os dados apresentados na Tabela 48 Qual é a moda TABELA 48 Distribuição de indivíduos segundo o grupo sangüíneo Grupo sangüíneo Freqüência o 550 A 456 B 132 AB 29 Total 1167 Solução Nessa amostra o grupo sangüíneo O ocorreu com maior freqüência Então a moda nessa amostra é sangue tipo O A moda é bastante informativa quando o conjunto de dados é grande Se o conjunto de dados for relativamente pequeno menos de 30 observa ções você pode até obter a moda mas na maioria das vezes ela não terá qualquer sentido prático A média e a mediana fornecem nesses casos me lhor descrição da tendência central dos dados 45 EXERCÍCIOS RESOLVIDOS 451 Com base nos dados da Tabela 49 cakule o peso médio dos ratos em cada idade 71 Introdução à Bioestatística TABELA 49 Peso em gramas de ratos machos da raça Wistar segundo a idade em dias Idade Número do rato セ 34 38 42 46 1 76 95 99 122 134 2 81 00 101 125 136 3 ffi 60 62 72 85 4 47 Il 57 72 84 5 63 79 82 94 110 6 65 75 79 88 98 7 63 74 79 88 100 8 64 74 92 00 98 Para obter a média aritmética aos 30 dias basta calcular セ 76815047 63 65 63 64 509 63 6 8 8 Da mesma forma para 34 dias obtémse セ 95 90 6050 79 75 74 74 597 746 8 8 As médias para as demais idades são obtidas de maneira idêntica Essas médias apresentadas na Tabela 410 mostram que o peso médio dos ratos aumenta com a idade TABELA 410 Médias em gramas dos pesos de grupos de oito ratos machos Wistar segundo a idade em dias Idade Média 30 34 38 42 46 636 746 814 946 1056 Capitulo 4 Medidas de Tendência Central 79 452 Determine a mediana dos dados apresentados na Tabela 28 do Capítulo 2 Para obter a mediana os dados da Tabela 28 faltas ao trabalho de 30 empregados de uma clínica em determinado semestre foram arranjados em ordem crescente na Tabela 411 TABELA 411 Faltas ao trabalho de 30 empregados de uma clínica em determinado semestre em ordem crescente o o o o o o o o o 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3 3 3 4 4 6 Como o número de dados 30 é par a mediana é a média aritmética dos dois valores em negrito que ocupam a posição central ou seja a mediana é 1 Portanto metade dos empregados faltou um dia ou não faltou no se mestre 453 Foi feito um experimento para testar o efeito de um antiinflamat6rio droga que tem também efeito analgésico em pacientes com osteoar trite Os pacientes foram sorteados para receber placebo 2 x ao dia ou droga 60 mg 2 x ao dia Os dados apresentados na Tabela 412 são uma medida da dor à noite O nenhuma dor 100 dor extrema rela tada pelo paciente Calcule as diferenças entre os valores obtidos no fi nal e no início da pesquisa para placebo e para droga Calcule as médias dessas diferenças Discuta TABELA 412 Dados de dor referidos pelo paciente numa escala de zero a 100 segundo o tratamento Placebo Anti inflamatório Início Final Início Final 00 70 00 00 70 50 75 50 75 50 45 25 75 85 50 20 65 65 60 30 li Introdução à Bioestatística TABELA 413 Dados de dor referidos pelo paciente numa escala de zero a 100 e diferenças entre início e final do tratamento 1 Pia cebo Antiinflamatório Início Final Diferença Início Final Diferença 00 70 10 00 ffl 20 70 50 20 75 50 25 75 50 25 45 25 20 75 85 10 50 20 30 65 65 o ffl 30 30 1 365 320 45 310 185 125 Nota A última linha é o total ou soma As médias das diferenças são 90 para placebo e 250 para o antün flamatório A diminuição da dor foi maior quando se usou antünflamatório 46 EXERCÍCIOS PROPOSTOS 461 Detennine média mediana e moda dos seguintes conjuntos de dados a 8 3 O 6 8 b 8 16 2 8 6 e 4 16 10 6 20 10 d O 2 3 1 5 f I f I e 21 O 1 2 1 9 462 Imagine que você está dirigindo um carro numa estrada e observa que o número de carros que você ultrapassa é igual ao número de carros que ultrapassam você Nesse caso a velocidade de seu carro corresponde considerando as velocidades de todos esses carros a qual medida de tendência central 463 Dado um conjunto de dados qual das medidas de tendência central média mediana e moda corresponde sempre a um valor numérico do conjunto 464 Quatro pessoas reunidas numa sala têm em média 20 anos Se uma pessoa com 40 anos entrar na sala qual passa a ser a idade média do grupo Capitulo 4 Medidas de Tendência Central 81 465 Na Tabela 414 estão taxas de glicose em miligramas por 100 ml de san gue em ratos machos da raça Wistar com 30 dias de idade que serão usa dos em um experimento para o teste de detenninada droga Ache média e mediana TABELA 414 Taxa de glicose em miligramas por 100 mi de sangue de oito ratos machos da raça Wistar com 30 dias de idade 1 Nº do rato Taxa de glicose 1 101 2 00 3 97 4 104 5 95 6 105 466 Na Tabela 415 estão apresentados estaturas em metros pesos em quilo gramas e pressão arterial em milímetros de mercúrio de pacientes hospi talizados porque tiveram um acidente vascular cerebral AVC mais conhecido como derrame Calcule a média e a mediana para cada variável TABELA 415 Estaturas em metros pesos em quilogramas e pressão arterial em milímetros de mercúrio de 11 pacientes hospitalizados 1 Nº do paciente Estatura Peso Pressão arterial 1 175 00 180 2 158 00 200 3 180 00 140 4 165 76 220 5 180 70 170 6 173 65 150 7 168 72 140 8 165 70 140 9 165 75 180 10 175 70 160 11 165 70 140 12 Introdução à Bioestatística 467 Com os dados apresentados na Tabela 416 calcule o número médio de dentes cariados para cada sexo TABELA 416 Escolares de 12 anos segundo o número de dentes cariados e o sexo Sexo Número de dentes cariados Masculino Feminino o 16 13 1 2 5 2 3 3 3 2 2 4 2 2 468 Para estudar o tempo de latência de um sonífero usando ratos de labora tório um pesquisador administrou o sonífero a 10 ratos e determinou o tempo que eles demoravam em dormir Dos 10 ratos dois demoraram meio minuto quatro demoraram 1 minuto três demoraram 1 minuto e meio e um rato não dormiu Calcule o tempo médio de latência 469 Determine a média mediana e a moda para cada sexo dos dados apre sentados na Tabela 417 TABELA417 Consumo diário de sal em gramas por dia segundo o sexo Sexo Masculino Feminino 6 4 9 10 6 6 8 8 7 6 6 8 Capitulo 4 Medidas de Tendência Central 83 4610 Detennine a média a mediana e a moda para cada sexo dos dados apre sentados na Tabela 418 TABELA 418 Volume diário de urina em litros por sexo 1 Sexo Masculino Feminino 05 09 14 06 09 05 08 13 13 08 05 07 4611 Detennine a mediana e a moda para os dados apresentados na Tabela 419 e interprete TABELA 419 Tempo de retorno em dias às atividades de pacientes submetidas a histerectomia 1 Nº da paciente Tempo de retorno 1 20 2 lJ 3 15 4 20 5 40 6 f 7 25 8 lJ 9 15 10 35 84 Introdução à Bioestatística 4612 Detennine a média dos dados apresentados na Tabela 420 TABELA 420 Teor de vitamina C miligramas de ácido ascórbico em 100 mi em 10 caixas de 100 mi de suco de maçã encontrado no mercado 1 Nº da caixa Teor de vitamina C 1 25 2 49 3 41 4 08 5 24 6 57 7 33 8 74 9 16 10 35 4613 A média a mediana e a moda podem ser iguais Dê um exemplo 4614 Qual das medidas de tendência central não pode ser calculada para os dados da Tabela 421 Por quê TABELA 421 Número de reclamações recebidas pela diretoria de empregados de uma clínica em determinado semestre distribuídas segundo o sexo Sexo Número de reclamações Masculino Feminino o 16 13 1 8 3 2 3 3 3 2 1 4 ou mais 2 3 Medidas de Dispersão para uma Amostra 5 página deixada intencionalmente em branco Capítulo 5 Medidas de Dispersão para uma Amostra l 7 As medidas de tendência central resumem a informação contida em um con junto de dados mas não contam toda a história Por exemplo é fato de observação diária que na mesma cidade a temperatura varia ao longo do dia Ainda no mesmo dia registramse temperaturas muito diferentes em diferentes lugares do mundo O peso das pessoas varia ao longo da vida e a quantidade de dinheiro que carregam nos bolsos varia em função das cir cunstâncias Por causa da variabilidade a média a mediana e a moda que estudamos no Capítulo 4 não bastam para descrever um conjunto de dados elas informam a tendência central mas nada dizem sobre a variabilidade Para entender este ponto imagine dois domicílios no primeiro moram sete pessoas todas com 22 anos de idade A média de idade dos morado res desse domicílio coletivo uma república é evidentemente 22 anos No segundo domicHio também moram sete pessoas um casal ela com 17 e ele com 23 anos dois filhos um com 2 outro com 3 anos a mãe da moça com 38 anos de idade e um seu outro filho de 8 anos e a avó da moça com 65 anos Nesse segundo domicílio a média de idade também é 22 anos No entanto idade média de 22 anos descreve bem a situação no primei ro domicílio mas não no segundo As medidas de tendência central são tanto mais descritivas de um con junto de dados quanto menor for a variabilidade Então quando você apre senta medidas de tendência central para desétever um éonjunto de dados deve fornecer também uma medida de variabilidade ou dispersão Veremos neste Capítulo algumas medidas usadas para medir variabilidade 51 MÍNIMO MÁXIMO E AMPLITUDE O mínimo de um conjunto de dados é o número de menor valor O máximo de um conjunto de dados é o número de maior valor Para medir variabilidade você pode fornecer os valores minimo e má ximo do conjunto de dados e calcular a amplitude usando a fórmula amplitude máximo minimo A amplitude de um conjunto de dados definida como a diferença entre o máximo e o mínimo é uma medida de dispersão ou varia bilidade 11 Introdução à Bioestatística Exemplo 51 Mínimo máximo e amplitude das idades das crianças As idades das crianças que estão no pátio de uma escola são 3 6 5 7 e 9 anos Faça uma tabela para apresentar o tamanho da amostra a média o mínimo o máximo e a amplitude Solução Para obter a média você precisa calcular 3 6 579 6 5 Para obter a amplitude você ordena os dados como segue 3 5 6 7 9 A ampli tude é amplitude 9 3 6 TABELA 51 Estatísticas das idades das crianças Estatísticas Tamanho da amostra Média Mínimo Máximo Amplitude Resultados 5 6 3 9 6 Alguns autores fornecem os valores mínimos e máximos para descrever seus dados e não fornecem a amplitude Isto está certo porque esses va lores são muitas vezes mais úteis Por exemplo se alguém informar que os policiais que estão na ativa em certa corporação têm idades entre 18 e 52 anos estará fornecendo informação mais útil do que se disser que a amplitude das idades é 34 anos De qualquer modo a idéia de que os da dos de um conjunto têm amplitude de variação é básica em Estatística A amplitude é fácil calcular e é fácil de interpretar Mas essa medida não mede bem a variabilidade por uma razão simples para calculála usamse apenas os dois valores extremos Então dois conjuntos de dados podem ter variabilidades diferentes e apresentar a mesma amplitude Ainda um valor discrepante por ser muito grande ou muito pequeno faz a amplitu de aumentar muito Como dizem os estatísticos a amplitude é muito sen sível aos valores discrepantes Capítulo 5 Medidas de Dispersão para uma Amostra 1 9 Exemplo 52 Amplitude do barulho do tráfego São dados em seguida o barulho do tráfego em duas esquinas medido em decibéis durante os cinco dias úteis de determinada semana Calcule as amplitudes 1ª esquina 520 545 540 510 544 550 za esquina 540 515 520 510 530 77 1 Solução 1ª esquina amplitude 550 510 40 2ª esquina amplitude 771 510 261 Note que na segunda esquina houve um dia em que o barulho foi bem maior do que nos demais dias da semana Ocorreu então o que os estatísticos chamam de valor discrepante Esse valor 771 aumentou em muito a amplitude dos dados da segunda esquina 52 QUARTIL A mediana que você viu no Capítulo 4 divide um conjunto de dados em dois subconjuntos com o mesmo número de dados o que antecede a mediana dados iguais ou menores do que a me diana o que sucede a mediana dados iguais ou maiores do que a mediana Se o número de observações for grande digamos maior do que 30 o conceito de mediana pode ser estendido da seguinte forma a mediana di vide o conjunto de dados em duas metades os quartis como o nome su gere dividem o conjunto de dados em quatro quartos Os quartis dividem um conjunto de dados em quatro partes iguais Os quartis são portanto três o primeiro quartil o segundo quartil que é a mediana e o terceiro quartil Para obter os quartis1 Organize os dados em ordem crescente Ache a mediana que é tam bém o segundo quartil marque esse valor Os métodos usados para calcular os quartis têm pequenas diferenças Se você calcular os quartis para o exemplo 53 usando o Excel encontrarã valores diferentes Os valores calculados aqui são os quartis em inglês quartiles O outro método usado no Excel calcula as dobradiças em inglês hinges 9 8 Introdução à Bioestatística Ache o primeiro quartil da seguinte forma tome o conjunto de da dos à esquerda da mediana o primeiro quartil é a mediana do novo conjunto de dados Ache o terceiro quartil da seguinte forma tome o conjunto de da dos à direita dessa mediana o terceiro quartil é a mediana do novo conjunto de dados Exemplo 53 Obtendo os quartis de um conjunto com número ímpar de dados Determine os quartis do conjunto de dados 1 2 3 4 5 5 7 9 1 O Solução Os dados já estão ordenados Para obter a mediana observe que o número de da dos é ímpar Então a mediana é o valor central ou seja é 5 1 2 3 4 5 6 7 9 10 11 Para obter o primeiro quartil separe os dados menores do que a mediana A me diana desses dados 25 é o primeiro quartil 1 2 3 4 11 Para obter o terceiro quartil separe os dados maiores do que a mediana A me diana desses dados 8 é o terceiro quartil 6 7 9 10 11 Lembrese de que a amplitude é muito sensível aos valores discrepan tes isto é a amplitude pode mudar completamente se for incluída uma observação muito maior ou muito menor do que as outras Então também se define a distância interquartílica como medida de dispersão Distância interquartílica é a distância entre o primeiro e o terceiro quartil Distância interquartílica Terceiro quartil Primeiro quartil Capítulo 5 Medidas de Dispersão para uma Amostra 9 1 Exemplo 54 Distância interquartílica para o barulho do tráfego Reveja os dados do exemplo 52 Calcule as distâncias interquartílicas 1ª esquina 520 545 540 510 544 550 2 esquina 540 515 520 510 530 77 1 Solução Para achar a distância interquartílica primeiro ordene os dados Depois ache os quartis Então Para a Qセ esquina 510 520 540 544 545 550 Mediana 542 1º quartil 520 3 quartil 545 Distância interquartífica 5450 5200 25 Para a R セ esquina 510 515 520 530 540 77 1 Mediana 525 1º quartil 515 3º quartil 540 Distância interquartílica 540 515 25 Note que embora as amplitudes apresentadas no Exemplo 53 sejam muito dife rentes as distâncias interquartílicas são iguais 521 Diagrama de caixa Box plot As medidas que acabamos de ver esclarecem a informação contida em um conjunto de dados O diagrama de caixa mostra isso claramente Para de senhar o diagrama são necessárias cinco medidas mínimo primeiro quartil mediana terceiro quartil máximo Para desenhar um diagrama de caixa Desenhe um segmento de reta em posição vertical para representar a amplitude dos dados Marque nesse segmento o primeiro o segundo e o terceiro quartis Desenhe um retângulo box de maneira que o lado superior e o lado inferior passem exatamente sobre os pontos que marcam o primeiro e o terceiro quartis Faça um ponto para representar a mediana obedecendo a escala 9 2 Introdução à Bioestatística Exemplo 55 Um diagrama de caixa Desenhe um diagrama de caixa para apresentar o conjunto de dados 1 2 3 4 5 6 7 8 9 10 Mfnimo 1 Primeiro quartil 3 Mediana 55 Terceiro quartil 8 Máximo 10 12 10 8 cn g 6 Cl 4 2 o FIGURA 51 Diagramo de caixa Solução O retângulo do diagrama de canxa é dado pela distância interquartílica Esse retângulo contém cerca de 50 dos dados que estão no centro da distribuição Capítulo 5 Medidas de Dispersão para uma Amostra 9 3 53 DESVIO PADRÃO DA AMOSTRA O desvio padrão é uma medida de variabilidade muito recomendada porque mede bem a dispersão dos dados e permite por conta disso interpretação de interesse Mas para calcular o desvio padrão é preciso primeiro cal cular a variância Vamos então entender o que é variância 531 Introduzindo a variância Quando a média é usada como medida de tendência central ou seja quando a média indica o centro podemos calcular o desvio de cada observação em relação à média como segue Desvio observação média d X X Se os desvios forem pequenos os dados estão aglomerados em torno da média logo a variabilidade é pequena Por outro lado desvios grandes significam observações dispersas em torno da média e portanto variabi lidade grande Mas veja no Exemplo 56 como calcular desvios em relação à média Exemplo 56 Desvios em relação à média Dadas as idades de cinco crianças do Exemplo 51 isto é 3 6 5 7 e 9 anos cal cule os desvios em relação à média Solução Os desvios são obtidos subtraindo a média de cada observação No caso a média é 6 anos Os desvios estão apresentados na Tabela 52 TABELA 52 Cálculo dos desvios Obsetvação X 3 6 5 7 9 Desvio xx 363 66 Ü 561 76 1 96 3 9 4 Introdução à Bioestatística É preciso resumir todos os desvios em relação à média numa única me dida de variabilidade Calcular a média dos desvios pode parecer à primeira vista sugestão lógica No entanto existem desvios positivos e negativos A soma dos desvios negativos é sempre igual à soma dos positivos Aliás é este o motivo de a média ser uma boa medida de tendência central o peso dos desvios negativos é igual ao peso dos desvios positivos Isto pode ser verificado no Exemplo 56 30 1 1 30 ou em qualquer outro exemplo Para obter uma medida de variabilidade usando os desvios em relação à média é preciso eliminar os sinais antes de somar Uma maneira de eli minar sinais é elevar ao quadrado A soma assim obtida é chamada soma dos quadrados dos desvios A partir dessa soma obtémse a variância Veja a definição de variância da amostra que se indica por s2 Variância da amostra é a soma dos quadrados dos desvios de cada observação em relação à média dividida por n 1 8 2 zxx 2 nl Para calcular a variância calcule os desvios de cada observação em relação à média eleve cada desvio ao quadrado some os quadrados divida o resultado por n1 n é o número de observações Capítulo 5 Medidas de Dispersão para uma Amostra 9 5 Exemplo 57 Calculando a variância No Exemplo 56 foram calculados os desvios em relação à média para os dados do Exemplo 41 Calcule a variância Solução TABELA 53 Cálculo da variância Observação Desvio X xx 3 36 3 6 660 5 561 7 761 9 96 3 A soma dos quadrados dos desvios é A variância é 2 20 s 5 4 Quadrado do desvio xxf 32 9 020 12 1 l2 1 329 A variância quantifica a variabilidade dos dados em termos de desvios da média ao quadrado mas embora seja referida como média dos qua drados dos desvios usamos o divisor n1 em lugar de n Esse divisor n1 são os graus de liberdade 2 associados à variância 532 Definindo o desvio padrão É importante notar que o cálculo da variância envolve quadrados de des vios Então a unidade de medida da variância é igual ao quadrado da me dida das observações Veja o Exemplo 58 as observações são medidas em minutos Então a variância é dada em minutos ao quadrado o que não tem sentido prático 2A soma dos desvios é sempre zero Então dados os valores de n 1 desvios é possível calcular o valor do que estiver faltando Reveja o exemplo 56 que tem n 5 desvios Dados quatro de les por exemplo 3 O 1 e 1 é fácil verificar que a soma deles é 3 Para que seja zero é pre ciso somar 3 exatamente o desvio que não foi incluído na soma Os graus de liberdade repre sentam o número de desvios que estão livres para variar podem ter qualquer valor o últi mo estã determinado porque a soma dos itesvíos é necessariamente zero 9 5 Introdução à Bioestatística Para obter uma medida de variabilidade na mesma unidade de medida dos dados extraise a raiz quadrada da variância Obtémse assim o des vio padrão Desvio padrão é a raiz quadrada da variância com sinal positivo Exemplo 58 Calculando o desvio padrão É dada a duração em minutos das chamadas telefônicas feitas em três consul tórios médicos Calcule a média a variância e o desvio padrão Solução TABELA 54 Tempo em minutos de chamadas telefônicas feitas em uma manhã em três consultórios médicos Consultório A Consultório 8 Consultório C 4 9 9 6 1 1 4 5 1 6 5 2 5 1 8 5 9 9 TABELA 55 Estatísticas calculadas Estatísticas Consultório A Consultório 8 Consultório C Média 5 5 5 Variãncia 08 128 164 Desvio padrão 089 358 405 Capítulo 5 Medidas de Dispersão para uma Amostra 9 1 A duração em minutos das chamadas telefônicas feitas nos três consultórios mé dicos foi em média a mesma isto é 5 minutos No entanto a duração das cha madas variou muito de consultório para consultório Compare por exemplo o des vio padrão 089 minuto do consultório A com o desvio padrão 405 minutos no consultório C 533 Uma fórmula prática para calcular a variância A fórmula dada na Seção 531 para calcular a variância da amostra pode ser desenvolvida algebricamente Obtémse então uma segunda fórmula que embora pareça mais complicada à primeira vista permite que o cál culo da variância seja feito com menor número de operações aritméticas Prefira esta segunda fórmula se você faz cálculos à mão Lx2 rx2 s2 n n 1 Exemplo 59 Calculando a variância pela fórmula prática São dados os tempos em minutos que seis meninos permaneceram sobre seus skates 4 6 4 6 5 5 Calcule a variância usando a nova fórmula Solução TABELA 56 Cálculo da variância X Xz 4 16 6 li 4 16 6 li 5 25 5 25 LX30 Lx2 154 Então a variância é 154 302 s2 6 08 s 9 8 Introdução à Bioestatística 54 COEFICIENTE DE VARIAÇÃO O coeficiente de variação é a razão entre o desvio padrão e a média O resul tado é multiplicado por 100 para que o coeficiente de variação seja dado em porcentagem Então s CV xlOO X Para entender como se interpreta o coeficiente de variação imagine dois grupos de pessoas no primeiro grupo as pessoas têm idades 3 1 e 5 anos e a média é evidentemente 3 anos no segundo grupo as pessoas têm ida des 55 57 e 53 anos com média de 55 anos Observe que nos dois grupos a dispersão dos dados é a mesma ambos têm variância s2 4 Mas as diferenças de 2 anos são muito mais importantes no primeiro grupo que tem média 3 do que no segundo grupo que tem média 55 Agora veja os coeficientes de variação No primeiro grupo o coeficiente de variação é 2 CV X 100 66 67 3 e no segundo grupo o coeficiente de variação é CV2 55 X 100 3 64 Um coeficiente de variação de 6667 indica que a dispersão dos da dos em relação à média é muito grande ou seja a dispersão relativa é alta Um coeficiente de variação de 364 indica que a dispersão dos dados em relação à média é pequena Em outras palavras diferenças de 2 anos são relativamente mais importantes no primeiro grupo que tem média 3 o coeficiente de variação é 6667 do que no segundo grupo que tem mé dia 55 o coeficiente de variação é 364 Então o coeficiente de varia ção mede a dispersão dos dados em relação à média É importante notar que o coeficiente de variação pode ser expresso em porcentagem porque é adimensional isto é não tem unidade de medida Isto acontece porque média e desvio padrão são medidos na mesma unidade de medida então elas se cancelam Por ser adimensional o coeficiente de variação é útil para comparar a dispersão relativa de variáveis medidas em diferentes unidades Veja o Exercício 553 Capítulo 5 Medidas de Dispersão para uma Amostra 9 9 55 EXERCÍCIOS RESOLVIDOS 551 São dados os níveis de colesterol de cinco pessoas 260 160 200 210 240 Calcule média e a variância TABELA 57 Cálculo da média e da variância Nível de colesterol Desvio em relação à média Quadrado do desvio 260 46 2116 160 54 2916 200 14 196 210 4 16 240 26 676 Para obter a média é preciso calcular a soma dos níveis de colesterol 260 160 200 210 240 1070 A média é X lOO 214 Ü 5 Verifique que a soma dos desvios das observações em relação à média é igual a zero 4654144 26 Ü Para obter a variância é preciso calcular 462 542 142 4 2 262 2116 291619616 676 5920 A variância é s2 5920 148000 4 552 Dados os seguintes conjuntos de dados veja qual tem menor variância e quais têm maior variância sem fazer cálculos a 7 7 7 7 b6778 e 6 8 10 12 d QPセQPセ 110 112 O conjunto a tem a menor variâiilcia pois os dados são iguais entre si Os conjuntos c e d têm variâncias iguais variam de 2 em 2 e maiores do que as dos outros dois 111 Introdução à Bioestatística 553 Calcule a média o desvio padrão e o coeficiente de variação dos dados apresentados na Tabela 58 Comente os resultados TABELA 58 Peso em quilogramas e comprimento em centímetros de 10 cães 1 Peso Comprimento 23 104 l2 107 21 103 21 105 17 100 28 104 19 108 14 91 19 102 19 99 a Para peso a média é 203 kg e o desvio padrão é 374 kg O coeficiente de variação é 1842 b Para comprimento a média é 1023 cm e o desvio padrão é 485 cm O coeficiente de variação é 474o Não se podem comparar desvios padrões de peso e comprimento porque as unidades de medida são diferentes Mas os coeficientes de variação po dem ser comparados porque são adimensionais É fácil ver que a dispersão relativa dos dados de peso CV 1842 é maior do que a dispersão rela tiva dos dados de comprimento CV 474o Isto significa que os dados de comprimento variam menos em relação à média do que os dados de peso 554 Determine os quartis3 do conjunto de dados 1 2 2 5 5 7 8 10 11 11 Os dados já estão ordenados Para obter a mediana note que o número de dados é par Então a mediana é a média dos dois valores centrais ou seja de 5 e 7 que é 6 1 2 2 5 5 7 8 10 11 11 セ Os métodos usados para calcular os quartis têm pequenas diferenças Se você calcular os quartis para o Exemplo 45 usando o Excel encontrará 1 quartil 275 3 quartil 95 Não é o méto do ensinado aqui Capítulo 5 Medidas de Dispersão para uma Amostra 1 11 Para obter o primeiro quartil separe os dados menores do que a medi ana 6 O primeiro quartil é a mediana desses dados ou seja é 2 1 2 2 5 5 Para obter o terceiro quartil separe os dados iguais ou maiores do que a mediana O terceiro quartil é a mediana desses dados ou seja é 10 7 8 10 11 11 1t 555 Para comparar dois programas de treinamento para executar um servi ço especializado foi feito um experimento Dez homens foram seleciona dos ao acaso para serem treinados pelo método A e outros 1 O para serem treinados pelo método B Terminado o treinamento todos os homens fi zeram o serviço e foi registrado o tempo em que cada um desempenhou a tarefa Os dados estão na Tabela 59 Desenhe dois diagramas de caixa e compare TABELA 59 Tempo em minutos despendido em executar o serviço segundo o método de treinamento Método 1 A B 15 Z3 20 31 11 13 Z3 19 16 Z3 21 17 18 28 16 26 27 25 24 28 1 11 Z Introdução à Bioestatística Método A Mínimo 11 Primeiro quartil16 Mediana 19 Terceiro quartil 23 Máximo 27 Método B Mínimo 13 Primeiro quartil19 Mediana 24 Terceiro quartil 28 Máximo 31 セ 32 28 1 o 24 e E o 20 1 e E セ 16 12 8 A B Método FIGURA S2 Comparação de dois diagramas de caixa A Figura 52 mostra que a mediana do tempo despendido por homens treinados pelo método A foi menor A variabilidade é pra ticamente a mesma para os dois métodos Prefira o método A Capítulo 5 Medidas de Dispersão para uma Amostra 1 13 556 Caltvle a variância e o desvio padrão dos dados apresentados na Tabe la 4 9 do Capítulo 4 em cada idade Comente o resultado A variância é dada pela fórmula Usando uma calculadora obtémse a Para 30 dias de idade Ix2 33305 Ix 509 Ix2 259081 b Para 34 dias de idade Ix2 46043 Ix 597 Ix2 356409 c Para 38 dias de idade y 54765 Ix 651 Ix2 423801 d Para 42 dias de idade y 74417 Ix 757 Ix2 573049 e Para 46 dias de idade Ix2 92041 Ix 845 Ix2 714025 Para calcular o desvio padrão basta extrair a raiz quadrada da variância Os valores dos desvios padrões estão apresentados na Tabela 510 É fácil ver que os desvios padrões aumentam com a idade Portanto a dispersão dos dados em torno da média aumenta com a idade TABELA 510 Desvio padrão do peso em gramas de grupos de oito ratos machos da raça Wistar segundo a idade em dias Idade Desvio padrão IJ 115 34 146 38 160 42 199 46 200 114 Introdução à Bioestatística 56 EXERCÍCIOS PROPOSTOS 561 Dados os valores 5 3 2 e 1 ache a I mínimo b o máximo c a am plitude 562 Dados os valores 3 8 5 6 4 3 e 6 ache a Ix b Lx x 2 5 63 Calcule a média e o desvio padrão para o seguinte conjunto de dados 3 9 4 1 3 564 A variância de uma amostra é 100 e a soma de quadrados dos desvios é 500 Qual é o tamanho da amostra 565 A média das idades das quatro pessoas que estão reunidas em uma sala é 20 anos e a variância é zero Se uma pessoa com 40 anos entrar na sala qual será a idade média do novo grupo e qual será a variância 566 São dadas na Tabela 511 as notas de três alunos em cinco provas Calcu le para cada aluno a média e o desvio padrão das notas obtidas Discuta TABELA 511 Notas de quatro alunos em cinco provas Aluno f prova ZJ prova 3 prova 41 prova 5 prova Antônio 5 5 5 5 5 João 6 4 5 4 6 Pedro 10 10 5 o o 5 6 7 Responda às questões a O valor do desvio padrão pode ser maior do que o valor da média b O valor do desvio padrão pode ser igual ao va lor da média c O valor do desvio padrão pode ser negativo d Quando o desvio padrão é igual a zero 568 Calcule a variância o desvio padrão e o coeficiente de variação para os dados apresentados no Exercício 465 do Capítulo 4 569 Os tempos de latência em minutos de um analgésico em seis pacientes foram 4 6 4 6 5 5 Calcule a média e a variância Capítulo 5 Medidas de Dispersão para uma Amostra 1 15 5610 Responda às questões a qual é a desvantagem de usar a amplitude para comparar a variabilidade de dois conjuntos de dados b a variância pode ser negativa c a variância pode ser menor do que o desvio padrão 5611 Um professor de Odontologia quer saber se alunos que começam a aten der pacientes em disciplinas clínicas têm aumento na pressão sistólica Mediu então a pressão sistólica de cinco alunos de primeiro ano que não cursam disciplinas clínicas e de cinco alunos do segundo ano logo an tes do primeiro atendimento de pacientes Os dados estão na Tabela 512 Calcule as médias e os desvios padrões Discuta TABELA 512 Pressão sangüínea sistólica em milímetros de mercúrio de alunos segundo o ano que cursavam fR ano 113 121 115 123 118 セ ョッ 126 131 146 126 126 5612 Para verificar se duas dietas indicadas para pessoas que precisam per der peso são igualmente eficientes um médico separou ao acaso um con junto de 12 pacientes em dois grupos Cada paciente seguiu a dieta de signada para seu grupo Decorrido certo tempo o médico obteve a perda de peso em quilogramas de cada paciente de cada grupo Os dados es tão na Tabela 513 Calcule as médias e as variâncias Discuta TABELA 513 Perda de peso em quilogramas segundo a dieta A 8 5 6 7 4 6 Dieta B 7 8 2 5 12 8 115 Introdução à Bioestatística 5 613 Calcule as médias e os desvios padrões das notas obtidas por alunos dos cursos diurnos e noturnos de uma universidade brasileira no Exame Na cional de Cursos Provão em determinado ano Compare TABELA 514 Notas obtidas por alunos de determinada universidade no Exame Nacional de Cursos Provão em determinado ano Curso Curso diurno Curso noturno Administração 512 471 Direito 551 59 Matemática 433 357 Letras 46 466 Flsica 43 43 Ouimica 466 465 Ciências biológicas 495 426 Pedagogia 633 582 História 293 298 Noções sobre Correlação 6 página deixada intencionalmente em branco Capítulo 6 Noções sobre Correlação 1 19 Você já deve ter ouvido falar que a pressão arterial aumenta quando a idade avança Você também já deve ter ouvido falar que o desempenho de um atle ta melhora com o treinamento E você provavelmente já ouviu dizer que o número de cáries diminui com uma higiene oral bemfeita Estes exemplos mostram que existem relações entre variáveis ou em linguagem nada téc nica que existem variáveis que andam juntas 61 DIAGRAMA DE DISPERSÃO Vamos pensar em duas variáveis numéricas e só para facilitar vamos chamar uma delas de X e a outra de Y Então cada unidade da amostra for nece dois valores numéricos um referente à variável X outro referente à variável Y Você já sabe calcular a média o mínimo o máximo e o desvio padrão de cada uma das duas variáveis Mas neste Capítulo vamos buscar responder às questões a Existe relação entre as variáveis X e Y b Que tipo de relação existe entre elas c Qual é o grau da relação Para estudar a relação entre duas variáveis numéricas você pode fazer um gráfico da seguinte maneira Trace um sistema de eixos cartesianos e represente uma variável em cada eixo Estabeleça as escalas de maneira a dar ao diagrama o aspecto de um quadrado Escreva os nomes das variáveis nos respectivos eixos e faça depois as graduações Desenhe um ponto para representar cada par de valores das variáveis O gráfico assim obtido é chamado diagrama de dispersão O diagrama de dispersão permite visualizar a relação entre duas variáveis Se X e Y cres cem no mesmo sentido existe uma correlação positiva entre as variáveis Se X e Yvariam em sentidos contrários existe correlação negativa entre as va riáveis Exemplo 61 Correlação positiva e correlação negativa A Tabela 61 apresenta dois conjuntos de pares de valores das variáveis X e Y A correlação é positiva no Conjunto A porque X e Y crescem juntas a correlação é negativa no Conjunto B porque X cresce enquanto Y decresce Observe os diagra mas de dispersão da Figura 61 é mais fácil ver a relação que existe entre as va riáveis nos diagramas 111 Introdução à Bioestatística TABELA 61 Dois conjuntos de pares de valores de duas variáveis Conjunto A ConjuntoB X y X y 1 2 8 2 o 2 12 3 6 3 8 4 3 4 10 5 9 5 4 6 4 6 9 7 10 7 3 8 8 8 6 9 12 9 o 10 8 10 2 Solução 14 14 12 12 10 10 Q 8 Q 8 6 6 4 4 2 2 o l o 2 4 6 8 10 12 o 2 4 6 8 10 12 Variável X Variável X Conjunto A Conjunto B FIGURA 61 Correlação positiva à esquerda e correlação negativa à direita Capítulo 6 Noções sobre Correlação 111 A correlação será tanto maior quanto menor for a dispersão dos pon tos O Exemplo 62 apresenta três gráficos com correlação positiva quan do os pontos estão muito espalhados como no conjunto A a correlação é fraca Quando os pontos estão concentrados em torno de uma reta imagi nária como no conjunto B a correlação é forte Exemplo 62 Correlação fraca correlação forte correlação perfeita A Tabela 62 apresenta três conjuntos de pares de valores das variáveis X e Y a correlação é fraca no Conjunto A é forte no Conjunto B e é perfeita porque os pontos estão sobre a reta no Conjunto C É fácil apreender a intensidade da cor relação entre as variáveis de cada um dos conjuntos observando os diagramas de dispersão da Figura 62 TABELA 62 Três conjuntos de pares de valores de duas variáveis Conjunto A Conjunto B Conjunto C X y X y X y 1 6 1 2 1 3 2 3 2 6 2 4 3 5 3 5 3 5 4 7 4 8 4 6 5 2 5 6 5 7 6 11 6 9 6 8 7 9 7 10 7 9 8 3 8 8 8 10 9 6 9 12 9 11 10 8 10 10 10 12 11 2 Introdução à Bioestatística Correlação fraca Correlação forte 14 14 12 12 10 10 Q 8 Q 8 6 6 4 4 2 2 o o o 2 4 6 8 10 12 o 2 4 6 8 Variável X Variável X Conjunto A Correlação perfeita QT セ セ 12 10 Q 8 6 4 2 o Conjunto B o 2 4 6 8 10 12 Variável X Conjunto C FIGURA 62 Correlações fraca forte e perfeita 10 12 Pode acontecer no entanto de a variação de Y não estar relacionada com a variação de X Nesses casos o diagrama de dispersão mostra que X cresce e Yvaria ao acaso Dizemos então que a correlação entre as variáveis é nula ou o que é o mesmo que não existe correlação entre as variáveis Capítulo 6 Noções sobre Correlação 113 Exemplo 63 Correlação nula A Tabela 63 apresenta um conjunto de pares de valores das variáveis X e Y O dia grama de dispersão apresentado na Figura 63 mostra que não existe qualquer tipo de relação entre as variáveis TABELA 63 Pares de valores de duas variáveis X y 1 3 2 1 3 6 4 4 5 3 6 2 7 6 8 4 9 3 10 2 Solução Correlação nula 10 8 6 Q 4 co 2 o o 2 4 6 8 10 12 Variável X FIGURA 63 Correlação nula 11 4 Introdução à Bioestatística Quando você olha o diagrama de dispersão vê o tipo de relação en tre as variáveis Se os pontos estão dispersos em torno de uma reta como acontece nos dois conjuntos de dados mostrados no Exemplo 61 a rela ção entre as variáveis é linear Algumas variáveis têm relação nãolinear Veja o Exemplo 64 a relação entre as variáveis é nãolinear Neste livro porém serão estudadas apenas as relações lineares entre duas variáveis Exemplo 64 Relação nãolinear entre duas variáveis Observe o diagrama de dispersão da Figura 64 que apresenta os dados X e Y da Tabela 64 Note que a relação entre as variáveis é nãolinear TABELA 64 Uma relação nãolinear entre duas variáveis X y 15 10 20 20 30 30 40 35 50 30 60 20 65 10 40 30 Q 20 10 oo oo 20 40 60 80 Variável X FIGURA 64 Uma relação nãolinear entre duas variáveis Capítulo 6 Noções sobre Correlação 115 62 COEFICIENTE DE CORRELAÇÃO Existe uma medida para o grau de correlação linear entre duas variáveis nu méricas1 Essa medida é o coeficiente de correlação de Pearson que se re presenta por r e é definido pela fórmula Para entender como se aplica esta fórmula veja o Exemplo 65 e o Exem plo 66 Os dados já foram apresentados na Tabela 61 e na Figura 61 Exemplo 65 Cálculo do coeficiente de correlação Reveja os dados apresentados na Tabela 61 Calcule o coeficiente de correlação para os dados do Conjunto A Para obter o coeficiente de correlação entre X e Yforam feitos os cálculos interme diários que estão na Tabela 65 Na última linha dessa tabela estão os somatórios TABELA 65 Cálculos intermediários para a obtenção do coeficiente de correlação Conjunto A da Tabela 61 Conjunto A X y XY x2 y2 1 2 2 1 4 2 o o 4 o 3 6 18 g E 4 3 12 16 g 5 g 45 25 81 6 4 24 36 16 7 10 70 49 100 8 8 64 64 64 g 12 108 81 144 10 8 80 100 64 LX 55 lY62 LXY423 IX2 385 1Y2 518 1 Para estudar a correlação entre variáveis ordinais calculase o coeficiente de correlação de Spear man Veja em VIEIRA S Bioestatística Tópicos Avançados Rio de Janeiro CampusElsevier 2004 11 5 Introdução à Bioestatística Substituindo na fórmula os somatórios pelos valores calculados na Tabela 65 e lembrando que n é o tamanho da amostra no exemplo n 10 obtemos 423 55x62 イ MZッセMセ ャセ o セ 385 it s 18 セG 82 r J825x 1336 r 0781 Exemplo 66 Cálculo do coeficiente de correlação Reveja os dados apresentados na Tabela 61 Calcule o coeficiente de correlação para os dados do Conjunto B Para obter o coeficiente de correlação entre X e Y foram feitos os cálculos inter mediários apresentados na Tabela 66 Na última linha dessa tabela estão os somatórios TABELA 66 Cálculos intermediários para a obtenção do coeficiente de correlação Conjunto B da Tabela 61 ConjuntoB X y XY x2 y2 1 8 8 l 64 2 12 24 4 144 3 8 24 9 64 4 10 40 16 100 5 4 20 25 16 6 9 54 36 81 7 3 21 49 9 8 6 48 64 36 9 o o 81 o 10 2 20 100 4 D55 lY 62 DY259 lX2 385 lY2 518 Capítulo 6 Noções sobre Correlação 117 Substituindo na fórmula os somatórios pelos valores calculados na Tabela 66 e lembrando que n é o tamanho da amostra no exemplo n 10 obtemos 259 55x62 r 10 セ SXU セ G 518 セ G 82 r Jc825x1336 r 0781 O coeficiente de correlação varia entre 1 e 1 inclusive isto é 1 セ r セ 1 Veja então como se interpreta o valor do coeficiente de correlação r 1 correlação perfeita positiva r 1 correlação perfeita negativa r O correlação nula O r 1 correlação positiva 1 r O correlação negativa Nas ciências físicas são encontrados valores grandes para os coeficien tes de correlação mas nas ciências da saúde os coeficientes de correlação são bem menores devido à grande variabilidade dos fenômenos biológicos Nas ciências do comportamento são raros coeficientes de correlação iguais ou maiores do que 070 Em nenhuma ciência porém você encontra coe ficientes de correlação iguais a 1 ou iguais a 1 Mas que valor deve ter o coeficiente de correlação para que a relação entre as variáveis seja julgada por exemplo forte Para ter significado es tatístico o valor do coeficiente de correlação r deve ser julgado consi derando o tamanho da amostra n por meio de um teste estatístico2 Uma regra prática para julgar o valor de r embora rudimentar3 é a seguinte O r 025 ou 025 r O correlação pequena ou nula 025 r 050 ou 050 r 025 correlação fraca 050 r 075 ou 0 75 r 050 correlação moderada 075 r 100 ou 1 r 075 correlação forte ou perfeita per feita ser 1 ou r 1 2 Veja o teste t no Capitulo 13 3 A regra é imprecisa mas serve como primeira aproximação Ainda valores de r entre 030 e 030 embora possam ter significância estatística não são perceptíveis nos diagramas ln COLTON T Statistics in Medicine New York Little Brown and Company 1974p 20911 111 Introdução à Bioestatística Exemplo 65 Altura e peso de pessoas Um fisioterapeuta mediu altura X em metros e peso Y em quilogramas de 22 homens Como se estuda a correlação entre essas variáveis TABELA 67 Altura em metros e peso em quilogramas de 22 homens Número Altura Peso Número Altura Peso 1 170 llO 12 180 75 2 168 68 13 179 71 3 175 85 14 175 70 4 168 67 15 178 87 5 165 68 16 177 9J 6 180 102 17 180 80 7 175 llO 18 185 85 8 170 llO 19 178 70 9 160 50 20 180 80 10 182 85 21 175 82 11 164 43 22 170 50 Com um diagrama de dispersão você vê a relação entre as variáveis Parecera zoável considerar que a relação é linear e positiva 120 100 80 o llO Q o 40 20 o 150 160 170 180 190 Altura FIGURA 65 Altura em metros e peso em quilogramas de 22 homens Capítulo 6 Noções sobre Correlação 11 9 O valor do coeficiente de correlação que mede o grau de correlação entre as variáveis e você pode calcular é r 0747 que pode ser considerada uma correlação positiva forte Portanto o peso de um homem está altamente correlacionado com a sua altura 63 PRESSUPOSIÇÕES Para calcular o coeficiente de correlação é preciso que algumas pressu posições estejam satisfeitas 1 As unidades medidas foram selecionadas ao acaso ou pelo me nos são representativas de uma grande população 2 Cada unidade deve fornecer tanto valores de X como de Y 3 As variáveis X e Y devem ser medidas independentemente Se os va lores de Y foram obtidos por uma fórmula que inclui X o coefici ente de correlação nunca será zero Por exemplo se você calcular o coeficiente de correlação entre as notas de aprovação em um curso com as notas obtidas na primeira prova e a nota de aprovação in cluir a nota obtida na primeira prova o coeficiente de correlação N nao sera zero 64 CUIDADOS NA INTERPRETAÇÃO DO COEFICIENTE DE CORRELAÇÃO O diagrama de dispersão dá idéia da relação entre duas variáveis O coe ficiente de correlação de Pearson mede apenas a relação linear entre duas variáveis numéricas Mas para que o valor de r estudado aqui tenha sig nificado é preciso que no diagrama de dispersão os pontos estejam es palhados em tomo de uma linha reta Portanto antes de calcular o valor de r convém desenhar um diagrama de dispersão se a relação não for li near o valor de r não mede a relação entre as variáveis Outro ponto importante é saber que correlação não implica causa Uma correlação positiva entre duas variáveis mostra que essas variáveis cres cem no mesmo sentido mas não indica que aumentos sucessivos em uma das variáveis causam aumentos sucessivos na outra variável Da mesma forma uma correlação negativa entre duas variáveis mostra apenas que elas variam em sentidos contrários mas não indica que acréscimos em uma das variáveis causam decréscimos na outra variável Mas cuidado com o chavão correlação não significa causa Afinal pode existir uma relação de causa e efeito entre as variáveis 1 Z 1 Introdução à Bioestatística De qualquer forma um exemplo antigo mas muito interessante foi dado por um estatístico que mostrou que havia correlação positiva entre o número de recém nascidos e o número de cegonhas em uma pequena ci dade da Dinamarca4 no decorrer dos anos 30 A correlação entre essas duas variáveis é espúria não indica relação de causa e efeito Existe uma tercei ra variável o crescimento da cidade que implicava tanto no número de recémnascidos quanto maior a cidade mais crianças nascem quanto no número de casas com chaminés perto das quais as cegonhas faziam seus ninhos 65 EXERCÍCIOS RESOLVIDOS 651 Calcule os coeficientes de correlação para cada um dos três conjuntos de dados apresentados no Exemplo 62 Solução Para o conjunto A IX 55 IY 60 IXY 352 IX2 385 LY2 434 Portanto r 0282 Para o conjunto B IX 55 LY 76 IXY 487 IX2 385 lY2 654 Portanto r 0869 Para o conjunto C IX 55 lY 75 IXY 495 IX2 385 lY2 645 Portanto r 1000 652 Em um trabalho sobre acumulação de placa dental em pacientes jovens foi obtido tanto um índice clínico para medir a quantidade de placa como o peso seco das placas em miligramas Os dados estão na Tabela 68 Cons trua um diagrama de dispersão Você acha que existe correlação entre as medidas Se existe a correlação é linear 4 O exemplo é de Gustav Fischer que apresentou em grãfico a população da cidade de Oldenburg durante sete anos de 1930 a 1936 e o número de cegonhas observadas em cada ano ln BOX G E P HUNTER W G HUNTER J S Statistics for experimenters New York Wiley 1978 Capítulo 6 Noções sobre Correlação 1 i 1 Solução TABELA 68 Peso seco em miligramas das placas dentais de 10 pacientes e índice clínico Peso seco Índice clínico 23 25 28 45 35 fí 37 ffi 58 00 69 100 82 120 105 128 119 132 142 135 160 140 o 120 u 5 100 e 00 セQ C e 60 40 20 o o 2 4 6 8 10 12 14 16 Peso seco das placas FIGURA 66 lndice clínico e peso seco em miligramas das placas dentais em 10 pacientes Existe correlação positiva entre as variáveis pois ambas crescem no mesmo sentido No entanto essa correlação é nãolineaP 5 Existe uma explicação para o fato o índice clínico mede apenas a extensão da ãrea coberta pelas placas e não o volume que determina o peso 1 2 2 Introdução à Bioestatística 653 Faça um diagrama de dispersão e calcule o coeficiente de correlação para os dados apresentados na Tabela 69 Discuta o resultado TABELA69 Peso em quilogramas e comprimento em centímetros de sete recémnascidos 1 Peso Comprimento 35 51 37 49 31 48 42 53 28 48 35 Il 32 49 54 o e 53 co e E 52 Q セQ 51 Q Il o e Q 49 M セセe 48 E o 47 25 3 35 4 45 Peso de recémnascidos FIGURA 67 Peso em quilogramas e comprimento em centímetros de sete recémnascidos Capítulo 6 Noções sobre Correlação 1i3 TABELA 610 Cálculos intermediários para obtenção do coeficiente de correlação Peso X Comprimento Y x2 y2 XY 35 51 1225 2601 1785 37 49 1369 2401 1813 31 48 961 2304 1488 42 53 1764 2809 2226 28 48 784 2304 1344 35 50 12 25 2500 175 32 49 1024 2401 1568 LX24 1Y 348 1X2 8352 IY2 17320 1XY 11974 Usando a fórmula obtémse r 0869 ou seja existe correlação posi tiva alta entre peso e comprimento de recémnascidos 654 A Tabela 611 fornece o peso a estatura e o IMC índice de massa cor poral de 10 pessoas É razoável calcular os coeficientes de correlação das três variáveis combinadas duas a duas Por exemplo altura versus peso altura versus IMC peso versus IMC TABELA 611 Peso em quilogramas estatura em centímetros e IMC de 10 pessoas 1 Altura Peso IMC 156 535 2198 158 584 2339 161 592 2284 162 532 2027 165 64 2351 172 575 1944 173 67 2239 174 ffi 2180 179 77 2403 18 ffi 2037 1 2 4 Introdução à Bioestatística Solução O IMC é dado pela fórmula IMC Peso Altura x Altura e indica a condição da pessoa como segue IMC Condição Abaixo de 185 Abaixo do peso De 185 a 249 Peso normal De 25 a 299 Sobrepeso De 30 a 349 Obesidade grau 1 De 35 a 399 Obesidade grau li 4D e mais Obesidade grau Ili É perfeitamente cabível calcular a correlação entre peso e altura mas nunca de qualquer dessas variáveis contra IMC uma vez que esta variável é calculada a partir das outras duas Calcular a correlação entre peso e IMC ou entre altura e IMC por exemplo entraria em conflito com a pressupo sição de independência 66 EXERCÍCIOS PROPOSTOS 661 Explique o que cada um dos seguintes coeficientes de correlação infor ma sobre a relação entre X e Y a r 1 b r 1 c r O d r 090 e r 090 662 Sem ver os dados que tipo de correlação você espera entre a idade de pessoas adultas e velocidade de corrida b número de vendedores na loja e volume de vendas feitas por dia c a estatura de um homem e o núme ro de dentes presentes na boca 663 Um estudo mostrou que a taxa de morte por doenças do coração era maior entre motoristas de ônibus do que entre cobradores A princípio se pensou que o tipo de trabalho fosse a maior causa da doença mas depois se notou que o tamanho dos uniformes que se fornecia aos motoristas era sempre bem maior que o dos cobradores O que isto sugere a você Capítulo 6 Noções sobre Correlação 1 i 5 6 6 4 Os valores de X e Y devem ser medidos na mesma unidade para que se possa calcular o coeficiente de correlação 665 Indique a afirmativa que mais bem descreve o diagrama a o diagra ma b e o diagrama c apresentados na Figura 68 1 Forte correlação positiva 2 Forte correlação negativa 3 Correlação nula ou próxima de nula 4 Correlação positiva fraca 5 Correlação negativa fraca 6 Correlação perfeita positiva 7 Correlação perfeita negativa a FIGURA 68 Diagramas de dispersão e b 1 2 5 Introdução à Bioestatística 666 Preencha os vazios O maior valor possível para o coeficiente de correlação é Se todos os pontos caírem exatamente sobre uma reta o valor de r será ou dependendo de a correlação ser ou Se todos os pontos estiverem espalhados ao acaso no diagrama de dispersão o coeficiente de correlação terá valor pró ximo de Quanto mais próximos de uma reta estiverem to dos os pontos será o valor absoluto de r 667 A correlação entre idade e expectativa de vida é a positiva b nula e negativa d irregular 668 O diagrama de dispersão dever ser feito para estabelecer a se as variáveis estão ou não correlacionadas b se as variáveis são positivas e se as variáveis são negativas d a qualidade das variáveis 669 Faça um diagrama de dispersão e calcule o coeficiente de correlação para os dados apresentados na Tobela 612 Discuta o resultado TABELA 612 Dados relativos a duas variáveis X e Y 1 X y 3 2 5 2 4 7 2 7 1 2 Capítulo 6 Noções sobre Correlação 1 i 1 6610 Faça diagramas de dispersão e calcule os valores der para os conjun tos de dados da Tabela 613 TABELA 613 Dois conjuntos de pares de valores de duas variáveis 1 Conjunto A Conjunto B X y X y 1 1 1 1 2 3 15 2 3 6 3 3 4 5 45 2 5 8 5 1 6611 Se todos os valores de Y forem iguais qual será o valor der 6612 Calcule o coeficiente de correlação para os dados apresentados na Ta bela 614 TABELA 614 Idade gestacional em semanas e peso ao nascer em quilogramas de recémnascidos 1 Idade gestacional Peso ao nascer 28 125 32 125 35 175 38 225 39 325 41 325 42 425 6613 Calcule os coeficientes de correlação de Pearson para os dados dos dois conjuntos a seguir Discuta a razão de os valores de r serem tão diferen tes embora os dados sejam tão semelhantes 1 Z 1 Introdução à Bioestatística TABELA 615 Dois conjuntos de pares de valores de duas variáveis 1 Conjunto A Conjunto 8 X y X y 1 2 1 2 2 4 2 4 3 6 3 6 4 8 4 8 5 10 5 o 6614 Suponha que os seguintes dados6 foram obtidos de pacientes com enfi sema X é o número de anos que o paciente fumou e Y é a avaliação uma nota do próprio médico do paciente sobre a diminuição da capacidade pulmonar medida numa escala de zero a 100 Os resultados para 10 pacientes estão na Tabela 616 Calcule o valor do coeficiente de corre lação Saiba que LXY 18055 IX2 11053 EY2 30600 TABELA 616 Tempo do hábito de fumar X em anos e diminuição da capacidade pulmonar Y avaliada pelo médico do paciente Número do paciente X Y 1 2 3 4 5 6 7 8 9 10 25 36 22 15 48 39 42 31 28 33 55 00 50 30 75 70 70 55 30 35 OTT L e MENDENHALL W Understanding Statistics Belmont Wadsworth 6 ed 1994 p 487 Capítulo 6 Noções sobre Correlação 1 9 6615 O volume máximo de oxigênio inalado VOnáx tem sido usado como medida da situação cardíaca tanto de indivíduos saudáveis como de pes soas que sofrem de doenças cardíacas Os dados de VO náx em mililitros por quilograma por minuto para 12 homens saudáveis depois de exercí cios estão na Tabela 617 Desenhe um diagrama de dispersão Olhando o diagrama você diria que VO náx diminui quando aumenta a atividade TABELA 617 Duração do exercício em minutos e V02 máx em mililitros por quilograma por minuto para 12 homens saudáveis 1 Duração do exercício VOfáX 10 82 95 73 102 ffi 105 74 11 ffi 113 63 116 58 12 54 12 1 ffi 125 51 128 55 13 44 7 OTI L e MENDENHALL W Understanding St atistics Belmont Wadsworth 6 ed 1994 p 503 página deixada intencionalmente em branco Noções sobre Regressão 7 página deixada intencionalmente em branco Capitulo 7 Noções sobre Regressão 133 O Capítulo 6 mostrou como se estuda a relação entre duas variáveis Mui tas vezes porém interessa estudar como uma variável varia em função da outra Por exemplo todos nós sabemos que as crianças crescem as va riáveis idade e altura têm correlação positiva mas é preciso saber tam bém como a altura de uma criança varia em função da idade Todos nós sa bemos que a população do Brasil aumentou nas últimas décadas Mas como e quanto Para dar uma primeira resposta a estas questões é importante desenhar um gráfico de linhas 7 1 GRÁFICO DE LINHAS Para aprender como se faz um gráfico de linhas vamos pensar em duas va riáveis numéricas e como fizemos no Capítulo 6 chamar uma delas de X e a outra de Y Então cada unidade da amostra fornece dois valores um para cada variável Quando se estuda a variação da variável Y em função da variável X diz se que Y é a variável dependente e que X é a variável explanatória Por exemplo altura de criança varia em função da idade Então altura é ava riável dependente e idade é a variável explanatória Quem trabalha na área de saúde costuma observar como uma variável évolui ao longo do térnpo Com os dados obsérvados dé Yao longo do témpo X é possível fazer um gráfico de linhas Para fazer esse gráfico Colete valores da variável Y nos tempos que você quer estudar Trace um sistema de eixos cartesianos represente o tempo X no eixo das abscissas e a variável Y no eixo das ordenadas Estabeleça as escalas e faça em cada eixo as necessárias graduações Escreva os nomes das variáveis nos respectivos eixos Desenhe um ponto para representar cada par de valores X Y Una os pontos por segmentos de reta Escreva o titulo Exemplo 71 Gráfico de linhas Na Tabela 71 são dados pares de valores das variáveis X e Y A variável X é o ano do Censo Demográfico do Brasil e a variável Y é a população residente Veja a Fi gura 7 1 o gráfico de linhas mostra o crescimento no período de forma a comple mentar os dados da Tabela 71 1 3 4 Introdução à Bioestatística TABELA 71 População residente no Brasil segundo o ano do censo demográfico Ano do censo População 19401 41236315 19501 51944397 19601 70191370 1970 93139037 1980 119002706 1991 145815796 2000 169799170 fonte IBGE 20031 180000 160000 140000 セ セ 120000 セ Q 100000 g 80000 u 3 e 60000 d 40000 20000 P KMNMLNMNMNMNMセMQ 1930 1940 1950 1960 1970 1980 1990 2000 201 o Ano do censo FIGURA 71 População residente no Brasil segundo o ano do censo demográfico IBGE Censo 2000 um retrato do Brasil na década de 90 Disponível em http wwwibgegovbr Acesso em abr 2003 Capitulo 7 Noções sobre Regressão 135 7 2 RETA DE REGRESSÃO A variação de Y em função de X deve ser observada no gráfico de linhas Se os pontos ficam dispersos em tomo de uma reta é razoável traçar uma reta no meio desses pontos A melhor reta melhor no sentido que tem proprie dades estatísticas desejáveis recebe o nome de reta de regressão2 São dadas nesta seção as fórmulas para obter essa reta Exemplo 72 A idéia de regressão Observe os dados apresentados na Tabela 72 Foi colocada a mesma quantidade de plasma humano em oito tubos de ensaio e depois se ajuntou em cada tubo uma quantidade fixa de procafna anestésico local Mediuse então em tempos diferentes a quantidade de procafna que já havia se hidrolisado O diagrama de dispersão apresentado na Figura 72 mostra que a quantidade de procafna hidro lisada varia em função do tempo decorrido após sua administração TABELA 72 Quantidade de procaína hidrolisada em 10 moleslitro no plasma humano em função do tempo em minutos decorrido após sua administração Tempo Quantidade hidrolisada 2 35 3 57 5 99 8 163 10 193 12 257 14 282 15 326 Muitos autores referemse à reta de regressão como reta de mínimos quadrados porque esse é o método estatístico utilizado para chegar às fórmulas dadas nesta Seção 1 3 5 Introdução à Bioestatística 35 31 co o 25 co Nセo セo 20 E Q o co 15 o e co 10 CI 5 o o 2 4 6 8 10 12 14 16 Tempo AGURA 72 Quantidade de procaína hidrolisada em 1 O moleslitro no plasma humano em função do tempo em minutos decorrido após sua administração Vamos discutir um pouco mais o Exemplo 72 Parece razoável concluir observando a Figura 7 2 que a variação da quantidade de procaína hidro lisada no plasma humano em função do tempo decorrido após sua adminis tração pode ser descrita por meio de uma reta de regressão Para ajustar uma reta de regressão isto é estabelecer a equação da reta aos dados apresentados na Tabela 7 2 é preciso obter o coeficiente linear e o coeficiente angular da reta também chamados coeficientes de regressão Convém lembrar o que são esses coeficientes No sistema de eixos cartesianos a equação Y a bX é uma reta O co eficiente linear da reta indicado neste livro por a dá a altura em que a reta corta o eixo das ordenadas Se a for um número positivo a reta corta o eixo das ordenadas acima da origem negativo a reta corta o eixo das ordenadas abaixo da origem zero a reta passa na origem do sistema de eixos cartesianos Capitulo 7 Noções sobre Regressão 13 7 Exemplo 73 Equação da reta coeficientes lineares diferentes y 10 y 5 9 4 8 3 7 2 6 1 5 o 4 1 3 2 X 2 3 1 4 o 5 o 1 2 3 X 4 y 10 9 8 Y2X 7 6 5 4 3 2 1 o o 1 2 3 X 4 FIGURA 7 J Apresentação gráfico de retas com diferentes coeficientes lineares O coeficiente angular da reta indicado neste livro por b dá a inclina ção da reta3 Se b for um número positivo a reta é ascendente negativo a reta é descendente zero a reta é paralela aos eixos das abscissas 3 O coeficiente angular chamado neste livro de b é a tangente trigonométrica do ângulo for mado pelo eixo das abscissas e pela reta de equação Y a bX 1 31 Introdução à Bioestatística Exemplo 74 Equação da reta coeficientes angulares diferentes y 10 y 5 9 4 Y 32X 8 3 7 2 6 1 5 o 4 1 1 3 3 2 2 3 X 1 4 o 5 o 1 2 3 X 4 y 10 9 8 7 6 Y3 5 4 3 2 1 o o 1 2 3 X 4 FIGURA 74 Apresentação gráfica de retas com diferentes coeficientes angulares Em Estatística o coeficiente angular da reta é obtido por meio da fór mula LXY LXLY b n I X セxIR n e o coeficiente linear é obtido por meio da fórmula a Y bX em que Y e X são as médias de Y e X respectivamente Veja o Exemplo 7 5 Capitulo 7 Noções sobre Regressão 139 Exemplo 75 Cálculo dos coeficientes de regressão Calcule a reta de regressão para o prolblema apresentado no Exemplo 72 TABELA 73 Cálculos intermediários para a obtenção de a e de b X V 2 35 3 57 5 99 8 163 10 193 12 257 14 282 15 326 69 1412 Aplicando as fórmulas obtémse 158912 69 xl412 b 8 2 767 69 8 XV 7 17 1 495 1304 193 3084 3948 489 15892 37135 216 171875 QTセR 69 a 8 2l6xs 098 2 4 9 25 64 100 144 196 225 767 Para traçar a reta de regressão é preciso dar valores arbitrários para X e depois calcular os valores de Y Indicamse os valores calculados de A Ypor Y Fazendo X 5 temse que A Y 098 216 X 5 982 e fazendo X 15 temse que A Y 098 216 X 15 3142 A A Os dois pares de valores X 5 e Y 982 e X 15 e Y 3142 per mitem traçar a reta de regressão 1 41 Introdução à Bioestatística Exemplo 76 Traçado da reta de regressão Apresente no diagrama de dispersão da Figura 72 a reta de equação セY 098 216 X 35 3J co O 25 co a o セO 20 E Q O 15 co O e co 10 o 5 o o 2 4 6 8 10 12 14 16 Tempo FIGURA 7 5 Reta de regressão quantidade de procaína hidrolisada em 1 O moleslitro no plasma humano em função do tempo em minutos decorrido após suo ッュゥョゥウエイッセッN A equação da reta de regressão permite estimar valores de Y para quaisquer valores de X dentro do intervalo estudado mesmo que tais va lores não existam na amostra Observe os dados apresentados na Tabela 7 2 Não existe o valor X 13 mas é possível estimar o valor de Y para X 13 Basta fazer セY Ü98 216 X 13 27lQ O valor Y 2710 é uma previsão feita com base na equação da reta de regressão para a quantidade dle procaína que deve estar hidrolisada 13 minutos após sua administração Dada a reta de regressão fica fácil calcular o valor de Y para qualquer valor de X No entanto o bom senso deve fazer com que você não estime valores de Y para valores de X muito além do intervalo estudado a ex trapolação pode levar ao absurdo porque a relação entre X e Y linear no intervalo estudado pode não ser linear fora desse intervalo É verdade que as pessoas tendem a prever com base no que se obser vou em determinado período o que acontecerá em outro período próximo ou longínquo A extrapolação é geralmente incorreta ou até desastrosa Por exemplo por volta dos 6 anos começam a irromper dentes permanen Capitulo 7 Noções sobre Regressão 141 tes em crianças mas isso só acontece até certa idade Ninguém espera pelo fato de terem irrompido quatro dentes numa criança entre os 7 e os 8 anos que isso ocorra entre 30 e 31 anos de idade Exemplo 77 A extrapolação indevida A Tabela 74 apresenta as temperaturas médias mensais nos primeiros sete me ses do ano de uma cidade do sul do Brasil Esses dados estão no diagrama de dis persão da Figura 76 Se alguém ajustar uma reta como a mostrada no diagrama e quiser usar essa reta para prever a temperatura na cidade em dezembro mês 12 chegará a um valor absurdo menor do que 2 graus negativos A razão disso é óbvia o fenômeno não é linear além do período estudado TABELA 74 Temperaturas médias segundo o mês de uma cidade do sul do Brasil Mês Janeiro Fevereiro Março Abril Maio Junho Julho Q E o e l2 O Õ E セco セto セQ a E セ Número do mês Temperatura média no mês 1 23 2 22 3 20 4 18 5 15 6 12 7 9 3J 25 A Y 266 239X 20 15 10 5 P KMNMNMNMセNMNMNMNMNセNMNMNM MQ o 1 2 3 4 5 6 7 8 9 10 11 12 Mês FIGURA 76 Reta ajustada às temperaturas rmédias de uma cidade do sul do Brasil segundo o mês 142 Introdução à Bioestatística 7 3 ESCOLHA DA VARIÁVEL EXPLANATÓRIA Quando os valores de X são fixados antes do início da coleta dos dados ajustase a regressão de Y contra X No Exemplo 7 2 o pesquisador fixou os tempos em que iria observar a quantidade de procaína que estaria hidrolisada no plasma antes de iniciar a pesquisa Então a quantidade de procaína hidrolisada depende do tempo em que foi medida não o con trário Nem sempre os valores de X são fixados antes do início dos trabalhos Nesses casos tanto se pode ajustar a regressão de Y contra X como a re gressão de X contra Y mas recomendase identificar a variável que deve ser prevista conhecido o valor da outra variável e ajustar a regressão de Y con tra X toda vez que se pretende estudar a variação de Y prever Y em fun ção da variação de X Exemplo 78 A escolha da variável explanatória Calcule a reta de regressão para os dados apresentados na Tabela 75 É razoável estudar a variação da pressão arterial Y em função do peso X por que é o peso que pode explicar explanar a pressão arterial e não o contrário Então se deve ajustar uma regressão da pressão arterial Y contra o peso X TABELA 75 Pressão arterial PA em milímetros de mercúrio e peso de homens adultos em quilogramas Peso PA Peso PA Peso PA 14 105 18 113 21 127 14 102 19 107 22 125 15 111 19 125 22 116 15 104 19 130 23 130 15 107 19 110 23 107 16 00 19 107 23 103 16 105 20 102 24 135 16 102 20 116 24 143 16 126 21 135 28 121 17 134 21 100 28 135 Capitulo 7 Noções sobre Regressão 143 Foram calculados 271159 3624 X 2238 b 30 188 2238 2 167386 30 3624 188x 2238 a 30 30 191 A reta de regressão A Y 191 l88X apresentada na Figura 77 mostra a tendência de ocorrer aumento de pressão ar terial quando aumenta o peso mas convém observar que os pontos estão muito dispersos em torno da reta Isso significa que a previsão da pressão arterial de um homem adulto em função de seu peso tem grande margem de erro 160 150 Y 191188X 140 Cõ 130 Q t 120 o cn 110 cn Q セo 100 90 00 64 68 72 76 80 84 Peso FIGURA 77 Reta de regressão para pressão arterial em função do peso 7 4 COEFICIENTE DE DETERMINAÇÃO Antes de aprender o que é coeficiente de determinação vamos entender o que é uma relação matemática e o que é uma relação estatística Se você aumentar o lado de um quadrado em 1 cm a área aumenta E se você con tinuar aumentando o lado do quadrado de 1 cm em 1 cm a área continua rá aumentando Você sabe dizer exatamente a área do quadrado para cada tamanho de lado porque a relação entre a área de um quadrado e seus la dos é matemática área lado x lado 144 Introdução à Bioestatística Pense agora em uma pessoa que quer diminuir o peso porque seu médico lhe disse os gordos têm tendência a ter pressão arterial alta Sabese portanto que o aumento da pressão arterial é função do aumen to de peso Será que existe uma relação exata entre essas duas variáveis isto é para cada quilo a mais haverá um aumento fixo na pressão arte rial Não é assim Existe tendência de a pressão arterial aumentar com o aumento de peso mas a pressão arterial também aumenta em função de outros fatores como idade vida sedentária hereditariedade e certos hábi tos como o hábito de fumar e o consumo excessivo de sal E mesmo que conhecêssemos muitas das causas que explicam o aumento da pressão ar terial ainda assim não saberíamos prever exatamente a pressão arterial de uma pessoa A relação entre pressão arterial e peso é probabilística e por tanto sujeita a erro Com estes exemplos queremos lembrar a você que existem relações determinísticas como é a relação entre lado e área de um quadrado e relações probabilísticas como é a relação entre peso e pressão arteri al No primeiro caso não existe erro na previsão isto é dado o lado de um quadrado você pode dizer exatamente qual é a área está determinado No segundo caso a previsão é possível mas dentro de certas margens de erro Neste ponto a pergunta é inevitável qual é o tamanho desse erro Existe uma estatística chamada coeficiente de determinàção indicada por R2 que mede a contribuição de uma variável na previsão de outra Parece complicado mas tente entender este exemplo imagine que você quer com prar uma camiseta para uma criança Você chega na loja e pede ajuda à vendedora O que primeiro ela pergunta A idade da criança claro Por quê Porque o tamanho de uma criança é função da idade Boa parte da varia ção do tamanho das crianças é explicada pela variação de suas idades o que é medido pelo R2 Portanto saber a idade da criança ajuda na previ são do tamanho da sua camiseta4 O coeficiente de determinação é a proporção da variação de Y explicada pela variação de X O coeficiente de determinação é dado pelo quadrado do coeficiente de correlação Não pode portanto ser negativo Varia entre zero e 1 inclu sive Para interpretar o coeficiente de determinação é melhor transformá lo em porcentagem multiplicando o resultado obtido em seu cálculo por 100 Veja o Exemplo 79 4A vendedora também pergunta se o presente é para menino ou menina Essa informação tam bém contribui embora menos do que idade para a escolha do tamanho na primeira infância os meninos são maiores mas ajuda na escolha do modelo Capitulo 7 Noções sobre Regressão 145 Exemplo 79 Coeficiente de determinação Calcule o coeficiente de determinação para os dados apresentados na Tabela 72 e na Tabela 75 e discuta cada um deles Usando os cálculos intermediários já apresentados na Tabela 73 é possível ob ter R2 0994 Isto significa que 994o da variação da quantidade de procaína hidrolisada no plasma se explica pelo tempo decorrido após sua administração Em outras palavras se você souber o tempo que decorreu depois que a procaína foi colocada no plasma poderá justificar 994 da variação de procafna que hidrolisou Para os dados da Tabela 75 com a ajuda de um computador ou de seu profes sor é possível obter R2 0282 um valor baixo Se fosse alto a explicação seria de que dado o peso de um homem a pressão arterial seria altamente previsível No entanto fatores como idade vida sedentária hereditariedade e certos hábi tos como o hábito de fumar e consumo abusivo de sal devem ser também im portantes 75 UMA PRESSUPOSIÇÃO BÁSICA Para ajustar uma regressão linear simples de X contra Y é preciso que os dados de X e Y tenham sidos obtidos independentemente Então quando você for interpretar os resultados do ajuste de uma regressão verifique como foram obtidos os dados de X e Y Veja o Exemplo 77 a regressão obtida é uma falácia porque não se pode fazer uma regressão da diferença das va riáveis contra o valor inicial Exemplo 710 Uma falácia Observe os dados da Tabela 76 que estão no diagrama de dispersão da Figura 78 os pontos não sugerem correlação entre as variáveis O coeficiente de deter minação é R2 0030 No entanto se você fizer a diferença YX e colocar a dife rença como função do valor inicial X obterá o diagrama de dispersão da Figura 79 com R2 0582 Só que isso não pode ser feito a regressão obtida é uma fa lácia 1 4 5 Introdução à Bioestatística TABELA 76 Notas de 10 alunos em duas provas l prova 2 prova Diferença 2 prova 11 prova 7 7 o 5 5 o 4 8 4 9 9 o 2 10 8 4 3 1 8 4 4 10 6 4 6 4 2 7 3 4 12 R2 0030 10 8 co セE 6 セ o 4 2 o o 2 4 6 8 10 12 1ª prova FIGURA 78 Nota na segunda prova em função da nota na primeira prova Capitulo 7 Noções sobre Regressão 14 7 10 8 6 R2 0582 co 4 e Q 2 セQ ô o 2 4 6 1 prova FIGURA 79 oゥヲイョセッ dos notas de 10 alunos em duas provas em função do 1 noto 7 6 OUTROS TIPOS DE REGRESSÃO Existem situações em que os pares de valores das variáveis X e Y apresen tados em diagrama de dispersão não se distribuem em tomo de urna reta5 Veja o Exemplo 711 Exemplo 711 Uma regressão nãolínear Observe os dados da Tabela 77 apresentados em diagrama de dispersão na Fi gura 71 O os pontos estão dispersos em torno de uma curva TABELA 77 Valores de duas variáveis X e Y X y o 40 06 80 12 150 15 226 18 364 21 453 24 600 No programa EXCEL você encontra as seguintes opções para ajuste de regressão linear que vimos até aqui logarítmica polinomial que não serâ visto neste livro potência exponencial média móvel que não serâ visto neste livro 1 41 Introdução à Bioestatística 70 ff fí Q e 40 セQ Q ll 20 10 o o 05 1 15 2 25 3 Valores de X FIGURA 710 Diagrama de dispersão para os valores Xe Yapresentados na Tabela 77 Quando os pontos apresentados em diagrama de dispersão não estão em torno de uma reta devemos experimentar transformar a variável Y Por exemplo podemos experimentar fazer um diagrama de dispersão colocan do em lugar de valores de Y os valores do logaritmo neperiano6 de Y Para os dados apresentados no Exemplo 711 os valores de X e dos loga ritmos neperianos de Y estão apresentados na Tabela 7 8 e na Figura 7 11 TABELA 78 Valores de X e valores dos logaritmos neperianos de Y X lnY o 13863 06 20794 12 27081 15 3 1179 18 35946 2 1 38133 24 40943 6No Excel procure a opção exponencial Capitulo 7 Noções sobre Regressão 149 45 40 35 30 Q O 25 Q 20 セ9 co 15 10 05 00 o 05 1 15 2 25 3 Valores de X FIGURA 711 Diagrama de dispersão O diagrama de dispersão apresentado na Figura 7 11 mostra pontos pra ticamente sobre uma reta Então é possível ajustar uma regressão linear de lnY contra X Para calcular a e b são necessários os cálculos intermediári os apresentados na Tabela 79 TABELA 79 Cálculos intermediários para a obtenção de a e b 1 X lnY XlnY 1 o 13863 00000 o 06 20794 12477 036 12 27081 32497 144 15 3 1179 46769 225 18 35946 64702 324 21 38133 80079 441 24 40943 98264 576 96 20794 334788 1746 Com base nos cálculos apresentados na Tabela 79 é possível obter 334788 96 X 207940 b 7 11554 2 1746 96 7 a 207940 11554x 96 13861 7 7 1 51 Introdução à Bioestatística A equação de reta de regressão de lny contra X é A lnY 13861 l1554X Se você quiser voltar ao valor da variável Y é preciso calcular o antilogaritmo da equação Então você obtém A Y antilnl3861 e1554x ou A f 3999 el1554X Esta equação é chamada de exponencial porque traz a variável expla natória no expoente Para que uma regressão linear possa ser ajustada aos dados muitas ve zes basta transformar uma das variáveis7 Outras vezes é preciso transfor mar ambas as variáveisª Também podem ser utilizadas outras transforma ções além da transformação logaritmica mostrada aqui Assim são também usadas a extração de raiz quadrada e a inversão além de outras mais com plicadas As transformações são em geral empíricas isto é dados n pares deva lores X e Y é preciso fazer várias tentativas até achar a transformação que permita ajustar uma regressão linear aos pares de dados Algumas vezes porém o modelo é especificado teoricamente Por exemplo a equação de Arrenhius dá a velocidade de uma reação química em função da tempera tura em que a reação se processa Se T é a temperatura em graus Kelvin em que ocorre a reação química a equação de Arrenhius estabelece que a ve locidade V é dada por A ln V C x 1 R T em que ln V é o logaritmo neperiano da velocidade da reação quimica à tem peratura Te Ré uma constante 1987 caljgraumol Para ajustar a equação de Arrenhius aos dados de temperatura e de velocidade de uma reação quí mica é preciso calcular os valores das variáveis transformadas isto é o logaritmo neperiano da velocidade e o inverso da temperatura Depois se ajusta uma regressão linear do logaritmo neperiano de V contra o inverso de T isto é Então C a e A Rb lnVa b1 T Para ajustar uma regressão logarftmica transforme X isto é ajuste a regressão dos logaritmos de X contra Y Para ajustar uma regressão potência transforme X e Y isto é ajuste a regressão dos logaritmos de X contra os logaritmos de Y veja mais sobre o assunto em VIEIRA S Bioestatístíca tópicos avançados 2 ed Rio de Janei ro Campus 2004 Capitulo 7 Noções sobre Regressão 151 Uma regra porém é básica antes de ajustar uma reta de regressão aos dados devemse colocar os pontos X Y em um diagrama de dispersão e estudar o conhecimento disponível na literatura sobre o fenômeno A ins peção dos dados numéricos é obrigatória Às vezes é possível ajustar mais de um modelo aos dados e depois escolher com base nas estatísticas obtidas coeficientes de determinação etc o modelo que melhor se ajusta aos dados Neste Capítulo vimos como se ajusta uma regressão linear simples aos dados linear porque é uma reta e simples porque está no plano isto é existe uma só variável dependente e uma só variável explanatória Mas a variação da variável dependente pode ser posta em função de diversas va riáveis isto é podem existir diversas variáveis explanatórias É o caso por exemplo da pressão arterial que depende não apenas de peso como mos trado no exemplo mas da idade de fatores hereditários da alimentação etc Nesses casos ajustase aos dados uma regressão múltipla isto é uma função com diversas variáveis explanatórias Mas este tema não será trata do aqui 7 7 EXERCÍCIOS RESOLVIDOS 771 Faça um gráfico de linhas para os dados apresentados na Tabela 710 Discuta TABELA 710 Número de nascidos vivos no Brasil no período de 1996 a 2005 Ano Número de nascidos vivos 1996 2945425 1997 3026658 1998 3148037 1999 3256433 2000 3206761 2001 3115474 2002 3059402 2003 3038251 2004 3026548 2005 3035096 fonte DATASUS 20089 Disponível em httptabnetdatasusgovbrcgijdeftohtmexeidb2006a02def em 10 de abril de 2008 1 5 2 Introdução à Bioestatística Solução 3300 セMセ 3250 セ 3200 n セセ 3150 ᄋセe 3100 セセ 3050 c 2 3000 2950 2900 KMN M セMセMセMセMセMQ 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 Ano FIGURA 712 Número de nascidos vivos no Brasil no período de 1996 a 2005 O número de nascidos vivos no Brasil aumentou até 1999 De lá para 2006 observase decréscimo 772 Faça um gráfico de linhas para os dados apresentados no Exercido 652 do Capítulo 6 para mostrar como o índice clínico varia em função do peso seco das placas Discuta 160 140 120 o 2 100 s 3 80 Q 2 e 60 e 40 20 o o 2 4 6 8 10 12 14 16 Peso seco das placas FIGURA 713 Índice clínico em função do peso seco das placas bacterianas Capitulo 7 Noções sobre Regressão 153 A Figura 7 13 mostra que o índice clínico usado para medir a quanti dade de placa aumenta linearmente e aceleradamente com o peso seco das placas em miligramas até cerca de 8 mg Depois tende a estabilizar Isto talvez se explique pelo fato de o índice clínico medir a área dos dentes com placas bacterianas mas não o volume Ora o peso leva em conta o volu me que aumenta quando o acúmulo de placas é grande 773 Ajuste uma reta de regressão aos dados apresentados no Exercido 653 do Capítulo 6 para estudar peso em função do comprimento dos recém nasddos Calcule o coefidente de detenninação 45 4 35 3 セ Q 25 a 2 15 05 Y 74647 02191X R2 07558 ッ KMセNMセ 46 48 50 52 54 Comprimento FIGURA 714 Reta de regressão para peso de recémnascidos em função do comprimento 774 Ajuste uma reta de regressão aos dados apresentados no Exercido 654 do Capítulo 6 para estudar peso em função da altura Calcule o coefid ente de detenninação 1 5 4 Introdução à Bioestatística 00 75 70 65 o Q a 60 55 50 Y4860165941X 45 R2 06206 40 155 160 165 170 175 180 185 Altura FIGURA 715 Reta de regressão para peso em função da altura Capitulo 7 Noções sobre Regressão 155 7 8 EXERCÍCIOS PROPOSTOS 781 Faça um gráfico de linhas para os dados apresentados na Tabela 711 Discuta TABELA 711 Razão de sexosº no Brasil em 2005 Faixa etária Menos de 1 ano De 1 a 4 anos De 5 a 9 anos De 10a14 anos De 15a19 anos De 20 a 24 anos De 25 a 29 anos De 30 a 34 anos De 35 a 39 anos De 40 a 44 anos De 45 a 49 anos De 50 a 54 anos De 55 a 59 anos De 60 a 64 anos De 65 a 69 anos De 70 a 74 anos De 75 a 79 anos 80 e mais anos Fonte DATASUS11 200B ºRazão de sexos número de homens por 100 mulheres Razão de sexos 10436 10359 10349 10316 10229 10005 9757 9513 9441 9284 9261 9363 9040 8709 8149 8008 7781 6449 Disponível em httptabnetdatasusgovbrcgijdeftohtmexeidb2006a02def em 10 de abril de 2008 1 5 5 Introdução à Bioestatística 782 Faça um gráfico de linhas para os dados apresentados na Tabela 712 Discuta TABELA 712 Coeficiente de mortalidade infantil12 no Brasil de 1889 a 1998 Ano 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 Fonte DATASUS 200813 Coeficiente de mortalidade infantil 5202 4940 4699 4479 4280 4101 3940 3797 3670 3610 783 Ajuste uma reta de regressão aos dados apresentados na Tabela 713 TABELA 713 Teor de vitamina C mg de ácido ascórbico100 mi de suco de maçã em função do período de armazenamento em dias Período de armazenamento Teor de vitamina C 1 409 45 327 00 245 135 327 180 164 Taxa ou coeficiente de mortalidade infantil é a razão entre o total de óbitos de menores de 1 ano de idade excluídos os nascidos mortos e o total de nascidos vivos em detenninado perio do de tempo normalmente 1 ano Essa razão é multiplicada por 1000 A taxa de mortalidade infantil estima o risco que um nascido vivo tem de morrer antes de completar 1 ano de idade A Organização Mundial de Saúde considera altas as taxas de 50 por 1000 ou mais médias as que ficam entre 20 e 49 e baixas as menores do que 20 13Disponivel em httptabnetdatasusgovbrcgijmortinfmibrhtmtopo em 10 de abril de 2008 Capitulo 7 Noções sobre Regressão 15 7 784 A reta de regressão será a mesma se você trocar X por Y O coeficiente de correlação muda 785 É preciso que X e Y tenham as mesmas unidades para poder se calcular a reta de regressão 786 Se os filhos fossem exatamente 5 cm mais altos do que seus pais como ficaria a reta de regressão que daria a altura dos filhos em função da al tura de seus pais 787 Como seria a reta de regressão se todos os pontos de X tivessem o mes mo valor 788 Os dados da Tabela 714 foram apresentados com a finalidade de mos trar que existe relação entre CPOD médio a média de um índice de cáries ou seja a média da soma do número de dentes afetados pela cárie em uma amostra de crianças C cariados P perdidos por cárie O obturados ou seja restaurados devido ao ataque de cárie e a média do número de anos de estudo do responsável pelas crianças O que você acha TABELA 714 Número médio de anos de estudo do responsável pelas crianças de uma amostra e CP00 médio 1 Anos de estudo do responsável CPOOmédio o 170 14 185 5 8 075 9 11 044 789 Uma cadeia de padarias queria saber se a quantidade de dinheiro gasto em propaganda faz aumentar as vendas Durante seis semanas fez em ordem aleatória gastos com propaganda de valores variados conforme mostra a Tabela 715 e anotou os valores recebidos nas vendas Calcule a reta de regressão e coloque em gráfico O que você acha 1 51 Introdução à Bioestatística TABELA 715 Gastos com propaganda em reais na semana e valores recebidos em reais nas vendas 1 Gastos Valores recebidos 10000 102000 15000 161000 20000 203000 25000 256000 30000 280000 7810 Com os dados14 apresentados no Exercido 6614 do Capítulo 6 obti dos de pacientes com enfisema calcule a reta de regressão 7811 Com os dados14 apresentados no Exercido 6615 do Capítulo 6 sobre o volume máximo de oxigênio inalado VOfTláx você diria que a variável di minui lineannente quando a atividade aumenta Calcule a reta de regressão 7812 Os dados15 apresentados na Tabela 716 referemse à pressão sangüínea diast6lica em milímetros de mercúrio quando a pessoa está em repouso Os valores de X indicam o tempo em minutos desde o inicio do repouso e os valores Y são valores de pressão sangüínea Desenhe um diagrama de dis persão Por que não se deve ajustar uma reta de regressão aos dados TABELA 716 Tempo em minutos desde o início do repouso e pressão sangüínea diastólica em milímetros de mercúrio 1 Tempo em minutos desde Pressão sangüínea o início do repouso diastólica o 72 5 66 10 70 15 64 20 66 OTI L e MENDENHALL W Understanding Statistics Belmont Wadsworth 6 ed 1994 p 487 SCHORK M A e REMINGTON R D Statistics with applications to the biological and health sciences New Jersey Prentice Hall 3 ed 2000 p 297 Capitulo 7 Noções sobre Regressão 159 7813 Faça um diagrama de dispersão para apresentar os dados da Tabela 717 Calcule a reta de regressão Coloque a reta no gráfico Quanto devem pesar 10 ratos com 32 dias TABELA 717 Idade em dias e peso médio em gramas de 10 ratos machos da raça Wistar Idade 3J 34 38 42 46 Peso médio 64 74 82 95 100 7814 Ajuste uma equação exponencial aos dados da Tabela 718 TABELA 718 Dados de X e Y 1 X y 28 125 32 125 35 175 38 225 39 325 41 325 42 425 página deixada intencionalmente em branco Noções sobre Probabilidade 8 página deixada intencionalmente em branco Capítulo 8 Noções sobre Probabilidade 153 Você já sabe o que é probabilidade se alguém perguntar qual é a probabi lidade de sair cara no jogo de moeda você responde 12 ou 50 A questão aqui é saber como se chega a esse resultado Mas você deve ter pensado quando se joga uma moeda tanto pode sair cara como coroa as duas faces não podem ocorrer ao mesmo tempo logo cara ocorre em metade das vezes Portanto quando alguém diz que a probabilidade de sair cara num jogo de moedas é 12 mesmo que esteja pensando em jogar a moeda uma úni ca vez está fornecendo como resposta a proporção de caras que obte ria se jogasse a moeda um grande número de vezes E a pessoa não sabe o que vai acontecer em uma única jogada Neste exemplo ficam claras duas características dos fenômenos pro babilísticos Não se pode antecipar um resultado Existe um padrão de comportamento previsível no longo prazo Todo fenômeno probabilístico tem como resultado um evento acon tecimento e o conjunto de eventos possíveis é chamado espaço amostral Exemplo 81 Espaço amostral Dê o espaço amostral do lançamento de duas moedas Solução caracara caracoroa coroacara coroacoroa 81 DEFINIÇÃO CLÁSSICA DE PROBABILIDADE Se forem possíveis n eventos mutuamente exclusivos e igualmente prová veis se m desses eventos tiverem a característica que chamaremos A a pro babilidade de que ocorra um evento com a característica A é indicada por PA e é dada pela razão mn P A m n Simplificando você deve ter aprendido que a probabilidade de obter um evento favorável um evento com uma característica que chamamos de A é dada por PA n2 deeventos favoráveis nº de eventos posslveis 114 Introdução à Bioestatística Exemplo 82 Cálculo de probabilidade Qual é a probabilidade de ocorrer face 6 quando se joga um dado Solução Quando se joga um dado pode ocorrer um dos seis n 6 eventos do espaço amostral 1 2 3 4 5 ou 6 Só existe um evento m 1 com a característica pedida face 6 Então a probabi lidade de ocorrer 6 é 1 P66 01667 Na prática é comum que as pessoas falem em porcentagens quando tra tam de probabilidades Por exemplo a maioria das pessoas diria que a pro babilidade de sair cara quando se lança uma moeda é 50 Os estatísti cos preferem expressar valores de probabilidade por números entre zero e 1 Mas se você quiser expressar probabilidade em porcentagem basta mul tiplicar o valor dado pela definição por 100 Veja agora duas propriedades das probabilidades A soma das probabilidades de todos os eventos possíveis dados no espaço amostral é obrigatoriamente 1 ou 100 A probabilidade varia entre zero e 1 ou entre 0 e 100 inclusive1 Exemplo 83 Extremos zero ou 1 Evento certo tem probabilidade 1 ou 100 Por exemplo a probabilidade de que qualquer um de nós venha morrer um dia é 1 ou 100 Evento impossfvel tem probabilidade zero Por exemplo a probabilidade de que qualquer um de nós seja imortal é zero 82 FREQÜÊNCIA RELATIVA COMO ESTIMATIVA DE PROBABILIDADE O estudo de probabilidades tem enorme aplicação nas ciências em geral mas começou com os jogos de azar As pessoas queriam entender a lei que rege esses jogos para ganhar dinheiro nos cassinos2 E os matemáticos acabaram estabelecendo a teoria das probabilidades Não existe por exemplo 200 de probabilidade Expressões deste tipo aparecem na linguagem coloquial na intenção de enfatizar uma certeza Não têm lógica 20s jogos de azar são antiqüíssimos e foram praticados não só como apostas mas também para prever o futuro decidir conflitos dividir heranças De qualquer modo a teoria de probabilida des tem em Blaise Pascal que viveu no século XVIl uma figura de destaque Capítulo 8 Noções sobre Probabilidade 155 Mas a definição clássica de probabilidade que se aplica bem aos jogos de azar é de certa forma uma definição teórica Mesmo sem ter feito qualquer observação ou coleta de dados construímos o espaço amostral e associamos um valor para a probabilidade de ocorrer cada evento Na área de saúde porém é preciso dispor de dados para estimar probabilidades Perguntas como qual é a probabilidade de um nascituro apresentar doença ou defeito sério ou qual é a probabilidade de um recémnascido chegar aos 90 anos ou qual é a probabilidade de um fumante ter câncer do pulmão só podem ser respondidas com base em dados Então é impor tante entender que na área de saúde as probabilidades são estimadas por freqüências relativas A freqüência relativa de um evento obtida de uma série de dados cole tados nas mesmas condições estima a probabilidade de esse evento ocorrer As freqüências relativas são empíricas porque são calculadas com base nos dados de uma amostra As amostras fornecem estimativas variáveis mesmo que tais amostras tenham sido tomadas no mesmo local e na mesma época As probabilidades são teóricas porque são construídas com base em teoria ou com base nos dados de toda a população em estudo Exemplo 84 Estimativa de probabilidade por freqüência relativa Foram examinadas3 2000 crianças em idade escolar e observouse que 65 delas tinham ausência congênita de um ou mais dentes permanentes anodontia par cial Qual é a probabilidade de uma criança ter anodontia parcial Solução Com base nos dados podemos construir uma tabela TABELA81 Distribuição dos escolares segundo o fato de terem ou não anodontia parcial Anodontia parcial Sim Não Total Freqüência 63 1937 2060 Freqüência relativa 00315 09685 10000 Com base na amostra estimase que a probabilidade de uma criança ter anodontia parcial é 00315 ou 3 15 VEDOVELO FILHO M Prevalência de agenesias dentárias em escolares de Piracicaba 1972 Tese mestrado FOPINICAMP 111 Introdução à Bioestatística 83 EVENTOS MUTUAMENTE EXCLUSIVOS E EVENTOS INDEPENDENTES 831 Eventos mutuamente exclusivos Dois eventos são mutuamente exclusivos quando não podem ocorrer ao mesmo tempo Exemplo 85 Eventos mutuamente exclusivos Quando se joga uma moeda ou sai cara ou sai coroa Os dois eventos não po dem ocorrer ao mesmo tempo a saída de cara exclui a possibilidade de ter saf do coroa Se a cirurgia foi um sucesso fica exclufda a possibilidade de ter sido um fracasso Se o paciente tem IMC igual a 35 fica exclufda a possibilidade de ter naque le momento IMC igual a 25 pode até ser uma meta 832 Eventos independentes 8321 Conjuntos Antes de definir eventos independentes vamos lembrar um pouco da teo ria dos conjuntos que você já deve ter estudado União de dois conjuntos na linguagem comum usamos a expressão ou no sentido exclusivo isto é quando dizemos João ou José queremos di zer um dos dois não ambos Na linguagem dos conjuntos que é a lingua gem das probabilidades A ou B significa A ou B ou ambos Escrevemos AUB e lêse A união B Exemplo 86 União de dois conjuntos ou a regra do ou linguagem comum quando você diz quero sorvete de creme ou de chocolate sig nifica que aceita qualquer um deles e não que você aceita um deles ou o ou tro ou os dois Linguagem dos conjuntos uma médica suspeita que sua paciente que tem cân cer de mama tenha desenvolvido a doença na medula ou no ffgado Isto significa que a doença pode ter atingido a medula ou o fígado ou os dois Capítulo 8 Noções sobre Probabilidade 157 Interseção de dois conjuntos a idéia de dois eventos que ocorrem juntos é expressa pela conjunção e Na linguagem dos conjuntos que é a lingua gem das probabilidades escrevemos AnB e lêse A interseção B significa A e B juntos Exemplo 87 Interseção de dois conjuntos ou a regra do e Linguagem comum quando você pede um sorvete e diz quero de creme e choco late significa que você quer os dois sabores Linguagem dos conjuntos quando uma enfermeira diz à parturiente que ela aca bou de dar à luz um menino e uma menina isso significa gêmeos 8322 Condição de independência No nosso diaadia muitas vezes dizemos uma coisa não tem nada a ver com outra Em linguagem técnica queremos dizer que os eventos são in dependentes O Exemplo 88 serve para ilustrar a condição de independên cia que veremos em seguida Mas você intui o resultado mesmo sem ver os cálculos Veja a pergunta quando se jogam um dado e uma moeda o que ocorre na moeda influi no que sai no dado ou não tem nada a ver Exemplo 88 Condição de independência Um dado e uma moeda são jogados ao mesmo tempo Qual é a probabilidade de ocorrer cara na moeda e face 6 no dado Solução Na Tabela 82 está o espaço amostral TABELA 82 Eventos possíveis no jogo de um dado e uma moeda Moeda Dado Cara Coroa 1 1 Cara 1 Coroa 2 2 Cara 2 Coroa 3 3 Cara 3 Coroa 4 4 Cara 4 Coroa 5 5 Cara 5 Coroa 6 6 Cara 6 Coroa 111 Introdução à Bioestatística A Tabela 82 mostra que seis dos 12 eventos do espaço amostral correspondem à saída de cara na moeda Então a probabilidade desse evento é 6 1 Pcara 12 2 A Tabela 82 também mostra que dois dos 12 eventos correspondem à saída de seis no dado A probabilidade é P6 2 12 6 Na mesma Tabela você vê que apenas um dos 12 eventos corresponde ao que foi pedido cara na moeda e 6 no dado um conjunto interseção A probabilidade é 1 Pcara n 6 12 Então para este exemplo 1 1 Pcara n 6 PcaraXP6 X 1 2 6 12 Dois eventos são independentes se a probabilidade de que ocorram jun tos é igual ao produto das probabilidades de que ocorram em separado Escrevese PA n B PAXPB Esta é a condição de independência de dois eventos Exemplo 89 Eventos independentes na área da saúde Para determinar se existe associação entre implantes mamários e doenças do te cido conjuntivo e outras doenças4 foram observadas durante vários anos 749 mulheres que haviam recebido implante e exatamente o dobro de mulheres que não haviam recebido o implante Verificouse que cinco das mulheres que havi am recebido implantes e 10 das que não haviam recebido implante tiveram do enças do tecido conjuntivo Você acha que ter doenças do tecido conjuntivo não depende de a mulher ter implantes mamários GABRIEL SE et alii Risk of connective tissues diseases and other disorders after breast implantation New Engl J Med 33016971702 1994 Apud MOTIJLSKY H lntuitive Biostatistics Nova York Oxford University Press 1995 p318 Capítulo 8 Noções sobre Probabilidade 159 Solução Com base nos dados podemos construir a Tabela 83 TABELA 83 Distribuição de mulheres com implante mamário e o fato de terem ou não doenças do tecido conjuntivo e outras Implante mamário Sim Não Total Proporção de mulheres que tiveram doença Doenças do tecido conjuntivo e outras Sim Não 5 744 10 1488 15 2232 15 2232 2247 2247 Total 749 1498 2247 Proporção que receberam implante mamário 749 2247 1498 2247 A Tabela 83 mostra que 749 das 2247 mulheres observadas receberam implante mamário Então a probabilidade de nessa amostra uma mulher escolhida ao acaso ter implante mamário é 749 2247 A Tabela 83 também mostra que 15 das 2247 mulheres observadas tiveram do enças do tecido conjuntivo e outras doenças Então a probabilidade de nessa amos tra uma mulher escolhida ao acaso ter doença do tecido conjuntivo e outras do enças é 15 2247 Como cinco das 2247 mulheres observadas receberam implante mamário e tive ram doenças do tecido conjuntivo e outras doenças a probabilidade de ter implan te mamário e ter doença é 5 2247 Agora é fácil verificar se ocorre a condição de independência PA íl B PAXPB 1 71 Introdução à Bioestatística Veja 749 15 1 15 5 X X 2247 2247 3 2247 2247 Logo os eventos são independentes porque Pimplante n doença PimplantexPdoença 8323 Diferença nos conceitos É importante considerar aqui o perigo de confundir eventos independentes com eventos mutuamente exclusivos Às vezes as pessoas entendem que as duas expressões querem dizer a mesma coisa que os eventos não se sobre põem No entanto eventos mutuamente exclusivos se um ocorre o ou tro não pode ocorrer não são independentes Pense no jogo de uma moeda quando se joga uma moeda não há como ocorrer cara e coroa ao mesmo tempo Logo esses eventos são mutuamen te exclusivos Eles são independentes Não a probabilidade de sair cara é 12 mas dada a condição de que ocorreu coroa é zero Então a probabi lidade de sair cara muda se sair coroa Pense nisso 84 PROBABILIDADE CONDICIONAL Muitas vezes relatamos probabilidades que ocorrem sob uma dada condi ção Por exemplo a probabilidade de um universitário trabalhar bem em um computador é maior se estivermos nos referindo aos alunos de Ciências da Computação e não a todos os universitários do Brasil Denominase probabilidade condicional à probabilidade de ocorrer determinado evento sob uma dada condição Indicase a probabilidade condicional de ocorrer o evento A sob a condição de B ter ocorrido por PAIB que se lê probabilidade de A dado B Capítulo 8 Noções sobre Probabilidade 171 Exemplo 810 Cálculo de probabilidade condicional Um dado foi lançado Qual é a probabilidade de a ter ocorrido a face 5 b ter ocorrido a face 5 sabendo que ocorreu face com número impatl Solução a Quando se joga um dado pode ocorrer um dos eventos 1 2 3 4 5 ou 6 Só existe um evento com o atributo desejado face 5 Então a probabilidade é 1 6 b Dada a condição de que ocorreu número ímpar só podem ter ocorrido os nú meros 13ou 5 Note que houve redução do espaço amostral porque foi dada a condição saiu número ímpar Como só existe um evento com o atributo desejado face 5 a probabilidade é 1 3 Vamos discutir um pouco mais o Exemplo 810 A probabilidade de ocor rer face 5 no dado foi modificada quando foi feita a redução do espaço amostral Isto foi feito porque foi dada a condição em que o evento ocor reu havia saído número ímpar Aprendemos que a probabilidade de ocorrer determinado evento depen de muitas vezes das condições em que ocorre esse evento Isto é conhe cido na área de saúde na condição de obeso a probabilidade de doença cardíaca aumenta na condição de chuva e vento fortes a probabilidade de acidente automobilístico aumenta em boas condições de higiene oral a probabilidade de uma pessoa ter cáries diminui Muitas pesquisas são fei tas para estudar os fatores que modificam as probabilidades Veja um exem plo em que o valor de probabilidade se modifica quando é imposta uma condição 1 7 2 Introdução à Bioestatística Exemplo 811 Probabilidade condicional na área de saúde Para verificar se a condição de hospital público ou privado modifica a probabili dade de cesarianas toram apresentados os dados que estão na Tabela 84 coletados em dois hospitais da mesma cidade TABElA 84 Número de cesarianas em dois hospitais um público e um privado Cesariana Hospital Sim Não Total Proporção de cesarianas Privado 89 11 100 89 0 890 100 Público 350 1091 1441 350 O 243 1441 Fonte Fabri et alii 20025 A Tabela 84 mostra que nos hospitais privados 89 dos 100 partos foram por ce sariana Então a probabilidade estimada de cesariana em hospitais privados com base nessa amostra é 0890 A Tabela 84 também mostra que 350 dos 1441 partos feitos em hospitais públi cos foram por cesariana Então a probabilidade estimada de cesariana em hospi tais públicos com base nessa amostra é 0243 Veja a relação entre as duas estimativas de probabilidade 0890 3 7 0243 É fácil ver que a probabilidade estimada de cesariana é bem maior em hospitais privados 37 vezes maior Então a probabilidade estimada de cesariana está con dicionada à categoria do hospital se público ou privado6 5FABRI RH et alü Estudo comparativo das indicações de cesariana entre um hospital públicouni versitário e um hospital privado Rev Eras Saúde Mater Infant v 2 n 1 Recife Jan Abril 2002 os autores explicam que o aumento de cesarianas no hospital privado deve ser decorrente de iteratividade distocia e a escolaridade mais elevada das pacientes Capítulo 8 Noções sobre Probabilidade 173 85 TEOREMA DA SOMA ou A REGRA DO ou A probabilidade de ocorrer A ou B é dada pela probabilidade de ocorrer A mais a probabilidade de ocorrer B menos a probabilidade de ocorrer A e B porque a probabilidade de ocorrer A e B é contada duas vezes Escrevese PA UB PAPB PAn B No entanto se A e B são mutuamente exclusivos a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A mais a probabilidade de ocorrer B Escrevese PA U B PAPB Exemplo 812 A ou B Uma carta será retirada ao acaso de um baralho Qual é a probabilidade de sair uma carta de espadas ou um ás Solução Como um baralho tem 52 cartas das quais 13 são de espçidas e quatro são ases alguém poderia pensar que a probabilidade de sair uma carta de espadas ou um ás é dada pela soma 13 4 52 52 mas esta resposta estaria errada porque existe uma carta o ás de espadas que é tanto ás como espadas Então o ás de espadas teria sido contado duas vezes A probabilidade de sair uma carta de espadas ou um ás é dada por PA U B PA PB PA íl B 13 4 1 16 4 52 52 52 52 13 1 7 4 Introdução à Bioestatística Exemplo 813 A ou 8 disjuntos Uma urna contém quatro bolas duas brancas uma vermelha e uma azul Retira se uma bola da urna ao acaso Qual a probabilidade de ter saído uma bola colori da isto é azul ou vermelha A probabilidade de sair bola azul é Solução 1 4 e a probabilidade de sair bola vermelha é 1 4 Então a probabilidade de sair bola colorida isto é azul ou vermelha é dada pela soma PAuB PAPB 1 1 2 1 4 4 4 2 86 TEOREMA DO PRODUTO OU A REGRA DO E Muitas vezes queremos saber a probabilidade de dois eventos ocorrerem juntos ou um em seguida do outro Queremos então a probabilidade do conjunto interseção Para resolver esse tipo de problema existe a regra do e ou teorema do produto Se A e B são dependentes a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela probabilidade condicional de ocorrer B dado que A tenha ocorrido Escrevese PA e B PA x PB 1 A Se A e B são eventos independentes a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela probabilidade de ocorrer B Escrevese PA e B PA x PB Capítulo 8 Noções sobre Probabilidade 17 5 Exemplo 813 Teorema do produto eventos independentes Uma moeda será jogada duas vezes Qual é a probabilidade de ocorrer cara nas duas jogadas Solução A probabilidade de ocorrer cara na primeira jogada é 1 2 A probabilidade de ocorrer cara na segunda jogada também é 1 2 porque ocorrer cara na primeira jogada não modifica a probabilidade de ocorrer cara na segunda jogada os eventos são independentes Para obter a probabili dade de ocorrer cara nas duas jogadas primeira e segunda fazse o produto 1 1 1 X 2 2 4 Exemplo 814 Teorema do produto eventos dependentes Uma urna contém três bolas duas brancas e uma vermelha Retiramse duas bo las da urna uma em seguida da outra e sem que a primeira tenha sido recolocada Qual é a probabilidade de as duas serem brancas Solução A probabilidade de a primeira bola ser branca é 1 3 A probabilidade de a segunda bola ser branca depende do que ocorreu na primeira retirada Se a bola branca saiu na primeira retirada a probabilidade de a segun da também ser branca é 1 2 Para obter a probabilidade de as duas bolas retiradas serem brancas fazse o pro duto 1 1 1 x 3 2 6 1 7 5 Introdução à Bioestatística 8 7 EXERCÍCIOS RESOLVIDOS 871 De uma classe com 30 alunos dos quais 14 são meninos um aluno é es colhido ao acaso Qual é a probabilidade de a o aluno escolhido ser um menino b o aluno escolhido ser uma menina A classe tem 30 alunos n 30 e todos têm a mesma probabilidade de se rem escolhidos Como 14 são meninos m 14 a a probabilidade de o aluno escolhido ser menino é 1430 ou 7 15 b a probabilidade de o aluno escolhido ser menina é 1630 ou 815 872 Uma pessoa comprou um número de uma rifa que tem 100 números e irá sortear cinco prêmios Qual é a probabilidade de essa pessoa a ganhar um prêmio b de não ganhar Todos os 100 números n 100 da rifa têm igual probabilidade de serem sorteados Serão sorteados números m 5 Então a a probabilidade de uma pessoa que comprou um número ser sorteada é 5100 ou 120 b a probabilidade de a pessoa não ser sorteada é 95100 ou 1920 873 Uma urna tem 10 bolas brantas e quatro pretas Retirase uma bola ao acaso Qual é a probabilidade de essa bola a ser branca b ser preta A urna tem 10 bolas brancas e quatro pretas n 14 Retirase uma bola ao acaso A probabilidade de essa bola a ser branca m 10 é 1014 ou 57 b ser preta m 4 é 414 ou 27 874 Jogase um dado Qual é a probabilidade de sair a o número 3 b nú mero maior do que 3 c número menor do que 3 d número par Quando se joga um dado pode ocorrer um dos eventos 1 2 3 4 5 ou 6 a Apenas um m 1 dos seis eventos n 6 é igual a 3 Então a proba bilidade de ocorrer 3 é 16 b Dos seis eventos três m 3 são maiores do que 3 4 5 6 Então a probabilidade de ocorrer número maior do que 3 é 36 ou 12 c Dos seis eventos dois m 2 são menores do que 3 1 2 Então a pro babilidade de ocorrer número menor do que 3 é 13 d Dos seis eventos três m 3 são números pares 2 4 6 Então a pro babilidade de ocorrer número par é 12 Capítulo 8 Noções sobre Probabilidade 177 875 Jogamse duas moedas Qual é a probabilidade de saírem a duas caras b duas coroas c uma cara e uma coroa Para resolver este problema é conveniente escrever todos os eventos que podem ocorrer quando se joga uma moeda Veja a Tabela 85 TABELA 85 Resultados possíveis no jogo de duas moedas Evento 1ª moeda 2 moeda 1 cara coroa 2 coroa cara 3 cara cara 4 coroa coroa A Tabela 84 mostra n 4 eventos mutuamente exclusivos e igualmente pro váveis A probabilidade de saírem a duas caras evento 3 na Tabela é 14 b duas coroas evento 4 na Tabela é 1 4 c uma cara e uma coroa eventos 1 e 2 na Tabela é 24 876 Em uma família com três filhos qual é a probabilidade de os três serem homens Suponha que a probabilidade de nascer menino é 12 Como o sexo de um filho não depende do sexo do anterior a probabilidade de o primeiro filho ser homem e de o segundo filho ser homem e de o ter ceiro filho ser homem é pelo teorema do produto 1 1 1 1 xx 2 2 2 8 8 7 7 Em uma família com três filhos qual é a probabilidade de a dois se rem homens b um ser homem e nenhum ser homem Suponha que me ninos e meninas têm a mesma probabilidade de nascer Para resolver este problema é conveniente escrever todas as possibilidades em uma família com três filhos Veja a Tabela 86 171 Introdução à Bioestatística TABELA 86 Resultados possíveis em uma família com três filhos 1 Evento tq filho 2 filho 1 Homem Homem 2 Homem Homem 3 Homem Mulher 4 Homem Mulher 5 Mulher Homem 6 Mulher Homem 7 Mulher Mulher 8 Mulher Mulher A probabilidade de a dois serem homens eventos 2 3 e 5 na Tabela é 38 b de um ser homem eventos 4 6 e 7 na Tabela é 38 e nenhum ser homem evento 8 na Tabela é 18 3 filho Homem Mulher Homem Mulher Homem Mulher Homem Mulher 878 Um casal tem dois filhos Qual é a probabilidade de a o primogênito ser homem b os dois filhos serem homens c pelo menos um filho ser homem Suponha que a probabilidade de nascer menino é 1 2 e que o sexo do se gundo filho não depende do sexo do primeiro Então a a probabilidade de o primogênito ser homem é 12 b a probabilidade de os dois filhos serem homens pode ser obtida pelo teorema do produto o primeiro ser homem e o segundo ser homem 1 1 x 1 2 2 4 e a probabilidade de ser homem pelo menos um dos filhos pode ser obti da pelo teorema da soma o primeiro ser homem ou o segundo ser ho mem ou os dois serem homens 1 1 1 3 4 4 4 4 879 No cruzamento de ervilhas amarelas homozigotos AA com ervilhas ver des homozigotas aa ocorrem ervilhas amarelas heterozigotas Aa Se estas ervilhas forem cruzadas entre si ocorrem três ervilhas amarelas para cada ervilha verde a proporção é de três para um Suponha que foram pegas ao acaso três ervilhas resultantes do cruzamento de ervilhas ama relas heterozigotas Qual a probabilidade de as três serem verdes Capítulo 8 Noções sobre Probabilidade 179 A probabilidade de uma ervilha resultante do cruzamento Aa x Aa ser ver de é 14 Logo a probabilidade de as três ervilhas pegas ao acaso serem verdes é 1 1 1 x x 1 4 4 4 64 8710 Qual é a probabilidade de o filho de um homem nonnal XY e de uma filha de hemofílico XhX ser hemofílico XhY Um homem normal XY não transmite a hemofilia para gerações seguintes Uma mulher portadora do gene Xh tem 50 de probabilidade de ter um fi lho hemofi1ico O filho será normal XY ou hemofílico HセyI L com a mes ma probabilidade isto é 12 8711 Jogamse duas moedas ao mesmo tempo Os eventos ucara na primeira moeda e 1aces iguais nas duas moedas são independentes Veja o espaço amostral TABELA87 Resultados possíveis no jogo de duas moedas 1 Evento f moeda moeda 1 Cara Cara 2 Cara Coroa 3 Coroa Cara 4 Coroa Coroa Os eventos possíveis são quatro Só um deles caracara atende cara na primeira moeda que chamaremos de A e faces iguais nas duas moedas 11 que chamaremos B Então a probabilidade pedida é P A n B l 4 Mas a probabilidade de cara 11 na primeira moeda é 2 l PA 4 2 e a probabilidade de faces iguais nas duas moedas 11 é 2 1 PB 4 2 Então P A n B PAxPB A condição de independência foi portanto satisfeita Os eventos cara na primeira moeda e faces iguais nas duas moedas 11 são independentes 111 Introdução à Bioestatística 88 EXERCÍCIOS PROPOSTOS 881 Uma carta é retirada ao acaso de um baralho bem embaralhado Qual é a probabilidade de a ser um ás b ser uma carta de ouro c ser um ás de ouro 882 Uma urna tem 1 O bolas numeradas de 1 a 1 O Retirase uma bola ao acaso Qual é a probabilidade de essa bola a ter número maior do que 7 b ter número menor do que 7 c ter número 1ou10 883 Uma urna tem 15 bolas numeradas de 1a15 Retirase uma bola ao aca so Qual é a probabilidade de essa bola a ter número par b ter núme ro ímpar c ter número maior do que 15 884 Para melhorar as condições de pacientes com determinada doença crô nica existem cinco drogas A B C D e E Um médico tem verba para com parar apenas três delas Se ele escolher três drogas ao acaso para com parar qual é a probabilidade de a a droga A ser escolhida b as dro gas A e B serem escolhidas 885 Dois dados um vermelho outro azul são lançados ao mesmo tempo e se pergunta a qual é a probabilidade de ocorrer face 6 no dado verme lho b qual é a probabilidade de ocorrer face 6 no dado vermelho sa bendo que saiu face 6 no dado azul 886 Um exame feito em jovens que terminaram o curso fundamental mostrou que 20 foram reprovados em Matemática 10 foram reprovados em Português e 5 foram reprovados tanto em Matemática como em Portu guês Os eventos ser reprovado em Matemática e ser reprovado em Por tuguês são independentes 887 Um casal tem dois filhos Qual é a probabilidade de a o segundo filho ser homem b o segundo filho ser homem dado que o primeiro é homem 888 A probabilidade de determinado teste para a AIDS dar resultado negati vo em portadores de anticorpos contra o vírus falsonegativo é 10 Supondo que falsosnegativos ocorrem independentemente qual é a pro babilidade de um portador de anticorpos contra o vírus da AIDS que se apresentou três vezes para o teste ter tido nas três vezes resultado ne gativo Capítulo 8 Noções sobre Probabilidade 111 889 Uma pessoa nonnal filha de pais nonnais tem um avô albino aa Se os outros avós não forem portadores do gene para albinismo AA qual é a probabilidade de essa pessoa ser portadora do gene para albinismo Aa 8810 Suponha que a probabilidade de uma pessoa ser do tipo sangüíneo O é 40 ser A é 30 e ser B é 20 Suponha ainda que o fator Rh não de penda do tipo sangüíneo e que a probabilidade de Rh é de 100 Nestas condições qual é a probabilidade de uma pessoa tomada ao acaso da po pulação ser a O Rh b AB Rh página deixada intencionalmente em branco Distribuição Binomial 9 página deixada intencionalmente em branco Capitulo 9 Distribuição Binomial 1 15 A Estatística formaliza o que nós muitas vezes já sabemos Por exemplo você sabe que as idades das pessoas da sua família variam Portanto você tem consciência da variabilidade Você sabe que no Nordeste faz calor o ano todo o que não acontece no Sul Então você tem consciência de que no decorrer de um ano as temperaturas dos estados nordestinos são em mé dia mais altas do que as temperaturas dos estados do sul do país E se você acha que o peso de uma pessoa depende da altura está mostrando que sabe o que é correlação Ainda todos nós sabemos que ganhar na loteria não é fácil Temos portanto percepção sobre probabilidade Vamos agora definir o que é variável aleatória que você intuitivamente talvez já conheça 91 VARIÁVEL ALEATÓRIA Quando você joga uma moeda ou sai cara ou sai coroa O acaso determi na o resultado Quando num jogo de baralho você tira uma carta pode sair carta de paus de ouros de espadas ou de copas O acaso determina o resultado Mas não é apenas nos jogos de azar que os resultados ocorrem ao acaso Imagine que uma casa foi escolhida por sorteio de uma comunidade de 5000 domicílios Todas as casas tiveram portanto igual probabilidade de serem amostradas Um entrevistador vai então até a casa selecionada e pergunta gênero idade e renda de todos os moradores As respostas estão evidentemente associadas à casa escolhida Se a casa sorteada tivesse sido outra provavelmente o conjunto de respostas seria diferente Logo as res postas coletadas pelo entrevistador foram determinadas pelo acaso uma vez que a casa foi escolhida por processo aleatório Uma variável é aleatória quando o acaso tem influência em seus valores As variáveis aleatórias são indicadas por números Se um jogador ganha quando sai cara associamos o número 1 à saída de cara e o número zero à saída de coroa Se a pessoa entrevistada numa pesquisa disser que tem 42 anos a variável aleatória que representa idade de pessoas assumiu nesse caso valor 42 As variáveis aleatórias são portanto numéricas Logo podem ser dis cretas e contínuas Neste Capítulo vamos estudar as variáveis aleatórias dis cretas 115 Introdução à Bioestatística 911 Variável aleatória binária Alguns experimentos só podem resultar em uma de duas possibilidades o evento no qual estamos interessados que é denominado sucesso e o even to contrário chamado de fracasso O exemplo mais conhecido é o jogo de moedas Quando se joga uma moeda ou sai cara ou sai coroa as duas faces não podem ocorrer ao mesmo tempo Dizemos então que a variável aleatória é binária Na área de saúde encontramos muitas variáveis binárias Veja alguns exemplos um exame laboratorial pode dar resultado positivo ou negativo um nascituro pode ser menino ou menina um medicamento pode surtir ou não o efeito esperado um doador de sangue pode ser Rh ou Rh a dieta pode ser adequada ou nãoadequada determinado material pode estar contaminado ou não Variável aleatória binária é aquela que resulta em um de dois eventos mutuamente exclusivos ou é sucesso ou é fracasso Associamos o valor 1 ao sucesso e valor zero ao fracasso 912 Variável aleatória binomial Muitas vezes contamos o número de vezes que ocorre o evento de interesse ou sucesso em uma série de tentativas ou de experimentos Por exemplo Um jogador conta quantas caras saem quando lança 10 moedas Um pesquisador conta quantos dos 500 chefes de família que entre vistou eram mulheres Um médico conta quantos dos 100 pacientes que tratou com uma nova droga ficaram curados Um biomédico conta quantos dos 32 hemogramas que fez no dia in dicaram doença contagiosa Uma enfermeira conta quantos dos nascidos vivos durante determi nado ano em uma maternidade tinham doença ou defeito sério A variável que resulta da soma dos resultados de uma variável aleatória binária em n tentativas é uma variável aleatória binomial Capitulo 9 Distribuição Binomial 1 17 Exemplo 91 Variável aleatória binomial Escreva os eventos que podem ocorrer quando se lança uma moeda duas vezes Conte o número X de caras em cada um desses eventos Apresente os resultados em uma tabela Solução TABELA 91 Eventos possíveis e número de caras quando uma moeda é lançada duas vezes Eventos possíveis coroa e coroa coroa e cara cara e coroa cara e cara 92 DISTRIBUIÇÃO DE PROBABILIDADES Valor de X o 1 1 2 Os valores observados da カイゥカ セ aleatória X são indicados por x1 x2 xk e as respectivas probabilidades por Px1 Px2 Pxk Obrigatoria mente 1 A soma das probabilidades de ocorrerem todos os valores possíveis de X é 1 2 A probabilidade de ocorrer qualquer valor de X é igual ou maior que zero não pode ser negativa 111 Introdução à Bioestatística Exemplo 92 Distribuição de probabilidades A variável X representa o número de caras que se obtêm quando se lança uma moeda duas vezes Apresente a distribuição de probabilidades de X em tabela e em gráfico Solução Quando se joga uma moeda duas vezes os eventos possíveis são coroa coroa coroa cara cara coroa cara cara Se saírem duas coroas a variável X assume valor zero A probabilidade de isso acontecer é 1 1 1 PcoroaxPcoroa 2 x 2 4 025 Se saírem uma coroa e uma cara a variável X assume valor um A probabilidade de isso acontecer é 1 1 1 1 1 1 PcoroaxPcara PcaraxPcoroa x x 050 2 2 2 2 4 4 Se safrem duas caras a variável X assume valor dois A probabilidade de isso acon tecer é 1 1 1 PcaraXPcara 2 x 2 4 025 A Tabela 92 e a Figura 91 apresentam um resumo destes cálculos ou seja apre sentam a distribuição de probabilidades de X A soma das probabilidades é 1 TABELA 92 Distribuição de probabilidades do número de caras em dois lançamentos de uma moeda Evento Valor de X Coroa e Coroa o Coroa e Cara ou Cara e Coroa 1 Cara e Cara 2 Total PX 1 1 l X 2 2 4 1 1 1 1 2 X X 2 2 2 2 4 l 1 x l 2 2 4 Capitulo 9 Distribuição Binomial 1 19 06 05 Q 04 co e E 03 co o o セe 02 o 1 o o 1 2 Número de caras FIGURA 91 Distribuição de probabilidades do número de caras em dois lançamentos de uma moeda Neste ponto é importante deixar claro que existe diferença entre dis tribuição de probabilidades e distribuição de freqüências As distribuições de freqüências tratadas no Capítulo 2 são empíricas porque são construídas com base nos dados de amostras As amostras variam mesmo que sejam to madas no mesmo local e na mesma época A distribuição de probabilidades é teórica porque é construída com base em teoria ou com base nos dados de toda a população em estudo A distribuição de probabilidades é estável 93 DISTRIBUIÇÃO BINOMIAL Uma distribuição de probabilidades bem conhecida é a distribuição binomial que estuda o número X de sucessos em n tentativas e as suas respectivas probabilidades Para aprender a trabalhar com a distribuição binomial imagine que em determinada maternidade nasceram três bebês em um dia Vamos estudar a distribuição de meninos em três nascimentos Fazendo A indicar menina e O indicar menino os eventos possíveis são os seguintes AAA AAO AOO 000 AOA OAO OAA OOA 1 91 Introdução à Bioestatística O número de meninos que pode ocorrer em três nascimentos é uma va riável aleatória binomial que indicaremos por X A Tabela 93 apresenta os valores possíveis de X e o número de vezes que cada um deles ocorre con forme mostrado no esquema TABELA 93 Números possíveis de meninos em três nascimentos Valor de X Freqüência o 1 2 3 1 3 3 1 Seja p a probabilidade de nascer menino e q a probabilidade de nascer menina Evidentemente p q 1 Se nascerem três meninas isto é se ocorrer o evento AAA a variável aleatória X assume valor zero com probabilidade P X 0 PA x PA X PA q X q X q q3 Se nascerem duas meninas e um menino X assume valor 1 Mas duas meninas e um menino podem ocorrer de três maneiras diferentes Veja as probabilidades Então PA X PA x PO q X q X p pf PA X PO X PA qxp X q pf PO X PA X PA p X q X q pf P X 1 3pq2 Se nascerem uma menina e dois meninos X assume valor 2 Mas uma menina e dois meninos podem ocorrer de três maneiras diferentes Veja as probabilidades Então PA X PO X PO q X p X p p2q PO X PA X PO p x q x p p2q PO X PO X PA p X p x q p2q Capitulo 9 Distribuição Binomial 1 91 Se nascerem três meninos isto é se ocorrer o evento 000 a variável ale atória X assume valor 3 com probabilidade P X 3 PO X PO X PO p X p x p p3 A distribuição binomial do número X de meninos em n 3 nascimen tos está na Tabela 94 São dados os resultados possíveis de X e suas res pectivas probabilidades TABELA 94 Distribuição de probabilidades do número de meninos em três nascimentos 1 Valor de X Probabilidade o q3 1 3pq2 2 3p2q 3 p3 Vamos considerar por facilidade que a probabilidade de nascer meni no é p 05 e que a probabilidade de nascer menina é q 05 embora se saiba que a probabilidade de nascer menino é ligeiramente maior do que 05 Estamos também ignorando nascimentos de gêmeos e nascimentos múltiplos Considerando p 05 e q 05 obtemos a distribuição de pro babilidades do número de meninos em três nascimentos apresentada na Tabela 95 e na Figura 92 TABELA95 Distribuição de probabilidades do número de meninos em três nascimentos p q 05 1 Valor de X PX J 1 1 1 o XX0125 2 2 2 8 1 1 1 1 3 3X X X 0375 2228 2 1 1 1 3 3xxx0375 2 2 2 8 J 1 l l 3 x x 0125 2 2 2 8 Total 1 1 9 Z Introdução à Bioestatística 04 O 1 ッ セ o 1 1 1 2 Valores de X 3 FIGURA 92 Distribuição de probabilidades do número de meninos em três nascimentos 931 Caracterização da distribuição binomial Uma distribuição binomial tem as seguintes características Consiste de n ensaios ou n tentativas ou n eventos idênticos Cada ensaio só pode resultar em um de dois resultados identificados como sucesso e fracasso com valores 1 e zero respectivamente A variável aleatória X é o número de sucessos em n ensaios A probabilidade de sucesso ocorrer o evento de interesse é p e o valor de p permanece o mesmo em todos os ensaios Os ensaios são independentes o resultado de um ensaio não tem efei to sobre o resultado de outro A distribuição binomial fica portanto definida quando são dados dois parâmetros n isto é o número de ensaios p ex se uma moeda for lançada 10 vezes p isto é a probabilidade de sucesso em uma tentativa por exemplo a probabilidade de sair cara quando se joga uma moeda 932 Função de distribuição na distribuição binomial Vamos aceitar sem demonstração que dada uma distribuição binomial de parâmetros n e p a probabilidade de ocorrerem x eventos favoráveis é dada pela fórmula px x11x em que é a combinação1 de n x a x Portanto a probabilidade de ocor rerem x eventos favoráveis em n tentativas é dada pela fórmula Uma rápida revisão sobre análise combinatória está inserida no final deste Capitulo Capitulo 9 Distribuição Binomial 1 9 3 PX x n pxx xn x Veja agora um exemplo que ajuda a entender como trabalhamos com a distribuição binomial Exemplo 93 Eventos em uma distribuição binomial Um dentista vai examinar uma amostra de quatro crianças de 6 anos de idade para saber se elas têm Sim indicado por S ou não Não indicado por N cárie Quais são os eventos possíveis Solução Os eventos possíveis são os que seguem NNNN NNNS NNSS NSSS ssss NNSN NSNS SNSS NSNS NSSN SSNS SNNN SNNS SSSN SNSN SSNN Exemplo 94 Distribuição binomial Reveja o Exemplo 93 Faça X indicar o número de crianças com cárie p indicar a probabilidade de uma criança ter cárie e q indicar a probabilidade de uma crian ça não ter cárie Escreva a distribuição Solução TABELA 96 Distribuição de probabilidades do número de crianças com cárie em quatro crianças Evento Valor de X PX Nenhuma criança com cárie o q4 Uma criança com cárie 1 4pq3 Duas crianças com cárie 2 6p2q2 Três crianças com cárie 3 4p3q Quatro crianças com cárie 4 p4 1 9 4 Introdução à Bioestatística Exemplo 95 Dístribuição binomial n 4 p 04 Reveja o Exemplo 94 Considere que na população estudada a probabilidade de uma criança de 6 anos ter cárie é p 04 ou seja 40 Qual é a probabilidade de duas das quatro crianças examinadas terem cáries Solução A Tabela 96 mostra a probabilidade de a variável X assumir valor 2 Se a proba bilidade de uma criança dessa população ter cárie é p 04 então PX 2 6p2q2 6 X 042 X 062 6 X 016 X 036 03456 Exemplo 96 Cálculo de probabilidades na distribuição binomial Reveja o Exemplo 94 A probabilidade de uma criança de 6 anos ter cárie é p 04 ou 40 Calcule a probabilidade de duas X 2 das quatro n crianças exami nadas terem cáries aplicando a fórmula PX RIHセIクP L T R x06 2 03456 A probabilidade de o dentista encontrar duas de quatro crianças com cárie nes sa população é 03456 933 Média e variância na distribuição binomial A média µ lêse mi de uma distribuição binomial é dada pela fórmula µnp e a variância J2 lêse sigma ao quadrado é dada pela fórmula 0 2 npq Exemplo 97 Média e variância da distribuição binomial A probabilidade de nascer um menino é p 05 ignorando nascimentos de gêmeos e nascimentos múltiplos Calcule a média e a variância do número de meninos em 1000 nascituros Solução A média é µ np 1000 x 05 500 meninos e a variância é cr2 npq 1000 X 05 X 05 250 Capitulo 9 Distribuição Binomial 1 9 5 94 REVISÃO SOBRE ANÁLISE COMBINATÓRIA Se n é um número inteiro positivo maior do que zero por definição fatorial de n que se indica por n é dado por n n n 1 n2 1 O fatorial de 5 é portanto 5 5 X 4 X 3 X 2 X 1120 O desenvolvimento de um fatorial pode ser interrompido antes de che gar ao número 1 desde que se coloque o símbolo que indica o fatorial logo após o último número Escrevese 5 5x4x3l porque 3 3X2X 1 O fatorial de zero que se indica por O é por definição igual a 1 Dado um conjunto de n elementos onde n O e dado o número x n combinação de n x a x é indicada por n n x xnx Esta fórmula dá o número de diferentes conjuntos de x elementos que podem ser formados com n elementos distintos Seja n 5 ex 3 Então a combinação de 5 3 a 3 é 5 5 2 10 3 353 32 Convém observar que para todo n n n n nnn 95 EXERCÍCIOS RESOLVIDOS 2l nO 951 Ache o erro nas duas afinnativas feitas em seguida a A probabilidade de você ser aprovado em Estatística é 2 e de ser repro vado é 02 b A probabilidade de chover amanhã é 20 de ficar nublado sem chuva é 10 e de ter sol é 80 A soma de probabilidades deve ser 1 ou 100 Nas duas afirmativas as somas excedem o valor 1 ou 100o 1 9 5 Introdução à Bioestatística 952 Numa prova2 o aluno deve assinalar a resposta que fornece as datas na ordem em que estão mencionadas de três acontecimentos históricos Des coberta do Brasil Descoberta da América Independência do Brasil As op ções são a 1492 1822 1500 b 1822 1492 1500 e 1492 1500 1822 d 1822 1500 1492 e 1500 1492 1822 f 1500 1822 1492 Um aluno que nada sabe sobre a matéria tenta adivinhar Qual é dis tribuição de probabilidades do número de acertos A resposta correta é a resposta e Descoberta do Brasil 1500 Desco berta da América 1942 Independência do Brasil 1822 Mas outras res postas têm as datas de um ou dois acontecimentos na ordem correta Veja o número de acertos em cada resposta Resposta Probabilidade til de acertos na resposta a 16 o b 16 1 e 16 1 d 16 o e 16 3 f 16 1 TABELA 97 Distribuição de probabilidade do número de acertos 1 Acertos Probabilidade o 26 1 36 2 o 3 16 Total 1 Adaptado de MOSTELLER F ROURKE R E K THOMAS JR G B Probability and Statistics Reading AddisonWesley 1961 p 160 Capitulo 9 Distribuição Binomial 1 9 7 953 Na população branca do Brasil 85 têm Rh Três pessoas são amostradas ao acaso dessa população Construa a distribuição binomial e faça um gráfico No problema TABELA 98 n é o número de pessoas n 3 X é o número de pessoas com Rh na amostra p é a probabilidade de Rh p 085 q é a probabilidade de Rh q 015 Cálculos intermediários para obter a distribuição binomial Eventos Valores possíveis de X Cálculos Probabilidade Rh Rh Rh 3 085 X 085 X 085 0614125 Rh Rh Rh 2 085 X 085 X 015 0108375 Rh Rh Rh 2 085 X 015 X 085 0108375 Rh Rh Rh 2 015 X 085 X 085 0108375 Rh Rh Rh 1 085 X 015 X 015 0019125 Rh Rh Rh 1 015 X 085 X 015 0019125 Rh Rh Rh 1 015 X 015 X 085 0Õ19125 Rh Rh Rh o 015 X 015 X 015 0003375 Para construir a tabela de distribuição binomial você soma as proba bilidades dos eventos que levam ao mesmo valor de X A distribuição é dada na Tabela 99 TABELA 99 Distribuição de probabilidades do número de pessoas com Rh numa amostra de três pessoas 1 Valores de X Probabilidade 3 0614125 2 0325125 1 0057375 o 0003375 1 91 Introdução à Bioestatística e o 0003375 e E 0057375 o u 1 o 0325125 2 Q o Q 0614125 O o 3 z Probabilidades FIGURA 93 Distribuição de probabilidades ido número de pessoas com Rh em três pessoas 954 Apresente em tabela e em gráfico a distribuição do número de meni nos que podem ocorrer em uma família com seis crianças No problema n é o número de crianças 6 p é a probabilidade de meni no 12 e q é a probabilidade de menina 12 Para obter a probabilida de de X assumir o valor O ou seja de não ocorrer nenhum menino calcule PX ッ IM HセI ク HセIᄎ ク Hセj M 6 1 l 1 xx 1 61 2 26 64 Para obter a probabilidade de X assumir o valor 1 isto é de ocorrer um menino em uma família com seis crianças calcule 6 1 1 1 5 6 P X 1 1 X 2 X 2 64 Para obter a probabilidade de x assumir o valor 2 isto é de ocorrerem dois meninos em uma família com seis crianças calcule 6 1 2 1 4 15 PX 2 2 X 2 X 2 64 Para obter a probabilidade de X assumir o valor 3 calcule p H x S I HセIクH セI S ク H セ j セ Para obter a probabilidade de X assumir o valor 4 calcule 6 1 4 1 2 15 PX 4 4 X 2 X z 64 Capitulo 9 Distribuição Binomial 1 9 9 Para obter a probabilidade de X assumir o valor 5 calcule 6 1 5 1 1 6 PX 5 5 X 2 X 2 64 Para obter a probabilidade de X assumir o valor 6 calcule Com os valores de X e as respectivas probabilidades podemos construir a Tabela 910 que apresenta uma distribuição binomial para n 6 e p 05 O gráfico de barras está na Figura 94 TABELA 910 Distribuição do número de meninos em uma família com seis crianças Evento X P X Nenhum menino o 164 1 menino 1 664 2 meninos 2 1564 3 meninos 3 2064 4 meninos 4 1564 5 meninos 5 664 6 meninos 6 164 035 03 025 Q O co 02 E a co 015 o セo Cl 01 005 o o 1 2 3 4 5 6 Número de meninos FIGURA 94 Distribuição do número de meninos em uma família com seis crianças Z 11 Introdução à Bioestatística 955 A probabilidade de um menino ser daltônico é 8 Qual é a probabili dade de serem daltônicos todos os quatro meninos que se apresentaram em determinado dia para um exame oftalmológico No problema p 008 Então q 1 008 092 O número de meninos é n 4 Para obter a probabilidade de X assumir valor 4 aplicase a fórmula Então PX x px qnx PX 4 x08 4 x092 0000040 ou 0004096 956 O resultado do cruzamento de ervilhas amarelas homozigotas AA com ervilhas verdes homozigotas aa são ervilhas amarelas heterozigotas Aa Se estas ervilhas forem cruzadas entre si ocorrem ervilhas amarelas e verdes na proporção de 3 para 1 Portanto a probabilidade de num cru zamento desse tipo ocorrer ervilha amarela é p 34 e a probabilidade de ocorrer ervilha verde é q 1 4 Logo o número de ervilhas amarelas em um conjunto de n ervilhas é uma variável aleatória com distribuição binomial de parâmetros n e p 34 Foram pegas ao acaso quatro er vilhas resultantes do cruzamento de ervilhas amarelas heterozigotas Qual é a probabilidade de duas dessas quatro ervilhas serem de cor amarela A probabilidade de duas das quatro ervilhas serem amarelas é dada por 4 3 2 t 2 PX 2 2 X 4 4 02109 ou 2109 957 Considere novamente o cruzamento de ervilhas amarelas e verdes des crito no Exercido 95 6 Qual é a média de ervilhas amarelas considerando uma amostra de n 100 ervilhas Qual é a variância Um conjunto de n 100 ervilhas tem em média e variância µ 100x1 7 5 ervilhas amarelas 4 3 1 cr 2 lOOxx18 75 4 4 Capitulo 9 Distribuição Binomial 211 958 Um exame é constituído de 100 testes com cinco opções onde apenas uma é correta Um aluno que nada sabe sobre a matéria do exame acerta em média quantos testes Qual é a variância da distribuição A probabilidade de um aluno acertar uma resposta por acaso é p 15 Existem n 100 testes Então aplicando a fórmula vem µ 100x 20 5 ou seja um aluno que nada sabe sobre a matéria acerta em média 20 tes tes A variância da distribuição é cr 2 lOOxx 4 16 5 5 959 Um pesquisador de mercado quer saber a proporção de consumidores que preferem café sem cafeína Se ele perguntar a 500 pessoas que tipo de café adquiriu em sua última compra como ele estimaria a média e a variância da distribuição O pesquisador terá respostas Sim e Não além de outras como Não sei Não me lembro Não tenho tempo para responder questionários Se as respostas do tipo Sim e Não chegarem a 70 isto é se a taxa de res posta for de 70 quando a quantidade de nãorespondentes é grande a pesquisa não tem validade terá uma distribuição binomial A média será obtida pela fórmula µnp e a variância セ pela fórmula cr npq O valor de p é obtido dividindo o número de consumidores que prefere café sem cafeína pelo número n de respondentes 9510 Numa cirurgia experimental uma cobaia pode sobreviver S ou mor rer M O pesquisador não sabe é isto que ele está pesquisando mas considere que a probabilidade de uma cobaia sobreviver na cirurgia é 025 A cirurgia será feita em duas cobaias Se ambas sobreviverem operamse mais duas Se só uma sobreviver outra é operada Se as duas morrerem o pesquisador pára o experimento Qual é a probabüidade de não se fazer uma segunda seqüência de cirurgias as duas primeiras cobaias operadas morrerem Qual é a probabilidade de quatro cobaias ser operadas e as quatro sobreviverem Z 1 Z Introdução à Bioestatística As respostas são dadas na Tabela 911 Se as duas cobaias morrerem sobre vivência zero o pesquisador pára o experimento A probabilidade de isso ocorrer é 05625 Se as duas cobaias sobreviverem sobrevivência 2 o pes quisador opera mais duas A probabilidade de isso ocorrer é 00625 X 00625 00039 TABELA 911 Probabilidade de sobrevivência de cobaias submetidas a uma cirurgia experimental 1ª seqüência 2 seqüência Total Operadas Vivas Pvivas Operadas Vivas Pvivas Operadas Vivas Pvivas 2 o 05625 o 2 o 05625 2 1 03750 1 o 07500 3 1 02813 1 02500 2 00938 2 2 00625 2 o 05625 4 2 00352 1 03750 3 00234 2 00625 4 00039 96 EXERCÍCIOS PROPOSTOS 961 Há três bolas numeradas em uma caixa cada uma com um número dife rente Os números são 1 2 e 3 Tirase uma bola da caixa e em seguida outra Formase então um número de dois dígitos com os números das bolas retiradas Por exemplo se saiu 3 e depois 2 foi formado o número 32 Um jogador ganha se sair número par Nesse jogo se ganha mais do que se perde ou é justamente o contrário 962 Seja X a variável aleatória que indica o número de meninos em uma fa mília com cinco crianças Apresente a distribuição de X em uma tabela Faça um gráfico 963 Um exame é constituído de 10 testes tipo certoerrado Um aluno que nada sabe sobre a matéria do exame quantos testes em média acerta Qual é a variância da distribuição Capitulo 9 Distribuição Binomial 213 964 Um exame é constituído de 10 testes com cinco opções das quais apenas uma é correta Um aluno que nado sabe sobre a matéria do exame acerta em média quantos testes Qual é a variância da distribuição 9 65 Suponha que determinado medicamento usado para o diagnóstico pre coce da gravidez é capaz de confinnar casos positivos em apenas 90 das gestantes muito jovens Isto porque em 10 das gestantes muito jovens ocorre uma escamação do epitélio do útero que é confundida com a mens truação Nestas condições qual é a probabilidade de duas de três gestan tes muito jovens que fizeram uso desse medicamento não terem confir mado precocemente a gravidez 966 A probabilidade de um casal heterozigoto para o gene da fenilcetonúria Aa x Aa ter um filho afetado aa é 14 Se o casal tiver três filhos qual é a probabilidade de ter um filho com a doença 967 A probabilidade de um indivíduo ter sangue Rh é 10 na população brasileira toda Qual é a possibilidade de se apresentarem em determinado dia em um banco de sangue cinco doadores de sangue todos Rh 968 Foi feito um levantamento da opinião de 1000 enfermeiras que traba lhavam em determinado hospital sobre determinada questão que tinha duas alternativas Sim e BnッGセ As respostas têm distribuição binomial Algumas enfermeiras não responderam ao questionário Que efeito isso pode ter sobre as respostas 969 A experiência demonstra que um detector de mentiras dá resposta posi tiva indicando mentira 10 das vezes em que uma pessoa está dizen do a verdade e 95 das vezes em que a pessoa está mentindo Imagine que seis suspeitos de um crime são submetidos ao detector de mentiras Todos os suspeitos se dizem inocentes e estão dizendo a verdade Qual é a probabilidade de ocorrer uma resposta positiva 9610 O diretor de uma grande empresa está preocupado com a questão de acidentes e quer fazer um levantamento da situação Existem os registros do número de acidentes por dia na empresa Essa variável tem distribui ção binomial página deixada intencionalmente em branco Distribuição Normal 10 página deixada intencionalmente em branco Capítulo 10 Distribuição Normal Zl7 No Capítulo 3 deste livro você aprendeu a apresentar dados contínuos em histogramas ou em polígonos de freqüências Esses gráficos mostram a con figuração de distribuições empíricas isto é de distribuições obtidas com base em dados observados Veja o Exemplo 101 Exemplo 101 Uma distribuição empírica Um matemático belga do século XIX pôs na cabeça a idéia de descrever o homem médio e por conta disso mediu muitas e muitas variáveis1 A Tabela 101 mos tra a distribuição do perímetro torácico2 que esse matemático mediu em nada menos do que 5732 soldados escoceses As medidas estão em polegadas Como uma polegada vale 254 cm você vê que as medidas variaram entre 8382 cm e 12192 cm3 Veja o histograma apresentado na Figura 101 TABELA 101 Distribuição de freqüências para perímetro torácico de homens adultos em polegadas Perímetro torácico Freqüência Freqüência relativa 33 3 000052 34 19 000331 35 81 001413 3l 189 003297 37 409 007135 38 753 013137 39 1002 018528 40 1082 018876 41 935 016312 42 646 011270 43 313 005461 44 168 002931 45 f 000872 46 18 000314 47 3 000052 48 1 000017 Fonte Oaly F Hand O Jones C Lunn AO 1995 1Adolphe Quetelet 17961874 2DALY F HAND D JONES C LUNN AD Elements of Statistics Addison Wesley 1995 Os homens eram em média menores do que são hoje Z 11 Introdução à Bioestatística 020 セMセ 018 016 ᄋセ 014 セ 012 ᄋセ 010 セ e cr 008 セ 006 004 002 oooi 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 Perfmetro torácico FIGURA 101 Histograma poro o distribuição de freqüências do perímetro torácico de homens adultos em polegadas Muitas distribuições de freqüências têm a aparência da distribuição da Figura 10 1 Todas elas se aproximam de uma distribuição teórica chamada distribuição normal também conhecida como distribuição de Gauss apre sentada em gráfico na Figura 102 Nenhuma distribuição empírica no en tanto tem todas as características da distribuição normal Mas o fato de pressupor que uma variável tem distribuição normal permite resolver muitos problemas em Estatística FIGURA 102 Gráfico do distribuição normal Capítulo 10 Distribuição Normal Zl 9 101 CARACTERÍSTICAS DA DISTRIBUIÇÃO NORMAL Os gráficos apresentados nas Figuras 101 e 102 têm configuração seme lhante Mas o primeiro é empírico e o segundo é teórico o que os tornam diferentes Observe novamente o histograma da Figura 101 a freqüência relativa de unidades em cada intervalo é dada pela altura medida no eixo das ordenadas do retângulo que representa o intervalo Então a propor ção de homens adultos com perímetro torácico igual a 37 polegadas por exemplo é dada no eixo das ordenadas aproximadamente 007 Essas pro porções são estimativas de probabilidade A distribuição teórica dada na Figura 102 representa uma população in finita Logo o eixo das ordenadas não mostra a proporção de indivíduos em cada categoria porque não há como calcular proporções sobre um total que é infinito Mas a curva abriga toda a população em estudo Então a área to tal sob a curva é 1 ou seja 100 porque toda a população está sob a curva A distribuição normal fica definida quando são dados dois parâmetros a média que se representa pela letra grega µ lêse mi e o desvío padrão que se representa pela letra grega cr lêse sigma Algumas características da distribuição normal são bem conhecidas a média a mediana e a moda coincidem e estão no centro da distri buição o gráfico da distribuição normal tem aspecto típico é uma curva em forma de sino simétrica em tomo da média como a curva é simétrica em tomo da média 50 dos valores são iguais ou maiores do que a média e 50 dos valores são iguais ou menores do que a média Exemplo 102 Uma distribuição nonnal Um teste de inteligência4 foi idealizado pressupondo que quociente de inteligên cia tem distribuição normal de média µ 100 e desvio padrão cr 15 Veja a Fi gura 103 e note que de acordo com esse teste As pessoas têm em média OI igual a 100 Metade das pessoas tem OI igual ou maior do que 100 e metade tem OI igual ou menor do que 100 Pessoas com OI muito alto na cauda à direita da curva são raras como tam bém são raras pessoas com OI muito baixo na cauda à esquerda da curva Existem muitas maneiras de medir inteligência embora nenhuma delas explique exatamente o que está sendo medido Mas um dos testes Weschler foi idealizado pressupondo que inteli gência tem distribuição normal como mostrado no exemplo ln MOTULSKY H Intuitive Biostatistics Nova York Oxford Press 1995 p38 Z 11 Introdução à Bioestatística A grande vantagem de pressupor que uma variável tem distribuição nor mal é o fato de ser possível porque a distribuição é conhecida cal cular as probabilidades relacionadas a essa variável Essas probabilidades são dadas pelas áreas sob a curva Mas como isso é feito Você já sabe a rela ção entre a área sob a curva e a média metade das observações é maior do que a média e obviamente metade das observações é menor do que a mé dia Mas também existem relações entre a área sob a curva e o desvio pa drão da variável Veja Provase teoricamente5 que se a variável tem distribuição normal 3413o da área sob a curva estão entre a média µ e um ponto de abscissa igual à média mais um desvio padrão µ cr A curva é simétrica em torno da média Seguese dai que 34 13 da área sob a curva está entre a média µ e um ponto de abscissa igual à média menos um desvio padrão µ cr Se você somar as porcentagens terá 6826 Então entre µ cr e µ cr estão 6826o da área da curva como mostra a Figura 103 A proporção da área sob a curva dá a probabilidade de ocorrerem casos no mesmo intervalo Veja o Exemplo 103 40 50 60 70 80 90 100 110 120 130 14D 150 160 FIGURA 103 Distribuição normal 6826o dos casos estão entre a média 1 desvio padrão Neste livro você aprende como usar as tabelas prontas A teoria é encontrada em textos teóri cos de Estatística Capítulo 10 Distribuição Normal Zt 1 Exemplo 103 Média desvio padrão Reveja o Exemplo 102 Pressupondo que quociente de inteligência tem distribui ção normal de média µ 100 e desvio padrão cr 15 então 34 13 das pessoas segundo o teste têm quociente de inteligência entre µ 100 e µ cr 100 15 115 ou seja entre 100 e 115 34 13 das pessoas segundo o teste têm quociente de inteligência entre µ 100 eµ cr 100 15 85 ou seja entre 100 e 85 6826 das pessoas segundo o teste têm quociente de inteligência entre 85 e 115 Olhe novamente a Figura 102 as áreas sob a curva diminuem à medi da que os valores de X se afastam da média Provase teoricamente que se a variável tem distribuição normal 1359 da área sob a curva estão entre a média mais um desvio pa drão µ o e um ponto de abscissa igual à média mais dois desvios padrões µ 2o A curva é simétrica em torno da média Seguese daí que 1359 da área sob a curva estão entre a média menos um desvio padrão µ cr e um ponto de abscissa igual à média menos dois desvios padrões µ 2o Veja a Figura 104 40 50 60 70 80 90 100 110 120 130 140 150 160 FIGURA 104 Distribuição normal 1359 dos casas entreµ o eµ 2o e 1359o dos casos entre µ o e µ 2o Z 1 2 Introdução à Bioestatística Exemplo 104 Outros dois intervalos Reveja o Exemplo 102 Pressupondo que quociente de inteligência tem distribui ção normal de média µ 100 e desvio padrão J 15 então 1359 das pessoas segundo o teste têm quociente de inteligência entreµ cr 100 15 115 e µ 2J 100 30 130 ou seja entre 115 e 130 1359 das pessoas segundo o teste têm quociente de inteligência entreµ cr 100 15 85 e µ 2J 100 30 70 ou seja entre 70 e 85 Vamos agora reunir as informações das duas últimas figuras Isso sig nifica calcular a probabilidade de uma observação cair no intervalo µ 2cr ou o que é o mesmo estar entre µ 2cr e µ 2J Escrevemos P µ 2J Xµ 2cr Lembrando os valores apresentados nas figuras 103 e 104 podemos escrever P µ 2J X µ 2J 1359 3413 3413 1359 9544 Logo o intervalo µ 2J engloba 9544 da área sob a curva Exemplo 105 Média 2 desvios padrões Reveja o Exemplo 102 Pressupondo que quociente de inteligência tem distribui ção normal de médiaµ 100 e desvio padrão J 15 então 9544 das pesso as segundo o teste têm quociente de inteligência entre 70 e 130 isto é entre µ 2cr 100 2 X 15 70 e µ 2J 10 2 X 15 130 Agora olhe novamente a Figura 104 a área sob a curva depois do ponto de abscissa µ 2cr é muito pequena Do que foi visto é fácil entender que essa área tem probabilidade 500 3413 1359 228 Por similaridade a área sob a curva antes do ponto de abscissa µ 2J tem como se vê na Figura 104 probabilidade 500 34 13o 1359o 228 Capítulo 1 O Distribuição Normal Z 13 Exemplo 106 Caudas da distribuição Reveja o Exemplo 102 Pressupondo que quociente de inteligência tem distribui ção normal de médiaµ 100 e desvio padrão cr 15 qual é o valor da abscissa OI que delimita os 228 de OI mais alto E qual é o valor da abscissa OI que delimita os 228 de OI mais baixo Solução Os 228 das pessoas com OI mais alto são os que estão acima deµ 2cr 100 2 x 15130 Os 228 das pessoas com OI mais baixo são os que estão abaixo de µ 2cr 100 2 X 15 70 Portanto pessoas com OI muito alto na cauda à direita da curva são raras como também são raras pessoas com OI muito baixo na cauda à esquerda da curva É importante lembrar que no exemplo dado os valores obtidos pres supõem distribuição normal Na prática encontramos distribuições aproxi madamente normais Então os resultados obtidos são aproximações De qualquer forma na maioria das vezes o intervalo x s captura a maioria dos casos e o intervalo x 2 s engloba a grande maioria de casos 102 DISTRIBUIÇÃO NORMAL REDUZIDA Distribuição normal reduzida ou distribuição normal padronizada é a distribuição normal de média zero e variância 1 A variável que tem distribuição normal reduzida ou distribuição normal padronizada é chamada variável reduzida ou padronizada e é indicada pela letra z A distribuição normal reduzida tem grande importância 1 As probabilidades associadas à distribuição normal reduzida são da das em tabelas o que torna fácil saber as probabilidades associadas a essa distribuição Basta procurar na tabela 2 Podemos transformar qualquer variável aleatória X com distribuição normal de média e desvio padrão conhecidos numa distribuição nor mal reduzida Z 1 4 Introdução à Bioestatística 3 Dos itens 1 e 2 seguese que qualquer probabilidade associada a X pode ser obtida transformando X distribuição normal em z distri buição normal reduzida Vamos aprender como se acham as probabilidades na distribuição nor mal reduzida Por exemplo qual é a probabilidade de ocorrer valor entre a média zero e o valor z 125 Essa probabilidade é encontrada na ta bela de distribuição normal reduzida que você acha neste livro em Apên dice Mas parte dessa tabela foi reproduzida neste Capítulo é a Tabela 102 Para aprender como se usa a tabela de distribuição normal reduzida observe a Figura 105 A probabilidade de ocorrer valor entre a média zero e o valor z 125 corresponde à área sombreada na Figura 105 60 50 40 30 20 10 00 10 20 30 40 50 60 FIGURA 105 Probabilidade de ocorrer valor entre zero e z 125 Agora olhe a Tabela 102 na primeira coluna está o valor 12 negrito na primeira linha da Tabela 102 está o valor 5 negrito O número 12 com põe com o algarismo 5 o número z 125 No cruzamento da linha 12 com a coluna 5 está o número 03944 negrito Esta é a probabilidade de ocor rer valor entre a média zero e o valor z 125 área sombreada na Figura 105 Capítulo 10 Distribuição Normal TABELA 102 Tabela parcial de distribuição normal reduzida probabilidade de valor entre zero e 125 o 1 2 3 4 5 00 00000 00040 00080 00120 00160 00199 01 00398 00438 00478 00517 00557 00596 02 00793 00832 00871 00910 00946 00987 03 01179 01217 01255 01293 01331 01368 04 01554 01591 01628 01664 01700 01736 05 01915 01950 01985 02019 02054 02088 06 02257 02291 02324 02357 02389 02422 07 02580 02611 02642 02673 02703 02734 08 02881 02910 02939 02967 02995 03023 09 03159 03186 03212 03238 03264 03289 10 03413 03438 03461 03485 03508 03531 1 1 03643 03665 03686 03708 03729 03749 12 03849 03869 03888 03907 03925 03944 13 04032 04049 04066 04082 04099 04115 14 04192 04207 04222 04236 04251 04265 Exemplo 107 Probabilidade na distribuição normal reduzida Qual é a probabilidade de ocorrer valor maior do que z 125 Solução 6 00239 00636 01026 01406 01772 02123 02454 02764 03051 03315 03554 03770 03962 04131 04279 A probabilidade de ocorrer valor entre a média zero e o valor z 125 área som breada é 03944 como foi visto anteriormente Essa probabilidade corresponde à área pontilhada na Figura 105 A probabilidade de ocorrer valor maior do que a média zero é 05 Então a probabilidade pedida área com hachuras é 05 03944 O 1056 ou 1056 Z15 Z 1 5 Introdução à Bioestatística Exemplo 108 Probabilidade na distribuição normal reduzida Qual é a probabilidade de ocorrer valor menor do que z 075 A probabilidade de ocorrer valor menor do que z 075 é dada pela área com hachuras na Figura 106 Observe a área pontilhada entre zero e z 075 é igual à área sombreada entre zero e z 075 Para achar essa área procure na primeira coluna da tabela de distribuição normal reduzida o número 07 e na primeira linha o número 5 Você compôs o número z 075 No cruzamento entre a coluna 07 e a linha 5 você lê 02734 que é a probabilidade de ocorrer valor entre zero e z 075 área pontilhada 60 50 40 30 20 10 00 10 20 30 40 50 60 FIGURA 106 Probabilidade de ocorrer valor menor do que z 075 A probabilidade de ocorrer valor menor do que z 075 área com hachuras é igual à probabilidade de ocorrer valor maior do que z 075 área em branco Como a probabilidade de ocorrer valor maior do que a média zero é 05 a probabilida de pedida é dada por 05 02734 02266 ou 2266 103 PROBABILIDADES NA DISTRIBUIÇÃO NORMAL Você aprendeu a trabalhar com a distribuição normal reduzida Aprenda agora como trabalhar com a distribuição normal Mas como se transforma uma variável que tem distribuição normal com média µ e desvio padrão cr em uma variável com distribuição normal re duzida de média zero e desvio padrão 1 Basta calcular z X µ Capítulo 10 Distribuição Normal Zt 7 Com o valor de z calculado pela fórmula dada você procura a proba bilidade pedida na tabela de distribuição normal reduzida como mostra a Seção 102 deste Capítulo Exemplo 109 Probabilidade na distribuição normal A quantidade de colesterol em 100 m 1 de plasma sangüíneo humano tem distri buição normal com média 200 mg e desvio padrão 20 mg Qual é a probabilidade de uma pessoa apresentar entre 200 e 225 mg de colesterol por 100 mi de plasma Solução Observe a Figura 107 A probabilidade pedida corresponde à área sombreada Como você acha o valor dessa área 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 FIGURA 107 Probabilidade de taxa de colesterol entre 200 e 225 mg por 100 mi de sangue Para obter a probabilidade pedida é preciso transformar a distribuição normal em distribuição normal reduzida Na distribuição normal reduzida a média é zero Para obter X 225 na distribui ção normal reduzida calcule X µ コ Mセ cr 225 200 20 l25 Z 11 Introdução à Bioestatística A área sombreada na Figura 107 corresponde à área sombreada na Figura 105 Então a probabilidade de X assumir valor entre 200 e 225 é igual à probabilidade de Z assumir valor entre zero e z 125 que como se viu na Seção 102 é 03944 ou 3944 Logo a probabilidade de uma pessoa apresentar taxa de colesterol en tre 200 e 225 mg por 100 mi de plasma é 03944 ou 3944 Exemplo 1010 Probabilidade na distribuição normal A quantidade de colesterol em 100 mi de plasma sangüíneo humano tem distri buição normal com média 200 mg e desvio padrão 20 mg Qual é a probabilidade de uma pessoa apresentar menos do que 195 mg de colesterol por 100 mi de plasma Solução Essa probabilidade corresponde à área com hachuras na Figura 108 120 130 140 150 160 170 180 190 200 21 o 220 230 240 250 260 270 280 FIGURA 108 Probabilidade de taxa de colesterol menor do que 195 mg por 100 mi de sangue É preciso transformar o valor X 195 em z Obtémse então z 195 ro 025 2 A probabilidade de ocorrerem valores de z iguais ou menores do que D25 é igual à probabilidade de valores dez iguais ou maiores do que 025 Capítulo 10 Distribuição Normal Zt 9 A probabilidade de ocorrerem valores de z entre a média zero e 025 você encon tra na tabela de distribuição normal reduzida é 00987 no cruzamento da coluna 02 e da linha 5 A probabilidade de valores de z iguais ou maiores do que 025 é portanto 05 00987 04013 ou 40 13 Então a probabilidade de uma pessoa apresentar 195 mg de colesterol por 100 mi de plasma ou menos é 04013 ou 4013 104 Usos DA DISTRIBUIÇÃO NORMAL Imagine que você está lendo um artigo da área de Cardiologia Nesse artigo você lê que a amostra de 100 pacientes forneceu para pressão sistólica a média x 1234 mm de mercúrio e desvio padrão s 140 mm de mercú rio Esses valores estimam os parâmetros isto é a médiaµ e o desvio pa drão cr da população de onde essa amostra proveio Por que essa informa ção é útil Primeiro é razoável assumir que a pressão sistólica tem distribuição normal Veja o gráfico da Figura 109 Depois você já aprendeu que A probabilidade de ocorrer valor de X no intervalo µ cr é 06826 34 1303413 A probabilidade de ocorrer valor de X no intervalo µ 2cr é 09544 0477204772 No caso da amostra em discussão temos que x s 1234 140 1094 X S 1234 14Ü 137 4 x 2s 1234 2xl40 954 x 2s 1234 2xl40 1514 Considerando a média e o desvio padrão obtidos da amostra como boas estimativas deµ e cr respectivamente vem que A probabilidade de encontrar pessoas na população de onde a mos tra proveio com pressão sistólica entre 1094 e 1374 mm de mercúrio é aproximadamente porque a distribuição é aproximadamente normal e os parâmetros estão estimados 6826 Ou seja cerca de 23 da população estudada deve ter pressão sistólica entre 1094 e 1374 mm de mercúrio Z Z 1 Introdução à Bioestatística A probabilidade de encontrar pessoas na população de onde a mos tra proveio com pressão sistólica entre 954 e 1514 mm de mercú rio é aproximadamente porque a distribuição é aproximadamente normal e os parâmetros estão estimados 9544 Ou seja a grande maioria da população estudada deve ter pressão sistólica entre 954 e 1514 mm de mercúrio 04772 04772 70 80 90 100 11 0 120 130 140 150 160 170 FIGURA 109 Distribuição da pressão sistólica A distribuição normal tem ainda outro uso importante em Estatística Você já sabe que amostras tomadas ao acaso da mesma população são di ferentes Logo as médias dessas amostras são diferentes Pense no exem plo que acabamos de examinar Foi medida a pressão sistólica de uma amos tra de 100 pessoas tomadas ao acaso da mesma população A média cal culada foi 1234 mm de mercúrio Se fossem obtidas outras 50 amostras dessa mesma população as médias de pressão sistólica variariam e teriam uma distribuição Mas qual seria essa distribuição Qualquer que seja a distribuição dos dados as médias terão distribui ção normal de acordo com um teorema da Estatística o teorema do limi te central Como conseqüência se tomarmos amostras de centenas de ob servações podemos ignorar a distribuição dos dados A grande aplicação desta informação o intervalo de confiança para uma média será vis ta no Capítulo 11 Mas o uso da distribuição normal vai mais além Em exames radiológi cos e laboratoriais o uso da distribuição normal é comum Veja como isto Capítulo 10 Distribuição Normal ZZ1 é feito Com base em grandes amostras estimamseµ e d Depois com base na distribuição normal definemse critérios de normalidade e nãonorma lidade Por exemplo para densidade mineral óssea BMD porque em inglês é bane mineral density que é medida em gramas por centímetro ao qua drado a Organização Mundial de Saúde considera Normal qualquer valor mais alto que µ cr Osteopenia ou osteoporose préclínica valores entre µ cr e µ 25cr Osteoporose valores abaixo de µ 25cr osteoporose セ 1 µ25o 1 セ osteopenia セ 1 µo 1 セ normal Figura 1010 Distribuição de BMD Então se for aceito que para coluna lombar o BMD médio é 1061 com desvio padrão 10 a pessoa que t iver BMD 0060 é diagnosticada como tendo osteopenia 105 EXERCÍCIOS RESOLVIDOS 1051 Em uma distribuição nonnal reduzida que proporção de casos cai a fora dos limites z 1 e z 1 b fora dos limites z 196 e z 196 a A probabilidade de ocorrer valor maior do que a média zero é 05 A ta bela de distribuição normal reduzida mostra que a probabilidade de ocorrer valor entre a média zero e z 1 procure z 1 na tabela é 03413 Então a probabilidade de ocorrer valor maior do que z 1 é 05000 03413 O 1587 Como a curva é simétrica a probabilidade de ocorrer valor fora dos limites z 1 e z 1 é 2 X 01587 03174 Z Z Z Introdução à Bioestatística b A probabilidade de ocorrer valor maior do que a média zero é 05 A ta bela de distribuição normal reduzida mostra que a probabilidade de ocorrer valor entre a média zero e z 196 procure z 196 na tabe la é 04975 Então a probabilidade de ocorrer valor maior do que z 196 é 05000 04975 00025 Como a curva é simétrica a probabilidade de ocorrer valor fora dos limites z 196 e z 196 é 2 X 00025 00500 1052 Em homens a quantidade de hemoglobina por 100 ml de sangue é uma variável aleatória com distribuição normal de média µ 16 g e desvio padrão J 1 g Calcule a probabilidade de um homem apresentar de 16 a 18 g de hemoglobina por 100 ml de sangue Primeiro é preciso calcular x µ 18 16 z J 1 2 A probabilidade de X assumir valor entre a média 16 e o valor 18 cor responde à probabilidade de Z assumir valor entre a média zero e o valor 2 área sombreada na Figura 1011 Esta probabilidade que pode ser en contrada na tabela de distribuição normal reduzida é 04772 Então a probabilidade de um homem apresentar de 16 a 18 g de hemoglobina por 100 ml de sangue é 04772 ou 47 72 60 50 40 30 20 10 00 10 20 30 40 50 60 FIGURA 1011 Probabilidade de taxa de hemoglobina entre 16 e 18 g de hemoglobina por 100 mi de sangue Capítulo 10 Distribuição Normal ZZ3 1053 No problema 1052 qual é a probabilidade de um homem apresentar mais de 18 g de hemoglobina por 100 ml de sangue Como para x 18 corresponde z 2 e a probabilidade de Z assumir valor entre a média zero e o valor z 2 é 04772 seguese que a probabilidade de Z assumir valor maior do que 2 é 05 04772 00228 ou 228 1054 Sabese que o tempo médio para completar um teste feito para candi datos ao vestibular de uma escola é de 58 minutos com desvio padrão igual a 95 minutos Se o responsável pelo vestibular quiser que apenas 90 dos candidatos terminem o teste quanto tempo deve dar aos candi datos para que entreguem o teste Para resolver o problema primeiro observe a Figura 1012 Lembre que a média delimita 05 da distribuição Então é preciso achar o valor de z que corresponde à probabilidade 04 porque 04 05 09 ou seja os 90 pedidos Na tabela de distribuição normal reduzida você encontra para 03997 que é o valor mais próximo de 04 o ponto z 128 Como xµ z cr xµzcr 58 128 x957016 ou seja devem ser fixados 70 minutos ou mais exatamente 7016 minu tos para terminar o teste 18 22 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 90 94 98 FIGURA 1012 Distribuição do tempo despendido para completar o leste Z Z 4 Introdução à Bioestatística 1055 Se X tem distribuição nonnal de média µ 150 e 975 dos valores de X são menores do que 210 qual é o desvio padrão da distribuição A média delimita 05 da distribuição Observe a Figura 1013 é preci so achar o valor dez que corresponde à probabilidade 0475 porque 0475 05 0975 ou seja 975 Na tabela de distribuição normal reduzi da você encontra para 0475 o ponto z 196 Como xµ z cr cr x µ 210 150 3061 z 196 0475 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 FIGURA 1013 Distribuição da variável X 106 EXERCÍCIOS PROPOSTOS 1061 O quociente de inteligência tem média 100 e desvio padrão 15 Qual é a proporção de pessoas com quodente de inteligência acima de 135 1062 Em uma distribuição nonnal reduzida que valores dez englobam a 50 dos casos que ficam no centro da distribuição b 90 dos casos que ficam no centro da distribuição c 95 dos casos que ficam no centro da distribuição Capítulo 10 Distribuição Normal ZZ5 1063 Suponha que a pressão sangüínea sistólica em indivíduos com idade entre 15 e 25 anos é uma variável aleatória com distribuição aproximadamen te normal de médiaµ 120mmHg e desvio padrão o 8mmHg Nestas condições calcule a probabilidade de um indivíduo dessa faixa etária apresentar pressão a entre 110 e 130mmHg b maior do que 130mmHg 1064 A troca de glicose no sangue humano é uma variável aleatória com dis tnõuição normal de médiaµ 100 mg por 100 ml de sangue e desvio padrão o 6 mg por 100 ml de sangue Calcule a probabilidade de um indivíduo apresentar troca a superior a 110 mg por 100 ml de sangue b entre 90 e 100 mg por 100 ml de sangue 1065 Em um hospital psiquiátrico os pacientes permanecem internados em média 50 dias com um desvio padrão de 1 O dias Se for razoável pressu por que o tempo de permanência tem distribuição aproximadamente nor mal qual é a probabilidade de um paciente permanecer no hospital a mais de 30 dias b menos de 30 dias 1066 A estatura de recémnascidos do sexo masculino é uma variável alea tória com distribuição aproximadamente normal de média µ 50 cm e desvio padrão J 250 cm Calcule a probabilidade de um recémnascido do sexo masculino ter estatura a inferior a 48 cm b superior a 52 cm 1067 A concentração de sódio no plasma tem média igual 1395 mEql de plasma com desvio padrão igual a 3 mEqL de plasma Que valor você poria como ponto de corte para dizer que está alta a concentração de só dio no plasma de uma pessoa 1068 Em uma distribuição normal reduzida que proporção de casos cai a acima dez 1 b abaixo dez 2 c abaixo dez O d acima dez 128 1069 Na distribuição normal reduzida a média é sempre zero Isso sugere que metade dos escores é positiva e metade é negativa Explique sua resposta 10610 Em uma academia os ginastas levantam em média 80 kg de peso com desvio padrão de 12 kg Pressupondo distribuição normal que pro porção dos ginastas levanta mais de 100 kg página deixada intencionalmente em branco Intervalo de Confiança 11 página deixada intencionalmente em branco Capítulo 11 Intervalo de Confiança 2 2 9 Os resultados das pesquisas são expressos de maneiras diferentes A forma de apresentar os resultados depende em muito do tipo de variável e do delineamento do experimento Neste Capítulo vamos nos concentrar em duas formas de expressar resultados por meio de uma proporção nas pesquisas em que a variável é qualitativa ou por meio de uma média nas pesquisas em que a variável é quantitativa Veja dois exemplos que tornam a situação mais concreta Exemplo 111 Uma proporção Um dentista examinou 100 crianças que ingressavam no ensino fundamental e ve rificou que 33 delas não tinham cárie A proporção de crianças sem cárie na amos tra é 33100 ou seja 033 Essa proporção é uma estimativa da probabilidade de uma criança da mesma população de onde proveio a amostra não ter cáries Será uma boa estimativa Antes de responder à pergunta é preciso saber se as crianças examinadas são realmente representativas da população em estudo Se o dentista disser que sim tomaremos isso como pressuposição porque para saber se a amostra é represen tativa da população são necessários conhecimentos na área em que a pesquisa se enquadra não de Estatfstica Depois é preciso pensar na margem de erro da estimativa fornecida pela pesqui sa Será que as crianças selecionadas para a amostra poderiam ter experiência de cárie mais alta ou mais baixa do que as crianças da população de onde a amos tra foi retirada por simples acaso É preciso informar de alguma maneira a con fiança que se pode ter na estimativa É isto que veremos neste Capftulo Exemplo 112 A média Um professor de Fisioterapia obteve dados biométricos dos alunos que ingressa ram na faculdade A média da pressão sangüfnea sistólica de 100 alunos foi 1203mmHg com desvio padrão de 140mmHg O professor considera que esses alunos constituem amostra representativa de outros alunos que ingressam em outros cursos da universidade em outros anos Mas que confiança pode ter na es timativa da média que está fornecendo Z 31 Introdução à Bioestatística 111 INTERVALO DE CONFIANÇA PARA UMA PROPORÇÃO O fato de sabermos a proporção de determinado evento em uma amostra não nos garante o conhecimento da proporção desse evento na popula ção O que podemos fazer usando conhecimentos de Estatística é calcu lar um intervalo que possa incluir a proporção do evento na população o parâmetro A maioria dos pesquisadores considera aceitável um intervalo de 95 de confiança Isto significa que o pesquisador terá 95 de probabilidade de obter com base em uma amostra um intervalo de confiança que venha a conter a proporção do evento na população o parâmetro Entenda bem se você calculou um intervalo de confiança com base em uma amostra não sabe se o parâmetro valor na população está contido no intervalo que calculou No entanto você sabe que 95o dos intervalos construídos da mesma forma conterão o parâmetro 1111 Cálculo do intervalo de confiança para uma proporção Você viu no Capítulo 9 o que é uma variável aleatória com distribuição binomial são feitas n tentativas cada tentativa só pode resultar em um de dois eventos possíveis o número de vezes que ocorre o evento de interes se é a variável X Agora reveja o Exemplo 111 um dentista examinou 100 crianças Cada criança foi classificada como tendo ou não experiência de cárie Então o número de crianças sem experiência de cárie nas 100 exa minadas é uma variável binomial A proporção de valores X obtida com base em uma amostra é X p n Essa proporção é uma estimativa da probabilidade de ocorrer o evento de interesse na população Essa estimativa está associada a uma variabi lidade A variabilidade é medida pelo desvio padrão O desvio padrão é dado por イ セ ーZア O intervalo de 95 de confiança para a probabilidade p obedecidas às condições apontadas na Seção 113 é dado por p KャLYV セ ーZア Capítulo 11 Intervalo de Confiança 2 31 Os valores 196 são obtidos da distribuição normaP Lembre que são esses os valores de z que englobam 95o dos casos que ficam no centro da distribuição Esta fórmula vale para grandes amostras Exemplo 113 Intervalo de confiança para uma proporção Lembre o Exemplo 111 um dentista examinou 100 crianças e verificou que 33 de las não tinham cárie A proporção de crianças sem cárie é 033 O dentista quer então saber se esse valor é uma boa estimativa da probabilidade de uma criança da mesma população de onde proveio a amostra não ter cáries O intervalo de confiança é dado por p l96pq No exemplo p 033 q 1 033067n100 Logo 033 l96 033x067 100 033 196x0047 0330092 Os limites do intervalo de 95 de confiança são portanto 033 0092 0238 e 033 0092 0422 Podemos então ter 95 de confiança de que a probabili dade de uma criança da população de onde proveio a amostra não ter cáries es teja entre 0238 e 0422 ou em porcentagem entre 238 e 422 1112 Pressuposições Para construir um intervalo de confiança algumas pressuposições precisam ser feitas Primeiro a amostra deve ser representativa da população Por exemplo se for pedido num show de televisão que os telespectadores te lefonem dizendo se gostam ou não do programa não tem sentido usar como indicador do grau de aprovação a proporção de pessoas que telefonaram dizendo que gostam do programa pelo simples fato de que quem não gosta de um programa provavelmente não o assiste 1Essa fórmula considera que a distribuição da variável binomial aproximase de uma distribuição normal Para que isso aconteça é preciso que a amostra seja grande Use a fórmula se np 5 e nq 5 ou pelo menos que 03 p 07 Z 3 2 Introdução à Bioestatística Outra pressuposição importante é a de independência das observações O fato de uma pessoa ter sido selecionada para a amostra não deve mudar a probabilidade de outra pessoa ser também selecionada Por exemplo não se deve entrevistar alguém e depois pedir para essa pessoa trazer outras para serem entrevistadas Finalmente uma observação que não se refere às pressuposições mas à interpretação de um intervalo de confiança O intervalo que você cons truiu pode conter ou não conter o parâmetro Sabese que se você repetir o procedimento da mesma maneira muitas e muitas vezes espera se que 95 dos intervalos calculados contenham o parâmetro Portanto não é correto dizer que a probabilidade de o intervalo conter o parâmetro é de 95 1113 A margem de erro A proporção de determinado evento na amostra estima a proporção desse evento na população de onde a amostra foi selecionada O intervalo de con fiança na forma apresentada nest e Capítulo fornece a margem de erro da estimativa Essa margem é dada pela amplitude do intervalo de confiança Exemplo 114 Margem de erro amostra pequena Lembre o Exemplo 111 um dentista examinou 100 crianças e verificou que 33 de las não tinham cárie A proporção de crianças sem cárie é 033 O dentista obte ve o intervalo de 95 de confiança Os limites desse intervalo são 0238 e 0422 Qual é a margem de erro A margem de erro é dada pela amplitude do intervalo ou seja pela diferença 0422 0238 O 184 Então o dentista está 95 seguro de que a proporção de crianças sem cárie na população estudada está entre 238 e 422 A margem de erro é de 184 Para diminuir a margem de erro é preciso aumentar a amostra Daí a insistência dos estatísticos em dizer que a amost ra deva ser tão grande quanto possíveF Veja o Exemplo 115 2No caso de estimativas de proporções que em geral são transformadas em porcentagem as amostras devem ser maiores do que 100 Se p for muito pequeno as amostras devem ser ainda maiores Capítulo 11 Intervalo de Confiança 2 3 3 Exemplo 115 Margem de erro amostra grande Lembre o Exemplo 111 Imagine que o dentista examinou não 100 mas 1000 cri anças e verificou que 330 delas não tinham cárie A proporção de crianças sem cárie é 033 Qual é a margem de erro O intervalo de confiança é dado por p ᄆャ L YV セ ー ア Em que p 033 q 1 033 067 n 1000 Logo 033 l96 033x067 1000 033 196 JOOOJ221 033 196 x001487 0330029 Os limites do intervalo são 0301 e 0359 A margem de erro é dada pela diferen ça 0359 0301 0058 Neste exemplo o dentista está 95 seguro de que a proporção de crianças sem cárie na população está entre 30 1 e 359 A margem de erro é de 58 Com pare este resultado com aquele obtido no Exemplo 114 e verifique a margem de erro diminui quando a amostra aumenta 112 INTERVALO DE CONFIANÇA PARA UMA MÉDIA Imagine uma amostra casual simples de n elementos A média dos dados dessa amostra constitui uma estimativa da média da população de onde essa amostra proveio Veja o Exemplo 112 O intervalo de confiança para a mé dia que veremos aqui indica a precisão da estimativa Antes porém de aprender como calcular o intervalo de confiança é preciso entender o que é erro padrão da média 1121 Erro padrão da média Imagine uma população constituída pelos valores 4 10 e 16 A média dessa população que se indica porµ é µ 410 16 30 10 3 3 Z 3 4 Introdução à Bioestatística Considere agora todas as amostras possíveis de dois elementos que podem ser retirados dessa população admitindo que todo elemento reti rado para compor a amostra é reposto antes da retirada do segundo Isso significa que dois elementos podem ser retirados ad infinitum da popula ção Portanto podemos entender a população como infinita Essas amos tras e as respectivas médias estão na Tabela 111 e na Figura 111 É fácil ver observando a Figura 111 que as médias das amostras distribuemse em tomo da média µ 10 da população TABELA 111 Médias das amostras de dois elementos obtidos da população constituída pelos números 4 10 e 16 Amostra Média 4e4 4 4 e 10 7 4 e 16 10 10 e 4 7 10 e 10 10 10 e16 13 16e 4 10 16 e10 13 16 e 16 16 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Médias FIGURA 111 Distribuição das médias das amostras O grau de dispersão das médias das amostras em torno da média da po pulação é dado pela variância da média Essa medida que se indica por cr セ G é dada pela fórmula Lx µ2 2 iI cr r Capítulo 11 Intervalo de Confiança 2 3 5 em que xí é a média da iésima amostra e r é o número de amostras que podem ser obtidas da população Para as médias apresentadas na Tabela 111 a variância da média é 2 4 1027 10210 102 16 102 108 cr 12 X 9 9 Na prática é impossível calcular a variância da média pela fórmula apre sentada o pesquisador não dispõe de todas as amostras possíveis mas de uma única amostra para estimar a média µ da população e obter uma medida de precisão dessa estimativa Existe no entanto uma solução já se demonstrou que uma estimativa da variância da média5 é dada pela fórmula 2 2 s s X n em que s2 é a variância da amostra As médias as variâncias e as variâncias das médias das amostras apre sentadas na Tabela 111 estão na Tabela 112 É importante notar que a média das médias coincide com a média µ 10 da população e que a mé dia das variâncias das médias das amostras é igual a 12 calculada ante riormente TABELA 112 Médias variâncias e variâncias das médias das amostras apresentadas na Tabela 111 Amostra Média Variância Variância da média 4 e4 4 o o 4 e10 7 18 9 4 e16 10 72 36 10 e 4 7 18 9 10 e 10 10 o o 10 e16 13 18 9 16 e4 10 72 36 16 e10 13 18 9 16 e 16 16 o o Média 10 24 12 Note que para isto ser verdade é preciso que as variâncias das amostras tenham sido estima das usando os graus de liberdade como divisor Z 3 5 Introdução à Bioestatística Por definição erro padrão da média é a raiz quadrada com sinal posi tivo da variância da média Indicase a estimativa do erro padrão da mé dia por Sx O erro padrão da média é uma estimativa da variabilidade das médias que seriam obtidas caso o pesquisador tivesse tomado nas mesmas condições um grande número de amostras A fórmula é S s x Fn Exemplo 116 Erro padrão da média Reveja o Exemplo 112 A média da pressão sangüínea sistólica de 100 alunos foi 1203mmHg com desvio padrão de 140mmHg Qual é o erro padrão da média Aplicando a fórmula vem S s 140 1 4 t Fn flOO 1122 Cálculo do intervalo de confiança para uma média É pouco provável que com base nos dados de uma amostra o pesquisador obtenha uma estimativa por exemplo da média igual ao parâmetro no caso da média da população Mas intuitivamente você sabe que se for examinada boa parte da população a média da amostra terá valor próxi mo da média da população se a variável variar pouco a média terá valor próximo ao da média da população Então uma estimativa é tanto melhor quanto maior for a amostra e quanto menor for a variabilidade dos dados Imagine agora que o pesquisador está estudando uma variável X com distribuição normal de médiaµ e variância cr2 Foram obtidas com base em uma amostra casual simples de n elementos dessa população estimativas da média do desvio padrão e do erro padrão da média Mas o pesquisador pre cisa dar indicação da precisão da estimativa da média Deve então calcu lar um intervalo de confiança Já vimos que os pesquisadores geralmente aceitam que o intervalo calculado inclua o valor populacional com proba bilidade de 95 O intervalo de 95 de confiança para a média µ desde que a amostra seja suficientemente grande4 é dado por µ 196 sx Esta fórmula serve para amostras grandes que no caso de estimativas de médias devem ser pelo menos de tamanho maior do que 30 Capítulo 11 Intervalo de Confiança 2 3 7 Exemplo 117 Intervalo de confiança para a média Reveja o Exemplo 112 A média da pressão sangüfnea sistólica de 100 alunos foi 1203mmHg com desvio padrão de 140 milímetros de mercúrio e erro padrão da média igual a 14mmHg Que confiança o professor pode ter no resultado O intervalo de confiança é dado por X 196 SX No exemplo a média é 1203 e o erro padrão da média é 14 n 100 Logo 120 3 196 X 14 1203 2 74 Os limites do intervalo de 95 de confiança são portanto 1203 274 11756 e 1203 274 12304 Podemos então ter 95 de confiança de que a média da pressão sangüínea sistólica dos alunos que ingressam na faculdade está entre 11756 e 12304mmHg 113 CUIDADOS NA INTERPRETAÇÃO DOS INTERVALOS DE CONFIANÇA A interpretação do intervalo de confiança exige cuidados Na prática o pesquisador dispõe de urna única amostra que fornece urna só estimativa de determinado parâmetro O pesquisador calcula um intervalo de 95o de con fiança mas não sabe se o parâmetro está ou não contido no intervalo que calculou Sabe apenas que 95 dos intervalos de confiança calculados da mesma forma contêm o parâmetro A margem de erro da estimativa é dada pela amplitude do intervalo de confiança Quanto maior a amostra menor é a margem de erro o intervalo de confiança fica menor mas ainda assim não significa que contenha o parâmetro 114 PEQUENAS AMOSTRAS Este livro não ensina como calcular o intervalo de confiança para uma pro porção nos casos de pequenas amostras No caso de variáveis contínuas desde que a distribuição seja aproximadamente normal é possível calcu lar o intervalo de confiança para a média de maneira similar à apresenta da na Seção 112 Z 31 Introdução à Bioestatística Você calcula o intervalo x t1 S n 1 X em que tn tJ é um valor encontrado na Tabela de distribuição de t veja Apêndice A variável t é obtida de uma distribuição teórica5 chamada dis tribuição t de certa forma parecida com a distribuição normal reduzida O gráfico da distribuição tem a forma de sino e é simétrico em tomo da mé dia zero Para entender como se acha o valor crítico de t veja a Tabela 113 que reproduz parte da Tabela de distribuição t É preciso especificar os graus de liberdade No caso do intervalo de confiança para uma média os graus de liberdade são os do erro padrão da média ou seja n 1 Você tam bém precisa especificar a confiança que em geral é de 90 ou 95 En tão para achar o valor de t que se usa na fórmula siga os passos 1 O tamanho da amostra é n Digamos que n 15 Ache os graus de li berdade isto é n 1 No caso 15 1 14 2 Escolha o nível de confiança que você quer Ache o valor de ex sub traindo o nível de confiança de 100 Para 95 de confiança cal cule ex 100 95 5 3 Procure na Tabela de valores de t o valor que fica no cruzamento da coluna x 5 éOm a linha graus de liberdade 14 4 Você acha t 2 145 Então o intervalo de 95 de confiança é X 2145 Sx TABELA 113 Tabela parcial de distribuição t 1 Graus de Nível de sígnificância liberdade 001 005 010 11 3106 2201 1796 12 3055 2179 1782 13 3012 2160 1771 14 2977 2145 1761 15 2947 2131 1753 16 2921 2120 1746 Existe uma distribuição t para cada tamanho de amostra Portanto existe uma familia de dis tribuições t Capítulo 11 Intervalo de Confiança 2 3 9 Exemplo 118 Intervalo de confiança para a média amostras pequenas Com base em uma amostra casual simples de n 25 indivíduos foram obtidos a média x 198 mg100 mi e o desvio padrão s 30 mg1 OOml da taxa de colesterol no plasma sangüíneo humano Ache o intervalo de 90 de confiança Para um nível de 90 de confiança ex 10 Como n 25 indivíduos n 1 25 1 24 O valor de t na Tabela dos valores de t veja Apêndice para a 10 e com 24 graus de liberdade é 171 A expressão do intervalo de confiança fica en tão como segue 18774 µ 20826 É preciso considerar aqui dois fatos importantes 1 Na área da saúde e em outras áreas muitas vezes o resultado do trabalho é apresentado na forma X s X 2s Como aprendemos no Capítulo 10 esses intervalos referemse aos da dos porque na fórmula está o desvio padrão que mede a variabi lidade dos dados Se a média e o desvio padrão da amostra são boas estimativas dos parâmetros µ e cr é razoável considerar que o primei ro intervalo X s contenha cerca de 23 dos dados 6826 e o segundo X 2s contenha perto de 95 dos dados 9544 2 Entretanto é preciso deixar claro que a área da saúde e em ou tras áreas também se apresenta o resultado do trabalho na forma xs X ou x2s X Neste caso o primeiro intervalo é um intervalo de 6826 de confian ça para o parâmetro µ a média da população desde que a amos tra seja suficientemente grande porque no cálculo entra o erro pa drão da média O segundo é um intervalo de 9544 de confiança para o parâmetroµ a média da população desde que a amostra Z 41 Introdução à Bioestatística seja suficientemente grande Este não é porém verdade do caso das amostras pequenas como as amostras de tamanho 6 ou 10 Finalmente um lembrete algumas revistas internacionais não aceitam informações do tipo 193 21 porque não sabem exatamente o signifi cado desse intervalo se é um intervalo de confiança para os dados 21 se ria o desvio padrão ou se é um intervalo de confiança para a média 21 seria o erro padrão da média Exemplo 119 Intervalo de confiança para a média amostra de tamanho 6 Calcule o intervalo de 90 de confiança para a média de uma amostra de seis ele mentos O valor de t dado na Tabela de valores de t no final do livro é 202 Então o inter valo de 90 de confiança é x202sx o dobro do intervalo que às vezes se apresenta sem determinar o nível de con fiança 115 EXERCÍCIOS RESOLVIDOS X Sx 1151 Dos 90 pacientes que se submeteram a uma nova técnica cirúrgica mor reram nove Calcule o intervalo de 95 de confiança para a probabilidade de morte na cirurgia A proporção de mortes na amostra foi P 9 90 010 e atende aos requisitos para aplicar a distribuição normal np 90 x 01 9 5 e nq 90 x 09 81 5 Então p 196 OlOxl OlO 010196 x 00316 010 00620 90 00380 p 01620 Capítulo 11 Intervalo de Confiança 2 41 1152 Foi feito um ensaiei com 100 pacientes para testar uma nova droga que se presume abaixa a pressão sangüínea Verificouse que a nova droga em comparação à droga usualmente recomendada padrão diminui a pressão em 6 Você pode calcular um intervalo de confiança para essa porcentagem Embora esta questão pareça similar à anterior não é Na questão anterior havia realmente uma proporção Nesta questão a porcentagem é uma mu dança em uma medida então não se pode calcular o intervalo de confiança 1153 O extremo inferior de um intervalo de confiança para proporção pode ser negativo Pode ser igual a zero É impossível o extremo inferior de um intervalo de confiança para propor ção ser negativo e só é zero quando o desvio padrão é zero 1154 A pressão sangüínea sist6lica medida em 100 militares apresentou mé dia igual a 125mmHg e desvio padrão é 9mmHg Calcule o erro padrão da média e ache o intervalo de 95 para a média populacional s 9 09 X Jiõõ x l96sx 125196x0901251764 O intervalo varia entre 1232mmHg e 1268mmHg 1155 A pressão sangüínea sist6lica medida em 10 militares apresentou mé dia igual a 125mmHg e o desvio padrão é igual a 9mmHg Calcule o erro padrão da média e ache o intervalo de 95 para a média populacional s x 2 2846 Jiõ x 196sx 125196 x 2846 125 5578 O intervalo varia entre 119AmmHg e 1306mmHg 115 6 Compare os intervalos de confiança obtidos nos exercícios 1154 e 1155 O erro padrão da média diminui quando você aumenta o tamanho da amos tra Não se espera que isso aconteça com o desvio padrão que mede ava Este problema foi proposto em MOTULSKY H Intuitive Biostatistics Nova York Oxford University Press 1995 p316 242 Introdução à Bioestatística riabilidade dos dados E verdade que se você aumentar a amostra os parâ metros ficam estimados com maior exatidão O valor do desvio padrão pode então mudar mas não existe tendência de o desvio padrão aumen tar ou diminuir quando se aumenta o tamanho da amostra No entanto o erro padrão da média diminui porque a média da amostra tende a ter va lor mais próximo da média verdadeira E você vê isso na amplitude do in tervalo de confiança 116 EXERCÍCIOS PROPOSTOS 11 61 Foi feito um estudo para levantar a proporção de adultos que sofrem de síndrome de fadiga crônica Para isso foram selecionados ao acaso 4000 membros saudáveis de uma organização em Seattle Para essas pes soas foram distribuídos questionários nos quais se perguntava se nos seis meses anteriores elas haviam sentido cansaço excessivo que interferisse no trabalho ou nas responsabilidades em casa Das 3066 pessoas que res ponderam possível tendência devido à falta de quase um quarto de não respondentes 590 relataram fadiga crônica Estime a proporção de pes soas que pensam ter síndrome de fadiga crônica e o intervalo de 95 de confiança 1162 No estudo apresentado no problema anterior os pesquisadores exami naram os 590 questionários de pessoas que relataram fadiga crônica e eli minaram todos aqueles cujos problemas de natureza médica ou psiquiá trica pudessem explicar a fadiga Sobraram 7 4 questionários Destes apenas três tinham a síndrome que se caracteriza por falta de concentra ção falha na memória recente dificuldade em donnir dores musculares e nas articulações Qual seria a proporção de adultos portadores da síndrome 1163 Seja X a variável aleatória que representa a pressão sangüínea sistólica em indivíduos com idade entre 20 e 25 anos Essa variável tem distribui ção aproximadamente normal Suponha que com base em uma amostra de 100 indivíduos foi obtida a média x 123mmHg e o desvío padrão s BmmHg Determine o intervalo de 90 de confiança para a média da população µ 1164 Seja X a variável aleatória que representa a taxa de hemoglobina em mulheres Imagine que com base em uma amostra aleatória de 200 mu lheres obtevese a média x 162 g de hemoglobina por 100 ml de sangue 7 ALIAGA M e GUNDERSON B Interactive Statistics New Jersey Prentice Hall 2 ed 2003 p 539 Capítulo 11 Intervalo de Confiança 2 4 3 e o desvio padrão s 11 g Detennine o intervalo de 95 de confiança para JJy supondo que X é uma variável com distribuição nonnal 1165 Seja X a variável aleatória que representa a estatura ao nascer para o sexo masculino Com base em 28 recémnascidos masculinos obtiveram se x 50 cm e s 25 cm Calcule o intervalo de 90 de confiança para JJy pressupondo distribuição nonnal 1166 Seja X a variável aleatória que representa a taxa de glicose no sangue humano Detennine o intervalo de 95 de confiança paraµ supondo que wna amostra de 25 pessoas forneceu média x 95 mg de glicose por 100 ml de sangue e o desvio padrão s 6 mg Suponha que X tem distribuição nonnal 1167 É possível calcular8 com base em uma amostra um intervalo de 100 de confiança para um parâmetro p que indica determinada probabilidade 1168 Num estudo sobre qualidades nutricionais9 de lanches rápidos mediu se a quantidade de gordura em 100 hambúrgueres de determinada cadeia de restaurantes Achouse média de 302 gramas e desvio padrão de 38 gramas Construa um intervalo de 95 de confiança para a quantidade média de gordura nos hambúrgueres servidos nesses restaurantes 1169 No mesmo estudo citado no Exercício 1467 foi medida a quantidade de sal e se achou média 658 mg e desvio padrão 47 mg Ache o intervalo de 98 de confiança 11 61 O Uma enfermeira mediu o comprimento de 105 bebês do sexo masculi no e achou o intervalo de 90 de confiança para a média em centíme tros 453 532 Responda brevemente às questões feitas em seguida a A média da população está no intervalo 453 532 b A média da amostra está no intervalo 453 532 c Novas amostras de 105 bebês do sexo masculino darão médias no inter valo 453 532 c Um intervalo de 99o de confiança seria mais estreito Este problema foi proposto em MOTULSKY H Intuitive Biostatistics Nova York Oxford University Press 1995 p318 JOHNSON R E TSUI K W Statistical reasoning and methodsNova York Wiley 1998 p338 página deixada intencionalmente em branco Teste de Quiquadrado 12 página deixada intencionalmente em branco Capítulo 12 Teste de Quiquadrado 2 4 7 As pesquisas são feitas com o objetivo de responder perguntas Para res ponder perguntas são necessárias informações que na área de saúde são quase sempre obtidas por meio de amostras Mas os pesquisadores querem generalizar seus achados para toda a população de onde a amostra foi re tirada Isto pode ser feito desde que a generalização seja fundamentada em um teste de hipóteses Para fazer o teste a pergunta do pesquisador é transformada em duas hipóteses ou seja é escrita na forma de duas afirmativas que se contra dizem como nos testes de falsoverdadeiro A idéia de construir hi póteses é complexa mas fica bem entendida com um exemplo da área ju rídica Exemplo 121 Hipóteses inocente ou culpado Um réu está sendo julgado Quais são as hipóteses possíveis O réu é inocente do ato que o acusam O réu é culpado do ato que o acusam Construídas as hipóteses passase à análise dos dados para tomar deci são por uma das hipóteses Exemplo 122 Decisão inocente ou culpado Um réu está sendo julgado Quais são as decisões possíveis Considerar o réu culpado Considerar o réu inocente As decisões são tomadas com base em conhecimento de parte dos fatos Então a decisão tomada pode estar errada Exemplo 123 Erros possíveis O réu está sendo julgado Quais são os erros associados às decisões possíveis Dizer que o réu é culpado quando é inocente Dizer que o réu é inocente quando é culpado Vamos pensar agora em uma pesquisa na área da saúde Z 41 Introdução à Bioestatística Exemplo 124 Construindo as hipóteses Duas médicas1 se perguntaram se a probabilidade de baixo peso ao nascer é maior quando a mãe faz uso continuado de drogas ilícitas durante a gestação Para responder à pergunta é preciso comparar o peso ao nascer de filhos de dois grupos de mães Que usaram drogas ilícitas durante a gestação Que não usaram drogas ilícitas durante a gestação Quais são as hipóteses A probabilidade de ter filhos com baixo peso ao nascer é a mesma para os dois grupos de mães A probabilidade de ter filhos com baixo peso ao nascer é maior para mães que usaram drogas ilícitas durante a gestação A pergunta escrita na forma de duas frases afirmativas que se contra dizem são as hipóteses A primeira é chamada de hipótese da nulidade e é indicada por H0 lêse agázero Na grande maioria das vezes a hipótese da nulidade é a de que não existe diferença entre grupos de dados A segunda hipótese contradiz a primeira e é por isso chamada de hipótese alternativa Indicase por H1 lêse agáum Na grande maioria das vezes a hipótese alternativa é o que o pesquisador gostaria de poder afirmar Exemplo 125 Coletando a amostra Para responder à pergunta feita as médicas acompanharam a gravidez e anota ram o peso ao nascer dos filhos de 456 adolescentes usuárias e nãousuárias de drogas ilícitas Portanto as médicas conheciam bem as adolescentes que partici param da pesquisa amostra Mas o que elas observaram na amostra pode ser estendido para toda a população de adolescentes de onde a amostra foi retirada Os pesquisadores sempre querem generalizar seus achados para toda a população Querem portanto fazer uma inferência Até que ponto os pes quisadores têm o direito de generalizar para todos os indivíduos a popu lação a informação obtida com base em alguns indivíduos a amostra Para tomar uma decisão objetiva os pesquisadores da área da saúde fazem inferência estatística 1QUINUVAN JA EVANS SF The impact of continuing illegal drug use on teenage pregnancy outcomes Australia BJOG An International Joumal of Obstetrics Gynaecology109 101148 532002 Capítulo 12 Teste de Quiquadrado 2 4 9 Dizemos que uma inferência estatística é feita quando se estabelecem conclusões para a população com base nos dados de uma amostra e no resultado de um teste estatístico A inferência estatística é feita por meio de testes de hipóteses mas como toda inferência está sujeita a erro Os pesquisadores têm apenas uma amostra do imenso universo que é a população em estudo e por puro azar podem ter observado uma amostra pouco representativa da popu lação de onde a amostra foi retirada Quais são os tipos de erro Erro tipo I rejeitar a hipótese da nulidade quando essa hipótese é ver dadeira Erro tipo II não rejeitar a hipótese da nulidade quando essa hipóte se é falsa Exemplo 126 Definindo os erros Com base nos dados coletados e no resultado de um teste de hipóteses as mé dicas devem decidir por uma das hipóteses Quais são os erros possfveis Erro tipo 1 rejeitar H0 quando H0 é verdadeira dizer que a probabilidade de filhos com baixo peso ao nascer é mãíor para mães usuárias de drogas ilícitas na gra videz se isso não for verdade Erro tipo li aceitar H0 quando H0 é falsa dizer que a probabilidade de filhos com baixo peso ao nascer é a mesma para os dois grupos de mães se isso não for verdade Os pesquisadores consideram grave o erro de rejeitar a hipótese da nulidade quando ela é verdadeira Por quê Porque isso significa mudar padrões e comportamentos sem necessidade só porque um centro de pesquisas apontou como verdadeira uma diferença que não existe Exemplo 127 Erros tipo 1 Dizer que uma nova droga é melhor qllle a tradicional quando isso não for verdade Dizer que uma dieta aumenta a longevidade quando isso não for verdade Dizer que um produto muito usado é cancerfgeno quando isso não for verdade Dizer que uma vitamina faz atletas quando isso não for verdade Z 51 Introdução à Bioestatística Para ter maior segurança na decisão o pesquisador aplica um teste de hipóteses O teste não elimina a probabilidade de erro mas fornece o pvalor valor de probabilidade O pvalor diz quão provável seria obter uma amostra tal qual a que foi obtida quando a hipótese da nulidade é verdadeira Os pesquisadores se sentem seguros para rejeitar a hipótese da nulida de assumir que existe a diferença procurada quando o pvalor é peque no2 Isto porque seria muito pouco provável ter o resultado obtido se a diferença não existisse Mas quem rejeita H0 não pode ter certeza absoluta não tem 100 de confiança de que a decisão tomada está correta sabe apenas que a probabilidade de erro é pequena Por convenção se o pvalor for menor do que 005 p 005 conclui se que a hipótese da nulidade deve ser rejeitada É comum dizer nos casos em que p 005 que os resultados são estatisticamente significantes No caso do Exemplo 124 as pesquisadoras não rejeitaram H0 porque obtiveram pvalor maior do que 005 p 005 Concluíram3 então que não tinham evidência suficiente para dizer que baixo peso ao nascer depende de a mãe ter usado drogas ilícitas dUrante a gestação Exemplo 128 Interpretando o pvalor Imagine que uma enfermeira suspeita que gestantes muito jovens tenham maior probabilidade de ter filhos com baixo peso Fez então um levantamento de dados na maternidade onde trabalha e obteve os dados Distribuiu as mães em duas ca tegorias com menos de 20 anos e com 20 anos ou mais Distribuiu também os recémnascidos em duas categorias de baixo peso e de peso normal Obteve os dados apresentados na Tabela 121 Quando reduzimos a probabilidade de cometer um tipo de erro aumentamos a probabilidade de cometer o outro tipo de erro Como os pesquisadores consideram cometer erro tipo I mais gra ve esse tipo de erro é reduzido em geral a 5 3 As autoras concluíram que o uso de drogas ili citas por gestantes parece não afetar o peso do nascituro mas existem outros comprometimentos Capítulo 12 Teste de Quiquadrado 2 51 TABELA 121 Peso ao nascer segundo a faixa de idade da mãe Peso ao nascer Percentual Faixa de idade Menos Z500g e com materna de2500g mais Total baixo peso Menos de 20 anos 10 4D 50 2000 20 anos ou mais 10 14D 150 667 Total 20 180 200 A enfermeira levou então os dados a um estatístico para que ele fizesse a aná lise O estatístico fez as hipóteses Hipótese da nulidade A probabilidade de filhos com baixo peso é a mesma para mães com menos de 20 anos e para mães com 20 anos ou mais Hipótese alternativa A probabilidade de filhos com baixo peso depende da faixa etária da mãe Depois fez um teste de quiquadrado que você aprende na seção 1221 e infor mou à enfermeira que o pvalor é 00065 A conclusão da enfermeira pode então ser escrita como segue a probabilidade de filhos com baixo peso é significantemente maior para mães de menos de 20 anos Como você vê feito o teste estatístico a pesquisadora se sentiu segura para di zer que a diferença realmente existe Mas o que significa pvalor de 00175 Significa que se mães com menos de 20 anos e mães com 20 anos ou mais as duas populações tiverem a mesma proba bilidade de ter filho com baixo peso ao nascer somente 175 dos levantamen tos similares aos que foram feitos mostrariam diferenças pelo menos tão gran des como a obtida por puro acaso Calcular o pvalor é extremamente difícil e isso só é feito hoje em dia usando programas de computador No entanto não é difícil calcular a es tatística do teste e comparar com valores dados em tabelas Mas vamos ver ist o na próxima seção Z 5 2 Introdução à Bioestatística 121 TESTE DE X2 DE PEARSON PARA ADERÊNCIA 4 O teste de X2 proposto por Pearson tem indicação precisa serve para tes tar a hipótese de que dados de freqüência se distribuem de acordo com al guma teoria ou postulado é o teste de aderência que veremos aqui ser ve também para testar a hipótese de que duas variáveis nominais são in dependentes é o teste de independência que veremos na próxima seção Veja então o teste de aderência Um pesquisador pode ter interesse em verificar se a distribuição dos elementos numa dada amostra está de acor do adere com uma dada teoria O exemplo que será usado aqui é históri co porque se trata de um experimento feito por Gregor Mendel o monge austríaco que no final do século XIX construiu as bases da Genética Em um célebre experimento Mendel polinizou 15 plantas de sementes lisas e albume amarelo com plantas de sementes rugosas e albume verde As plantas resultantes desse cruzamento tinham sementes lisas e albume amarelo amarelolisas Cruzando essas plantas entre si Mendel obteve 556 sementes distribuídas conforme mostra a Tabela 122 TABELA 122 Distribuição das ervilhas em um dos experimentos de Mendel Sementes Amarelolisas Amarelorugosas Verdelisas Verderugosas Total Fonte Bishop et ai 19755 Freqüência 315 101 100 32 556 A teoria postulada por Mendel estabelece que a segregação neste caso deve ocorrer na seguinte proporção 9 3 3 1 Leiase teste de quiquadrado para aderência O símbolo X é uma letra grega de nome qui que equivale ao e do nosso alfabeto lése qui como estã elevado à segunda potência lêse quiqua drado BISHOP VMM et alii Discrete multivariate analysis theory and practice Cambridge MIT Press 1977 Capítulo 12 Teste de Quiquadrado 2 5 3 Será que os resultados obtidos experimentalmente por Mendel estão de acordo com a teoria que ele postulava Temos então as duas hipóteses H0 a segregação obedece à lei de Mendel H1 a segregação não obedece à lei de Mendel Para fazer o teste os estatísticos usam um programa de computador que fornece além do valor de x2 o pvalor Mas neste livro estamos fazendo os cálculos sem usar computador Como é extremamente trabalhoso calcular o valor de p vamos optar por usar as tabelas clássicas de x2 Para isso é preciso estabelecer o nível de significância do teste Mas o que é nível de significância Nível de significância do teste é a probabilidade de cometer erro tipo I isto é rejeitar H0 quando H0 é verdadeira É usual indicar o nível de significância pela letra grega a Lêse alfa O nível de significância deve ser estabelecido antes do início do teste Vamos então estabelecer a 005 Para verificar se os dados se distribuem de acordo com a teoria vamos aplicar o teste de x2 O valor de x2 é dado pela fórmula 2 f oi E 2 X k il Ei em que O i 1 r representam as freqüências observadas e E represen l tam as freqüências esperadas r são as categorias da variável em análise que no exemplo são 4 Foram obtidas 556 ervilhas Então a freqüência esperada pela teoria de Mendel de amarelolisas é 9 16 X 556 31275 afreqüência esperada de amarelorugosas é 3 X 556 10425 16 a freqüência esperada de verdelisas é 3 X 556 10425 16 Z 5 4 Introdução à Bioestatística e a freqüência esperada de verderugosas é I X 556 3475 16 Todos estes valores estão apresentados na Tabela 123 TABELA 123 Distribuição dos valores esperados pela teoria de Mendel no experimento Sementes Freqüência Amarelolisas 31275 Amarelorugosas 10425 Verdelisas 10425 Verderugosas 3475 Total 55600 Compare a Tabela 122 com a Tabela 123 As diferenças entre as freqüên cias observadas e esperadas são respectivamente 315 31275 225 101 10425 325 108 10425 375 32 3475 275 Para verificar se a distribuição de freqüências observadas está de acor do com a teoria vamos aplicar o teste de x2 Para o exemplo 2 225 2 3252 375 2 275 o 47 X 31275 10425 10425 3475 O valor calculado de quiquadrado deve ser comparado com o valor da tabela de x2 ao nível de significância estabelecido e com r 1 graus de li berdade Então Se o valor calculado da estatística for menor do que o valor crítico da tabela não rejeite a hipótese da nulidade H0 ao nível estabele cido de significância Capítulo 12 Teste de Quiquadrado 2 5 5 Se o valor calculado da estatística for igual ou maior do que o valor crítico da tabela rejeite a hipótese da nulidade H0 em favor da al ternativa H1 ao nível estalbelecido de significância A Tabela de X2 é apresentada no final deste livro Para entender como se usa essa tabela observe a Tabela 124 que reproduz parte da Tabela de X2 do Apêndice O valor de X2 com 3 graus de liberdade ao nível de significância de 5 está em negrito na Tabela 124 TABELA 124 Tabela parcial de x2 segundo os graus de liberdade e o valor de cx Nível de significância Graus de liberdade 111 5 1 1 271 384 664 2 460 599 921 3 625 7fl 1134 4 778 949 1328 5 924 1107 1509 Para o exemplo que estamos desenvolvendo o valor calculado de x2 foi 047 O valor dado na tabela de x2 com r 1 4 1 3 graus de li berdade e ao nível de 5 de significância é 782 Como o valor calculado X2 047 é menor do que o valor dado na tabela X2 782 não se re jeita ao nível de significância de 5o a hipótese de que a segregação ocor reu de acordo com a teoria 1211 Resumo do procedimento É importante saber que o teste estatístico não é uma prova apenas in dica que é muito provável que a hipótese alternativa seja verdadeira As hipóteses são escritas de maneira que a hipótese da nulidade colocada em teste seja a hipótese em que o pesquisador não acredita Para fazer o teste 1 Defina H0 e H1 2 Escolha o valor de ex 3 Calcule o valor da estatística de teste 4 Compare o valor calculado com o valor da tabela de valores críticos 5 Se o valor calculado da estatística de teste for menor do que o valor crítico da tabela não rejeite a hipótese da nu lidade H0 Z 5 5 Introdução à Bioestatística igual ou maior do que o valor crítico da tabela rejeite a hipótese da nulidade H0 em favor da alternativa H1 6 Se você usou um programa de computador para fazer os cálculos tem o pvalor Se p 005 rejeite a hipótese da nulidade em favor da alter nativa Cabem aqui algumas observações sobre o nível de significância que se indica pela letra grega a É usual ou tradicional fazer testes ao nível de significância a 5 ou ao nível de significância a 1 Mas esses valo res são arbitrários Quando se rejeita a hipótese da nulidade ao nível de significância de 5 dizse que o resultado é significante Quando se rejeita a hipótese da nu lidade ao nível de significância de 1 dizque que o resultado é altamente significante 122 TABELAS 2 X 2 LÊSE TABELA DOIS POR DOIS 1221 Teste de X2 para independência Para estudar a efetividade de determinada droga no alívio da dor após a instrumentação endodôntica tratamento de canal um cirurgiãodentista fez um experimento Antes do procedimento clíníco administrou dois com primidos de placebo para 50 pacientes grupo controle e dois compri midos da droga para 150 pacientes grupo tratado Os comprimidos foram acondicionados em envelopes codificados para que o paciente não soubesse se estava recebendo a droga em teste para o alívio da dor ou se estava re cebendo placebo Os dados estão na Tabela 125 TABELA 125 Distribuição dos pacientes segundo o grupo e o relato sobre dor Grupo Controle Tratado Total Relato de dor Sim Não 10 4 15 135 25 175 Percentual de Total pacientes com dor 50 200 150 100 200 A Tabela 125 é uma tabela 2 x 2 porque apresenta duas variáveis cada uma com duas categorias Variável 1 grupo com duas categorias controle tratado Variável 2 relato de dor com duas categorias com dor sem dor Capítulo 12 Teste de Quiquadrado 2 5 7 O pesquisador quer saber se essas variáveis são independentes isto é quer testar a hipótese da nulidade A probabilidade de relatar dor depois do tratamento não depende de o paciente ter recebido ou não a droga contra a hipótese alternativa a probabilidade de relatar dor depois do tratamento muda se o paciente tiver recebido a droga Vamos estabelecer o nível de significância a 005 Para testar a hipótese de nulidade isto é a hipótese de que a proba bilidade de relatar dor depois do tratamento não depende de o paciente ter recebido ou não a droga aplicase o teste de x2 Mas é preciso conhecer a fórmula Nesta seção será apresentar uma fórmula simplificada que serve para testar a hipótese de que duas variáveis nominais ou categorizadas são independentes No caso do exemplo que estamos desenvolvendo temos duas variáveis categorizadas grupo tratado ou controle e relato de dor sim ou não Agora veja a Tabela 126 que apresenta os valores literais no caso de uma tabela 2 x 2 isto é de urna tabela que apresenta duas variáveis categorizadas indicadas aqui por X e Y A variável X tem duas categorias X1 e X2 a variável Y tem também duas categorias Y1 e Y2 TABELA 126 Valores literais em uma tabela 2 x 2 Variável V Variável X v yz Total X a b ab Xz e d e d Total ac bd n o valor de x2 é dado pela fórmula 2 ad bc2 n X a bc da cb d Nas tabelas 2 x 2 como a Tabela 126 o valor de x2 está associado a 1 grau de liberdade porque você tem duas variáveis que no caso da Tabela 126 são X e Y cada variável tem duas categorias Z 51 Introdução à Bioestatística então você tem 1 grau de liberdade para cada variável o valor de x2 está então associado a 1 x 1 1 grau de liberdade Para calcular o valor de x2 verifique que no exemplo que estamos de senvolvendo veja a Tabela 125 temos os seguintes valores a 10 b40 e 15 dl35 o valor de X2 é obtido como segue 2 10xl35 40xl52 x 200 X 104015 135101540135 1350 6002 X 200 50x150 x 25 xl75 112500000 3 429 32812500 O valor de x2 é 3429 e está associado a 1 grau de liberdade Mas como você toma a decisão por uma das hipóteses vendo o resultado do teste Toda vez que o valor calculado de x2 for igual ou maior do que o valor dado na Tabela de x2 ao nível de significância estabelecido e com os mes mos graus de liberdade rejeitase H0 Na Tabela de X2 no final do livro para o nível de significância de 5o e com 1 grau de liberdade encontrase o valor 384 Como o valor calcula do X2 3429 é menor do que 384 não se rejeita a hipótese da nulidade Portanto a probabilidade de relatar dor depois do tratamento é a mesma para pacientes que receberam e não receberam a droga 1222 Usos e restrições do teste de x2 Por questões teóricas6 1 O teste de x2 só deve ser aplicado quando a amostra tem mais de 20 elementos 2 Se 20 n 40 o teste de x2 só pode ser aplicado se nenhuma fre qüência esperada for menor do que 1 3 As variáveis devem ser nominais Para variáveis ordinais aplique o teste de x2 para tendências 4 Existe uma correção a correção de Yates que torna o teste mais conservador6 6Veja em VIEIRA S Bioestatística Tópicos Avançados Rio de Janeiro CampusEsevier 2 ed 5 tiragem 2008 Capítulo 12 Teste de Quiquadrado 2 5 9 1223 Medida da associação Para medir o grau de associação de duas variáveis qualitativas usamse os coeficientes de associação Nesta seção será explicado o coeficiente de Yule que só se aplica às tabelas 2 x 2 Para entender o que é uma associação entre variáveis veja a Tabela 127 TABELA 127 Participantes de uma pesquisa classificada segundo o hábito de fumar e doença periodontal Participantes da pesquisa Nãofumantes Fumantes Doença periodontal Não Sim 18 13 14 10 Total 24 24 Proporção de pessoas com periodontite 6 0250 24 lO 0417 24 A Tabela 12 7 mostra 24 fumantes e 24 nãofumantes Também mostra a proporção de pessoas com doença periodontal doença da gengiva tam bém conhecida como gengivite em cada grupo Nãofumantes 0250 Fumantes 0417 A probabilidade da doença aumenta quando surge o hábito de fumar Isto significa que existe associação positiva entre as variáveis as duas au mentam juntas O coeficiente de Yule mede o grau de associação entre duas variáveis categorizadas É indicado por Y e definido pela fórmula y adbc adbc O coeficiente de Yule varia entre 1 e 1 inclusive isto é 1 セ Y 1 Veja então como se interpreta o valor do coeficiente de associação Y 1 associação perfeita positiva Y 1 associação perfeita negativa Y O associação nula O Y 1 associação positiva 1 Y O associação negativa Z 11 Introdução à Bioestatística Para os dados da Tabela 12 7 o coeficiente de Yule é Y 18x10 6x14 96 036 18x106x14 264 o que significa que a associação entre hábito de fumar e doença periodontal é positiva É importante observar que O coeficiente de Associação de Yule mede o grau de associação entre duas variáveis nominais apresentadas numa tabela 2 x 2 O teste de x2 estabelece se a associação entre duas variáveis nominais é significante ou seja se é muito provável que a hipótese alternati va de associação seja a verdadeira Como são estatísticas diferentes a primeira mede o grau de asso ciação e a segunda a significância dessa associação recomendase calcular as duas e depois discutir os resultados 123 EXERCÍCIOS RESOLVIDOS 1231 Você tem uma hipótese determinada doença é genética e dominante Esperase então que metade dos filhos de pessoas com a doença tenha também a doença Como um teste preliminar para essa hipótese você exa mina 40 filhos de pessoas doentes e encontra 14 deles com a doença Você rejeita sua hipótese inicial Você espera que em 40 filhos 20 tenham a doença É preciso comparar o que foi observado com o esperado usando o teste de x2 para aderência Veja a Tabela 128 TABELA 128 H0p050 H 1pt050 05 Filhos de pais doentes segundo o fato de terem a doença ou não Doença Sim Não Total Número de filhos Observados 0 Espe1ados E 14 26 40 20 20 40 OE 6 6 o 0 E2 Capítulo 12 Teste de Quiquadrado 2 51 Aplicando a fórmula 2 r Oi E 2 X L il E vem 2 36 36 X 20 20 360 Na Tabela de x2 você encontra para 1 grau de liberdade e o 5 o valor 364 Como o valor calculado é menor do que o da tabela não se rejeita a hipótese de que a doença é hereditária e de caráter dominante As discre pâncias entre os valores observados e esperados são casuais 1232 Com base nos dados apresentados na Tabela 129 teste a hipótese de que a proporção de recémnascidos defeituosos é a mesma qualquer que tenha sido a época em que a gestante foi atacada de rubéola Faça a 1 TABELA 129 Recémnascidos segundo a época de ataque de rubéola na gestante e a condição Condição Época do ataque Normal Com defeito Total Até o terceiro mês 36 14 50 Depois do terceiro mês 51 3 54 Total 87 17 104 Fonte Hill et alii 1958P Hipótese da nulidade A probabilidade de recémnascidos defeituosos é a mesma qualquer que tenha sido a época em que a gestante foi atacada de rubéola Hipótese alternativa A probabilidade de recémnascidos defeituosos depende da época em que a gestante foi atacada de rubéola Nível de significância 1 HILL B A et alii Virus diseases in pregnancy and congenital defects Brit J Prev Soe Med 12 11958 Apud BERQUÓ E Bioestatística São Paulo Fac Hig Saúde Publ USP1968 Z 1 Z Introdução à Bioestatística Estatística de teste 2 ad bc2 n X abc dacbd 36x3 14x512 x104 X 36 1451 336 5114 3 108 714 2 x104 50x54x87xl7 38192544 9 56 3993300 Na Tabela de X2 para a 1 e 1 grau de liberdade temse o valor 664 Como o valor calculado 956 é maior do que 664 concluise que a pro porção de recémnascidos com defeito é maior quando o ataque de rubéo la na gestante ocorre nos três primeiros meses de gestação 1233 Louis Pasteur conduziu uma série de experimentos em que mostrava o papel das leveduras e das bactérias na fermentação Esses trabalhos deram a Joseph Lister9 um médico britânico a idéia de que as infecções huma nas poderiam ter origem similar Ele então usou áddo fênico como desin fetante nas salas de drurgia Dos 40 pacientes amputados com uso de áddo fênico 34 sobreviveram Dos 35 amputados sem uso de áddo fênico 19 sobreviveram Escreva as hipóteses que podem ser colocadas em teste Calcule as proporções de sobreviventes com e sem uso de áddo fênico Faça o teste de quiquadrado ao nível de 1 de significância Hipótese da nulidade A probabilidade de sobrevivência em cirurgias de amputação é a mesma quer se faça ou não desinfecção na sala cirúrgica Hipótese alternativa A probabilidade de sobrevivência em cirurgias de amputação está associada à desinfecção da sala cirúrgica Nível de significância 1o WINSLOW C The Conquest of Epidemie Diseases Princeton Princeton University Press 1943 p 303 Apud AUAGA M e GUNDERSON B Interactive Statistics 2 ed New Jersey Prentice Hall 2003 p 673 Capítulo 12 Teste de Quiquadrado 2 5 3 TABELA 1210 Sobrevivência de amputados com e sem uso de ácido fênico na sala cirúrgica Ácido fênico Proporção de Sobrevivência Sim Não Total sobreviventes Sim 34 6 40 0850 Não 19 16 35 0543 Total 53 l2 75 fonte Winslow 1943 Estatística de teste 2 adbc 2n X a bc da cb d 2 34x166x192x75 X 34 6191634 19616 4302 X75 40355322 40355322 13867500 8 50 1632400 Para a 1 e 1 grau de liberdade temse na Tabela de X2 o valor 664 Como o valor 850 é maior do que 664 rejeitase H0 ao nível de 1 de significância 1234 O Estudo do Coração de Helsinque Helsinki Heart Study 1º mostrou re dução na incidência de eventos Cardíacos em homens de meiaidade com nível alto de colesterol mas sem diagnóstico de doença coronariana com o uso de uma droga genjibrozila Dos 2051 participantes que durante cinco anos receberam a droga para reduzir o nível de colesterol 56 re gistraram evento cardíaco Dos 2030 participantes que receberam placebo durante cinco anos 84 registraram evento cardíaco a Qual é a proporção de participantes que registraram evento cardíaco no grupo tratado b Qual é a proporção de participantes que registraram evento cardíaco no grupo placebo ºMARSHALL KG Canadian Medical Association Journal May 15 1996 Apud AUAGA M e GUNDERSON B Interactive Statistics 2 ed New Jersey Frentice Hall 2003 p 679 Z 14 Introdução à Bioestatística c Existe evidência suficiente do benefício da droga d No relatório final do estudo afinnouse que o uso da droga reduziu a incidência de eventos cardíacos em 34 Como isso foi calculado a e b Veja a Tabela 1211 TABELA 1211 Participantes da pesquisa segundo o tratamento e o registro ou não de evento cardíaco Evento cardíaco Tratamento Sim Não Total Droga ffi 1995 2051 Placebo 84 1946 2030 Total 140 3941 4081 fonte Marshall 1996 c É preciso fazer um teste estatístico Então Nível de significância 5 Calcule a estatística de teste HoP1 p2 H1P1P2 2 ad bc2n X a b e da e b d Proporção com registro de evento 00273 00414 2 56x19461995x842 x4081 X 56199584 1946568419951946 58604 2x4081 610 2051 2030 140 3941 Rejeitase H0 ao nível de 5 de significância temos portanto a evidência de que a droga teve o efeito d Faça a diferença entre as duas proporções e divida pela proporção do gru po que recebeu placebo Multiplique por 100 para ter a diferença em relação ao placebo expressa em porcentagem 00414 00273 xlOO 34 00414 Então usar a droga reduziu em 34 a incidência de eventos cardíacos Capítulo 12 Teste de Quiquadrado 2 5 5 124 EXERCÍCIOS PROPOSTOS 1241 A proporção de recémnascidos com defeito ou doença séria é 3 Ima gine que um médico suspeita que esta proporção tenha aumentado Exa minou então 1000 recémnascidos e encontrou 34 com defeito ou doença séria Você acha que a suspeita do médico é procedente 1242 Com base nos dados apresentados na Tabela 1212 teste ao nível de significância de 5 a hipótese de que a proporção de recémnascidos vivos portadores de anomalia é a mesma nos dois sexos TABELA 1212 Recémnascidos vivos segundo o sexo e a presença ou não de anomalia Sexo Masculino Feminino Sim 28 45 Anomalia Não 1485 1406 1243 Com base nos dados apresentados na Tabela 1213 teste ao nível de significância de 1 a hipótese de que a ausência congênita de dentes independe do sexo TABELA 1213 Escolares segundo o sexo e a ausência congênita de dentes Sexo Masculino Feminino Fonte Vedovelo Filho 197211 Ausência congênita de dentes Sim 23 40 Não 1078 859 1244 Muitos pesquisadores consideram com base em grandes amostras que a ausência congênita de dentes está associada ao sexo da pessoa Amos tras pequenas não permitem rejeitar H0 Isso se deve provavelmente à pequena associação Calcule o coeficiente de associação de Yule para os dados do Exercido 127 Você considera grande a associação Calcule as 11VEDOVELO FILHO M Prevalência de agenesias dentárias em escolares de Piracicaba 1972 Tese mestrado FOPINICAMP Z 11 Introdução à Bioestatística proporções As diferenças são percentualmente grandes Veja o Exercido 1263 para calcular esse percentual 1245 Com base nos dados apresentados na Tabela 1214 calcule o coeficiente de associação Faça o teste de quiquadrado TABELA 1214 Resultados de casos de diagnóstirco prénatal segundo a idade da gestante e a presença ou ausência de aberração cromossômica 1 Idade da gestante De 35 até 40 anos 40 anos ou mais Aberração cromossômica Sim Não 10 18 447 510 1246 Para determinar se existe associação entre implantes mamários e doen ças do tecido conjuntivo e outras doenças 12 foram observadas durante vários anos 749 mulheres que haviam recebido implante e exatamente o dobro de mulheres que não haviam recebido o implante Eles verificaram que cinco mulheres que receberam implantes e 10 das que não receberam tiveram doenças do tecido conjuntivo Quais são as hipóteses em teste Quais são as proporções de mulheres doentes nos dois grupos 1247 Com base nos dados apresentados na Tabela 1215 você rejeita a hipó tese de que a probabilidade de natimorto é a mesma para os dois sexos TABELA 1215 Recémnascidos segundo o sexo e a condição de vivo ou natimorto Sexo Masculino Feminino Vivo 1513 1451 Condição Natimorto 37 ll 1248 Com base nos dados apresentados na Tabela 1216 ache o coeficiente de Yule O que significa GABRIEL SE et alii Risk of connective tissues diseases and other disorders after breast implantation New Engl J Med 33016971702 1994 Apud Motulsky H Intuitive Biostatistics Nova York Oxford University Press 1995 p318 Capítulo 12 Teste de Quiquadrado 217 TABELA 1216 Recémnascidos segundo a idade materna e o tempo de gestação Idade materna De 10a19 anos De 20 a 34 anos Total Fonte Azevedo et alii 20023 Tempo de gestação Até 36 semanas De 37 a 41 semanas 612 1378 13176 34942 13788 36320 Total 1990 48118 50108 1249 Com base nos dados apresentados na Tabela 1217 você rejeita a hi pótese de que a probabilidade de dormir mais de 8 horas é a mesma para as duas faixas de idade TABELA 1217 Participantes da pesquisa segundo o tempo de sono em horas e a faixa de idade Faixa de idade De 30 a 40 anos De 60 a 70 anos Tempo de sono Menos de 8 horas 172 120 8 horas ou mais 78 130 12410 Com base nos dados apresentados na Tabela 1218 você rejeita a hi pótese de que a probabilidade de ter gripe é a mesma para pessoas vaci nadas e nãovacinadas TABELA 1218 Participantes da pesquisa segundo o fato de ter sido vacinada contra gripe e ter tido gripe 1 Vacina Sim Não Sim 11 70 Gripe 538 464 AZEVEDO G D et alii Efeito da idade materna sobre os resultados perinatais REGO 24 3 2002 página deixada intencionalmente em branco Teste t de Student 13 página deixada intencionalmente em branco Capítulo 13 Teste t de Student 2 71 Os pesquisadores trabalham com amostras mas suas conclusões devem ser generalizadas para as populações de onde as amostras foram retiradas com base na aplicação de teste estatístico Dizemos então que foi feita uma inferência estatística Os testes estatísticos testam hipóteses a respeito da população O pesquisador faz duas hipóteses a primeira é a hipótese da nulidade que na grande maioria das vezes afirma não existir diferença entre gru pos de dados Depois o pesquisador constrói a hipótese alternativa que como diz o próprio nome contradiz a primeira Então ele aplica o teste estatístico para decidir por uma das hipóteses Como isso é feito Os testes estatísticos fornecem o pvalor valor de probabilidade que permite decidir com base nos dados se há evidência suficiente para rejei tar a hipótese da nulidade Por convenção se o pvalor é menor do que 005 p 005 a hipótese da nulidade deve ser rejeitada1 Em outras pa lavras se p 005 os resultados são estatisticamente significantes Neste Capítulo veremos como comparar duas médias2 da mesma variá vel quantitativa obtidas de dois grupos de dados por meio de um teste estatístico Exemplo 131 Comparando duas médias Para verificar se meninos e meninas aprendem a falar na mesma idade um pes quisador obteve para um grande número de crianças a idade em que cada uma delas começou a falar A primeira hipótese da nulidade é a de que a média das idades em que os meninos começam a falar meninos da população de onde a amostra foi retirada não apenas os da amostra é igual à média das idades em que as meninas começam a falar meninas da população de onde a amostra foi retirada não apenas as da amostra H0 as médias são iguais A segunda hipótese alternativa é a de que a média das idades em que os meninos começam a falar é diferente da média das idades em que as meninas co meçam a falar H as médias são diferentes 0 pvalor pequeno indica ser muito improvável obter resultado igual ou menor do que o achado quando a hipótese da nulidade é verdadeira Para comparar mais de duas médias aplicamse a análise de variância e os testes de compara ções múltiplas Veja o assunto em VIEIRA S Análise de variância ANOVA São Paulo Atlas 2006 Z 7 Z Introdução à Bioestatística Para comparar duas médias o teste estatístico mais usado é o teste t de Student Vamos ver como se faz este teste em duas situações diferentes 1 quando os dados são pareados 2 quando os grupos são independentes 131 0 TESTE t NOS ESTUDOS COM DADOS PAREADOS Muitas vezes as unidades físicas ou biológicas são medidas duas ve zes no decorrer da pesquisa A lógica é verificar se houve ou não discre pância entre as medições Outras vezes as unidades são consideradas aos pares A idéia é verificar se há ou não diferença na resposta ou no desem penho dos pares A análise com dados pareados é apropriada nos seguin tes casos Quando se mede a mesma variável nas mesmas unidades antes e de pois de uma intervenção Quando os participantes da pesquisa são recrutados aos pares ou são pareados por idade sexo estágio da doença Nesses casos um dos par ticipantes recebe a droga em teste e o outro participante recebe o tratamento convencional Quando se mede a mesma variável em gêmeos ou em um par como mãe e filho Quando se faz um experimento em laboratório com várias repetições e em cada repetição se prepara ao mesmo tempo um controle e um teste Exemplo 132 Ensaio com dados pareados duas medidas no mesmo indivíduo Para verificar se duas drogas diferentes usadas como antitussfgenos bloqueadores de tosse alteram o tempo de sono foi feito um ensaio com nove voluntários Eles tomaram um dos antitussfgenos na primeira noite e o outro na noite seguinte Foi registrado o tempo de sono de cada voluntário nas duas noites A proposta é com parar as médias de tempo de sono sob o efeito de cada antitussfgeno Capítulo 13 Teste t de Student 2 7 3 Exemplo 133 Ensaio com dados pareados medidas feitas em pares de unidades Para verificar se uma droga é eficiente na inibição do crescimento de tumores fo ram injetadas células cancerosas em 14 ratos similares Depois os tumores foram medidos e foram formados pares de ratos com tumores de mesmo tamanho Por sorteio um rato de cada par recebeu a droga grupo tratado e o outro foi man tido como controle A idéia é comparar as médias dos tamanhos de tumores de ratos tratados e ratos controles Quando temos dois grupos de dados pareados aplicamos o teste t Mas entenda o pareamento deve ter algum tipo de lógica não basta que os dois grupos tenham o mesmo número de unidades Para fazer o teste t 1 Estabeleça as hipóteses 2 Escolha o nível de significância 3 Siga os passos a calcule as diferenças entre todas as observações pareadas d x2 x1 b calcule a média dessas difernças úi d n e calcule a variância dessas diferenças fá 2 fá 2 s2 n n 1 d calcule o valor de t que está associado a n 1 graus de liberda de pela fórmula d t fl e compare o valor absoluto do t calculado com o valor crítico dado na Tabela de valores de t no nível estabelecido de significância e com os mesmos graus de liberdade Toda vez que o valor absoluto do t cal culado for igual ou maior que o valor crítico dado na tabela rejeite a hipótese de que as médias são iguais no nível estabelecido de significância Para entender como se acha o valor crítico de t veja a Tabela 131 que reproduz parte da Tabela de valores de t incluída no final deste livro O va lor crítico de t para por exemplo 4 graus de liberdade e 005 de significância está no cruzamento da linha 4 com a coluna 005 É 278 em negrito na Tabela 13 1 274 Introdução à Bioestatística TABELA 131 Tabela parcial de valores de t Nível de significância Graus de liberdade 10 5 1 1 631 1271 6366 2 292 430 992 3 235 318 584 4 213 278 460 5 202 257 403 Exemplo 134 Aplicando o teste tem ensaio com dados pareados Lembre o Exemplo 132 Para verificar se duas drogas diferentes usadas como antitussfgenos bloqueadores de tosse alteram o tempo de sono foi feito um en saio com nove voluntários Os tempos de sono dos voluntários com cada droga es tão na Tabela 132 As hipóteses em teste são H0 o tempo médio de sono é o mesmo para as duas drogas H as drogas determinam tempos médios de sono diferentes Nfvel de significância 005 TABELA132 Tempos de sono dos voluntários em horas segundo a droga Droga Voluntário A B 1 7 9 2 7 7 3 6 6 4 6 8 5 9 10 6 6 8 7 7 7 8 8 8 9 5 7 Capítulo 13 Teste tde Student 275 Para fazer o teste a calcule as diferenças entre os tempos de sono com cada droga para cada vo luntário conforme está apresentaclo na Tabela 133 TABELA 133 Tempos de sono em horas segundo a droga e as respectivas diferenças Droga Voluntário A B Diferença 1 7 9 2 2 7 7 o 3 6 6 o 4 6 8 2 5 9 10 1 6 6 8 2 7 7 7 o 8 8 8 o 9 5 7 2 b calcule a média das diferenças d 1 e calcule a variância das diferenças 2 8 s 1 91 d calcule o valor de t 1 t セ S que tem n 1 9 1 8 graus de liberdade e compare o valor absoluto do t calculado com o valor crítico dado em Tabela de valores de t no nível de significância de 005 e com 8 graus de liberdade Como o valor absoluto do t calculado 300 é maior que o valor crítico 231 rejeite a hipótese de que o tempo de sono para as duas drogas é em média o mesmo no nível de significância de 005 Em termos práticos em média o tempo de sono quando se administra a droga B é significantemente diferente do tempo de sono com a droga A Z 7 5 Introdução à Bioestatística Se você fizer os cálculos em computador3 para o Exemplo 132 você obtém o pvalor 00171 A conclusão é a mesma 1311 Testes unilaterais e testes bilaterais A hipótese da nulidade sempre afirma não há diferença ou então a diferença é nula No exemplo que acabamos de ver a hipótese alternativa afirma existe diferença mas não informa o sinal da diferença Pode acontecer porém de o pesquisador ter noção do sinal da diferença e que rer testar a hipótese da nulidade contra uma hipótese alternativa que dê o sinal da diferença Se a hipótese alternativa especifica o sinal da diferen ça dizemos que o teste é unilateral Se a hipótese alternativa não especi fica o sinal da diferença dizemos que o teste é bilateral Exemplo 135 Teste unilateral Um professor quer saber se um curso de leitura dinâmica faz aumentar a veloci dade de leitura dos alunos Mede então a velocidade de leitura de 22 alunos que se dispuseram a participar da pesquisa Depois ministra um curso de leitura di nâmica e novamente mede a velocidade de leitura desses alunos Quais são as hipóteses em teste A hipótese da nulidade é a de que em média a velocidade de leitura é a mesma antes e depois do curso A hipótese alternativa é a de que em média a velocidade de leitura depois do curso é maior É sempre mais seguro4 aplicar um teste bilateral aquele em que você tanto pode concluir por um aumento como uma diminuição da medida depois da intervenção Afinal de contas o tratamento pode dar resultado contrário ao esperado Exemplo 136 Teste unilateral ou bilateral Um nutricionista quer saber se determinada dieta alimentar leva a uma diminui ção de peso Submete então 20 voluntários a essa dieta durante um mês Quais são as hipóteses em teste A hipótese da nulidade é a de que em média a peso das pessoas é o mesmo antes e depois da dieta Quanto à hipótese alternativa é mais seguro que seja a de que os pesos antes e depois da dieta são em média diferentes Isto porque qual É muito complicado calcular o pvalor razão por que não se fornece aqui nenhuma fórmula de cálculo Existem muitas razões que determinam a preferência dos estatísticos por testes bilaterais Uma delas é o fato de eles serem mais conservadores têm menor probabilidade de rejeitar H0 Capítulo 13 Teste t de Student 2 7 7 quer que seja a área de conhecimentos alguns tratamentos têm às vezes efeito contrário ao esperado No caso deste exemplo um teste bilateral estaria consi derando a possibilidade de a dieta levar a aumento de peso Mas não seria erra do proceder a um teste unilateral se houver informações de pesquisas anterio res informando que a dieta deve determinar diminuição de peso A questão agora é saber como se faz um teste unilateral O procedimento é o mesmo Muda apenas a maneira de procurar o valor crítico na Tabela de valores de t Para um teste unilateral ao nível de 005 de significância e com n 1 graus de liberdade você procura o valor crítico de t com os mesmos graus de liberdade mas com o dobro do nível de significância isto é procure ex 0 10 Exemplo 137 Ensaio com dados pareados teste t unilateral Uma droga é tradicionalmente usada para alfvio de dor nos casos de enxaqueca Uma empresa oferece um genérico Para verificar se o efeito do genérico não é significantemente inferior foi feito um ensaio com sete voluntários5 Todos os vo luntários usaram em períodos distintos tanto a droga tradicional como o genéri co Os tempos de alívio da dor registrados pelos voluntários com cada droga es tão na Tabela 134 H0 o tempo médio de alívio da dor é o mesmo para as duas drogas H o tempo médio de alívio da dor é menor quando se administra o genérico Nível de significância de 5 TABELA 134 Tempos de alívio da dor em horas segundo a droga Droga Voluntário TTadicional Genérico 1 45 4 2 55 55 3 6 6 4 6 5 5 55 45 6 55 6 7 8 65 Este tipo de teste é conhecido como de nãoinferioridade O número de voluntários deve estar em tomo de 25 Z 71 Introdução à Bioestatística Para fazer o teste calcule as diferenças entre os tempos obtidos com a droga tra dicional e o genérico conforme está apresentado na Tabela 135 TABELA 135 Tempos de alívio da dor em horas segundo a droga e as respectivas diferenças Droga Voluntário Tradicional Genérico Diferença 1 45 4 05 2 55 55 o 3 6 6 o 4 6 5 1 5 55 45 1 6 55 6 05 7 8 65 15 Fazendo os cálculos você acha a média das diferenças que é 05 e a variância das diferenças que é 05 Aplicando a fórmula para calcular o valor de t quando os dados são pareados você obtém d t s v n エM セ ᄎ ᄋ U 05 1871 7 No nível de significância de 5 para um teste unilateral e com 6 graus de liber dade o valor de t na Tabela de valores de t é 194 leia na coluna de 10 Como considerando a hipótese alternativa o valor calculado de tdeve ser menor do que zero adote o seguinte critério para decisão se tcalculado for menor do que o valor negativo do t crítico da tabela de valores de t rejeite H0 Neste exemplo o valor calculado de t 1871 é maior que o valor negativo do t crítico 194 Então não rejeite a hipótese de que o tempo de alívio da dor é em média o mesmo para a droga tradicional e o genérico Em termos práticos não há evidência estatística de que o tempo de alívio da dor seja menor quando se usa o genérico O pvalor é 00553 005 Capítulo 13 Teste t de Student 2 7 9 132 0 TESTE t NA COMPARAÇÃO DE DOIS GRUPOS INDEPENDENTES Muitas vezes os pesquisadores querem comparar dois grupos independentes Podem comparar por exemplo o novo tratamento contra o controle ou então comparar dois tratamentos conhecidos Exemplo 138 Para saber se determinado produto faz nascer cabelos em pessoas calvas um mé dico pode fazer um ensaio clínico um grupo de pessoas calvas recebe o tratamento em teste grupo tratado enquanto um grupo de pessoas calvas recebe um placebo grupo controle O teste t de Student é indicado para testar a igualdade de duas médias quando os grupos são independentes Para calcular o valor de t siga os passos a calcule a média de cada grupo b calcule a variância de cada grupo c calcule a variância ponderada dada pela fórmula 2 n 1s nz lsi s P n1 71i 2 d calcule o valor de t que está associado a n1 n2 2 graus de liber dade pela fórmula XI X1 t 1 l 2 Sp n1 n2 e compare o valor calculado de t em valor absoluto com o valor críti co de t no nível estabelecido de significância e com os mesmos graus de liberdade No caso de teste bilateral se o valor absoluto do t cal culado for igual ou maior do que o da tabela rejeite a hipótese de que as médias são iguais no nível estabelecido de signíficância Exemplo 139 Teste t para comparar dois grupos bilateral Um nutricionista quer comparar o efeito de duas dietas alimentares para perda de peso Seleciona então voluntários que querem perder peso e os divide ao acaso em dois grupos um grupo é designado para a dieta A e o outro para a dieta B Os dados estão na Tabela 136 Faça o teste t ao nível de 5 de significância Z 11 Introdução à Bioestatística TABELA 136 Perda de peso em quilogramas segundo a dieta Dieta A B 12 15 8 19 15 15 13 12 10 13 12 16 14 15 11 12 13 Para o exemplo apresentado neste capítulo veja como se faz o teste t H0 as perdas de peso são em média as mesmas para qualquer das duas dietas H1 as dietas determinam perdas médias de peso diferentes Nível de significância 005 a as médias de grupos são b as variâncias de grupo são e a variância ponderada é X i 12 x 2 15 ウセ 40 sf 50 2 l0 lx40 7 lx50 s 44 107 2 d o valor de t com n n2 2 1 O 7 2 15 graus liberdade é t 15 12 2902 1 4 4 10 7 Capítulo 13 Teste tde Student 211 e como o valor calculado de t em valor absoluto é maior que o valor crítico de t 2902213 no nível de 5 de significância você rejeita a hipótese de que as duas dietas determinam em média a mesma perda de peso Em termos práticos o nutricionista pode concluir que as perdas de peso são em média significantemente maiores quando os voluntários são submetidos à dieta B O pvalor neste exemplo é 00109 005 1321 O caso das variâncias desiguais O teste t tal como foi apresentado só deve ser aplicado quando as variâncias das populações são iguais Mas o que deve ser feito para saber se as variâncias das populações são iguais Existe uma regra prática comparam se as variâncias das duas amostras se a maior variância for até quatro vezes a menor admitese que as duas populações têm variâncias iguais Exemplo 1310 Comparação de variâncias regra prática Imagine duas amostras 1 e 2 com variâncias ウセ 1564 e s 680 respectiva mente Como S12 1564 2304 s 680 é razoável admitir que as variâncias são iguais Mas é melhor aplicar um teste es tatístico Para testar a hipótese de que as variâncias das duas populações são iguais aplicase o teste F Para fazer um teste unilateral 1 Estabeleça as hipóteses H0 as variâncias na população são iguais H1 uma das variâncias é maior do que a outra 2 Escolha o nível de significância 3 Siga os passos a Calcule a variância de cada grupo ウセ Z variância do grupo 1 s variância do grupo 2 Z 1 Z Introdução à Bioestatística b Calcule o valor de F dado pela razão entre a maior e a menor variância Então se s s o valor 2 F i si está associado a n1 1 numerador e n2 1 denominador graus de liberdade c Para o teste unilateral compare o valor calculado de F com o valor dado na Tabela de valores F com o nível de significância estabeleci do e com n1 1 e n2 1 graus de liberdade Para um teste bila teral que é mais indicado faça os cálculos da mesma maneira mas procure na Tabela de valores de F o valor crítico com os mesmos graus de liberdade mas com a metade do nível estabelecido de significância Rejeite a hipótese de que as variâncias das duas popu lações são iguais toda vez que o valor calculado de F for igual ou maior do que o valor da tabela de valores F Para entender como se acha o valor de F na tabela observe a Tabela 13 7 que reproduz parte dessa tabela apresentada no final deste livro Foi co locado em negrito o valor de F no nível de significância de 25 e com 7 e 8 graus de liberdade que deve ser utilizado para um teste bilateral na forma descrita aqui com nível de significância de 5 e com os mesmos graus de liberdade TABELA 137 Tabela parcial de valores de F para cx 25o Número de graus de Número de graus de liberdade do numerador liberdade do denominador 1 2 3 4 5 6 7 8 9 1 6480 8000 8640 9000 9220 9370 9480 9570 9630 2 385 390 392 392 393 393 394 394 394 3 174 160 154 15 1 149 147 146 145 145 4 122 106 998 960 936 920 907 898 890 5 100 843 776 739 715 698 685 676 668 6 881 726 660 623 599 582 570 560 552 7 807 654 589 552 529 512 499 490 482 8 757 606 542 505 482 465 453 443 436 9 721 571 508 472 448 432 420 410 403 Capítulo 13 Teste tde Student 213 Se as variâncias são diferentes para comparar duas médias aplicase o teste t na forma descrita aqui É preciso calcular a a média de cada grupo Indicase Xi média do grupo 1 Xi média do grupo 2 b a variância de cada grupo Indicase s variância do grupo 1 ウ セZ variância do grupo 2 c o valor de t dado pela fórmula onde n1 é o número de elementos do grupo 1 e n2 é o número de ele mentos do grupo 2 d o número de graus de liberdade associado ao valor de t que é a parte inteira do número g obtido pela fórmula H ウセ si 2 e feitos os cálculos é preciso procurar o valor de t na tabela de valo res de t no nível estabelecido de signíficância e com g graus de li berdade Toda vez que o valor absoluto de t calculado for igual ou maior do que o valor de t dado na tabela concluise que no nível es tabelecido de significância as médias não são iguais Exemplo 1311 Teste t para comparar dois grupos variâncias diferentes Para verificar se determinada dieta leva à perda de peso um médico separou ao acaso um conjunto de pacientes em dois grupos um grupo foi submetido à dieta grupo tratado enquanto o outro manteve os mesmos hábitos alimentares gru po controle Decorrido determinado perfodo de tempo o médico obteve a perda de peso de cada paciente em cada grupo Os valores estão na Tabela 138 Z 14 Introdução à Bioestatística TABELA 138 Perdas de peso em quilogramas de pacientes segundo o grupo Grupo Tratado Controle 12 1 14 o 12 o 9 1 14 05 14 1 9 o Para proceder ao teste é preciso primeiro estabelecer o nível de significância Seja a 5 Depois é preciso calcular a a média de cada grupo Xi 12149 12 7 lOO X2 05 b a variância de cada grupo 2 Si 2 2 1038 842 7 6 3 25 35 2 7 6 500 025 c o valor de F porque como as variâncias são muito diferentes convém fazer o teste Seja a 5 s 2 F T 5 2000 S2 025 O valor calculado de F está associado a 6 numerador e 6 denominador graus de liberdade A Tabela de valores F veja no final do livro fornece para a 25 com 6 e 6 graus de liberdade o valor F 582 Então rejeitase a hi pótese de que as variâncias são iguais no nfvel de significância de 5 Agora é preciso calcular d o valor de t t Capítulo 13 Teste tde Student 215 0512 50 025 7 7 ll 5 t 1328 jULセU e o número de graus de liberdade 05625 66 0085247 O valor calculado de testá associado a aproximadamente 6 graus de liberdade Como o valor de t na Tabela de valores t veja no final do livro no nível de significância de 5 e com 6 graus de liberdade é 245 rejeitase a hipótese de que as médias são iguais Em termos práticos a perda de peso foi em mé dia significativamente maior no grupo submetido à dieta 133 0 TESTE t PARA O COEFICIENTE DE CORRELAÇÃO O teste t apresentado neste Capítulo tem outros usos além da comparação de médias Pode ser usado por exemplo para testar a hipótese de que o coeficiente de correlação entre dllas variáveis é igual a zero contra a hi pótese de que é diferente de zero Reveja o ítem 62 do Capítulo 6 O coeficiente de correlação varia en tre 1 e 1 Se o coeficiente de correlação entre duas variáveis for igual a zero não existe correlação linear entre elas E se o coeficiente calculado for r 0775 Não se pode julgar o valor desse coeficiente sem saber o ta manho da amostra Quando a amostra é muito pequena coeficientes de cor relação com valores altos podem não ter significado estatístico Z 15 Introdução à Bioestatística Exemplo 1312 Teste t para coeficiente de correlação O coeficiente de correlação entre duas variáveis X e Y calculado com base em uma amostra de tamanho 14 é r 0775 Esse valor é estatisticamente significante Para aplicar o teste t usase a fórmula t T Jn 2 J12 onde ré o valor calculado para o coeficiente de correlação e n é o tamanho da amostra Esse valor de testá associado a n 2 graus de liberdade No caso do exemplo r 0775 e n 14 Portanto t 0775 J142 0775x346425 Ji0601 0632 com n 2 12 graus de liberdade No nfvel de significância de 5 a Tabela de valores t veja no final do livro for nece para 12 graus de liberdade o valor t 2 18 Como o valor calculado de t é em valor absoluto maior do que 2 18 a correlação entre as variáveis é significante no nfvel de 5 134 EXERCÍCIOS RESOLVIDOS 1341 Os valores apresentados na Tabela 139 permitem testar a hipótese de que recémnascidos de ambos os sexos têm em média a mesma estatura Teste essa hipótese no nível de significância de 5 TABELA 139 Tamanho da amostra média e variância da estatura em centímetros de recémnascidos segundo o sexo Sexo Masculino Feminino n 1442 1361 4929 4854 576 630 Antes de proceder ao teste t convém testar a igualdade das variâncias Para isso calcule F 63º 109 576 que está associado a 1360 numerador e 1441 denominador graus de liberdade Para um teste bilateral no nível de significância de 5 você deve comparar o valor calculado de F com o valor crítico de F dado na Tabela Capítulo 13 Teste tde Student 217 de valores de F com Cl 25 com 1360 e 1441 graus de liberdade A tabela não tem esses números de graus de liberdade mas corno os núme ros são muito grandes use o valor de F associado a infinitos graus de li berdade tanto para numerador corno para denominador Esse valor é 100 O valor calculado de F é maior do que 100 Portanto no nível de significância de 5 as variâncias são diferentes O teste t no caso de variâncias desiguais deve ser calculado corno segue t 49294854 8076 576 630 1442 1361 que está associado aos graus de liberdade 576 630 2 g iM2iT6i 2772 576 2 630 2 1442 1361 l441 1360 O valor calculado de t é maior do que o valor dado na Tabela de valores t veja Apêndice Rejeite então no nível de significância de 5 a hipótese de que recémnascidos de ambos os sexos têm em média a mesma estatura Em termos práticos os meninos nascem com estatura maior do que as meninas 1342 Com base nos dados apresentados na Tabela 1310 teste no nível de significância de 5 a hipótese de que o calibre da veia esplênica é em média o mesmo antes e após a oclusão da veia porta TABELA 1310 Calibre da veia esplênica em seis cães antes e após a oclusão da veia porta 1 Oclusão da veia porta Número do cão Antes Depois 1 75 85 2 fí 75 3 fí 70 4 00 65 5 fí 60 6 70 00 Z 11 Introdução à Bioestatística Note que foram tomadas duas medidas do calibre da veia esplênica em cada cão uma antes outra após a oclusão da veia porta Para aplicar o teste t é preciso calcular a diferença observada em cada animal Tais diferenças estão na Tabela 1311 TABELA 1311 Diferenças de calibre da veia esplênica antes e após a oclusão da veia porta 1 Oclusão da veia porta Número do cão Antes Depois Diferença 1 75 セ 10 2 fJ 75 25 3 fJ 70 20 4 00 65 5 5 fJ 60 10 6 70 00 20 A média das diferenças é d 150 e a variância é s2 6000 O valor de t associado a 5 graus de liberdade é 150 4 74 エ セ G 6000 6 Na tabela de t para ex 5o e com 5 graus de liberdade está o valor 257 Como o valor calculado de t é maior do que o da tabela no nível es tabelecido de significância a hipótese de que em média o calibre da veia esplêníca é o mesmo antes e depois da oclusão da veia porta deve serre jeitada Em termos práticos a oclusão da veia porta determina aumento sig nificativo do calibre da veia esplênica 1343 Reveja o Exemplo 5611 um professor de Odontologia quer saber se alunos que começam a atender pacientes em disciplinas clínicas têm au mento na pressão sistólica Mediu então a pressão sistólica de cinco alu nos de primeiro ano que não cursam disciplinas clínicas e de cinco alu nos do segundo ano logo antes do primeiro atendimento de pacientes Os Capítulo 13 Teste tde Student 219 dados foram apresentados na Tabela 512 do Capítulo 5 Você calculou as médias e os desvios padrões Aplique agora um teste t unilateral Você já calculou 1º ano média 1180 desvio padrão 4 12 2º ano média 1310 desvio padrão 866 Faça o teste das variâncias F 441 não significante no nível de 5 F crítico 960 pvalor 01796 O teste t unilateral fornece t 303 significante ao nível de 5 t crítico 186 pvalor 00082 Com base neste resultado é razoável concluir que alunos que começam a atender pa cientes em disciplinas clínicas têm aumento significante na pressão sistólica p 005 1344 Um nutricionista6 quer saber se existe diferença entre iogurtes feitos de leite desnatado quando se adiciona ou não determinada bactéria Para isso procura amostras de leite desnatado de sete marcas comerciais di ferentes Inocula então metade da amostra de cada marca com a bacté ria e a outra metade deixa sem a bactéria para servir como controle Depois de prontos os iogurtes o nutricionista mede a firmeza da massa Os dados estão apresentados na Tabela 1312 Faça o teste TABELA 1312 Firmeza da massa de iogurte segundo a marca e a presença ou não de bactéria Bactéria Marca Sim Não A 68 61 B 75 69 e 62 64 D 86 76 E 52 52 F 46 38 G 72 68 H0 a firmeza do iogurte é em média a mesma com ou sem adição de bactéria H1 a adição de bactéria muda a média da firmeza do iogurte Nível de significância 005 6JOHNSON R E TSUI K W Statistical reasoning and methods Nova York Wiley 1998 p 437 Z 91 Introdução à Bioestatística Os resultados estão apresentados na Tabela 1313 O valor para t é sig nificante Portanto há evidência de que a bactéria modifica a firmeza do iogurte TABELA 1313 Médias desvios padrões valor de t para firmeza da massa de iogurte 1 Bactéria Média Desvio padrão Testet pvalor Presente 659 137 Ausente 611 126 Diferença 471 435 287 00285 135 EXERCÍCIOS PROPOSTOS 1351 Dez ratos machos adultos criados em laboratório foram separados alea toriamente em dois grupos um grupo foi tratado com a ração normalmen te usada no laboratório e o outro grupo foi submetido a uma nova ração experimental Decorrido certo periodo de tempo pesaramse os ratos Os pesos estão apresentados na Tabela 1314 Teste a hipótese de que o peso médio dos ratos é o mesmo para os dois tipos de ração TABELA 1314 Pesos em gramas de ratos adultos segundo a ração 1 Ração Padrão Experimental 200 220 180 200 100 210 100 220 180 210 1352 Os quocientes de inteligência QJ de 10 crianças medidos segundo dois testes de inteligência A e B estão apresentados na Tabela 1315 Verifi que através do teste t se os dois testes de inteligência dão em média o mesmo valor Capítulo 13 Teste tde Student 291 TABELA 1315 Valores de OI em 10 crianças segundo o teste de inteligência aplicado Teste A B 100 105 105 108 98 102 101 103 100 100 108 110 98 100 100 100 99 103 99 103 1353 A Tabela 1316 apresenta dados de pressão sangüínea sistólica de mu lheres na faixa etária de 30 a 35 anos que usavam e que não usavam anticoncepdonais orais Teste a hipótese de que o uso de anticoncepdo nais não tem efeito sobre a pressão sangüínea sistólica TABELA 1316 Pressão sangüínea sistólica de mulheres de 30 a 35 anos segundo o uso de anticoncepcionais Uso de anticoncepcionais Sim Não 111 109 119 113 121 120 113 117 116 108 126 120 128 122 123 124 122 115 121 112 Z 9 2 Introdução à Bioestatística 1354 A Tabela 1317 apresenta o tamanho da amostra a média e a variância dos pesos ao nascer de nascidos vivos de ambos os sexos Teste ao nível de significância de 1 a hipótese de que os dois sexos têm em média o mesmo peso ao nascer TABELA 1317 Tamanho da amostra média e variância de pesos ao nascer de nascidos vivos segundo o sexo Sexo Masculino Feminino n 14 13 3253 3130 52 0261 0265 1355 Para mais bem conhecer o efeito do frio pesquisadores fizeram um experimento com ratos de laboratório Doze ratos foram divididos ao acaso em dois grupos Um grupo ficou durante 12 horas na temperatura de 26 C e o outro grupo ficou numa temperatura de 5C pelo mesmo tempo Depois os pesquisadores mediram a pressão sangüínea dos 12 ratos Os re sultados estão na Tabela 1318 O que você conclui TABELA 1318 Pressão sangüínea dos ratos segundo a temperatura a que foram submetidos Tem peratura 5ºC 26C 152 384 157 369 179 354 182 375 176 366 149 423 1356 Para comparar o tempo de absorção de duas drogas A e B nove pes soas foram designadas ao acaso para receber a droga A e sete para rece ber a droga B Depois se determinou o tempo que demorou até as drogas alcançarem determinado nível no sangue Com base nas estatísticas apre sentadas na Tabela 1319 faça o teste t 70TT L e MENDENHALL W Understanding Statistics Belmont Wadsworth 6 ed 1994 p 305 Capítulo 13 Teste tde Student 293 TABELA 1319 Médias e variâncias do tempo despendido para as drogas alcançarem determinado nível no sangue Droga Estatísticas A 8 Número de pessoas 9 7 Média 272 335 Varincia 1636 1892 1357 Para saber se o tempo de alívio da dor no pósoperatório é significante mente maior quando se administra a droga A em lugar da droga B mais comumente usada observouse o tempo do alívio da dor de 25 pessoas que receberam a droga A no pósoperatório e 20 que receberam a droga B Com base nas estatísticas apresentadas na Tabela 1320 faça o teste t TABELA 1320 Médias e variâncias do tempo de alívio da dor segundo a droga Droga Estatísticas A 8 Número de pacientes 25 20 Média 55 50 Varincia 225 169 1358 Acreditase que um novo método de armazenamento mantenha por mais tempo o ácido ascórbico do caqui do que o método usual Foram então armazenados 20 caquis pelo novo método e 20 pelo método usual Com base nas estatísticas apresentadas na Tabela 1321 faça o teste t TABELA 1321 Médias e variâncias do teor de ácido ascórbico em miligramas por 100 gramas da fruta segundo o processo de armazenamento Estatísticas Número de caquis Média Variância Armazenamento Método usua 20 334 40 Novo método 20 410 60 Z 9 4 Introdução à Bioestatística 1359 Um nutricionista designa ao acaso 12 ciclistas para dois grupos os dois grupos são instruídos a usar a dieta normal mas o primeiro recebe um suplemento de vitaminas enquanto o segundo recebe um placebo Decor rido um mês o nutricionista mede o tempo que cada ciclista demora em percorrer 10 km Os dados estão na Tabela 1322 Formule as hipóteses e faça o teste TABELA 1322 Tempo em minutos para percorrer 10 km segundo o grupo Grupo Suplemento de vitaminas Placebo 15 16 18 12 20 15 14 15 16 14 19 18 13510 Alguns estudosª indicam que o açúcar toma as crianças mais ativas outros não acham evidência de que isso aconteça Foi feito um estudo com 25 crianças normais com idades entre 3 e 5 anos e 23 crianças que os pais diziam ficar hiperativas quando ingeriam açúcar Os nutricionistas foram até as casas e retiraram todos os alimentos Depois forneceram os alimen tos por 4 semanas As famílias receberam dois tipos de dieta uma com açúcar outra com alimentos adoçados com sacarina Foram feitas medi das de comportamento nos dois grupos de crianças Os dois grupos nun ca foram comparados As comparações foram feitas dentro de grupos Esses dados constituem exemplo de dados pareados ou de grupos independen tes Que hipóteses estão em teste 8ALIAGA M e GUNDERSON B Interactive Statistics 2 ed New Jersey Prentice Hall 2003 p 679 Respostas aos Exercícios Propostos página deixada intencionalmente em branco Respostas aos Exercícios Propostos 2 9 7 CAPÍTULO 1 191 Podem ser obtidas seis amostras diferentes 1 Antônio e Luís 2 An tônio e Pedro 3 Antônio e Carlos 4 Luís e Pedro 5 Luís e Carlos 6 Pedro e Carlos 192 Podem ser selecionados a os elementos de ordem par b os elemen tos de ordem ímpar c os quatro primeiros elementos 193 Numeramse os alunos e sorteiamse seis 194 Divida 10 por cinco e obterá dois Sorteie um dos dois primeiros nú meros isto é 1 ou 2 Se sair 1 chame para a amostra o primeiro o terceiro o quinto o sétimo e o nono nomes se sair 2 chame o segun do o quarto o sexto o oitavo e o décimo nomes 195 O tipo de serviço odontológico que uma família demanda depende da sua renda A amostragem coIIll base na lista telefônica é incorreta por que seleciona apenas aqueles que têm telefone fixo o que está asso ciado com renda 196 a qualquer conjunto de 10 unidades como por exemplo 3 5 8 13 19 22 26 27 30 40 b no caso da amostra sugerida na resposta an terior 03 ou 30 c 05 ou 50 d Boa nota não são boas as esti mativas O 01 09 1 197 Questão fechada Você costuma escovar os dentes todos os dias Sim O Não O Questão aberta Como você limpa seus dentes 198 A média da população parâmetro é 5 As médias das amostras esta tísticas são João e José 8 João e Paulo 7 João e Pedro 5 José e Paulo 5 José e Pedro 3 Paulo e Pedro 2 A média das médias das amostras é 5 igual à média da população 199 O costume é escolher uma cidade representativa de todo o Estado 1910 a alunos da universidade b percentual de alunos que têm trabalho remunerado c não porque talvez no restaurante fiquem mais alu nos que têm trabalho d não porque excluiria os que têm condução própria Z 91 Introdução à Bioestatística 1911 Leitores de livros técnicos 1912 143 policiais militares CAPÍTULO 2 281 a peso de pessoas numérica contínua b marcas comerciais de um mesmo analgésico nominal e temperatura de pessoas numérica con tínua d quantidade anual de chuva na cidade de São Paulo numérica contínua e religião nominal f número de dentes permanentes irrom pidos em uma criança numérica discreta g número de bebês nascidos por dia em uma maternidade numérica discreta h comprimento de cães numérica contínua 282 Distribuição das pessoas segundo a opinião Opinião Freqüência Percentual Favorável 425 499 Contrária 368 432 Não temnão sabe 59 69 Total 852 1000 283 Distribuição das notas de 200 alunos Nota do aluno Freqüência Freqüência relativa De 9 a 10 16 008 De 8 a 89 36 018 De 65 a 79 90 045 De 5 a 64 30 015 Abaixo de 5 28 014 Total 200 1 Respostas aos Exercícios Propostos 2 9 9 284 Distribuição dos pacientes segundo o estágio da doença Estágio da doença Freqüência Freqüência relativa Leve 8 040 Moderado 9 045 Severo 3 015 Total 20 100 285 Não está definido se os valores iguais aos extremos de classe estão ou não incluídos na classe Os intervalos se sobrepõem por exemplo de 20 a 30 e de 30 a 40 o valolr 30 aparece nos dois intervalos e falta uma classe de 50 a 60 286 Distribuição dos doadores de sangue segundo o tipo de sangue Tipo de sangue Freqüência Freqüência relativa o 15 0375 A 16 04 8 6 0 15 AB 3 0075 Total 40 1 287 20 alunos 288 Distribuição das crianças segundo o hábito de sucção Hábito de sucção Freqüência Percentual Sucção do polegar 190 94 Chupeta 588 292 Mamadeira 618 307 Não têm o hábito 615 306 Total 2011 1000 311 Introdução à Bioestatística 289 Classe 70 f 75 75 f 80 80 f 85 85 f 90 90 f 95 95 f100 100 f105 105 f110 110f115 115 f120 2810 O intervalo de classes é 5 enfermeiros em serviço O intervalo de toda a distribuição é 30 2811 Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias Classe Freqüência o f3 5 3 f6 8 6 f9 11 9 f12 4 12f15 6 15f17 2 Total 36 Respostas aos Exercícios Propostos 311 Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias Classe Freqüência 1 dia 2 De 2 a 3 dias 6 De 4 a 7 dias 12 De 8 a 14 dias 14 Mais de 14 dias 2 Total 36 2812 Conjunto A para achar o número de classes a 701 7 amplitude dos dados 70 24 46 Dividindo a amplitude total pelo número de classes achase o intervalo de classe 46 7 66 7 24 f 31 31 f38 38 f45 45 f 52 52 f 59 59 f 66 66 f 73 Conjunto B para achar o número de classes J100 10 amplitude dos dados 821 187 634 Dividindo a amplitude total pelo número de classes achase o intervalo de classe 634 10 634 65 Para faci litar os cálculos faça o extremo inferior da primeira classe igual a 185 185 f 250 250 f315 315 f380 380 f445 445 f 510 510 f 575 575 f640 640 f 705 705 f 770 770 f835 31 Z Introdução à Bioestatística 2813 2814 2815 Taxa de abandono do tratamento contra tuberculose pulmonar segundo a zona de moradia Zona Urbana Rural Total Abandono do tratamento Sim 15 70 85 Não ll 35 115 Total ffi 105 200 Taxa de abandono 158 667 425 Distribuição dos dentistas segundo a adoção de métodos de prevenção de cáries e doenças gengivais no consultório Prevenção Sim Não Total Freqüência 78 22 100 Percentual 780 220 1000 A prática da prevenção deveria ser adotada por 100 dos dentistas Número de óbitos por grupos de causas Brasil 2004 Masculino Feminino Grupos de causas N9 NR Doenças infecciosas e parasitárias 27437 52 18615 50 Neoplasias 76065 145 64724 173 Doenças do aparelho circulatório 150383 288 135119 362 Doenças do aparelho respiratório 55785 107 46369 124 Afecções originadas no período perinatal 17530 34 13165 35 Causas externas 107032 205 20368 54 Demais causas definidas 88563 169 75399 202 Total 522795 1000 373759 1000 Foram 896554 óbitos com causa definida 583 homens e 417 mu lheres Doenças do aparelho circulatório respondem pela maior propor ção de mortes Chama atenção a grande proporção de óbitos de homens por causas externas acidentes e homicídios 2816 2817 Respostas aos Exercícios Propostos 313 Pacientes portadores de carcinoma epidermóide de base de língua segundo a faixa etária em anos Faixa etária Número Freqüência relativa 30 f40 10 34 40 f 50 fi6 228 50 f 60 119 410 60 f 70 fi6 228 70 f 80 24 83 80 e mais 5 17 Total 290 1000 A faixa etária de maior risco dos 50 aos 60 anos Número de órgãos obtidos de doadores cadáveres Órgão Número de Número de órgãos Taxa de doadores aproveitados aproveitamento Rim 105 210 1000 Coração 105 45 429 Ffgado 105 20 190 Pulmões 105 17 81 Nota Cada cadáver é potencialmente doador de dois rins um coração um ffgado e dois pulmões A taxa de aproveitamento é sobre número de órgãos não de cadáveres CAPÍTULO 3 351 450 Leve 400 Distribuição dos pacientes segundo o estágio da doença 314 Introdução à Bioestatística 352 353 354 18 16 16 14 co ü 12 e 10 Q cr 8 Q セu 6 4 2 o o A B AB npo de sangue Distribuição dos doadores de sangue segundo o tipo de sangue Hábito de sucção Não tem o hábito Mamadeira Chupeta Sucção do polegar 0 100 200 300 400 500 600 700 Freqüência Distribuição das crianças segundo o hábito de sucção co ü e Q cr Q セu 12 10 8 6 4 2 o 1f3 3f6 6f9 9f12 12f15 15f18 Dias Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias 355 356 Respostas aos Exercícios Propostos 315 Sim Urbana Rural Não 333 Não 842 Taxa de abandono do tratamento contra tuberculose pulmonar segundo a zona de moradia Sim 667 Grupo de causas Sexo masculino Doenças do aparelho circulatório õiiiõiiiiiõl 288 Causas externas Neoplasias Doenças do aparelho respiratório Doenças infecciosas e parasitárias Afecções originadas no perfodo perinatal liiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiiill 20 5 ii 145 iiiiiiiiiiil 1 07 セ U N R E 34 Demais causas definidas eセ A Qᄃ V Nセ Y Eセᄎ セMj Grupo de causas Doenças do aparelho circulatório Neoplasias Doenças do aparelho respiratório Causas externas Doenças infecciosas e parasitárias Afecções originadas no periodo perinatal Demais causas definidas 0 5 10 15 20 25 30 35 40 Sexo feminino 362 173 124 54 i 50 セ SNUE 202 0 5 10 15 20 25 30 35 40 Proporção de óbitos por grupos de causas Brasil 2004 315 Introdução à Bioestatística 357 Nesses gráficos as grandes causas foram colocadas em ordem decrescen te considerando as porcentagens Mas os dois gráficos podem ser reu nidos em um só como na figura que se segue Demais causas definüdas Causas externas 11 Feminino 1 Masculino IS Afecções originadas no perlodo perinata Doenças do aparelho respiratório Doenças do aparelho circulatório Neoplasias Doenças infecciosas e parasitárias 00 50 100 150 200 250 300 350 400oc co e Q o cr Q セu Proporção de óbitos por grupos de causas Brasil 2004 140 120 100 00 00 40 20 o 30f40 40150 50f60 60170 70f80 80 e mais Faixa etária Pacientes portadores de carcinoma epidermóide de base de lfngua segundo a faixa etária em anos 358 359 3510 Pulmões Figa do Coração Rim s 0 Respostas aos Exercícios Propostos 317 20 40 60 80 100 120 Taxa de aproveitamento de órgãos Taxa de aproveitamento de órgãos obtidos de doadores cadáveres 14 12 10 G 8 e Q oJ e セQ 6 u 4 2 o 1 1 64f70 70f76 76f82 82f88 88f94 94f100 Pressão sangüfnea diastól ica Pressão sangüfnea diastólica de 35 enfermeiros que trabalham em um hospital QT セセ セ 12 10 G fil 8 oJ セ 6 u 4 2 01caJ 61 67 73 79 85 91 97 103 Pressão sangüfnea diastólica Pressão sangüfnea diastólica de 35 enfermeiros que trabalham em um hospital 311 Introdução à Bioestatística CAPÍTULO 4 461 a Média 5 mediana 6 moda 8 b Média 8 mediana 8 moda 8 c Média 11 mediana 10 moda 10 d Média 1 mediana O não tem moda e Média 2 mediana 1 duas modas 1 e 2 462 Mediana 463 Moda 464 24 anos 465 A média é 100 miligramas por 100 ml de sangue e a mediana é 995 miligramas por 100 ml de sangue 466 Estatura média 1 70 m mediana 168 m Peso média 725 kg mediana 70 kg Pressão arterial média 1655mmHg mediana 160mmHg 467 Masculino média 088 dente cariado feminino média 1 dente cariado 468 106 minuto O rato que não dormiu não entra na média porque tem po de latência é o tempo para a droga fazer efeito no caso dormir 469 Masculino média 700 gramas por dia mediana 65 gramas por dia Feminino média 700 gramas por dia mediana 70 gramas por dia 4610 Masculino média 090 litro por dia mediana 085 litro por dia Feminino média 080 litro por dia mediana 075 litro por dia 4611 Metade das pacientes retomou às atividades menos de 275 dias depois de submetidas à histerectomia não houve moda ou seja nenhum nú mero de dias foi mais freqüente 4612 362 miligramas de ácido ascórbico em 100 ml 4613 Sim 1 2 3 3 3 4 5 a média a mediana e a moda são iguais a 3 4614 A média porque a última classe não tem o extremo superior definido Respostas aos Exercícios Propostos 319 CAPÍTULO 5 561 a 1 b 5 c 4 562 a Ix 35 b iLHクMセIG 20 563 A média é 4 e o desvio padrão é 3 564 O tamanho da amostra é 6 565 Média 24 e variância 80 566 Antônio média 5 desvio padrão O João média 5 desvio padrão 1 Pedro média 5 desvio padrão 5 As notas de Antônio não variaram as notas de Pedro variaram muito mais do que as de João 567 a O desvio padrão pode ser maior do que o valor da média exemplo 2 O 2 b O valor do desvio padrão pode ser igual ao valor da média exemplo 10 10 5 O O c O valor do desvio padrão não pode ser ne gativo por definição d O desvio padrão é igual a zero quando todos os dados do conjunto são iguais entre si 568 A variância é 16 o desvio padrão é 4 e o coeficiente de variação é 4 569 A média é 5 e a variância é 08 5610 a Desvantagem de usar a amplitude os dois conjuntos podem ter am plitudes iguais e variabilidades diferentes b Não c Sim quando me nor do que 1 5611 1º ano média 1180 desvio padrão 412 2º ano média 1310 desvio padrão 866 A média do 2º ano é 11 maior do que a do 1 ano e a variabilidade é praticamente o dobro 5612 A diferença de médias não é muito grande mas a diferença de variabi lidades é tão grande que justificaria preferir a primeira dieta para perda de peso Como as respostas são mais homogêneas a expectativa do re sultado é mais previsível 31 1 Introdução à Bioestatística 5613 Diurno média 475 desvio padrão 93 Noturno média 454 desvio padrão 94 A média é um pouco maior no diurno mas as variabilidades são prati camente as mesmas CAPÍTULO 6 661 a r 1 correlação perfeita positiva b r 1 correlação perfeita negativa c r O correlação nula d r 090 correlação positiva alta e r 090 correlação negativa alta 662 a correlação negativa b correlação positiva c correlação nula 663 O sobrepeso pode ser um fator de risco para a morte por doenças do coração 664 Não 665 a Correlação perfeita negativa b Forte correlação positiva c Correlação nula ou próxima de zero 666 1 1 ou 1 positiva ou negativa zero maior 66 7 Negativa 668 Se as variáveis estão ou não correlacionadas 669 Não existe correlação entre as variáveis r O O diagrama de disper são mostra isso Respostas aos Exercícios Propostos 311 8 7 6 Q 5 C セQ 4 o ro 3 2 1 o o 1 2 3 4 5 6 Valores de X Dados relativos as duas variáveis X e Y 6610 Para o Conjunto A r 0936 portanto alta correlação positiva Para o Conjunto B r O o que no caso não significa correlação nula mas como mostra o gráfico ッイ セ ッ nãolinear 9 35 8 3 7 25 6 Q Q C 5 C 2 Q Q セ 4 5 15 Q 3 ro 1 2 05 1 ºo o 1 2 3 4 5 6 o 1 2 3 4 5 6 Valores de X Valores de X Conjunto A Conjunto B Dois conjuntos de pares de valores de duas variáveis 6611 Não é possível calcular o valor de r mas obviamente não existe cor relação entre as variáveis X cresce e Y permanece constante 6612 Ix 255 Lx2 9443 Iy 1725 Iy2 504375 Ixy 66025 Logo r 0913 Divisão por zero uma vez que a variância de Y que aparece no denominador é zero 31 2 Introdução à Bioestatística 6613 Para o Conjunto A r 1 portanto correlação perfeita positiva Para o Conjunto B r O o valor altamente discrepante anula a correlação Mas atenção retire o valor discrepante apenas no caso de ter havido erro na leitura ou no registro do dado Outras situações demandam discus são Note ainda o valor discreJPante mudou totalmente o valor de r pelo fato de a amostra ser pequena 6614 O valor de ré 0774 correlação positiva alta 6615 ill セMNL Q 00 e 70 o ᄋ セ 2 00 C0 á3 fí E N セ Q X 40 5 o 3 20 10 o o 2 4 6 8 セ 10 12 14 Duração do exercfcio Duração do exercício em minutos e V02máx em mililitros por quilograma por minuto para 12 homens saudáveis Olhando o diagrama é razoável afirmar que V0 2máx diminui quando aumenta a atividade CAPÍTULO 7 781 A razão de sexos que se inicia acima de 100 o que significa que nas cem mais homens do que mulheres começa a diminuir dos 15 aos 30 anos tende a estabilizar a queda até os 55 anos depois cai cada vez mais rapidamente Respostas aos Exercícios Propostos 31 3 110 100 o Q 00 ᄋセ Q 00 o N 70 co e ff fí o 10 20 30 40 50 60 70 80 90 Valor central da classe Razão de sexos no Brasil em 2005 782 A taxa de mortalidade infantil diminuiu no período mas ainda não é baixa 60 ffi 50 s セ co 40 E ro 31 t o セ 20 co セ 10 P ᄋMQMセMQ 1988 1990 1992 1994 1996 1998 2000 Ano Taxa de mortalidade infantil no Brasil de 1889 a 1998 7 83 Tanto o gráfico como a reta ajustada indicam que o teor de vitamina C no suco de maçã diminui à medida que aumenta o tempo de armaze namento 31 4 Introdução à Bioestatística 45 4 35 co 3 E ê 25 セ 2 O 5 15 セ 1 05 Y3930011X ッ NMNMセNMNMセNMNMセNMNMQ o 25 50 75 100 125 150 175 200 Perfodo de armazenamento Teor de vitamina C mg de ácido ascórbico100 mi de suco de maçã em função do perfodo de annazenamento em dias 7 84 O coeficiente de correlação não muda mas a reta de regressão será ou tra As duas retas se cruzarão no ponto de coordenadas iguais às mé dias de X e Y 785 Não 7 86 y 5 X 787 Não seria possível achar o valor de b pela fórmula uma vez que o de nominador seria zero Mas a idéia é de uma reta paralela ao eixo das ordenadas 788 Os dados são poucos para discutir assunto tão complexo mas em ge ral podese afirmar que escolaridade está associada ao nível de renda que significa maiores gastos com produtos de higiene e maior busca de profissionais de saúde além da facilidade de ter e buscar novos conhe cimentos De qualquer forma ensinar métodos preventivos dá bons re sultados O que não se pode é usar estatísticas de má qualidade tra çouse a reta pelos pontos médios de X e pelas médias de Y o que de terminou maior R2 mesmo que seja para provar assuntos compro vados ou para demonstrar boas intenções 789 Os gastos com propaganda aumentaram as vendas O valor de R2 0984 indica que a proporção da variação do volume de vendas Y explicada pela variação do gasto em propaganda é muito alta Mas cuidado não se pode extrapolar Respostas aos Exercícios Propostos 31 5 3500 300 Y200902X o 2500 12 o Q 2000 Q セ 1500 Q セo 1000 Cõ 500 o o 100 200 300 400 Gastos com propaganda Gastos com propaganda em reais na semana e valores recebidos em reais nas vendas 7810 yll2413oJX 7811 O V02máxinalado diminui linearmente quando aumenta a atividade no intervalo estudado y 16257 8841X 74 72 t セ 70 º 6 68 o ffi セQ Cl 64 62 o 5 10 15 20 25 Tempo Tempo em minutos desde o início do repouso e pressão sangüfnea diastólica em milímetros de mercúrio 31 5 Introdução à Bioestatística 7812 Para se ajustar uma reta de regressão aos dados é preciso que as ob servações sejam independentes Observações feitas ao longo do tempo não são independentes 7813 7814 120 100 o セ 00 o lil e o Q a 40 20 o o Y 1555 2625X R209943 10 20 Idade 30 40 50 Idade em dias e peso médio em gramas de 1 O ratos machos da raça Wistar Peso aos 32 dias 6845 gramas A regressão exponencial traz a variável explanatória no expoente Es crevese y aehX Para ajustála é preciso calcular o logaritmo neperiano de X Ajustase yAblnX Cálculos auxiliares X V nY XnY xz 28 125 022314 624802 784 32 125 022314 714059 1024 35 175 055962 1958655 1225 38 225 081093 3081535 1444 39 325 117865 4596754 1521 41 325 117865 4832485 1681 42 425 144692 6077060 1764 IX255 LY 1725 Lln Y 562106 IXln Y 21885351 IX2 9443 Respostas aos Exercícios Propostos 31 7 Aplicando as fórmulas obtémse CAPÍTULO 8 881 882 883 4 a 1 52 13 b セNAN 52 4 l c 52 8 a iO b 2 10 c 2 10 7 a 15 b セ 15 c zero y 2535 009164lnX y QQ792eº0916x 884 É mais fácil resolver o problema construindo o espaço amostral 1 2 3 4 5 6 7 8 9 10 ABC ABD ABE ACO ACE ADE BCD BCE BDE COE 885 l a 6 b 6 311 Introdução à Bioestatística 886 Os eventos ser reprovado em Matemática e ser reprovado em Portu guês não são independentes porque a condição de independência dada em seguida não é satisfeita PA í B PA PB Temos PReprovado em Português 010 PReprovado em Matemática 020 PReprovado em Português í Reprovado em Matemática 005 005 F 010 X 020 887 a 50 b 50 888 oLャセッ 889 50o 8810 a 36 b 1 CAPÍTULO 9 961 Eventos e respectivos resultados no jogo Eventos Resultados possíveis 12 Ganha 13 Perde 21 Perde 23 Perde 31 Perde 32 Ganha O jogador perde mais vezes do que ganha porque só 2 é par e 1 e 3 são ímpares O jogo é injusto Respostas aos Exercícios Propostos 31 9 962 Distribuição do número de meninos em uma família de cinco crianças 1 963 µ 5 J2 25 964 µ 2 cr2 16 965 27 966 27 64 ou 422 967 0001 X PX o 1 2 3 4 5 132 532 1032 1032 532 132 968 a As respostas têm distribuição binomial b Depende da taxa de res postas que deve ser igual ou superior a 70 isto é pelo menos 70 dos questionários devem ter sido respondidos Um cuidado importan te aqui é saber se a pergunta feita não induz um tipo de resposta por exemplo dizer não pode ser prejudicial para a enfermeira ou pode ofender colegas Nesse caso as respostas poderiam eventualmente ser tendenciosas e a taxa de respostas pequena 969 354 9610 Se considerarmos cada dia como um ensaio em cada dia podem ocorrer mais de dois eventos ocorreu acidente ou não Interessa o número de acidentes por dia e depois o estudo da distribuição de freqüências em quantos dias houve um acidente 2 3 etc e o estudo das causas Por tanto a variável não é binomial CAPÍTULO 10 1061 4901 3Z1 Introdução à Bioestatística 1062 a 067 b 164 c 196 1063 a 7888 b 1056 1064 a 475 b 4525 1065 a 9772 b 228 1066 a 21 19 b 21 19 1067 Usando apenas os conhecimentos adquiridos com a distribuição normal é razoável dizer que a média mais um desvio padrão é ponto de aler ta no caso 1425 5 rnEqL de plasma média mais dois desvios padrões no caso 14555 mEqL de plasma seria ponto de corte para dizer que está alta a concentração de sódio no plasma de uma pessoa 1068 a 01587 ou 1587 b 00228 ou 228 c 05 ou 50 d 01003 ou aproximadamente 10o 1069 Sim metade dos escores é positiva e metade é negativa porque a dis tribuição normal reduzida é simétrica em tomo da média 10610 00475 OU 475o CAPÍTULO 11 1161 A proporção de adultos que pensam que sofrem da síndrome é 590 3066 01924 O intervalo de 95 de confiança vai de 0178 a 0206 1162 A resposta mais razoável talvez seja 3 3066 0000978 ou 00978 1163 O intervalo de 90 de confiança vai de 1217 a 1243mmHg 1164 O intervalo de 99 de confiança vai de 1550 a 1690 g de hemoglobina por 100 ml de sangue 1165 O intervalo de 90 de confiança vai de 4920 a 5080 cm 1166 O intervalo de 95o de confiança vai de 925 a 975 mg de glicose por 100 ml de sangue Respostas aos Exercícios Propostos 3Z1 1167 O intervalo teria de ser O p 1 Mas esse intervalo não tem qualquer utilidade 1168 O intervalo de 95 de confiança vai de 2946 a 3094 g 1169 O intervalo de 98 de confiança vai de 64705 a 66895 mg 11610 a Não necessariamente b Sim c Não necessariamente d Não CAPÍTULO 12 1241 Um teste de quiquadrado ao nível de 5o de significância não rejeita a hipótese de que é de 3a proporção de recémnascidos com defeito ou doença séria 1242 J2 482 A proporção de recémnascidos portadores de anomalia con gênita é maior no sexo feminino 1243 a2 904 A ausência congênita de dentes ocorre mais em meninas 1244 O coeficiente de Yule é 0372 A anodontia está associada ao sexo na ordem de 37 1245 a2 132 A associação é 022 relativamente pequena O teste não re jeita a hipótese de que presença de aberração cromossômica no feto não depende da faixa de idade da gestante ser de 35 até 40 anos ou de 40 anos ou mais 1246 Hipótese da nulidade existe associação entre implantes mamários e doenças do tecido conjuntivo e outras doenças Hipótese alternativa doenças do tecido conjuntivo e outras não estão associadas aos implan tes mamários A proporção é 000668 nos dois grupos 1247 Hipótese da nulidade a probabilidade de natimorto é a mesma para os dois sexos Hipótese alternativa a probabilidade de natimorto é mai or para um dos sexos u 5ºo Calculado x2 1 15 menor que o da Tabela de x2 com 1 grau de liberdade Não se rejeita H0 3 2 2 Introdução à Bioestatística 1248 O coeficiente de Yule é 00816 Associação positiva mas muito pequena da ordem de 8 1249 Hipótese da nulidade a probabilidade de dormir mais de 8 horas é a mesma para as duas faixas de idade Hipótese alternativa a proba bilidade de dormir mais de 8 horas é diferente para as duas faixas de idade ex 1 x2 2226 portanto rejeite H0 ao nível de 1 de significância 12410 x2 4824 rejeitase H0 ao nível de 1 CAPÍTULO 13 1351 A tabela dada em seguida apresenta as médias e os desvios padrões de pesos de ratos Estatísticas Média Desvio padrão Médias e desvios padrões de pesos de ratos Padrão 1880 37 Ração Experimental 2120 37 O valor de t é 4536 significante a 5o Os ratos submetidos à ração ex perimental ganharam mais peso 1352 Observações pareadas t 4226 significante ao nível de 5 O teste B dá em média resultados significantemente maiores de OI do que o teste A 1353 t 1642 nãosignificante a 5 Os dados não mostram que o uso de anticoncepcionais orais aumenta a pressão sangüínea sistólica 1354 t 0623 nãosignificante a 5 Os dados não mostram diferença de peso ao nascer entre sexos 1355 A tabela dada em seguida apresenta as médias e as variâncias da pres são sangüínea dos ratos Respostas aos Exercícios Propostos 3 Z 3 Médias e variâncias da pressão sangüínea dos ratos segundo a temperatura a que foram submetidos Estatísticas Média Variância 5º C 1658 21817 Temperatura 26º C 3785 57390 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 005 1356 Rejeitase a hipótese de médias iguais p 00097 1357 Estatísticas para comparar do tempo de alivio da dor obtido com a nova droga em relação à antiga Estatístíca Valor de F rrvalor Variância ponderada Valor de t pvalor unilateral Resultado 133 02652 2003 118 01227 Não se rejeita a hipótese de variâncias iguais p 005 Também não há evidência de que a droga nova seja melhor do que a antiga p 005 1358 Estatísticas para comparar os dois métodos de processamento Estatístíca Resultado Valor de F 150 pvalor 01924 Variância ponderada 5000 Valor de t 1075 pvalor unilateral 00000 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 00000 005 3 2 4 Introdução à Bioestatística 1359 Estatísticas para comparar as duas dietas Estatística Resultado Valor de F 118 pvalor 04290 Variância ponderada 2183 Valor de t 234 pvalor unilateral 00205 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 00205 005 13510 Teste t pareado porque a mesma criança foi observada duas vezes a quando recebeu alimentos adoçados com açúcar e b quando recebeu alimentos adoçados com sacarina Os dois grupos de crianças mais ve lhas hiperativas e de crianças mais novas normais não são compa ráveis porque diferem quanto a dois fatores idade e hiperatividade Tabelas página deixada intencionalmente em branco Tabelas 327 TABELA 1 Distribuição normal reduzida PO Z z Último dígito o 1 2 3 4 5 6 7 B g oo 00000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02703 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04554 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04658 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04761 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 2 1 04821 04826 04830 04834 04838 04842 04846 04850 04854 04857 22 04861 04864 04868 04871 04875 04878 04881 04884 04887 04890 23 04893 04896 04898 04901 04904 04906 04909 04911 04913 04916 24 04918 04920 04922 04925 04927 04929 04931 04932 04934 04936 25 04938 04940 04941 04943 04945 04946 04948 04949 04951 04952 26 04953 04955 04956 04957 04959 04960 04961 04962 04963 04964 27 04965 04966 04967 04968 04969 04970 04971 04972 04973 04974 28 04974 04975 04976 04977 04977 04978 04979 04979 04980 04981 29 04981 04982 04982 04983 04984 04984 04985 04985 04986 04986 30 04987 04987 04987 04988 04988 04989 04989 04989 04990 04990 321 Introdução à Bioestatística TABELA2 Valores de X segundo os graus de liberdade e o valor de a a Graus de liberdade 10 5 1 1 271 384 664 2 460 599 921 3 625 782 1134 4 778 949 1328 5 924 1107 1509 6 1064 1259 1681 7 1202 1407 1848 8 1336 1551 2009 9 1468 1692 2167 10 1599 1831 2321 11 1728 1968 2472 12 1855 2103 2622 13 1981 2236 2769 14 2106 2368 2914 15 2231 2500 3058 16 2354 2630 3200 17 2477 2759 3341 18 2599 2887 3480 19 2720 3014 3619 20 2841 3141 3757 21 2962 3267 3893 22 3081 3392 4029 23 3201 3517 4164 24 3320 3642 4298 25 3438 3765 4431 26 3556 3888 4564 27 3674 4011 4696 28 3792 4134 4828 29 3909 4256 4959 30 4026 4377 5089 Tabelas 329 TABELA3 Valores de F para a 25o segundo o número de graus de liberdade do numerador e do denominador N1 de g 1 do denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 00 Número de graus de liberdade do numerador 1 2 3 4 5 6 7 8 9 648 800 864 900 922 937 948 957 963 385 390 392 392 393 393 394 394 394 174 160 154 151 149 147 146 145 145 122 106 998 960 936 920 907 898 890 100 843 776 739 715 698 685 676 668 881 726 807 654 757 606 721 571 694 546 672 526 655 510 641 497 630 486 620 477 612 469 604 462 598 456 592 451 587 446 583 442 579 438 575 435 572 432 569 429 566 427 563 424 561 422 559 420 557 418 542 405 529 393 5 15 380 502 369 660 623 589 552 542 505 508 472 483 447 463 428 447 412 435 400 424 389 415 380 408 373 401 366 395 361 390 356 386 351 382 348 378 344 375 341 372 338 369 335 367 333 365 331 363 329 361 327 359 325 346 313 334 301 323 289 312 279 599 529 482 448 424 404 389 377 366 358 350 344 338 333 329 325 322 318 315 313 310 308 306 304 303 290 279 267 257 582 570 512 499 465 453 432 420 407 395 388 376 373 361 360 348 350 338 341 329 334 322 328 316 322 310 317 305 313 301 309 297 305 293 302 290 299 287 297 285 294 282 292 280 290 278 288 276 287 275 274 262 263 251 252 239 241 229 560 490 443 410 385 366 351 339 329 320 312 306 301 296 291 287 284 281 278 275 273 271 269 267 265 253 241 230 219 552 482 436 403 378 359 344 331 321 312 305 298 293 288 284 280 276 273 270 268 265 263 261 259 257 245 2 33 222 2 11 continua 3 31 Introdução à Bioestatística Continuação da Tabela 3 N de g 1 do Número de graus de liberdade do numerador denominador 10 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 969 977 985 993 394 394 394 394 144 143 143 142 884 875 866 856 662 652 643 633 546 537 527 5 17 476 467 457 447 430 420 410 400 396 387 377 367 372 362 352 342 353 343 333 323 337 328 3 18 307 325 315 305 295 3 15 305 295 284 306 296 286 276 299 289 279 268 292 282 272 262 287 277 267 256 282 272 262 251 277 268 257 246 273 264 253 242 270 260 250 239 267 257 247 236 264 254 244 233 261 251 241 230 259 249 239 228 257 247 236 225 255 245 234 223 253 243 232 221 251 241 231 220 239 229 2 18 207 227 217 206 194 216 205 194 182 205 194 183 171 Fonte SCHEFFÉ 1959 997 1000 101 o 1010 1010 1020 395 395 395 395 395 395 141 14 1 140 140 139 139 851 846 841 836 831 826 628 623 618 612 607 602 512 507 501 496 490 485 442 436 431 425 420 414 395 389 384 378 373 367 361 356 351 345 339 333 337 331 326 320 3 14 308 317 312 306 300 294 288 302 296 291 285 279 272 289 284 278 272 266 260 279 273 267 261 255 249 270 264 259 252 246 240 263 257 251 245 238 232 256 250 244 238 232 225 250 244 238 232 226 2 19 245 239 233 227 220 2 13 241 235 229 222 2 16 209 237 231 225 218 211 204 233 227 221 2 14 208 200 230 224 218 211 204 197 227 221 2 15 208 201 194 224 218 212 205 198 191 222 216 209 203 195 188 219 213 207 200 193 185 217 211 205 198 191 183 215 209 203 196 189 181 214 207 201 194 187 179 201 194 188 180 172 164 188 182 174 167 158 148 176 169 161 153 143 131 164 157 148 139 127 100 Tabelas 331 TABELA4 Valores de F para cx 5o segundo o número de graus de liberdade do numerador e do denominador ft de g 1 do denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 00 Número de graus de liberdade do numerador 1 2 3 4 5 6 7 8 161 200 185 190 101 955 771 694 661 579 599 514 559 474 532 446 512 426 496 410 484 398 475 389 467 381 460 374 454 368 449 363 445 359 441 355 438 352 435 349 432 347 430 344 428 342 426 340 424 339 423 337 421 335 420 334 418 333 417 332 408 323 400 315 392 307 384 300 216 225 192 192 928 912 659 639 541 519 476 453 435 412 407 384 386 363 371 348 359 336 349 326 341 318 334 311 329 306 324 301 320 296 316 293 313 290 310 287 307 284 305 282 303 280 301 278 299 276 298 274 296 273 295 271 293 270 292 269 284 261 276 253 268 245 260 237 230 193 901 626 505 439 397 369 348 333 320 311 303 296 290 285 281 277 274 271 268 266 264 262 260 259 257 256 255 253 245 237 229 221 234 237 239 193 194 194 894 889 885 6 16 609 604 495 488 482 428 421 4 15 387 379 373 358 350 344 337 329 323 322 314 307 309 301 295 300 291 285 292 283 277 285 276 270 279 271 264 274 266 259 270 261 255 266 258 251 263 254 248 260 251 245 257 249 242 255 246 240 253 244 237 251 242 236 249 240 234 247 239 232 246 237 231 245 236 229 243 235 228 242 233 227 234 225 2 18 225 217 210 2 17 209 202 2 1 o 201 194 9 241 194 881 600 477 410 368 339 318 302 290 280 271 265 259 254 249 246 242 239 237 234 232 230 228 227 225 224 222 221 212 204 196 188 continua 3 3 2 Introdução à Bioestatística Continuação da Tabela 4 fV9 de g 1 do Número de graus de liberdade do numerador denominador 10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 242 244 246 248 194 194 194 194 879 87 4 870 866 596 591 586 580 474 468 462 456 406 400 394 387 364 357 351 344 335 328 322 3 15 314 307 301 294 298 291 285 277 285 279 272 265 275 269 262 254 267 260 253 246 260 253 246 239 254 248 240 233 249 242 235 228 245 238 231 223 241 234 227 219 238 231 223 2 16 235 228 220 2 12 232 225 218 210 230 223 2 15 207 227 220 2 13 205 225 218 2 11 203 224 216 209 201 222 215 207 199 220 2 13 206 197 219 212 204 196 218 210 203 194 2 16 209 201 193 208 200 192 184 199 192 184 175 191 183 175 166 183 175 167 157 Fonte SCHEFFÉ 1959 249 250 251 252 253 254 195 195 195 195 195 195 864 862 859 857 855 853 577 575 572 569 566 563 453 450 446 443 440 436 384 381 377 374 370 367 341 338 334 330 327 323 312 308 304 301 297 293 290 286 283 279 275 271 274 270 266 262 258 254 261 257 253 249 245 240 251 247 243 238 234 230 242 238 234 230 225 221 235 231 227 222 218 213 229 225 220 216 211 207 224 219 215 211 206 201 219 215 2 10 206 201 196 215 211 206 202 197 192 211 207 203 198 193 188 208 204 199 195 190 184 205 201 196 192 187 181 203 198 194 189 184 178 201 196 191 186 181 176 198 194 189 184 179 173 196 192 187 182 177 171 195 190 185 180 175 169 193 188 184 179 173 167 191 187 182 177 171 165 190 185 181 175 170 164 189 184 179 174 168 162 179 174 169 164 158 151 170 165 159 153 147 139 161 155 150 143 135 125 152 146 139 132 122 100 Tabelas 333 TABELA 5 Valores de F para cx 10 segundo o número de graus de liberdade do numerador e do denominador ri de g 1 do denominador 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 00 Número de graus de liberdade do numerador 1 2 3 4 5 6 7 8 399 495 536 558 853 900 916 924 554 546 539 534 454 432 419 411 406 378 362 352 378 346 329 318 359 326 307 296 346 311 292 281 336 301 281 269 329 292 273 261 323 286 266 254 318 281 261 248 314 276 256 243 310 273 252 239 307 270 249 236 305 267 246 233 303 264 244 231 301 262 242 229 299 261 240 227 297 259 238 225 296 257 236 223 295 256 235 222 294 255 234 221 293 254 233 219 292 253 232 218 291 252 231 217 290 251 230 217 289 250 229 216 289 250 228 21 5 288 249 228 214 284 244 223 209 279 239 218 204 275 235 213 199 271 230 208 194 572 929 531 405 345 311 288 273 261 252 245 239 235 231 227 224 222 220 218 216 214 213 211 210 209 208 207 206 206 205 200 195 190 185 582 589 933 935 528 527 401 398 340 337 305 301 283 278 267 262 255 251 246 241 239 234 233 228 228 223 224 219 221 216 218 213 215 210 213 208 211 206 209 204 208 202 206 201 205 199 204 198 202 197 201 196 200 195 200 194 199 193 198 193 193 187 187 182 182 177 177 172 594 937 525 395 334 298 275 259 247 238 230 224 220 2 15 2 12 209 206 204 202 200 198 197 195 194 193 192 191 190 189 188 183 177 172 167 9 599 938 524 394 332 296 272 256 244 235 227 221 216 212 209 206 203 200 198 196 195 193 192 191 189 188 187 187 186 185 179 174 168 163 continua 3 3 4 Introdução à Bioestatística Continuação da Tabela 5 fl de g 1 do Número de graus de liberdade do numerador denominador 10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 00 120 602 607 612 617 939 941 942 944 523 522 520 5 18 392 390 387 384 330 327 324 321 294 290 287 284 270 267 263 259 254 250 246 242 242 238 234 230 232 228 224 220 225 221 217 212 219 215 210 206 2 14 2 10 205 201 2 1 o 205 201 196 206 202 197 192 203 199 194 189 200 196 191 186 198 193 189 184 196 191 186 181 194 189 184 179 192 188 183 178 190 186 181 176 189 184 180 174 188 183 178 173 187 182 177 172 186 181 176 171 185 180 175 170 184 179 174 169 183 178 173 168 182 177 172 167 176 171 166 161 171 166 160 154 165 160 155 148 160 155 149 142 Fonte SCHEFFÉ 1959 620 623 625 628 63 1 633 945 946 947 947 948 949 518 517 516 515 514 513 383 382 380 379 378 376 319 317 316 314 312 310 282 280 278 276 27 4 272 258 256 254 251 249 247 240 238 236 234 232 229 228 225 223 221 218 216 218 216 213 2 11 208 206 2 10 208 205 203 200 197 204 201 199 196 193 190 198 196 193 190 188 185 194 191 189 186 183 180 190 187 185 182 179 176 187 184 181 178 175 172 184 181 178 175 172 169 181 178 175 172 169 166 179 176 173 170 167 163 177 174 171 168 164 161 175 172 169 166 162 159 173 170 167 164 160 157 172 169 166 162 159 155 170 167 164 161 157 153 169 166 163 159 156 152 168 165 161 158 154 150 167 164 160 157 153 149 166 163 159 156 152 148 165 162 158 155 151 147 164 161 157 154 150 146 157 154 151 147 142 138 151 148 144 140 135 129 145 141 137 132 126 119 138 134 130 124 117 100 Tabelas 335 TABELA 6 Valores de t segundo os graus de liberdade e o valor de a X Graus de liberdade 10o 56 1o 1 631 1271 6366 2 292 430 992 3 235 318 584 4 213 278 460 5 202 257 403 6 194 245 371 7 190 236 350 8 186 231 336 9 183 226 325 10 181 223 317 11 180 220 311 12 178 218 306 13 177 216 301 14 176 214 298 15 175 213 295 16 175 212 292 17 174 211 290 18 173 210 288 19 173 209 286 20 173 209 284 21 172 208 283 22 172 207 282 23 171 207 281 24 171 206 280 25 171 206 279 26 171 206 278 27 170 205 277 28 170 205 276 29 170 204 276 30 170 204 275 40 168 202 270 60 167 200 266 120 166 198 262 00 164 196 258 TABELA 7 Valores da amplitude total estudentizada q para a 5o segundo o número de tratamento k os graus de liberdade do resíduo fl1 de graus 5 de lib do Número de tratamentos k S o resíduo 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ê O Cllt o 1 80 270 328 371 404 431 454 474 491 ffi6 520 532 543 554 563 572 580 588 596 ai OJ 2 608 833 980 109 117 124 130 135 140 144 147 151 154 157 159 161 164 166 168 õ CD 3 450 591 682 750 804 848 885 918 946 972 995 102 103 105 107 108 110 11 1 112 6i 4 393 504 576 629 671 705 735 760 783 803 821 837 852 866 879 891 903 913 923 52 Q 5 364 460 522 567 603 633 658 680 699 7 17 732 747 760 772 783 793 803 812 821 6 346 434 490 530 563 590 612 632 649 665 679 692 703 714 724 734 743 751 759 7 334 416 468 506 536 561 582 600 616 630 643 655 666 676 685 694 702 710 717 8 326 404 453 489 517 540 560 577 592 605 618 629 639 648 657 665 673 680 687 9 320 395 441 476 502 524 543 559 574 587 598 609 619 628 636 644 651 658 664 10 315 388 433 465 491 512 530 546 560 572 583 593 603 6 11 619 627 634 640 647 11 311 382 426 457 482 503 520 535 549 561 571 581 590 598 606 613 620 627 633 12 308 377 420 451 475 495 512 527 539 551 561 571 580 588 595 602 609 615 621 13 306 373 415 445 469 488 505 519 532 543 553 563 571 579 586 593 599 605 611 14 303 370 411 441 464 483 499 513 525 536 546 555 564 571 579 585 591 597 603 TABELA 7 cont Valores da amplitude total estudentizada q para a 5o segundo o número de tratamento k os graus de liberdade do resíduo ft de graus de lib do resíduo 15 16 17 18 19 20 24 30 40 60 120 00 Número de tratamentos k 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2JJ 301 367 408 437 459 478 494 508 520 531 540 549 557 565 572 578 585 590 596 300 365 405 433 456 474 490 503 515 526 535 544 552 559 566 573 579 584 590 298 363 402 430 452 470 486 499 511 521 531 539 547 554 561 567 573 579 584 297 361 400 428 449 467 482 496 507 517 527 535 543 550 557 563 569 574 579 296 359 398 425 447 465 479 492 504 514 523 531 539 546 553 559 565 570 575 295 358 396 423 445 462 477 490 501 511 520 528 536 543 549 555 561 566 571 292 353 390 417 437 454 468 481 492 501 510 518 525 532 538 544 549 555 559 289 349 286 344 283 340 280 336 277 331 385 410 430 446 460 472 482 492 500 508 515 521 379 404 423 439 452 463 473 482 490 498 504 511 374 398 416 431 444 455 465 473 481 488 494 500 368 392 410 424 436 447 456 464 471 478 484 490 363 386 403 417 429 439 447 455 462 468 474 480 527 533 538 543 547 5 16 522 527 531 536 506 511 515 520 524 495 500 504 509 513 485 489 493 497 501 Fonte SCHEFFt 1959 Qjl it CD êii TABELA 8 Valores da amplitude total estudentizada q para a 10o segundo o número de tratamento k e os graus de liberdade do resíduo N9 de graus 5 de lib do Número de tratamentos k S o resíduo 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 aJ ê O Cllt o 1 893 134 164 185 202 215 226 236 245 252 259 265 271 276 281 285 290 293 297 ai OJ 2 413 573 677 754 814 863 905 941 972 100 103 105 107 109 111 112 114 115 117 õ CD 3 333 447 520 574 616 651 681 706 729 749 767 783 798 812 825 837 848 858 868 6i 4 301 398 459 503 539 568 593 614 633 649 665 678 691 702 713 723 733 741 750 52 Q 5 285 372 426 466 498 524 546 565 582 597 610 622 634 644 654 663 671 679 686 6 275 356 407 444 473 497 517 534 550 564 576 587 598 607 616 625 632 640 647 7 268 345 393 428 455 478 497 514 528 541 553 564 574 583 591 599 606 613 619 8 263 337 383 417 443 465 483 499 513 525 536 546 556 564 572 580 587 593 600 9 259 332 376 408 434 454 472 487 501 513 523 533 542 551 558 566 572 579 585 10 256 327 370 402 426 447 464 478 491 503 513 523 532 540 547 554 561 567 573 11 254 323 366 396 420 440 457 471 484 495 505 515 523 531 538 545 551 557 563 12 252 320 362 392 416 435 451 465 478 489 499 508 516 524 531 537 544 549 555 13 250 318 359 388 412 430 446 460 472 483 493 502 510 518 525 531 537 543 548 14 249 316 356 385 408 427 442 456 468 479 488 497 505 512 519 526 532 537 543 TABELA 8 cont Valores da amplitude total estudentizada q para a 10o segundo o número de tratamento k e os graus de liberdade do resíduo fl1 de graus de lib do Número de tratamentos k resíduo 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 aJ 15 248 314 354 383 405 423 439 452 464 475 484 493 501 508 515 521 527 532 538 16 247 312 352 380 403 421 436 449 461 471 481 489 497 504 511 517 523 528 533 17 246 3 11 350 378 400 418 433 446 458 468 477 486 493 501 507 513 519 524 530 18 245 310 349 377 398 416 431 444 455 465 475 483 490 498 504 510 516 521 526 19 245 309 347 375 397 414 429 442 453 463 472 480 488 495 501 507 513 518 523 20 244 308 346 374 395 412 427 440 451 461 470 478 485 492 499 505 510 516 520 24 242 305 342 369 390 407 421 434 444 454 463 471 478 485 491 497 502 507 5 12 30 240 302 339 365 385 402 416 428 438 447 456 464 471 477 483 489 494 499 503 40 238 299 335 360 380 396 410 421 432 441 449 456 463 469 475 481 486 490 495 60 236 296 331 356 375 391 404 416 425 434 442 449 456 462 467 473 478 482 486 120 234 293 328 352 371 386 399 410 419 428 435 442 448 454 460 465 469 474 478 00 233 290 324 348 366 381 393 404 413 421 428 435 441 447 452 457 461 465 469 Fonte SCHEFFt 1959 Qjl it CD êii página deixada intencionalmente em branco Sugestões para leitura ALIAGA M e GUNDERSON B Interactive Statistics New Jersey Prentice Hall 2 ed 2003 ARMITAGE P Statistical methods in medical research Oxford Blackwel Scientific Publications 1971 BLAND M An introduction to medical statistics Oxford Oxford Medical Publications 1987 BROWN BW e HOLLANDER M Statistics a biomedical introduction New York Wiley 1977 BISHOP VMM et alii Discrete multivariate analysis theory and practice Cambridge MIT Press 1977 BUSSAB We MORETIIN P A Estatística Básica São Paulo Saraiva 2002 COCHRAN W Sampling techniques New York Wiley 1977 CHOW S C e LIU JL Design and analysis of clinical trials New York Wiley 2004 DANIEL C Applications of Statistics New York Wiley 1976 DANIEL W W Biostatistics a foundation for analysis in the health sciences New York Wiley 1987 DAWSON B TRAPP RG Bioestatística básica e clínica Rio de Janeiro McGraw 3 ed 1994 DEAN A VOSS D Design and analysis of experiments New York Springer 1999 ELSTON RC e JOHNSON WD Essentials of biostatistics Philadelphia FA Davis Company 1987 FREUND J E E SMITH R M Statistics a first course Englewood Cliffs Prentice Hall 4 ed 1986 GLANTZ SA Primer of biostatístics New York McGraw 1987 JOHNSON R E TSUI K W Statistical reasoning and methodsNova York Wiley 1998 LOHR S L Sampling Design and analysis Pacific Grave Brooks1999 MATTHEWS DE e FAREWELL V Using and understanding medical statistics New York Karger 1985 MINIUM E W CLARKE R C COLADARCI T Elements of Statistical Reasoning New York Wiley 2 ed1999 MOTULSKY H Intuitive Biostatistics New York Oxford Press 1995 OTT L e Mendenhall W Understanding Statistics Belmont Wadsworth 6 ed1994 342 Introdução à Bioestatfstica SCHORK M A e REMINGTON R D Statistics with applications to the biological and health sciences New Jersey Frentice Hall 3 ed 2000 VIEIRA S Elementos de Estatística São Paulo Atlas 5 ed 2003 VIEIRA S Bioestatística Tópicos Avançados Rio de Janeiro Campus Elsevier 2 ed5ª tiragem2008 VIEIRA S E HOSSNE W S Metodologia cientifica para a área de saúde São Paulo Rio de Janeiro CampusElsevier VIEIRA S Análise de variância São Paulo Atlas2006 VIEIRA S e HOSSNE W S Experimentação com seres humanos São Paulo Moderna 3 ed 1988 ZAR J H Biostatistical analysis New Jersey Frentice Hall 4ed 1999 A Amostra 4 aleatória estratificada 6 aleatória ou probabilística 5 9 nãoprobabilística ou de conveniência 9 nãorepresentativa 13 por conglomerados 7 9 por quotas 8 9 razões de trabalhar com 45 representativa 13 semiprobabilística 6 sistemática 7 9 tendenciosa 13 Amplitude 34 87 Apresentação de dados numéricos 31 56 Apresentação de dados qualitativos 28 49 Apuração de dados 24 Áreas sob a curva normal 210 Associação positiva 259 e Cabeçalho tabela 26 Cálculo de probabilidade 164 Cálculo de probabilidade condicional 171 Cálculo de probabilidades na distribuição binomial 194 Cálculo do intervalo de confiança para uma média 236 Cálculo do intervalo de confiança para uma proporção 230 231 Cálculo do número de classes 3 7 Cálculo dos coeficientes de regressão 139 Caracterização da distribuição binomial 192 Caudas da distribuição 213 Classe modal 76 Coeficiente angular da reta 137 Coeficiente de correlação 115 Coeficiente de correlação de Pearson 115 Coeficiente de determinação 143 144 145 Coeficiente de variação 98 Coeficiente de Yule 259 Coeficientes de associação 259 Coeficientes de regressão cálculo dos 139 Coluna indicadora tabela 26 Colunas tabela 26 Comparação de variâncias 281 Componentes das tabelas 26 Condição de independência 167 Corpo tabela 26 lndice Correlação 185 de Pearson coeficiente de 115 forte 111 112 fraca 111 112 negativa 109 nula 113 perfeita 111 112 positiva 109 Cuidados na interpretação dos intervalos de confiança 237 D Dados 23 Dados contínuos 33 Dados discrepantes 7 4 Dados discretos 32 Dados numéricos apresentação de 31 56 Dados qualitativos apresentação de 28 Dados apuração de 24 Desvio padrão 95 209 211 212 Desvio padrão da amostra 93 Diagrama de caixa Box plot 91 Diagrama de dispersão 109 149 Diagrama de linhas 56 Dispersão 87 Dispersão relativa 98 Distãncia interquartílica 90 Distribuição binomial 189 193 194 cálculo de probabilidades na 194 caracterização da 192 média na 194 variãncia na 194 Distribuição de freqüências 189 Distribuição de Gauss 208 Distribuição de probabilidades 187 188 Distribuição normal 208 209 padronizada 213 reduzida 213 usos da 219 Distribuição teórica 208 Distribuições empíricas 207 E Ensaio com dados pareados 272 Equação da reta 13 7 Erro 249 Erro padrão da média 233 236 239 Erro tipo 1 249 Erros definindo os 249 344 lnd1ce Escolha da variâvel explanatória 142 Espaço amostral 163 Estatística definição 3 1 O Estimativas de probabilidade 209 freqüência relativa como 164 165 Evento 163 Evento certo 164 Evento impossivel 164 Eventos dependentes 175 Eventos independentes 166 168 174 175 diferença de eventos mutuamente exclusivos 170 Eventos mutuamente exclusivos 166 diferença de eventos independentes 170 Extrapolação 140 Extremos de classe 35 F Fonte e notas tabela 27 Freqüência esperada 253 Freqüência relativa 29 30 como estimativa de probabilidade 164 165 G Gráfico de barras 49 com 3 D 52 com grades 51 com percentuais nas barras 51 horizontais 52 Gráfico de linhas 133 Gráfico de pontos 57 Gráfico de setores 54 em 3D 55 Grau de associação 259 Grau de correlação linear 115 Graus de liberdade 95 238 H Hipótese alternativa 248 Hipótese da nulidade 248 Hipóteses 247 Histograma 5 7 58 Inferência 248 Inferência estatistica 249 Interpretando o pvalor 250 Intervalo de classe 34 Intervalo de confiança l cuidados na interpretação dos 237 para uma média 233 para urna proporção 230 Levantamento de dados 3 limites dos intervalos de classe 35 Linhas tabela 26 M Margem de erro 12 229 232 Máximo 87 Média 185 209 211 212 229 Média aritmética 68 Média da amostra 68 Média da população 239 Média dos quadrados dos desvios 95 Média na distribuição binomial 194 Mediana da amostra 74 Medida da associação 259 Medida de variabilidade 87 Medidas de tendência central 67 Mínimo 87 Moda da amostra 75 N Nível de confiança 12 Nível de significância 256 Nível de significância do teste 253 Notação de somatório 68 Número de classes 3 7 p Parâmetros definição 10 Polígono de freqüências 58 População 4 População infinita 209 Precisão 236 Probabilidade associada à distribuição normal 213 cálculo de 164 condicional 170 171 172 definição clássica de 163 distribuição de 187 188 na distribuição normal reduzida 215 216 na distribuição normal 216 217 Proporção freqüência relativa 29 pvalor 250 Q Qualidade de uma estimativa 11 Quartil 89 R Regra do e 167 174 Regra do ou 166 173 Regressão linear simples 151 múltipla 151 nãolinear 147 Relação nãolinear entre duas variâveis 114 Relações determinísticas 144 Relações entre variáveis 109 Relações probabilísticas 144 Representatividade 13 Reta de regressão 135 traçado da 140 s Soma de quadrados dos desvios 94 Somatório notação de 68 T Tabela de distribuição de freqüências 28 Tabela de distribuição de t 238 Tabela de distribuição normal reduzida 214 Tabelas 2 X 2 256 Tabelas de contingência 30 Tabelas de distribuição de freqüências 32 33 Tabelas componentes das 26 Tamanho da amostra 11 Tendência 13 Tendência central medidas de 67 Teorema da soma 173 Teorema do produto 174 Teoria das probabilidades 164 Teste de X2 para independência 256 258 Teste de aderência 252 Teste de hipóteses 247 Teste F 281 283 Teste t na comparação de dois grupos independentes 279 Índice 345 para dados pareados 272 para o coeficiente de correlação 285 Testes bilaterais 276 Testes unilaterais 276 Título tabela 26 Traçado da reta de regressão 140 Traços horizontais tabela 27 Traços verticais tabela 27 Transformação logarítmica 150 V Valor máximo 34 Valor mínimo 34 Variabilidade 87 185 236 Variãncia 93 94 da média 234 na distribuição binomial 194 desiguais 281 Variável categorizada 23 contínua 24 dependente 133 discreta 24 explanatória 133 nominal 24 numérica 23 ordinal 24 qualitativa 23 quantitativa 23 Variável aleatória 185