• Home
  • Chat IA
  • Guru IA
  • Tutores
  • Central de ajuda
Home
Chat IA
Guru IA
Tutores

·

Biologia ·

Bioestatística

Envie sua pergunta para a IA e receba a resposta na hora

Recomendado para você

Exercícios Resolvidos de Bioestatística I - Probabilidade e Distribuições

10

Exercícios Resolvidos de Bioestatística I - Probabilidade e Distribuições

Bioestatística

UFRA

Avaliacao Bioestatistica II - Teste Qui-Quadrado e Correlacao - Ecologia e Acidentes Ofidicos

3

Avaliacao Bioestatistica II - Teste Qui-Quadrado e Correlacao - Ecologia e Acidentes Ofidicos

Bioestatística

UFRA

Tutorial Teste T Teste Z Correlacao Regressao e Qui-Quadrado - Guia Completo com Exemplos

9

Tutorial Teste T Teste Z Correlacao Regressao e Qui-Quadrado - Guia Completo com Exemplos

Bioestatística

UFRA

Exercicios Resolvidos Probabilidade Estatistica - Lista Completa

9

Exercicios Resolvidos Probabilidade Estatistica - Lista Completa

Bioestatística

UFRA

Dados de Germinação e Crescimento Feijão Preto e Carioca - Experimento

2

Dados de Germinação e Crescimento Feijão Preto e Carioca - Experimento

Bioestatística

UFRA

Trabalho de Estatística - Análise de Germinação e Crescimento de Sementes

6

Trabalho de Estatística - Análise de Germinação e Crescimento de Sementes

Bioestatística

UFRA

Exercícios Testes T-2022 2

13

Exercícios Testes T-2022 2

Bioestatística

UFPE

Texto de pré-visualização

Introdução à Bioestatística 5ª Edição Introdução à Bioestatística 5ª EDIÇÃO Sonia Vieira Doutora em Estatística pela USP Livredocente em Bioestatística pela Unicamp Professora do Curso de Mestrado e Doutorado de Bioética no Centro Universitário São Camilo SP Coordenadora do Comitê de Ética em Pesquisa no Centro de Pesquisas Odontológicas São Leopoldo Mandic SP Sumário Capa Folha de rosto Copyright Prefácio Apresentação Capítulo 1 Apresentação de Dados em Tabelas 11 Dados e variáveis 12 Apuração de dados 13 Normas para a construção de tabelas 14 Exercícios resolvidos 15 Exercícios propostos Capítulo 2 Apresentação de Dados em Gráficos 21 Apresentação de dados qualitativos 22 Apresentação de dados quantitativos 23 Exercícios resolvidos 24 Exercícios propostos Capítulo 3 Medidas de Tendência Central 31 Símbolos matemáticos 32 Média aritmética 33 Mediana 34 Moda 35 Exercícios resolvidos 36 Exercícios propostos Capítulo 4 Medidas de Dispersão para uma Amostra 41 Mínimo máximo e amplitude 42 Quartil 43 Desvio padrão 44 Coeficiente de variação 45 Exercícios resolvidos 46 Exercícios propostos Capítulo 5 Noções sobre Correlação 51 Diagrama de dispersão 52 Cálculo do coeficiente de correlação 53 Cuidados na interpretação do coeficiente de correlação 54 Gráfico de linhas 55 Exercícios resolvidos 56 Exercícios propostos Capítulo 6 Noções sobre Regressão 61 Regressão linear simples 62 Extrapolação 63 Escolha da variável explanatória 64 Coeficiente de determinação 65 Regressão não linear 66 Exercícios resolvidos 67 Exercícios propostos Capítulo 7 Noções sobre Amostragem 71 População e amostra 72 Parâmetros e estatísticas 73 Razões para o uso de amostras 74 Métodos de amostragem 75 Noções sobre o tamanho das amostras 76 A questão da representatividade 77 Exercícios resolvidos 78 Exercícios propostos Capítulo 8 Distribuição Normal 81 Variável aleatória 82 Distribuição normal características 83 Soma de variáveis aleatórias independentes 84 Probabilidades associadas à distribuição normal 85 Distribuição normal reduzida ou padronizada 86 Cálculo das probabilidades sob a distribuição normal 87 Usos da distribuição normal 88 Exercícios resolvidos 89 Exercícios propostos Capítulo 9 Intervalo de Confiança 91 Erro padrão da média 92 Distribuição das médias das amostras 93 Cálculo do intervalo de confiança para uma média 94 Outras maneiras de estabelecer intervalos 95 Cuidados na interpretação dos intervalos de confiança 96 Exercícios resolvidos 97 Exercícios propostos Capítulo 10 Teste t para uma Amostra 101 Tomada de decisão em condições de incerteza 102 Teste estatístico 103 Exercícios resolvidos 104 Exercícios propostos Capítulo 11 Teste t para a Comparação de Médias 111 Teste t nos estudos com dados pareados 112 Teste t na comparação de grupos independentes 113 Exercícios resolvidos 114 Exercícios propostos Capítulo 12 Teste χ2 para Variáveis Qualitativas 121 Teste χ2 para a associação de duas variáveis 122 Teste χ2 para comparar dois grupos em ensaios clínicos 123 Teste χ2 nos estudos prospectivos e retrospectivos 124 Risco relativo e razão de chances 125 Teste de uma proporção 126 Exercícios resolvidos 127 Exercícios propostos Apêndices Apêndice Capítulo 13 Probabilidades Apêndice Capítulo 14 Distribuição Binomial Anexos Anexos Capítulo 15 Tabelas Respostas aos Exercícios Propostos Sugestões para leitura Índice remissivo Copyright 2016 Elsevier Editora Ltda Todos os direitos reservados e protegidos pela Lei 9610 de 19021998 Nenhuma parte deste livro sem autorização prévia por escrito da editora poderá ser reproduzida ou transmitida sejam quais forem os meios empregados eletrônicos mecânicos fotográficos gravação ou quaisquer outros ISBN 9788535277166 ISBN versão eletrônica 9788535283990 Capa Olga Loureiro Editoração Eletrônica Thomson Digital Elsevier Editora Ltda Conhecimento sem Fronteiras Rua Sete de Setembro n 111 16 andar 20050006 Centro Rio de Janeiro RJ Rua Quintana n 753 8 andar 04569011 Brooklin São Paulo SP Serviço de Atendimento ao Cliente 0800 026 53 40 atendimento1elseviercom Consulte nosso catálogo completo os últimos lançamentos e os serviços exclusivos no site wwwelseviercombr Nota Como as novas pesquisas e a experiência ampliam o nosso conhecimento pode haver necessidade de alteração dos métodos de pesquisa das práticas profissionais ou do tratamento médico Tanto médicos quanto pesquisadores devem sempre basearse em sua própria experiência e conhecimento para avaliar e empregar quaisquer informações métodos substâncias ou experimentos descritos neste texto Ao utilizar qualquer informação ou método devem ser criteriosos com relação a sua própria segurança ou a segurança de outras pessoas incluindo aquelas sobre as quais tenham responsabilidade profissional Com relação a qualquer fármaco ou produto farmacêutico especificado aconselhase o leitor a cercarse da mais atual informação fornecida i a respeito dos procedimentos descritos ou ii pelo fabricante de cada produto a ser administrado de modo a certificarse sobre a dose recomendada ou a fórmula o método e a duração da administração e as contraindicações É responsabilidade do médico com base em sua experiência pessoal e no conhecimento de seus pacientes determinar as posologias e o melhor tratamento para cada paciente individualmente e adotar todas as precauções de segurança apropriadas Para todos os efeitos legais nem a Editora nem autores nem editores nem tradutores nem revisores ou colaboradores assumem qualquer responsabilidade por qualquer efeito danoso eou malefício a pessoas ou propriedades envolvendo responsabilidade negligência etc de produtos ou advindos de qualquer uso ou emprego de quaisquer métodos produtos instruções ou ideias contidos no material aqui publicado O Editor CIPBRASIL CATALOGAÇÃO NA PUBLICAÇÃO SINDICATO NACIONAL DOS EDITORES DE LIVROS RJ V713i 5 ed Vieira Sonia Introdução à bioestatística Sonia Vieira 5 ed Rio de Janeiro Elsevier 2016 il 23 cm Apêndice Inclui índice remissivo Inclui anexo ISBN 9788535277166 1 Bioestatística I Título 1525725 CDD 57015195 CDU 570871 Prefácio Profissionais das ciências da saúde pesquisadores ou não precisam saber Bioestatística Pesquisadores porque a Bioestatística é um dos fundamentos do trabalho científico e da pesquisa e não pesquisadores porque sem ela não conseguem avaliar de forma crítica o que lhes é oferecido nas publicações e nos textos A Bioestatística não só nos leva a aceitar ou rejeitar respostas a perguntas e dúvidas formuladas em nossa atividade investigativa e profissional como também e sobretudo nos faz aprender como formular adequadamente as perguntas sem o que não se chega à devida resposta Sonia Vieira nome consagrado e respeitado na área consegue nesta nova edição de Introdução à Bioestatística assim como nos demais livros de sua autoria cativar o leitor já nas primeiras frases levandoo a caminhar com satisfação na busca do conhecimento mesmo em uma área à qual se atribui sem razão aliás certa aridez O estilo leve mas profundo sóbrio e preciso elegante e instigante da autora vai fazendo o leitor engajarse e entusiasmarse pela Bioestatística Professor ou aluno iniciante ou veterano pesquisador ou não profissional da saúde e de campos afins encontram neste livro condições para mais bem ensinar e para mais bem aprender Isso será feito com satisfação e com o sentimento de estar adquirindo mais saber e mais sabedoria William Saad Hossne Professor Emérito da Faculdade de Medicina de Botucatu Unesp Coordenador do Programa de Pósgraduação Bioética do Centro Universitário São Camilo Fundador e Expresidente da Sociedade Brasileira de Bioética Exdiretor Científico da FAPESP 19641968 e 19751979 Exreitor da Universidade Federal de São Carlos Apresentação O interesse de profissionais e alunos das áreas de saúde em Bioestatística se explica pelo uso significativo das técnicas estatísticas em pesquisa científica Mas Bioestatística é uma ciência complexa que não se aprende com uma simples busca de alguns poucos termos na Internet Então é difícil aprender Estatística Sim e não Aprender a fazer cálculos estatísticos usando programas de computador não é difícil embora exija tempo interesse e atenção Mas a leitura a condução e a avaliação de uma pesquisa dependem em boa parte do conhecimento do pesquisador sobre as potencialidades e as limitações das técnicas estatísticas utilizadas E entre o cálculo e a interpretação do resultado há um caminho a percorrer Este livro foi escrito e reescrito muitas vezes na tentativa de facilitar a aprendizagem Os conceitos são transmitidos mais pela intuição do que pela demonstração sempre enfatizando as indicações e as restrições das técnicas estatísticas Os exemplos na área da saúde em grande quantidade podem ser acompanhados passo a passo com pouco trabalho de cálculo feito manualmente ou com o auxílio de calculadoras É verdade que o uso dos computadores já se generalizou mas quem se inicia no estudo da Estatística deve ver a fórmula para assim entender o conceito Não há como ter completa segurança na discussão de uma média aritmética por exemplo sem nunca ter usado papel e lápis para fazer o cálculo A leitura do texto não demanda conhecimentos de Matemática além daqueles que são exigidos em exames vestibulares De qualquer modo as seções que envolvem maior gosto e aptidão para a Matemática foram assinaladas com asterisco Tais seções podem ser evitadas sem prejuízo do entendimento das subsequentes Assim sem despender muito tempo com cálculos e demonstrações o estudante adquire neste livro conhecimentos suficientes para se tornar usuário competente das técnicas estatísticas mais comuns Uma consequência importante de se aprender Estatística mais importante do que possa parecer à primeira vista é a familiarização com o jargão próprio da área Alguns termos do vocabulário comum têm significado técnico e específico quando usados em Estatística É claro que o conhecimento do significado comum ajuda mas pode conduzir a uma interpretação equivocada quando substitui o significado técnico A quinta edição de Introdução à Bioestatística só foi possível porque o livro encontrou aceitação no meio acadêmico Agradecemos pois a todos aqueles que prestigiaram nosso trabalho mas principalmente aos alunos que nos ensinaram a ensinar Importante também é o fato de este livro ter contado com a competente e altamente especializada revisão de Martha Maria Mischan e William Saad Hossne Ronaldo Wada fez alguns dos vários gráficos e Márcio Vieira Hoffmann fez uma leitura crítica dos originais Também agradecemos à Editora Elsevier pela confiança em nosso trabalho A autora CAPÍTULO 1 Apresentação de Dados em Tabelas Grande parte das pessoas que conhecemos já ouviu falar de prévias eleitorais de censos ou de pesquisas de opinião A maioria das pessoas que conhecemos já respondeu a perguntas sobre a qualidade dos serviços de um bar ou de uma lanchonete já assistiu no rádio ou na televisão a programas em que pedem para o ouvinte ou telespectador votar em um cantor ou em uma música ou já opinou sobre determinado assunto por telefone ou por email O uso tão difundido de levantamento de dados que no Brasil chamamos popularmente de pesquisa faz pensar que esse trabalho é fácil Por conta disso ao ler um relatório de pesquisa no jornal da cidade muita gente se considera capaz de fazer o mesmo ou até melhor pois entende que para levantar dados basta fazer perguntas e depois contar as respostas Mas não é bem assim Um bom levantamento de dados exige conhecimentos de Estatística Estatística é a ciência que fornece os princípios e os métodos para coleta organização resumo análise e interpretação de informações Os estatísticos trabalham com informações Na área de saúde interessam informações sobre eficiência de medicamentos causas de morte prevalência de doenças etc Neste capítulo vamos aprender como essas informações são organizadas para facilitar a leitura e o entendimento Mas antes é preciso saber o que são dados e o que são variáveis 11 Dados e variáveis Variável é uma condição ou característica das unidades da população As variáveis assumem valores diferentes em diferentes unidades Por exemplo se você perguntar a idade de algumas pessoas de sua família verá valores diferentes entre si embora todos se refiram à mesma variável idade Não há interesse em se levantarem constantes Assim não há interesse em se coletarem informações sobre analfabetismo entre universitários porque todos os estudantes universitários são alfabetizados Dado estatístico é toda informação coletada e registrada que se refere a uma variável Exemplo 11 Dados e variáveis Um professor de Educação Física trabalha em uma academia de ginástica e quer saber a opinião dos clientes sobre a qualidade de seus serviços A variável de interesse nesse caso é a opinião dos clientes Os dados serão obtidos quando o professor pedir aos clientes que deem uma nota aos serviços que utilizam Se for pedido que o cliente dê uma nota de zero a 5 os dados coletados poderão ser por exemplo 4 3 2 3 4 1 etc por serviço As variáveis são classificadas conforme mostra o organograma da Figura 11 em dois tipos FIGURA 11 Tipos de variáveis quantitativas ou numéricas qualitativas ou categorizadas Uma variável é qualitativa ou categorizada quando os dados são distribuídos em categorias mutuamente exclusivas como sexo masculino ou feminino tipo de sangue O A B AB cidade de nascimento se a pessoa nasceu em Niterói automaticamente fica excluída a possibilidade de ter nascido em outra cidade Uma variável é quantitativa ou numérica quando é expressa por números como idade estatura número de alunos de uma escola número de comprimidos em uma caixa As variáveis qualitativas ou categorizadas são classificadas em dois tipos Nominal Ordinal A variável é nominal quando os dados são distribuídos em categorias mutuamente exclusivas nomeadas em qualquer ordem São variáveis nominais cor de cabelos loiro castanho preto ruivo tipo de sangue O A B AB não ter ou ter determinada doença A variável é ordinal quando os dados são distribuídos em categorias mutuamente exclusivas que têm ordem natural São variáveis ordinais escolaridade primeiro grau segundo grau terceiro grau classe social A B C D E gravidade de uma doença leve moderada severa etc As variáveis quantitativas ou numéricas são classificadas em dois tipos Discreta Contínua A variável discreta só pode assumir alguns valores em dado intervalo São variáveis discretas número de filhos nenhum 1 2 3 4 5 ou mais quantidade de visitas ao médico no último ano zero 1 2 3 4 ou mais número de pessoas na fila de espera de um serviço de saúde A variável contínua assume qualquer valor em dado intervalo São variáveis contínuas peso temperatura corporal pressão sanguínea 12 Apuração de dados Dados são registrados em fichas cadernos computadores mas depois é preciso proceder à apuração Se a variável for qualitativa a apuração se resume a uma simples contagem Exemplo 12 Apuração de dados qualitativos Para obter a porcentagem de recémnascidos de cada sexo em uma maternidade um pesquisador obteve 1000 prontuários de recémnascidos e escreveu numa folha de papel Masculino Feminino Em seguida examinou os prontuários e fez um traço na linha que correspondia ao sexo do recémnascido para cada prontuário Cada quadrado cortado pela diagonal representa cinco recémnascidos O total é dado pelo número de traços em cada linha Masculino 509 Feminino 491 Quando a variável é quantitativa é preciso anotar na apuração cada valor observado Exemplo 13 Apuração de dados quantitativos Para apurar peso ao nascer1 o pesquisador deve anotar o número do prontuário e o respectivo peso numa folha de papel O número do prontuário escrito ao lado do peso ao nascer facilita a posterior verificação da apuração N do prontuário Peso ao nascer 10525 3250 10526 2010 10624 2208 1A apuração de peso ao nascer pode ser feita por sexo se o interesse consistir em comparar peso ao nascer de meninos e de meninas Hoje muitos profissionais registram dados diretamente em computador Grandes instituições e empresas como IBGE ou Banco do Brasil já usam computadores na coleta de dados São construídas as chamadas bases de dados que armazenam dados de maneira a facilitar a busca de informações O registro de dados é feito de maneira mais organizada As bases de dados podem ser manuseadas por meio de planilhas eletrônicas o que traz maior eficiência às pesquisas Mas não tenha dúvida as modernas bases de dados foram construídas a partir de ideias simples papel e lápis como aquelas que acabamos de apresentar De qualquer forma os dados coletados precisam ser organizados em tabelas Exemplo 14 Registro de dados Em uma maternidade é comum que os dados sobre recémnascidos e suas mães sejam registrados em computador não somente para a prestação de cuidados à parturiente e ao nascituro mas também para que sejam facilmente usados pela administração e eventualmente em trabalhos acadêmicos Nem tudo porém já está pronto Se uma enfermeira quiser estudar o efeito do tabagismo da mãe sobre o peso ao nascer talvez precise coletar dados sobre tempo do hábito número de cigarros fumados por dia se manteve o hábito durante a gestação em associação com outros hábitos nocivos à saúde como por exemplo alcoolismo 13 Normas para a construção de tabelas Os dados são apresentados em tabelas colocadas perto do ponto do texto em que são mencionadas pela primeira vez As tabelas devem conter os seguintes elementos título cabeçalho indicador de linha células e moldura como mostrado no Exemplo 15 Exemplo 15 Apresentação de dados em tabela Tabela 11 População residente no Brasil segundo o sexo de acordo com o Censo Demográfico 2010 Sexo População residente Homens 93406990 Mulheres 97348809 Total 190755799 Fonte Censo Demográfico 2010 IBGE 20112 2Disponível em httpwwwibgegovbr O título explica o tipo de dado que a tabela contém Devese colocálo acima dos dados O cabeçalho especifica o conteúdo de cada coluna O indicador de linha é um conjunto de termos Cada termo descreve o conteúdo de uma linha Exemplo 16 Componentes da tabela Observe a Tabela 11 O título explica a natureza população residente e a abrangência dos dados Brasil 2010 O cabeçalho está destacado em seguida Na primeira coluna coloque a denominação da variável que é sexo enquanto na segunda coluna está o número ou frequência de pessoas de cada sexo residentes no Brasil Sexo População residente O indicador de linha é mostrado em seguida a primeira linha apresenta dados sobre homens a segunda linha dados sobre mulheres e a terceira linha o total Homens Mulheres Total A célula resulta do cruzamento de uma linha com uma coluna e deve conter um dado numérico Nenhuma célula da tabela deve ficar em branco Toda célula deve apresentar um número ou se o dado não existir colocase um traço na célula em que o dado deveria estar escrito As tabelas devem ter moldura Entendese por moldura o conjunto de traços que dão estrutura aos dados numéricos e aos termos necessários à sua compreensão Então as tabelas devem ser delimitadas no alto e embaixo por traços horizontais Esses traços podem ser mais fortes do que os traços feitos no interior da tabela as tabelas não devem ser delimitadas à direita e à esquerda por traços verticais o cabeçalho deve ser delimitado por traços horizontais é possível fazer traços verticais no interior da tabela separando as colunas são comuns os traços verticais no interior do cabeçalho para separar as especificações As tabelas ainda podem conter fonte e notas A fonte identifica o responsável pessoa física ou jurídica pelos dados Deve ser colocada na primeira linha do rodapé da tabela e precedida pela palavra Fonte Não se indica a fonte nos casos em que os dados foram obtidos pelo pesquisador ou pelo grupo de pesquisadores ou pela instituição que apresenta a tabela Veja o Exemplo Exemplo 17 Fonte dos dados Observe a Tabela 11 Os dados apresentados nessa tabela são de responsabilidade do Instituto Brasileiro de Geografia e Estatística IBGE conforme explica a fonte As notas são informações de natureza geral que servem para esclarecer o conteúdo das tabelas ou para explicar o método utilizado no levantamento dos dados São colocadas no rodapé da tabela logo após a fonte se houver e devem ser precedidas pela palavra Nota Veja o Exemplo 18 Exemplo 18 Tabela com fonte e nota Tabela 12 Número de internações hospitalares de mulheres pelo Sistema Único de Saúde SUS Brasil 2005 Grupo de doenças Número Gravidez parto e puerpério 2640438 Doenças do aparelho respiratório 736012 Doenças do aparelho circulatório 612415 Doenças do aparelho geniturinário 507295 Doenças infecciosas e parasitárias 480165 Doenças do aparelho digestivo 452894 Transtornos mentais e comportamentais 105354 Neoplasias 355570 Causas externas 233787 Demais causas 801123 Total 6925053 Nota Suprimidos os casos com idade ou local de residência ignorados Fonte Ministério da SaúdeSEDatasus Sistema de Informações Hospitalares do SUS SIHSUS 131 Tabelas de distribuição de frequências para dados qualitativos Quando observamos dados qualitativos classificamos cada observação em determinada categoria Depois contamos o número de observações em cada categoria A ideia seguinte é resumir as informações na forma de uma tabela que mostre essas contagens frequências por categoria Temos então uma tabela de distribuição de frequências Exemplo 19 Tabela de distribuição de frequências para dados ordinais Pesquisa realizada pelo Datafolha entre os dias 15 e 16 de julho de 2014 em 233 municípios brasileiros para saber a opinião das pessoas a margem de erro é de 2 para mais ou para menos sobre o trabalho do técnico Luiz Felipe Scolari na Seleção Brasileira de Futebol em 2014 mostrou que dos 5377 entrevistados 1075 consideravam o técnico ótimo ou bom 1506 julgavam o técnico regular e 2635 o consideravam péssimo 161 não tinham opinião ou não quiseram responder A Tabela 13 apresenta as respostas dadas pelos entrevistados primeira coluna e as respectivas frequências dessas respostas segunda coluna Tabela 13 Opinião dos brasileiros sobre o técnico de futebol Resposta Frequência Ótimo ou bom 1075 Regular 1506 Péssimo 2635 Não sabe não respondeu 161 Total 5377 Fonte dimassantoscombrpesquisaapontatiteparafuturotecnicodaselecao Acesso em Setembro de 2014 As tabelas de distribuição de frequências podem apresentar além das frequências a proporção frequência relativa de unidades que recaem em cada categoria Para obter a proporção frequência relativa de unidades de determinada categoria calcule As frequências relativas são muitas vezes expressas em percentuais porque as pessoas entendem mais facilmente proporções dadas em porcentagens Para obter o percentual de determinada categoria multiplique a frequência relativa por 100 Convém exibir sempre o total tamanho da amostra que é o indicador da credibilidade da informação3 Exemplo 110 Tabela de distribuição de frequências com frequências relativas A Tabela 14 apresenta na terceira coluna as frequências relativas para os dados contidos na Tabela 13 Tabela 14 Opinião dos brasileiros sobre o técnico de futebol Fonte dimassantoscombrpesquisaapontatiteparafuturotecnicodaselecao Acesso em setembro de 2014 132 Tabelas de contingência Muitas vezes os elementos da amostra ou da população são classificados de acordo com duas variáveis qualitativas Então os dados devem ser apresentados em tabelas de contingência que são tabelas de dupla entrada sendo cada entrada relativa a uma das variáveis Exemplo 111 Tabela de contingência Diabetes mellitus durante a gravidez aumenta o risco de complicações perinatais Para comparar a redução obtida sob novo tratamento com a redução obtida sob tratamento de rotina em diferentes raças ou grupos étnicos foi conduzido um ensaio clínico randomizado4 Os dados sobre raça e etnia das voluntárias bem como o grupo de estudo ao qual foram designadas estão na Tabela 15 Tabela 15 Raça ou etnia das voluntárias segundo o grupo Fonte Crowther CA et alii Effect of Treatment of Gestational Diabetes Mellitus on Pregnancy Outcomes N Engl J Med 2005 35224772486 June 16 2005 4Ver Vieira S e Hossne WS Metodologia científica para a área de saúde 2 ed Rio de Janeiro Elsevier 2015 As tabelas de contingência devem apresentar os totais porque não é possível confiar nos resultados obtidos de amostras muito pequenas Também podem expor percentuais5 Exemplo 112 Tabela de contingência com totais A Tabela 16 reapresenta a Tabela 15 agora com os totais Fica fácil ver que havia mais brancas no estudo e mais voluntárias no tratamento de rotina Tabela 16 Raça ou etnia das voluntárias segundo o grupo Fonte Crowther CA et alii Effect of Treatment of Gestational Diabetes Mellitus on Pregnancy Outcomes N Engl J Med 2005 352 24772486 June 16 2005 133 Apresentação de dados quantitativos Os dados quantitativos são apresentados na ordem em que foram coletados Os pesquisadores podem identificar a unidade que forneceu o dado por um número No caso de pesquisas em seres humanos alguns pesquisadores identificam os participantes pelas iniciais de seus nomes e apresentam os dados obedecendo à ordem alfabética das iniciais Exemplo 113 Apresentação de dados quantitativos Foram coletados dados de 48 pacientes que participaram de uma pesquisa A Tabela 17 apresenta os dados de seis deles Tabela 17 Idade peso altura pressão arterial sistólica pressão arterial diastólica em seis pacientes Nota Não são apresentados todos os dados porque isso tornaria a tabela muito extensa e a finalidade aqui é mostrar como se faz uma tabela Fonte Sousa MG Determinantes das propriedades funcionais e estruturais das grandes artérias e as relações com lesão de órgãosalvo em hipertensos estágio 3 Tese doutorado Faculdade de Medicina da USP 2012 134 Tabelas de distribuição de frequências para dados quantitativos Dados quantitativos podem ser apresentados em tabelas de distribuição de frequências como mostrado no Exemplo 114 Se os dados são discretos para organizar a tabela de distribuição de frequências escreva os dados em ordem crescente conte quantas vezes cada valor se repete organize a tabela apresentando os valores numéricos em ordem natural Exemplo 114 Tabela de distribuição de frequências para dados discretos É mais fácil entender os dados da Tabela 18 se forem apresentados como mostra a Tabela 19 Tabela 18 Número de faltas de trinta funcionários ao trabalho Clínica ABC segundo semestre de 2014 Tabela 19 Número de faltas de trinta funcionários ao trabalho Clínica ABC segundo semestre de 2014 N de faltas Frequência Porcentagem 0 9 300 1 10 333 2 5 167 3 3 100 4 2 67 5 0 00 6 1 33 Total 30 1000 Tabelas com grande número de dados contínuos não dão ao leitor visão rápida e global do fenômeno É difícil dizer como os valores se distribuem Por essa razão dados contínuos desde que em grande número são apresentados em tabelas de distribuição de frequências Mas veja os dados apresentados no Exemplo 115 Exemplo 115 Apresentação de dados contínuos Os dados apresentados na Tabela 110 não dão visão rápida sobre peso ao nascer Tabela 110 Peso ao nascer em quilogramas de nascidos vivos Para construir uma tabela de distribuição de frequências com dados contínuos ache o valor máximo e o valor mínimo do conjunto de dados calcule a amplitude que é a diferença entre o valor máximo e o valor mínimo divida a amplitude dos dados pelo número de faixas que pretende organizar no caso do Exemplo 116 as faixas são de peso Essas faixas recebem o nome de classes o resultado da divisão é o intervalo de classe Sempre é melhor arredondar o valor obtido para o intervalo de classes para um valor mais alto o que facilita o trabalho organize as classes de maneira que a primeira contenha o menor valor observado Exemplo 116 Construção de tabela de distribuição de frequências dados contínuos Observe os dados apresentados na Tabela 110 O menor valor é 1570 kg e o maior valor 4600 kg A amplitude dos dados é Para organizar sete classes calcule Arredonde o valor calculado para intervalo de classe que resultou em 0433 para 0500 e construa a primeira classe que será de 15 kg a 20 kg essa classe contém o menor valor em seguida construa a segunda classe que será de 20 kg a 25 kg e assim por diante como mostra o esquema a seguir Na classe de 15 kg até menos de 20 kg são colocados desde nascidos com 15 kg até os que nasceram com 1999 kg na classe de 20 kg até menos de 25 kg são colocados desde nascidos com 20 kg até os que nasceram com 2499 kg e assim por diante Logo cada classe cobre um intervalo de 05 kg É mais fácil trabalhar com intervalos de classe iguais Denominamse extremos de classe os limites dos intervalos de classe Deve ficar claro na tabela de distribuição de frequências se os valores iguais aos extremos estão ou não incluídos na classe Veja a notação usada no Exemplo 116 A primeira classe é Isso significa que o intervalo é fechado à esquerda ou seja pertencem à classe os valores iguais ao extremo inferior dessa classe por exemplo 15 na primeira classe Também significa que o intervalo é aberto à direita ou seja não pertencem à classe os valores iguais ao extremo superior por exemplo o valor 20 não pertence à primeira classe Exemplo 117 Tabela de distribuição de frequências para dados contínuos Os dados de peso ao nascer de nascidos vivos foram organizados em uma tabela de distribuição de frequências Veja a Tabela 111 Tabela 111 Distribuição de frequências para peso ao nascer de nascidos vivos em quilogramas Classe Frequência 15 20 3 20 25 16 25 30 31 30 35 34 35 40 11 40 45 4 45 50 1 É importante lembrar neste momento que para indicar se extremos de classe estão ou não incluídos em determinada classe é possível adotar outros métodos Aliás a Fundação Instituto Brasileiro de Geografia e Estatística IBGE usa notação diferente Para dados de idade por exemplo escreve De 0 até 4 anos De 5 até 9 anos De 10 até 14 anos e assim por diante A classe De 0 até 4 anos inclui desde indivíduos que acabaram de nascer até aqueles que estão na véspera de completar 5 anos O número de classes deve ser escolhido pelo pesquisador em função do que pretende mostrar Em geral convém estabelecer de 5 a 20 classes Se o número de classes for demasiadamente pequeno por exemplo 3 perdese muita informação Se o número de classes for grande por exemplo 30 têmse pormenores desnecessários Não existe um número ideal de classes para um conjunto de dados embora existam até fórmulas para estabelecer quantas classes devem ser construídas Os resultados obtidos por meio de fórmulas podem servir como referência mas não devem ser entendidos como obrigatórios Para usar uma dessas fórmulas faça n indicar o número de dados O número de classes será um inteiro próximo de k obtido pela fórmula ou então por esta segunda fórmula Exemplo 118 Cálculo do número de classes Reveja a Tabela 110 Com n 100 aplicando a primeira fórmula temse que Aplicando a segunda fórmula obtémse Para obter o número de classes apresentadas na Tabela 111 aplicouse a segunda fórmula e por isso foram construídas sete classes Às vezes as classes de uma distribuição de frequências já estão definidas por tabelas que informam por exemplo os intervalos de normalidade Essa situação é comum nas ciências biológicas Nesses casos a distribuição de frequências deve obedecer às definições dos especialistas Exemplo 119 Tabela de distribuição de frequências para dados contínuos com classes de tamanhos definidos por especialistas É difícil dizer observando os dados apresentados na Tabela 112 o número de obesos por exemplo Fica mais fácil observar os dados mostrados na Tabela 113 Tabela 112 IMC de hipertensos estágio 3 com idade média de 536 anos Fonte Sousa MG Determinantes das propriedades funcionais e estruturais das grandes artérias e as relações com lesão de órgãosalvo em hipertensos estágio 3 Tese doutorado Faculdade de Medicina da USP 2012 Tabela 113 Distribuição dos pacientes hipertensos classificados segundo o IMC IMC Frequência Porcentagem Abaixo do peso 1 21 Normal 4 83 Acima do peso 20 417 Obesidade I 14 292 Obesidade II 7 146 Obesidade III 2 42 Total 48 1000 Numa distribuição de frequências o extremo inferior da primeira classe o extremo superior da última classe ou ambos podem não estar definidos Além disso os intervalos de classe podem ser diferentes Exemplo 120 Tabela de distribuição de frequências para dados contínuos com classes de tamanhos diferentes e extremo superior da última classe não definido Para dar uma ideia geral sobre pressão sanguínea sistólica de mulheres com 30 anos um pesquisador apresentou não os valores observados mas o número de mulheres por faixas de pressão Veja a Tabela 114 que também é um exemplo no qual o extremo superior da última classe não está definido Tabela 114 Distribuição de frequências para pressão sanguínea sistólica em milímetros de mercúrio de mulheres com 30 anos Classe Frequência 90 100 6 100 105 11 105 110 12 110 115 17 115 120 18 120 125 11 125 130 9 130 135 6 135 140 4 140 150 4 150 160 1 160 e mais 1 As tabelas de distribuição de frequências mostram a distribuição da variável mas perdem em exatidão Por exemplo a Tabela 114 revela que seis mulheres apresentaram pressão sanguínea sistólica entre 90 e 100 mas não dá o valor exato para cada uma delas 14 Exercícios resolvidos 141 Converta as seguintes proporções em porcentagens 009 0955 033 0017 Multiplique por 100 para obter 9 955 3317 142 Converta as seguintes porcentagens em proporções 355 531504657 Basta dividir por 100 para obter 0355 0531 050 04657 143 Para estudar a distribuição dos erros cometidos por alunos nas radiografias intrabucais foram obtidos os dados que estão na Tabela 115 As frequências relativas e o total estão apresentados na Tabela 116 Tabela 115 Erros técnicos em radiografias intrabucais Erros Frequência Ângulo horizontal Exposição insuficiente Resultado amarelado Excesso de exposição Corte do dente Resultado manchado Corte cônico Outros erros 459 355 158 141 130 63 44 46 Fonte Carvalho PL et al Erros técnicos nas radiografias intrabucais realizadas por alunos de graduação RGO Porto Alegre v 57 n2 p 151155 abrjun 2009 Tabela 116 Erros técnicos em radiografias intrabucais Erros Frequência Porcentagem Ângulo horizontal 459 329 Exposição insuficiente 355 254 Resultado amarelado 158 113 Excesso de exposição 141 101 Corte do dente 130 93 Resultado amarelado 63 45 Corte cônico 44 32 Outros erros 46 33 Total 1396 1000 144 De acordo com o Sistema Nacional de Informações TóxicoFarmacológicas Sinitox em 2005 foram registrados no Brasil 23647 casos de intoxicação humana por animais peçonhentos Desse total 8208 foram atribuídos a escorpiões 4944 a serpentes 4661 a aranhas e 5834 a outros animais peçonhentos Esses dados estão apresentados na Tabela 117 Tabela 117 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal Animal Total Porcentagem Escorpião 8208 3471 Serpente 4944 2091 Aranha 4661 1971 Outros animais 5834 2467 Total 23647 10000 Fonte Sinitox 20056 145 Construa uma tabela de distribuição de frequências para apresentar os dados da Tabela 118 Tabela 118 Pressão arterial em milímetros de mercúrio de cães adultos anestesiados O número k de classes para apresentar n 49 dados pode ser obtido pela segutinte fórmula Podem ser constituídas sete classes Como o menor valor observado é 82 e o maior valor é 158 é razoável construir classes com intervalos iguais a 10 a partir de 80 O número de classes será então oito um pouco maior do que o estabelecido pela fórmula Veja a Tabela 119 Tabela 119 Distribuição da pressão arterial em milímetros de mercúrio de cães adultos anestesiados Classe Número 80 90 1 90 100 4 100 110 16 110 120 8 120 130 9 130 140 7 140 150 3 150 160 1 146 Imagine7 que você quer comparar as distribuições de frequências da mesma variável para homens e mulheres separadamente mas o número de mulheres é consideravelmente maior Você compararia as frequências ou as frequências relativas Por quê Dê um exemplo Devemse comparar em cada categoria as proporções obtidas para homens e para mulheres As frequências não são comparáveis uma vez que as amostras são de tamanhos diferentes Para entender essa informação imagine que são no total 200 mulheres e 50 homens e que para uma dada categoria a frequência seja de 4 em ambas as distribuições Isso significa 2 das mulheres 4 200 002 e 8 dos homens 450 008 uma diferença muito grande 6httpwwwsauderjgovbranimaispeconhentosestatisticashtml Disponível em 30 de maio de 2008 7Minium E W Clarke R C Coladarci T Elements of Statistical Reasoning 2 ed New York Wiley 1999 p 33 15 Exercícios propostos 151 Especifique o tipo qualitativa quantitativa nominal etc das seguintes variáveis a peso de pessoas b marcas comerciais de um mesmo analgésico mesmo princípio ativo c temperatura de pessoas d quantidade anual de chuva na cidade de São Paulo e religião f número de dentes permanentes irrompidos em uma criança g número de bebês nascidos por dia em uma maternidade h comprimento de cães 152 Faça uma tabela para mostrar que das 852 pessoas entrevistadas sobre determinado assunto 59 não tinham opinião ou não conheciam o assunto 425 eram favoráveis e as demais se mostravam contrárias 153 Complete a Tabela 120 Tabela 120 Distribuição das notas de 200 alunos Nota do aluno Frequência Frequência relativa De 9 a 10 008 De 8 a 89 36 De 65 a 79 90 De 5 a 64 30 Abaixo de 5 28 Total 200 10 154 Uma doença pode ser classificada em três estágios leve moderada severa Foram examinados vinte pacientes obtendose os seguintes dados moderado leve leve severo leve moderado moderado moderado leve leve severo leve moderado moderado leve severo moderado moderado moderado leve Com base nestes dados a determine a frequência de cada categoria b calcule a frequência relativa de cada categoria 155 Qual é o erro na distribuição de frequências dada em seguida Classe 20 30 30 40 40 50 60 70 70 e mais 156 São dados os tipos de sangue de quarenta doadores que se apresentaram no mês em um banco de sangue B A O A A A B O B A A AB O O A O O A A B A A A O O O A O A O O A O AB O O A AB B B Apresente os dados em uma tabela de distribuição de frequências 157 Dos 80 alunos que fizeram um curso de Estatística 70 receberam grau B e 5 grau C Quantos frequência alunos receberam grau A supondo que não tenha sido conferido nenhum outro grau 158 Foram avaliadas por cirurgiões dentistas com especialização em Ortodontia crianças no estágio de dentadura decídua entre 3 e 6 anos de idade Dessas crianças 615 não tinham hábitos de sucção 190 tinham o hábito de sucção do polegar 588 usavam chupeta e 618 usavam mamadeira Apresente os dados em tabela Calcule o total e as frequências relativas 159 Os pesos dos bombeiros que trabalham em determinada cidade variam entre 70 kg e 118 kg Indique os limites de dez classes nas quais os pesos dos bombeiros possam ser agrupados 1510 O número de enfermeiros em serviço varia muito em um hospital Foi feita uma distribuição de frequências com as seguintes classes 20 35 35 40 40 45 45 50 50 55 Qual é o intervalo de classes e qual é o intervalo de toda a distribuição de frequências 1511 Construa uma tabela de distribuição de frequências para apresentar os dados da Tabela 121 usando intervalos de classes iguais Em seguida faça outra tabela com os seguintes intervalos 1 dia 2 ou 3 dias de 4 a 7 dias de 8 a 14 dias mais de 14 dias Tabela 121 Tempo de internação em dias de pacientes acidentados no trabalho em um dado hospital 1512 Imagine dois conjuntos de dados A e B no primeiro conjunto n 50 e no segundo n 100 No conjunto A o valor mínimo é 24 e o valor máximo 70 no conjunto B o valor mínimo é 187 e o valor máximo 821 Construa intervalos de classe para cada conjunto 1513 Com base nos dados apresentados na Tabela 122 calcule o percentual de pacientes que abandonaram o tratamento contra tuberculose pulmonar taxa de abandono segundo a zona de moradia Tabela 122 Número de pacientes segundo o abandono do tratamento contra tuberculose pulmonar e a zona de moradia 1514 Perguntouse a cem dentistas se eles rotineiramente enfatizavam no consultório métodos de prevenção de cáries e doenças gengivais A resposta de 78 dentistas foi sim Os demais disseram não Apresente esses dados em uma tabela de distribuição de frequências e discuta os resultados Os dados mostram que os dentistas adotam a prática de prevenção 1515 Calcule as frequências relativas para os dados apresentados na Tabela 123 e comente Tabela 123 Número de óbitos por grupos de causa Brasil 2004 Notas 1 As análises devem considerar as limitações de cobertura e qualidade da informação da causa de óbito 2 Estão suprimidos os óbitos sem definição de causa Fonte Ministério da SaúdeSVS Sistema de Informações sobre Mortalidade SIM8 1516 Calcule as frequências relativas para os dados apresentados na Tabela 124 e aponte a faixa etária de maior risco Tabela 124 Pacientes portadores de carcinoma epidermoide de base de língua segundo a faixa etária em anos Faixa etária Número 30 40 10 40 50 66 50 60 119 60 70 66 70 80 24 80 e mais 5 1517 Com base nos dados apresentados na Tabela 125 calcule o percentual de órgãos aproveitados taxa de aproveitamento para cada órgão Tabela 125 Número de órgãos obtidos de doadores cadáveres Órgão Número de doadores Número de órgãos aproveitados Rim 105 210 Coração 105 45 Fígado 105 20 Pulmões 105 17 8Disponível em httptabnetdatasusgovbrCGItabcgiexeidb2006c04def Acesso em 4 mai 2008 3Não tem sentido fornecer resultados em porcentagens quando a amostra é muito pequena Por exemplo não teria sentido fornecer porcentagens se a amostra fosse constituída por cinco ou seis pessoas 5Ver o Capítulo 12 deste livro CAPÍTULO 2 Apresentação de Dados em Gráficos Gráficos ajudam a visualizar a distribuição das variáveis Neste capítulo vamos aprender como apresentar dados em gráficos seguindo as normas nacionais ditadas pela Fundação Instituto Brasileiro de Geografia e Estatística IBGE1 Todo gráfico deve apresentar título e escala O título deve ser colocado abaixo do gráfico As escalas devem crescer da esquerda para a direita e de baixo para cima As legendas explicativas devem ser colocadas de preferência à direita do gráfico 21 Apresentação de dados qualitativos 211 Gráfico de barras O gráfico de barras2 é usado para apresentar variáveis qualitativas sejam elas nominais ou ordinais Para construir um gráfico de barras desenhe o sistema de eixos cartesianos anote as categorias da variável estudada no eixo das abscissas eixo horizontal escreva as frequências ou as frequências relativas porcentagens no eixo das ordenadas eixo vertical obedecendo a uma escala desenhe barras verticais de mesma largura para representar as categorias da variável em estudo A altura de cada barra deve ser dada pela frequência ou pela frequência relativa em geral em porcentagem da categoria coloque legendas nos dois eixos e título na figura Exemplo 21 Gráfico de barras Foram entrevistadas cem pessoas que haviam sido submetidas a uma cirurgia estética reparadora Indagadas se consideravam que a cirurgia havia melhorado a aparência delas responderam como segue 66 afirmaram que sim 20 disseram que em parte 8 disseram que não e 6 não quiseram responder Os dados estão na Tabela 21 e o gráfico de barras está apresentado na Figura 21 Tabela 21 Você acha que a cirurgia melhorou sua aparência Resposta Frequência Porcentagem Sim 66 66 Em parte 20 20 Não 8 8 Sem resposta 6 6 Total 100 100 FIGURA 21 Você acha que a cirurgia melhorou sua aparência Para facilitar a leitura dos percentuais de cada categoria é possível fazer linhas auxiliares linhas de grade Exemplo 22 Gráfico de barras com grades Com os dados da Tabela 21 foi desenhado um gráfico de barras com linhas auxiliares apresentado na Figura 22 FIGURA 22 Você acha que a cirurgia melhorou sua aparência Os percentuais podem ser apresentados nas barras rótulos dos dados em diversas posições Exemplo 23 Gráfico de barras com percentuais nas barras Com os dados da Tabela 21 foi desenhado o gráfico de barras da Figura 23 com percentuais escritos acima das barras FIGURA 23 Você acha que a cirurgia melhorou sua aparência Os gráficos de barras podem ser feitos em três dimensões São então conhecidos como gráficos em 3D São agradáveis de ver mas de difícil compreensão quando apresentam muitas categorias Exemplo 24 Gráfico de barras com 3 D Com os dados da Tabela 21 foi feito o gráfico de barras em três dimensões apresentado na Figura 24 FIGURA 24 Você acha que a cirurgia melhorou sua aparência Quando o gráfico de barras é usado para apresentar variáveis ordinais devese obedecer à ordem das categorias da variável mas devem ser colocadas no final as categorias não sabe não respondeu etc Exemplo 25 Gráfico de barras para dados ordinais Veja os dados apresentados na Tabela 13 do Capítulo 1 A ordem das categorias foi respeitada e é mostrado o número de respondentes em cada categoria FIGURA 25 Opinião dos brasileiros sobre o técnico de futebol As barras do gráfico podem ser apresentadas na posição horizontal como mostra o Exemplo 26 Exemplo 26 Gráfico de barras horizontais Os dados sobre a etiologia de fraturas e corpos estranhos encontrados na face de 46 pacientes por meio de radiografias panorâmicas realizadas em um Centro de Radiologia estão na Tabela 22 O gráfico de barras com as barras em posição horizontal está apresentado na Figura 26 Tabela 22 Distribuição dos pacientes quanto à etiologia da fratura ou à presença de corpo estranho Etiologia Frequência Acidente de trânsito 16 Agressão 13 Arma de fogo 7 Queda 4 Acidente em esportes 2 Assalto 2 Cirurgia ortognática 2 Total 46 FIGURA 26 Pacientes quanto à etiologia da fratura ou à presença de corpo estranho diagnosticada por radiografia panorâmica Aqui cabe esclarecer que o programa Excel denomina gráfico de barras somente aqueles que apresentam as barras na posição horizontal Gráficos com barras verticais são denominados no Excel de gráfico de colunas No entanto o termo técnico em ambos os casos é gráfico de barras Cabe também considerar que gráficos com barras na posição vertical colunas são mais comuns porém gráficos com barras na posição horizontal facilitam a leitura dos nomes das categorias São portanto preferíveis quando os nomes são extensos 212 Gráfico de setores O gráfico de setores3 é especialmente indicado para apresentar variáveis nominais desde que o número de categorias seja pequeno Para construir um gráfico de setores trace uma circunferência uma circunferência tem 360o Essa circunferência representará o total ou seja 100 divida a circunferência em tantos setores quantas sejam as categorias da variável em estudo mas é preciso calcular o ângulo de cada setor é igual à proporção de respostas na categoria multiplicada por 360 marque na circunferência os ângulos calculados separe com o traçado dos raios escreva a legenda e coloque título na figura Exemplo 27 Gráfico de setores Por meio de radiografias panorâmicas foram constatados fraturas e corpos estranhos na face de 46 pacientes 29 homens e 17 mulheres Os dados estão apresentados na Tabela 23 e o gráfico de setores na Figura 27 Tabela 23 Pacientes com fraturas e corpos estranhos na face segundo o sexo Sexo Frequência Proporção Homens 29 063 Mulheres 17 037 Total 46 100 FIGURA 27 Pacientes com fraturas e corpos estranhos na face segundo o sexo Para fazer o gráfico de setores é preciso calcular o ângulo de cada setor Para o sexo masculino calcule o ângulo e para o feminino calcule A fim de destacar melhor a contribuição de cada valor em relação ao total as fatias da pizza podem ser separadas como mostra a Figura 215 na Seção 23 deste capítulo Além disso os gráficos de setores podem ser feitos em três dimensões como mostra a Figura 28 Esse tipo de apresentação aparece em muitas revistas mas deve ser evitado porque dificulta a avaliação da proporção de cada categoria Exemplo 28 Gráfico de setores em 3D Com os dados da Tabela 23 foi desenhado um gráfico de setores em três dimensões FIGURA 28 Pacientes com fraturas e corpos estranhos na face segundo o sexo Você encontra no programa Excel várias opções para o desenho do gráfico de setores Todas estão corretas a escolha é sua mas as opções mais simples são as de mais fácil entendimento por seu leitor 2121 Uma variação do gráfico de setores O programa Excel apresenta uma variação do gráfico de setores que denomina de gráfico de rosca Para desenhar esse gráfico faça primeiro o gráfico de setores Em seguida faça uma circunferência com o mesmo centro do gráfico de setores mas bem menor Deixe essa circunferência em branco Exemplo 29 Gráfico de setores rosca Com os dados da Tabela 23 foi desenhado o gráfico da Figura 29 FIGURA 29 Pacientes com fraturas e corpos estranhos na face segundo o sexo 22 Apresentação de dados quantitativos 221 Diagrama de linhas Para apresentar graficamente dados discretos organizados em uma tabela de distribuição de frequências podese construir um diagrama de linhas da seguinte forma escreva os valores assumidos pela variável no eixo das abscissas eixo horizontal escreva as frequências ou as frequências relativas porcentagens no eixo das ordenadas eixo vertical desenhe barras verticais com pequena largura para evidenciar que os dados são discretos a partir dos pontos marcados no eixo das abscissas Os comprimentos das barras são dados pelas frequências ou pelas frequências relativas em geral em porcentagem coloque legendas nos dois eixos e título na figura Exemplo 210 Diagrama de linhas A Tabela 19 apresenta a distribuição de frequências para o número de faltas dos funcionários da Clínica ABC no segundo semestre de 2014 ao trabalho O diagrama de linhas está na Figura 210 FIGURA 210 Diagrama de linhas para o número de faltas dos funcionários da Clínica ABC no segundo semestre de 2014 ao trabalho 222 Gráfico de pontos Os dados contínuos ao contrário dos discretos são na maioria das vezes diferentes uns dos outros Veja o Exemplo 211 os valores são todos diferentes entre si Dados contínuos em pequeno número podem ser apresentados por meio de um gráfico de pontos Para fazer um gráfico de pontos ou diagrama de pontos desenhe uma linha na verdade o eixo das abscissas com escala de maneira que nela caibam todos os dados desenhada a linha ponha sobre ela pontos que representem os dados obedecendo à escala coloque legenda no eixo e título na figura Exemplo 211 Gráfico de pontos O tempo de sobrevivência de sete pacientes submetidos a transplante renal em determinado hospital foi em dias de 17 5 48 120 651 64 150 Para apresentar esses dados em um gráfico de pontos ou diagrama de pontos comece desenhando uma linha eixo das abscissas que vá do zero até 700 porque o maior número é 651 Desenhada a linha você põe os pontos que vão representar os dados sobre ela sempre obedecendo à escala como mostra a Figura 211 FIGURA 211 Tempo de sobrevivência em dias após transplante renal 223 Histograma Quando os dados contínuos são em grande número não se pode fazer um gráfico de pontos É mais conveniente organizar os dados em uma tabela de distribuição de frequências4 como mostrado no Capítulo 1 e desenhar um histograma Para construir um histograma trace primeiro o sistema de eixos cartesianos apresente as classes no eixo das abscissas Se os intervalos de classe forem iguais trace barras retangulares com bases iguais que correspondam aos intervalos de classe desenhe as barras com alturas iguais às frequências ou às frequências relativas das respectivas classes As barras devem ser justapostas a fim de evidenciar a natureza contínua da variável coloque legendas nos dois eixos e título na figura Exemplo 212 Histograma Os dados apresentados na Tabela 111 do Capítulo 1 estão no histograma da Figura 212 FIGURA 212 Histograma para peso ao nascer em quilogramas de nascidos vivos 224 Polígono de frequências Dados contínuos apresentados em uma tabela de distribuição de frequências também podem ser apresentados em polígonos de frequências Para fazer esse tipo de gráfico trace o sistema de eixos cartesianos marque no eixo das abscissas pontos exatamente no meio dos extremos de classe marque no eixo das ordenadas as frequências de classe una os pontos por segmentos de reta feche o polígono unindo os extremos da figura com o eixo horizontal coloque legendas nos dois eixos e título na figura Exemplo 213 Polígono de frequências O polígono de frequências da Figura 213 apresenta os dados da Tabela 111 do Capítulo 1 FIGURA 213 Polígono de frequências para peso ao nascer de nascidos vivos em quilogramas 23 Exercícios resolvidos 231 Faça um gráfico de barras e um gráfico de setores para apresentar os dados da Tabela 117 do Capítulo 1 O gráfico de barras está na Figura 214 e o gráfico de setores está na Figura 215 FIGURA 214 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal FIGURA 215 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal 232 Faça um polígono de frequências para apresentar os dados da Tabela 119 Cap 1 FIGURA 216 Pressão arterial em milímetros de mercúrio de cães adultos anestesiados 233 Por que uma pessoa que conhece determinado assunto preferiria olhar uma tabela de distribuição de frequências a olhar um gráfico Qual seria um argumento razoável contra essa postura Como é possível construir gráficos muito diferentes com base nos mesmos dados a interpretação com base apenas neles às vezes não é confiável Por outro lado é a apresentação gráfica que ressalta determinadas características dos dados Em geral é melhor observar tanto os dados como o gráfico 234 Quando um gráfico deve ser grande Ou pequeno O gráfico deve ser grande quando os valores que apresenta precisam ser lidos Um gráfico pequeno mostra apenas as características gerais do conjunto de dados 24 Exercícios propostos 241 Uma doença pode ser classificada em três estágios leve moderada severa Foram examinados vinte pacientes e obtidos os seguintes dados moderado leve leve severo leve moderado moderado moderado leve leve severo leve moderado moderado leve severo moderado moderado moderado leve Com base nesses dados desenhe um gráfico de setores para apresentar a distribuição de frequências que você já construiu conforme pedido no Exercício 154 Cap 1 242 São dados os tipos de sangue de quarenta doadores que se apresentaram no mês em um banco de sangue B A O A A A B O B A A AB O O A O O A A B A A A O O O A O A O O A O AB O O A AB B B Coloque os dados em uma tabela de distribuição de frequências Desenhe um gráfico de barras para apresentar a distribuição de frequências que você já construiu conforme pedido no Exercício 156 Cap 1 243 Foram avaliadas por cirurgiõesdentistas com especialização em Ortodontia crianças no estágio de dentadura decídua na faixa etária de 3 a 6 anos Dessas crianças 615 não tinham hábitos de sucção 190 tinham o hábito de sucção do polegar 588 usavam chupeta e 618 usavam mamadeira Apresente os dados em tabela Desenhe um gráfico de barras horizontais para apresentar a distribuição de frequências que você construiu conforme pedido no Exercício 158 Cap 1 244 Desenhe um histograma para apresentar a distribuição de frequências que você já construiu usando intervalos de classes iguais conforme pedido no Exercício 1511 245 Com base nos dados apresentados no Exercício 1513 Cap 1 você construiu uma distribuição de frequências Desenhe dois gráficos de setores um para cada zona de moradia para apresentar essa distribuição 246 Você calculou as frequências relativas para o número de óbitos por grupos de causa Brasil 2004 no Exercício 1515 Cap 1 Agora faça um gráfico de barras as barras na posição horizontal para apresentar os percentuais por sexo 247 No Exercício 1515 Cap 1 você calculou as frequências relativas Agora desenhe um histograma para apresentar essa distribuição de frequências 248 Você já calculou o percentual de órgãos aproveitados taxa de aproveitamento para cada órgão usando os dados do exercício do Capítulo 1 Agora desenhe um gráfico de barras as barras na posição horizontal para apresentar a taxa de aproveitamento de cada órgão 249 Com base nos dados apresentados na Tabela 24 faça uma tabela de distribuição de frequências Desenhe um histograma Tabela 24 Pressão sanguínea diastólica de 35 enfermeiros que trabalham em um hospital 2410 Com os dados apresentados na Tabela 24 você construiu uma tabela de distribuição de frequências Agora desenhe um polígono de frequências 1As normas do IBGE são excelentes Veja essas normas em httpwww1ibgegovbrhomeestatisticapopulacaocenso2000tabelabrasil111shtm Disponível em 24 de abril de 2008 Veja também VIEIRA S Elementos de estatística 5 ed São Paulo Atlas 2003 2No programa Excel o gráfico de barras verticais é chamado gráfico de colunas No entanto o nome técnico é gráfico de barras 3O gráfico de setores é mais conhecido como gráfico de pizza Este contudo não é o nome técnico 4Se os intervalos de classe forem diferentes não se pode fazer o histograma como ensinado aqui Consulte textos mais avançados CAPÍTULO 3 Medidas de Tendência Central Para entender as características gerais de um conjunto de dados muitas pessoas preferem olhar uma figura1 Daí a importância dos métodos gráficos descritos no Capítulo 2 No caso das variáveis quantitativas ou numéricas mais usadas na pesquisa científica por serem mais exatas os gráficos são porém menos informativos porque para desenhar um histograma ou um polígono de frequências para uma grande quantidade de dados é preciso agrupar valores exatos em classes Mas já foram propostas há muito tempo medidas estatísticas que sumarizam as informações contidas em um grande conjunto de dados Essas medidas apontam características específicas do conjunto de dados e permitem a quem conhece suas propriedades e limitações uma visão geral do comportamento dos dados Neste capítulo veremos as medidas de tendência central Antes porém de descrever essas medidas precisamos apresentar alguns símbolos matemáticos 31 Símbolos matemáticos Para representar os valores numéricos de n unidades escrevemos O subscrito i indica a posição da medida portanto xi é a iésima observação x1 representa a primeira observação x2 representa a segunda e os três pontos são lidos como e assim por diante Exemplo 31 Representação de dados Os pesos em quilogramas de cinco recémnascidos são Em termos de símbolos podemos escrever A sequência x1 x2 x3 x4 x5 não é ordenada pela grandeza dos dados Veja o Exemplo 31 o primeiro bebê da amostra não é o menor ainda que o bebê maior seja o último Quaisquer que sejam os dados os valores x1 x2 x3 xn são registrados na ordem em que foram observados A soma dos valores x1 x2 x3 xn é escrita como segue ou de forma muito mais compacta que se lê somatório de χ índice i i de 1 a n O símbolo Σ que indica o somatório é a letra grega sigma maiúscula Sob o símbolo Σ está o subscrito i 1 e sobre o símbolo Σ está n indicando que o somatório se estende de x1 até xn Exemplo 32 Notação de somatório No Exemplo 31 são dados os pesos de cinco bebês x1 3500 x2 2750 x3 3250 x4 2250 x5 3 750 A soma desses pesos usando a notação de somatório fica como segue Quando é fácil saber o número de parcelas que devem ser somadas pelo próprio texto é usual escrever apenas Σχ em vez de 32 Média aritmética A média aritmética ou simplesmente média do conjunto de dados é obtida somandose todos os dados e dividindose o resultado da soma pelo número deles A fórmula da média é que se lê xtraço ou xbarra é igual ao somatório de x dividido por n A média aritmética é uma medida de tendência central É o centro de equilíbrio do conjunto de dados Para entender isso imagine que os dados estejam apresentados no eixo das abscissas e que esse eixo represente os braços de uma balança A média fica no fulcro da balança ou seja no centro de equilíbrio Exemplo 33 Cálculo da média Um professor de Educação Física mediu a circunferência abdominal de dez homens que se apresentaram em uma academia de ginástica Então obteve os seguintes valores em centímetros 88 83 79 76 78 70 80 82 86 106 A média é ou seja a média da circunferência abdominal desses homens é 828cm Agora observe a Figura 31 Imagine que o eixo das abscissas seja o braço de uma balança e que cada ponto tenha uma unidade de massa Para haver equilíbrio é preciso que o fulcro da balança esteja localizado onde está a média ou seja no ponto em que foi desenhada uma flecha FIGURA 31 Distribuição de dados de circunferência abdominal em centímetros sobre um eixo e a respectiva média 321 Média de dados agrupados em tabelas de distribuição de frequências Quando os dados são discretos e em grande número pode haver repetição de valores Nesses casos como vimos no Capítulo 1 é razoável organizar os dados em uma tabela de distribuição de frequências Veja a Tabela 31 Tabela 31 Tabela de distribuição de frequências Dados Frequência x1 f1 x2 f2 xn fn Total Σf A média aritmética de dados agrupados em uma tabela de distribuição de frequências é dada por Exemplo 34 Média de dados agrupados Uma psicóloga que trabalha em Recursos Humanos de uma empresa perguntou aos vinte funcionários qual era o número de filhos em idade escolar Os dados estão apresentados na Tabela 32 Tabela 32 Número de filhos em idade escolar de vinte funcionários Para calcular a média a psicóloga construiu a Tabela 33 que é uma distribuição de frequências Tabela 33 Distribuição de frequências para o número de filhos em idade escolar de vinte funcionários Número de filhos em idade escolar Frequência 0 6 1 8 2 4 3 1 4 0 5 1 A Tabela 34 apresenta os cálculos intermediários para obter a média cada valor x foi multiplicado pela respectiva frequência f A soma foi dividida pela soma das frequências Σf Tabela 34 Cálculos auxiliares Número de filhos em idade escolar Frequência Produto x f xf 0 6 0 1 8 8 2 4 8 3 1 3 4 0 0 5 1 5 Total Σf 20 Σxf 24 Quando os dados são contínuos e em grande quantidade é comum não apresentar os dados brutos mas apenas as tabelas de distribuição de frequências Veja o Exemplo 35 Para calcular a média de dados agrupados em classes é preciso calcular o ponto médio ou valor central de cada classe O ponto médio da classe é a média dos dois extremos da classe Exemplo 35 Média de dados contínuos agrupados Os dados apresentados no Exemplo 110 Cap 1 foram agrupados em faixas de peso na Tabela 111 reproduzida na Tabela 35 Tabela 35 Nascidos vivos segundo o peso ao nascer em quilogramas Classe Frequência 15 20 3 20 25 16 25 30 31 30 35 34 35 40 11 40 45 4 45 50 1 Para calcular a média é preciso obter o ponto médio de cada classe A classe 15 20 tem dois extremos o inferior que é 15 e o superior que é 20 O ponto médio dessa classe é Os demais pontos médios são obtidos da mesma forma Agora construa uma tabela com os cálculos auxiliares Escreva as classes os pontos médios x as frequências f de classe e os produtos xf como mostra a Tabela 36 Tabela 36 Cálculos auxiliares A média é de longe a medida de tendência central mais usada e talvez por isso a mais conhecida2 Quem nunca ouviu falar na média de aprovação em determinada disciplina ou no tempo médio de uma viagem de São Paulo ao Rio de Janeiro por exemplo ou na idade média dos jogadores de futebol Em certas circunstâncias porém outras medidas de tendência central como a mediana ou a moda dão melhor informação Mas o que é mediana e o que é moda 33 Mediana Mediana é o valor que ocupa a posição central do conjunto dos dados ordenados A mediana divide a amostra em duas partes uma com números menores ou iguais à mediana e outra com números maiores ou iguais à mediana Quando o número de dados é ímpar existe um único valor na posição central Esse valor é a mediana Por exemplo o conjunto de dados 3 5 9 tem mediana 5 porque 5 é o valor que está no centro do conjunto quando os números estão escritos em ordem crescente Quando o número de dados é par existem dois valores na posição central A mediana é a média desses dois valores Por exemplo o conjunto 3 5 7 9 tem a mediana 6 porque 6 é a média de 5 e 7 que estão na posição central dos números ordenados Exemplo 36 Cálculo da mediana Para obter a mediana do peso dos cinco bebês do Exemplo 31 coloque os dados em ordem crescente como segue 2250 2850 3250 3500 3970 A mediana está no centro dos dados ordenados Corresponde a 3250 kg mostrado na Figura 32 FIGURA 32 Distribuição dos pesos de bebês em quilogramas sobre um eixo e a respectiva mediana Em algumas circunstâncias a mediana descreve melhor do que a média a tendência central dos dados É o caso dos conjuntos com dados discrepantes ou seja de conjuntos de dados que têm um ou alguns valores bem maiores ou bem menores que os demais Veja o Exemplo 37 Exemplo 37 Decidindo entre média e mediana São dados 42 3 9 5 7 9 1 9 Para obter a média calcule Para obter a mediana é preciso ordenar os dados 1 3 5 7 9 9 9 42 e calcular a média aritmética dos valores 7 e 9 que ocupam a posição central dos dados ordenados Então a mediana é 8 A mediana descreve melhor o conjunto de dados porque o valor 42 que é discrepante puxa a média para cima Entretanto o valor discrepante não afeta a mediana Existem casos porém em que o uso da média aritmética é mais razoável do que a mediana mesmo que haja um valor discrepante Como exemplo considere que você jogou três vezes na loteria e ganhou na primeira vez x1 R 000 na segunda vez x2 R 000 na terceira vez x3 R100000000 Qual medida descreve melhor seu ganho A mediana é zero diga isso a seus parentes mas a média é 13 do valor de x3 e esse valor diz mais sobre seu ganho nas três tentativas 34 Moda Moda é o valor que ocorre com maior frequência Exemplo 38 Determinando a moda A moda dos dados 0 0 2 5 3 7 4 7 8 7 9 6 é 7 porque é o valor que ocorre maior número de vezes FIGURA 33 Distribuição dos dados sobre um eixo e a respectiva moda Um conjunto de dados pode não ter moda ou ter duas ou mais modas Assim o conjunto de dados 0 2 4 6 8 10 não tem moda enquanto o conjunto 1 2 2 3 4 4 5 6 7 tem duas modas 2 e 4 Quando uma tabela de distribuição de frequências apresenta grande quantidade de dados é importante destacar a classe de maior frequência chamada classe modal Essa classe mostra a área em que os dados estão concentrados Exemplo 39 Classe modal A distribuição da população brasileira no Censo 2010 segundo o sexo e o grupo de idade é apresentada na Tabela 37 Para homens a classe modal com maior frequência em negrito na tabela é o grupo de 10 a 14 anos Para mulheres a classe modal em negrito na tabela é o grupo de 25 a 29 anos Tabela 37 Distribuição da população brasileira segundo sexo e grupo de idade Brasil 2010 Fonte IBGE3 3Disponível em wwwibgegovbrcaracteristicasdapopulacaotabbrasil Acesso em 8 set 2014 A moda é a única medida de tendência central que também pode ser usada para descrever dados qualitativos Nesse caso a moda é a categoria da variável que ocorre com maior frequência Exemplo 310 Determinação da moda Veja os dados apresentados na Tabela 38 O grupo sanguíneo O ocorreu com maior frequência então é a moda Tabela 38 Distribuição de indivíduos segundo o grupo sanguíneo Grupo sanguíneo Frequência O 550 A 456 B 132 AB 29 Total 1167 A moda é bastante informativa quando o conjunto de dados é grande Se o conjunto de dados for relativamente pequeno menos de trinta observações você pode até obter a moda mas na maioria das vezes ela não terá qualquer sentido prático A média e a mediana fornecem nesses casos melhor descrição da tendência central dos dados 35 Exercícios resolvidos 351 Com base nos dados da Tabela 39 calcule o peso médio dos ratos em cada idade Tabela 39 Peso em gramas de ratos machos da raça Wistar segundo a idade em dias Para obter a média aritmética aos 30 dias basta calcular As médias para as demais idades obtidas da mesma maneira estão apresentadas na Tabela 310 e mostram que o peso médio dos ratos aumenta com a idade Tabela 310 Médias em gramas dos pesos de grupos de oito ratos machos Wistar segundo a idade em dias Idade Média 30 636 34 746 38 814 42 946 46 1056 352 Determine a mediana dos dados apresentados na Tabela 18 Cap 1 Para obter a mediana os dados da Tabela 18 foram arrumados em ordem crescente na Tabela 311 Tabela 311 Número de faltas de trinta funcionários ao trabalho Clínica ABC segundo semestre de 2014 em ordem crescente 0 1 2 0 1 2 0 1 2 0 1 2 0 1 3 0 1 3 0 1 3 0 1 4 0 1 4 1 2 6 Como o número de dados 30 é par a mediana é a média aritmética dos dois valores em negrito que ocupam a posição central ou seja a mediana é 1 Portanto metade dos empregados não faltou ou faltou apenas um dia 353 Foi feito um ensaio clínico randomizado para testar o efeito de um analgésico em cinco pacientes com osteoartrite Os pacientes foram designados para receber placebo 2 ao dia ou droga 60mg 2 ao dia em datas diferentes por processo aleatório Os dados apresentados na Tabela 312 correspondem às medidas da dor à noite relatadas pelos pacientes 0 nenhuma dor 100 dor extrema Calcule para cada paciente as diferenças entre os valores obtidos no final e no início da pesquisa para placebo e para a droga Calcule as médias dessas diferenças Discuta Tabela 312 Dados de dor referidos pelo paciente numa escala de zero a 100 segundo o grupo Tabela 313 Diferenças entre início e final do tratamento As médias das diferenças são 90 para placebo e 250 para o antiinflamatório Os pacientes relataram maior alívio da dor quando receberam a droga com efeito analgésico 36 Exercícios propostos 361 Determine média mediana e moda dos seguintes conjuntos de dados a 8 3 0 6 8 b 8 16 2 8 6 c 4 16 10 6 20 10 d 0 2 3 1 5 e 21 0 1 2 1 9 362 Imagine que você esteja dirigindo um carro em uma estrada e observe que o número de veículos que você ultrapassa é igual ao número de veículos que ultrapassam você Nesse caso a velocidade de seu carro corresponde considerando a velocidade de todos esses carros a qual medida de tendência central 363 Dado um conjunto de dados qual das medidas de tendência central média mediana e moda corresponde sempre a um valor numérico do conjunto 364 Quatro pessoas reunidas numa sala têm em média 20 anos Se uma pessoa com 40 anos entrar na sala qual passa a ser a idade média do grupo 365 Na Tabela 314 são apresentadas taxas de glicose em miligramas por 100 mL de sangue em ratos machos da raça Wistar com 30 dias de idade que serão usados em um ensaio préclínico para o teste de determinada droga Encontre média e mediana Tabela 314 Taxa de glicose em miligramas por 100 mL de sangue de oito ratos machos da raça Wistar com 30 dias de idade N do rato Taxa de glicose 1 101 2 98 3 97 4 104 5 95 6 105 366 Na Tabela 315 são apresentados estaturas em metros pesos em quilogramas e pressão arterial em milímetros de mercúrio de pacientes hospitalizados porque tiveram um acidente vascular cerebral AVC mais conhecido como derrame Calcule a média e a mediana para cada variável Tabela 315 Estaturas em metros pesos em quilogramas e pressão arterial em milímetros de mercúrio de 11 pacientes hospitalizados com AVC 367 Com os dados apresentados na Tabela 316 calcule o número médio de dentes cariados para cada sexo Tabela 316 Estudantes de 12 anos segundo o número de dentes cariados e o sexo 368 Para estudar o tempo de latência de um sonífero usando ratos de laboratório um pesquisador administrou o sonífero a dez ratos e determinou o tempo que levavam para dormir Dos dez ratos dois precisaram de meio minuto quatro de 1 minuto três de 15 minuto e 1 não dormiu Calcule o tempo médio de latência 369 Determine média mediana e moda para cada sexo em relação aos dados apresentados na Tabela 317 Tabela 317 Consumo diário de sal em gramas por dia segundo o sexo 3610 Determine média mediana e moda para cada sexo em relação aos dados de volume diário de urina apresentados na Tabela 318 Tabela 318 Volume diário de urina em litros por sexo 3611 Determine mediana e moda para os dados apresentados na Tabela 319 e interpreteas Tabela 319 Tempo de retorno em dias às atividades diárias de pacientes submetidas a histerectomia N da paciente Tempo de retorno 1 20 2 30 3 15 4 20 5 40 6 50 7 25 8 30 9 15 10 35 3612 Determine a média dos dados apresentados na Tabela 320 Tabela 320 Teor de vitamina C miligramas de ácido ascórbico em 100 mL em dez caixas de 100 mL de suco de maçã encontradas no mercado N da caixa Teor de vitamina C 1 25 2 49 3 41 4 08 5 24 6 57 7 33 8 74 9 16 10 35 3613 A média a mediana e a moda podem ser iguais Dê um exemplo 3614 Qual das medidas de tendência central não pode ser calculada para os dados da Tabela 321 Por quê Tabela 321 Número de reclamações recebidas pela diretoria de empregados de uma clínica em determinado semestre distribuídas segundo o sexo 1Já disse alguém um desenho vale por mil palavras 2Há quem pretenda ser engraçado dizendo que a média não faz sentido porque por exemplo se alguém tem os pés na geladeira e a cabeça no forno na média está em temperatura agradável O fato é que para relatar o comportamento de uma variável a média não basta É necessária mas não é suficiente Veja o Capítulo 4 CAPÍTULO 4 Medidas de Dispersão para uma Amostra As medidas de tendência central resumem a informação contida em um conjunto de dados mas não contam toda a história Por exemplo observase diariamente que na mesma cidade a temperatura varia ao longo do dia Então a temperatura média do dia não dá toda a informação O peso das pessoas varia ao longo da vida e a quantidade de dinheiro que carregam nos bolsos varia em função das circunstâncias Por causa da variabilidade a média a mediana e a moda que estudamos no Capítulo 3 não são suficientes para descrever um conjunto de dados informam apenas a tendência central ou seja onde está o centro mas nada dizem sobre a variabilidade Para entender esse ponto imagine dois domicílios no primeiro moram sete pessoas todas com 22 anos A média de idade dos moradores desse domicílio coletivo uma república é evidentemente 22 anos No segundo domicílio também moram sete pessoas um casal ela com 17 e ele com 23 anos dois filhos um com 2 e outro com 3 anos a mãe da moça com 38 anos um irmão da moça com 8 anos e a avó da moça com 65 anos A média de idade nesse segundo domicílio também é 22 anos No entanto idade média de 22 anos descreve bem a situação no primeiro domicílio mas não no segundo As medidas de tendência central são tanto mais descritivas de um conjunto de dados quanto menor é a variabilidade Então quando você apresentar um conjunto de dados deve fornecer não apenas medidas de tendência central mas também uma medida de variabilidade ou dispersão Veremos neste capítulo algumas formas de medir variabilidade 41 Mínimo máximo e amplitude Mínimo de um conjunto de dados é o número de menor valor Máximo de um conjunto de dados é o número de maior valor Para medir variabilidade você pode fornecer o valor mínimo e o valor máximo do conjunto de dados Pode também calcular a amplitude A amplitude de um conjunto de dados definida como a diferença entre o máximo e o mínimo é uma medida de dispersão ou variabilidade Exemplo 41 Mínimo máximo e amplitude A idade das crianças que estão no pátio de uma escola é respectivamente 3 6 5 7 9 anos É fácil apresentar em uma tabela o número de crianças a mediana o mínimo o máximo e a amplitude Você primeiro ordena os dados como segue 3 5 6 7 9 A mediana é 6 e a amplitude é Tabela 41 Estatísticas da idade das crianças Estatísticas Resultados Número de crianças 5 Mediana 6 Mínimo 3 Máximo 9 Amplitude 6 A amplitude de variação é uma ideia básica em Estatística mas um valor discrepante por ser muito grande ou muito pequeno aumenta muito a amplitude Como dizem os estatísticos a amplitude é muito sensível aos valores discrepantes Exemplo 42 Comparação de amplitudes É dado o barulho do tráfego em duas esquinas medido em decibéis durante os cinco dias úteis de determinada semana Vamos calcular as amplitudes dos dados de cada conjunto 1ª esquina 56 54 51 58 52 60 2ª esquina 56 54 58 52 51 67 1ª esquina 2ª esquina FIGURA 41 Distribuição de dados de barulho em decibéis sobre um eixo para os dois conjuntos Note que a amplitude maior na segunda esquina é explicada por um dia em que o barulho foi bem maior do que nos demais dias da semana Ocorreu então o que os estatísticos chamam de valor discrepante Esse valor 67 aumentou em muito a amplitude dos dados obtidos na segunda esquina A amplitude é bastante usada como medida de variabilidade mas para descrever um conjunto de dados muitas vezes é melhor fornecer mínimos e máximos Por exemplo se alguém informar que os policiais que estão na ativa em certa corporação têm idades entre 18 e 52 anos estará fornecendo uma informação mais útil do que se disser que a amplitude das idades é 34 anos 42 Quartil A mediana que você viu no Capítulo 3 divide um conjunto de dados em dois subconjuntos com o mesmo número de dados o que antecede a mediana dados iguais ou inferiores à mediana o que sucede a mediana dados iguais ou superiores à mediana Se o número de observações for grande digamos maior de trinta o conceito de mediana pode ser entendido da seguinte forma a mediana divide o conjunto de dados em duas metades os quartis como o nome sugere dividem o conjunto de dados em quatro quartos Os quartis são pontos que dividem o conjunto de dados ordenados em quatro partes de modo que cada parte contenha 25 dos dados O primeiro quartil Q1 ocupa a posição central entre a mediana e o dado de menor valor O segundo quartil é a mediana do conjunto de dados O terceiro quartil Q3 ocupa a posição central entre a mediana e o dado de maior valor Então se um item está no quartil superior significa que está entre os 25 de itens de maior valor Para obter os quartis1 quando o conjunto tem um número ímpar de dados 1 organize os dados em ordem crescente Encontre a mediana que é o segundo quartil marque esse valor 2 se o número de dados for ímpar a mediana é um número que está no conjunto Para achar o primeiro quartil tome o conjunto de dados iguais ou menores que a mediana o primeiro quartil é a mediana do novo conjunto de dados 3 para encontrar o terceiro quartil tome o conjunto de dados iguais ou maiores do que a mediana o terceiro quartil é a mediana do novo conjunto de dados Exemplo 43 Obtendo os quartis de conjunto com número ímpar de dados O número de dados no conjunto 1 2 3 4 5 6 7 9 10 é ímpar Então a mediana é o valor central dos dados ordenados ou seja 5 1 2 3 4 5 6 7 9 10 Para obter o primeiro quartil separe os dados iguais ou menores do que a mediana Primeiro quartil é a mediana do novo conjunto de dados ou seja 3 1 2 3 4 5 Para obter o terceiro quartil separe os dados iguais ou maiores do que a mediana Terceiro quartil é a mediana do novo conjunto de dados ou seja 7 5 6 7 9 10 Se o conjunto tiver um número par de dados para obter os quartis 1 organize os dados em ordem crescente Encontre a mediana que é o segundo quartil marque esse valor 2 a mediana dada pela média dos dois valores centrais não é necessariamente um número igual a qualquer outro do conjunto de dados Para encontrar o primeiro quartil separe o conjunto de dados menores do que a mediana o primeiro quartil é a mediana do novo conjunto de dados 3 para achar o terceiro quartil separe o conjunto de dados maiores do que a mediana o terceiro quartil é a mediana do novo conjunto de dados Exemplo 44 Obtendo os quartis de conjunto com número par de dados A mediana dos dados 0 1 2 3 4 5 5 7 9 10 é a média dos dois valores que estão no centro dos dados ordenados ou seja 45 0 1 2 3 4 5 6 7 9 10 Para obter o primeiro quartil separe os dados menores do que a mediana O primeiro quartil é a mediana desse novo conjunto de dados ou seja 2 0 1 2 3 4 Para obter o terceiro quartil separe os dados maiores do que a mediana O terceiro quartil é a mediana desse novo conjunto de dados ou seja 7 5 6 7 9 10 Pode parecer que o método apresentado para determinar quartis é confuso mas é pior do que simplesmente confuso os estatísticos não se entendem nesse assunto2 Existem vários métodos para obter quartis e os programas para computador empregam métodos diferentes Por isso se você calcular os quartis para o Exemplo 43 usando o Excel encontrará resultados diferentes dos achados aqui e se usar o Minitab encontrará outros resultados O SAS permite escolher entre cinco métodos Além disso os valores aqui calculados são chamados no Brasil de quartis em inglês quartiles mas o autor3 que inventou o boxplot os chama de dobradiças em inglês hinges Felizmente as diferenças entre resultados são pequenas e não afetam as conclusões de um trabalho De qualquer modo é preciso definir distância interquartílica que é uma medida de dispersão que aparece nos boxplots Como a amplitude é muito sensível aos valores discrepantes ou seja muda de valor se for incluída uma observação discrepante a distância interquartílica descreve melhor a dispersão dos dados Distância interquartílica é a distância entre o primeiro e o terceiro quartis Distância interquartílica Terceiro quartil Primeiro quartil Exemplo 45 Distância interquartílica Vamos calcular as distâncias interquartílicas para o Exemplo 42 Reveja os seguintes dados 1ª esquina 56 54 51 58 52 60 Para encontrar a distância interquartílica comece ordenando os dados 51 52 54 56 58 60 O número de dados é par A mediana é a média de 54 e 56 ou seja 55 Ache o primeiro e o terceiro quartis Então Mediana 55 1 quartil 52 3 quartil 58 Distância interquartílica 58 52 6 2ª esquina 56 54 58 52 51 67 Para encontrar a distância interquartílica é preciso ordenar os dados calcular a mediana e achar o primeiro e o terceiro quartis Então 51 52 54 56 58 67 Mediana 55 1 quartil 52 3 quartil 58 Distância interquartílica 58 52 6 421 Diagrama de caixa Boxplot As medidas que acabamos de ver mínimo primeiro quartil mediana terceiro quartil máximo permitem traçar o diagrama de caixa que ajuda a entender a informação contida em um conjunto de dados Para desenhar um diagrama de caixa 1 desenhe um segmento de reta em posição vertical para representar a amplitude dos dados 2 marque nesse segmento o primeiro o segundo e o terceiro quartis 3 desenhe um retângulo box de maneira que o lado superior e o lado inferior passem exatamente sobre os pontos que marcam o primeiro e o terceiro quartis 4 faça um ponto para representar a mediana obedecendo à escala e sobre o segmento de reta anteriormente traçado Exemplo 46 Diagrama de caixa boxplot A Figura 42 apresenta um diagrama de caixa para o conjunto de dados 1 2 3 4 5 6 7 8 9 10 Foram calculados FIGURA 42 Diagrama de caixa Mínimo 1 Primeiro quartil 3 Mediana 55 Terceiro quartil 8 Máximo 10 O retângulo do diagrama de caixa é dado pela distância interquartílica Esse retângulo contém cerca de 50 dos dados que estão no centro da distribuição 43 Desvio padrão O desvio padrão é uma medida de variabilidade muito recomendada porque mede bem a dispersão dos dados e permite por conta disso interpretação de interesse Para calcular o desvio padrão é preciso primeiro calcular a variância Vamos então entender o que é variância 431 Cálculo da variância Quando a média é usada como medida de tendência central podemos calcular o desvio de cada dado em relação à média como segue Exemplo 47 Desvios em relação à média No Exemplo 41 são dadas as idades de cinco crianças 3 6 5 7 e 9 anos Para calcular os desvios em relação à média subtraímos a média de cada observação Como a média é 6 os desvios são os valores apresentados na Tabela 42 Tabela 42 Cálculo dos desvios Desvios pequenos significam dados aglomerados em torno da média enquanto desvios grandes significam dados dispersos em torno da média Mas esses desvios precisam ser resumidos em um só número para que você possa olhar esse número e julgar o grau de variabilidade dos dados Como é possível fazer isso À primeira vista parece possível calcular a média dos desvios Mas a média seria sempre igual a zero porque a soma dos desvios negativos é sempre igual à soma dos desvios positivos O peso dos desvios negativos é igual ao peso dos desvios positivos uma vez que a média dá a tendência central dos dados Isso pode ser verificado em qualquer conjunto de dados No Exemplo 47 É preciso eliminar os sinais antes de somar É intuitivo pensar em calcular a média dos valores absolutos dos desvios Essa medida realmente existe É o desvio médio pouco encontrado nos trabalhos de Estatística4 Mas existe outra maneira de eliminar os sinais elevamse os valores ao quadrado A soma assim obtida é denominada soma de quadrados dos desvios A partir dessa soma obtémse a variância Veja a definição de variância da amostra que é indicada por s2 Variância da amostra é a soma dos quadrados dos desvios de cada observação em relação à média dividida por n 1 Para calcular a variância calcule o desvio de cada observação em relação à média eleve cada desvio ao quadrado some os quadrados dos desvios divida o resultado por n1 n é o número de observações Exemplo 48 Calculando a variância A Tabela 43 apresenta os cálculos intermediários para obter a variância dos dados do Exemplo 41 Tabela 43 Cálculo da variância A variância é A variância quantifica a variabilidade dos dados O divisor n1 recebe o nome de graus de liberdade5 4311 Outra fórmula para calcular a variância A fórmula dada na Seção 431 para calcular a variância da amostra pode ser algebricamente desenvolvida Obtémse então uma segunda fórmula que embora à primeira vista pareça mais complicada permite que o cálculo da variância seja feito com menor número de operações aritméticas6 Prefira usar esta segunda fórmula se você fizer cálculos à mão o que é pouco provável Exemplo 49 Calculando a variância São dados os tempos em minutos que seis meninos permaneceram sobre seus skates 4 6 4 6 5 5 Para calcular a variância foram feitos os cálculos intermediários que estão na Tabela 44 Tabela 44 Cálculo da variância x x2 4 16 6 36 4 16 6 36 5 25 5 25 Σx 30 Σx2 154 A variância é 4312 Variância de dados agrupados em tabelas de distribuição de frequências A variância de dados agrupados em uma tabela de distribuição de frequências ou seja de x1 x2 xn que se repetem f1 f2 fn vezes na amostra é Exemplo 410 Calculando a variância de dados agrupados Reveja o Exemplo 34 Cap 3 Foi construída a Tabela 33 reapresentada aqui como Tabela 45 Tabela 45 Distribuição de frequências para o número de filhos em idade escolar de vinte funcionários Número de filhos em idade escolar Frequência 0 6 1 8 2 4 3 1 4 0 5 1 A Tabela 46 apresenta os cálculos intermediários para se obter a variância Tabela 46 Cálculos auxiliares para obtenção da variância Aplicando a fórmula 432 Desvio padrão Lembrese de que para calcular a variância os desvios em relação à média foram elevados ao quadrado Então a unidade de medida da variância é igual ao quadrado da medida das observações Logo extraindo a raiz quadrada da variância você obtém uma medida de variabilidade com a mesma unidade de medida dos dados É o desvio padrão Desvio padrão é a raiz quadrada da variância com sinal positivo Exemplo 411 Calculando o desvio padrão A Tabela 47 apresenta a duração em minutos das chamadas telefônicas realizadas em três consultórios médicos As médias as variâncias e os desvios padrões são apresentados na Tabela 48 As observações foram medidas em minutos a variância é dada em minutos ao quadrado o que não tem sentido prático mas o desvio padrão é dado em minutos Tabela 47 Tempo em minutos das chamadas telefônicas feitas em uma manhã em três consultórios médicos Consultório A Consultório B Consultório C 4 9 9 6 1 1 4 5 1 6 5 2 5 1 8 5 9 9 Tabela 48 Estatísticas obtidas para os dados da Tabela 47 A duração em minutos das chamadas telefônicas realizadas nos três consultórios médicos foi em média a mesma ou seja 5 minutos No entanto a duração das chamadas variou significativamente entre os consultórios Compare por exemplo o desvio padrão 089 minuto do consultório A com o desvio padrão 405 minutos do consultório C 44 Coeficiente de variação Coeficiente de variação é a razão entre o desvio padrão e a média O resultado do cálculo do coeficiente de variação é multiplicado por 100 para ser apresentado em porcentagem Então Para entender como se interpreta o coeficiente de variação imagine dois grupos de pessoas no primeiro grupo as pessoas têm idades de 3 1 e 5 anos a média é evidentemente 3 anos No segundo grupo as pessoas têm idades de 55 57 e 53 anos portanto a média é 55 anos Verifique que nos dois grupos a dispersão dos dados é idêntica ambos têm variância s2 4 No entanto as diferenças de dois anos são muito mais importantes no primeiro grupo que tem média 3 do que no segundo grupo que tem média 55 Agora veja os coeficientes de variação No primeiro grupo o coeficiente de variação é e no segundo grupo o coeficiente de variação é Um coeficiente de variação de 6667 indica que a dispersão dos dados em relação à média é muito grande ou seja a dispersão relativa é alta Um coeficiente de variação de 364 indica que a dispersão dos dados em relação à média é pequena Em outras palavras diferenças de 2 anos são relativamente mais importantes no primeiro grupo em que a média é de 3 anos o coeficiente de variação é 6667 do que no segundo grupo que tem média de 55 anos o coeficiente de variação é 364 Então o coeficiente de variação mede a dispersão dos dados em relação à média É importante notar que o coeficiente de variação pode ser expresso em porcentagem porque é adimensional ou seja não tem unidade de medida Isso acontece porque média e desvio padrão são medidos na mesma unidade que então se cancelam Por ser adimensional o coeficiente de variação é útil para comparar a dispersão relativa de variáveis medidas em diferentes unidades Veja o Exercício 453 45 Exercícios resolvidos 451 Vamos calcular a média e a variância do nível de colesterol de cinco pessoas 260 160 200 210 240 A média é Para obter a variância foram feitos os cálculos intermediários apresentados na Tabela 49 Tabela 49 Cálculos intermediários para obtenção da variância Nível de colesterol Desvio em relação à média Desvio ao quadrado 260 46 2116 160 54 2916 200 14 196 210 4 16 240 26 676 Soma 0 5920 A variância é 452 Observe os conjuntos A B C D de dados Sem fazer cálculos qual deles apresenta menor variância Quais têm maior variância A 7 7 7 7 B 6 7 7 8 C 6 8 10 12 D 106 108 110 112 O conjunto A tem a menor variância pois os dados são todos iguais entre si O conjunto B tem variância maior do que o conjunto A pois os dados variam de 1 em 1 Os conjuntos C e D têm variâncias maiores do que as dos outros mas iguais entre si em ambos os conjuntos os dados variam de 2 em 2 453 Calcule a média o desvio padrão e o coeficiente de variação dos dados apresentados na Tabela 410 Comente os resultados Tabela 410 Peso em quilogramas e comprimento em centímetros de dez cães Peso Comprimento 23 104 22 107 21 103 21 105 17 100 28 104 19 108 14 91 19 102 19 99 a Para peso a média é 203kg e o desvio padrão é 374kg O coeficiente de variação é 1842 b Para comprimento a média é 1023cm e o desvio padrão é 485cm O coeficiente de variação é 474 Não se podem comparar desvios padrões de peso e comprimento porque as unidades de medida são diferentes No entanto os coeficientes de variação podem ser comparados porque são adimensionais É fácil ver que a dispersão relativa dos dados de peso CV 1842 é maior do que a dispersão relativa dos dados de comprimento CV 474 Isso significa que os dados de peso variam mais em relação à média do que os dados de comprimento Lembrese de que isso também acontece em humanos adultos e normais provavelmente você conhece duas pessoas tais que uma tem o dobro de peso da outra 104 kg e 52 kg por exemplo mas não uma com o dobro da altura da outra 454 Determine os quartis7 do conjunto de dados 1 2 2 5 5 7 8 10 11 11 Os dados já estão ordenados Para obter a mediana note que o número de dados é par Então a mediana é a média dos dois valores centrais ou seja de 5 e 7 que é 6 1 2 2 5 5 7 8 10 11 11 Para obter o primeiro quartil separe os dados menores do que a mediana 6 O primeiro quartil é a mediana desses dados 2 1 2 2 5 5 Para obter o terceiro quartil separe os dados iguais ou maiores do que a mediana O terceiro quartil é a mediana desses dados 10 7 8 10 11 11 455 Foi feito um experimento para comparar dois programas de treinamento para a execução de um serviço especializado Vinte homens foram selecionados para esse treinamento Dez dos vinte foram escolhidos ao acaso e treinados pelo método A Os outros dez foram treinados pelo método B Concluído o período de treinamento todos os homens executaram o serviço e foi medido o tempo de cada um Os dados são apresentados na Tabela 411 Vamos calcular as estatísticas apresentadas na Tabela 412 e desenhar diagramas de caixa na Fig 43 para comparar os métodos Tabela 411 Tempo em minutos despendido na execução do serviço segundo o método de treinamento Tabela 412 Tempo em minutos despendido na execução do serviço segundo o método de treinamento FIGURA 43 Comparação de dois diagramas de caixa A Figura 43 mostra que a variabilidade é praticamente a mesma para os dois métodos No entanto a mediana do tempo despendido por homens treinados pelo método A foi menor 456 Vamos calcular a variância e o desvio padrão dos dados apresentados na Tabela 39 Cap 3 em cada idade e comentar o resultado A variância é dada pela seguinte fórmula Usando uma calculadora ou o computador é possível obter as somas apresentadas na Tabela 413 Tabela 413 Resultados parciais As variâncias e os desvios padrões estão apresentados na Tabela 414 Os desvios padrões aumentam com a idade ou seja a dispersão dos dados em torno da média aumenta com a idade Tabela 414 Variância e desvio padrão do peso em gramas de ratos machos da raça Wistar segundo a idade 7Os métodos empregados para calcular os quartis têm pequenas diferenças Se você calcular os quartis para o Exemplo 45 usando o Excel encontrará 1 quartil 275 3 quartil 95 Não é o método aqui ensinado 46 Exercícios propostos 461 Dados os valores 5 3 2 e 1 calcule a ο mínimo b o máximo c a amplitude 462 Dados os valores 3 8 5 6 4 3 e 6 calcule a Σ x b 463 Calcule a média e o desvio padrão para o seguinte conjunto de dados 3 9 4 1 3 464 A variância de uma amostra é 100 e a soma de quadrados dos desvios é 500 Qual é o tamanho da amostra 465 A média das idades das quatro pessoas que estão reunidas em uma sala é 20 anos e a variância é zero Se uma pessoa com 40 anos entrar na sala qual será a idade média do novo grupo e qual será a variância 466 São dadas na Tabela 415 as notas de três alunos em cinco provas Calcule para cada aluno a média e o desvio padrão das notas obtidas Discuta Tabela 415 Notas de quatro alunos em cinco provas 467 Responda às seguintes questões a O valor do desvio padrão pode ser maior do que o valor da média b O valor do desvio padrão pode ser igual ao valor da média c O valor do desvio padrão pode ser negativo d Quando o desvio padrão é igual a zero 468 Calcule a variância o desvio padrão e o coeficiente de variação para os dados apresentados no Exercício 365 Cap 3 469 Os tempos de latência em minutos de um analgésico em seis pacientes foram 4 6 4 6 5 5 Calcule a média e a variância 4610 Responda às seguintes questões a qual é a desvantagem de usar a amplitude para comparar a variabilidade de dois conjuntos de dados b a variância pode ser negativa c a variância pode ser menor do que o desvio padrão 4611 Um professor de Odontologia queria saber se alunos que começam a atender pacientes em disciplinas clínicas têm aumento na frequência do batimento cardíaco Então mediu a frequência dos batimentos cardíacos de cinco alunos de primeiro ano que não cursam disciplinas clínicas e de cinco alunos do segundo ano pouco antes do primeiro atendimento de pacientes Os dados estão apresentados na Tabela 416 Calcule as médias e os desvios padrões Discuta Tabela 416 Frequência de batimento cardíaco medida em batimentos por minuto bpm de alunos de primeiro e segundo anos 1 ano 2 ano 87 106 70 100 76 86 71 96 69 90 4612 Para verificar se duas dietas indicadas para pessoas que precisam perder peso são igualmente eficientes um médico separou ao acaso um conjunto de 12 pacientes em dois grupos Cada paciente seguiu a dieta designada para seu grupo Decorrido certo tempo o médico aferiu a perda de peso em quilogramas de cada paciente de cada grupo Os dados estão apresentados na Tabela 417 Calcule as médias e as variâncias Discuta Tabela 417 Perda de peso em quilogramas segundo a dieta 1Os métodos empregados para calcular os quartis apresentam pequenas diferenças Se você calcular os quartis para o Exemplo 53 usando o Excel encontrará valores diferentes Os valores calculados aqui são os quartis em inglês quartiles O outro método usado no Excel calcula as dobradiças em inglês hinges 2Disponível em Defining Quartiles Math Forum Ask Dr Math mathforumorglibrarydrmathview60969html Acesso em 4 ago 2014 3John Wilder Tukey 4A introdução do valor absoluto numa fórmula torna muito mais complicado fazer o cálculo analítico posteriormente em deduções teóricas 5A soma dos desvios é sempre zero Então tendo os valores de n 1 desvios você pode calcular o valor do nésimo desvio que está faltando Reveja o Exemplo 56 Dados os desvios 3 01 e 1 é fácil verificar que a soma deles é 3 Para que a soma seja zero falta o desvio de valor 3 Os graus de liberdade representam o número de desvios que estão livres para variar podem ter qualquer valor o último está determinado porque a soma dos desvios é necessariamente zero 6Essa fórmula está sendo apresentada aqui porque é encontrada em muitos textos mas corresponde à mesma fórmula dada na definição Facilita os cálculos mas hoje isso não tem sentido CAPÍTULO 5 Noções sobre Correlação Você já ouviu falar que o número de pontos no Enem está relacionado ao grau de conhecimento dos alunos Também já ouviu falar que o bom desempenho do atleta está relacionado a um bom treinamento Essas afirmativas mostram que temos consciência de que pode haver relação entre duas variáveis E você sabe que o risco de câncer de pulmão aumenta com o tempo do hábito de fumar e que a pressão arterial aumenta com a idade Tais assertivas mostram que temos consciência da evolução de uma variável ao longo do tempo Neste capítulo vamos ver como se estudam em conjunto duas variáveis 51 Diagrama de dispersão Vamos pensar em duas variáveis numéricas e chamar como é habitual em Estatística uma de X e a outra de Y Se você medir essas duas variáveis em 22 pessoas ou em 22 animais ou em 22 objetos terá 22 pares de valores dessas variáveis Se X e Y têm a tendência de variar conjuntamente dizemos que existe correlação entre ambas Neste Capítulo vamos ver como se responde às seguintes questões É razoável considerar que existe correlação entre X e Y Que tipo de correlação existe entre ambas Qual é o grau dessa correlação É preciso desenhar gráficos e fazer alguns cálculos Começaremos desenhando um diagrama de dispersão Diagrama de dispersão scaterplot é um gráfico feito para mostrar o grau de correlação entre duas variáveis Para desenhar o diagrama de dispersão a trace um sistema de eixos cartesianos e represente cada uma das variáveis em um dos eixos b estabeleça as escalas de maneira a dar ao diagrama o aspecto de um quadrado c escreva os nomes das variáveis nos respectivos eixos e em seguida faça as graduações d desenhe um ponto para representar cada um dos pares de valores das variáveis Exemplo 51 Diagrama de dispersão Um fisioterapeuta mediu a altura X e o peso Y de 22 universitários Os dados estão apresentados na Tabela 51 e o diagrama de dispersão na Figura 51 Observando a figura você vê a variação conjunta de altura e peso os pesos tendem a ser maiores para as alturas maiores Tabela 51 Altura em metros e peso em quilogramas de 22 universitários FIGURA 51 Altura em metros e peso em quilogramas de 22 universitários Podemos considerar que existe correlação entre X e Y quando os dados apresentados no diagrama de dispersão formam uma nuvem de pontos que de alguma forma mostra a variação conjunta das variáveis Veja o Exemplo 52 Exemplo 52 Correlação forte correlação fraca correlação nula Os dados apresentados na Tabela 52 estão apresentados nos diagramas da Figura 52 Veja que Tabela 52 Correlação forte fraca e nula FIGURA 52 Correlação forte fraca e nula no Conjunto A os pontos estão distribuídos em torno e bem próximos de uma reta mostrando variação conjunta a correlação é forte no Conjunto B os pontos estão espalhados em torno de uma reta embora exista variação conjunta a correlação é fraca no Conjunto C X cresce e Y varia ao acaso como a variação não é conjunta não existe correlação entre as variáveis ou seja a correlação é nula Dizemos que a correlação entre duas variáveis é positiva quando X cresce e Y em média também cresce dizemos que a correlação é negativa quando X cresce e Y em média decresce Exemplo 53 Correlação positiva e correlação negativa A simples observação dos diagramas apresentados na Figura 53 deixa claro que no Conjunto A a correlação é positiva enquanto no Conjunto B a correlação é negativa Tabela 53 Correlação positiva e correlação negativa FIGURA 53 Correlação positiva e correlação negativa A correlação entre duas variáveis pode ser linear ou não linear Dizemos que a correlação é linear quando a nuvem de pontos que representam os dados se dispersa em torno de uma reta A correlação é não linear quando a nuvem de pontos se dispersa em torno de uma curva Neste livro são estudadas apenas as relações lineares entre duas variáveis Exemplo 54 Relação linear e relação não linear entre duas variáveis Tabela 54 Relação linear e relação não linear entre duas variáveis A Figura 54 exibe correlações perfeitas no Conjunto A os pontos estão sobre uma reta enquanto no Conjunto B os pontos estão sobre uma parábola FIGURA 54 Relação linear e relação não linear entre duas variáveis 52 Cálculo do coeficiente de correlação O grau de correlação linear entre duas variáveis numéricas X e Y é medido pelo coeficiente de correlação de Pearson1 que se representa por r e é definido pela seguinte fórmula Coeficiente de correlação de Pearson é a medida do grau de relação linear entre duas variáveis numéricas O valor de r só pode variar entre 1 e 1 inclusive ou seja 1 r 1 Então Para julgar o valor de r existe uma regra prática embora rudimentar2 correlação pequena 0 r 025 ou 025 r 0 correlação fraca 025 r 050 ou 050 r 025 correlação moderada 050 r 075 ou 075 r 050 correlação forte 075 r 100 ou 1 r 075 Nas ciências físicas os coeficientes de correlação têm valores relativamente altos Nas ciências da saúde os coeficientes de correlação são menores devido à grande variabilidade dos fenômenos biológicos Nas ciências do comportamento coeficientes de correlação iguais ou maiores que 070 são extremamente raros Mas é importante saber que para julgar o valor do coeficiente de correlação r deve ser aplicado um teste estatístico3 que leva em conta o tamanho da amostra n Exemplo 55 Cálculo do coeficiente de correlação Vamos calcular o coeficiente de correlação para os dados apresentados na Tabela 53 Conjunto A Os cálculos intermediários são apresentados na Tabela 55 Tabela 55 Cálculos intermediários para a obtenção do coeficiente de correlação Conjunto A da Tabela 53 Substituindo na fórmula os somatórios pelos valores calculados na Tabela 55 e lembrando que o tamanho da amostra é n 10 obtemos Usando a regra prática podemos dizer que a correlação entre X e Y é positiva e moderada Exemplo 56 Cálculo do coeficiente de correlação Vamos calcular o coeficiente de correlação para os dados do Conjunto B apresentado na Tabela 53 Os cálculos intermediários são apresentados na Tabela 56 Tabela 56 Cálculos intermediários para obter o coeficiente de correlação Conjunto B da Tabela 53 Substituindo na fórmula os somatórios pelos valores calculados na Tabela 56 e lembrando que o tamanho da amostra é n 10 obtemos Aplicando a regra prática dizemos que a correlação entre X e Y é negativa e moderada É necessário pressupor para que se possa calcular o coeficiente de correlação que 1 cada unidade da amostra forneceu valores tanto de X como de Y 2 as unidades foram selecionadas ao acaso ou pelo menos são representativas de uma grande população 3 as variáveis X e Y foram medidas de forma independente Não tem sentido calcular o coeficiente de correlação se Y tiver sido obtido por meio de uma fórmula que inclui X Exemplo 57 Pressuposição necessária para o cálculo de r Você pode calcular o coeficiente de correlação entre as notas obtidas pelos alunos de um curso na primeira prova X com as notas obtidas na segunda prova Y No entanto não tem sentido correlacionar as notas obtidas na primeira prova X com as notas finais de aprovação Z se essas notas forem médias de todas as notas que incluem a nota X da primeira prova 53 Cuidados na interpretação do coeficiente de correlação O diagrama de dispersão dá ideia da relação entre duas variáveis Mas para que o coeficiente de correlação de Pearson tenha significado é preciso que os pontos estejam espalhados em torno de uma linha reta Portanto antes de calcular o valor de r convém desenhar um diagrama de dispersão se a relação não for linear o valor de r não mede a relação entre as variáveis Outro ponto importante é saber que correlação não implica causa Uma correlação positiva entre duas variáveis mostra que essas variáveis crescem no mesmo sentido mas não indica que aumentos sucessivos em uma das variáveis causam aumentos sucessivos na outra variável Da mesma forma uma correlação negativa entre duas variáveis mostra apenas que variam em sentidos contrários mas não indica que acréscimos em uma das variáveis causam decréscimos na outra variável E cuidado com o chavão correlação não significa causa Pode existir uma relação de causa e efeito entre as variáveis De qualquer forma um exemplo antigo mas muito interessante foi apresentado por um estatístico que mostrou a existência de correlação positiva entre o número de recém nascidos e o número de cegonhas em pequenas cidades da Dinamarca4 nos anos 1940 A correlação entre essas duas variáveis é espúria não indica relação de causa e efeito Existe uma terceira variável tamanho da cidade que se correlacionava tanto com o número de recémnascidos quanto maiores são as cidades mais crianças nascem quanto com o número de casas com chaminés perto das quais as cegonhas faziam seus ninhos 54 Gráfico de linhas Quem trabalha na área de saúde frequentemente precisa observar a tendência da variável ou seja como uma variável evolui ao longo do tempo Isso pode ser feito por meio de um gráfico de linhas também chamado gráfico de série temporal Os dados observados referemse à variável resposta e o tempo é a variável explanatória Variável resposta ou desfecho é a variável que estamos estudando Variável explanatória ou fator é a variável que tem efeito sobre a variável resposta ou desfecho Exemplo 58 Variável resposta e variável explanatória A altura de uma criança varia em função da idade tempo de vida Então a variável resposta é altura e a variável explanatória é idade Para fazer um gráfico de linhas 1 colete valores da variável Y nos tempos que você quer estudar 2 trace um sistema de eixos cartesianos no eixo das abscissas represente o tempo X e no eixo das ordenadas coloque a variável resposta Y 3 estabeleça as escalas e faça as necessárias graduações em cada um dos eixos 4 escreva os nomes das variáveis nos respectivos eixos 5 desenhe um ponto para representar cada par de valores X Y 6 una os pontos por segmentos de reta 7 escreva o título Exemplo 59 Gráfico de linhas Tabela 57 População residente no Brasil segundo o ano do censo demográfico Ano do censo População 1940 1 41236315 1950 1 51944397 1960 1 70070457 1970 93139037 1980 119002706 1991 146825475 2000 169799170 2010 190755799 Nota População presente Fonte IBGE 20035 No gráfico os pontos consecutivos ligados por linhas ajudam a visualizar as mudanças da variável no período em estudo Assim a Figura 55 mostra nitidamente o crescimento da população brasileira entre 1940 e 2010 Nesse período a população mais do que quadruplicou FIGURA 55 População do Brasil segundo o ano do censo demográfico 55 Exercícios resolvidos 551 Calcule os coeficientes de correlação para cada um dos três conjuntos de dados apresentados no Exemplo 52 Para o Conjunto A ΣX 55 ΣY 60 ΣXY 352 ΣX2 385 ΣY2 434 Portanto r 0282 Para o Conjunto B ΣX 55 ΣY 76 ΣXY 487 ΣX2 385 ΣY2 654 Portanto r 0869 Para o Conjunto C ΣX 55 ΣY 75 ΣXY 495 ΣX2 385 ΣY2 645 Portanto r 1000 552 Em um trabalho sobre acumulação de placa dental em pacientes jovens foi obtido tanto um índice clínico para medir a quantidade de placa como o peso seco das placas em miligramas Os dados são apresentados na Tabela 58 Construa um diagrama de dispersão Você acha que existe correlação entre as medidas Em caso positivo a correlação é linear Tabela 58 Peso seco em miligramas das placas dentais de dez pacientes e índice clínico Peso seco Índice clínico 23 25 28 45 35 50 37 68 58 80 69 100 82 120 105 128 119 132 142 135 FIGURA 56 Índice clínico e peso seco em miligramas das placas dentais em dez pacientes Existe correlação positiva entre as variáveis duas maneiras de medir placas dentais pois ambas crescem no mesmo sentido Aliás sempre se espera correlação entre duas maneiras de medir uma mesma variável Observe que a correlação é não linear6 553 Faça um diagrama de dispersão e calcule o coeficiente de correlação para os dados apresentados na Tabela 59 Discuta o resultado Tabela 59 Peso em quilogramas e comprimento em centímetros de sete recém nascidos Peso Comprimento 35 51 37 49 31 48 42 53 28 48 35 50 32 49 Tabela 510 Cálculos intermediários para obtenção do coeficiente de correlação FIGURA 57 Peso em quilogramas e comprimento em centímetros de sete recém nascidos Usando a fórmula obtémse r 0869 ou seja existe elevada correlação positiva entre peso e comprimento de recémnascidos 554 A Tabela 511 fornece o peso a estatura e o IMC índice de massa corporal de dez pessoas É razoável calcular os coeficientes de correlação das três variáveis combinadas duas a duas Por exemplo altura versus peso altura versus IMC peso versus IMC Tabela 511 Peso em quilogramas estatura em centímetros e IMC de dez pessoas Altura Peso IMC 156 535 2198 158 584 2339 161 592 2284 162 532 2027 165 640 2351 172 575 1944 173 670 2239 174 660 2180 179 770 2403 180 660 2037 O IMC é dado pela seguinte fórmula e indica a condição da pessoa como segue IMC Condição Abaixo de 185 Abaixo do peso De 185 a 249 Peso normal De 25 a 299 Sobrepeso De 30 a 349 Obesidade grau I De 35 a 399 Obesidade grau II 40 e mais Obesidade grau III É perfeitamente cabível calcular a correlação entre peso e altura mas nunca de qualquer dessas variáveis contra IMC uma vez que essa variável é calculada a partir das outras duas Calcular a correlação entre peso e IMC ou entre altura e IMC por exemplo entraria em conflito com a pressuposição de independência 555 Faça um gráfico de linhas para os dados apresentados no Exercício 552 para mostrar como o índice clínico varia em função do peso seco das placas Discuta A Figura 58 mostra que o índice clínico usado para medir a quantidade de placa aumenta linearmente e de forma acelerada com o peso seco das placas em miligramas até cerca de 8mg Depois tende a estabilizar Isso talvez se explique pelo fato de o índice clínico medir a área dos dentes com placas bacterianas mas não o volume Ora o peso leva em conta o volume das placas que aumenta quando o acúmulo de placas é grande FIGURA 58 Índice clínico em função do peso seco das placas bacterianas 556 Reveja os dados apresentados no Exemplo 51 relativos ao fisioterapeuta que mediu o peso Y e a altura X de 22 universitários O valor do coeficiente de correlação para esses dados é r 0747 075 Verifique A correlação é forte e positiva indicando relação entre as variáveis 6Existe uma explicação para o fato de a curva se estabilizar o índice clínico mede apenas a extensão da área coberta pelas placas e não o volume que determina o peso 56 Exercícios propostos 561 Explique o que cada um dos seguintes coeficientes de correlação informa sobre a relação entre X e Y a r 1 b r 1 c r 0 d r 090 e r 090 562 Sem ver os dados que tipo de correlação você espera entre a idade de pessoas adultas e velocidade de corrida b número de vendedores em uma loja e volume de vendas feitas por dia c a estatura de um homem e o número de dentes existentes na boca 563 Um estudo mostrou que a taxa de morte por doenças do coração era maior entre motoristas de ônibus do que entre cobradores A princípio pensouse que o tipo de trabalho fosse a maior causa da doença mas depois se notou que o tamanho dos uniformes fornecidos aos motoristas era sempre bem maior que o dos cobradores O que isso sugere a você 564 Os valores de X e Y devem ser medidos na mesma unidade para que se possa calcular o coeficiente de correlação 565 Indique a afirmativa que melhor descreve os diagramas a b e o c apresentados na Figura 59 FIGURA 59 Diagramas de dispersão a Forte correlação positiva b Forte correlação negativa c Correlação nula ou próxima de nula d Correlação positiva fraca e Correlação negativa fraca f Correlação perfeita positiva g Correlação perfeita negativa 566 Preencha os vazios O maior valor possível para o coeficiente de correlação é Se todos os pontos caírem exatamente sobre uma reta o valor de r será ou dependendo de a correlação ser ou Se todos os pontos estiverem espalhados ao acaso no diagrama de dispersão o coeficiente de correlação terá valor próximo de Quanto mais próximos de uma reta estiverem todos os pontos será o valor absoluto de r 567 A correlação entre idade e expectativa de vida é a positiva b nula c negativa d irregular 568 O diagrama de dispersão deve ser feito para estabelecer a se as variáveis estão ou não correlacionadas b se as variáveis são positivas c se as variáveis são negativas d a qualidade das variáveis 569 Faça um diagrama de dispersão e calcule o coeficiente de correlação para os dados apresentados na Tabela 512 Discuta o resultado Tabela 512 Dados relativos a duas variáveis X e Y X Y 3 2 5 2 4 7 2 7 1 2 5610 Faça diagramas de dispersão e calcule os valores de r para os conjuntos de dados da Tabela 513 Tabela 513 Dois conjuntos de pares de valores de duas variáveis 5611 Se todos os valores de Y forem iguais entre si qual será o valor de r 5612 Calcule o coeficiente de correlação para os dados apresentados na Tabela 514 Tabela 514 Idade gestacional em semanas e peso ao nascer em quilogramas de recém nascidos Idade gestacional Peso ao nascer 28 125 32 125 35 175 38 225 39 325 41 325 42 425 5613 Calcule os coeficientes de correlação de Pearson para os dados dos dois conjuntos de dados apresentados na Tabela 515 Discuta a razão de os valores de r serem tão diferentes embora os dados sejam tão semelhantes Tabela 515 Dois conjuntos de pares de valores de duas variáveis 5614 Suponha que foram obtidos de pacientes com enfisema7 o número de anos que o paciente fumou X e a avaliação do médico uma nota medida numa escala de zero a 100 sobre a diminuição da capacidade pulmonar do paciente Y Os resultados para dez pacientes são apresentados na Tabela 516 Calcule o valor do coeficiente de correlação Tabela 516 Tempo do hábito de fumar X em anos e diminuição da capacidade pulmonar Y avaliada pelo médico do paciente N do paciente X Y 1 25 55 2 36 60 3 22 50 4 15 30 5 48 75 6 39 70 7 42 70 8 31 55 9 28 30 10 33 35 Saiba que ΣY 18055 ΣX2 11053 ΣY2 30600 5615 O volume máximo de oxigênio inalado VO2MAX tem sido usado como medida da situação cardíaca tanto de indivíduos saudáveis como de pessoas que sofrem de doenças cardíacas Os dados8 de VO2MAX em mililitros por quilograma por minuto e o tempo de exercício em minutos para 12 voluntários homens saudáveis depois da prática de exercícios estão apresentados na Tabela 517 Desenhe um diagrama de dispersão Olhando o diagrama você diria que VO2 MAX diminui quando aumenta o tempo de atividade Tabela 517 Duração do exercício em minutos e VO2 MAX em mililitros por quilograma por minuto para 12 homens saudáveis Voluntário Duração do exercício VO2 MAX 1 100 82 2 95 73 3 102 68 4 105 74 5 110 66 6 113 63 7 116 58 8 120 54 9 121 56 10 125 51 11 128 55 12 130 44 5616 Faça um gráfico de linhas para os dados apresentados na Tabela 518 Discuta o resultado Tabela 518 Taxas de fecundidade total no Brasil segundo o ano do censo Ano do censo Taxa de fecundidade total 1940 616 1950 621 1960 628 1970 576 1980 435 1991 289 2000 238 2010 190 7Ott L e Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 p 487 8Ott L e Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 p 503 5IBGE Dados Históricos dos Censos de 1940 a 1996 IBGE Instituto Brasileiro de Geografia e Estatística wwwibgegovbrhomeestatisticapopulacao19401996shtm Acesso em Abr 2014 Resultados do Universo do Censo Demográfico 2010 wwwibgegovbr Acesso em Abr 2014 1Para estudar a correlação entre variáveis ordinais calculase o coeficiente de correlação de Spearman Ver em Vieira Sonia Bioestatística tópicos avançados Rio de Janeiro Elsevier 2003 2A regra é imprecisa mas serve como primeira aproximação Além disso valores de r entre 030 e 030 embora possam apresentar significância estatística não são perceptíveis nos diagramas Colton T Statistics in Medicine New York Little Brown and Company 1974 p 20911 3Ver o teste t no Capítulo 12 4O exemplo é de Gustav Fischer que apresentou em gráfico a população da cidade de Oldenburg durante sete anos de 1930 a 1936 e o número de cegonhas observadas em cada um desses anos Box G E P Hunter W G Hunter J S Statistics for experimenters New York Wiley 1978 CAPÍTULO 6 Noções sobre Regressão Como vimos no Capítulo 5 a configuração dos pontos no diagrama de dispersão pode sugerir correlação entre duas variáveis mas também pode sugerir relação linear entre elas Se a variação da variável resposta Y em função da variação da variável explanatória X for aproximadamente linear é razoável buscar a equação da reta que descreve os dados Exemplo 61 Uma relação linear Um pesquisador colocou em oito tubos de ensaio a mesma quantidade de plasma humano e depois reuniu nos oito tubos a mesma quantidade de procaína1 O pesquisador então analisou o conteúdo de cada tubo em tempos diferentes variável X e obteve a quantidade de procaína que já estava hidrolisada Y em cada um Os dados são apresentados na Tabela 61 e o diagrama de dispersão na Figura 61 A relação entre a quantidade de procaína hidrolisada Y e o tempo decorrido X após o início da pesquisa parece linear Então tem lógica traçar uma reta para mostrar como Y varia em função de X nas condições estudadas Tabela 61 Quantidade de procaína hidrolisada em 10 moleslitro no plasma humano em função do tempo decorrido desde que foi colocada no tubo de ensaio contendo plasma humano em minutos Tempo Quantidade hidrolisada 2 35 3 57 5 99 8 163 10 193 12 257 14 282 15 326 FIGURA 61 Quantidade de procaína hidrolisada em 10 moleslitro no plasma humano em função do tempo em minutos decorrido desde que foi colocada no tubo de ensaio contendo plasma humano 1Procaína é um anestésico local 61 Regressão linear simples Regressão é um termo antigo em Estatística mas ainda usado para relatar que um modelo matemático foi ajustado aos dados para explicar a variação da variável resposta Y em função da variação da variável explanatória X Exemplo 62 Ideia de regressão Reveja o Exemplo 61 Como se explica a variação da quantidade de procaína nos oito tubos de ensaio que continham plasma humano Pelo passar do tempo Veja bem a procaína se hidrolisa no plasma humano ou seja a água do plasma quebra a molécula de procaína por meio de reação química À medida que o tempo passa mais procaína é hidrolisada Agora observe a Figura 61 a variação da quantidade de procaína hidrolisada em função da variação do tempo decorrido desde que foi colocada no tubo de ensaio contendo plasma humano é linear Vamos estudar neste capítulo apenas a regressão linear simples linear porque o modelo que vamos ajustar é uma reta e simples porque há apenas uma variável explanatória A melhor reta melhor no sentido de que reúne as propriedades estatísticas desejáveis recebe o nome de reta de regressão2 Nesta seção são fornecidas as fórmulas para se obter essa reta ou seja para se obterem o coeficiente linear e o coeficiente angular da reta Equação da reta a coeficiente linear b coeficiente angular Vamos entender o significado desses coeficientes no sistema de eixos cartesianos O coeficiente linear da reta indicado neste livro por a dá a altura em que a reta corta o eixo das ordenadas Se a for um número positivo a reta corta o eixo das ordenadas acima da origem negativo a reta corta o eixo das ordenadas abaixo da origem zero a reta passa na origem do sistema de eixos cartesianos Exemplo 63 Equação da reta coeficientes lineares diferentes FIGURA 62 Apresentação gráfica de retas com diferentes coeficientes lineares O coeficiente angular da reta aqui indicado por b dá a inclinação da reta3 Se b for um número positivo a reta é ascendente negativo a reta é descendente zero a reta é paralela ao eixo das abscissas Exemplo 64 Equação da reta coeficientes angulares diferentes FIGURA 63 Apresentação gráfica de retas com diferentes coeficientes angulares Em Estatística o coeficiente angular da reta é obtido por meio da seguinte fórmula e o coeficiente linear é obtido por meio desta fórmula em que e são as médias de Y e X respectivamente Veja o Exemplo 65 Exemplo 65 Cálculo dos coeficientes de regressão Vamos obter a reta de regressão para o problema apresentado no Exemplo 61 Tabela 62 Cálculos intermediários para a obtenção de a e de b Aplicando as fórmulas obtemos Para traçar a reta de regressão é preciso dar valores arbitrários para X e depois calcular os valores de Y Indicamse os valores calculados de Y por Ŷ Fazendo X 5 temse que e fazendo X 15 temse que Os dois pares de valores X 5 e Ŷ 982 e X 15 e Ŷ 3142 permitem traçar a reta de regressão no diagrama de dispersão Veja a Figura 64 FIGURA 64 Reta de regressão quantidade de procaína hidrolisada em 10 moleslitro no plasma humano em função do tempo em minutos decorrido após sua administração A equação da reta de regressão permite estimar valores de Y para quaisquer valores de X dentro do intervalo estudado mesmo que tais valores não existam na amostra Exemplo 66 Estimativas da variável resposta Observe os dados apresentados na Tabela 61 Não existe o valor X 13 mas é possível estimar o valor da variável resposta Y para X 13 Basta fazer O valor Ŷ 2710 é uma estimativa feita com base na equação da reta de regressão para a quantidade de procaína que deve estar hidrolisada 13 minutos após sua administração 62 Extrapolação Dada a reta de regressão fica fácil calcular o valor de Y para qualquer valor de X No entanto o bom senso deve fazer com que você não estime valores de Y para valores de X muito além do intervalo estudado a extrapolação pode levar ao absurdo porque a relação entre X e Y linear no intervalo estudado pode não ser linear fora desse intervalo A extrapolação pode ser incorreta ou até mesmo desastrosa É verdade que as pessoas gostariam de prever o que acontecerá em futuro próximo ou longínquo com base no que viram no passado Mas isso nem sempre dá certo o fenômeno pode ser modificado por fatores que não foram previstos Toda extrapolação exige muito cuidado Exemplo 67 A extrapolação indevida A Tabela 63 apresenta as temperaturas médias mensais nos primeiros sete meses do ano de uma cidade do sul do Brasil Esses dados são apresentados no diagrama de dispersão da Figura 65 Se alguém ajustar uma reta como a mostrada no diagrama e quiser usar essa reta para prever a temperatura na cidade em dezembro mês 12 chegará a um valor absurdo menor do que 2 graus negativos A razão disso é óbvia o fenômeno é cíclico não é linear além do período estudado Tabela 63 Temperaturas médias em graus centígrados segundo o mês de uma cidade do sul do Brasil Mês Número do mês Temperatura média no mês Janeiro 1 23 Fevereiro 2 22 Março 3 20 Abril 4 18 Maio 5 15 Junho 6 12 Julho 7 9 FIGURA 65 Reta ajustada às temperaturas médias de uma cidade do sul do Brasil segundo o mês 63 Escolha da variável explanatória Quando os valores de X são fixados antes do início da coleta dos dados ajustase a regressão de Y contra X No Exemplo 61 o pesquisador fixou os tempos em que iria observar a quantidade de procaína hidrolisada antes de iniciar a pesquisa Então a quantidade de procaína hidrolisada depende do tempo em que foi medida não o contrário Nem sempre os valores de X são fixados antes do início da pesquisa Nesses casos tanto é possível ajustar a regressão de Y contra X quanto a regressão de X contra Y mas recomendase identificar a variável que deve ser prevista conhecido o valor da outra variável e ajustar a regressão da variável resposta Y contra a variável explanatória X Exemplo 68 Escolha da variável explanatória Veja os dados apresentados na Tabela 64 Você deve ajustar uma regressão da pressão arterial Y contra o peso X porque é o peso que pode explicar explanar a pressão arterial e não o contrário Tabela 64 Pressão arterial PA em milímetros de mercúrio e peso de cães adultos em quilogramas Foram calculados Então A reta de regressão apresentada na Figura 66 mostra a tendência de ocorrer aumento de pressão arterial quando aumenta o peso mas convém observar que os pontos estão muito dispersos em torno da reta Isso significa que a previsão da pressão arterial de um cão adulto em função de seu peso apresenta grande margem de erro FIGURA 66 Reta de regressão para pressão arterial em função do peso 64 Coeficiente de determinação Antes de aprendermos o que é coeficiente de determinação vamos entender o que é uma relação matemática e o que é uma relação estatística Se você aumentar o lado de um quadrado em 1 cm a área aumenta E se você continuar aumentando o lado do quadrado de 1 cm em 1 cm a área continuará aumentando Você sabe dizer exatamente a área do quadrado para cada tamanho de lado porque a relação entre a área de um quadrado e seus lados é matemática área lado lado Pense agora em alguém que quer diminuir o peso porque seu médico lhe disse obesos tendem a ter pressão arterial alta Sabese portanto que o aumento da pressão arterial é função do aumento de peso Será que existe uma relação exata entre essas duas variáveis ou seja para cada quilo a mais haverá aumento fixo na pressão arterial Não é assim Sabese que existe a tendência de a pressão arterial aumentar de acordo com o aumento de peso mas a pressão arterial também aumenta em função de outros fatores como idade vida sedentária hereditariedade e certos hábitos como por exemplo o de fumar e de consumir sal em excesso E mesmo que conhecêssemos muitas das causas que explicam o aumento da pressão arterial ainda assim não saberíamos prever exatamente a pressão arterial de uma pessoa A relação entre pressão arterial e peso é probabilística e portanto sujeita a erro Assim existem relações determinísticas como é a relação entre lado e área de um quadrado e relações probabilísticas como é a relação entre peso e pressão arterial No primeiro caso não há erro na previsão ou seja dado o lado de um quadrado você pode dizer exatamente qual é a área está determinado No segundo caso a previsão é possível mas dentro de certas margens de erro Neste ponto a pergunta é inevitável qual é o tamanho desse erro Existe uma estatística denominada coeficiente de determinação indicada por R2 que mede a contribuição de uma variável na previsão de outra Parece complicado mas tente entender este exemplo imagine que você queira comprar uma camiseta para uma criança Você chega à loja e pede ajuda à vendedora O que ela pergunta em primeiro lugar A idade da criança claro Por quê Porque o tamanho de uma criança é função da idade Boa parte da variação do tamanho das crianças é explicada pela variação de sua idade o que é medido pelo R2 Portanto saber a idade da criança ajuda na previsão do tamanho de sua camiseta4 O coeficiente de determinação é a proporção da variação de Y explicada pela variação de X O coeficiente de determinação é calculado pelo quadrado do coeficiente de correlação Não pode portanto ser negativo Varia entre zero e 1 inclusive Para interpretar o coeficiente de determinação é melhor transformálo em porcentagem multiplicando o resultado obtido em seu cálculo por 100 Veja o Exemplo 69 Exemplo 69 Coeficiente de determinação Calcule o coeficiente de determinação para os dados apresentados na Tabela 61 e para os dados apresentados na Tabela 64 Discuta cada um deles Usando os cálculos intermediários já apresentados na Tabela 62 é possível obter R2 0994 Isso significa que 994 da variação da quantidade de procaína hidrolisada no plasma se explicam pelo tempo decorrido após sua administração Em outras palavras se você souber o tempo decorrido desde que a procaína foi colocada no plasma poderá justificar 994 da variação de procaína que se hidrolisou Para os dados contidos na Tabela 64 com o auxílio de um computador ou de seu professor é possível obter R2 0265 um valor baixo Se fosse alto a explicação seria que dado o peso de um cão a pressão arterial seria altamente previsível No entanto fatores como idade vida sedentária hereditariedade e alimentação também são importantes Para ajustar uma regressão linear simples de X contra Y é preciso que os dados dessas duas variáveis tenham sidos obtidos de forma independente Então quando você for interpretar os resultados do ajuste de uma regressão verifique como foram obtidos os dados de X e Y Veja o Exemplo 69 a regressão obtida é uma falácia porque não se pode fazer uma regressão da diferença das variáveis contra o valor inicial Exemplo 610 Uma falácia Observe os dados da Tabela 65 que estão no diagrama de dispersão da Figura 67 os pontos não sugerem correlação entre as variáveis O coeficiente de determinação é R2 0030 No entanto se você fizer a diferença Y X e colocar a diferença como função do valor inicial X obterá o diagrama de dispersão da Figura 68 com R2 0582 Só que isso não pode ser feito a regressão obtida é uma falácia Tabela 65 Notas de dez alunos em duas provas 1ª prova 2ª prova Diferença 2ª prova 1ª prova 7 7 0 5 5 0 4 8 4 9 9 0 2 10 8 4 3 1 8 4 4 10 6 4 6 4 2 7 3 4 FIGURA 67 Nota na segunda prova em função da nota na primeira prova FIGURA 68 Diferença das notas de dez alunos em duas provas em função da primeira nota 65 Regressão não linear Existem situações em que os pares de valores das variáveis X e Y apresentados em diagrama de dispersão não se distribuem em torno de uma reta5 Veja o Exemplo 611 Exemplo 611 Uma regressão não linear Observe os dados da Tabela 66 apresentados em diagrama de dispersão na Figura 69 os pontos estão dispersos em torno de uma curva Tabela 66 Valores de duas variáveis X e Y X Y 00 40 06 80 12 150 15 226 18 364 21 453 24 600 FIGURA 69 Diagrama de dispersão para os valores X e Y apresentados na Tabela 66 Quando os pontos apresentados em diagrama de dispersão não estão em torno de uma reta podemos transformar6 a variável Y Por exemplo é possível desenhar um diagrama de dispersão colocando no lugar de valores de Y os valores do logaritmo neperiano7 de Y Exemplo 612 Transformação dos dados Para os dados apresentados no Exemplo 611 os valores de X e dos logaritmos neperianos de Y estão apresentados na Tabela 67 e na Figura 610 Note que o diagrama de dispersão apresentado na Figura 610 mostra pontos praticamente sobre uma reta Tabela 67 Valores de X e dos logaritmos neperianos de Y X lnY 0 13863 06 20794 12 27081 15 31179 18 35946 21 38133 24 40943 FIGURA 610 Diagrama de dispersão É possível ajustar uma regressão linear de lnY contra X Para calcular a e b nas fórmulas dos coeficientes de regressão usamse os logaritmos neperianos de Y em vez dos valores coletados de Y Se você quiser voltar ao valor da variável Y é preciso calcular o antilogaritmo da equação Essa equação é chamada de exponencial porque traz a variável explanatória no expoente8 Exemplo 613 Ajuste de regressão não linear A Tabela 68 apresenta os cálculos intermediários para se obter a equação exponencial no Exemplo 611 Tabela 68 Cálculos intermediários para obtenção de a e b A equação de reta de regressão de lnY contra X é Se você quiser voltar ao valor da variável Y é preciso calcular o antilogaritmo da equação Você então obtém a equação exponencial ou Para que uma regressão linear possa ser ajustada aos dados muitas vezes basta transformar uma das variáveis9 Outras vezes é preciso transformar ambas as variáveis10 Também podem ser utilizadas outras transformações além da transformação logarítmica mostrada neste capítulo Assim também são usadas a extração de raiz quadrada e a inversão além de outras mais complicadas As transformações são em geral empíricas ou seja dados n pares de valores X e Y é preciso fazer várias tentativas até achar a transformação que permita ajustar uma regressão linear aos pares de dados Algumas vezes porém o modelo é especificado teoricamente Por exemplo a equação de Arrenhius dá a velocidade de uma reação química em função da temperatura em que a reação se processa Se T é a temperatura em graus Kelvin na qual ocorre a reação química a equação de Arrenhius estabelece que a velocidade V é dada por em que lnV é o logaritmo neperiano da velocidade da reação química à temperatura T e R é uma constante 1987 calgraumol Para ajustar a equação de Arrenhius aos dados de temperatura e de velocidade de uma reação química é preciso calcular os valores das variáveis transformadas ou seja o logaritmo neperiano da velocidade e o inverso da temperatura Em seguida ajustase uma regressão linear do logaritmo neperiano de V contra o inverso de T isto é Então C a e A Rb Uma regra porém é básica antes de ajustar uma reta de regressão aos dados devem se colocar os pontos X Y em um diagrama de dispersão e estudar o conhecimento disponível na literatura sobre o fenômeno A inspeção dos dados numéricos é obrigatória Às vezes é possível ajustar mais de um modelo aos dados e depois escolher com base nas estatísticas obtidas coeficientes de determinação etc o modelo que melhor se ajusta aos dados Neste Capítulo vimos como se ajusta uma regressão linear simples aos dados linear porque é uma reta e simples porque está no plano existe uma só variável resposta estudada em função de uma só variável explanatória Mas a variação da variável resposta ou o desfecho pode ser posta em função de diversas variáveis explanatórias É o caso por exemplo da pressão arterial desfecho que depende não apenas do fator peso como mostrado no exemplo mas também de outros fatores hereditários de alimentação de hábitos etc Nesses casos ajustase aos dados uma regressão múltipla ou seja uma função com diversas variáveis explanatórias Mas esse tema não será tratado neste livro 66 Exercícios resolvidos 661 Ajuste uma reta de regressão aos dados apresentados no Exercício 553 Cap 5 para estudar peso em função do comprimento dos recémnascidos Calcule o coeficiente de determinação FIGURA 611 Reta de regressão para peso de recémnascidos em função do comprimento 662 Ajuste uma reta de regressão aos dados apresentados no Exercício 554 Cap 5 para estudar peso em função de altura Calcule o coeficiente de determinação FIGURA 612 Reta de regressão para peso em função da altura 67 Exercícios propostos 671 Ajuste uma reta de regressão aos dados apresentados na Tabela 69 Tabela 69 Teor de vitamina C mg de ácido ascórbico100 mL de suco de maçã em função do período de armazenamento em dias Período de armazenamento Teor de vitamina C 1 409 45 327 90 245 135 327 180 164 672 A reta de regressão será a mesma se você trocar X por Y O coeficiente de correlação muda 673 É preciso que X e Y tenham as mesmas unidades para que seja possível calcular a reta de regressão 674 Se os filhos fossem exatamente 5 cm mais altos que seus pais como ficaria a reta de regressão que daria a altura dos filhos em função da altura de seus pais 675 Como seria a reta de regressão se todos os pontos de X tivessem o mesmo valor 676 Os dados da Tabela 610 foram apresentados com a finalidade de mostrar que existe relação entre CPOD médio a média de um índice de cáries ou seja a média da soma do número de dentes afetados pela cárie em uma amostra de crianças C cariados P perdidos por cárie O obturados ou seja restaurados devido a ataques de cárie e a média do número de anos de estudo do responsável pelas crianças O que você acha Tabela 610 Número médio de anos de estudo do responsável pelas crianças de uma amostra e CPOD médio Anos de estudo do responsável CPOD médio 0 170 De 1 até 4 anos 185 De 5 até 8 anos 075 De 9 a 11 anos 044 677 Uma cadeia de padarias queria saber se a quantidade de dinheiro gasto em propaganda faz as vendas aumentarem Durante seis semanas fez em ordem aleatória gastos com propaganda de valores variados conforme mostra a Tabela 611 e anotou os valores recebidos nas vendas Calcule a reta de regressão e coloque em forma de gráfico O que você acha Tabela 611 Gastos com propaganda em reais na semana e valores recebidos em reais nas vendas Gastos Valores recebidos 10000 102000 15000 161000 20000 203000 25000 256000 30000 280000 678 Com os dados11 apresentados no Exercício 5614 Cap 5 obtidos de pacientes com enfisema calcule a reta de regressão 679 Com os dados12 apresentados no Exercício 5615 Cap 5 sobre o volume máximo de oxigênio inalado VO2MAX você diria que a variável diminui linearmente à medida que a atividade aumenta Calcule a reta de regressão 6710 Os dados13 apresentados na Tabela 612 referemse à pressão sanguínea diastólica em milímetros de mercúrio quando a pessoa está em repouso Os valores de X indicam o tempo em minutos desde o início do repouso e os valores de Y são valores da pressão sanguínea diastólica Desenhe um diagrama de dispersão Uma reta de regressão explicaria a variação da pressão sanguínea diastólica em função desse tempo de repouso Tabela 612 Tempo em minutos desde o início do repouso e pressão sanguínea diastólica em milímetros de mercúrio Tempo em minutos desde o início do repouso Pressão sanguínea diastólica 0 72 5 66 10 70 15 64 20 66 6711 Faça um diagrama de dispersão para apresentar os dados da Tabela 613 Calcule a reta de regressão Coloque a reta no gráfico Que peso médio deveriam ter dez ratos com 32 dias Tabela 613 Idade em dias e peso médio em gramas de dez ratos machos da raça Wistar Idade Peso médio 30 64 34 74 38 82 42 95 46 106 6712 Ajuste uma equação exponencial aos dados da Tabela 614 Tabela 614 Dados de X e Y X Y 28 125 32 125 35 175 38 225 39 325 41 325 42 425 11Ott L e Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 p 487 12Ott L e Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 p 487 13Schork M A e Remington R D Statistics with applications to the biological and health sciences 3 ed New Jersey Prentice Hall 2000 p 297 2Muitos autores referemse à reta de regressão como reta de mínimos quadrados porque esse é o método estatístico utilizado para se chegar às fórmulas dadas nesta seção 3O coeficiente angular chamado neste livro de b é a tangente trigonométrica do ângulo θ formado pelo eixo das abscissas e pela reta de equação Y a bX 4A vendedora também pergunta se o presente é para menino ou menina Essa informação também contribui embora menos do que a idade para a escolha do tamanho na primeira infância os meninos são maiores mostrandose contudo decisiva para a escolha do modelo 5No programa Excel você encontra as seguintes opções para ajuste de regressão linear que vimos até o momento logarítmica polinomial que não será vista neste livro potência exponencial média móvel que não será vista neste livro 6Desde que não haja razão teórica para se acreditar que a relação é obrigatoriamente linear 7No Excel procure a opção exponencial 8O programa Excel para computadores faz essa transformação com muita facilidade 9Para ajustar uma regressão logarítmica transforme X ou seja ajuste a regressão dos logaritmos de X contra Y Para ajustar uma regressão potência transforme X e Y ou seja ajuste a regressão dos logaritmos de X contra os logaritmos de Y 10Veja mais sobre o assunto em Vieira Sonia Bioestatística tópicos avançados 2 ed Rio de Janeiro Campus 2003 CAPÍTULO 7 Noções sobre Amostragem Até o momento vimos a Estatística Descritiva que mostra como relatar os dados que temos em mãos A interpretação do material coletado é feita por meio de gráficos e da apresentação de estatísticas como médias e desvios padrões e se for o caso coeficientes de correlação e reta de regressão Então se você medir o peso e a altura de cem crianças com 7 anos saberá apresentar e resumir os dados ou seja descrever o que encontrou nesse grupo de crianças É possível generalizar as observações feitas nessas cem crianças uma amostra para todas as crianças com 7 anos da região a população Mas para isso é preciso usar um conjunto de técnicas de Estatística que permitem com base em uma amostra fazer inferência para a população de onde a amostra foi retirada Veremos um pouco dessas técnicas nos próximos capítulos Neste vamos estudar população e amostra 71 População e amostra População ou universo é o conjunto de unidades sobre o qual desejamos informação Amostra é todo subconjunto de unidades retiradas da população para obter a informação desejada A chave para o bom entendimento da Estatística é saber distinguir entre os dados observados amostra e a vasta quantidade de dados que poderiam ter sido observados população O uso de amostras permite obter respostas para a questão estudada com margens de erro conhecidas Os termos população ou universo não se restringem porém ao conjunto de pessoas referindose sim a qualquer conjunto grande de unidades que têm algo em comum como por exemplo radiografias feitas pelos alunos de uma faculdade em determinado curso prontuários de pacientes atendidos pelo SUS durante todo um ano laudos de necropsia encaminhados à Justiça por um dado serviço auditorias das contas hospitalares de uma maternidade ou certidões de óbito registradas numa cidade em determinado período Também é preciso distinguir entre populaçãoalvo e população configurada Para isso imagine que um instituto de pesquisa queira saber a proporção de moradores de uma cidade favoráveis à proposta do prefeito de implantar ciclovias A populaçãoalvo da pesquisa é constituída por todos os moradores da cidade No entanto nem toda a populaçãoalvo estará disponível para ser amostrada há os que não estão circulando nas ruas porque estão hospitalizados ou estão em casa cuidando de uma criança ou um doente os muito velhos os presidiários os que não sabem responder como é o caso de crianças pequenas e deficientes mentais indecisos pessoas que não aceitam responder etc Logo a população configurada para amostragem é necessariamente menor do que a populaçãoalvo Veja a Figura 72 FIGURA 72 Configuração da amostra FIGURA 71 A ideia de amostragem 72 Parâmetros e estatísticas Parâmetro é um valor em geral desconhecido e portanto que precisa ser estimado que representa determinada característica da população Em dada população e em dado momento o parâmetro não varia ou seja é um valor fixo1 Estatística é uma quantidade calculada com os dados de uma amostra É usada para estimar o parâmetro correspondente na população de onde foi retirada2 1Statistics Glossary Disponível em wwwstatsglaacukstepsglossary Acesso em 22 de janeiro de 2015 2Statistics Glossary wwwstatsglaacukstepsglossary Acesso em 22 de janeiro de 2015 É importante entender quando se faz pesquisa por amostragem que é possível tirar diferentes amostras da mesma população e os valores das estatísticas variarão de amostra para amostra Por exemplo no Brasil a média de idade dos universitários é um parâmetro Diferentes amostras retiradas ao acaso da população de alunos darão estimativas diferentes desse parâmetro mas todas serão estatísticas 73 Razões para o uso de amostras Chamase de censo o levantamento de dados de toda a população A Fundação Instituto Brasileiro de Geografia e Estatística IBGE faz o Censo Demográfico do Brasil a cada dez anos por exigência da Constituição da República Federativa do Brasil São coletadas por exemplo informações sobre sexo idade e nível de renda de todos os residentes no país Mas os pesquisadores da área de saúde não fazem censos embora às vezes usem os dados neles coletados As razões para se trabalhar com amostras e não com toda a população são poucas mas absolutamente relevantes A primeira razão é a questão do custo e da demora dos censos Por exemplo qual é a média de peso ao nascer de nascidos vivos no Brasil em determinado ano Avaliar toda a população pode ser impossível para o pesquisador porque levaria muito tempo e seria muito caro Outra razão para estudar amostras é o fato de existirem populações tão grandes que as estudar por inteiro seria impossível Por exemplo quantos peixes tem o mar Esse número é em determinado momento matematicamente finito mas tão grande que pode ser considerado infinito para qualquer finalidade prática Então quem faz pesquisas sobre peixes do mar trabalha necessariamente com amostras Outras vezes é impossível estudar toda a população porque o estudo destrói as unidades Uma empresa que fabrica fósforos e queira testar a qualidade do produto que fabrica não pode acender todos os fósforos que fabricou apenas alguns deles O uso de amostras tem ainda outra razão o estudo cuidadoso de uma amostra tem maior valor científico do que o estudo sumário de toda a população Por exemplo imagine que um pesquisador queira estudar os hábitos de consumo de bebidas alcoólicas entre adolescentes de uma grande cidade É melhor que o pesquisador faça a avaliação criteriosa de uma amostra do que a avaliação sumária de toda a população de adolescentes da cidade De qualquer modo a amostra deve refletir as características da população da qual foi retirada 74 Métodos de amostragem Antes de obter uma amostra é preciso definir quais serão os critérios para selecionar as unidades que a comporão De acordo com o critério temse o tipo de amostra como apresenta o digrama da Figura 73 FIGURA 73 Tipos de amostra 741 Amostra probabilística A amostra probabilística é constituída por unidades retiradas da população por procedimento casual ou aleatório Vamos definir dois tipos de amostra probabilística a casual simples e a estratificada 7411 Amostra casual simples Para obter uma amostra casual simples também chamada amostra aleatória simples confira um número a cada unidade da população e depois selecione ao acaso os números das unidades que irão formar a amostra Veja a Figura 74 que exibe quatro pessoas selecionadas ao acaso de um conjunto de doze pessoas FIGURA 74 População e amostra casual simples Os números das unidades que serão chamadas para a amostra devem ser obtidos por um gerador de números aleatórios que é encontrado em computador3 É o que chamamos informalmente de sorteio Também se faz o procedimento aleatório retirando papeizinhos de uma caixa ou bolas de uma urna usados em programas de auditório na televisão Para lembrar esse procedimento veja a Figura 75 e o Exemplo 71 que ajudam a entender as regras do procedimento que deve ser evitado porque é mais sujeito ao viés FIGURA 75 Procedimento aleatório Exemplo 71 Amostra aleatória simples Um dentista quer obter uma amostra de 2 dos quinhentos pacientes de sua clínica para entrevistálos sobre a qualidade de atendimento da secretária Para obter uma amostra aleatória de 2 dos quinhentos pacientes é preciso sortear dez Isso pode ser feito da maneira mais antiga e mais conhecida e também mais trabalhosa escrevem se os nomes de todos os pacientes em pedaços de papel colocamse todos os pedaços de papel em uma urna misturandoos bem e retirase um nome O procedimento é repetido até serem retirados os nomes dos dez pacientes que comporão a amostra Seria porém melhor que o dentista tivesse usado um gerador de números aleatórios que pode ser encontrado em um computador 7412 Amostra estratificada Se a população estiver naturalmente dividida em grupos distintos de pessoas o pesquisador deve obter uma amostra aleatória estratificada Para isso agrupa as pessoas similares em estratos e obtém de cada estrato uma amostra casual simples proporcional ao tamanho do estrato formando então uma só amostra Veja a Figura 76 e o Exemplo 72 FIGURA 76 Amostra estratificada Exemplo 72 Amostra estratificada Um dentista quer obter uma amostra de 2 dos quinhentos pacientes de uma clínica para entrevistálos sobre a qualidade de atendimento da secretária Ele suspeita que homens estejam sendo mais bem atendidos do que mulheres Aproximadamente ⅔ dos pacientes são do sexo feminino Para obter dados de ambos os grupos o dentista deve separar as fichas de homens e de mulheres formando assim dois estratos Em seguida obtém uma amostra aleatória de cada estrato e reúne os dados dos dois estratos numa só amostra aleatória estratificada A amostra aleatória simples é em tese a preferida pelos estatísticos No entanto só a amostra estratificada garante a representação de todos os estratos as categorias da população na amostra coletada 742 Amostra semiprobabilística Para retirar da população uma amostra semiprobabilística usase o procedimento parcialmente aleatório Vamos definir três tipos de amostra probabilística amostra sistemática amostra por conglomerados e amostra por quotas 7421 Amostra sistemática A amostra sistemática é constituída por unidades retiradas da população seguindo um sistema preestabelecido Você ordena as unidades numera e retira para a amostra a k ésima unidade O número k é obtido por sorteio Por exemplo se você quiser uma amostra constituída por ⅓ dos prontuários de um hospital deve sortear um número entre 1 e 3 Se sair o número 1 selecione a primeira unidade número 1 para a amostra A partir de então tome sistematicamente a primeira unidade de cada três em sequência No caso do exemplo como a primeira unidade é 1 seguem de três em três as unidades de números 4 7 10 etc Veja a Figura 77 e o Exemplo 73 FIGURA 77 Amostra sistemática Exemplo 73 Amostra sistemática Imagine que você precise obter uma amostra de 2 dos quinhentos pacientes de uma clínica para entrevistálos sobre a qualidade de atendimento da secretária Dois por cento de quinhentos pacientes significam uma amostra de dez Para obter essa amostra você pode dividir 500 por 10 obtendo 50 Sorteie então um número entre 1 e 50 inclusive Se sair o número 27 esse será o número do primeiro paciente a ser incluído na amostra Depois a partir do número 27 conte 50 e chame esse paciente Proceda dessa forma até completar a amostra de dez pacientes 7422 Amostra por conglomerados Conglomerados são grupos de unidades que já existem na população por alguma razão Um asilo é um conglomerado de idosos uma escola de ensino médio é um conglomerado de adolescentes um hospital é um conglomerado de doentes Na amostragem por conglomerados um conglomerado é selecionado ao acaso da população Veja a Figura 78 que mostra uma população com três conglomerados da qual foi sorteado um e o Exemplo 74 FIGURA 78 Amostra por conglomerados Exemplo 74 Amostra por conglomerados Um professor de Educação Física quer estudar o efeito da terapia de reposição hormonal uso de hormônios por mulheres depois da menopausa sobre o desempenho nos exercícios Para obter uma amostra por conglomerados o professor pode sortear duas academias similares conglomerados de ginástica da cidade avaliar o desempenho das mulheres que frequentam essas duas academias e comparar o desempenho das que fazem com o daquelas que não fazem uso da terapia de reposição hormonal na pósmenopausa Não confunda amostra aleatória estratificada com amostra por conglomerados Embora ambas envolvam grupos são muito diferentes Os conglomerados existem na população e embora haja diferença dentro deles são similares entre si de tal maneira que cada um deles pode representar a população Os estratos por sua vez são formados pelo pesquisador porque a população que examina é constituída por unidades diferentes Então embora haja similaridade dentro dos estratos existem diferença entre eles 7423 Amostra por quotas Na amostragem por quotas as pessoas são selecionadas para a amostra porque têm uma característica bem específica A ideia de quota é semelhante à de estrato com uma diferença básica a amostra estratificada é selecionada ao acaso da população enquanto a amostra por quotas não é aleatória A grande vantagem é ser relativamente barata Por essa razão é muito usada em levantamentos de opinião e pesquisas de mercado Veja a Figura 79 ⅔ da população é negra ⅓ da população é branca Para constituir a amostra percorrese a população tomamse ⅔ dos primeiros negros encontrados e ⅓ dos primeiros brancos encontrados não se faz sorteio FIGURA 79 Amostra por quotas Exemplo 75 Amostra por quotas Considere uma pesquisa de opinião referente a serviços públicos de saúde Como se faz uma amostra por quotas Você possivelmente irá entrevistar homens e mulheres com mais de 18 anos que vivem em uma metrópole por exemplo Curitiba na proporção apresentada pelo censo demográfico em termos de sexo idade e renda Então sai às ruas para trabalhar com a incumbência de entrevistar determinada quota de pessoas com determinadas características Por exemplo você pode ser incumbido de entrevistar trinta homens com mais de 50 anos que recebam mais de seis e menos de dez salários mínimos Você terá de julgar pela aparência da pessoa se ela se enquadra nas características descritas homem de mais de 50 anos que ganha entre seis e dez salários mínimos Se achar que viu a pessoa certa deve fazer a abordagem e em seguida confirmar as características com perguntas Você continua o procedimento até preencher a quota 743 Amostra não probabilística ou de conveniência A amostra não probabilística ou de conveniência é constituída por unidades reunidas em uma amostra simplesmente porque o pesquisador tem fácil acesso a essas unidades O professor que toma os alunos de sua classe como amostra de toda a escola está usando uma amostra de conveniência Exemplo 76 Amostra não probabilística Um nutricionista quer entrevistar mães de cinquenta crianças de 3 e 4 anos a fim de conhecer os hábitos alimentares dessas crianças Se o nutricionista trabalha em uma escola em que estão matriculadas crianças dessa faixa etária provavelmente procurará as mães das crianças matriculadas na escola para obter a amostra de que precisa Não confunda amostra de conveniência com amostra por conglomerados Embora ambas envolvam grupos são muito diferentes Os conglomerados existem na população e embora haja diferença dentro deles são similares entre si de tal maneira que cada um deles pode representar a população Então o pesquisador sorteia um deles Já a amostra de conveniência é tomada pelo pesquisador porque tem acesso a essas unidades sem considerar a falta de representatividade 744 Avaliação das técnicas de amostragem As amostras aleatórias exigem que o pesquisador tenha a listagem com todas as unidades da população porque dessa listagem serão sorteadas as unidades que comporão a amostra Essa exigência inviabiliza a tomada de amostras aleatórias em grande parte dos casos Por exemplo não é possível obter uma amostra aleatória de cariocas simplesmente porque não temos uma lista com o nome de todos os cariocas A amostra sistemática não exige que a população seja conhecida mas é preciso que esteja organizada em filas em arquivos ou mesmo em ruas como os domicílios de uma cidade Por exemplo para tomar uma amostra dos domicílios de uma cidade partese de um ponto sorteado e se toma de tantos em tantos um domicílio para a amostra A amostra por conglomerados exige livre acesso aos conglomerados o que nem sempre se consegue Um médico pode sortear cinco hospitais da cidade de São Paulo para entrevistar pacientes internados por problemas cardíacos mas dificilmente conseguirá permissão da diretoria de todos esses cinco hospitais para fazer sua pesquisa A amostra por quotas exige algum conhecimento da população mas as unidades não precisam estar numeradas ou identificadas Se você quiser uma amostra de homens e de mulheres empregados de uma grande empresa basta saber por exemplo a proporção de homens e mulheres na empresa e amostrar na mesma proporção De qualquer forma as amostras que usam algum tipo de procedimento aleatório são praticamente obrigatórias quando o objetivo da pesquisa é estimar probabilidades É o caso das prévias eleitorais que perguntam aos respondentes a probabilidade de voto em cenários hipotéticos de eleição Os respondentes são escolhidos de maneira planejada para que seja caracterizada a casualização No caso de pesquisas de opinião as amostras constituídas por voluntários são especialmente ruins Tendem a responder voluntariamente a determinadas questões pessoas que são extremamente favoráveis ou contrárias à ideia apresentada Do ponto de vista do estatístico as amostras probabilísticas são preferíveis embora na prática nem sempre sejam possíveis Na área de saúde o pesquisador trabalha necessariamente com unidades às quais tem acesso Nos ensaios clínicos4 os participantes são escolhidos de acordo com critérios de elegibilidade Um pesquisador da área de saúde não pode procurar pacientes com determinada patologia e usar procedimento aleatório para trazêlos para sua clínica por exemplo Pode no entanto buscar pacientes com determinadas características elegíveis tratados na instituição em que trabalha O interesse nessas pesquisas está centrado não nas estimativas de probabilidade mas nas diferenças relativas que podem ser bem estimadas com um bom delineamento5 75 Noções sobre o tamanho das amostras Do ponto de vista do estatístico as amostras devem ser grandes para trazer maior confiança às conclusões obtidas Para entender as razões desse ponto de vista imagine que em uma cidade existam dois hospitais6 Em um deles nascem em média 120 bebês por dia e no outro 12 A razão de meninos para meninas é em média 50 nos dois hospitais Em certa ocasião nasceram em um dos hospitais duas vezes mais meninos do que meninas Em qual dos hospitais é mais provável que isso tenha ocorrido Para o estatístico a resposta é óbvia é mais provável que o fato tenha ocorrido no hospital em que nasce menor número de crianças A probabilidade de uma estimativa desviarse muito do parâmetro do valor verdadeiro é maior quando a amostra é pequena A qualidade de uma estimativa depende em muito do número de unidades que compõem a amostra tamanho da amostra No entanto desde que a população seja muito maior do que a amostra a qualidade da estatística não depende do tamanho da população De qualquer modo as amostras não devem ser muito grandes porque isso seria perda de recursos Também não devem ser muito pequenas porque o resultado do trabalho seria de pouca utilidade Como se determina o tamanho da amostra Muitas vezes o tamanho da amostra é determinado mais por considerações reais ou imaginárias a respeito do custo de cada unidade amostrada do que por técnicas estatísticas Mas se seu orçamento for curto não tente enquadrar nele uma pesquisa ambiciosa Um pesquisador sempre precisa levar em conta o que é usual na área Então você tem a regra de ouro para determinar o tamanho da amostra veja o que se faz na sua área consultando a literatura e verifique o que seu orçamento permite fazer De qualquer forma o certo é calcular o tamanho da amostra por critério estatístico7 76 A questão da representatividade A amostra só traz informações sobre a população de onde foi retirada Não tem sentido por exemplo estudar os hábitos de higiene de índios bolivianos e considerar que as informações servem para descrever os hábitos de higiene de moradores da periferia da cidade de São Paulo Além disso a amostra deve ter o tamanho usual da área em que a pesquisa se enquadra Amostras demasiadamente pequenas não dão informação útil Desconfie também de amostras muito grandes Será que o pesquisador observou cada unidade amostrada com o devido cuidado As amostras podem ser representativas ou não representativas E não se pode julgar a qualidade da amostra pelos resultados obtidos Se você jogar uma moeda dez vezes podem ocorrer dez caras Provável Não Possível Sim Conclusões e decisões tomadas com base em amostras só têm sentido quando as amostras representam a população Para bem interpretar os dados e tirar conclusões adequadas não basta olhar os números é preciso entender como a amostra foi tomada e se não incidiram no processo de amostragem alguns fatores que poderiam trazer tendência aos dados Como você sabe se uma amostra é tendenciosa Não há fórmulas de matemática ou estatística para dizer se a amostra é tendenciosa ou é representativa da população Você precisará ter bom senso e conhecimento na área São portanto necessários muitos cuidados porque os erros de amostragem podem ser sérios Tendência é a diferença entre a estimativa que se obteve na amostra e o parâmetro que se quer estimar Exemplo 77 Amostra tendenciosa Em 1988 Shere Hite8 levantou por meio de questionários inseridos em revistas femininas americanas dados sobre a sexualidade feminina Estimase que cerca de 100000 mulheres tenham sido colocadas em contato com o questionário mas só 4500 responderam Mesmo assim a amostra é grande Mas os estatísticos consideraram a amostra tendenciosa O comportamento dos voluntários é diferente do comportamento dos não voluntários Então embora seja difícil ou até mesmo impossível estudar o comportamento de pessoas que não respondem a um questionário não se pode concluir que a amostra de respondentes represente toda a população incluindo aqueles que não respondem Conclusões baseadas em amostras de pessoas que voluntariamente destacam o encarte de uma revista respondem ao questionário e o remetem pelo correio são tendenciosas Não se pode fugir à conclusão de que o questionário foi respondido apenas por leitoras da revista e entre elas mulheres dispostas a falar de sua vida pessoal 8O exemplo é de Silver M Business statistics Londres McGraw 1997 Finalmente algumas pessoas afirmam não acreditar em resultados obtidos de pesquisas porque elas próprias nunca foram chamadas para opinar Se você é um daqueles que não acreditam em pesquisas porque nunca foi entrevistado então por coerência não tome um analgésico não dirija um carro não beba cerveja Afinal a qualidade desses produtos também é avaliada por amostragem e você possivelmente também não participou das pesquisas É verdade que ocorrem erros é verdade que existem fraudes e é verdade também que o improvável acontece mas daí a achar que não existem acertos vai uma enorme distância O Brasil tem excelentes institutos de pesquisa 77 Exercícios resolvidos 771 Os prontuários dos pacientes de um hospital estão organizados em um arquivo por ordem alfabética Qual é a maneira mais rápida de amostrar ⅛ do total de prontuários Selecionase para a amostra um de cada oito prontuários ordenados por exemplo o terceiro de cada oito desde que três tenha sido o número escolhido por procedimento aleatório 772 Na metade do século passado uma colunista muito conhecida por sua seção de aconselhamento em um jornal americano perguntou a seus leitores se você tivesse de começar de novo teria filhos Ela recebeu cerca de 10000 respostas cerca de 70 dizendo Não Você acha que as respostas foram tendenciosas Pessoas que escrevem para a Seção dos Leitores de jornais e revistas normalmente têm respostas fortes que refletem opinião polarizada Este exemplo mostra quanto pode ser tendenciosa uma amostra de voluntários que se dão ao trabalho de escrever a um jornal expondo uma situação pessoal de desconforto 773 Para levantar dados sobre o número de filhos por casal em uma comunidade um pesquisador organizou um questionário e em seguida enviouo pelo correio a todas as residências A resposta ao questionário era facultativa pois o pesquisador não tinha condições de exigir a resposta Nesse questionário perguntavase o número de filhos por casal morador na residência Você acha que os dados assim obtidos seriam tendenciosos Os dados devem ser tendenciosos porque é razoável esperar que a os casais com muitos filhos responderiam pensando na possibilidade de algum tipo de ajuda como por exemplo instalação de uma creche no bairro b os casais que recentemente tiveram o primeiro filho também responderiam c muitos dos casais que não têm filhos não responderiam 774 Um pesquisador pretende levantar dados sobre o número de moradores por domicílio usando a técnica de amostragem sistemática Para isso o pesquisador visitará cada domicílio selecionado Se nenhuma pessoa estiver presente na ocasião da visita o pesquisador excluirá o domicílio da amostra Essa última determinação torna a amostra tendenciosa Por quê Nos domicílios onde moram muitas pessoas será mais fácil o pesquisador encontrar pelo menos uma pessoa por ocasião de sua visita Então é razoável admitir que os domicílios com poucos moradores tenham maior probabilidade de serem excluídos da amostra 775 Muitas pessoas acreditam que as famílias se tornaram menores Suponha que para estudar essa questão tenha sido selecionada uma amostra de 2000 mulheres O pesquisador então perguntou a elas quantos filhos tinham quantos filhos tinham seus pais e quantos filhos tinham suas avós O procedimento produz dados tendenciosos Por quê Mulheres de gerações anteriores sem filhos não têm possibilidade de serem selecionadas para a amostra Por outro lado mulheres de gerações anteriores com muitos filhos terão grande probabilidade de serem amostradas 776 Para estudar atitudes religiosas um sociólogo sorteia dez membros de uma grande igreja para compor uma amostra casual simples Nota então que a amostra ficou composta por nove mulheres e um homem O sociólogo se espanta A amostra não é aleatória Praticamente só tem mulher O que você diria Se a amostra é ou não aleatória depende de como foi selecionada e não de sua composição As probabilidades envolvidas no processo de constituir uma amostra aleatória podem determinar amostras atípicas 777 Para avaliar a expectativa de pais de adolescentes em relação às possibilidades de estudo de seus filhos foram distribuídos 5000 questionários pelos estados do sul do Brasil Retornaram 1032 Cerca de 60 dos respondentes diziam que sua maior preocupação era com o preço que se paga para um jovem cursar a universidade Você considera esse resultado uma boa estimativa para o número de pais preocupados com essa questão Não é uma boa estimativa porque os respondentes foram relativamente poucos cerca de 20 Além disso tendem a responder pais que querem seus filhos na universidade e estão preocupados com os custos 778 Um dentista quer levantar o tipo de documentação que seus colegas arquivam quando fazem um tratamento ortodôntico A documentação depende do caso mas também envolve questões legais e de bom senso do ortodontista Para essa pesquisa o dentista elabora um questionário e o envia por email a todos os profissionais inscritos no Conselho de Odontologia O dentista provavelmente não receberá respostas de todos Você saberia dizer algumas das razões para isso acontecer Razões possíveis 1 Nem todos os endereços que constam dos arquivos de um Conselho estão atualizados 2 Nem todas as pessoas que recebem questionários por email respondem seja porque não têm tempo seja porque têm preguiça ou inércia ou ainda imaginam razões espúrias para terem sido contatadas entre outras 3 Não dão respostas profissionais que não contam com boa documentação de casos ou não a têm em ordem 4 Provavelmente também não respondem profissionais que estejam enfrentando problema de ordem financeira legal de admissão em cursos etc 779 Para estudar o uso de serviços de saúde por mulheres em idade reprodutiva moradoras de uma grande capital um pesquisador buscou na Fundação Instituto Brasileiro de Geografia e Estatística IBGE as subdivisões da cidade utilizadas em censos conhecidas como setores censitários Como você procederia para tomar uma amostra de mulheres moradoras nesses setores e em idade reprodutiva Cada setor pode ser considerado um conglomerado Podem ser sorteados quatro setores Em seguida em cada setor escolhese um ponto ao acaso e a partir de então tirase uma amostra sistemática A unidade amostral é um domicílio com mulheres em idade reprodutiva de 10 a 49 anos Devem ser excluídas do estudo mulheres que não queiram participar 7710 A Tabela 71 apresenta os resultados parciais de um levantamento de altura e peso de brasileiros feito pelo IBGE Nessa tabela são apresentados número de participantes na pesquisa tamanho da amostra e as medianas de altura e peso segundo o grupo de idade Por que não foi feito um levantamento de altura e peso de todos os brasileiros Tabela 71 Tamanho da amostra medianas de altura e peso da população por sexo segundo grupos de idade Brasil período 20082009 O levantamento de dados de toda a população censo é muito caro Então os censos são feitos de dez em dez anos No decorrer desse período o IBGE faz diversos levantamentos de dados como por exemplo o apresentado na referida tabela Fonte IBGE Diretoria de Pesquisas Coordenação de Trabalho e Rendimento Pesquisa de Orçamentos Familiares 20082009 78 Exercícios propostos 781 Dada uma população de quatro pessoas Antônio Luís Pedro e Carlos escreva as amostras casuais simples de tamanho 2 que podem ser obtidas 782 Descreva três formas diferentes de obter uma amostra sistemática de quatro elementos de uma população de oito elementos A B C D E F G e H 783 Dada uma população de quarenta alunos descreva uma forma de obter uma amostra casual simples de seis alunos 784 Organize uma lista com dez nomes de pessoas em ordem alfabética Depois descreva uma forma de obter uma amostra sistemática de cinco nomes 785 Pretendese obter uma amostra dos alunos de uma universidade para estimar o percentual deles com trabalho remunerado a Qual é a população em estudo b Qual é o parâmetro que se quer estimar c Você acha que seria possível obter uma boa amostra dos alunos no restaurante universitário d No ponto de ônibus mais próximo 786 A maneira de fazer a pergunta pode influenciar a resposta Basicamente existem dois tipos de questão a questão fechada e a questão aberta Na questão fechada o pesquisador fornece uma série de respostas possíveis e a pessoa que responde deve apenas assinalar a alternativa ou as alternativas que lhe convém A questão aberta deve ser respondida livremente Imagine que um dentista queira levantar dados sobre hábitos de higiene oral das pessoas de uma comunidade Escreva então uma questão fechada e uma questão aberta 787 Uma classe tem quatro alunos Eles foram submetidos a uma prova e suas notas foram João 10 José 6 Paulo 4 Pedro 0 Calcule a média da classe parâmetro Depois construa todas as amostras de tamanho 2 e calcule a média de cada uma estatísticas Verifique que a média das estatísticas é igual ao parâmetro 788 Um editor de livros técnicos quer saber se os leitores preferem capas de cores claras com desenhos ou capas simples de cores mais escuras Se o editor lhe pedir para estudar a questão como você definiria a população do estudo 789 Um fabricante de produtos alimentícios pede a você para escolher uma cidade de seu estado para fazer o teste de um novo produto Como você escolheria a cidade por sorteio ou usaria seu julgamento do que considera uma cidade típica do estado 7810 Um fiscal precisa verificar se as farmácias da cidade estão cumprindo um novo regulamento A cidade tem quarenta farmácias mas como a fiscalização demanda muito tempo o fiscal resolveu optar por visitar uma amostra de dez farmácias O cumprimento do regulamento que evidentemente é desconhecido pelo fiscal está apresentado na tabela abaixo Com base nessa tabela a escolha uma amostra para o fiscal b estime com base na amostra a proporção de farmácias que estão cumprindo o regulamento c com base nos dados da população estime o parâmetro d você obteve uma boa estimativa Dados sobre o cumprimento do regulamento 3Recomendase enfaticamente esse procedimento O Excel pode gerar números aleatórios 4Veja ensaios clínicos em Vieira S e Hossne WS Metodologia científica para a área da saúde 2 ed Rio de Janeiro Elsevier 2015 5Piantadosi Steven Clinical Trials A Methodologic Perspective Nova York Wiley 2005 6Baseado em um exemplo de Kahnemen D e Tvesky A Judgement under uncertainty heuristics and bias Science 185 27 de setembro de 1974 7Veja por exemplo 1 Cochran W Sampling techniques Nova York Wiley 1977 2 LOHR S L Sampling Design and analysis Pacific Grove Brooks 1999 3 Bolfarine H e Bussab W O Elementos de amostragem São Paulo Edgard Blucher 2005 CAPÍTULO 8 Distribuição Normal Você sabe que no jogo de uma moeda ou sai cara ou sai coroa ou seja o acaso determina o resultado Também sabe que não é apenas nos jogos de azar que os resultados ocorrem ao acaso Nascer menino ou menina pode ser entendido como obra do acaso Dois irmãos filhos dos mesmos pais podem ter olhos de cores diferentes um deles pode ter olhos azuis e o outro olhos castanhos Você tem ideia portanto do que é casual ou aleatório Neste capítulo vamos abordar a variável casual ou aleatória e sua distribuição Pode parecer difícil mas tenha em mente que muitas vezes a Estatística apenas formaliza o que já intuímos 81 Variável aleatória Absorver o conceito de aleatoriedade é muito mais importante do que absorver o conceito de causa e efeito que já pertence ao nosso dia a dia1 O fato é que as variáveis assumem valores diferentes em diferentes unidades da mesma população Uma variável é aleatória quando o acaso tem influência em seus valores Exemplo 81 Uma variável aleatória O tempo despendido para um aluno ler um livro é uma variável aleatória Há fatores determinísticos mas também há fatores aleatórios que afetam o tempo de leitura De qualquer forma se você anotar o tempo em que cada um de cem alunos lê o mesmo livro verá grande variabilidade nos valores obtidos porque esse tempo é uma variável aleatória Foi um matemático do século XIX2 quem primeiro pensou em descrever a variabilidade das medidas biométricas e estudar sua distribuição Para isso fez muitas medições em nada menos do que 5732 soldados escoceses3 A Tabela 81 apresenta a distribuição de frequências para o perímetro torácico4 dos soldados em 16 classes todas com amplitude de uma polegada Tabela 81 Distribuição de frequências para perímetro torácico de homens adultos em polegadas Fonte Daly F Hand D Jones C Lunn AD 1995 Veja a Tabela 81 a proporção de soldados escoceses com 38 polegadas de perímetro torácico ou seja entre 375 e 385 polegadas por exemplo era 007135 ou seja praticamente 7 Agora veja o histograma apresentado na Figura 81 na base do retângulo é dado o intervalo de 375 a 385 polegadas a proporção de soldados escoceses com perímetro torácico entre 375 e 385 polegadas deve ser lida no eixo das ordenadas aproximadamente 007 ou 7 FIGURA 81 Histograma para a distribuição de frequências do perímetro torácico de homens adultos em polegadas Toda distribuição de frequências é construída com os dados de uma amostra Se a variável é contínua como peso ao nascer quantidade de glicose no sangue pressão intraocular comprimento do fêmur os histogramas têm na maioria das vezes a aparência da Figura 81 Eles se assemelham à distribuição normal uma distribuição teórica apresentada em gráfico na Figura 82 FIGURA 82 Gráfico da distribuição normal Observe agora a Figura 83 fica fácil ver que o histograma apresentado na Figura 81 tem configuração semelhante à da distribuição normal da Figura 82 E é o fato de uma distribuição de frequências ser tão parecida com a distribuição normal que permite resolver muitos problemas de probabilidade em Estatística Vamos então estudar um pouco sobre distribuição normal FIGURA 83 Gráfico da distribuição normal desenhado sobre um histograma 82 Distribuição normal características A distribuição normal também chamada distribuição de Gauss tem características bem conhecidas graficamente é uma curva em forma de sino como mostram as Figuras 82 e 84 FIGURA 84 Simetria da distribuição normal a média a mediana e a moda coincidem e estão no centro da distribuição a curva é simétrica em torno da média Logo 50 dos valores são iguais ou maiores do que a média e 50 dos valores são iguais ou menores do que a média a curva abriga 100 da população ou seja toda a população está sob a curva A distribuição normal fica definida quando são dados dois parâmetros a média que se representa pela letra grega µ lêse mi e o desvio padrão que se representa pela letra grega σ lêse sigma5 Exemplo 82 Uma distribuição normal A escala de inteligência de Weschler6 pressupõe que inteligência é uma variável com distribuição normal de média µ 100 e desvio padrão σ 15 Dadas as características da distribuição normal usando escala de inteligência de Weschler metade das pessoas tem QI igual ou maior do que 100 metade tem QI igual ou menor do que 100 pessoas com QI muito alto na cauda à direita da curva são raras como também são raras as pessoas com QI muito baixo na cauda à esquerda da curva 6Existem muitas maneiras de medir a inteligência embora nenhuma delas explique exatamente o que está sendo medido Mas o teste de Weschler foi idealizado pressupondo que a inteligência tem distribuição normal como mostrado no exemplo 83 Soma de variáveis aleatórias independentes É necessário para vários procedimentos em Estatística pressupor que a variável em análise tem distribuição normal ou aproximadamente normal Essa pressuposição encontra respaldo no teorema do limite central Expor esse teorema está além dos limites deste livro mas um exemplo ajuda muito7 Imagine que vamos fazer 150 pães um a um seguindo uma receita que produz pães com 500 gramas Por simples acaso poderemos colocar mais ou menos farinha eou leite eou açúcar em alguns pães O forno pode estar mais quente ou menos quente quando assarmos alguns dos pães Pode haver um pouco mais ou um pouco menos de umidade no ar enquanto alguns pães crescem a temperatura ambiente pode estar um pouco mais alta ou um pouco mais baixa e assim por diante O fato é que no final teremos alguns pães com mais do que 500 gramas outros com menos e a maioria com pesos muito próximos de 500 gramas O teorema do limite central afirma que o peso de nossos pães irá variar de acordo com a distribuição normal Por quê Porque sobre o peso de nossos pães atuou grande número de variáveis aleatórias independentes algumas atuaram para aumentar o peso dos pães outras para diminuir Cada variável tem efeito pequeno mas os efeitos se somam É pouco comum que um pão só sofra efeitos positivos ou só efeitos negativos essas seriam as caudas da curva A maior parte dos pães sofre efeitos positivos e negativos em quantidade que dá origem a uma distribuição normal As medidas biológicas sofrem o efeito de uma soma de variáveis aleatórias independentes Cada variável afeta as medidas do que estamos estudando de uma forma às vezes positiva por exemplo colocamos mais farinha no pão ou negativa colocamos menos farinha no pão O efeito da soma de todas essas variáveis aleatórias quantidade de açúcar farinha calor umidade etc sobre o que estamos medindo peso dos pães produz uma distribuição normal É por isso que um fisioterapeuta está diante da distribuição normal quando monitora o desempenho físico de seus pacientes porque desempenho é uma variável aleatória que sofre o efeito de diversas variáveis como idade saúde geral compreensão da situação simpatia recíproca ajuda familiar etc que se somam com sinais negativos ou positivos Uma enfermeira também está diante da distribuição normal quando estuda o peso de recémnascidos uma variável aleatória que sofre o efeito de diversas outras variáveis aleatórias como tempo de gestação genética saúde da mãe e do bebê idade da mãe etc 84 Probabilidades associadas à distribuição normal Nenhuma distribuição de dados reais tem características idênticas às da distribuição normal No entanto se você puder pressupor que a variável que estuda tem distribuição aproximadamente normal pode considerar que os dados obedecem à chamada regra empírica Veja a Figura 85 De acordo com a regra empírica cerca de FIGURA 85 Probabilidades na distribuição normal regra empírica 68 pouco mais de ⅔ dos dados estarão a menos de um desvio padrão de distância da média µ 95 dos dados estarão a menos de dois desvios padrões de distância da média µ 997 dos dados estarão a menos de três desvios padrões de distância da média µ Mais exatamente se a variável tem distribuição normal Exemplo 83 Aplicando a regra empírica De acordo com o teste de inteligência de Weschler o quociente de inteligência tem distribuição normal de média µ 100 e desvio padrão σ 15 Então dadas as características da distribuição normal de acordo com esse teste 68 das pessoas têm quociente de inteligência entre 100 15 ou seja entre 85 e 115 95 das pessoas têm quociente de inteligência entre 100 2 x 15 ou seja entre 70 e 130 997 das pessoas têm quociente de inteligência entre 100 3 x 15 ou seja entre 55 e 145 As probabilidades associadas às variáveis biológicas por meio da distribuição normal são apenas aproximações De qualquer forma o intervalo µ σ abrange cerca de ⅔ da população e o intervalo µ 2σ engloba praticamente 95 da população ou seja a grande maioria Convencionouse assim definir normalidade na área da saúde quando se mede uma variável contínua considerando normais todas as pessoas que têm medidas dentro do intervalo µ σ As pessoas que têm medidas fora do intervalo µ 2σ fogem do padrão de normalidade Exemplo 84 Uso da distribuição normal Reveja a Tabela 81 na qual os dados estão agrupados em uma tabela de distribuição de frequências Vamos calcular a média e o desvio padrão A média é A variância dos dados apresentados na Tabela 81 é Logo o desvio padrão é Como foi tomada uma grande amostra n 5732 podemos tomar a média e o desvio padrão calculados como valores dos parâmetros µ e σ da população Então Com base nesses resultados podemos considerar que o normal entre soldados escoceses do século XIX era um perímetro torácico que variava entre 39 e 43 polegadas Medidas de perímetro torácico abaixo de 37 polegadas ou acima de 45 polegadas fugiam ao padrão 85 Distribuição normal reduzida ou padronizada Denominase distribuição normal reduzida ou padronizada a distribuição normal de média µ 0 e desvio padrão σ 1 A variável com distribuição normal reduzida é comumente indicada pela letra Z Você transforma um valor da variável X em Z fazendo o seguinte cálculo A variável Z é denominada reduzida ou padronizada e a transformação de X em Z é uma redução ou padronização da variável O importante é que na distribuição normal reduzida valem as probabilidades dadas na Figura 86 que correspondem às medidas das áreas sob a curva FIGURA 86 Áreas sob a curva normal reduzida Além dos valores de probabilidade exibidos na Figura 86 é possível verificar outros valores de probabilidades associados à distribuição normal reduzida em tabelas já prontas Assim a Tabela 82 fornece a probabilidade de a variável normal reduzida assumir valor no intervalo entre a média zero e um valor qualquer de Z até 3 Vamos então estudar o procedimento para encontrar probabilidades associadas a diferentes valores de Z na Tabela 82 Tabela 82 Tabela de distribuição normal reduzida Exemplo 85 Probabilidade de Z assumir um valor entre zero e 125 Qual é a probabilidade de a variável Z que tem distribuição normal reduzida assumir um valor entre zero e 125 Veja a Figura 87 FIGURA 87 Probabilidade de Z assumir valor entre zero e 125 A probabilidade de Z assumir um valor entre zero e 125 corresponde à área escurecida na Figura 87 Essa probabilidade é encontrada na Tabela 82 também trazida neste livro8 em Anexo Para achar a probabilidade pedida na primeira coluna da Tabela 82 procure o valor 12 para facilitar esse valor está em negrito encontrado o valor 12 siga na linha que começa com esse valor até a coluna que começa com 005 Para facilitar esse valor também está em negrito no cruzamento de 12 com 005 você encontra 03944 também está em negrito 03944 é a probabilidade de Z assumir um valor entre zero e 125 Escrevemos 8Você encontra a tabela de distribuição normal reduzida ou padronizada na Internet mas verifique como deve proceder para usála Exemplo 86 Probabilidade de Z assumir um valor maior que 125 Qual é a probabilidade de a variável Z que tem distribuição normal reduzida assumir um valor igual ou maior que 125 Veja a Figura 88 FIGURA 88 Probabilidade de Z assumir valor maior que 125 A probabilidade de Z assumir valor igual ou maior que 125 é a medida da área escurecida na Figura 88 Então a probabilidade de ocorrer valor entre zero e 125 que corresponde à área com hachuras na Figura 88 é P 0 Z 125 03944 a probabilidade de Z assumir valor maior ou igual à média zero é 05000 a probabilidade de ocorrer valor maior ou igual a 125 área escura na Figura 88 é Exemplo 87 Probabilidade de Z assumir valor menor do que 051 Qual é a probabilidade de a variável Z que tem distribuição normal reduzida assumir valor menor do que 051 Veja a Figura 89 FIGURA 89 Probabilidade de Z assumir valor menor do que 051 Para resolver o problema pense assim a probabilidade pedida é a área escurecida da Figura 89 como a curva é simétrica a probabilidade de ocorrer valor igual ou menor do que 051 é igual à probabilidade de ocorrer valor igual ou maior que 051 a probabilidade de ocorrer valor entre zero e 051 é dada na Tabela 82 encontre a linha que começa com 05 e a siga até achar a coluna que tem 001 no cabeçalho No cruzamento da linha que começa com 05 e da coluna que começa com 001 está 01950 que corresponde à área com hachuras na Figura 89 Escrevemos a probabilidade de ocorrer valor menor ou igual a zero a média é 05000 então Mas você pode estar se perguntando qual é o interesse em estudar a distribuição normal reduzida um tipo particular de distribuição A razão é simples para encontrar a probabilidade de uma variável com distribuição normal assumir valor em determinado intervalo você reduz a variável acha as probabilidades associadas à distribuição normal reduzida como aprendeu aqui volta à variável original 86 Cálculo das probabilidades sob a distribuição normal Veja alguns exemplos de cálculo de probabilidades pressupondo que a variável em estudo tenha distribuição normal Exemplo 88 Probabilidade variável com distribuição normal A quantidade de colesterol em 100 mL de plasma sanguíneo humano tem distribuição normal com média 200 mg e desvio padrão 20 mg Qual é a probabilidade de uma pessoa apresentar entre 200 e 225 mg de colesterol por 100 mL de plasma Veja a Figura 810 FIGURA 810 Probabilidade de uma pessoa apresentar entre 200 e 225 mg de colesterol por 100 mL de plasma A probabilidade pedida corresponde à área escurecida na Figura 810 Para responder à pergunta pense como segue A quantidade de colesterol em 100 mL de plasma sanguíneo humano indicada aqui por X tem distribuição normal com média 200 mg e desvio padrão 20 mg Então a variável tem distribuição normal reduzida Nessa distribuição a média é zero e ao valor x 225 corresponde A probabilidade de Z assumir valor entre a média zero e z 125 é 03944 como mostrado na Tabela 92 A probabilidade de X assumir valor entre a média µ 200 e 225 igual à probabilidade de Z assumir valor entre a média zero e z 125 é 03944 Portanto a probabilidade de uma pessoa apresentar entre 200 e 225 mg de colesterol por 100 mL de plasma é 03944 Exemplo 89 Probabilidade variável com distribuição normal A quantidade de colesterol em 100 mL de plasma sanguíneo humano tem distribuição normal com média 200 mg e desvio padrão 20 mg Qual é a probabilidade de uma pessoa apresentar menos do que 195 mg de colesterol por 100 mL de plasma Veja a Figura 811 FIGURA 811 Probabilidade de taxa de colesterol menor do que 195 mg por 100 mL de sangue A probabilidade pedida é mostrada pela área escurecida na Figura 811 Para resolver o problema pressupondo que a quantidade de colesterol em 100 mL de plasma sanguíneo humano tenha distribuição aproximadamente normal com média de 200 mg e desvio padrão de 20 mg a variável tem distribuição normal reduzida A probabilidade de Z assumir valor menor do que 025 é igual à probabilidade de z assumir valor maior do que 025 A probabilidade de Z assumir valor entre a média zero e 025 dada na Tabela 82 é 00987 A probabilidade de Z assumir valor igual ou menor do que 051 é Logo a probabilidade de uma pessoa apresentar 195 mg de colesterol por 100 mL de plasma ou menos é 04013 ou 4013 87 Usos da distribuição normal Imagine que você esteja lendo um artigo que informa que uma amostra de 4000 jovens forneceu para pressão sistólica a média mmHg e desvio padrão s 140 mmHg Esses valores estimam a média µ e o desvio padrão σ parâmetros da população da qual essa amostra proveio Por que essa informação é útil Primeiro é razoável assumir que a pressão sistólica tem distribuição normal Veja o gráfico da Figura 89 Depois leve em conta que você já aprendeu o seguinte a probabilidade de ocorrer valor de X no intervalo µ σ é 06826 a probabilidade de ocorrer valor de X no intervalo µ 2σ é 09544 No caso da amostra em discussão temos que Considerando a média e o desvio padrão obtidos da amostra como boas estimativas de µ e σ respectivamente temse que a probabilidade de encontrar pessoas na população da qual a amostra proveio com pressão sistólica entre 1094 e 1374 mm de mercúrio é de aproximadamente porque a distribuição é aproximadamente normal e os parâmetros estão estimados 6826 Ou seja cerca de ⅔ da população estudada deve ter pressão sistólica entre 1094 e 1374 mm de mercúrio a probabilidade de encontrar pessoas na população de onde a mostra proveio com pressão sistólica entre 954 e 1514 mm de mercúrio é de aproximadamente porque a distribuição é aproximadamente normal e os parâmetros estão estimados 9544 Ou seja a grande maioria da população estudada deve ter pressão sistólica entre 954 e 1514 mm de mercúrio FIGURA 812 Distribuição da pressão sistólica A distribuição normal tem ainda outro uso importante em Estatística Você já sabe que amostras tomadas ao acaso da mesma população são diferentes Logo as médias dessas amostras são diferentes Pense no exemplo que acabamos de examinar Foi medida a pressão sistólica de uma amostra de 4000 jovens A média calculada foi 1234 mmHg Se fossem obtidas outras cinquenta amostras dessa mesma população as médias de pressão sistólica variariam Qual seria a distribuição dessas médias As médias de diferentes amostras têm distribuição normal ou aproximadamente normal de acordo com um teorema da Estatística o teorema do limite central A grande aplicação dessa informação o intervalo de confiança para uma média será vista no Capítulo 9 Em exames radiológicos e laboratoriais o uso da distribuição normal é comum Veja como isso é feito Com base em grandes amostras estimamse µ e σ Em seguida com base na distribuição normal definemse critérios de normalidade e não normalidade Por exemplo para densidade mineral óssea BMD em inglês bone mineral density que é medida em gramas por centímetro ao quadrado a Organização Mundial de Saúde considera normal de qualquer valor mais alto que µ σ osteopenia ou osteoporose préclínica valores entre µ σ e µ 25σ osteoporose valores abaixo de µ 25σ FIGURA 813 Distribuição de BMD Então se for aceito que para coluna lombar o BMD médio é 1061 com desvio padrão 10 a pessoa que tiver BMD 0060 é diagnosticada como tendo osteopenia 88 Exercícios resolvidos 881 Em uma distribuição normal qual proporção de casos cai a fora dos limites X µ σ e X µ σ b fora dos limites X µ 2σ e X µ 2σ a Usando a regra prática 68 pouco mais de ⅔ dos dados estarão a menos de um desvio padrão de distância da média µ A área sob a curva vale 100 e a curva é simétrica em torno da média Então 100 68 32 de casos estão fora dos limites X µ σ Logo 16 dos casos estarão acima de µ σ e 16 dos casos estarão abaixo de X µ σ b Usando a regra prática 95 dos dados estarão a menos de dois desvios padrões de distância da média µ A área sob a curva vale 100 e a curva é simétrica em torno da média Então 100 95 5 de casos estão fora dos limites X µ σ Logo 25 dos casos estarão acima de µ 2σ e 25 dos casos estarão abaixo de X µ 2σ 882 Em homens adultos a quantidade de hemoglobina por 100 mL de sangue é uma variável aleatória com distribuição normal de média µ 16g e desvio padrão σ 1g Calcule a probabilidade de um homem apresentar de 16 a 18 g de hemoglobina por 100 mL de sangue Primeiro é preciso calcular A probabilidade de X assumir valor entre a média 16 e o valor 18 corresponde à probabilidade de Z assumir valor entre a média zero e o valor 2 área escurecida na Figura 814 Essa probabilidade é 04772 encontrada na tabela de distribuição normal reduzida Então a probabilidade de um homem apresentar de 16 a 18 g de hemoglobina por 100 mL de sangue é 04772 ou 4772 FIGURA 814 Probabilidade de um homem ter taxa de hemoglobina entre 16 a 18 gdL de sangue 883 Qual é a probabilidade de um homem ter taxa de hemoglobina maior do que 18 gdL de sangue Para x 18 z 2 a probabilidade de Z assumir valor entre a média zero e o valor z 2 é 04772 visto no Exercício 882 Então a probabilidade de Z assumir valor maior que 2 é 884 Sabese que o tempo médio para completar um teste feito para candidatos ao vestibular de uma escola é de 58 minutos com desvio padrão igual a 95 minutos Se o responsável pelo teste quiser que apenas 90 dos candidatos terminem o teste quanto tempo deve dar aos candidatos para que o entreguem Para resolver o problema primeiro observe a Figura 815 Lembrese de que a média delimita 05 da distribuição Então é preciso achar o valor de z que corresponde à probabilidade 04 porque 04 05 09 ou seja os 90 pedidos Na tabela de distribuição normal reduzida você encontra para 03997 que é o valor mais próximo de 04 o ponto z 128 Como FIGURA 815 Distribuição do tempo despendido para completar o teste ou seja devem ser fixados 7016 minutos para terminar o teste 885 Qual é o desvio padrão da variável aleatória X que tem distribuição normal de média µ 150 e 975 dos valores menores que 210 A média delimita 05 da distribuição Observe a Figura 816 é preciso encontrar o valor de z que corresponde à probabilidade 0475 porque 0475 05 0975 ou seja 975 Na tabela de distribuição normal reduzida você encontra para 0475 o ponto z 196 Como FIGURA 816 Distribuição da variável X σ fracx μz frac210 150196 3061 89 Exercícios propostos 891 O quociente de inteligência é uma variável aleatória com distribuição aproximadamente normal de média 100 e desvio padrão 15 Usando a regra empírica qual é a proporção de pessoas com quociente de inteligência acima de 130 892 A concentração de sódio no plasma tem média igual a 1395 mEqL de plasma com desvio padrão igual a 3 mEqL de plasma Que valor você poria como ponto de corte para dizer que a concentração de sódio no plasma de uma pessoa está além do limite de normalidade 893 Em uma distribuição normal reduzida quais valores de z englobam a 50 dos casos que ficam no centro da distribuição b 90 dos casos que ficam no centro da distribuição c 95 dos casos que ficam no centro da distribuição 894 Suponha que a pressão sanguínea sistólica em indivíduos com idade entre 15 e 25 anos seja uma variável aleatória com distribuição aproximadamente normal de média µ 120 mmHg e desvio padrão σ 8 mmHg Nessas condições calcule a probabilidade de um indivíduo dessa faixa etária apresentar pressão a entre 110 e 130 mmHg b maior do que 130 mmHg 895 A taxa de glicose no sangue humano é uma variável aleatória com distribuição aproximadamente normal de média µ 100 mg por 100 mL de sangue e desvio padrão σ 6mg por 100 mL de sangue Calcule a probabilidade de um indivíduo apresentar taxa a superior a 110 mg por 100 mL de sangue b entre 90 e 100mg por 100 mL de sangue 896 Em um hospital psiquiátrico os pacientes permanecem internados em média cinquenta dias com um desvio padrão de dez dias Se for razoável pressupor que o tempo de permanência tem distribuição aproximadamente normal qual é a probabilidade de um paciente permanecer no hospital a por mais de trinta dias b por menos de trinta dias 897 A estatura de recémnascidos do sexo masculino é uma variável aleatória com distribuição aproximadamente normal de média µ 50 cm e desvio padrão σ 250 cm Calcule a probabilidade de um recémnascido do sexo masculino ter estatura a inferior a 48 cm b superior a 52 cm 898 Em uma distribuição normal reduzida que proporção de casos cai a acima de z 1 b abaixo de z 2 c abaixo de z 0 d acima de z 128 899 Na distribuição normal reduzida a média é sempre zero Isso sugere que metade dos escores é positiva e metade é negativa Explique sua resposta 8910 Em uma academia os ginastas levantam em média 80 kg de peso com desvio padrão de 12 kg Pressupondo distribuição normal que proporção dos ginastas levanta mais de 100 kg 1O acaso é conceito mais fundamental que causalidade Max Born apud Mlodinow L O andar do bêbado Rio de Janeiro Zahar 2008 p 207 2Adolphe Quetelet 17961874 3Os homens eram em média menores do que são hoje 4DALY F HAND D JONES C LUNN AD Elements of Statistics Addison Wesley 1995 5Nos Capítulos 3 e 4 representamos média e desvio padrão por letras do nosso alfabeto porque estávamos nos referindo a amostras Aqui usamos letras gregas porque estamos nos referindo à população 7Mlodinow L O andar do bêbado Rio de Janeiro Zahar 2009 p 153 CAPÍTULO 9 Intervalo de Confiança Muitas pesquisas são realizadas com o objetivo de estimar parâmetros E para estimar parâmetros são necessários dados Para obter dados os pesquisadores retiram amostras da população que pretendem conhecer Mas será que os pesquisadores podem generalizar a informação obtida de uma amostra algumas pessoas para a população todas as pessoas É o que chamamos de inferência A inferência usa a informação obtida de uma amostra para estabelecer conclusões inferência sobre a população da qual a amostra foi retirada Exemplo 91 Inferência Um professor de Fisioterapia obteve dados biométricos dos alunos que ingressaram na universidade A média de altura de cem alunos do sexo masculino com 18 anos foi de 175 cm O professor se pergunta será que posso dizer que alunos com as características dos amostrados têm em média 175 cm de altura Veja a Figura 91 FIGURA 91 Representação da estimativa da média por ponto A média dos dados de uma amostra constitui estimativa da média µ da população o parâmetro da qual essa amostra foi retirada Será que é razoável generalizar o resultado dessa amostra para toda a população da qual a amostra proveio Precisamos ter uma medida da incerteza associada à média da amostra Temos apenas uma estimativa então precisamos conhecer as margens de erro dessa estimativa Veja o Exemplo 91 o professor calculou a média da amostra mas não deu qualquer medida para informar se a média da amostra está ou não perto da média da população Forneceu um só valor para descrever a amostra ou seja fez o que os estatísticos chamam de estimativa por ponto No entanto é possível calcular com base em dados de amostras intervalos de confiança que contêm com certa probabilidade a média µ da população E como se calculam esses intervalos Precisamos em primeiro lugar estimar a variabilidade das médias das amostras 91 Erro padrão da média Para entender a variabilidade das médias das amostras1 imagine uma população constituída por ⅓ de valores 4 ⅓ de valores 10 e ⅓ de valores 16 mas tão grande que para finalidade estatística possa ser considerada infinita Veja 4 4 4 4 4 4 10 10 10 10 1010 16 16 16 16 1616 A média da população é Considere agora as amostras de dois elementos que podem ser retiradas dessa população O primeiro número retirado pode ser 4 ou 10 ou 16 O segundo número retirado também pode ser 4 ou 10 ou 16 As amostras possíveis levando em conta os diferentes arranjos de dados estão apresentadas na Tabela 91 com as respectivas médias e variâncias Veja que Tabela 91 Médias das amostras de dois elementos que podem ser obtidas da população constituída por números 4 10 e 16 Amostras possíveis Média 1 retirado 4 4 2 retirado 4 10 Média 4 7 Variância 0 18 as médias 4 e 16 ocorrem com probabilidade 19 as médias 7 e 13 ocorrem com probabilidade 29 a média 10 ocorre com probabilidade 39 a média das médias é 10 e a média das variâncias é 24 Tabela 91 As médias das amostras apresentadas na Tabela 91 estão dispersas em torno da média µ 10 da população Será que é possível medir o grau de dispersão das médias das amostras que você vê na Figura 92 em torno da média da população FIGURA 92 Distribuição das médias das amostras de dois elementos obtidos da população constituída por 4 10 e 16 O grau de dispersão das médias das amostras em torno da média da população é dado pela variância da média Essa medida que se indica por σx 2 é dada pela seguinte fórmula em que xi é a média da iésima amostra e r é o número das diferentes amostras de mesmo tamanho que podem ser obtidas da população Para as médias apresentadas na Tabela 91 a variância da média é Na prática é impossível calcular a variância da média pela fórmula apresentada o pesquisador dispõe de uma única amostra e não de todas as amostras possíveis Existe porém uma solução já se demonstrou que a estimativa da variância da média2 é dada pela seguinte fórmula em que s2 é a variância e n é o tamanho da amostra As médias as variâncias e as variâncias das médias das amostras dadas na Tabela 91 estão apresentadas na Tabela 92 Veja que Tabela 92 Médias variâncias e variâncias das médias das amostras apresentadas na Tabela 91 A média das médias das amostras é a média µ 10 da população A média das variâncias das médias das amostras é a variância das médias da população Dizemos então que a média de uma amostra é uma estimativa não tendenciosa da média da população todas as amostras possíveis de mesmo tamanho retiradas da mesma população dão a média da população Da mesma forma a variância de uma amostra é uma estimativa não tendenciosa da variância da população Uma amostra permite ainda estimar a variância da média que como vimos é uma estimativa da variabilidade das médias que seriam obtidas caso o pesquisador tivesse tomado nas mesmas condições todas as amostras possíveis Podemos calcular o desvio padrão da média mais conhecido como erro padrão da média que se indica por e é dado por Erro padrão da média é a raiz quadrada com sinal positivo da variância da média Exemplo 92 Estimando o erro padrão da média Reveja o Exemplo 91 o pesquisador coletou uma amostra de cem alunos e calculou a média das alturas que resultou em 175 cm Com os dados em mãos calculou também o desvio padrão que resultou em s 10 cm A variabilidade das médias que poderiam ser obtidas caso o pesquisador tivesse tomado todas as amostras possíveis de mesmo tamanho da população é dada pelo erro padrão da média O fato de a média de todas as médias das amostras possíveis terem a média µ da população é intuitivo Mas também é fácil entender que as médias das amostras têm variabilidade menor do que os dados A amostra que tiver um valor muito alto discrepante dos demais provavelmente terá valores menores que farão certa compensação Isso significa que médias de amostras de n dados têm dispersão menor do que os dados que as compõem 92 Distribuição das médias das amostras Se a variável X em estudo apresentar distribuição normal as médias de amostras de qualquer tamanho tomadas ao acaso da população têm distribuição normal Se a variável X em estudo tiver distribuição aproximadamente normal amostras de n 10 unidades tomadas ao acaso da população são em geral suficientemente grandes para que as médias tenham distribuição normal3 No caso das variáveis biológicas como peso ao nascer ingestão alimentar peso corporal ingestão calórica taxa de colesterol pressão arterial para que as médias tenham distribuição aproximadamente normal é necessário tomar amostras casuais da população com tamanho n variando entre 30 a 100 unidades Veja bem as médias das amostras têm distribuição normal se a variável em estudo tiver distribuição normal ou aproximadamente normal pelo menos não seja assimétrica ou se as amostras forem suficientemente grandes Entender o comportamento das médias de dados observados é portanto um dos pontos cruciais para quem estuda Estatística Quando as médias de amostras de tamanho n tomadas ao acaso da população têm distribuição normal com média µ e erro padrão da média vale a regra apresentada em seguida também mostrada na Figura 93 FIGURA 93 Probabilidades associadas à distribuição das médias cerca de 68 pouco mais de ⅔ das médias de amostras de tamanho n tomadas ao acaso da população estarão a menos de um erro padrão de distância da média da população cerca de 95 das médias de amostras de tamanho n tomadas ao acaso da população estarão a menos de dois erros padrões de distância da média da população 997 das médias de amostras de tamanho n tomadas ao acaso da população estarão a menos de três erros padrões de distância da média da população Exemplo 93 Distribuição das médias Reveja o Exemplo 82 apresentado no Capítulo 8 de acordo com o teste de inteligência de Weschler o quociente de inteligência tem distribuição normal de média µ 100 e desvio padrão σ 15 Então médias de amostras de nove pessoas terão distribuição normal de média µ 100 e erro padrão da média Dadas as características da distribuição normal cerca de 95 mais exatamente 09545 das amostras de nove pessoas tomadas ao acaso da população terá média de quociente de inteligência medida pelo teste de Weschler no intervalo 100 2 x 5 ou seja entre 90 e 110Veja a Figura 94 FIGURA 94 Distribuição das médias de quociente de inteligência em amostras de nove pessoas Estamos considerando neste momento médias de amostras obtidas ao acaso de populações de variáveis que têm distribuição normal ou aproximadamente normal como por exemplo peso ao nascer de filhos de mães adolescentes ou taxa de hemoglobina no sangue ou perda de peso no primeiro mês de uma dieta Se X tem distribuição normal ou aproximadamente normal mas com média e desvio padrão desconhecidos amostras casuais de tamanho n fornecem estimativas da média do desvio padrão e do erro padrão da média que permitem calcular intervalos de confiança 93 Cálculo do intervalo de confiança para uma média No Capítulo 8 vimos uma amostra composta por n 5732 soldados escoceses Com uma amostra tão grande pareceu razoável tomar a média e o desvio padrão calculados como µ e σ Imagine agora que você tenha tomado uma amostra aleatória de n 15 soldados escoceses para obter medidas de perímetro torácico Pode então estimar a média o desvio padrão e o erro padrão da média da variável estudada Mas com base em uma amostra pequena é razoável considerar que é boa estimativa de µ Os pesquisadores tomam uma única amostra e em geral essas amostras são pequenas É portanto legítimo que o leitor de uma pesquisa se pergunte posso ter confiança nos resultados que foram obtidos com base em uma amostra de por exemplo quinze ou trinta pessoas Para dar essa confiança ao leitor as pesquisas que fornecem médias de dados coletados por amostragem devem fornecer também as margens de erro que delimitam um intervalo com probabilidade estabelecida pelo pesquisador de conter a média µ da população Temos então o que chamamos intervalo de confiança No Exemplo 91 o pesquisador deve relatar um intervalo de confiança para a média de altura de alunos do sexo masculino com 18 anos que tenham ingressado recentemente na universidade Vamos ver então como se acha esse intervalo Você pode calcular as margens de erro que dão por exemplo 95 de confiança de conter a verdadeira média da população por meio da seguinte expressão É bem conhecida a expressão margens de erro Elas delimitam o erro da estimação Mas antes de entender o procedimento de cálculo lembrese de que n é o tamanho da amostra é a média e s é o desvio padrão O valor de t é encontrado na Tabela de distribuição de t trazida neste livro nos Anexos Vamos então encontrar o valor de t Veja a Tabela 93 que é uma reprodução parcial da Tabela 6 apresentada em Apêndice Na coluna estão os graus de liberdade que se abrevia por gl Para uma amostra de tamanho n os graus de liberdade são gl n 1 Esses graus de liberdade se referem portanto à estimativa do desvio padrão Se você tomou uma amostra de n 15 pessoas estimou o desvio padrão com n 1 14 graus de liberdade Procure então o valor 14 na primeira coluna Em seguida procure na primeira linha da Tabela 93 o nível de significância indicado por α que será definido no Capítulo 10 De qualquer forma você já precisa saber que o nível de confiança do intervalo é dado por Tabela 93 Valores de t segundo os graus de liberdade e o nível de significância Em geral os pesquisadores calculam intervalos com nível de confiança de 90 95 ou 99 Se você quiser um nível de 95 de confiança como é mais usual procure na primeira linha o valor α 005 porque 1 005 095 No cruzamento da linha que exibe 14 graus de liberdade e da coluna que exibe 005 você encontra t 214 Exemplo 94 Obtendo as margens de erro do intervalo de confiança No Exemplo 91 o professor de Fisioterapia obteve a média o desvio padrão e o erro padrão da média Exemplo 92 de altura de cem alunos do sexo masculino com 18 anos que ingressaram recentemente na universidade Para obter as margens de erro do intervalo de 95 de confiança é preciso calcular Você já tem O valor de t com n 1 99 graus de liberdade porque a amostra é de tamanho 100 e com o nível de confiança de 095 α 005 é na Tabela 6 dos Anexos um valor entre 200 e 198 A tabela não dá o valor de t para 99 graus de liberdade Vamos então tomar t 200 Logo A média é 175 cm com margens de erro de 173 e 177 cm Veja a Figura 95 Escrevemos FIGURA 95 Representação da estimativa da média por intervalo O intervalo de confiança fornece a amplitude dos valores que muito provavelmente incluem o verdadeiro valor do parâmetro neste capítulo a média µ da população Temos então uma estimativa da média por intervalo Fig 95 que traz mais informação do que a estimativa da média por ponto Fig 91 Isso porque a amplitude do intervalo de confiança dá ideia de quanto de incerteza devemos associar à estimativa do parâmetro É importante entender o significado do intervalo de confiança para a média que dá uma estimativa da média por intervalo Em teoria se forem tomadas sucessivas amostras e forem calculados os respectivos intervalos de 95 de confiança 95 dos intervalos devem conter a média µ da população Exemplo 95 Cálculo do intervalo de confiança para a média Uma amostra de trinta homens sadios com idade entre 30 e 48 anos não fumantes e que tinham atividade física regular forneceu em repouso dados de pressão diastólica4 A média foi de 80 mm Hg com desvio padrão 71 mm Hg Para calcular o intervalo de 95 de confiança para a média é preciso obter Dados o tamanho da amostra a média e o desvio padrão falta apenas o valor de t005 É preciso procurar na Tabela 6 dos Anexos o valor de t para n 1 30 1 29 graus de liberdade e nível de confiança de 95 α 005 Você encontra na mesma Tabela 6 t 204 Então Podemos agora escrever o intervalo 4Com base em Brett S E et al Diastolic blood pressure change during exercise positively correlated with serum cholesterol and insulin resistance Circulation 2000 101611615 A expressão calculada no Exemplo 95 aponta que se os médicos repetirem o trabalho muitas e muitas vezes 95 de cada cem amostras de trinta homens sadios com idade entre 30 e 48 anos não fumantes e com atividade física regular deverão conter a média de pressão diastólica da população com as características estudadas5 94 Outras maneiras de estabelecer intervalos Algumas revistas não aceitam resultados escritos como por exemplo 193 21 porque essa expressão não informa se 21 é o desvio padrão ou o erro padrão da média É importante indicar como foram obtidos os limites relatados Então pode estar escrito por exemplo Esse intervalo referese aos dados porque na fórmula está o desvio padrão que mede a variabilidade dos dados mas não é um intervalo de confiança Se a amostra for suficientemente grande para que se possa admitir que a média e o desvio padrão da amostra sejam boas estimativas dos parâmetros µ e σ é razoável considerar como vimos no Capítulo 8 que ⅔ dos dados estão no intervalo calculado Além disso é comum apresentar o resultado do trabalho na forma Desde que a amostra seja suficientemente grande mais de cem essa expressão pode ser vista como um intervalo de 95 de confiança para o parâmetro µ a média da população porque você está usando a fórmula do erro padrão da média e 2 é o valor aproximado de t para grandes amostras Mas isso não é verdade no caso das pequenas amostras de tamanho seis ou dez unidades 95 Cuidados na interpretação dos intervalos de confiança A interpretação do intervalo de confiança exige cuidado Na prática o pesquisador dispõe de uma única amostra que fornece uma só estimativa de determinado parâmetro Calcula então um intervalo de 95 de confiança mas não sabe se o parâmetro está ou não contido no intervalo que calculou Sabese apenas que intervalos de confiança calculados da mesma forma têm 95 de probabilidade de conter o parâmetro A margem de erro da estimativa é dada pela amplitude do intervalo de confiança Quanto maior a amostra menor é a margem de erro mas o fato de o intervalo de confiança ficar menor não significa que contenha o parâmetro Conter o parâmetro é apenas uma probabilidade 96 Exercícios resolvidos 961 Foram obtidos dados sobre o nível de colesterol total em jejum de 25 universitários saudáveis A média e o desvio padrão medidos em mgdL foram de 200 e 20 respectivamente Encontre o intervalo de 90 de confiança Para um nível de 90 de confiança α 10 n 1 25 1 24 Então o valor de t na Tabela 6 dos Anexos é 171 A expressão do intervalo de confiança fica então como segue 962 Um professor obteve dados de idade de uma amostra de 61 alunos matriculados na universidade A média de idade foi de 235 anos e o desvio padrão foi 30 Calcule o intervalo de 99 de confiança para a média Sabemos que as margens de erro do intervalo de confiança são dadas por Temos média de 235 desvio padrão 30 tamanho da amostra 61 e nível de confiança pedido de 99 Para calcular o valor de t é preciso procurar na mesma Tabela 6 o valor que corresponde a n 1 61 1 60 graus de liberdade e α 100 99 1 Você acha t 266 Então O intervalo de 99 de confiança para a média de idade dos alunos apresenta margens de erro 23369 e 23631 anos 963 O limite inferior de um intervalo de confiança para a média para peso ao nascer pode ser negativo Pode ser igual a zero Se a amostra for pequena e a variabilidade for alta pode acontecer de o limite inferior ser zero ou até mesmo negativo o que não tem sentido biológico O problema é que no cálculo do intervalo de confiança não se leva em conta qualquer informação sobre a média da população mas apenas os dados da amostra 964 A pressão sanguínea sistólica medida em uma amostra de cem militares apresentou média igual a 125 mm Hg e desvio padrão igual a 9 mmHg Calcule o erro padrão da média e ache o intervalo de 95 para a média populacional Como no Exemplo 94 vamos tomar t 200 Então O intervalo de 95 tem limites 12320 mm Hg e 12680 mm Hg 965 A pressão sanguínea sistólica medida em uma amostra de nove militares apresentou média igual a 125 mm Hg e desvio padrão de 9 mmHg Calcule o erro padrão da média e ache o intervalo de 95 para a média populacional No nível de confiança de 95 com n 91 8 temos t 231 Então O intervalo de 95 para a variável em estudo tem limites 11107 mm Hg e 13193 mm Hg 966 Compare os intervalos de confiança obtidos nos exercícios 964 e 1065 A amplitude do intervalo de confiança dá ideia de quão incertos estamos acerca do valor do parâmetro que desconhecemos Amplitude grande pode estar indicando que a amostra deveria ser maior Não existe efeito do tamanho da amostra sobre o valor numérico do desvio padrão calculado No entanto o erro padrão da média tende a diminuir porque o valor da média da amostra tende a se aproximar do valor da média verdadeira veja que você divide o desvio padrão por n O valor de t é maior quando a amostra é pequena 97 Exercícios propostos 971 Um intervalo de 95 de confiança para a média tem a seguinte interpretação a se forem tomadas repetidamente muitas amostras e calculados seus intervalos de confiança 95 devem conter a média b 95 da população está contida no intervalo de 95 de confiança 972 Responda se a afirmativa Intervalos de confiança só podem ser calculados para a média é a verdadeira b falsa 973 Seja X a variável aleatória que representa a pressão sanguínea sistólica de indivíduos com idade entre 20 e 25 anos Essa variável apresenta distribuição aproximadamente normal Suponha que com base em uma amostra de cem indivíduos tenham sido obtidos a média de 123 mL de mercúrio e o desvio padrão de 8 mL de mercúrio Determine o intervalo de 90 de confiança para a média 974 Seja X a variável aleatória que representa a quantidade de hemoglobina em gramas encontrada em um decilitro 100 mL de sangue total Com base em uma amostra aleatória de duzentas mulheres adultas sadias obtevese a média de 14gdL e erro padrão da média de 11gdL Determine o intervalo de 95 de confiança para µ supondo que X seja uma variável com distribuição aproximadamente normal 975 Seja X a variável aleatória que representa o comprimento ao nascer de filhos do sexo masculino de mães sadias com período completo de gestação Com base em 28 recémnascidos masculinos uma enfermeira calculou a média e o desvio padrão que resultaram em 50 cm e 25 cm respectivamente Calcule o intervalo de 90 de confiança para µ pressupondo distribuição aproximadamente normal 976 Seja X a variável aleatória que representa a taxa de glicose no sangue humano Determine o intervalo de 95 de confiança para µ supondo que uma amostra de 25 pessoas tenha fornecido média 950 mg de glicose por 100 mL de sangue e o desvio padrão s 235 mg de glicose por 100 mL de sangue Suponha que X tenha distribuição aproximadamente normal 977 Uma amostra de trinta homens sadios com idade entre 30 e 48 anos não fumantes e que tinham atividade física regular forneceu em repouso dados de frequência cardíaca6 A média foi de 639 bpm batimentos por minuto com erro padrão da média de 13 bpm Calcule o intervalo de 95 de confiança para a média 978 Num estudo sobre qualidades nutricionais7 de lanches rápidos mediuse a quantidade de gordura em cem hambúrgueres de determinada cadeia de restaurantes Foram obtidos a média de 302 gramas e o desvio padrão de 38 gramas Construa um intervalo de 95 de confiança para a quantidade média de gordura nos hambúrgueres servidos nesses restaurantes 979 No mesmo estudo citado no Exercício 978 foi medida a quantidade de sal e se obtiveram a média de 658mg e o desvio padrão de 47mg Ache o intervalo de 90 de confiança 9710 Uma enfermeira mediu o comprimento de 105 bebês do sexo masculino e obteve o intervalo de 90 de confiança para a média em centímetros 453 532 Responda brevemente às questões feitas em seguida a A média da população está no intervalo 453 532 b A média da amostra está no intervalo 453 532 c Novas amostras de 105 bebês do sexo masculino darão médias no intervalo 453 532 d Um intervalo de 99 de confiança seria mais estreito 6Com base em Brett S E et al Diastolic blood pressure change during exercise positively correlated with serum cholesterol and insulin resistance Circulation 2000 101 611615 7Johnson R e Tsui K W Statistical reasoning and methods Nova York Wiley1998 p 338 1The Behavior of the Sample Mean Disponível em wwwjerrydallalcom1hspmeandisthtm Acesso em 20 nov 2014 2Note que para isso ser verdade é preciso que as variâncias das amostras tenham sido estimadas usando os graus de liberdade como divisores 3Esse comportamento é descrito pelo Teorema do Limite Central que diz mais ou menos o seguinte a distribuição da soma de variáveis aleatórias independentes é normal desde que a amostra seja suficientemente grande Esse teorema é assim chamado não por fornecer um limite central mas por ser um teorema do limite que é central para a prática da Estatística descrevendo o comportamento da média da amostra à medida que o tamanho da amostra vai aumentando 5É errado dizer que um intervalo de confiança com valores calculados com base em uma amostra tem 95 de probabilidade de conter µ O intervalo ou contém ou não contém µ Sabemos apenas que temos probabilidade 95 de os intervalos calculados da mesma forma conterem µ CAPÍTULO 10 Teste t para uma Amostra Muitas vezes é preciso verificar se certas diretrizes ou determinações estão sendo acatadas Neste capítulo veremos como se faz um teste estatístico para informar com certo nível de confiança e a partir dos dados de uma amostra que as medidas tomadas em determinada população têm em média o valor especificado por uma instituição ou uma empresa O teste é necessário porque se faz uma inferência ou seja usamos dados de uma amostra para informar a média da população Toda inferência está sujeita a erro mas o teste estatístico garante certo grau de confiança nas afirmativas Exemplo 101 Teste de uma taxa A Organização Mundial da Saúde OMS1 preconiza 15 para a taxa2 de parto cesáreo no mundo mas no Brasil essa taxa é muito maior Imagine que a maior maternidade de uma metrópole brasileira informe que nos últimos anos tem mantido a taxa de parto cesáreo com valor próximo ao recomendado pela OMS Para confirmar essa informação um pesquisador precisa comparar a taxa de parto cesáreo obtida em uma amostra aleatória de prontuários dessa maternidade com a taxa de 15 recomendada pela OMS usando um teste estatístico 1Disponível em httpbvsmssaudegovbrbvspublicacoesqualificacaosaudesuppdfAtencsaude2fasepdf Acesso em 5 fev 2015 2Taxa de parto cesáreo é a relação entre o número total de partos cesáreos e o total de partos normais e cesáreos realizados por uma operadora no ano considerado Exemplo 102 Teste de uma média Para verificar se a quantidade de flúor em dentifrícios de determinada marca comercial corresponde à quantidade especificada nas embalagens dessa marca vendidas no mercado um químico pode tomar uma amostra de vários tubos de dentifrício da marca em questão analisar a quantidade de flúor em cada tubo e comparar a média calculada com o valor informado nas embalagens por meio de um teste estatístico3 3Ver Vieira S Estatística para a qualidade 3 ed Rio de Janeiro Elsevier 2014 101 Tomada de decisão em condições de incerteza Imagine uma situação em que é preciso tomar uma decisão por exemplo você comprou um carro e precisa decidir se faz ou não o seguro contra roubo Você pensa se o carro for roubado e estiver segurado recebe outro carro Você teria então tomado a decisão certa Mas se seu carro não for roubado você talvez até lamente ter pagado o seguro porque não precisou dele E se não fizer o seguro Seu carro também pode ser ou não roubado e você irá se lamentar se tiver perdido o carro ou se congratular se não tiver despendido dinheiro com seguro Veja a Figura 101 FIGURA 101 Decidindo certo ou errado Ao tomar uma decisão pensamos estar tomando a decisão correta mas podemos estar errados Por essa razão nas decisões que você toma na sua vida pessoal leva em conta a própria experiência sua intuição os conselhos de terceiros para estimar probabilidades etc Mas o pesquisador precisa tomar decisões objetivas com base em dados e dar conta a seus leitores das probabilidades de erro envolvidas em suas decisões Deve então recorrer a um teste estatístico É o que vamos ver neste capítulo 102 Teste estatístico Para apresentar uma pesquisa o pesquisador precisa de dados coletados organizados analisados e interpretados Se os dados provêm de uma amostra retirada da população o pesquisador pode apenas descrever essa amostra ou pode usála como base para generalização A generalização passa necessariamente por análise estatística Este capítulo apresenta um teste estatístico antigo mas muito usado hoje em dia para comparar a média de uma população estimada por meio de uma amostra com um valor especificado Exemplo 103 Teste de uma média Uma análise de dados da literatura indicou que o peso de um menino de 7 anos morador do sul do Brasil deve ser 25 kg Um professor de Educação Física considera que esse parâmetro deve ter mudado Pesou então cem meninos de 7 anos e calculou a média Olhando essa média o professor pode dizer se em média os meninos de sua amostra têm ou não 25 kg Mas também pode generalizar seu resultado e eventualmente refutar a informação da literatura Mas para essa refutação precisa de um teste estatístico O pesquisador tem apenas uma amostra e quer generalizar seus achados para toda a população Aplica então um teste estatístico O teste estatístico não impede o erro mas calcula a probabilidade de esse erro ocorrer nesse tipo de pesquisa Vamos ver isso devagar Para fazer o teste siga os passos explicados em seguida 1 construa as hipóteses 2 especifique o nível de significância 3 calcule o valor do teste 4 interprete o resultado 1021 Construindo as hipóteses O pesquisador coleta dados com um objetivo em mente No Exemplo 103 o objetivo era verificar se o parâmetro citado na literatura peso de um menino de 7 anos mudou no tempo ou em determinada população São possíveis duas hipóteses a primeira é a de que nessa população o peso médio de um menino de 7 anos seja de 25 kg e a segunda é a de que nessa população o peso médio de um menino de 7 anos não seja de 25 kg Com base nos dados coletados e no resultado de um teste estatístico o pesquisador deve decidir por uma dessas duas hipóteses lembrando sempre que está sujeito a erro A primeira hipótese é chamada de hipótese da nulidade e é indicada por H0 lêse agá zero No exemplo que estamos discutindo a hipótese da nulidade afirma que a média µ dos pesos de meninos de 7 anos na população de onde o pesquisador retirou a amostra é igual a 25 kg A segunda hipótese contradiz a primeira e por isso é chamada de hipótese alternativa Indicase por H1 lêse agáum No exemplo a hipótese alternativa diz que a média dos pesos de meninos de 7 anos na população de onde a amostra proveio é diferente de 25 kg É importante deixar claro as hipóteses são feitas sobre os parâmetros nunca sobre as estimativas No Exemplo 103 o pesquisador não se perguntou se a média da amostra que obteve correspondia à média informada na literatura era fácil ver isso O objetivo da pesquisa era estabelecer se o que foi observado na amostra poderia ser estendido para toda a população de onde a amostra foi retirada 1022 Testes unilaterais e testes bilaterais A hipótese da nulidade afirma não há diferença ou então a diferença é nula No exemplo que acabamos de ver A hipótese alternativa afirma na população estudada a média é diferente Dizemos então que o teste é bilateral porque na população estudada a média tanto pode ser maior como menor que o parâmetro estabelecido na literatura Pode acontecer porém de o pesquisador especificar o sinal da diferença maior ou menor Dizemos então que o teste é unilateral É sempre mais seguro proceder a um teste bilateral Isso porque qualquer que seja a área de conhecimentos alguns tratamentos têm eventualmente efeito contrário ao esperado Exemplo 104 Teste bilateral Em média comprimidos para cefaleia dor de cabeça aliviam a dor por 100 minutos Para saber se uma nova formulação tem o mesmo efeito dez voluntários usaram a nova formulação em situação de dor A hipótese da nulidade H0 é a de que em média o tempo de alívio de dor é 100 minutos como acontece com as outras formulações A hipótese alternativa H1 é a de que o tempo médio para alívio de dor é diferente de 100 minutos Exemplo 105 Teste unilateral A Organização Mundial de Saúde OMS informa que o peso médio ao nascer de nascidos a termo em países desenvolvidos no ano de 2000 era de 34 kg 75 lb Duas médicas australianas4 se perguntaram se o peso ao nascer de filhos de mães que fizeram uso continuado de drogas ilícitas durante a gestação não seria menor do que o informado pela OMS Levantaram então por volta de 2001 dados de peso ao nascer de filhos de 62 mulheres que usaram maconha durante todo o período de gestação Obtiveram para a idade gestacional média de 38 semanas peso médio ao nascer de 3068 kg e erro padrão da média de 0096 kg Veja as hipóteses colocadas em teste hipótese da nulidade não há diferença entre o peso médio ao nascer de nascidos a termo de mães que fizeram uso continuado de drogas ilícitas durante a gestação e o peso médio ao nascer de nascidos a termo em países desenvolvidos informado pela OMS 34 kg ou 75 lb hipótese alternativa o peso médio ao nascer de nascidos a termo de mães que fizeram uso continuado de drogas ilícitas durante a gestação é menor que o peso médio ao nascer de nascidos a termo em países desenvolvidos informado pela OMS 34 kg ou 75 lb 4Quilivan JA Evans SF The impact of continuing illegal drug use on teenage pregnancy outcomes Australia BJOG An International Journal of Obstetrics Gynaecology109 10114853 2002 1023 Definindo os erros Para quem busca informação científica não há interesse em saber lembrando o Exemplo 105 que algumas mulheres australianas a amostra usuárias de maconha durante a gestação tiveram ou não filhos com peso ao nascer mais baixo do que o esperado o que interessa é saber se o uso de maconha na gestação é ou não fator de risco para baixo peso ao nascer toda a população Mas não há como estudar toda a população Então os pesquisadores levantam dados de amostras e fazem inferência estatística para a população Veja a Figura 102 a inferência estatística como toda inferência está sujeita a erro FIGURA 102 Erro tipo I e erro tipo II erro tipo I rejeitar a hipótese da nulidade quando essa hipótese é verdadeira erro tipo II não rejeitar a hipótese da nulidade quando essa hipótese é falsa Exemplo 106 Definindo os erros Reveja o Exemplo 105 Feitas as hipóteses quais são os erros possíveis Erro tipo I rejeitar H0 quando H0 é verdadeira Dizer que o uso de maconha durante a gestação faz diminuir o peso ao nascer dos bebês se isso não for verdade Erro tipo II não rejeitar H0 quando H0 é falsa Dizer que o uso de maconha durante a gestação não faz diminuir o peso ao nascer dos bebês se isso não for verdade É importante saber que a pesquisa científica deve responder a uma pergunta O profissional de Estatística transforma a pergunta do pesquisador em duas hipóteses que se contradizem uma negativa outra positiva Apenas uma das hipóteses pode ser verdadeira Um teste estatístico conduz a decisão por uma das hipóteses Veja a Figura 103 FIGURA 103 Decisão Sempre é possível tomar uma decisão errada mas os pesquisadores preferem diminuir a probabilidade de cometer erro tipo I Por quê Porque cometer erro tipo I significa dizer que uma intervenção tem efeito quando na verdade essa intervenção não tem efeito O erro no resultado da pesquisa pode determinar mudanças de tratamento de pacientes investimentos mudanças de hábitos sem necessidade Veja o Exemplo 107 Exemplo 107 Erros tipo I O pesquisador sugere mudança de tratamento quando conclui A velocidade de ação da nova droga é maior que a da droga convencional na redução da pressão sistólica Se não for verdade que a velocidade de ação da nova droga é maior que a da droga convencional o pesquisador terá cometido erro tipo I Evidentemente o pesquisador não sabe disso quando conclui Foi levado à conclusão errada porque errou na amostragem ou na coleta de dados ou no delineamento do ensaio ou foi simples azar O pesquisador sugere mudança de hábito quando conclui Exercício físico melhora o aproveitamento da glicose pelos músculos Se não for verdade que exercício físico melhora o aproveitamento da glicose pelos músculos o pesquisador terá cometido erro tipo I O pesquisador conclui O novo modelo de aparelho de raios X não é mais seguro que o antigo O pesquisador não estará cometendo erro tipo I porque erro tipo I seria concluir que o novo modelo de aparelho de raios X investimento é mais seguro que o antigo Não foi essa a conclusão Nível de significância é a probabilidade de se cometer erro tipo I rejeitar H0 quando H0 é verdadeira Indicase pela letra grega α lêse alfa Nível de significância 1 nível de confiança Os pesquisadores se sentem seguros para rejeitar a hipótese da nulidade concluir que a diferença existe quando a probabilidade de errar nessa decisão é pequena Por essa razão na pesquisa científica é comum usar nível de significância de 10 5 ou 1 Se o pesquisador rejeita a hipótese da nulidade no nível de significância α 005 diz que o resultado é significante embora fosse melhor especificar significante no nível de 5 Se o pesquisador rejeita a hipótese da nulidade no nível de significância IαI 001 diz que o resultado é altamente significante embora fosse melhor especificar significante no nível de 1 Exemplo 108 Nível de significância Reveja o Exemplo 105 Feitas as hipóteses estabeleceuse o nível de significância de 5 e então aplicouse o teste t O resultado foi significante no nível de 5 A conclusão da pesquisa foi a de que o uso continuado de maconha durante a gestação faz diminuir o peso ao nascer dos bebês 1024 Aplicando o teste t O teste t para uma amostra one sample ttest permite estabelecer se a média da população de onde essa amostra foi retirada tem um valor especificado Para aplicar o teste o pesquisador precisa ter coletado a amostra que fornece média e erro padrão da média O pesquisador então constrói as hipóteses estabelece o nível de significância e calcula o valor de t por meio da seguinte fórmula em que x é a média da amostra µ é a especificação e é o erro padrão da média Exemplo 109 Aplicando o teste A média de tempo de sono dos idosos internados numa instituição é de 6 horas e 8 minutos Uma enfermeira quer saber se os idosos que residem no pavilhão em que trabalha têm ou não o mesmo tempo de sono dos demais Uma amostra de quatro pessoas forneceu os seguintes tempos de sono medidos em horas 5 4 6 5 O nível de significância estabelecido pela pesquisadora é de 10 Aplique o teste t O valor especificado é de 6 horas e 8 minutos As hipóteses são A média da amostra é Para calcular o erro padrão da média é preciso obter a variância Veja os cálculos intermediários na Tabela 101 Tabela 101 Cálculos intermediários para o cálculo da variância x x2 5 25 4 16 6 36 5 25 20 102 O valor especificado para a média de tempo de sono dos idosos internados na instituição é de 6 horas e 8 minutos Transformando 8 minutos em decimais temse 613 h O valor de t é Feitos os cálculos o pesquisador deve comparar o valor absoluto do t calculado com o valor crítico dado em tabela de valores de t com os graus de liberdade da amostra e no nível estabelecido de significância Toda vez que o valor absoluto do t calculado for igual ou maior que o valor crítico dado na tabela o pesquisador deve rejeitar a hipótese de nulidade no nível estabelecido de significância Para entender como se encontra o valor crítico de t veja a Tabela 102 que reproduz parte da tabela de valores de t trazida neste livro nos Anexos O valor crítico de t para um teste bilateral com por exemplo 4 graus de liberdade e 005 de significância está no cruzamento da linha 4 com a coluna 005 É 2776 em negrito na Tabela 102 Tabela 102 Tabela parcial de valores de t Exemplo 1010 Interpretando o resultado do teste Reveja o Exemplo 109 sobre a média de tempo de sono dos idosos internados numa instituição Estabeleceuse nível de significância de 10 para o teste bilateral O valor de t calculado foi 277 O valor crítico de t dado na tabela para 3 graus de liberdade e 10 de significância é 2353 O valor absoluto do t calculado é maior que o valor crítico dado na tabela Logo a pesquisadora deve rejeitar a hipótese de nulidade ou seja deve dizer que a média de tempo de sono dos idosos sob sua responsabilidade é diferente da especificada de 6 horas e 8 minutos α 10 Quem rejeita a hipótese da nulidade não tem certeza total e absoluta de que a decisão tomada está correta não tem 100 de confiança O teste estatístico fixa o valor da probabilidade de cometer erro tipo I mas não elimina a probabilidade desse erro De qualquer modo é o teste estatístico que deixa claro para o pesquisador a possibilidade de estar errado em sua afirmativa está escrito na conclusão e ainda esclarece a probabilidade de erro nesse tipo de pesquisa 1025 Calculando o pvalor Os estatísticos usam computador para fazerem testes E para fazerem testes estatísticos usando um programa não se estabelece o nível de significância a priori porque esses programas fornecem o pvalor Calcular o pvalor é extremamente difícil e isso só é feito hoje em dia usando computador Mas o que significa pvalor O pvalor diz quão provável seria obter uma amostra tal qual a que foi obtida quando a hipótese da nulidade for verdadeira Exemplo 1011 Interpretando o pvalor Reveja o Exemplo 109 sobre a média de tempo de sono dos idosos internados numa instituição Usando o Minitab você obtém OneSample t Tempo de sono Test of µ 613 vs 613 Veja testase a hipótese de que µ 613 contra a hipótese de que µ 613 Você tem n 4 que é o tamanho da amostra média igual a 50 desvio padrão igual a 0816 erro padrão da média igual 0408 intervalo de 95 confiança para a média de 3701 a 6299 valor de t igual a 277 e pvalor igual a 0070 O que significa pvalor igual a 0070 Quando a hipótese de nulidade é verdadeira a probabilidade de se obter uma amostra tal qual a que foi obtida é 0070 ou 7 Como esse valor é menor que os 10 admitidos de erro rejeitase a hipótese de nulidade no nível de 10 de significância O pvalor valor de probabilidade permite decidir se existe evidência suficiente para rejeitar a hipótese de nulidade embora o teste de hipóteses não elimine a probabilidade de erro De qualquer modo os pesquisadores se sentem seguros para rejeitar a hipótese de nulidade assumir que existe a diferença procurada quando o pvalor é pequeno5 Quando p 005 dizemos que os resultados são significantes e quando p 001 dizemos que os resultados são altamente significantes Isso porque seria muito pouco provável chegar ao resultado obtido se a diferença entre médias não existisse 103 Exercícios resolvidos 1031 Um réu está sendo julgado Quais são as hipóteses possíveis Quais são as decisões possíveis Quais são os erros associados às decisões possíveis Hipóteses o réu é inocente do ato de cuja prática o acusam o réu é culpado do ato de cuja prática o acusam Decisões possíveis considerar o réu culpado considerar o réu inocente Erros possíveis dizer que o réu é culpado quando é inocente dizer que o réu é inocente quando é culpado 1032 Uma pessoa garante que um cão pode ser treinado para alertar seus donos no caso de o telefone tocar Quais são as hipóteses possíveis Quais são as decisões possíveis Quais são os erros associados às decisões possíveis Hipóteses não se consegue dar esse tipo de treinamento conseguese dar esse tipo de treinamento Decisões possíveis considerar que se conseguiu o resultado com treinamento considerar que não se conseguiu o resultado com treinamento Erros possíveis dizer que se conseguiu resultado com o treinamento quando não se conseguiu dizer que não se conseguiu resultado com o treinamento quando se conseguiu 1033 Um pesquisador requisitou ao biotério da universidade em que trabalha oito ratos machos da raça Wistar com 30 dias pesando 80 gramas Recebe então ratos machos da raça indicada com os seguintes pesos em gramas 76 81 50 47 63 65 63 64 Por simples inspeção o pesquisador acostumado a treinar ratos de laboratório suspeita que os ratos que recebeu tenham peso menor do que o pedido Aplicando um teste estatístico você diria que o peso médio dos ratos que o pesquisador recebeu corresponde ao especificado na requisição ou é menor que esse valor no nível de significância α 5 Para obter a média aritmética calcule Para obter o desvio padrão primeiro calcule a variância O desvio padrão é O valor de t é Como a hipótese de nulidade será rejeitada apenas em uma direção se o peso dos ratos do biotério for significantemente menor do que o valor especificado esse é um teste unilateral Com n 1 8 1 7 graus de liberdade o valor crítico na tabela de t no nível de 5 é 1895 Não se rejeita a hipótese de nulidade ou seja não se pode afirmar que os pesos de ratos do biotério sejam significantemente menores do que o valor especificado 1034 Uma análise de dados da literatura indicou que a escovação de dentes com dentifrício fluoretado reduz a incidência de cárie em 30 quando comparada com o dentifrício sem flúor considerando um acompanhamento de três anos6 Um cirurgiãodentista considerou esse valor muito alto Resolveu então fazer uma pesquisa Durante três anos examinou periodicamente cem crianças de 10 a 12 anos metade das quais usou dentifrício fluoretado enquanto a outra metade usou dentifrício sem flúor O cirurgiãodentista calculou as médias de incidência de cáries no grupo que usou flúor e naquele que não usou flúor Em seguida calculou a redução de incidência de cárie na amostra Quais são as hipóteses em tese para um teste bilateral E para um teste unilateral As hipóteses em teste são Para um teste bilateral H0 a redução de cárie com bochechos de solução fluoretada é igual a 30 H1 a redução de cárie com bochechos de solução fluoretada é diferente de 30 Para um teste unilateral H0 a redução de cárie com bochechos de solução fluoretada é igual a 30 H1 a redução de cárie com bochechos de solução fluoretada é menor de 30 6Chaves SCL e Silva LMV A efetividade do dentifrício fluoretado no controle da cárie dental uma meta análise Rev Saúde Pública v 36 5 São Paulo out de 2002 104 Exercícios propostos 1041 Você vai sair de casa e o céu está nublado prenunciando chuva Quais hipóteses você pode pôr em teste Quais são as decisões possíveis considerando que você tem um guardachuva Quais são os erros associados às decisões possíveis 1042 Um dos melhores indicadores da saúde do bebê é seu peso ao nascer7 Mas o peso ao nascer sofre o efeito de diversos fatores particularmente da privação de alimentos que pode ocorrer durante a gestação Embora o peso médio ao nascer nos Estados Unidos seja 3300 g a média de peso ao nascer para filhos de mulheres que vivem em extrema pobreza é de 2800 g Um hospital introduziu um novo programa de cuidado prénatal para diminuir o número de bebês com baixo peso ao nascer No primeiro ano 25 gestantes que viviam em extrema pobreza participaram do programa Dados do hospital revelam que os bebês nascidos dessas mães tiveram peso médio ao nascer de 3075 g e desvio padrão 500 g O programa é efetivo para gestantes que vivem em extrema pobreza 1043 Um professor de Estatística quer saber se os alunos que entram na universidade têm conhecimento de Matemática suficiente para enfrentar os cursos básicos de Estatística Ele considera que se os alunos não conseguirem em média pelo menos 7 em determinada prova devem estudar Matemática antes de iniciar o curso Seis alunos são escolhidos ao acaso para fazer a prova As notas deles foram 62 92 75 68 83 95 O professor pode ter 90 de confiança de que a nota média dos alunos está acima de 7 1044 As notas finais de estudantes de certo curso podem variar entre 1 pior nota e 6 excelente Nos últimos cinco anos a média foi 47 A média e o desvio padrão de uma amostra aleatória de 22 estudantes do ano em curso foram 50 e 0452 respectivamente Há razão para suspeitar de que os novos alunos tenham notas melhores que os alunos de anos anteriores em um nível de significância de 5 1045 Crianças com baixa estima têm mais depressão do que crianças em geral O escore para depressão na população em questão é sabidamente 908 Você estuda uma amostra de cem crianças com baixa estima e encontra um escore médio para depressão de 92 com desvio padrão de 14 Qual é sua conclusão 1046 Imagine que você esteja conduzindo um ensaio para saber se determinada terapia reduz a ansiedade em alunos do curso fundamental O valor teoricamente estabelecido para o teste de ansiedade que você vai fazer é 20 Com uma amostra casual simples de 81 alunos você encontrou média 18 e desvio padrão 9 Qual seria sua conclusão 1047 Uma amostra aleatória dos escores da avaliação do desempenho de funcionários de uma faculdade será comparada com a média dos escores de toda a universidade nos últimos cinco anos que foi 50 Os escores de avaliação do desempenho variavam de zero a 10 Qual seria sua avaliação 1048 A frase que segue está certa ou está errada O teste t para uma amostra é usado para verificar se a média de uma amostra é significantemente diferente de um valor especificado 1049 Aprenda a usar um programa de computador para fazer o teste t para uma amostra onesample ttest Em seguida use o programa para refazer o Exercício 1043 Encontre o pvalor 10410 Ache o pvalor para o Exercício 1047 Interprete o resultado 10411 Comprimidos para cefaleia dor de cabeça aliviam a dor por 100 minutos em média Para saber se uma nova formulação tem o mesmo efeito dez voluntários usaram a nova formulação em ocasião de dor O tempo de alívio de dor registrado por esses voluntários foi de 90 93 93 99 98 100 103 104 99 102 Aplique o teste 7Quantitative Methods in Social Research Disponível em httpccnmtlcolumbiaeduprojectsqmss Acesso em 10 de fevereiro de 2015 8httpptslidesharenetshoffma5onesamplettest 5Quando reduzimos a probabilidade de cometer um tipo de erro aumentamos a probabilidade de cometer o outro tipo de erro Como os pesquisadores consideram cometer erro tipo I mais grave esse tipo de erro é reduzido em geral a 5 CAPÍTULO 11 Teste t para a Comparação de Médias Os pesquisadores trabalham com amostras mas por meio de testes estatísticos fazem inferência ou seja generalizam suas conclusões para as populações das quais as amostras foram retiradas São sempre duas as hipóteses em teste a hipótese da nulidade que na grande maioria das vezes afirma não existir diferença entre as duas populações em comparação e a hipótese alternativa que contradiz a primeira Os testes estatísticos fornecem o pvalor valor de probabilidade que permite decidir se há evidência suficiente para rejeitar a hipótese da nulidade Em geral e por tradição se o pvalor for menor do que 005 p 005 a hipótese da nulidade é rejeitada1 Em outras palavras se p 005 os resultados são estatisticamente significantes Neste capítulo veremos como aplicar um teste estatístico para comparar duas médias2 da mesma variável quantitativa Exemplo 111 Comparando duas médias Para verificar se meninos e meninas aprendem a falar na mesma idade um pesquisador obteve para um grande número de crianças a idade em que cada uma delas começou a falar A primeira hipótese da nulidade é a de que a média das idades em que os meninos começam a falar meninos da população da qual a amostra foi retirada não apenas os da amostra é igual à média das idades em que as meninas começam a falar meninas da população da qual a amostra foi retirada não apenas as da amostra H0 as médias são iguais A segunda hipótese alternativa é a de que a média das idades em que os meninos começam a falar é diferente da média das idades em que as meninas começam a falar H1 as médias são diferentes Para comparar duas médias aplicase o teste t de Student desde que seja razoável pressupor que a variável em análise tem distribuição normal ou aproximadamente normal Vamos ver como se faz esse teste em duas situações diferentes 1 quando os dados são pareados 2 quando as amostras são independentes 111 Teste t nos estudos com dados pareados Dizemos que os dados são pareados se o pesquisador adotar um dos seguintes métodos para seu trabalho medir a mesma variável nas mesmas unidades antes e depois de uma intervenção recrutar participantes da pesquisa aos pares ou parear os participantes por idade sexo estágio da doença Depois administrar o tratamento em teste a um dos participantes de cada par escolhido ao acaso e ao outro o tratamento convencional medir a mesma variável em gêmeos ou outro tipo de par como mãe e filho Exemplo 112 Ensaio com dados pareados duas medidas obtidas em cada indivíduo Para verificar se duas drogas diferentes usadas como antitussígenos bloqueadores de tosse alteram o tempo de sono foi feito um ensaio com nove voluntários Eles tomaram um dos antitussígenos na primeira noite e o outro na noite seguinte Foi registrado o tempo de sono de cada voluntário nas duas noites consecutivas A proposta consiste em comparar as médias de tempo de sono obtidas com cada antitussígeno Exemplo 113 Ensaio com dados pareados medidas feitas em pares de unidades Para verificar se uma droga é eficiente na inibição do crescimento de tumores foram injetadas células cancerosas em 14 ratos similares Em seguida os tumores foram medidos e foram formados pares de ratos com tumores de mesmo tamanho Por sorteio um rato de cada par recebeu a droga grupo tratado enquanto o outro foi mantido como controle A ideia é comparar as médias dos tamanhos de tumores de ratos tratados e de ratos controles Quando temos dados pareados aplicamos o teste t Mas o pareamento deve ter algum tipo de lógica não basta ter duas amostras com o mesmo número de dados Para fazer o teste t 1 estabeleça as hipóteses 2 escolha o nível de significância 3 calcule as diferenças entre todas as observações pareadas 4 calcule a média dessas diferenças 5 calcule a variância dessas diferenças 6 calcule o valor de t que está associado a n 1 graus de liberdade pela seguinte fórmula 7 compare o valor absoluto do t calculado com o valor crítico dado em tabela de valores de t no nível estabelecido de significância e com os mesmos graus de liberdade Toda vez que o valor absoluto do t calculado for igual ou maior que o valor crítico dado na tabela rejeite a hipótese de que as médias são iguais no nível estabelecido de significância Exemplo 114 Aplicando o teste t em ensaio com dados pareados Lembre o Exemplo 112 realizouse um ensaio para verificar se pessoas submetidas a antitussígenos diferentes em duas noites consecutivas têm em média o mesmo tempo de sono nas duas noites Na Tabela 111 estão registrados os tempos de sono de nove voluntários com cada droga As hipóteses em teste são Tabela 111 Tempos de sono dos voluntários em horas segundo a droga H0 o tempo médio de sono é o mesmo para as duas drogas H1 as drogas determinam tempos médios de sono diferentes Nível de significância 005 Para fazer o teste a calcule as diferenças entre os tempos de sono observados para cada voluntário quando tomaram drogas diferentes conforme apresentado na Tabela 112 Tabela 112 Tempos de sono em horas segundo a droga e as respectivas diferenças b calcule a média das diferenças c calcule a variância das diferenças d calcule o valor de t que tem n 1 9 1 8 graus de liberdade e compare o valor absoluto do t calculado com o valor crítico dado em Tabela de valores de t no nível de significância de 005 e com 8 graus de liberdade Como o valor absoluto do t calculado 300 é maior que o valor crítico 231 rejeite a hipótese de que o tempo de sono para as duas drogas é em média o mesmo no nível de significância de 005 Se você fizer os cálculos em computador3 vai obter o pvalor 00171 A conclusão é a mesma 3É muito complicado calcular o pvalor razão pela qual não se fornece aqui nenhuma fórmula de cálculo Dados pareados podem ser submetidos a testes unilaterais desde que a pesquisa assim o exija Veja o Exemplo 115 Exemplo 115 Ensaio com dados pareados teste t unilateral Uma droga é tradicionalmente usada para alívio de dor nos casos de enxaqueca Uma empresa oferece um genérico Para testar se as duas drogas dão o mesmo tempo de alívio da dor realizouse um ensaio com sete voluntários4 Todos os voluntários usaram em períodos distintos tanto a droga tradicional como a genérica Os tempos de alívio da dor registrados pelos voluntários com cada droga estão na Tabela 113 Tabela 113 Tempos de alívio da dor em horas segundo a droga H0 o tempo médio de alívio da dor é o mesmo para as duas drogas H1 o tempo médio de alívio da dor é menor quando se administra o genérico Nível de significância de 5 Para fazer o teste a calcule as diferenças entre antes e depois conforme apresentado na Tabela 114 Tabela 114 Tempos de alívio da dor em horas segundo a droga e as respectivas diferenças Fazendo os cálculos você obtém a média das diferenças que é 05 e a variância das diferenças que é 05 Aplicando a fórmula para calcular o valor de t quando os dados são pareados você obtém No nível de significância de 5 para um teste unilateral e com 6 graus de liberdade o valor de t na Tabela de t é 194 leia na coluna de 10 Como o valor absoluto do t calculado é menor que o valor crítico 1871 194 não rejeite a hipótese de que o tempo de alívio da dor é em média o mesmo para droga tradicional e genérica no nível de significância de 5 Em termos do pesquisador não há evidência estatística de que o tempo de alívio da dor seja menor quando se usa a droga genérica pvalor 00553 005 4Esste tipo de teste é conhecido como de não inferioridade O número de voluntários deve estar em torno de 25 112 Teste t na comparação de grupos independentes Muitas vezes o pesquisador retira amostras de populações independentes Por exemplo pode comparar o nível de ansiedade de meninos e meninas no primeiro dia de aula Também pode comparar dois grupos de pessoas um grupo submetido a um novo tratamento enquanto o outro grupo é submetido a tratamento convencional5 Exemplo 116 Ensaio para comparação de grupos independentes Para saber se determinado produto faz nascer cabelos em pessoas calvas um dermatologista pode fazer um ensaio clínico um grupo de pessoas calvas recebe o tratamento em teste grupo tratado enquanto um grupo de pessoas calvas recebe um placebo grupo controle 1121 Comparação das variâncias dos grupos O teste t para grupos independentes compara as médias de medidas da mesma variável contínua obtidas de forma independente em cada um de dois grupos Antes porém de proceder ao teste t é preciso verificar se as variâncias dos grupos são ou não desiguais6 Para testar a hipótese de que as variâncias das duas populações são iguais7 aplicase o teste F como segue 1 estabeleça as hipóteses H0 as variâncias na população são iguais H1 as variâncias são diferentes ponto final 2 Escolha o nível de significância α ponto final 3 Siga os seguintes passos a calcule a variância de cada grupo variância do grupo 1 variância do grupo 2 b calcule o valor de F dado pela razão entre a maior e a menor variância Se o valor está associado a n1 1 numerador e n2 1 denominador graus de liberdade c compare o valor calculado de F com o valor dado na tabela de valores F com o nível de significância igual à metade do nível estabelecido e com n1 1 e n2 1 graus de liberdade Rejeite a hipótese de que as variâncias das duas populações são iguais8 no nível de significância α toda vez que o valor calculado de F for igual ou maior do que o valor da tabela de valores F no nível de significância α2 Para entender como se obtém o valor de F na tabela observe a Tabela 115 que reproduz parte da tabela apresentada neste livro nos Anexos Foi colocado em negrito o valor de F que deve ser utilizado para um teste bilateral com nível de significância α 5 n1 7 graus de liberdade no numerador e n2 8 graus de liberdade no denominador na forma descrita aqui O nível de significância que deve ser procurado na tabela é α2 25 com 7 e 8 graus de liberdade Tabela 115 Tabela parcial de valores de F para α 25 Exemplo 117 Teste F para comparar variâncias Para verificar se a quantidade de sódio em duas marcas comerciais de sopas industrializadas tem a mesma variabilidade um nutricionista tomou uma amostra de dez unidades de cada marca em supermercados e mediu a quantidade de sódio em cada unidade9 Os valores são apresentados na Tabela 116 Tabela 116 Quantidade de sódio em miligramas por 100 mL de sopa medida em dez unidades de cada uma das duas marcas comerciais do produto Para proceder ao teste é preciso estabelecer as hipóteses e o nível de significância Seja H0 σ1 2 σ2 2 contra H1 σ1 2 σ2 2 α 5 Em seguida é preciso calcular a a variância de cada grupo Para a marca A a variância é Para a marca B a variância é b o valor de F O valor calculado de F está associado a 9 graus de liberdade no numerador e 9 graus de liberdade no denominador A Tabela de valores F nos Anexos fornece para α 25 com 9 e 9 graus de liberdade o valor F 403 Então não se rejeita a hipótese de que as variâncias sejam iguais ao nível de significância de 5 9Disponível em wwwstatisticshowtocomhowtoconductastatistica Acesso em 3 mar 2015 1122 Teste t para comparar médias quando as variâncias são iguais homocedásticas Quando o teste F resulta não significante podemos considerar que as variâncias não são desiguais Para calcular o valor de t siga estes passos 1 estabeleça as hipóteses 2 estabeleça o nível de significância 3 calcule a média de cada grupo 4 calcule a variância de cada grupo 5 calcule a variância ponderada dada pela fórmula 6 calcule o valor de t que está associado a n1 n2 2 graus de liberdade pela seguinte fórmula 7 compare o valor calculado de t em valor absoluto com o valor crítico de t com o nível estabelecido de significância e com os mesmos graus de liberdade Se o valor absoluto do t calculado for igual ou maior que o da tabela rejeite a hipótese de que as médias são iguais com o nível estabelecido de significância Exemplo 118 Teste t para comparar as médias de dois grupos independentes com variâncias iguais Reveja o Exemplo 117 um nutricionista tomou amostras de duas marcas comerciais de sopas industrializadas A e B e mediu a quantidade de sódio em cada unidade10 Os dados estão apresentados na Tabela 116 Para comparar as médias da quantidade de sódio nas duas marcas Nível de significância 005 a as médias de A e B são respectivamente b as variâncias de grupo são c a variância ponderada é d o valor de t com n1 n2 2 10 7 2 15 graus de liberdade é e como o valor calculado de t em valor absoluto é maior que o valor crítico de t 350 213 ao nível de 5 de significância você rejeita a hipótese de que as duas marcas comerciais de sopa A e B tenham em média a mesma quantidade de sal no mesmo volume de líquido Em termos práticos o nutricionista pode concluir que as quantidades de sal por 125 mL são em média significantemente maiores nas sopas da marca A do que nas da marca B O pvalor neste exemplo é 000257 005 10Disponível em httpwwwstatisticshowtocomhowtoconductastatisticalftesttocomparetwovariances Acesso em 3 mar 2015 1123 Teste t para comparar médias quando as variâncias são desiguais heterocedásticas Quando as variâncias são diferentes para comparar duas médias aplicase o teste t na forma aqui descrita 1 estabeleça as hipóteses 2 estabeleça o nível de significância 3 calcule a média de cada grupo média do grupo 1 média do grupo 2 4 calcule a variância de cada grupo variância do grupo 1 variância do grupo 2 5 calcule o valor de t dado pela seguinte fórmula onde n1 é o número de elementos do grupo 1 e n2 é o número de elementos do grupo 2 6 calcule o número de graus de liberdade associado ao valor de t que é a parte inteira do número g obtido pela seguinte fórmula 7 Feitos os cálculos é preciso procurar o valor de t na tabela de valores de t com o nível estabelecido de significância e com g graus de liberdade Toda vez que o valor absoluto de t calculado for igual ou maior do que o valor de t dado na tabela conclui se que ao nível estabelecido de significância as médias não são iguais Exemplo 119 Teste t para comparar as médias de dois grupos independentes com variâncias desiguais Para verificar se determinada droga tem efeito sobre cefaleia um médico separou ao acaso um conjunto de pacientes em dois grupos um grupo foi submetido à droga em teste grupo tratado enquanto o outro recebeu tratamento padrão grupo controle O tempo de alívio da cefaleia em minutos para cada participante da pesquisa está apresentado na Tabela 117 Tabela 117 Perdas de peso em quilogramas de pacientes segundo o grupo Para proceder ao teste t é preciso estabelecer se as variâncias são ou não iguais Então 1 estabeleça as hipóteses H0 as variâncias na população são iguais H1 as variâncias são diferentes 2 escolha o nível de significância α 3 siga os passos a calcule a variância de cada grupo a variância do grupo tratado é 533 a variância do grupo controle é 43 b calcule o valor de F dado pela razão entre a maior e a menor variância Então se o valor O valor calculado de F está associado a 4 numerador e 4 denominador graus de liberdade A Tabela de valores F nos Anexos fornece para α 25 com 4 e 4 graus de liberdade o valor F 960 Então rejeitase a hipótese de que as variâncias são iguais com o nível de significância de 5 Em termos práticos a variabilidade das respostas com a nova droga é muito grande O resultado parece não ser previsível Para aplicar o teste t H0 µ A µ B H1 µ A µ B Nível de significância 005 Agora calcule 1 as médias de A e B são respectivamente 2 as variâncias de grupo são 3 o valor de t no caso de variâncias desiguais é dado pela seguinte fórmula c calcule o número de graus de liberdade associados ao valor de F O valor calculado de t está associado a aproximadamente 5 graus de liberdade Como o valor de t na tabela de valores t nos Anexos com o nível de significância de 5 e com 5 graus de liberdade é 257 rejeitase a hipótese de que as médias sejam iguais Em termos práticos o tempo de alívio da cefaleia em minutos é em média significativamente maior no grupo que recebeu tratamento padrão Se você fizer o teste no programa SAS vai obter pvalor de 00141 113 Exercícios resolvidos 1131 Os valores apresentados na Tabela 118 permitem testar a hipótese de que recémnascidos de ambos os sexos têm em média a mesma altura contra a hipótese de que em meninos essas medidas são em média maiores Teste essa hipótese com o nível de significância de 5 Tabela 118 Tamanho da amostra média e variância da estatura em centímetros de recém nascidos segundo o sexo Antes de proceder ao teste t convém testar a igualdade das variâncias Para isso vamos estabelecer H0 as variâncias são iguais H1 as variâncias são diferentes Nível de significância 005 Agora calcule que está associado a 1360 numerador e 1441 denominador graus de liberdade Para o nível de significância de 5 você deve comparar o valor calculado de F com o valor crítico de F dado na Tabela de valores de F com α 25 com 1360 e 1441 graus de liberdade A tabela não tem esses números de graus de liberdade que são muito grandes Use o valor de F associado a infinitos graus de liberdade tanto para numerador como para denominador Esse valor é 100 O valor calculado de F é maior do que 100 Portanto com o nível de significância de 5 as variâncias são diferentes A variabilidade de peso ao nascer é maior para o sexo feminino Para aplicar o teste t no caso de variâncias desiguais H0 µ A µ B H1 µ A µ B Nível de significância 005 Agora calcule que está associado aos graus de liberdade O valor calculado de t é maior do que o valor dado na Tabela de valores t nos Anexos Rejeite então ao nível de significância de 5 a hipótese de que recém nascidos de ambos os sexos têm em média a mesma altura Em termos práticos em média os meninos nascem com estatura maior do que as meninas 1132 Com base nos dados apresentados na Tabela 119 teste com o nível de significância de 5 a hipótese de que o calibre da veia esplênica é em média o mesmo antes e após a oclusão da veia porta Tabela 119 Calibre da veia esplênica em seis cães antes e após a oclusão da veia porta Note que foram tomadas duas medidas em cada cão uma antes outra após a oclusão da veia porta Para aplicar o teste t é preciso calcular a diferença observada em cada animal Tais diferenças estão apresentadas na Tabela 1110 Tabela 1110 Diferenças de calibre da veia esplênica antes e após a oclusão da veia porta A média das diferenças é 150 e a variância é s2 6000 Para aplicar o teste H0 o calibre da veia esplênica é o mesmo antes e após a oclusão da veia porta H1 o calibre da veia esplênica é diferente após a oclusão da veia porta Nível de significância 005 O valor de t associado a 5 graus de liberdade é Para α 5 e com 5 graus de liberdade o valor na tabela de t é 257 Como o valor calculado de t é maior que o da tabela a hipótese de que em média o calibre da veia esplênica seja o mesmo antes e depois da oclusão da veia porta deve ser rejeitada Em termos do problema em estudo a oclusão da veia porta determina aumento significativo do calibre da veia esplênica 1133 Reveja o Exercício 4611 um professor de Odontologia quer saber se alunos que começam a atender pacientes em disciplinas clínicas têm aumento na frequência do batimento cardíaco Mediu então a frequência dos batimentos cardíacos de cinco alunos de primeiro ano que não cursam disciplinas clínicas e de cinco alunos do segundo ano imediatamente antes do primeiro atendimento de pacientes Você já calculou as médias e os desvios padrões Aplique agora um teste t unilateral considerando as variâncias iguais Você calculou 1 ano média 1000 desvio padrão 157 2 ano média 1250 desvio padrão 152 Você já considerou no Exercício 4611 do Capítulo 4 que as variabilidades são praticamente iguais Então pressupondo variâncias iguais o teste t unilateral fornece t 256 com pvalor 00169 Com base nesse resultado é razoável concluir que alunos que começam a atender pacientes em disciplinas clínicas têm aumento significante no número de batimentos cardíacos por minuto p 005 1134 Um nutricionista11 quer saber se existe diferença na firmeza de iogurtes feitos de leite desnatado se no processo de fabricação for ou não adicionada determinada bactéria ao produto Para isso procura amostras de leite desnatado de sete marcas comerciais diferentes Inocula então metade da amostra de cada marca com a bactéria e a outra metade deixa sem a bactéria para servir como controle Depois de prontos os iogurtes o nutricionista mede a firmeza da massa Os dados estão apresentados na Tabela 1111 Faça o teste Tabela 1111 Firmeza da massa de iogurte segundo a marca e a presença ou não de bactéria H0 a firmeza do iogurte é em média a mesma com ou sem adição de bactéria H1 a adição de bactéria muda a média da firmeza do iogurte Nível de significância 005 Os resultados estão apresentados na Tabela 1112 O valor para t é significante Portanto há evidência de que a bactéria modifica a firmeza do iogurte Tabela 1112 Médias desvios padrões valor de t para firmeza da massa de iogurte 1135 Um nutricionista quer comparar o efeito de duas dietas alimentares para perda de peso Então seleciona voluntários que querem perder peso e os divide ao acaso em dois grupos um grupo é designado para a dieta A e o outro para a dieta B Os dados são apresentados na Tabela 1113 Faça o teste t Tabela 1113 Perda de peso em quilogramas segundo a dieta Para aplicar o teste t H0 as perdas de peso são em média as mesmas para qualquer das duas dietas H1 as dietas determinam as perdas médias de peso diferentes Nível de significância 005 Calcule a as médias de grupos b as variâncias de grupo c a variância ponderada é d o valor de t com n1 n2 2 10 7 2 15 graus de liberdade é Como o valor calculado de t em valor absoluto é maior que o valor crítico de t 2902 213 ao nível de 5 de significância você rejeita a hipótese de que as duas dietas determinam em média a mesma perda de peso Em termos práticos o nutricionista pode concluir que as perdas de peso são em média significativamente maiores quando os voluntários são submetidos à dieta B O pvalor neste exemplo é 00109 005 11Johnson R e Tsui K W Statistical reasoning and methods Nova York Wiley 1998 p 437 114 Exercícios propostos 1141 Dez ratos machos adultos criados em laboratório foram separados aleatoriamente em dois grupos um grupo foi tratado com a ração normalmente usada no laboratório enquanto o outro grupo foi submetido a uma nova ração experimental Decorrido certo período pesaramse os ratos Os pesos estão apresentados na Tabela 1114 Teste a hipótese de que o peso médio dos ratos é o mesmo para ambos os tipos de ração Tabela 1114 Pesos em gramas de ratos adultos segundo a ração 1142 Os quocientes de inteligência QI de dez crianças medidos segundo dois testes de inteligência A e B estão apresentados na Tabela 1115 Os dois testes de inteligência A e B fornecem em média o mesmo resultado Tabela 1115 Valores de QI em dez crianças segundo o teste de inteligência aplicado 1143 A Tabela 1116 apresenta dados de pressão sanguínea sistólica de mulheres na faixa etária de 30 a 35 anos que usavam e que não usavam anticoncepcionais orais Teste a hipótese de que o uso de anticoncepcionais não tem efeito sobre a pressão sanguínea sistólica Tabela 1116 Pressão sanguínea sistólica de mulheres de 30 a 35 anos segundo o uso de anticoncepcionais 1144 A Tabela 1117 apresenta o tamanho da amostra a média e a variância dos pesos ao nascer de nascidos vivos de ambos os sexos Teste com o nível de significância de 1 a hipótese de que os dois sexos têm em média o mesmo peso ao nascer Tabela 1117 Tamanho da amostra média e variância de pesos ao nascer de nascidos vivos segundo o sexo Fonte Arena JFP Estudo biométrico de recémnascidos de uma população Rev Paul Med 89 34 71109 1076 1145 Para saber o efeito do frio em humanos12 pesquisadores fizeram um experimento com ratos de laboratório Doze ratos foram divididos ao acaso em dois grupos Um grupo ficou durante 12 horas na temperatura de 26 C enquanto o outro grupo ficou numa temperatura de 5C pelo mesmo tempo Depois os pesquisadores mediram a pressão sanguínea dos 12 ratos Os resultados estão na Tabela 1118 O que você conclui Tabela 1118 Pressão sanguínea dos ratos segundo a temperatura à qual foram submetidos 1146 Para comparar o tempo de absorção de duas drogas A e B nove pessoas foram designadas ao acaso para receber a droga A e sete para receber a droga B Determinouse o tempo que levou até as drogas alcançarem determinado nível no sangue Com base nas estatísticas apresentadas na Tabela 1119 faça o teste t Tabela 1119 Médias e variâncias do tempo despendido para as drogas alcançarem determinado nível no sangue 1147 Para saber se o tempo de alívio da dor no pósoperatório é significativamente maior quando se administra a droga A em vez da droga B mais comumente usada observouse o tempo de alívio da dor de 25 pessoas que receberam a droga A no pósoperatório e de vinte que receberam a droga B Com base nas estatísticas apresentadas na Tabela 1120 faça o teste t Tabela 1120 Médias e variâncias do tempo de alívio da dor segundo a droga 1148 Acreditase que um novo método de armazenamento mantenha por mais tempo o ácido ascórbico do caqui do que o método usual Foram então armazenados vinte caquis pelo novo método e vinte pelo método usual Com base nas estatísticas apresentadas na Tabela 1121 faça o teste t Tabela 1121 Médias e variâncias do teor de ácido ascórbico em miligramas por 100 gramas da fruta segundo o processo de armazenamento 1149 Um nutricionista designa ao acaso 12 ciclistas para dois grupos ambos os grupos são instruídos a usar a dieta normal mas o primeiro recebe um suplemento de vitaminas enquanto o segundo recebe um placebo Decorrido um mês o nutricionista mede o tempo que cada ciclista leva para percorrer 10 km Os dados estão apresentados na Tabela 1122 Formule as hipóteses e faça o teste Tabela 1122 Tempo em minutos para percorrer 10 km segundo o grupo 11410 Alguns estudos13 indicam que o açúcar torna as crianças mais ativas enquanto outros não encontram evidências de que isso aconteça Foi feito um estudo com 25 crianças normais com idades entre 3 e 5 anos e 23 crianças que os pais diziam ficar hiperativas quando ingeriam açúcar Os nutricionistas foram até as respectivas casas e retiraram todos os alimentos Depois forneceram os alimentos por quatro semanas As famílias receberam dois tipos de dieta uma com açúcar outra com alimentos adoçados com sacarina Foram feitas medidas de comportamento nos dois grupos de crianças Os dois grupos nunca foram comparados As comparações foram realizadas dentro de grupos Esses dados constituem exemplo de dados pareados ou de grupos independentes Quais são as hipóteses em teste 12Ott L e Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 P 305 13Aliaga M e Gunderson B Interactive Statistics 2 ed New Jersey Prentice Hall 2003 p 679 1O pvalor pequeno indica que é muito improvável obter resultado igual ou menor do que o achado quando a hipótese da nulidade é verdadeira 2Para comparar mais de duas médias aplicamse a análise de variância e os testes de comparações múltiplas Veja o assunto em Vieira S Análise de variância ANOVA São Paulo Atlas 2006 5Para ver a metodologia desses ensaios Vieira S e Hossne WS Metodologia científica para a área da saúde Rio de Janeiro Elsevier 2015 6O programa Excel muito conhecido pelos usuários de Estatística pede que se indique o tipo de teste t pareado variâncias iguais das duas amostras homocedástico variâncias desiguais das duas amostras heterocedástico 7As duas populações das quais foram obtidas as amostras devem ter distribuição normal ou pelo menos simétrica 8Aqui a hipótese alternativa é necessariamente de um teste bilateral CAPÍTULO 12 Teste χ2 para Variáveis Qualitativas As pesquisas são feitas com o objetivo de responder a perguntas E para responder a perguntas são necessárias informações obtidas por meio de amostras Depois com base nos dados da amostra e no resultado de um teste estatístico os pesquisadores generalizam seus achados para toda a população aplicando testes estatísticos As tabelas 2 x 2 têm sido possivelmente a forma mais empregada para mostrar evidência estatística O teste estatístico mais simples e mais conhecido é o teste de χ2 lêse quiquadrado Neste capítulo vamos ver como se faz esse teste 121 Teste χ2 para a associação de duas variáveis Você aplica o teste de χ2 lêse quiquadrado para verificar se existe associação entre duas variáveis qualitativas Para isso é preciso contar quantos participantes estão em cada uma das categorias de cada uma das variáveis As contagens frequências são apresentadas em tabelas de contingência Veja o Exemplo 121 Exemplo 121 Uma tabela de contingência 2 x 2 Foram entrevistadas 1091 pessoas residentes em uma área metropolitana da região Sul do Brasil Cada pessoa foi classificada segundo duas variáveis sexo homem ou mulher e tabagismo tabagista ou não Depois foram feitas as contagens havia seiscentos homens dos quais 177 disseram ser tabagistas e 491 mulheres das quais 204 afirmaram ser tabagistas Esses dados estão apresentados na Tabela 121 Tabela 121 Tabagismo segundo sexo Fonte Moreira L et al Prevalência de tabagismo e fatores associados em área metropolitana da região Sul do Brasil Rev Saúde Pública 29 1 São Paulo 1995 É importante apresentar as proporções observadas quando se faz um estudo transversal1 ou seja quando se toma uma amostra da população e se classifica cada pessoa segundo duas variáveis ao mesmo tempo Veja o Exemplo 122 para cada uma das 1091 pessoas foram registradas duas variáveis 1 sexo homem ou mulher e 2 tabagismo não ou sim Exemplo 122 Proporções obtidas por estudo transversal Reveja o Exemplo 121 A Tabela 122 apresenta as proporções obtidas nesse estudo Tabela 122 Proporções obtidas por estudo transversal Vamos apresentar aqui o teste χ2 quiquadrado que se faz para estudar a associação de duas variáveis que se apresentam em apenas duas categorias Para proceder a um teste estatístico você já sabe é preciso estabelecer as hipóteses em teste e o nível de significância Em seguida é preciso calcular a estatística de teste que no caso que estamos estudando é o valor de χ2 As hipóteses em teste são H0 as variáveis são independentes H1 as variáveis estão associadas O nível de significância é α e a estatística de teste é Sob a hipótese da nulidade a estatística calculada tem distribuição de χ2 Mas o que significa isso tudo Vamos devagar veja a Tabela 123 que apresenta duas variáveis indicadas por X e Y A variável X tem duas categorias X1 e X2 a variável Y tem também duas categorias Y1 e Y2 Tabela 123 Valores literais em uma tabela 2 2 De posse dos dados você calcula o valor de χ2 Se esse valor for maior do que o valor dado na tabela de χ2 com 1 grau de liberdade e para o nível de significância estabelecido você rejeita a hipótese de independência Para calcular o valor de χ2 na tabela observe a Tabela 124 que reproduz parte da tabela de χ2 do Apêndice Foi sombreado o valor de χ2 com três graus de liberdade no nível de significância de 5 Tabela 124 Tabela parcial de χ2 segundo os graus de liberdade e o valor do nível de significância Exemplo 123 Calculando o valor de χ 2 Reveja o Exemplo 121 A Tabela 121 está reproduzida aqui como Tabela 125 a fim de facilitar o acompanhamento dos cálculos Tabela 125 Tabagismo segundo sexo É preciso estabelecer as hipóteses e o nível de significância bem como calcular o valor de χ2 Então H0 tabagismo independe do sexo H1 tabagismo está associado ao sexo Nível de significância 005 Como o valor calculado de χ2 1725 é maior do que o valor dado na Tabela de χ2 ao nível de 5 de significância 384 rejeitase a hipótese de independência A associação entre sexo e hábito de fumar é significante É mais correto calcular a estatística de teste com correção de continuidade Fazendo essa correção2 que indicaremos por χc 2 a estatística de teste fica como segue A correção de continuidade reduz o valor de χ2 porque se reduz o numerador3 O efeito da correção de continuidade sobre o valor de χ2 é maior quando a amostra é grande Veja o cálculo para os dados apresentados na Tabela 122 Preste portanto muita atenção porque acontece o seguinte você aplica o teste χ2 para testar a independência de duas variáveis a determinado conjunto de dados sem a correção de continuidade o resultado é significante com a correção é não significante Fique então com a seguinte conclusão este último resultado as variáveis são independentes 1211 Medidas de associação É comum usar o valor de χ2como medida de associação o que está errado O teste mede a significância da associação mas não o grau de associação O valor de χ2 aumenta com o tamanho da amostra desde que as proporções sejam mantidas Então se a amostra for grande é mais certo encontrar significância mesmo que a associação seja apenas trivial 12111 Coeficiente fi Uma medida do grau de associação de duas variáveis no Exemplo 121 sexo e tabagismo é o coeficiente φ lêse fi Esse coeficiente não sofre influência do tamanho da amostra e é obtido facilmente a partir do valor não corrigido do χ2 Veja a fórmula Você interpreta o resultado do coeficiente φ da seguinte forma 1 o valor do coeficiente φ varia entre zero e um ou seja 0 φ 1 2 quanto mais próximo de 1 estiver o valor de φ maior é o grau de associação entre as variáveis quanto mais próximo de zero estiver o valor de φ menor é a associação entre as variáveis 3 φ 1 significa associação perfeita4 4 φ 0 significa associação nula 5 como regra prática valores de φ menores do que 030 ou 035 podem ser tomados como indicadores de associação trivial5 entre as duas variáveis Exemplo 124 Calculando o coeficiente fi Para os dados do Exemplo 121 o tamanho da amostra é n 1091 O valor de χ2 sem correção de continuidade apresentado no Exemplo 123 é 1725 Então o coeficiente de associação φ é A associação embora significante como mostrada pelo teste χ2 é apenas trivial Não se pode considerar que a associação encontrada entre tabagismo e sexo feminino tenha maior importância 12112 Coeficiente gama O coeficiente gama6 que se representa pela letra grega γ lêse gama mede o grau de associação com que duas categorias ordenadas de variáveis tendem a crescer e portanto decrescer juntas É definido por em que a b c e d são os valores definidos na Tabela 123 O valor do coeficiente gama deve ser interpretado como segue γ 1 associação perfeita positiva γ 1 associação perfeita negativa γ 0 associação nula 0 γ 1 associação positiva 1 γ 0 associação negativa O coeficiente gama fica entre 1 e 1 inclusive ou seja 1 γ 1 Então o coeficiente gama fornece além do grau de associação entre duas variáveis qualitativas o sentido da associação Cuidado portanto ao desenhar a tabela para calcular o coeficiente γ porque ao inverter as linhas muda o sinal do coeficiente e evidentemente a interpretação Exemplo 125 Interpretando o valor do coeficiente gama Para os dados do Exemplo 121 o coeficiente γ é Se a Tabela 121 estivesse na forma apresentada na Tabela 126 mostrada em seguida o coeficiente γ seria Tabela 126 Tabagismo segundo o sexo Compare o coeficiente γ obtido para a Tabela 121 com o obtido para a Tabela 126 o primeiro mostra que embora em pequeno grau homens estão positivamente associados ao hábito de não fumar enquanto o segundo mostra que embora em pequeno grau a associação entre homens e hábito de fumar é negativa 1212 Restrições ao uso do teste χ2 para associação É importante saber que o teste χ2 apresenta muitas restrições de uso Vejamos os dados devem estar apresentados em tabelas de contingência as variáveis em estudo são obrigatoriamente qualitativas a amostra deve ter sido obtida por processo aleatório a população deve ter no mínimo dez vezes o tamanho da amostra 122 Teste χ2 para comparar dois grupos em ensaios clínicos Ensaio clínico7 é um estudo no qual os pesquisadores avaliam nos participantes da pesquisa os efeitos de intervenções Depois comparam os resultados Veja o Exemplo 126 Exemplo 126 Comparando dois grupos nos ensaios clínicos Para estudar a efetividade da betametasona no alívio da dor após a instrumentação endodôntica tratamento de canal um cirurgiãodentista fez um ensaio clínico Antes do procedimento administrou dois comprimidos de placebo para 17 pacientes grupo placebo controlado e dois comprimidos da droga para 21 pacientes grupo tratado com betametasona Os comprimidos foram acondicionados em envelopes codificados para que o paciente não soubesse se estava recebendo a droga em teste para o alívio da dor ou se estava recebendo placebo Os dados são apresentados na Tabela 127 Tabela 127 Distribuição dos pacientes segundo o grupo e o relato de alívio da dor Fonte QuintanaGomes Jr et al Estudo clínico dos efeitos da betametasona sobre incidência da dor após a instrumentação endodôntica JBC Jornal Brasileiro de Odontologia Clínica 212 s d 1221 Teste χ2 nos ensaios clínicos Para comparar as proporções de respostas positivas obtidas por exemplo por dois tratamentos concorrentes ou por um novo tratamento e um controle é preciso fazer um teste estatístico Neste caso é possível aplicar o teste χ2 Para proceder ao teste estatístico estabelecemse as hipóteses e o nível de significância Depois calculase a estatística de teste O teste consiste em rejeitar a hipótese de nulidade toda vez que o valor calculado de χ2 for maior do que o valor dado na tabela de χ2 com 1 grau de liberdade e para o nível estabelecido de significância Exemplo 127 O teste de χ 2 em ensaios clínicos Reveja o Exemplo 126 Para aplicar o teste é preciso estabelecer as hipóteses e o nível de significância Então H0 as probabilidades de relatos de dor são iguais em ambos os grupos ou seja P1 P2 H1 a probabilidade de relatos de dor é diferente nos dois grupos ou seja P1 P2 Nível de significância 005 Depois calculase Como o valor calculado de χ2 648 é maior do que o valor de χ2 com um grau de liberdade e ao nível 5 de significância 384 rejeitase H0 Em termos do ensaio o uso de betamesona após a instrumentação endodôntica diminui a probabilidade de dor 1222 Teste z nos ensaios clínicos Embora seja comum apresentar dados de ensaios clínicos como na Tabela 127 há autores8 que preferem fazêlo na forma da Tabela 128 que exibe proporções Assim o tamanho da amostra pequeno no exemplo e as proporções em comparação ficam mais visíveis Tabela 128 Proporção de pacientes com relato de dor após a instrumentação endodôntica segundo o grupo Grupo Tamanho da amostra Proporção de pacientes com relato de dor Betametasona 17 0118 Placebo 21 0571 Total 38 0368 Fonte QuintanaGomes Jr et al Estudo clínico dos efeitos da betametasona sobre incidência da dor após a instrumentação endodôntica JBC Jornal Brasileiro de Odontologia Clínica 212 s d A significância estatística da diferença das proporções de respostas negativas ou positivas obtidas por exemplo por dois tratamentos concorrentes ou por um novo tratamento e um controle pode ser obtida por meio da estatística Os valores n1 e n2 são os tamanhos das amostras de cada grupo p1 e p2 são as proporções do evento em estudo nas respectivas amostras é a proporção média das duas amostras e Para testar a hipótese H0 P1 P2 contra a hipótese H1 P1 P2 procurase o valor de z numa tabela de distribuição normal No entanto aqui entra uma definição teórica importante como z2 tem distribuição de χ2 com 1 grau de liberdade o valor obtido de z elevado ao quadrado pode ser comparado com o valor de χ2 com 1 grau de liberdade isso é mais fácil do que usar a tabela de distribuição normal padronizada Rejeitase a hipótese de nulidade se o valor calculado de z2 for maior do que o valor dado na tabela de χ2 com 1 grau de liberdade para o nível estabelecido de significância Exemplo 128 Outro teste para comparar duas proporções em ensaio clínico Reveja o Exemplo 126 Para aplicar o teste H0 as probabilidades de relatos de alívio de dor são iguais nos dois grupos ou seja P1 P2 H1 a probabilidade de relatos de alívio de dor é menor no grupo que recebeu betametasona ou seja P2 P1 Nível de significância 005 Temos Então O valor de z2 é 648 maior que o valor de χ2 com o nível 5 de significância Rejeitase H0 Em termos da pesquisa podese concluir que o uso de betamesona após a instrumentação endodôntica diminui a probabilidade de dor É importante lembrar que em um trabalho de pesquisa se deve fazer apenas um dos testes apresentados aqui Aliás ambos conduzem ao mesmo resultado A questão é que os programas de computador oferecem várias opções e alguém inexperiente pode achar que ao colocar todas as opções tornará seus resultados mais convincentes 123 Teste χ2 nos estudos prospectivos e retrospectivos 1231 Teste χ2 nos estudos prospectivos A probabilidade de ocorrer determinado desfecho não é a mesma em todas as populações Por exemplo a probabilidade de morte violenta é maior entre jovens do sexo masculino do que entre jovens do sexo feminino Para comparar probabilidades podese fazer um estudo prospectivo9 No estudo prospectivo uma das duas populações está exposta a um fator que se presume de risco por exemplo fumantes enquanto a outra não está não fumantes o pesquisador então procura nas amostras determinado desfecho câncer de pulmão Veja a Figura 121 FIGURA 121 Estudo prospectivo Exemplo 129 Um estudo prospectivo Entre 2004 e 2006 foi feito um estudo prospectivo com 1229 gestantes de Campinas SP para avaliar os fatores de risco comumente associados a desfechos desfavoráveis na saúde de recémnascidos como baixo peso ao nascer ou prematuridade10 Veja na Tabela 129 os dados para um desses fatores consumo de cigarros durante a gestação que permitem estimar riscos Tabela 129 Estimativas do risco de baixo peso ao nascer ou prematuridade segundo o consumo ou não de cigarros durante a gestação Fonte AUDI C A F et al Associação entre violência doméstica na gestação e peso ao nascer ou prematuridade J Pediatr v 4 n 1 Porto Alegre Janfev de 2008 Para testar a hipótese de que a proporção de pessoas com uma característica específica é a mesma em duas amostras independentes podese optar pelo teste de χ2 Para proceder ao teste estabelecemse as hipóteses e o nível de significância Em seguida calculase a estatística de teste 10O teste tem mais poder quando os tamanhos de grupos são iguais ou pelo menos similares Neste exemplo há grande disparidade os tamanhos de grupos para fumantes e não fumantes são respectivamente 165 e 1065 Exemplo 1210 Teste χ 2 para um estudo prospectivo Reveja o Exemplo 129 As hipóteses em teste são H0 a proporção de nascituros com baixo peso ao nascer é a mesma entre gestantes fumantes e gestantes não fumantes ou seja P1 P2 H1 a proporção de nascituros com baixo peso ao nascer é diferente entre gestantes fumantes e gestantes não fumantes ou seja P2 P1 Nível de significância 005 Agora é preciso calcular Como o valor calculado de χ2 1734 é maior do que o valor de χ2 com 1 grau de liberdade e ao nível de 5 de significância 384 rejeitase H0 Em termos do estudo gestantes que fumam apresentam maior probabilidade de ter bebês de baixo peso ou prematuros 12311 Teste dos grupos com base na distribuição normal Nos estudos prospectivos deve ser apresentada a proporção dos que têm o desfecho buscado tanto na amostra dos expostos ao fator que se presume de risco como na amostra dos não expostos Veja o Exemplo 1211 que exibe essas proporções É mais comum apresentar dados de estudos prospectivos como na Tabela 129 mas há autores11 que preferem fazêlo na forma da Tabela 1210 pois são essas proporções que estão em comparação Tabela 1210 Proporção de nascituros com baixo peso ao nascer ou prematuros segundo o fato de a mãe ter fumado ou não na gestação Exemplo 1211 Proporções obtidas por estudo retrospectivo Reveja o Exemplo 129 As hipóteses em teste são H0 a proporção de nascituros com baixo peso ao nascer é a mesma entre gestantes fumantes e gestantes não fumantes ou seja P1 P2 H1 a proporção de nascituros com baixo peso ao nascer entre gestantes fumantes é diferente da proporção de nascituros com baixo peso ao nascer entre gestantes não fumantes ou seja P2 P1 Nível de significância 005 Para verificar a significância estatística da diferença de proporções em populações independentes pode ser calculada a estatística Os valores n1 e n2 são os tamanhos das amostras de cada grupo p1 e p2 são as proporções de expostos ao fator que se presume de risco nas respectivas amostras com e sem o problema é a proporção média das duas amostras e Para testar a hipótese H0 P1 P2 contra a hipótese H1 P1 P2 procurase o valor de z numa tabela de distribuição normal Como z2 tem distribuição de χ2 com 1 grau de liberdade o valor obtido de z elevado ao quadrado pode ser comparado com o valor de χ2 com 1 grau de liberdade Rejeitase portanto a hipótese de nulidade se o valor calculado de z2 for maior do que o valor dado na tabela de χ2 para o nível estabelecido de significância Exemplo 1212 Teste para duas proporções em estudos prospectivos Reveja o Exemplo 129 As hipóteses em teste são H0 a proporção de nascituros com baixo peso ao nascer é a mesma entre gestantes fumantes e gestantes não fumantes isto é P1 P2 H1 a proporção de nascituros com baixo peso ao nascer é diferente entre gestantes fumantes e gestantes não fumantes ou seja P2 P1 Nível de significância 005 Agora é preciso calcular Temos Então Como o valor calculado de z2 é 1734 maior do que o valor dado na tabela de χ2 ao nível estabelecido de significância rejeitase H0 O hábito de fumar da gestante está relacionado com baixo peso ou prematuridade do nascituro 1232 Teste χ2 nos estudos retrospectivos No estudo retrospectivo uma das populações é definida por ter casos de pulmão enquanto e a outra por não ter controles determinado desfecho por exemplo câncer de pulmão nas amostras o pesquisador procura saber se houve exposição ao fator que se presume de risco fumar Então o o estudo retrospectivo vai do efeito para a causa Veja a Figura 122 FIGURA 122 Estudo retrospectivo Exemplo 1213 Um estudo retrospectivo Em uma pesquisa perguntouse a 142 jovens que apresentavam desordens mandibulares o desfecho se haviam ou não usado aparelho ortodôntico 87 disseram que sim ou seja 87 foram expostos ao fator de risco Também se perguntou a 228 jovens que não tinham desordens mandibulares se haviam ou não usado aparelho ortodôntico 113 responderam que sim ou seja 113 foram expostos ao fator de risco Esse é um estudo retrospectivo Os dados estão apresentados na Tabela 1211 Tabela 1211 Sintomas de desordens temporomandibulares DTM e uso de aparelho ortodôntico Fonte RizzatiBarbosa C M et al Correlação entre aparelho ortodôntico e desordens temporomandibulares J Bras Ortodon Ortop Facial 739 185192 2002 Para testar a hipótese de que a proporção de pessoas com uma característica específica é a mesma em duas amostras independentes podese optar pelo teste de χ2 Para proceder ao teste no caso de estudos retrospectivos estabelecemse as hipóteses e o nível de significância Depois se calcula a estatística de teste Exemplo 1214 Teste χ 2 para um estudo retrospectivo Reveja o Exemplo 1213 As hipóteses em teste são H0 a proporção de jovens que usaram aparelho ortodôntico é a mesma entre os que apresentam e os que não apresentam DTM isto é P1 P2 H1 a proporção de jovens que usaram aparelho ortodôntico é diferente para os que apresentam e os que não apresentam DTM isto é P2 P1 Nível de significância 005 Agora é preciso calcular Como o valor calculado de χ2 437 é maior do que o valor de χ2 com 1 grau de liberdade e com o nível de 5 de significância 384 rejeitase H0 Em termos do estudo o uso de aparelho ortodôntico pode aumentar a probabilidade de DTM 12321 Teste dos grupos com base na distribuição normal Nos estudos retrospectivos deve ser apresentada a proporção dos que foram expostos ao fator que se presume de risco tanto na amostra das pessoas que têm o problema em estudo como na amostra daquelas pessoas que não têm o problema Veja o Exemplo 1215 que exibe essas proporções Embora seja mais comum apresentar dados de estudos retrospectivos como na Tabela 1211 há quem12 prefira fazêlo na forma da Tabela 1212 pois são essas proporções que estão em comparação Tabela 1212 Proporção de jovens que usaram aparelho ortodôntico entre os que têm e os que não têm DTM DTM Amostra Proporção de usuários Sim 142 0613 Não 228 0496 Total 370 0541 Exemplo 1215 Proporções obtidas por estudo retrospectivo Reveja a Tabela 1212 p1 0613 dos 142 jovens com DTM foram expostos ao fator que se presume de risco o uso de aparelho ortodôntico e p2 0496 dos 228 jovens que não apresentavam DTM também foram expostos ao fator que se presume de risco o uso de aparelho ortodôntico Para verificar a significância estatística da diferença de proporções em populações independentes pode ser calculada a estatística Os valores n1 e n2 são os tamanhos das amostras de cada grupo p1 e p2 são as proporções de expostos ao fator que se presume de risco nas respectivas amostras com e sem o problema é a proporção média das duas amostras e Para testar a hipótese H0 P1 P2 contra a hipótese H1 P1 P2 procurase o valor de z numa tabela de distribuição normal Como z2 tem distribuição de χ2 com 1 grau de liberdade o valor obtido de z elevado ao quadrado pode ser comparado com o valor de χ2 com 1 grau de liberdade Rejeitase portanto a hipótese de nulidade se o valor calculado de z2 for maior do que o valor dado na tabela de χ2 para o nível estabelecido de significância 124 Risco relativo e razão de chances Risco é a probabilidade da ocorrência de algum tipo de dano Fator de risco é o fator que aumenta o risco portanto que afeta a probabilidade de ocorrer dano Por exemplo sempre há risco de ocorrer um acidente de trânsito mas o risco aumenta quando muita chuva ou quando o motorista ingere bebida alcoólica Dizemos então que muita chuva ou motorista embriagado são fatores de risco para acidente de trânsito É possível estudar riscos por meio de ensaios clínicos e de estudos prospectivos Reveja a Tabela 27 que apresenta pacientes com relato de dor após a instrumentação endodôntica O objetivo do estudo foi o de comparar a proporção de pacientes com dor em dois grupos o tratado que recebeu betametasona e o controle que não recebeu betametasona Então a estimativa de risco de dor para pacientes que receberam betametasona foi 118 e para pacientes que não receberam betametasona 571 Denominase risco relativo que se indica por RR a razão entre duas estimativas de risco Veja o exemplo a seguir Neste exemplo o risco relativo é de aproximadamente 5 Significa que é cinco vezes mais provável que pacientes que não receberam betametasona relatem dor após a instrumentação endodôntica Nos estudos prospectivos o pesquisador acompanha um grupo de pessoas com uma característica específica por exemplo hipertensão arterial e um grupo de pessoas sem essa característica normotensos por certo período à espera da ocorrência de determinado desfecho por exemplo AVC Depois calcula a proporção de pessoas com o desfecho esperado em ambos os grupos Essas proporções são estimativas de risco Os estudos retrospectivos não permitem fazer estimativas de riscos Nesses estudos os pesquisadores procuram pessoas com uma doença por exemplo úlcera gástrica e verificam quantas delas estiveram expostas a um fator que presumem de risco por exemplo comida apimentada por longo tempo Depois procuram pessoas sem a doença e verificam quantas estiveram expostas ao mesmo fator para depois fazer comparações Veja bem são relatos históricos das pessoas não são probabilidades A situação já aconteceu Então não é possível calcular riscos mas apenas as proporções de pessoas que foram expostas ao fator entre casos e controles Os estudos transversais também não permitem fazer estimativas de riscos Nesses estudos os pesquisadores verificam ao mesmo tempo duas variáveis para a mesma pessoa Por exemplo o pesquisador verifica o tipo de infração de trânsito cometida e o sexo do motorista 1241 Razão de chances 12411 O que é chance Os estudos retrospectivos não admitem estimar riscos mas permitem estimar chances Vamos entender isso por meio de dados fictícios Imagine que exista um tratamento não muito eficiente para uma doença com alta taxa de mortalidade Imagine que tenha sido proposto um novo tratamento Em um ensaio em que se comparou o novo tratamento com o tratamento convencional foram obtidos os dados mostrados na Tabela 1213 Tabela 1213 Número de pacientes que morreram e dos que sobreviveram segundo o tratamento Tratamento Morreram Sobreviveram Convencional 38 76 Novo 9 90 Com o tratamento convencional 38 pacientes morreram para um número de 76 que sobreviveram A chance de morrer é de 38 para 76 com o tratamento convencional Então Isso significa que para cada paciente submetido ao tratamento convencional que morre sobrevivem dois Com o novo tratamento nove pacientes morreram para noventa que sobreviveram Então Isso significa que para cada paciente que morre submetido ao novo tratamento sobrevivem dez Para obter a razão de chances calcule Mas o que significa essa razão de chances A chance de o paciente morrer é cinco vezes maior se receber o tratamento convencional em vez do novo Para cada cinco pacientes que morrem recebendo tratamento convencional apenas um morre recebendo o novo Considerando o evento morte mostrado no exemplo se a razão de chances for igual a 1 significa que ambos os grupos têm a mesma chance de morrer Se a razão de chances for maior que 1 significa que o primeiro grupo tem maior chance de morrer que o segundo Se a razão de chances for menor que 1 significa que o primeiro grupo tem menor chance de morrer que o segundo mas o número não é de fácil interpretação Coloque o grupo que você espera ter maior chance em primeiro lugar O uso da razão de chances na área de saúde tem aumentado mas para muitos pesquisadores a interpretação do resultado ainda é difícil No Brasil é comum o uso da expressão em inglês odds ratio uma vez que os programas de Estatística para computador estão em sua maioria em inglês Exemplo 1216 Cálculo da razão de chances Em 1950 dois pesquisadores ingleses quiseram verificar se o hábito de fumar aumentava o risco de ter câncer do pulmão Perguntaram então os hábitos de fumar dos 649 pacientes que tinham câncer do pulmão e os hábitos de fumar de outros 649 pacientes internados por outros motivos no mesmo hospital Os dados estão apresentados na Tabela 1214 Não era possível para os pesquisadores estimar riscos porque os fatos já haviam acontecido probabilidades referemse a eventos futuros nunca a eventos do passado Tabela 1214 Distribuição dos participantes da pesquisa segundo ter ou não câncer de pulmão e ser ou não fumante Fonte Doll R e Hill AB Smoking and carcinoma of the lung Br Med J 1950 2 73948 Dos pacientes que tinham câncer de pulmão 27 eram fumantes e 622 eram não fumantes Então entre os pacientes que tinham câncer de pulmão a chance era de encontrar 27 fumantes para cada 622 não fumantes Dos pacientes que não tinham câncer de pulmão havia dois fumantes e 647 pacientes que não fumavam Logo entre os pacientes que não tinham câncer de pulmão a chance era de encontrar dois fumantes para cada 647 não fumantes A razão de chance é Mas o que significa essa razão de chances A chance de ter câncer de pulmão é 14 vezes maior para fumantes do que para não fumantes Para cada 14 fumantes com câncer de pulmão há um não fumante na mesma condição A razão de chances também é conhecida como razão dos produtos cruzados É fácil entender essa denominação Usando os valores literais definidos na Tabela 310 Cap 3 a razão de chances é dada por 125 Teste de uma proporção As taxas e os coeficientes de prevalência são basicamente proporções Vamos mostrar aqui como se faz um teste estatístico para estabelecer se uma proporção tem um valor especificado Portanto o teste também se aplica às taxas e aos coeficientes de prevalência desde que expressos em proporções e não por mil ou cem mil indivíduos Considere então que um pesquisador tenha contado o número X de portadores de determinada característica em uma amostra de tamanho n Pode então calcular a proporção de portadores dessa característica na amostra como segue Exemplo 1217 Obtendo prevalência Em Campinas um médico13 examinou 2964 recémnascidos e verificou que 73 apresentavam anomalias no ano de 1977 Para obter a prevalência de anomalia nessa amostra divide o número de recémnascidos que apresentavam anomalia pelo tamanho da amostra Multiplicando o resultado por 100 obtém a prevalência em porcentagem 13Arena JFP Incidência de malformações em uma população brasileira Rev Paul Med 89 34 429 1977 Imagine agora que o pesquisador pretenda testar a hipótese de que a proporção P de portadores com essa característica na população da qual a amostra proveio tem o valor θ especificado na literatura É preciso então fazer um teste estatístico Para proceder a um teste estatístico estabelecemse as hipóteses e o nível de significância Depois se calcula a estatística de teste Sob a hipótese da nulidade a variável z tem aproximadamente distribuição normal padronizada desde que np 5 e n 1 p 5 Se o valor calculado de z for maior do que o valor dado na tabela de distribuição normal padronizada para o nível estabelecido de significância devese rejeitar a hipótese de que a proporção de portadores da característica em estudo na população da qual a amostra proveio tem o valor que foi especificado Exemplo 1218 Comparando a prevalência com o valor especificado Reveja o Exemplo 1217 o médico quis testar a hipótese de que a prevalência de recémnascidos com anomalia em Campinas no ano de 1977 era o valor especificado na literatura internacional ou seja 3 Então foi preciso estabelecer as hipóteses e o nível de significância H0 a prevalência de recémnascidos com anomalia em Campinas no ano de 1977 era o valor especificado de 3 H1 a prevalência de recémnascidos com anomalia em Campinas no ano de 1977 era diferente do valor especificado de 3 Nível de significância 005 A prevalência observada na amostra é A estatística de teste é Como o valor calculado de z 1714 é em valor absoluto menor do que o valor de z com o nível de 5 de significância 196 para teste bilateral não há evidência para rejeitar a hipótese de que a prevalência de recémnascidos com anomalia na região de Campinas em 1977 era de 3 compatível com a prevalência citada na literatura internacional É recomendável calcular a estatística de teste com correção de continuidade principalmente quando a amostra é pequena Ao fazer essa correção a estatística de teste fica como segue A correção de continuidade reduz o valor de z porque subtraindo 12n da diferença entre a proporção observada e a proporção esperada reduz o numerador14 Além disso o efeito da correção de continuidade sobre a estatística de teste é maior quando a amostra é grande o valor da estatística diminui com o aumento da amostra Exemplo 1219 Correção de continuidade Reveja o Exemplo 1218 O valor da estatística de teste com a correção de continuidade é menor do que o valor calculado anteriormente sem a correção de continuidade uma vez que o tamanho da amostra é bem grande 126 Exercícios resolvidos 1261 O Estudo do Coração de Helsinque Helsinki Heart Study15 mostrou redução na incidência de eventos cardíacos em homens de meiaidade com nível alto de colesterol mas sem diagnóstico de doença coronariana Dos 2051 participantes que durante cinco anos receberam uma droga para reduzir o nível de colesterol 56 registraram evento cardíaco Dos 2030 participantes que receberam placebo durante cinco anos 84 registraram evento cardíaco a Qual é a proporção de participantes que registraram evento cardíaco no grupo tratado b Qual é a proporção de participantes que registraram evento cardíaco no grupo placebo c Existe evidência suficiente do benefício da droga d No relatório final do estudo afirmouse que o uso da droga reduziu a incidência de eventos cardíacos em 34 Como isso foi calculado ab Veja a Tabela 1215 c É preciso fazer um teste estatístico Então Tabela 1215 Participantes da pesquisa segundo o tratamento e o registro ou não de evento cardíaco H0 P1 P2 H1 P1 P2 Nível de significância 5 Calcule a estatística de teste H0 deve ser rejeitada com o nível de 5 de significância temos portanto a evidência de que a droga surtiu efeito d Faça a diferença entre as duas proporções e divida pela proporção do grupo que recebeu placebo Multiplique por 100 para obter a diferença em relação ao placebo expressa em porcentagem O uso da droga reduziu a incidência de eventos cardíacos em 34 1262 Foi elaborado um questionário para comparar a sexualidade de pacientes jovens com doença de Parkinson com a sexualidade de controles sadios16 As respostas para uma das questões que avaliou o sentimento de solidão são apresentadas na Tabela 1216 Construa uma tabela para apresentar a proporção de pessoas que relatam sentir solidão em ambos os grupos Compare com o teste estatístico Tabela 1216 Pacientes que relatam sentir solidão segundo o grupo Tabela 1217 Proporções obtidas por estudo transversal Grupo Amostra Sentem solidão Parkinsoniano 121 0463 Controle sadio 126 0183 Total 247 0320 H0 a probabilidade de sentir solidão é a mesma para um jovem parkinsoniano e um jovem sadio ou seja P1 P2 H1 a probabilidade de sentir solidão é maior para um jovem parkinsoniano do que para um jovem sadio ou seja P2 P1 Nível de significância 005 Como o valor calculado de z 458 é maior do que o valor de z com o nível de 5 de significância 254 para teste unilateral rejeitase H0 Logo a conclusão da pesquisa é a de que parkinsonianos jovens sentem mais solidão do que jovens sadios 1263 Realizouse um estudo17 com 263 adolescentes que aparentavam comportamento suicida Eles fizeram avaliação psiquiátrica e foram acompanhados durante seis meses Desse grupo 86 adolescentes foram avaliados como apresentando comportamento suicida embora sem depressão no início do estudo Dos 77 jovens com comportamento suicida persistente no followup 45 foram avaliados como apresentando depressão no início do estudo Cem jovens não apresentavam nem depressão nem comportamento suicida A Construa uma tabela para apresentar os dados B calcule a razão de chances C interprete Em primeiro lugar é preciso obter os valores de b e d Veja em seguida a b 131 c 77 45 32 c d 263 131 132 d 132 32 100 Agora é preciso construir a Tabela 1218 A razão de chances é Tabela 1218 Depressão como fator de risco para comportamento suicida Usando a razão de chances como estimativa de risco podemos dizer que é 163 vez mais provável que um adolescente com depressão apresente comportamento suicida do que o adolescente que não tem depressão 15Marshall K G Canadian Medical Association Journal May 15 1996 Apud Aliaga M e Gunderson B Interactive Statistics 2 ed New Jersey Prentice Hall 2003 p 679 16Jacobs H Vieregge A Vieregge P Sexuality in young patients with Parkinsons disease a population based comparison with healthy controls Neurol Neurosurg Psychiatry 2000 550552 doi101136jnnp694550 17Greenfield B Henry M Weiss M Tse S M Guile J M Dougherty G Zhang X Fombonne E Lis E LapalmeRemis Harnden B Previously suicidal adolescents Predictors of sixmonth outcome Journal of the Canadian Association of Child and Adolescent Psychiatry 2008174197201 PMC free article PubMed 127 Exercícios propostos 1271 A proporção de recémnascidos com defeito ou doença séria é de 3 Imagine que um médico suspeite que essa proporção tenha aumentado Então examinou 1000 recémnascidos e encontrou 34 com defeito ou doença séria Você acha que a suspeita do médico é procedente 1272 Com base nos dados apresentados na Tabela 1220 com o nível de significância de 5 teste a hipótese de que a proporção de recémnascidos vivos portadores de anomalia é a mesma em ambos os sexos Tabela 1220 Recémnascidos vivos segundo o sexo e a presença ou não de anomalia Fonte Arena J F P Incidência de malformações em uma população brasileira Rev Paul Med 89 34429 1977 1273 Com base nos dados apresentados na Tabela 1221 teste com o nível de significância de 1 a hipótese de que a ausência congênita de dentes independe do sexo Tabela 1221 Escolares segundo o sexo e a ausência congênita de dentes Fonte Vedovelo Filho M Prevalência de agenesias dentárias em escolares de Piracicaba 1972 Tese mestrado FOPUnicamp 1274 Muitos pesquisadores consideram com base em grandes amostras que a ausência congênita de dentes está associada ao sexo da pessoa Amostras pequenas não permitem rejeitar H0 Isso se deve provavelmente à pequena associação Calcule um coeficiente de associação para os dados do Exercício 1273 Você considera grande a associação 1275 Com base nos dados apresentados na Tabela 1222 calcule o coeficiente de associação Faça o teste de quiquadrado Tabela 1222 Resultados de casos de diagnóstico prénatal segundo a idade da gestante e a presença ou a ausência de aberração cromossômica 1276 Para determinar se existe associação entre implantes mamários e doenças do tecido conjuntivo e outras doenças18 foram observadas durante vários anos 749 mulheres que haviam recebido implante e exatamente o dobro de mulheres que não haviam recebido implante Os pesquisadores então verificaram que cinco mulheres que receberam implantes e dez das que não receberam tiveram doenças do tecido conjuntivo Quais são as hipóteses em teste Quais são as proporções de mulheres doentes em ambos os grupos 1277 Com base nos dados apresentados na Tabela 1223 você rejeita a hipótese de que a probabilidade de natimorto é a mesma para ambos os sexos Tabela 1223 Recémnascidos segundo o sexo e a condição de vivo ou natimorto Fonte Arena J F P Incidência de malformações em uma população brasileira Rev Paul Med 89 34429 1977 1278 Com base nos dados apresentados na Tabela 1224 obtenha o coeficiente de associação O que significa Tabela 1224 Recémnascidos segundo a idade materna e o tempo de gestação Fonte Azevedo G D et al Efeito da idade materna sobre os resultados perinatais RBGO 24 3 2002 1279 Com base nos dados apresentados na Tabela 1225 você rejeita a hipótese de que a probabilidade de dormir mais de oito horas é a mesma para as duas faixas etárias Tabela 1225 Participantes da pesquisa segundo o tempo de sono em horas e a faixa etária 12710 Com base nos dados apresentados na Tabela 1226 você rejeita a hipótese de que a probabilidade de ter gripe é a mesma para pessoas vacinadas e não vacinadas Tabela 1226 Participantes da pesquisa segundo o fato de ter sido vacinada contra gripe e ter tido gripe 18Gabriel S E et al Risk of connective tissues diseases and other disorders after breast implantation New Engl J Med 33016971702 1994 Apud Motulsky H Intuitive Biostatistics Nova York Oxford University Press 1995 p 318 1Veja Vieira S e Hossne WS Metodologia científica para a área da saúde 2 ed Rio de Janeiro Elsevier 2015 2Alguns programas de computador dão o valor de χ2 com e sem correção de continuidade É preciso optar por um deles 3Nem sempre se faz a correção de continuidade embora seja teoricamente recomendada De qualquer forma o uso da correção diminui a probabilidade de encontrar valor significante 4Esse valor porém só ocorre quando as amostras são de mesmo tamanho 5Veja Fleiss JL Statistical methods for rates and proportions Nova York Wiley 1981 p 60 6O coeficiente γ também é conhecido como coeficiente de Yule 7Veja a metodologia em Vieira S e Hossne WS Metodologia científica para a área da saúde Rio de Janeiro Elsevier 2015 8Fleiss J L Statistical methods for rates and proportions Nova York Wiley 1981 9Veja mais sobre esses estudos em Vieira S e Hossne WS Metodologia científica para a área da saúde 2 ed Rio de Janeiro Elsevier 2015 11Fleiss J L Statistical methods for rates and proportions Nova York Wiley 1981 12Fleiss J L Statistical methods for rates and proportions Nova York Wiley 1981 14A correção de continuidade embora teoricamente recomendada nem sempre é feita De qualquer forma o uso da correção diminui a probabilidade de encontrar valor significante Apêndices ESBOÇO Apêndice Capítulo 13 Probabilidades Apêndice Capítulo 14 Distribuição Binomial APÊNDICE CAPÍTULO 13 Probabilidades Lidamos com ideias sobre probabilidade em nosso dia a dia Dizemos por exemplo É provável que chova amanhã ou Carlos provavelmente chega hoje Mas também calculamos probabilidades Quando alguém pergunta qual é a probabilidade de sair cara no jogo de moeda a resposta é fácil ½ ou 50 Como encontramos essa probabilidade Pensamos assim quando uma moeda é lançada pode sair tanto cara quanto coroa as duas faces não podem ocorrer ao mesmo tempo mas têm a mesma chance Portanto cara ocorre na metade vezes Mas será que se você jogar uma moeda duas vezes é certo que sairá cara uma das vezes Claro que não Quando dizemos que a probabilidade de sair cara num jogo de moeda é ½ estamos apenas afirmando que se uma moeda for lançada um grande número de vezes esperase que ocorra cara na metade delas 131 A linguagem para o estudo de probabilidades O estudo de probabilidades tem muita aplicação em todas as ciências mas começou com os jogos de azar As pessoas queriam entender a lei que rege esses jogos para ganharem dinheiro nos cassinos1 E os matemáticos acabaram estabelecendo a teoria das probabilidades que trata dos fenômenos aleatórios Muitos fenômenos têm padrão de comportamento previsível no longo prazo mas comportamento imprevisível quando observados por pouco tempo Lembrese de que você não sabe quando joga uma moeda se sairá cara ou coroa No entanto pode prever que em mil lançamentos ocorrerá cara em cerca de metade das vezes As ocorrências possíveis em dado fenômeno aleatório são até bem conhecidas Espaço amostral é o conjunto dos resultados possíveis de um fenômeno aleatório Para um lançamento de moeda o espaço amostral que indicaremos por E é cara e coroa Escrevemos Evento é qualquer subconjunto do espaço amostral Diversos resultados podem constituir o evento de interesse Por exemplo imagine um jogo em que se lançam duas moedas e o jogador ganha se a mesma face ocorrer em ambas O espaço amostral é O jogador ganha se ocorrer qualquer um dos dois resultados do evento A Dado o evento A denominase o complemento de A que se indica por Ac o conjunto de eventos que não são A No exemplo que acabamos de ver Dois eventos são chamados de mutuamente exclusivos quando não têm elementos em comum É o caso das pesquisas de opinião em que o entrevistador deve buscar grupos que são definidos por características excludentes quem está em determinado grupo não pode estar em outro Por exemplo 1 A adultos com idade de 18 a 60 anos 2 B idosos com mais de 60 anos Às vezes estamos interessados em eventos que não são simples Quando interessam tanto o evento A como o evento B ou seja A ou B dizemos estar interessados na união de A e B matematicamente indicada por AB Por exemplo quando você diz que aceita sorvete de creme ou de chocolate significa que aceita qualquer um deles um ou outro Quando interessam os resultados que sejam simultaneamente evento A e evento B dizemos estar interessados na intersecção A e B matematicamente indicada por AB A ideia de dois eventos que ocorrem juntos é expressa pela conjunção e Por exemplo quando o entrevistador pergunta a um morador da cidade de São Paulo se tem moto e é favorável à implantação de ciclovias pode estar interessado na interseção dos eventos Dois eventos são independentes se a ocorrência de um deles não tem influência na ocorrência do outro Lembrese do exemplo dado anteriormente do jogo em que se lançam duas moedas e o jogador ganha se a mesma face ocorrer em ambas a ocorrência de determinada face em uma das moedas não tem qualquer efeito sobre o que ocorre na outra moeda É importante considerar aqui o risco de confundir eventos independentes com eventos mutuamente exclusivos Às vezes as pessoas entendem que as duas expressões querem dizer a mesma coisa que os eventos não se sobrepõem No entanto eventos mutuamente exclusivos se um ocorre o outro não pode ocorrer não são independentes Pense no jogo de uma moeda quando se joga uma moeda não há como ocorrer cara e coroa ao mesmo tempo Logo esses eventos são mutuamente exclusivos Eles são independentes Não a probabilidade de sair cara é ½ mas dada a condição de que ocorreu coroa é zero Então a probabilidade de sair cara muda se sair coroa Eventos são indicados pelas primeiras letras do alfabeto escritas em itálico A B C etc Muitas vezes o espaço amostral e os eventos são apresentados em diagrama de Venn Para desenhar esse diagrama você traça um retângulo que representará o espaço amostral e dentro do retângulo círculos que representarão os eventos Veja a Figura 131 União Interseção Disjuntos Complemento FIGURA 131 Diagramas de Venn 132 Definições de probabilidade 1321 Definição frequentista de probabilidade PROBABILIDADE de ocorrer um evento com a característica A indicada por PA é dada pela frequência relativa desse evento em uma série de n observações feitas sob as mesmas condições Exemplo 131 Um médico2 verificou que de 2964 nascidos vivos 73 tinham algum defeito ou uma doença séria Com base nessa amostra a estimativa da probabilidade de um recém nascido ter defeito ou doença séria é 2Arena J F P Estudo clínicoepidemiológico prospectivo das anomalias congênitas na população de Campinas 1977 Tese Doutorado FCM Unicamp Campinas A palavra probabilidade é entendida neste texto como uma proporção ou seja o número de vezes em que um evento ocorre dividido pelo número de vezes em que o processo é repetido nas mesmas condições muitas e muitas vezes 13211 Regras a que as definições de probabilidade devem obedecer 1 Probabilidade é um valor numérico que varia entre zero e 1 inclusive3 Eventos impossíveis têm probabilidade zero enquanto eventos certos têm probabilidade 1 2 A soma das probabilidades de todos os eventos possíveis é igual a 1 3 A probabilidade de um evento é igual a 1 menos a probabilidade de esse evento não ocorrer Exemplo 132 Evento certo a probabilidade de que qualquer um de nós venha a morrer um dia é 1 Evento impossível a probabilidade de que qualquer um de nós seja imortal é zero A definição de probabilidade que acabamos de ver chamada por muitos de definição frequentista é aplicada às situações que podem ser pensadas como repetíveis sob condições específicas no mundo das ciências Tiramos amostras da população para ter dados que permitam estimar probabilidades Na área de saúde as probabilidades de danos e eventos adversos são referidas como riscos Muitos estudos já foram feitos para estimar o risco de um fumante ter câncer do pulmão de sobreviver a um acidente de carro ou de um nascituro ser menino O Exemplo 133 estima o risco de ocorrer erro médico em um hospital em determinado período limitado em condições específicas por exemplo mantidos o mesmo equipamento e a mesma equipe Exemplo 133 Numa amostra de 30195 registros hospitalares selecionados ao acaso foram identificados 1133 pacientes com lesões sérias causadas por imprudência negligência ou imperícia do médico4 O risco estimado de lesão séria por erro médico nesse hospital é 4Leape L et al The nature of adverse events in hospitalized patients Results of the Harvard Medical Practice Study II The New England Journal of Medicine v 324 n 6 Feb 7 1991 É comum que as pessoas pensem em probabilidades como porcentagens Os estatísticos preferem sempre expressar valores de probabilidade por números entre zero e 1 porque em cálculos mais avançados isso se faz necessário Mas se você quiser expressar probabilidade em porcentagem basta multiplicar o valor dado pela definição por 100 e acrescentar o símbolo de porcentagem ao resultado Aliás na prática as probabilidades são mais bemcompreendidas quando expressas em porcentagem Exemplo 134 No Exemplo 133 foi estimada a probabilidade de lesão séria por erro médico em determinado hospital Para ser dada em porcentagem essa estimativa é multiplicada por 100 Em porcentagem a estimativa do risco de lesão séria por erro médico nesse hospital é de 375 expressão mais facilmente entendida 1322 Definição clássica de probabilidade A definição frequentista de probabilidade atende bem ao conhecimento da área de saúde quando o pesquisador quer estimar riscos Por meio de observações de muitos casos é possível estimar o risco de efeitos adversos Mas é preciso que o número de eventos observados possa crescer indefinidamente Quando o espaço amostral contém um número finito de eventos contáveis desde que igualmente prováveis é fácil usar a definição clássica DEFINIÇÃO CLÁSSICA Se forem possíveis n resultados mutuamente exclusivos e igualmente prováveis se m desses resultados forem favoráveis a probabilidade de resultado favorável é Exemplo 135 Cálculo de probabilidade Qual é a probabilidade de ocorrer face 6 quando se joga um dado Os n 6 resultados possíveis compõem o espaço amostral S 1 2 3 4 5 6 Só um resultado m 1 atende à característica pedida face 6 Então a probabilidade de ocorrer 6 é 1323 Definição de probabilidade subjetiva É impossível encaixar dentro da ideia de probabilidade afirmativas como a probabilidade de o Brasil ganhar a próxima Copa Mundial de Futebol é 080 Nesses casos é preciso usar a definição subjetiva de probabilidade PROBABILIDADE SUBJETIVA é um valor entre zero e 1 que representa um ponto de vista pessoal sobre a possibilidade de ocorrer determinado evento É importante entender que probabilidade subjetiva não é apenas uma forma de pensar logicamente sobre fenômenos aleatórios É a maneira como uma pessoa descreve seu grau de crença em determinado desfecho É portanto racional embora não se baseie em técnicas computacionais E tem sentido quando fornecida por alguém que conhece o assunto Logo probabilidade subjetiva é de enorme importância quando as informações são apenas parciais e é preciso ter intuição A grande desvantagem da definição subjetiva de probabilidade é o fato de ser pessoal Em função disso nos casos em que a frequência relativa pode ser calculada a probabilidade subjetiva pode não ter relação alguma com os resultados realmente obtidos Mas a probabilidade subjetiva predomina nas decisões administrativas nas aplicações financeiras e nos jogos de azar 133 Teorema da soma ou a regra do ou 1331 Regra 1 da soma eventos mutuamente exclusivos Se A e B são eventos mutuamente exclusivos a probabilidade de ocorrer A ou B é igual à soma das probabilidades de ocorrer cada um deles Escrevese Exemplo 136 Soma de eventos mutuamente exclusivos Foi feito um estudo de casocontrole com pacientes hospitalizados 7804 casos e 15207 controles para determinar os fatores de risco de câncer do pulmão5 Os dados apresentados na Tabela 131 foram obtidos para saber se o risco de câncer do pulmão aumenta com o número de cigarros fumados por dia Qual é a probabilidade de uma pessoa tomada ao acaso dessa amostra fumar um maço de cigarros 20 ou mais por dia Tabela 131 Distribuição de casos e controles segundo o número de cigarros fumados por dia A probabilidade de uma pessoa tomada ao acaso fumar um maço de cigarros 20 ou mais por dia é dada usando os dados da Tabela 131 pela probabilidade de fumar de 20 a 29 cigarros por dia somada a probabilidade de fumar 30 cigarros ou mais por dia A probabilidade de a pessoa fumar um maço ou mais de cigarros por dia nessa amostra é 5Assessment of Lung Cancer Risk Factors by Histologic Category1 JNCI v 73 n 2 agosto de 1984 1332 Regra 2 da soma eventos não mutuamente exclusivos Se os eventos não são mutuamente exclusivos ou seja se A e B podem ocorrer ao mesmo tempo a probabilidade de ocorrer A ou B é dada pela probabilidade de A mais a probabilidade de B menos a probabilidade de A e B Escrevese É preciso subtrair o conjunto interseção porque quando somamos PA PB a probabilidade do conjunto interseção PAB é somada duas vezes No caso de eventos mutuamente exclusivos não se faz a subtração porque a probabilidade de os eventos ocorrerem ao mesmo tempo é zero Veja o diagrama da Figura 131 eventos mutuamente exclusivos não têm interseção Exemplo 137 Soma de eventos não mutuamente exclusivos Foi feito um estudo de casocontrole 299 casos e 292 controles para determinar os fatores de risco para infarto do miocárdio Os dados da Tabela 132 foram obtidos para saber se pacientes diabéticos apresentam maior risco de infarto do miocárdio Qual é a probabilidade de uma pessoa tomada ao acaso dessa amostra ser ou diabética ou infartada Tabela 132 Distribuição dos casos de infarto e controles segundo a presença ou não de diabetes Fonte Silva MAD Sousa AGMR Schargodsky H Fatores de Risco para Infarto do Miocárdio no Brasil Arq Bras Cardiol v 71 n 5 667675 1998 Probabilidade de ter tido infarto Probabilidade de ser diabético Veja que as pessoas que tiveram infarto e são diabéticas estão no conjunto interseção e portanto foram consideradas nos dois cálculos Então Probabilidade de ter tido infarto e ser diabético Pinfartado diabético 299591 88591 59591 328591 0 555 134 Teorema da multiplicação ou a regra do e Antes de estudar o teorema da multiplicação é importante entender bem a questão da independência de eventos Já vimos que dois eventos A e B são independentes se a ocorrência de um deles A ou B não tem efeito sobre a ocorrência do outro B ou A Por exemplo quando se joga uma moeda duas vezes o resultado da primeira jogada não tem qualquer efeito sobre o resultado da segunda São eventos independentes 1341 Regra 1 da multiplicação eventos independentes Se A e B são eventos independentes a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela probabilidade de ocorrer B Escrevese Exemplo 138 Ocorrência conjunta de eventos independentes Qual é a probabilidade de ocorrerem duas caras quando se joga uma moeda duas vezes Veja a Tabela 133 Tabela 133 Resultados de dois lançamentos de uma moeda A probabilidade de ocorrer cara na primeira jogada é O fato de ter ocorrido cara na primeira jogada não modifica a probabilidade de ocorrer cara na segunda jogada os eventos são independentes Então a probabilidade de ocorrer cara na segunda jogada é Para obter a probabilidade de ocorrer cara nas duas jogadas primeira e segunda fazse o produto Na vida real encontramos muitos exemplos de eventos independentes como o que vimos ou seja sair cara no primeiro lançamento de uma moeda e sair cara no segundo lançamento da mesma moeda Por exemplo chover hoje e ser feriado amanhã são eventos independentes porque o fato de chover hoje não muda a possibilidade de ser feriado amanhã nem o fato de ser feriado amanhã altera a possibilidade de chover hoje No entanto a ocorrência de certos eventos tem efeito sobre a ocorrência de outros Por exemplo estar alcoolizado aumenta a probabilidade de provocar acidente de trânsito Vida sedentária aumenta a probabilidade de sobrepeso Dizemos que esses eventos são dependentes Portanto dois eventos A e B são dependentes quando a ocorrência de um deles por exemplo a ocorrência de A modifica a probabilidade de o outro ocorrer no caso de B 1342 Regra 2 da multiplicação eventos dependentes Antes de estudar a regra 2 da multiplicação vamos entender por que alguns eventos estão condicionados a outros Denominase probabilidade condicional de B dado A a probabilidade de ocorrer o evento B sob a condição de A ter ocorrido Escrevese PBA que se lê probabilidade de B dado A Pense você só entra no cinema se comprar a entrada então comprar entrada é condição para entrar no cinema Exemplo 139 Probabilidade condicional Um casal tem dois filhos a Qual é a probabilidade de os dois serem meninos b Qual é a probabilidade de os dois serem meninos dado que o primeiro é menino Para obter a probabilidade de os dois serem meninos você calcula No entanto quando se pergunta a probabilidade de os dois serem meninos dado que o primeiro é menino você calcula De acordo com a regra 2 da multiplicação se A e B são eventos dependentes a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela probabilidade de ocorrer B dado que A ocorreu essa probabilidade é condicional Escrevese Exemplo 1310 Ocorrência conjunta de eventos dependentes Uma caixa contém duas bolas brancas e três bolas azuis Duas bolas são retiradas ao acaso uma em seguida da outra e sem que a primeira tenha sido recolocada Qual é a probabilidade de que as duas sejam brancas FIGURA 132 Retirada de duas bolas brancas sem reposição A caixa contém cinco bolas duas são brancas Então a probabilidade de a primeira bola retirada ser branca é Como a bola retirada não foi recolocada restam quatro bolas na caixa Para que as duas bolas retiradas da urna sejam brancas é preciso que a primeira bola retirada seja branca Dado que primeira bola retirada era branca das quatro bolas que estão na caixa uma é branca A probabilidade condicional de a segunda bola retirada ser branca é A probabilidade de as duas bolas retiradas serem brancas é dada pelo produto 1343 Condição de independência No dia a dia muitas vezes dizemos uma coisa não tem nada a ver com a outra Em linguagem técnica queremos dizer que os eventos são independentes O Exemplo 138 ilustra a condição de independência quando se jogam duas moedas o resultado da primeira não influencia o resultado da segunda Então dois eventos são independentes se a probabilidade de ocorrerem juntos for igual ao produto das probabilidades de que ocorram em separado uma vez que a ocorrência de um deles em nada ajuda a ocorrência do outro Essa é a condição de independência de dois eventos Escrevese Aprendemos que a probabilidade de ocorrer determinado evento depende muitas vezes das condições em que ocorre esse evento Isso é conhecido na área de saúde e é importante para a prevenção a probabilidade de câncer do pulmão depende de ter ou não o hábito de fumar a probabilidade de ter algumas doenças depende de ter ou não sido imunizado a probabilidade de ocorrer um acidente automobilístico depende das condições dos pneus Outras vezes a probabilidade de ocorrer determinado evento não depende da ocorrência de outro Por exemplo a probabilidade de ter cárie dentária não depende de a pessoa ser ou não míope a probabilidade de ter cálculos renais não depende da profissão a probabilidade de ser calvo não depende do estado civil Muitas pesquisas são realizadas para estudar se há ou não dependência entre determinados eventos o que significa buscar os fatores que modificam as probabilidades Veja um exemplo em que o valor de probabilidade não se modifica em dada condição Exemplo 1311 Condição de independência Para determinar se existe associação entre implantes mamários e doenças do tecido conjuntivo e outras doenças6 durante vários anos foram observadas 749 mulheres que haviam recebido implante e 1498 que não haviam recebido implante Verificou se que cinco das mulheres que haviam recebido implantes e dez das que não haviam recebido implante tiveram doenças do tecido conjuntivo Você acha que ter doenças do tecido conjuntivo depende ou não de a mulher ter implantes mamários A Tabela 133 mostra que 749 das 2247 mulheres observadas receberam implante mamário Então a probabilidade de nessa amostra uma mulher escolhida ao acaso ter implante mamário é A Tabela 134 também mostra que 15 das 2247 mulheres observadas tiveram doenças do tecido conjuntivo e outras doenças Então a probabilidade de nessa amostra uma mulher escolhida ao acaso ter doença do tecido conjuntivo e outras doenças é Tabela 134 Distribuição de mulheres com implante mamário e o fato de terem ou não doenças do tecido conjuntivo e outras Como 5 das 2247 mulheres observadas receberam implante mamário e tiveram doenças do tecido conjuntivo e outras doenças a probabilidade de ter implante mamário e ter doença é Agora é fácil verificar se ocorre a condição de independência Veja Logo os eventos são independentes porque 6Gabriel SE et al Risk of connective tissues diseases and other disorders after breast implantation New Engl J Med 33016971702 1994 Apud Motulsky H Intuitive Biostatistics Nova York Oxford University Press 1995 p 318 135 Exercícios resolvidos 1351 De uma classe com trinta alunos dos quais 14 são meninos um aluno é escolhido ao acaso para apresentar um trabalho Qual é a probabilidade de a o aluno escolhido ser um menino b o aluno escolhido ser uma menina A classe tem trinta alunos n 30 e todos têm a mesma probabilidade de ser escolhidos Como 14 são meninos m 14 a a probabilidade de o aluno escolhido ser menino é 1430 ou 715 b a probabilidade de o aluno escolhido ser menina é 1630 ou 815 1352 Uma pessoa comprou um número de rifa que tem cem números e irá sortear cinco prêmios Qual é a probabilidade de essa pessoa a ganhar um prêmio b de não ganhar Todos os cem números n 100 da rifa têm igual probabilidade de serem sorteados Serão sorteados cinco números m 5 Então a a probabilidade de uma pessoa que comprou um número ser sorteada é 5100 ou 120 b a probabilidade de a pessoa não ser sorteada é 95100 ou 1920 1353 Uma urna tem dez bolas brancas e quatro pretas Retirase uma bola ao acaso Qual é a probabilidade de essa bola a ser branca b Ser preta A urna tem dez bolas brancas e quatro pretas n 14 Retirase uma bola ao acaso A probabilidade de essa bola a ser branca m 10 é 1014 ou 57 b ser preta m 4 é 414 ou 27 1354 Jogase um dado Qual é a probabilidade de sair a o número 3 b um número maior do que 3 c um número menor do que 3 d um número par Quando se joga um dado pode ocorrer um dos seguintes eventos 1 2 3 4 5 ou 6 a Apenas um m 1 dos seis eventos n 6 é igual a 3 Então a probabilidade de ocorrer 3 é 16 b dos seis eventos três m 3 são maiores do que 3 4 5 6 Então a probabilidade de ocorrer um número maior do que 3 é ½ c dos seis eventos dois m 2 são menores do que 3 1 2 Então a probabilidade de ocorrer um número menor do que 3 é 13 d dos seis eventos três m 3 são números pares 2 4 6 Então a probabilidade de ocorrer um número par é ½ 1355 Jogamse duas moedas Qual é a probabilidade de saírem a duas caras b duas coroas c uma cara e uma coroa Para resolver este problema é conveniente escrever todos os eventos que podem ocorrer quando se joga uma moeda Veja a Tabela 135 Tabela 135 Resultados possíveis no jogo de duas moedas Evento 1ª moeda 2ª moeda 1 Cara Coroa 2 Coroa Cara 3 Cara Cara 4 Coroa Coroa A Tabela 135 mostra n 4 eventos mutuamente exclusivos e igualmente prováveis A probabilidade de saírem a duas caras evento 3 na tabela é ¼ b duas coroas evento 4 na tabela é ¼ c uma cara e uma coroa eventos 1 e 2 na tabela é 24 1356 Em uma família com três filhos qual é a probabilidade de os três serem homens Suponha que meninos e meninas tenham a mesma probabilidade de nascer Como o sexo de um filho não depende do sexo do anterior a probabilidade de o primeiro filho ser homem e de o segundo filho ser homem e de o terceiro filho ser homem é pelo teorema do produto 1357 Em uma família com três filhos qual é a probabilidade de a dois serem homens b um ser homem c nenhum ser homem Suponha que meninos e meninas têm a mesma probabilidade de nascer Para resolver este problema é conveniente escrever todas as possibilidades em uma família com três filhos Veja a Tabela 136 Tabela 136 Resultados possíveis no jogo de duas moedas A probabilidade de a dois serem homens eventos 2 3 e 5 na tabela é 38 b de um ser homem eventos 4 6 e 7 na tabela é 38 c nenhum ser homem evento 8 na tabela é 18 1358 Um casal tem dois filhos Qual é a probabilidade de a o primogênito ser homem b os dois filhos serem homens c pelo menos um filho ser homem Suponha que a probabilidade de nascer menino é ½ e que o sexo do segundo filho não depende do sexo do primeiro Então a a probabilidade de o primogênito ser homem é ½ b a probabilidade de os dois filhos serem homens pode ser obtida pelo teorema do produto de o primeiro ser homem e o segundo ser homem c a probabilidade de ser homem pelo menos um dos filhos pode ser obtida pelo teorema da soma o primeiro ser homem ou o segundo ser homem ou os dois serem homens 1359 No cruzamento de ervilhas amarelas homozigotas AA com ervilhas verdes homozigotas aa ocorrem ervilhas amarelas heterozigotas Aa Se essas ervilhas forem cruzadas entre si ocorrem três ervilhas amarelas para cada ervilha verde a proporção é de três para um Suponha que tenham sido pegas ao acaso três ervilhas resultantes do cruzamento de ervilhas amarelas heterozigotas Qual é a probabilidade de as três serem verdes A probabilidade de uma ervilha resultante do cruzamento Aa x Aa ser verde é 14 Logo a probabilidade de as três ervilhas pegas ao acaso serem verdes é 13510 Qual é a probabilidade de o filho de um homem normal XY e de uma filha de hemofílico XhX ser hemofílico XhY Um homem normal XY não transmite hemofilia para gerações seguintes Uma mulher portadora do gene Xh tem 50 de probabilidade de ter um filho hemofílico O filho será normal XY ou hemofílico XhY com a mesma probabilidade ou seja ½ 13511 Jogamse duas moedas ao mesmo tempo Os eventos cara na primeira moeda e faces iguais nas duas moedas são independentes Veja o espaço amostral Caracara Caracoroa coroacara coroacoroa Os eventos possíveis são quatro Só um deles caracara atende cara na primeira moeda que chamaremos de A e faces iguais nas duas moedas que chamaremos B Então a probabilidade pedida é Como A condição de independência foi portanto satisfeita Os eventos cara na primeira moeda e faces iguais nas duas moedas são independentes 136 Exercícios propostos 1361 Uma carta é retirada ao acaso de um baralho bem embaralhado Qual é a probabilidade de a ser um ás b ser uma carta de ouro c ser um ás de ouro 1362 Uma urna tem dez bolas numeradas de 1 a 10 Retirase uma bola ao acaso Qual é a probabilidade de essa bola a ter um número maior do que 7 b ter um número menor do que 7 c ter número 1 ou 10 1363 Uma urna tem 15 bolas numeradas de 1 a 15 Retirase uma bola ao acaso Qual é a probabilidade de essa bola a ter número par b ter número ímpar c ter um número maior do que 15 1364 Para melhorar as condições de pacientes com determinada doença crônica existem cinco drogas A B C D e E Um médico tem verba para comparar apenas três delas Se ele escolher três drogas ao acaso para comparar qual é a probabilidade de a a droga A ser escolhida b as drogas A e B serem escolhidas 1365 Dois dados um vermelho outro azul são lançados ao mesmo tempo e se pergunta a qual é a probabilidade de ocorrer a face 6 no dado vermelho b qual é a probabilidade de ocorrer a face 6 no dado vermelho sabendo que saiu a face 6 no dado azul 1366 Um exame realizado em jovens que concluíram o curso fundamental mostrou que 20 foram reprovados em Matemática 10 foram reprovados em Português e 5 foram reprovados tanto em Matemática como em Português Os eventos ser reprovado em Matemática e ser reprovado em Português são independentes 1367 Um casal tem dois filhos Qual é a probabilidade de a o segundo filho ser homem b o segundo filho ser homem dado que o primeiro é homem 1368 A probabilidade de determinado teste para a Aids dar resultado negativo em portadores de anticorpos contra o vírus falsonegativo é 10 Supondo que falsosnegativos ocorrem de forma independente qual é a probabilidade de um portador de anticorpos contra o vírus da Aids que se apresentou três vezes para o teste ter tido nas três vezes resultado negativo 1369 Uma pessoa normal filha de pais normais tem um avô albino aa Se os outros avós não forem portadores do gene para albinismo AA qual é a probabilidade de essa pessoa ser portadora do gene para albinismo Aa 13610 Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo O é de 40 ser A é de 30 e ser B é de 20 Suponha ainda que o fator Rh não dependa do tipo sanguíneo e que a probabilidade de Rh é de 90 Nessas condições calcule a probabilidade de uma pessoa tomada ao acaso da população ser a O Rh b AB Rh 1Os jogos de azar são antiquíssimos e foram praticados não só como apostas mas também como um modo de prever o futuro decidir conflitos ou dividir heranças 3Não existe por exemplo 200 de probabilidade Expressões desse tipo aparecem na linguagem coloquial na intenção de enfatizar uma certeza APÊNDICE CAPÍTULO 14 Distribuição Binomial A Estatística formaliza o que nós muitas vezes já sabemos Por exemplo você sabe que as idades das pessoas da sua família variam Portanto você tem consciência da variabilidade E também sabe que no Nordeste faz calor o ano todo o que não acontece no Sul Então você tem consciência de que no decorrer de um ano as temperaturas dos estados nordestinos são em média mais altas do que as temperaturas dos estados do sul do país E se você acha que o peso de uma pessoa depende da altura está mostrando que sabe o que é correlação Além disso todos nós sabemos que ganhar na loteria não é fácil Temos portanto percepção sobre probabilidade A seguir definiremos o que é variável aleatória que intuitivamente você talvez já conheça 141 Variável aleatória Quando você joga uma moeda ou sai cara ou sai coroa O acaso determina o resultado Quando num jogo de baralho você tira uma carta pode sair carta de paus de ouros de espadas de copas O acaso determina o resultado Uma variável é aleatória quando o acaso tem influência em seus valores As variáveis aleatórias são indicadas por números Se um jogador ganha quando sai cara associamos o número 1 à saída de cara e o número zero à saída de coroa Se a pessoa entrevistada numa pesquisa responder que tem 42 anos a variável aleatória que representa idade de pessoas assumiu nesse caso o valor 42 As variáveis aleatórias são portanto numéricas Portanto podem ser discretas e contínuas Neste capítulo vamos estudar as variáveis aleatórias discretas 1411 Variável aleatória binária Alguns experimentos só podem resultar em uma de duas possibilidades o evento no qual estamos interessados o sucesso e o evento contrário chamado de fracasso O exemplo mais conhecido é o jogo de moedas Quando se joga uma moeda ou sai cara ou sai coroa as duas faces não podem ocorrer ao mesmo tempo Dizemos então que a variável aleatória é binária Na área de saúde encontramos muitas variáveis binárias Veja alguns exemplos um exame laboratorial pode dar resultado positivo ou negativo um nascituro pode ser menino ou menina um medicamento pode surtir ou não o efeito esperado um doador de sangue pode ser Rh ou Rh a dieta pode ser adequada ou não adequada determinado material pode estar contaminado ou não Variável aleatória binária é aquela que resulta em um de dois eventos mutuamente exclusivos ou é sucesso ou é fracasso Associamos o valor 1 ao sucesso e o valor zero ao fracasso 1412 Variável aleatória binomial Muitas vezes contamos o número de vezes em que ocorre o evento de interesse ou sucesso em uma série de tentativas ou de experimentos Por exemplo um jogador conta quantas caras saem quando lança dez moedas um pesquisador conta quantos dos quinhentos chefes de família que entrevistou eram mulheres um médico conta quantos dos cem pacientes que tratou com uma nova droga ficaram curados um biomédico conta quantos dos 32 hemogramas feitos no dia indicaram doença contagiosa uma enfermeira conta quantos dos 3052 nascidos vivos em determinado ano em uma maternidade tinham doença ou defeito grave A variável que resulta da soma dos resultados de uma variável aleatória binária em n tentativas é uma variável aleatória binomial Exemplo 141 Variável aleatória binomial Uma moeda é lançada duas vezes O número X de caras que podem ocorrer estão apresentados na Tabela 141 Tabela 141 Eventos possíveis e número de caras quando uma moeda é lançada duas vezes Eventos possíveis Valor de X Coroa e coroa 0 Coroa e cara 1 Cara e coroa 1 Cara e cara 2 142 Distribuição de probabilidades Os valores observados da variável aleatória X são indicados por x1 x2 xk e as respectivas probabilidades por px1 px2 Pxk Obrigatoriamente 1 a soma das probabilidades de ocorrerem todos os valores possíveis de X é 1 2 a probabilidade de ocorrer qualquer valor de X é igual ou maior que zero não pode ser negativa Distribuição de probabilidades de uma variável aleatória discreta X é a lista dos valores que X pode assumir e suas respectivas probabilidades Exemplo 142 Distribuição de probabilidades Seja X a variável aleatória que representa o número de caras obtidas quando se lança uma moeda duas vezes vamos calcular a distribuição de probabilidades de X Se saírem duas coroas X 0 A probabilidade de X 0 é Se saírem uma coroa e uma cara a variável X assume valor um A probabilidade X 1 é Se saírem duas caras a variável X assume valor dois A probabilidade de X 2 é A Tabela 142 e a Figura 141 apresentam um resumo desses cálculos ou seja apresentam a distribuição de probabilidades de X A soma das probabilidades é 1 Tabela 142 Distribuição de probabilidades do número de caras em dois lançamentos de uma moeda FIGURA 141 Distribuição de probabilidades do número de caras em dois lançamentos de uma moeda Neste ponto é importante deixar claro que existe diferença entre distribuição de probabilidades e distribuição de frequências As distribuições de frequências tratadas no Capítulo 1 são empíricas porque são construídas com base nos dados de amostras As amostras variam mesmo que sejam tomadas no mesmo local e na mesma época A distribuição de probabilidades é teórica porque é construída com base em teoria ou nos dados de toda a população A distribuição de probabilidades é estável 143 Distribuição binomial Uma distribuição de probabilidades bem conhecida é a distribuição binomial que estuda o número X de sucessos em n tentativas e suas respectivas probabilidades Para aprender a trabalhar com a distribuição binomial imagine que em determinada maternidade tenham nascido três bebês em um dia Vamos estudar a distribuição de meninos em três nascimentos Fazendo A indicar menina e O indicar menino os eventos possíveis são os seguintes O número de meninos que podem ocorrer em três nascimentos é uma variável aleatória binomial que indicaremos por X A Tabela 143 apresenta os valores possíveis de X e o número de vezes que cada um deles ocorre Tabela 143 Números possíveis de meninos em três nascimentos Valor de X Frequência 0 1 1 3 2 3 3 1 Seja p a probabilidade de nascer menino e q a probabilidade de nascer menina Então p q 1 Se nascerem três meninas ou seja se ocorrer o evento AAA a variável aleatória X assume valor zero com probabilidade Se nascerem duas meninas e um menino X assume valor 1 Mas duas meninas e um menino podem ocorrer de três maneiras diferentes Veja as probabilidades Então Se nascerem uma menina e dois meninos X assume valor 2 Mas uma menina e dois meninos podem ocorrer de três maneiras diferentes Veja as probabilidades Então Se nascerem três meninos isto é se ocorrer o evento OOO a variável aleatória X assume valor 3 com probabilidade A distribuição binomial do número X de meninos em n 3 nascimentos está na Tabela 144 São dados os resultados possíveis de X e suas respectivas probabilidades Tabela 144 Distribuição de probabilidades do número de meninos em três nascimentos Valor de X Probabilidade 0 q3 1 3pq2 2 3p2q 3 p3 Vamos considerar por facilidade que a probabilidade de nascer menino seja p 05 e que a probabilidade de nascer menina seja q 05 embora se saiba que a probabilidade de nascer menino é ligeiramente maior do que 05 Estamos também ignorando nascimentos de gêmeos e nascimentos múltiplos Considerando obtemos a distribuição de probabilidades do número de meninos em três nascimentos apresentada na Tabela 145 e na Figura 142 Tabela 145 Distribuição de probabilidades do número de meninos em três nascimentos FIGURA 142 Distribuição de probabilidades do número de meninos em três nascimentos 1431 Caracterização da distribuição binomial Uma distribuição binomial tem as seguintes características consiste de n ensaios ou n tentativas ou n eventos idênticos cada ensaio só pode resultar em um de dois resultados identificados como sucesso e fracasso com valores 1 e zero respectivamente a variável aleatória X é o número de sucessos em n ensaios a probabilidade de sucesso ocorrer o evento de interesse é p e o valor de p permanece o mesmo em todos os ensaios os ensaios são independentes o resultado de um ensaio não tem efeito sobre o resultado de outro A distribuição binomial fica portanto definida quando são dados dois parâmetros 1 n ou seja o número de ensaios por exemplo se uma moeda for lançada dez vezes 2 p ou seja a probabilidade de sucesso em uma tentativa por exemplo sair cara quando se joga uma moeda 1432 Função de distribuição na distribuição binomial Um parâmetro de interesse é a probabilidade de sucesso numa distribuição binomial Lembrese de que a distribuição binomial surge quando se conta o número X de sucessos em n ensaios Considere um experimento em que fazemos n observações independentes da variável aleatória X que segue uma distribuição f x p onde p é o vetor de parâmetros ou seja p 1 p 2 p k para o de distribuição A probabilidade de obter os resultados específicos para essa experiência é dada pela Distribuição de probabilidades de uma variável aleatória discreta X que é a lista dos valores que X pode assumir e suas respectivas probabilidades Vamos aceitar sem demonstração que dada uma distribuição binomial de parâmetros n e p a probabilidade de ocorrerem x eventos favoráveis é dada pela seguinte fórmula em que é a combinação1 de n x a x Portanto a probabilidade de ocorrerem x eventos favoráveis em n tentativas é dada pela seguinte fórmula Veja agora um exemplo que ajuda a entender como trabalhamos com a distribuição binomial Exemplo 143 Eventos em uma distribuição binomial Um dentista vai examinar uma amostra de quatro crianças de 6 anos para saber se elas têm Sim indicado por S ou não Não indicado por N cárie Quais são os eventos possíveis Os eventos possíveis são os que seguem Exemplo 144 Distribuição binomial Reveja o Exemplo 143 Faça X indicar o número de crianças com cárie p indicar a probabilidade de uma criança ter cárie e q indicar a probabilidade de uma criança não ter cárie Escreva a distribuição Tabela 146 Distribuição de probabilidades do número de crianças com cárie em quatro crianças Evento Valor de X PX Nenhuma criança com cárie 0 q4 Uma criança com cárie 1 4pq3 Duas crianças com cárie 2 6p2q2 Três crianças com cárie 3 4p3q Quatro crianças com cárie 4 p4 Exemplo 145 Distribuição binomial n 4 p 04 Reveja o Exemplo 144 Considere que na população estudada a probabilidade de uma criança de 6 anos ter cárie é p 04 ou seja 40 Qual é a probabilidade de duas das quatro crianças examinadas terem cáries A Tabela 96 mostra a probabilidade de a variável X assumir valor 2 Se a probabilidade de uma criança dessa população ter cárie é p 04 então Exemplo 146 Cálculo de probabilidades na distribuição binomial Reveja o Exemplo 144 A probabilidade de uma criança de 6 anos ter cárie é p 04 ou 40 Calcule a probabilidade de duas X 2 das quatro n crianças examinadas terem cáries aplicando a fórmula A probabilidade de o dentista encontrar duas de quatro crianças com cáries nessa população é de 03456 1433 Média e variância na distribuição binomial A média µ lêse mi de uma distribuição binomial é dada pela seguinte fórmula e a variância σ2 lêse sigma ao quadrado é dada pela fórmula a seguir Exemplo 147 Média e variância da distribuição binomial A probabilidade de nascer um menino é p 05 ignorando nascimentos de gêmeos e nascimentos múltiplos Calcule a média e a variância do número de meninos em 1000 nascituros A média é e a variância é 144 Revisão sobre análise combinatória Se n é um número inteiro positivo maior do que zero por definição o fatorial de n que se indica por n é dado por O fatorial de 5 é portanto O desenvolvimento de um fatorial pode ser interrompido antes de chegar ao número 1 desde que se coloque o símbolo que indica o fatorial logo após o último número Escrevese porque O fatorial de zero que se indica por 0 é por definição igual a 1 Dado um conjunto de n elementos onde n 0 e dado o número x n a combinação de n x a x é indicada por Essa fórmula dá o número de diferentes conjuntos de x elementos que podem ser formados com n elementos distintos Seja n 5 e x 3 Então a combinação de 5 3 a 3 é Convém observar que para todo n 145 Exercícios resolvidos 1451 Encontre o erro nas duas afirmativas feitas em seguida a a probabilidade de você ser aprovado em Estatística é 2 e de ser reprovado é 02 b a probabilidade de chover amanhã é 20 de ficar nublado sem chuva é 10 e de ter sol é 80 A soma de probabilidades deve ser 1 ou 100 Nas duas afirmativas as somas excedem o valor 1 ou 100 1452 Numa prova2 o aluno deve assinalar a resposta que fornece as datas na ordem em que estão mencionadas de três acontecimentos históricos Descoberta do Brasil Descoberta da América Independência do Brasil As alternativas são a 1492 1822 1500 b 1822 1492 1500 c 1492 1500 1822 d 1822 1500 1492 e 1500 1492 1822 f 1500 1822 1492 Um aluno que nada sabe sobre a matéria tenta adivinhar Qual é distribuição de probabilidades do número de respostas que ele consegue acertar A resposta e seria correta Descoberta do Brasil 1500 Descoberta da América 1492 Independência do Brasil 1822 Outras respostas têm as datas de um ou dois acontecimentos na ordem correta Veja a distribuição de probabilidades na Tabela 147 Tabela 147 Distribuição de probabilidades do número de respostas que o aluno acerta Resposta Probabilidade N de respostas corretas a 16 0 b 16 1 c 16 1 d 16 0 e 16 3 f 16 1 1453 Na população branca do Brasil 85 têm Rh Três pessoas são amostradas ao acaso dessa população Construa a distribuição binomial e faça um gráfico No problema Tabela 148 Cálculos intermediários para se obter a distribuição binomial Para construir a tabela de distribuição binomial você soma as probabilidades dos eventos que levam ao mesmo valor de X A distribuição é apresentada na Tabela 99 Tabela 149 Distribuição de probabilidades do número de pessoas com Rh numa amostra de três pessoas Valores de X Probabilidade 3 0614125 2 0325125 1 0057375 0 0003375 FIGURA 143 Distribuição de probabilidades do número de pessoas com Rh em três pessoas 1454 Apresente em tabela e em gráfico a distribuição do número de meninos que podem ocorrer em uma família com seis crianças No problema n é o número de crianças 6 p é a probabilidade de menino 12 e q é a probabilidade de menina 12 Para obter a probabilidade de X assumir o valor 0 ou seja de não ocorrer nenhum menino calcule Para obter a probabilidade de X assumir o valor 1 ou seja de ocorrer um menino em uma família com seis crianças calcule Para obter a probabilidade de x assumir o valor 2 ou seja de ocorrerem dois meninos em uma família com seis crianças calcule Para obter a probabilidade de X assumir o valor 3 calcule Para obter a probabilidade de X assumir o valor 4 calcule Para obter a probabilidade de X assumir o valor 5 calcule Para obter a probabilidade de X assumir o valor 6 calcule Com os valores de X e as respectivas probabilidades podemos construir a Tabela 1410 que apresenta uma distribuição binomial para n 6 e p 05 O gráfico de barras é apresentado na Figura 144 Tabela 1410 Distribuição do número de meninos em uma família com seis crianças Evento X P X Nenhum menino 0 164 1 menino 1 664 2 meninos 2 1564 3 meninos 3 2064 4 meninos 4 1564 5 meninos 5 664 6 meninos 6 164 FIGURA 144 Distribuição do número de meninos em uma família com seis crianças 1455 A probabilidade de um menino ser daltônico é 8 Qual é a probabilidade de serem daltônicos todos os quatro meninos que se apresentaram em determinado dia para um exame oftalmológico No problema p 008 Então q 1 008 092 O número de meninos é n 4 Para obter a probabilidade de X assumir valor 4 aplicase a seguinte fórmula Então 1456 O resultado do cruzamento de ervilhas amarelas homozigotas AA com ervilhas verdes homozigotas aa são ervilhas amarelas heterozigotas Aa Se essas ervilhas forem cruzadas entre si ocorrem ervilhas amarelas e verdes na proporção de 3 para 1 Portanto a probabilidade de num cruzamento desse tipo ocorrer ervilha amarela é p 34 e a probabilidade de ocorrer ervilha verde é q 14 Logo o número de ervilhas amarelas em um conjunto de n ervilhas é uma variável aleatória com distribuição binomial de parâmetros n e p 34 Foram pegas ao acaso quatro ervilhas resultantes do cruzamento de ervilhas amarelas heterozigotas Qual é a probabilidade de duas dessas quatro ervilhas serem de cor amarela A probabilidade de duas das quatro ervilhas serem amarelas é dada por 1457 Considere novamente o cruzamento de ervilhas amarelas e verdes descrito no Exercício 1456 Qual é a média de ervilhas amarelas considerando uma amostra de n 100 ervilhas Qual é a variância Um conjunto de n 100 ervilhas tem em média e variância 1458 Um exame é constituído de cem testes com cinco alternativas em que apenas uma é correta Um aluno que nada sabe sobre a matéria do exame acerta em média quantos testes Qual é a variância da distribuição A probabilidade de um aluno acertar uma resposta ao acaso é p 15 Existem n 100 testes Então aplicando a fórmula temse ou seja um aluno que nada sabe sobre a matéria acerta em média vinte testes A variância da distribuição é 1459 Um pesquisador de mercado quer saber a proporção de consumidores que preferem café sem cafeína Se ele pergunta a quinhentas pessoas que tipo de café adquiriram em sua última compra como ele estimaria a média e a variância da distribuição O pesquisador terá respostas Sim e Não além de outras como Não sei Não me lembro Não tenho tempo para responder a questionários Se as respostas do tipo Sim e Não chegarem a 70 ou seja se a taxa de resposta for de 70 quando a quantidade de não respondentes é grande a pesquisa não responde à pergunta feita ou seja não tem validade terá uma distribuição binomial A média será obtida pela seguinte fórmula e a variância σ2 pela fórmula a seguir O valor de p é obtido dividindo o número de consumidores que preferem café sem cafeína pelo número n de respondentes 14510 Numa cirurgia experimental uma cobaia pode sobreviver S ou morrer M O pesquisador não sabe é exatamente isso que ele está pesquisando mas considere que a probabilidade de uma cobaia sobreviver na cirurgia é de 025 A cirurgia será feita em duas cobaias Se ambas sobreviverem operamse mais duas Se apenas uma sobreviver outra será operada Se as duas morrerem o pesquisador interrompe o experimento Qual é a probabilidade de não se fazer uma segunda sequência de cirurgias de as duas primeiras cobaias operadas morrerem Qual é a probabilidade de quatro cobaias serem operadas e as quatro sobreviverem As respostas são dadas na Tabela 1411 Se as duas cobaias morrerem sobrevivência zero o pesquisador interrompe o experimento A probabilidade de isso ocorrer é de 05625 Se as duas cobaias sobreviverem sobrevivência 2 o pesquisador opera mais duas A probabilidade de isso ocorrer é Tabela 1411 Probabilidade de sobrevivência de cobaias submetidas a uma cirurgia experimental 2Adaptado de Mosteller F Rourke R E K Thomas JR G B Probability and Statistics Reading Addison Wesley 1961 p 160 146 Exercícios propostos 1461 Há três bolas numeradas em uma caixa cada qual com um número diferente Os números são 1 2 e 3 Tirase uma bola da caixa em seguida outra Formase então um número de dois dígitos com os números das bolas retiradas Por exemplo se saiu o número 3 e em seguida o 2 foi formado o número 32 Um jogador ganha se sair número par Nesse jogo ganhase mais do que se perde ou é justamente o contrário 1462 Seja X a variável aleatória que indica o número de meninos em uma família com cinco crianças Apresente a distribuição de X em uma tabela Faça um gráfico 1463 Um exame é constituído de dez testes tipo certoerrado Um aluno que nada sabe sobre a matéria do exame quantos testes em média acerta Qual é a variância dessa distribuição 1464 Um exame é constituído de dez testes com cinco alternativas em que apenas uma é correta Um aluno que nada sabe sobre a matéria do exame acerta em média quantos testes Qual é a variância da distribuição 1465 Suponha que determinado medicamento usado no diagnóstico precoce da gravidez é capaz de confirmar casos positivos em apenas 90 das gestantes muito jovens Isso porque em 10 das gestantes muito jovens ocorre descamação do epitélio do útero que é confundida com menstruação Nessas condições qual é a probabilidade de duas de três gestantes muito jovens que fizeram uso desse medicamento não terem confirmado precocemente a gravidez 1466 A probabilidade de um casal heterozigoto para o gene da fenilcetonúria Aa Aa ter um filho afetado aa é de 14 Se o casal tiver três filhos qual é a probabilidade de ter um filho com essa doença 1467 A probabilidade de um indivíduo ter sangue Rh é 10 na população brasileira toda Qual é a possibilidade de se terem apresentado em determinado dia em um banco de sangue cinco doadores de sangue todos Rh 1468 Foi feito um levantamento acerca da opinião de 1000 enfermeiras que trabalhavam em determinado hospital sobre dada questão que tinha duas alternativas Sim e Não As respostas têm distribuição binomial Algumas enfermeiras não responderam ao questionário Que efeito isso pode ter sobre as respostas 1469 A experiência demonstra que um detector de mentiras dá resposta positiva indicando mentira 10 das vezes em que uma pessoa está dizendo a verdade e 95 das vezes em que a pessoa está mentindo Imagine que seis suspeitos de um crime sejam submetidos ao detector de mentiras Todos os suspeitos se afirmam inocentes e estão dizendo a verdade Qual é a probabilidade de ocorrer uma resposta positiva 14610 O diretor de uma grande empresa está preocupado com a questão de acidentes e quer fazer um levantamento da situação Existem os registros do número de acidentes por dia na empresa Essa variável tem distribuição binomial 1Uma rápida revisão sobre análise combinatória é dada ao final deste Apêndice Anexos ESBOÇO Anexos Capítulo 15 Tabelas ANEXOS CAPÍTULO 15 Tabelas Tabela 1 Distribuição normal reduzida P0 Z z Tabela 2 Valores de c2 segundo os graus de liberdade e o valor de α Tabela 3 Valores de F para α 25 segundo o número de graus de liberdade do numerador e do denominador Fonte SCHEFFÉ 1959 Tabela 4 Valores de F para α 5 segundo o número de graus de liberdade do numerador e do denominador Fonte Scheffé 1959 Tabela 5 Valores de F para α 10 segundo o número de graus de liberdade do numerador e do denominador Fonte Scheffé 1959 Tabela 6 Valores de t segundo os graus de liberdade e o valor de α Graus de liberdade a Respostas aos Exercícios Propostos Capítulo 1 Apresentação de Dados em Tabelas 151 a peso de pessoas numérica contínua b marcas comerciais de um mesmo analgésico nominal c temperatura de pessoas numérica contínua d quantidade anual de chuva na cidade de São Paulo numérica contínua e religião nominal f número de dentes permanentes irrompidos em uma criança numérica discreta g número de bebês nascidos por dia em uma maternidade numérica discreta h comprimento de cães numérica contínua 152 Distribuição das pessoas segundo a opinião Opinião Frequência Percentual Favorável 425 499 Contrária 368 432 Não temnão sabe 59 69 Total 852 1000 153 Distribuição das notas de duzentos alunos Nota do aluno Frequência Frequência relativa De 9 a 10 16 008 De 8 a 89 36 018 De 65 a 79 90 045 De 5 a 64 30 015 Abaixo de 5 28 014 Total 200 1 154 Distribuição dos pacientes segundo o estágio da doença Estágio da doença Frequência Frequência relativa Leve 8 040 Moderado 9 045 Severo 3 015 Total 20 100 155 Não está definido se os valores iguais aos extremos de classe estão ou não incluídos na classe Os intervalos se sobrepõem por exemplo de 20 a 30 e de 30 a 40 o valor 30 aparece nos dois intervalos e falta uma classe de 50 a 60 156 Doadores de sangue segundo o tipo de sangue Tipo de sangue Frequência Frequência relativa O 15 0375 A 16 04 B 6 015 AB 3 0075 Total 40 1 157 Vinte alunos 158 Distribuição das crianças segundo o hábito de sucção Hábito de sucção Frequência Percentual Sucção do polegar 190 94 Chupeta 588 292 Mamadeira 618 307 Não têm o hábito 615 306 Total 2011 1000 159 Classe 70 75 75 80 80 85 85 90 90 95 95 100 100 105 105 110 110 115 115 120 1510 O intervalo de classes é 5 enfermeiros em serviço O intervalo de toda a distribuição é 30 1511 Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias Classe Frequência 1 3 5 3 6 8 6 9 11 9 12 4 12 15 6 15 18 2 Total 36 Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias Classe Frequência 1 dia 2 De 2 a 3 dias 6 De 4 a 7 dias 12 De 8 a 14 dias 14 Mais de 14 dias 2 Total 36 1512 Conjunto A para achar o número de classes 50 701 7 amplitude dos dados 7024 46 Dividindo a amplitude total pelo número de classes achase o intervalo de classe 46 7 66 7 24 31 31 38 38 45 45 52 52 59 59 66 66 73 Conjunto B para calcular o número de classes 100 10 amplitude dos dados 821187 634 Dividindo a amplitude total pelo número de classes encontrase o intervalo de classe 634 10 634 65 185 250 250 315 315 380 380 445 445 510 510 575 575 640 640 705 705 770 770 835 1513 Taxa de abandono do tratamento contra tuberculose pulmonar segundo a zona de moradia 1514 Distribuição dos dentistas segundo a adoção de métodos de prevenção de cáries e doenças gengivais no consultório Prevenção Frequência Porcentual Sim 78 780 Não 22 220 Total 100 1000 A prática da prevenção deveria ser adotada por 100 dos dentistas 1515 Número e proporção de óbitos por grupos de causas Brasil 2004 Houve 896554 óbitos com causa definida 583 homens e 417 mulheres Doenças do aparelho circulatório respondem pela maior proporção de mortes Chama a atenção a grande proporção de óbitos de homens por causas externas acidentes e homicídios 1516 Pacientes portadores de carcinoma epidermoide de base de língua segundo a faixa etária em anos Faixa etária Número Frequência relativa 30 40 10 34 40 50 66 228 50 60 119 410 60 70 66 228 70 80 24 83 80 e mais 5 17 Total 290 1000 A faixa etária de maior risco dos 50 aos 60 anos 1517 Número de órgãos obtidos de doadores cadáveres Nota Cada cadáver é potencialmente doador de dois rins um coração um fígado e dois pulmões A taxa de aproveitamento é sobre número de órgãos não de cadáveres Capítulo 2 Apresentação de Dados em Gráficos 241 Distribuição dos pacientes segundo o estágio da doença 242 Distribuição dos doadores de sangue segundo o tipo de sangue 243 Distribuição das crianças segundo o hábito de sucção 244 Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias 245 Taxa de abandono do tratamento contra tuberculose pulmonar segundo a zona de moradia 246 Proporção de óbitos por grupos de causas Brasil 2004 Nesses gráficos as grandes causas foram colocadas em ordem decrescente considerando as porcentagens Mas os dois gráficos podem ser reunidos em um só como na figura que se segue 247 Pacientes portadores de carcinoma epidermoide de base de língua segundo a faixa etária em anos 248 Taxa de aproveitamento de órgãos obtidos de doadores cadáveres 249 Pressão sanguínea diastólica de 35 enfermeiros que trabalham em um hospital Classe Frequência Frequência relativa 64 70 1 29 70 76 5 143 76 82 9 257 82 88 13 371 88 94 5 143 94 100 2 57 Total 35 1000 2410 Pressão sanguínea diastólica de 35 enfermeiros que trabalham em um hospital Capítulo 3 Medidas de Tendência Central 361 a Média 5 mediana 6 moda 8 b Média 8 mediana 8 moda 8 c Média 11 mediana 10 moda 10 d Média 1 mediana 0 não tem moda e Média 2 mediana 1 duas modas 1 e 2 362 Mediana 363 Moda 364 24 anos 365 A média é 100 mg por 100 mL de sangue e a mediana é 995 mg por 100 mL de sangue 366 Estatura Média 170 m mediana 168 m Peso Média 725 kg mediana 70 kg Pressão arterial Média 1655 mL de mercúrio mediana 160 mL de mercúrio 367 Menino média 088 dentes cariados meninas média 1 dente cariado 368 106 minuto O rato que não dormiu não entra na média porque tempo de latência é o tempo para a droga fazer efeito no caso dormir 369 Masculino Média 700 gramas por dia mediana 65 gramas por dia Feminino Média 700 gramas por dia mediana 70 gramas por dia 3610 Masculino Média 090 L por dia mediana 085 L por dia Feminino Média 080 L por dia mediana 075 L por dia 3611 Metade das pacientes retornou às atividades menos de 275 dias depois de submetidas a histerectomias o conjunto de dados não tem moda ou seja nenhum número de dias foi mais frequente 3612 362 mg de ácido ascórbico em 100 mL 3613 Sim exemplo 1 2 3 3 3 4 5 para esse conjunto de dados a média a mediana e a moda são iguais a 3 3614 A média porque a última classe não tem o extremo superior definido Capítulo 4 Medidas de Dispersão 461 a 1 b 5 c 4 462 a Σ x 35 b 463 A média é 4 e o desvio padrão é 3 464 O tamanho da amostra é 6 465 A média é 24 e a variância 80 466 Antônio média 5 desvio padrão 0 João média 5 desvio padrão 1 Pedro média 5 desvio padrão 5 As notas de Antônio não variaram as notas de Pedro variaram muito mais do que as de João 467 a O desvio padrão pode ser maior do que o valor da média exemplo a2 0 2 b O valor do desvio padrão pode ser igual ao valor da média exemplo 10 10 5 0 0 c O valor do desvio padrão não pode ser negativo por definição d O desvio padrão é igual a zero quando todos os dados do conjunto são iguais entre si 468 A variância é 16 o desvio padrão é 4 e o coeficiente de variação é 400 469 A média é 5 e a variância é 08 4610 a desvantagem de usar a amplitude os dois conjuntos podem ter amplitudes iguais e variabilidades diferentes b não c sim quando menor do que 1 4611 1 ano média 746 desvio padrão 74 2 ano média 956 desvio padrão 79 As variabilidades são praticamente iguais mas a diferença é que a média do 2º ano é aproximadamente 28 maior do que a média do 1 ano o que justifica a ideia de que alunos que começam a atender pacientes em disciplinas clínicas têm aumento na frequência do batimento cardíaco 4612 A diferença de médias não é muito grande 6 e 7 respectivamente mas a diferença de variabilidades é tão grande 2 e 112 respectivamente que justifica preferir a primeira dieta para perda de peso Como na primeira dieta as respostas são mais homogêneas a expectativa do resultado é mais previsível Capítulo 5 Noções sobre Correlação 561 a r 1 correlação perfeita positiva b r 1 correlação perfeita negativa c r 0 correlação nula d r 090 correlação positiva alta e r 090 correlação negativa alta 562 a correlação negativa b correlação positiva c correlação nula 563 O sobrepeso pode ser um fator de risco para morte por doenças do coração 564 Não 565 Correlação perfeita negativa 7 Forte correlação positiva 1 Correlação nula ou próxima de nula 3 566 1 1 ou 1 positiva ou negativa zero maior 567 Negativa 568 Se as variáveis estão ou não correlacionadas 569 Não existe correlação entre as variáveis r 0 O diagrama de dispersão mostra isso Dados relativos a duas variáveis X e Y 5610 Para o Conjunto A r 0936 portanto alta correlação positiva Para o Conjunto B r 0 o que no caso não significa correlação nula mas como mostra o gráfico correlação não linear Dois conjuntos de pares de valores de duas variáveis 5611 Não é possível1 calcular o valor de r mas obviamente não existe correlação entre as variáveis X cresce e Y permanece constante 5612 Σx 255 Σx2 9443 Σy 1725 Σy2 504375 Σxy 66025 Logo r 0913 5613 Para o Conjunto A r 1 portanto correlação perfeita positiva Para o Conjunto B r 0 o valor altamente discrepante anula a correlação Mas atenção retire o valor discrepante apenas no caso de ter havido erro na leitura ou no registro do dado Outras situações demandam discussão Note ainda o valor discrepante mudou totalmente o valor de r pelo fato de a amostra ser pequena 5614 O valor de r é 0774 correlação positiva alta 5615 Duração do exercício em minutos e VO2 MAX em mililitros por quilograma por minuto para 12 homens saudáveis Olhando o diagrama é razoável afirmar que VO2MAX diminui quando aumenta o tempo da atividade 5616 Taxas de fecundidade total no Brasil segundo o ano do censo 1Divisão por zero uma vez que a variância de Y que aparece no denominador é zero Capítulo 6 Noções sobre Regressão 671 Tanto o gráfico como a reta ajustada indicam que o teor de vitamina C no suco de maçã diminui à medida que aumenta o tempo de armazenamento Teor de vitamina C mg de ácido ascórbico100 mL de suco de maçã em função do período de armazenamento em dias O coeficiente de correlação 672 Não muda mas a reta de regressão será outra As duas retas se cruzarão no ponto de coordenadas iguais às médias de X e Y 673 Não 674 Ŷ 5 X 675 Não seria possível achar o valor de b pela fórmula uma vez que o denominador seria zero Mas a ideia é de uma reta paralela ao eixo das ordenadas 676 Os dados são poucos para discutir um assunto tão complexo mas em geral é possível afirmar que escolaridade está associada a nível de renda que significa maiores gastos com produtos de higiene e maior busca por profissionais de saúde além da facilidade de ter e buscar novos conhecimentos De qualquer forma ensinar métodos preventivos produz bons resultados O que não se pode é usar estatísticas de má qualidade ainda que se tenha por objetivo provar assuntos já comprovados ou demonstrar boas intenções 677 Os gastos com propaganda aumentaram as vendas O valor de R2 0984 indica que a proporção da variação do volume de vendas Y explicada pela variação do gasto em propaganda é muito alta Mas cuidado não se pode extrapolar Gastos com propaganda em reais na semana e valores recebidos em reais nas vendas 678 Ŷ 1123 1309X 679 Ŷ 1625 8841X Sim existe tendência de queda O coeficiente de determinação é R2 0859 Então o VO2MAX inalado diminui linearmente quando aumenta a atividade no intervalo estudado 6710 Tempo em minutos desde o início do repouso e pressão sanguínea diastólica em milímetros de mercúrio A simples inspeção do gráfico mostra que a pressão sanguínea diastólica diminui com o tempo de repouso mas há outros fatores que explicam a variação A maior crítica aqui é pelo fato de as observações feitas ao longo do tempo não serem independentes foram tomadas na mesma pessoa ao longo do tempo Para se ajustar uma reta de regressão aos dados é preciso que as observações sejam independentes 6711 Para 32 dias a estimativa é 6885 g 6712 A regressão exponencial traz a variável explanatória no expoente Escrevese Para ajustála é preciso calcular o logaritmo neperiano de Y Ajustase Cálculos auxiliares Aplicando as fórmulas obtémse Equação exponencial ajustada aos dados das variáveis X e Y Capítulo 7 Noções sobre Amostragem 781 Podem ser obtidas seis amostras diferentes 1 Antônio e Luís 2 Antônio e Pedro 3 Antônio e Carlos 4 Luís e Pedro 5 Luís e Carlos 6 Pedro e Carlos 782 Podem ser selecionados a os elementos de ordem par b os elementos de ordem ímpar c os quatro primeiros elementos 783 Numeramse os alunos e sorteiamse seis 784 Divida dez por cinco e obterá dois Sorteie um dos dois primeiros números ou seja 1 ou 2 Se sair 1 chame para a amostra o primeiro o terceiro o quinto o sétimo e o nono nomes se sair 2 chame o segundo o quarto o sexto o oitavo e o décimo nomes 785 a alunos da universidade b percentual de alunos que têm trabalho remunerado c não porque talvez no restaurante fiquem mais alunos que têm trabalho d não porque excluiria os que têm condução própria 786 Questão fechada Você costuma escovar os dentes todos os dias Sim Não Questão aberta Como você limpa seus dentes 787 A média da população parâmetro é 5 As médias das amostras estatísticas são João e José 8 João e Paulo 7 João e Pedro 5 José e Paulo 5 José e Pedro 3 Paulo e Pedro 2 A média das médias das amostras é 5 igual à média da população 788 Leitores de livros técnicos 789 O costume é escolher uma cidade representativa de todo o estado 7810 a qualquer conjunto de dez unidades como por exemplo 3 5 8 13 19 22 26 27 30 40 b no caso da amostra sugerida na resposta anterior 03 ou 30 c 05 ou 50 d Boa nota não são boas as estimativas 0 01 09 1 Capítulo 8 Distribuição Normal 891 De acordo com a regra empírica 95 dos dados estarão no entorno da média a menos de dois desvios padrões de distância da média µ No caso dois desvios padrões valem 2 x 15 30 A proporção de pessoas com quociente de inteligência acima da média que é 100 é 952 475 Então 25 de pessoas têm quociente de inteligência acima de 130 892 Usando apenas os conhecimentos adquiridos com a distribuição normal é razoável dizer que a média mais um desvio padrão é ponto de alerta no caso 1395 3 1425 média mais dois desvios padrões no caso 1395 2 x 3 1455 seria o ponto de corte para dizer que a concentração de sódio no plasma de uma pessoa está além do limite de normalidade 893 a 067 b 164 c 196 894 a 7888 b 1056 895 a 475 b 4525 896 a 9772 b 228 897 a 2119 b 2119 898 a 01587 ou 1587 b 00228 ou 228 c 05 ou 50 d 01003 ou aproximadamente 10 899 Sim metade dos escores é positiva e metade é negativa porque a distribuição normal reduzida é simétrica em torno da média zero 8910 00475 ou 475 Capítulo 9 Intervalo de Confiança 971 a Se forem tomadas repetidamente muitas amostras e calculados seus intervalos de confiança 95 deles devem conter a média 972 Resposta falso pois podem ser obtidos para qualquer parâmetro usando os dados de uma amostra 973 O intervalo de 90 de confiança obtido para a média da pressão sanguínea sistólica em mm Hg de uma amostra de cem indivíduos sadios com idade entre 20 e 25 anos é 974 O intervalo de 95 de confiança calculado para a média de Hb em gdL medida em uma amostra de duzentas mulheres adultas sadias é 975 O intervalo de 90 de confiança calculado para a média de comprimento em cm ao nascer para o sexo masculino dos filhos de mães sadias com período completo de gestação foi 976 O intervalo de 95 de confiança calculado para a média de glicose por 100 mL de sangue em uma amostra de 25 normoglicêmicos é 977 A amostra de trinta homens sadios com idade entre 30 e 48 anos não fumantes e que tinham atividade física regular forneceu em repouso o intervalo de 95 de confiança para a média de frequência cardíaca 978 A estimativa por intervalo da média da quantidade de gordura em cem hambúrgueres de determinada cadeia de restaurantes com 95 de confiança é 979 A estimativa por intervalo da média da quantidade de gordura em cem hambúrgueres de determinada cadeia de restaurantes com 95 de confiança é 9710 a não necessariamente b sim c não necessariamente d não Capítulo 10 Teste t para uma Amostra 1041 Hipóteses a chove b não chove Decisões possíveis a levar o guardachuva b não levar o guardachuva Erros possíveis a chover e não ter guardachuva b não chover e carregar o guardachuva 1042 Hipótese da nulidade o peso médio ao nascer de filhos de gestantes que vivem em extrema pobreza e participaram do programa é igual ao peso médio ao nascer histórico µ 2800 g de filhos de gestantes que vivem em extrema pobreza e não participaram do programa Hipótese alternativa o peso médio ao nascer de filhos de gestantes que vivem em extrema pobreza e participaram do programa é diferente do peso médio ao nascer histórico µ 2800 g de filhos de gestantes que vivem em extrema pobreza e não participaram do programa Nível de significância de 5 Considerandose peso médio ao nascer de 3075 g e desvio padrão 500 g na amostra de 25 mulheres calculase o valor de t Com n 1 251 24 graus de liberdade o valor crítico na tabela de t para um teste bilateral é 2064 Como o valor absoluto de t calculado é maior que o da tabela rejeitase a hipótese da nulidade ou seja o peso médio ao nascer de filhos de gestantes que vivem em extrema pobreza e participaram do programa é diferente do peso médio ao nascer histórico µ 2800 g de filhos de gestantes que vivem em extrema pobreza e não participaram do programa 1043 Estabeleça as hipóteses Calcule a média e o desvio padrão Calcule o valor de t Como a hipótese da nulidade será rejeitada apenas em uma direção o teste é unilateral Com n 1 6 1 5 graus de liberdade o valor crítico na tabela de t no nível de 10 é 1476 Como o valor absoluto de t calculado é maior que o da tabela rejeitase a hipótese da nulidade no nível de 5 ou seja em média as notas dos alunos são significantemente maiores do que o valor especificado 1044 Estabeleça as seguintes hipóteses Calcule o valor de t A hipótese da nulidade será rejeitada apenas em uma direção o teste é unilateral Com n 1 22 1 21 graus de liberdade o valor crítico na tabela de t no nível de 5 é 1721 Como o valor absoluto de t calculado é maior que o da tabela rejeitase a hipótese da nulidade ou seja as notas dos alunos são em média significantemente maiores do que o valor especificado 1045 Estabeleça as seguintes hipóteses Estabeleça o nível de significância 5 Calcule o valor de t Com n 1 22 1 21 graus de liberdade o valor crítico na tabela de t no nível de 5 é 1721 Como o valor absoluto de t calculado é menor que o da tabela não se rejeita a hipótese da nulidade ou seja não se pode concluir que em média o escore para depressão seja menor em crianças com baixa estima do que nas crianças em geral 1046 Estabeleça as hipóteses Estabeleça o nível de significância 5 Calcule o valor de t Com n 1 811 80 graus de liberdade o valor crítico na tabela de t no nível de 5 é 1960 Como o valor absoluto de t calculado é maior que o da tabela rejeitase a hipótese da nulidade ou seja em média a terapia proposta reduz a ansiedade em alunos do curso fundamental 1047 Usando o Minitab p 0074 010 Rejeitase a hipótese da nulidade OneSample T Notas dos alunos 1048 Errado Um teste estatístico não faz hipóteses sobre médias de amostras O teste t para uma amostra é usado para verificar se a média da população de onde a amostra proveio é significativamente diferente de um valor especificado 1049 10410 O pvalor calculado usando o programa Minitab é 100 Não se rejeita a hipótese de que a média dos escores seja 50 OneSample T Escore 10411 A hipótese da nulidade é a de que em média o tempo de alívio de dor é 100 minutos como acontece com as outras formulações A hipótese alternativa é a de que o tempo médio para alívio de dor é diferente de 100 minutos Para um teste bilateral no nível de 5 de significância temos que a média é 981 a variância 2187778 o desvio padrão 467737 a variância da média 218778 o erro padrão da média 147911 o valor de t 128455 e o pvalor é 0231026 O tempo médio de alívio da dor com a nova formulação não difere estatisticamente do tempo médio de outras formulações p 005 Capítulo 11 Teste t para Comparação de Médias 1141 Médias e desvios padrões de pesos de ratos O valor de t é 4536 significante a 5 Os ratos submetidos à dieta de ração experimental ganharam mais peso 1142 Observações pareadas t 4226 significante no nível de 5 O teste B dá em média resultados significativamente maiores de QI do que o teste A 1143 t 1642 não significante a 5 Os dados não mostram que o uso de anticoncepcionais orais aumente a pressão sanguínea sistólica 1144 t 0623 não significante a 5 Os dados não mostram diferença de peso ao nascer entre sexos 1145 Médias variâncias e desvios padrões da pressão sanguínea dos ratos Valores de F e t Nota ns pt indica não significância e o asterisco indica significância no nível de 5 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 005 A pressão sanguínea dos ratos ficou mais baixa em baixa temperatura 1146 Estatísticas para comparar o tempo despendido pelas drogas Estatística Resultado Valor de F 116 pvalor 04097 Variância ponderada 17457 Valor de t 299 pvalor bilateral 00097 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 000974 005 1147 Estatísticas para comparar o tempo de alívio da dor obtido com a droga A nova em relação à droga B mais usada Estatística Resultado Valor de F 133 pvalor 02644 Variância ponderada 2003 Valor de t 116 pvalor unilateral 01227 Não se rejeita a hipótese de variâncias iguais p 005 Também não há evidência de que a droga nova seja melhor do que a antiga p 005 1148 Estatísticas para comparar os dois métodos de processamento Estatística Resultado Valor de F 150 pvalor 01924 Variância ponderada 5000 Valor de t 1075 pvalor unilateral 00000 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 00000 005 1149 Estatísticas para comparar as duas dietas Estatística Resultado Valor de F 118 pvalor 04290 Variância ponderada 2183 Valor de t 234 pvalor unilateral 00205 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 00205 005 11410 Teste t pareado porque a mesma criança foi observada em duas ocasiões a quando recebeu alimentos adoçados com açúcar e b quando recebeu alimentos adoçados com sacarina Os dois grupos de crianças mais velhas hiperativas e de crianças mais novas normais não são comparáveis porque diferem quanto a dois fatores idade e hiperatividade Capítulo 12 Teste χ2 1271 Um teste de quiquadrado no nível de 5 de significância não rejeita a hipótese de que a proporção de recémnascidos com defeito ou doença séria seja de 3 1272 χ2 482 A proporção de recémnascidos portadores de anomalia congênita é maior no sexo feminino 1273 χ2 904 A ausência congênita de dentes ocorre com mais frequência em meninas 1274 O coeficiente gama é 0372 A associação positiva entre anodontia e sexo feminino na ordem de 37 é pequena 1275 χ2 132 A associação é 022 pequena O teste não rejeita a hipótese de que a presença de aberração cromossômica no feto não depende de a faixa de idade da gestante ser de 35 a 40 anos ou de 40 anos ou mais 1276 Hipótese da nulidade existe associação entre implantes mamários e doenças do tecido conjuntivo e outras doenças Hipótese alternativa doenças do tecido conjuntivo e outras não estão associadas aos implantes mamários 1277 Hipótese da nulidade a probabilidade de natimorto é idêntica para ambos os sexos Hipótese alternativa a probabilidade de natimorto é maior para um dos sexos α 5 χ2 115 portanto não se rejeita H0 1278 O coeficiente gama é 00816 Associação praticamente inexistente 1279 Hipótese da nulidade a probabilidade de dormir mais de oito horas é idêntica para as duas faixas etárias hipótese alternativa a probabilidade de dormir mais de oito horas é diferente para as duas faixas etárias no nível de 1 de significância χ2 2226 portanto se rejeita H0 12710 χ2 4824 rejeitase H0 no nível de 1 Apêndices Capítulo 13 Probabilidades 1381 a b c 1382 a b c 1383 a b c zero 1384 É mais fácil resolver o problema construindo o espaço amostral a b 1385 a b 1386 Os eventos ser reprovado em Matemática e ser reprovado em Português não são independentes porque a condição de independência dada em seguida não é satisfeita Temos PReprovado Português 010 PReprovado Matemática 020 PReprovado Português Reprovado Matemática 005 1387 a 50 b 50 1388 01 1389 50 13810 a 36 b 1 Capítulo 14 Distribuição Binomial 1461 Eventos e respectivos resultados no jogo Eventos Resultados possíveis 12 Ganha 13 Perde 21 Perde 23 Perde 31 Perde 32 Ganha O jogador perde mais vezes do que ganha porque só 2 é par e 1 e 3 são ímpares O jogo é injusto 1462 Distribuição do número de meninos em uma família de cinco crianças X PX 0 132 1 532 2 1032 3 1032 4 532 5 132 1463 µ 5 σ2 25 1464 µ 2 σ2 16 1465 27 1466 2764 ou 422 1467 0001 1468 a as respostas têm distribuição binomial b depende da taxa de respostas que deve ser igual ou superior a 70 ou seja pelo menos 70 dos questionários devem ter sido respondidos Um cuidado importante aqui é saber se a pergunta feita não induz um tipo de resposta por exemplo dizer não pode ser prejudicial para a enfermeira ou ofender seus colegas Nesse caso as respostas poderiam eventualmente ser tendenciosas e a taxa de respostas pequena 1469 059049 14610 Se considerarmos cada dia um ensaio em cada dia podem ocorrer mais de dois eventos ocorreu acidente ou não Interessa saber o número de acidentes por dia e em seguida também o estudo da distribuição de frequências em quantos dias houve um acidente dois três etc e o estudo das respectivas causas Eventos e respectivos resultados no jogo Eventos Resultados possíveis 12 Ganha 13 Perde 21 Perde 23 Perde 31 Perde 32 Ganha O jogador perde mais vezes do que ganha porque só 2 é par e 1 e 3 são ímpares O jogo é injusto 1462 Distribuição do número de meninos em uma família de cinco crianças X PX 0 132 1 532 2 1032 3 1032 4 532 5 132 1463 µ 5 σ2 25 1464 µ 2 σ2 16 1465 27 1466 2764 ou 422 1467 0001 1468 a as respostas têm distribuição binomial b depende da taxa de respostas que deve ser igual ou superior a 70 isto é pelo menos 70 dos questionários devem ter sido respondidos Um cuidado importante aqui é saber se a pergunta feita não induz um tipo de resposta por exemplo dizer não pode ser prejudicial para a enfermeira ou ofender seus colegas Nesse caso as respostas poderiam eventualmente ser tendenciosas e a taxa de respostas pequena 1469 059049 14610 Se considerarmos cada dia um ensaio em cada dia podem ocorrer mais de dois eventos ocorreu acidente ou não Interessa saber o número de acidentes por dia e em seguida também o estudo da distribuição de frequências em quantos dias houve um acidente dois três etc e o estudo das respectivas causas Sugestões para leitura Aliaga M Gunderson B Interactive Statistics 2 ed New Jersey Prentice Hall 2003 Armitage P Statistical methods in medical research 4 ed Oxford Blackwel Scientific Publications 2002 Bland M An introduction to medical statistics 3 ed Oxford Oxford Medical Publications 2000 Brown B W Hollander M Statistics a biomedical introduction New York Wiley 1977 Bishop V MM et al Discrete multivariate analysis theory and practice Cambridge MIT Press 1977 Bussab W Morettin P A Estatística Básica São Paulo Saraiva 2002 Cochran W Sampling techniques New York Wiley 1977 Chow S C Liu J L Design and analysis of clinical trials New York Wiley 2004 Daniel C Applications of Statistics New York Wiley 1976 Daniel W W Biostatistics a foundation for analysis in the health sciences 10 ed New York Wiley 2013 Dawson B Trapp R G Bioestatística básica e clínica 3 ed Rio de Janeiro McGraw 1994 Dean A Voss D Design and analysis of experiments New York Springer 1999 Elston R C Johnson W D Essentials of biostatistics Philadelphia FA Davis Company 1994 Freund J E E Smith R M Statistics a first course 4 ed Englewood Cliffs Prentice Hall 1986 Glantz S A Primer of biostatistics 7 ed New York McGraw 2011 Johnson R E Tsui K W Statistical reasoning and methods New York Wiley 1998 Lohr S L Sampling Design and analysis 2 ed Pacific Grove Brooks 2010 Matthews D E Farewell V Using and understanding medical statistics 4 ed New York Karger 2007 Minium E W Clarke R C Coladarci T Elements of Statistical Reasoning 2 ed New York Wiley 1999 Motulsky H Intuitive Biostatistics New York Oxford Press 1995 Ott L Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 Schork M A Remington R D Statistics with applications to the biological and health sciences 3 ed New Jersey Prentice Hall 2000 Vieira S Elementos de Estatística 5 ed São Paulo Atlas 2012 Vieira S Bioestatística Tópicos Avançados 2 ed Rio de Janeiro CampusElsevier 2008 5ª tiragem Vieira S E Hossne W S Metodologia científica para a área de saúde 2 ed São Paulo Rio de Janeiro Elsevier 2015 Vieira S Análise de variância São Paulo Atlas 2006 Vieira S Hossne W S Experimentação com seres humanos 3 ed São Paulo Moderna 1988 Zar J H Biostatistical analysis 5 ed New Jersey Prentice Hall 2010 Índice remissivo A Ajuste de regressão não linear 85 Amostra 91 casual simples 93 estratificada 94 não probabilística ou de conveniência 97 por conglomerados 95 por quotas 96 probabilística 93 semiprobabilística 95 sistemática 95 tendenciosa 99 Amplitude 43 Análise combinatória 199 Apuração de dados 2 Áreas sob a curva normal 108 Avaliação das técnicas de amostragem 97 C Cabeçalho tabela 4 Cálculo da razão de chances 170 da variância 47 das probabilidades sob a distribuição normal 111 de probabilidade 182 do coeficiente de correlação 63 do intervalo de confiança para uma média 121 do número de classes 11 dos coeficientes de regressão 78 Caracterização da distribuição binomial 197 Caudas da curva 106 Censo 92 Chances 169 Classe modal 35 Coeficientes angular da reta 77 de correlação 63 de correlação de Pearson 63 de determinação 81 82 de regressão cálculo dos 78 de variação 52 de Yule 160 fi 160 gama 160 linear da reta 76 Colunas tabela 4 Comparação de duas médias 139 Condição de independência 187 Confiança 122 Conglomerados 95 Construção de tabelas 3 Correção de continuidade 172 Correlação de Pearson coeficiente de 83 forte 60 fraca 60 negativa 61 nula 60 positiva 61 D Dados 23 apuração de 2 contínuos 9 discrepantes 34 discretos 8 9 estatístico 1 numéricos apresentação de 4 87 pareados 140 qualitativos 19 quantitativos 8 24 Desfecho 66 Desvio médio 48 Desvio padrão 47 51 Diagrama de caixa Box plot 47 de dispersão 59 de linhas 24 Dispersão dos dados em relação à média 53 relativa 53 Distância interquartílica 46 Distribuição binomial 195 197 198 das médias das amostras 120 de frequências 5 8 9 31 de Gauss 104 de probabilidades 194 198 teórica 103 Distribuição normal 103 cálculo das probabilidades 111 características 104 probabilidades associadas à 106 reduzida ou padronizada 107 usos da 112 E Ensaio clínico 161 com dados pareados 140 Equação da reta 76 Erros 130 definindo os 130 padrão da média 117 119 tipo I 130 Escolha da variável explanatória 80 Espaço amostral 179 Estatística 1 91 Estimativas da média por intervalo 123 da média por ponto 123 da variável resposta 79 de risco 169 por ponto 117 Estudo prospectivo 164 retrospectivo 166 Eventos 179 dependentes 186 impossíveis 181 independentes 185 não mutuamente exclusivos 184 Extração de raiz quadrada 86 Extrapolação 79 Extremos de classe 10 F Falácia 82 Fator 66 de risco 168 Frequência relativa 6 183 G Gerador de números aleatórios 93 Gráfico de linhas 66 de série temporal 66 de barras 19 de pontos 25 de setores 22 Grau de associação 160 de correlação linear 63 de dispersão das médias das amostras 118 de liberdade 49 122 H Hipóteses 128 alternativa 129 da nulidade 129 Histograma 25 I Inferência 117 127 estatística 130 Intervalos de classe 10 de confiança 117 interpretação dos 124 Inversão 86 L Levantamento de dados 1 Limites dos intervalos de classe 10 Logaritmo neperiano da velocidade 86 M Margens de erro 91 121 Máximo 43 Média aritmética 30 da amostra 117 da população 117 118 dos desvios 48 na distribuição binomial 199 Mediana 33 Medidas de associação 160 de dispersão 43 de tendência central 29 de variabilidade 43 Métodos de amostragem 93 Mínimo 43 Moda 35 N Nível de confiança 122 de significância 122 131 Notação de somatório 30 Número de classes 11 P pvalor 133 Parâmetro 91 Polígonos de frequências 26 Populaçãoões 91 alvo 91 configurada 91 independentes 143 Prevalência 171 Probabilidade 179 cálculo de 111 condicional 186 definições de 181 182 distribuição de 194 na distribuição normal reduzida 107 na distribuição normal 106 subjetiva 183 Proporção 171 Q Qualidade de uma estimativa 98 Quartil 44 R Razãoões de chances 168 169 para o uso de amostras 92 Regra do e 185 do ou 183 empírica 107 Regressão 75 linear simples 76 87 não linear 83 Relaçãoões determinísticas 81 linear 75 probabilísticas 81 Representatividade 99 Reta de regressão 76 Risco relativo 168 S Símbolos matemáticos 29 Soma de eventos mutuamente exclusivos 183 de eventos não mutuamente exclusivos 184 de quadrados dos desvios 48 de variáveis aleatórias independentes 105 Somatório notação de 30 T Tabelas de distribuição de frequências 5 31 dados quantitativos 8 variância de dados agrupados 50 de contingência 7 157 Tamanho da amostra 63 98 Tendência 99 central medidas de 29 Teorema da multiplicação 185 da soma 183 do limite central 105 106 Teoria das probabilidades 179 Teste bilateral 129 de hipóteses 134 de uma proporção 171 dos grupos com base na distribuição normal 165 167 estatístico 63 127 128 158 171 F 144 t 132 na comparação de grupos independentes 143 nos estudos com dados pareados 139 para comparar médias 139 145 para uma amostra 127 unilateral 129 Z nos ensaios clínicos 163 χ2 nos ensaios clínicos 162 nos estudos prospectivos 164 nos estudos retrospectivos 166 para a associação de duas variáveis 157 para comparar dois grupos em ensaios clínicos 161 Tomada de decisão em condições de incerteza 127 Transformação dos dados 84 logarítmica 86 V Valor científico 93 discrepante 44 máximo 9 mínimo 9 Variabilidade 43 das médias das amostras 117 Variação conjunta das variáveis 60 Variâncias 48 da média 118 de dados agrupados 50 na distribuição binomial 199 desiguais 147 dos grupos 143 iguais 145 Variável 1 aleatória 103 193 aleatória binária 193 aleatória binomial 194 explanatória 66 80 resposta 66 Z 108 BIOESTATÍSTICA Bioestatística Vieira Sonia 9788535289824 308 páginas Compre agora e leia O livro Bioestatística Tópicos Avançados é mais uma obra indispensável de Sonia Vieira que leva o leitor a dominar os conceitos progressivamente rever as próprias ideias e aperfeiçoar a aprendizagem sempre de modo agradável A competência e a capacidade da autora de transmitir ideias ficam demonstradas neste livro pela disposição dos temas pela sequência das ideias pelo didatismo sem prejuízo da profundidade na escolha dos exemplos e dos exercícios Longe da aridez que se atribui sem razão aliás à Bioestatística esta obra é capaz de atingir tanto o iniciante como o expert na área E este livro como os outros da autora caracteriza se pela precisão de linguagem como convém ao cientista elegância de forma como convém ao professor e conteúdo instigante como convém ao pesquisador O livro Bioestatística Tópicos Avançados explica como interpretar testes de hipóteses e como interpretar os intervalos de confiança Apresenta os testes não paramétricos muito usados em artigos da área de saúde E é dada não apenas a maneira de proceder a tais testes mas também a lógica deles A análise e a interpretação de dados apresentados nas tabelas de contingência são tratadas de maneira clara e didática O livro apresenta ainda coeficientes de correlação coeficientes de associação e coeficiente de concordância e trata a análise de exames para diagnóstico É portanto leitura obrigatória para quem se inicia em pesquisa para quem já é pesquisador e para quem lê resultados das pesquisas E mais importante essa obrigação se revela um prazer intelectual pois é uma dessas publicações cuja leitura desperta ao final a ansiedade agradável da espera por outro livro da autoraEste livro deve ser visto como complemento de outro de nome Introdução à Bioestatística da mesma autora Então tanto os estudantes que se iniciam em Estatística como aqueles que já se profissionalizaram na área verão que este livro é útil como texto e como material de referência Escrito para não estatísticos que já tenham tido algum curso dessa matéria é didático fácil de ler e explora o uso efetivo de técnicas estatísticas na solução de problemas usando exemplos publicados na área de saúde em geral mas especialmente em Medicina e em Odontologia O livro reflete os muitos anos de ensino e assessoria da autora na área de Estatística Os numerosos exemplos do texto fazem o estudante trabalhar com dados retirados de uma grande variedade de situações da vida real Mas o livro busca desenvolver a capacidade de julgamento e não apenas ensinar o aluno a aplicar testes mecanicamente Para isso explica a teoria depois ensina a resolver um problema e apresenta vários exemplos No final de cada capítulo são dados exercícios todos com respostas De início o livro trata os muitos tipos de dados que podem ser coletados na área da saúde Explica como interpretar testes de hipóteses e como interpretar os intervalos de confiança Depois apresenta as tabelas de contingência e os diversos testes envolvidos na análise e interpretação de tais dados Explica então os testes não paramétricos atualmente muito usados em artigos especializados Ainda apresenta coeficientes de correlação coeficientes de associação e coeficiente de concordância e trata a análise de exames para diagnóstico Compre agora e leia GUYTON HALL TRATADO DE FISIOLOGIA MÉDICA TRADUÇÃO DA 13ª EDIÇÃO JOHN E HALL Guyton E Hall Tratado De Fisiologia Médica Hall John E 9788535285543 1176 páginas Compre agora e leia A 13ª edição do Guyton Hall Tratado de Fisiologia Médica mantém a longa tradição deste bestseller como o melhor livrotexto de Fisiologia Médica do mundo Diferentemente de outros livros este guia claro e de fácil compreensão tem voz autoral única e consistente e ressalta o conteúdo mais relevante para os estudantes clínicos e préclínicos O texto detalhado porém esclarecedor é complementado por ilustrações didáticas que resumem conceitoschave em fisiologia e fisiopatologia O texto com fonte maior enfatiza a informação essencial sobre como o corpo deve manter a homeostasia de modo a permanecer saudável ao mesmo tempo em que as informações de apoio e os exemplos são detalhados com tamanho de fonte menor e destacados em lilás As figuras e tabelas de resumo transmitem de maneira facilitada os processos chave apresentados no texto Contém a nova tabela de referência rápida de valores laboratoriais padrão no final do livro Acréscimo do número de figuras correlações clínicas e mecanismos moleculares e celulares importantes para a medicina clínica Inclui o conteúdo online em português do Student Consult que oferece uma experiência digital aprimorada banco de imagens referências perguntas e respostas e animações Junto com a nova edição da consagrada referência mundial da fisiologia Guyton Hall você também tem acesso à forma mais inovadora simples visual e objetiva de aprender fisiologia o Homem Virtual a maneira inteligente de estudar fisiologia em 3D Compre agora e leia TRATADO DE GINECOLOGIA FEBRASGO Editores Édgar Eduardo Ferreira e Matheus Felipe Silva de Sá Autores Angélico Lopes da Silva Filho Leandro de MeloPinto Reginaldo Brasilia Machado Jorge Pedrosa Tratado de ginecologia Febrasgo Fernandes César Eduardo 9788535292145 1024 páginas Compre agora e leia Obra referência para as provas da especialidade certificação e recertificação na área de Ginecologia e Obstetrícia Chancela Febrasgo Obra referência para as provas da especialidade Compre agora e leia TRATADO DE OBSTETRICIA FEBRASGO Editores Édgar Eduardo Ferreira e Matheus Felipe Silva de Sá Colaboradores Camila Maria Lima Eduardo Cordas Dorna Barros de Moura Tavares Tratado de obstetrícia Febrasgo 9788535292213 1024 páginas Compre agora e leia Domine o conteúdo da ginecologia e obstetricia e passe nas provas da sociedade com o novo tratado da Febrasgo um texto de referência para esta importante área Chancela Febrasgo Referência para as provas da especialidade certificação e recertificação Compre agora e leia Miller Anestesia Perguntas e Respostas Lorainne M Sdrales Ronald D Miller TRADUÇÃO DA 3ª EDIÇÃO Miller Anestesia Perguntas e Respostas Sdrales Lorraine M 9788535291537 544 páginas Compre agora e leia Millers Anesthesia Review é um guia de estudo que permite avaliar seus conhecimentos para se preparar para a prova de título possui mais de 3800 perguntas e respostas comentadas sobre os diversos temas Aborda de diversas formas a distribuição da anestesia em vários contextos de acordo com o estado do paciente da doença praticamente em quase todos os capítulos os autores do livro Bases da Anestesia são os mesmos para o perguntas e respostas possui mais de 3800 perguntas e respostas comentadas sobre os diversos temas Serve para facilitar a aprendizagem e a retenção de conceitos fundamentais de anestesia que são necessários para uma sólida base de conhecimento e competência clínica Compre agora e leia

Envie sua pergunta para a IA e receba a resposta na hora

Recomendado para você

Exercícios Resolvidos de Bioestatística I - Probabilidade e Distribuições

10

Exercícios Resolvidos de Bioestatística I - Probabilidade e Distribuições

Bioestatística

UFRA

Avaliacao Bioestatistica II - Teste Qui-Quadrado e Correlacao - Ecologia e Acidentes Ofidicos

3

Avaliacao Bioestatistica II - Teste Qui-Quadrado e Correlacao - Ecologia e Acidentes Ofidicos

Bioestatística

UFRA

Tutorial Teste T Teste Z Correlacao Regressao e Qui-Quadrado - Guia Completo com Exemplos

9

Tutorial Teste T Teste Z Correlacao Regressao e Qui-Quadrado - Guia Completo com Exemplos

Bioestatística

UFRA

Exercicios Resolvidos Probabilidade Estatistica - Lista Completa

9

Exercicios Resolvidos Probabilidade Estatistica - Lista Completa

Bioestatística

UFRA

Dados de Germinação e Crescimento Feijão Preto e Carioca - Experimento

2

Dados de Germinação e Crescimento Feijão Preto e Carioca - Experimento

Bioestatística

UFRA

Trabalho de Estatística - Análise de Germinação e Crescimento de Sementes

6

Trabalho de Estatística - Análise de Germinação e Crescimento de Sementes

Bioestatística

UFRA

Exercícios Testes T-2022 2

13

Exercícios Testes T-2022 2

Bioestatística

UFPE

Texto de pré-visualização

Introdução à Bioestatística 5ª Edição Introdução à Bioestatística 5ª EDIÇÃO Sonia Vieira Doutora em Estatística pela USP Livredocente em Bioestatística pela Unicamp Professora do Curso de Mestrado e Doutorado de Bioética no Centro Universitário São Camilo SP Coordenadora do Comitê de Ética em Pesquisa no Centro de Pesquisas Odontológicas São Leopoldo Mandic SP Sumário Capa Folha de rosto Copyright Prefácio Apresentação Capítulo 1 Apresentação de Dados em Tabelas 11 Dados e variáveis 12 Apuração de dados 13 Normas para a construção de tabelas 14 Exercícios resolvidos 15 Exercícios propostos Capítulo 2 Apresentação de Dados em Gráficos 21 Apresentação de dados qualitativos 22 Apresentação de dados quantitativos 23 Exercícios resolvidos 24 Exercícios propostos Capítulo 3 Medidas de Tendência Central 31 Símbolos matemáticos 32 Média aritmética 33 Mediana 34 Moda 35 Exercícios resolvidos 36 Exercícios propostos Capítulo 4 Medidas de Dispersão para uma Amostra 41 Mínimo máximo e amplitude 42 Quartil 43 Desvio padrão 44 Coeficiente de variação 45 Exercícios resolvidos 46 Exercícios propostos Capítulo 5 Noções sobre Correlação 51 Diagrama de dispersão 52 Cálculo do coeficiente de correlação 53 Cuidados na interpretação do coeficiente de correlação 54 Gráfico de linhas 55 Exercícios resolvidos 56 Exercícios propostos Capítulo 6 Noções sobre Regressão 61 Regressão linear simples 62 Extrapolação 63 Escolha da variável explanatória 64 Coeficiente de determinação 65 Regressão não linear 66 Exercícios resolvidos 67 Exercícios propostos Capítulo 7 Noções sobre Amostragem 71 População e amostra 72 Parâmetros e estatísticas 73 Razões para o uso de amostras 74 Métodos de amostragem 75 Noções sobre o tamanho das amostras 76 A questão da representatividade 77 Exercícios resolvidos 78 Exercícios propostos Capítulo 8 Distribuição Normal 81 Variável aleatória 82 Distribuição normal características 83 Soma de variáveis aleatórias independentes 84 Probabilidades associadas à distribuição normal 85 Distribuição normal reduzida ou padronizada 86 Cálculo das probabilidades sob a distribuição normal 87 Usos da distribuição normal 88 Exercícios resolvidos 89 Exercícios propostos Capítulo 9 Intervalo de Confiança 91 Erro padrão da média 92 Distribuição das médias das amostras 93 Cálculo do intervalo de confiança para uma média 94 Outras maneiras de estabelecer intervalos 95 Cuidados na interpretação dos intervalos de confiança 96 Exercícios resolvidos 97 Exercícios propostos Capítulo 10 Teste t para uma Amostra 101 Tomada de decisão em condições de incerteza 102 Teste estatístico 103 Exercícios resolvidos 104 Exercícios propostos Capítulo 11 Teste t para a Comparação de Médias 111 Teste t nos estudos com dados pareados 112 Teste t na comparação de grupos independentes 113 Exercícios resolvidos 114 Exercícios propostos Capítulo 12 Teste χ2 para Variáveis Qualitativas 121 Teste χ2 para a associação de duas variáveis 122 Teste χ2 para comparar dois grupos em ensaios clínicos 123 Teste χ2 nos estudos prospectivos e retrospectivos 124 Risco relativo e razão de chances 125 Teste de uma proporção 126 Exercícios resolvidos 127 Exercícios propostos Apêndices Apêndice Capítulo 13 Probabilidades Apêndice Capítulo 14 Distribuição Binomial Anexos Anexos Capítulo 15 Tabelas Respostas aos Exercícios Propostos Sugestões para leitura Índice remissivo Copyright 2016 Elsevier Editora Ltda Todos os direitos reservados e protegidos pela Lei 9610 de 19021998 Nenhuma parte deste livro sem autorização prévia por escrito da editora poderá ser reproduzida ou transmitida sejam quais forem os meios empregados eletrônicos mecânicos fotográficos gravação ou quaisquer outros ISBN 9788535277166 ISBN versão eletrônica 9788535283990 Capa Olga Loureiro Editoração Eletrônica Thomson Digital Elsevier Editora Ltda Conhecimento sem Fronteiras Rua Sete de Setembro n 111 16 andar 20050006 Centro Rio de Janeiro RJ Rua Quintana n 753 8 andar 04569011 Brooklin São Paulo SP Serviço de Atendimento ao Cliente 0800 026 53 40 atendimento1elseviercom Consulte nosso catálogo completo os últimos lançamentos e os serviços exclusivos no site wwwelseviercombr Nota Como as novas pesquisas e a experiência ampliam o nosso conhecimento pode haver necessidade de alteração dos métodos de pesquisa das práticas profissionais ou do tratamento médico Tanto médicos quanto pesquisadores devem sempre basearse em sua própria experiência e conhecimento para avaliar e empregar quaisquer informações métodos substâncias ou experimentos descritos neste texto Ao utilizar qualquer informação ou método devem ser criteriosos com relação a sua própria segurança ou a segurança de outras pessoas incluindo aquelas sobre as quais tenham responsabilidade profissional Com relação a qualquer fármaco ou produto farmacêutico especificado aconselhase o leitor a cercarse da mais atual informação fornecida i a respeito dos procedimentos descritos ou ii pelo fabricante de cada produto a ser administrado de modo a certificarse sobre a dose recomendada ou a fórmula o método e a duração da administração e as contraindicações É responsabilidade do médico com base em sua experiência pessoal e no conhecimento de seus pacientes determinar as posologias e o melhor tratamento para cada paciente individualmente e adotar todas as precauções de segurança apropriadas Para todos os efeitos legais nem a Editora nem autores nem editores nem tradutores nem revisores ou colaboradores assumem qualquer responsabilidade por qualquer efeito danoso eou malefício a pessoas ou propriedades envolvendo responsabilidade negligência etc de produtos ou advindos de qualquer uso ou emprego de quaisquer métodos produtos instruções ou ideias contidos no material aqui publicado O Editor CIPBRASIL CATALOGAÇÃO NA PUBLICAÇÃO SINDICATO NACIONAL DOS EDITORES DE LIVROS RJ V713i 5 ed Vieira Sonia Introdução à bioestatística Sonia Vieira 5 ed Rio de Janeiro Elsevier 2016 il 23 cm Apêndice Inclui índice remissivo Inclui anexo ISBN 9788535277166 1 Bioestatística I Título 1525725 CDD 57015195 CDU 570871 Prefácio Profissionais das ciências da saúde pesquisadores ou não precisam saber Bioestatística Pesquisadores porque a Bioestatística é um dos fundamentos do trabalho científico e da pesquisa e não pesquisadores porque sem ela não conseguem avaliar de forma crítica o que lhes é oferecido nas publicações e nos textos A Bioestatística não só nos leva a aceitar ou rejeitar respostas a perguntas e dúvidas formuladas em nossa atividade investigativa e profissional como também e sobretudo nos faz aprender como formular adequadamente as perguntas sem o que não se chega à devida resposta Sonia Vieira nome consagrado e respeitado na área consegue nesta nova edição de Introdução à Bioestatística assim como nos demais livros de sua autoria cativar o leitor já nas primeiras frases levandoo a caminhar com satisfação na busca do conhecimento mesmo em uma área à qual se atribui sem razão aliás certa aridez O estilo leve mas profundo sóbrio e preciso elegante e instigante da autora vai fazendo o leitor engajarse e entusiasmarse pela Bioestatística Professor ou aluno iniciante ou veterano pesquisador ou não profissional da saúde e de campos afins encontram neste livro condições para mais bem ensinar e para mais bem aprender Isso será feito com satisfação e com o sentimento de estar adquirindo mais saber e mais sabedoria William Saad Hossne Professor Emérito da Faculdade de Medicina de Botucatu Unesp Coordenador do Programa de Pósgraduação Bioética do Centro Universitário São Camilo Fundador e Expresidente da Sociedade Brasileira de Bioética Exdiretor Científico da FAPESP 19641968 e 19751979 Exreitor da Universidade Federal de São Carlos Apresentação O interesse de profissionais e alunos das áreas de saúde em Bioestatística se explica pelo uso significativo das técnicas estatísticas em pesquisa científica Mas Bioestatística é uma ciência complexa que não se aprende com uma simples busca de alguns poucos termos na Internet Então é difícil aprender Estatística Sim e não Aprender a fazer cálculos estatísticos usando programas de computador não é difícil embora exija tempo interesse e atenção Mas a leitura a condução e a avaliação de uma pesquisa dependem em boa parte do conhecimento do pesquisador sobre as potencialidades e as limitações das técnicas estatísticas utilizadas E entre o cálculo e a interpretação do resultado há um caminho a percorrer Este livro foi escrito e reescrito muitas vezes na tentativa de facilitar a aprendizagem Os conceitos são transmitidos mais pela intuição do que pela demonstração sempre enfatizando as indicações e as restrições das técnicas estatísticas Os exemplos na área da saúde em grande quantidade podem ser acompanhados passo a passo com pouco trabalho de cálculo feito manualmente ou com o auxílio de calculadoras É verdade que o uso dos computadores já se generalizou mas quem se inicia no estudo da Estatística deve ver a fórmula para assim entender o conceito Não há como ter completa segurança na discussão de uma média aritmética por exemplo sem nunca ter usado papel e lápis para fazer o cálculo A leitura do texto não demanda conhecimentos de Matemática além daqueles que são exigidos em exames vestibulares De qualquer modo as seções que envolvem maior gosto e aptidão para a Matemática foram assinaladas com asterisco Tais seções podem ser evitadas sem prejuízo do entendimento das subsequentes Assim sem despender muito tempo com cálculos e demonstrações o estudante adquire neste livro conhecimentos suficientes para se tornar usuário competente das técnicas estatísticas mais comuns Uma consequência importante de se aprender Estatística mais importante do que possa parecer à primeira vista é a familiarização com o jargão próprio da área Alguns termos do vocabulário comum têm significado técnico e específico quando usados em Estatística É claro que o conhecimento do significado comum ajuda mas pode conduzir a uma interpretação equivocada quando substitui o significado técnico A quinta edição de Introdução à Bioestatística só foi possível porque o livro encontrou aceitação no meio acadêmico Agradecemos pois a todos aqueles que prestigiaram nosso trabalho mas principalmente aos alunos que nos ensinaram a ensinar Importante também é o fato de este livro ter contado com a competente e altamente especializada revisão de Martha Maria Mischan e William Saad Hossne Ronaldo Wada fez alguns dos vários gráficos e Márcio Vieira Hoffmann fez uma leitura crítica dos originais Também agradecemos à Editora Elsevier pela confiança em nosso trabalho A autora CAPÍTULO 1 Apresentação de Dados em Tabelas Grande parte das pessoas que conhecemos já ouviu falar de prévias eleitorais de censos ou de pesquisas de opinião A maioria das pessoas que conhecemos já respondeu a perguntas sobre a qualidade dos serviços de um bar ou de uma lanchonete já assistiu no rádio ou na televisão a programas em que pedem para o ouvinte ou telespectador votar em um cantor ou em uma música ou já opinou sobre determinado assunto por telefone ou por email O uso tão difundido de levantamento de dados que no Brasil chamamos popularmente de pesquisa faz pensar que esse trabalho é fácil Por conta disso ao ler um relatório de pesquisa no jornal da cidade muita gente se considera capaz de fazer o mesmo ou até melhor pois entende que para levantar dados basta fazer perguntas e depois contar as respostas Mas não é bem assim Um bom levantamento de dados exige conhecimentos de Estatística Estatística é a ciência que fornece os princípios e os métodos para coleta organização resumo análise e interpretação de informações Os estatísticos trabalham com informações Na área de saúde interessam informações sobre eficiência de medicamentos causas de morte prevalência de doenças etc Neste capítulo vamos aprender como essas informações são organizadas para facilitar a leitura e o entendimento Mas antes é preciso saber o que são dados e o que são variáveis 11 Dados e variáveis Variável é uma condição ou característica das unidades da população As variáveis assumem valores diferentes em diferentes unidades Por exemplo se você perguntar a idade de algumas pessoas de sua família verá valores diferentes entre si embora todos se refiram à mesma variável idade Não há interesse em se levantarem constantes Assim não há interesse em se coletarem informações sobre analfabetismo entre universitários porque todos os estudantes universitários são alfabetizados Dado estatístico é toda informação coletada e registrada que se refere a uma variável Exemplo 11 Dados e variáveis Um professor de Educação Física trabalha em uma academia de ginástica e quer saber a opinião dos clientes sobre a qualidade de seus serviços A variável de interesse nesse caso é a opinião dos clientes Os dados serão obtidos quando o professor pedir aos clientes que deem uma nota aos serviços que utilizam Se for pedido que o cliente dê uma nota de zero a 5 os dados coletados poderão ser por exemplo 4 3 2 3 4 1 etc por serviço As variáveis são classificadas conforme mostra o organograma da Figura 11 em dois tipos FIGURA 11 Tipos de variáveis quantitativas ou numéricas qualitativas ou categorizadas Uma variável é qualitativa ou categorizada quando os dados são distribuídos em categorias mutuamente exclusivas como sexo masculino ou feminino tipo de sangue O A B AB cidade de nascimento se a pessoa nasceu em Niterói automaticamente fica excluída a possibilidade de ter nascido em outra cidade Uma variável é quantitativa ou numérica quando é expressa por números como idade estatura número de alunos de uma escola número de comprimidos em uma caixa As variáveis qualitativas ou categorizadas são classificadas em dois tipos Nominal Ordinal A variável é nominal quando os dados são distribuídos em categorias mutuamente exclusivas nomeadas em qualquer ordem São variáveis nominais cor de cabelos loiro castanho preto ruivo tipo de sangue O A B AB não ter ou ter determinada doença A variável é ordinal quando os dados são distribuídos em categorias mutuamente exclusivas que têm ordem natural São variáveis ordinais escolaridade primeiro grau segundo grau terceiro grau classe social A B C D E gravidade de uma doença leve moderada severa etc As variáveis quantitativas ou numéricas são classificadas em dois tipos Discreta Contínua A variável discreta só pode assumir alguns valores em dado intervalo São variáveis discretas número de filhos nenhum 1 2 3 4 5 ou mais quantidade de visitas ao médico no último ano zero 1 2 3 4 ou mais número de pessoas na fila de espera de um serviço de saúde A variável contínua assume qualquer valor em dado intervalo São variáveis contínuas peso temperatura corporal pressão sanguínea 12 Apuração de dados Dados são registrados em fichas cadernos computadores mas depois é preciso proceder à apuração Se a variável for qualitativa a apuração se resume a uma simples contagem Exemplo 12 Apuração de dados qualitativos Para obter a porcentagem de recémnascidos de cada sexo em uma maternidade um pesquisador obteve 1000 prontuários de recémnascidos e escreveu numa folha de papel Masculino Feminino Em seguida examinou os prontuários e fez um traço na linha que correspondia ao sexo do recémnascido para cada prontuário Cada quadrado cortado pela diagonal representa cinco recémnascidos O total é dado pelo número de traços em cada linha Masculino 509 Feminino 491 Quando a variável é quantitativa é preciso anotar na apuração cada valor observado Exemplo 13 Apuração de dados quantitativos Para apurar peso ao nascer1 o pesquisador deve anotar o número do prontuário e o respectivo peso numa folha de papel O número do prontuário escrito ao lado do peso ao nascer facilita a posterior verificação da apuração N do prontuário Peso ao nascer 10525 3250 10526 2010 10624 2208 1A apuração de peso ao nascer pode ser feita por sexo se o interesse consistir em comparar peso ao nascer de meninos e de meninas Hoje muitos profissionais registram dados diretamente em computador Grandes instituições e empresas como IBGE ou Banco do Brasil já usam computadores na coleta de dados São construídas as chamadas bases de dados que armazenam dados de maneira a facilitar a busca de informações O registro de dados é feito de maneira mais organizada As bases de dados podem ser manuseadas por meio de planilhas eletrônicas o que traz maior eficiência às pesquisas Mas não tenha dúvida as modernas bases de dados foram construídas a partir de ideias simples papel e lápis como aquelas que acabamos de apresentar De qualquer forma os dados coletados precisam ser organizados em tabelas Exemplo 14 Registro de dados Em uma maternidade é comum que os dados sobre recémnascidos e suas mães sejam registrados em computador não somente para a prestação de cuidados à parturiente e ao nascituro mas também para que sejam facilmente usados pela administração e eventualmente em trabalhos acadêmicos Nem tudo porém já está pronto Se uma enfermeira quiser estudar o efeito do tabagismo da mãe sobre o peso ao nascer talvez precise coletar dados sobre tempo do hábito número de cigarros fumados por dia se manteve o hábito durante a gestação em associação com outros hábitos nocivos à saúde como por exemplo alcoolismo 13 Normas para a construção de tabelas Os dados são apresentados em tabelas colocadas perto do ponto do texto em que são mencionadas pela primeira vez As tabelas devem conter os seguintes elementos título cabeçalho indicador de linha células e moldura como mostrado no Exemplo 15 Exemplo 15 Apresentação de dados em tabela Tabela 11 População residente no Brasil segundo o sexo de acordo com o Censo Demográfico 2010 Sexo População residente Homens 93406990 Mulheres 97348809 Total 190755799 Fonte Censo Demográfico 2010 IBGE 20112 2Disponível em httpwwwibgegovbr O título explica o tipo de dado que a tabela contém Devese colocálo acima dos dados O cabeçalho especifica o conteúdo de cada coluna O indicador de linha é um conjunto de termos Cada termo descreve o conteúdo de uma linha Exemplo 16 Componentes da tabela Observe a Tabela 11 O título explica a natureza população residente e a abrangência dos dados Brasil 2010 O cabeçalho está destacado em seguida Na primeira coluna coloque a denominação da variável que é sexo enquanto na segunda coluna está o número ou frequência de pessoas de cada sexo residentes no Brasil Sexo População residente O indicador de linha é mostrado em seguida a primeira linha apresenta dados sobre homens a segunda linha dados sobre mulheres e a terceira linha o total Homens Mulheres Total A célula resulta do cruzamento de uma linha com uma coluna e deve conter um dado numérico Nenhuma célula da tabela deve ficar em branco Toda célula deve apresentar um número ou se o dado não existir colocase um traço na célula em que o dado deveria estar escrito As tabelas devem ter moldura Entendese por moldura o conjunto de traços que dão estrutura aos dados numéricos e aos termos necessários à sua compreensão Então as tabelas devem ser delimitadas no alto e embaixo por traços horizontais Esses traços podem ser mais fortes do que os traços feitos no interior da tabela as tabelas não devem ser delimitadas à direita e à esquerda por traços verticais o cabeçalho deve ser delimitado por traços horizontais é possível fazer traços verticais no interior da tabela separando as colunas são comuns os traços verticais no interior do cabeçalho para separar as especificações As tabelas ainda podem conter fonte e notas A fonte identifica o responsável pessoa física ou jurídica pelos dados Deve ser colocada na primeira linha do rodapé da tabela e precedida pela palavra Fonte Não se indica a fonte nos casos em que os dados foram obtidos pelo pesquisador ou pelo grupo de pesquisadores ou pela instituição que apresenta a tabela Veja o Exemplo Exemplo 17 Fonte dos dados Observe a Tabela 11 Os dados apresentados nessa tabela são de responsabilidade do Instituto Brasileiro de Geografia e Estatística IBGE conforme explica a fonte As notas são informações de natureza geral que servem para esclarecer o conteúdo das tabelas ou para explicar o método utilizado no levantamento dos dados São colocadas no rodapé da tabela logo após a fonte se houver e devem ser precedidas pela palavra Nota Veja o Exemplo 18 Exemplo 18 Tabela com fonte e nota Tabela 12 Número de internações hospitalares de mulheres pelo Sistema Único de Saúde SUS Brasil 2005 Grupo de doenças Número Gravidez parto e puerpério 2640438 Doenças do aparelho respiratório 736012 Doenças do aparelho circulatório 612415 Doenças do aparelho geniturinário 507295 Doenças infecciosas e parasitárias 480165 Doenças do aparelho digestivo 452894 Transtornos mentais e comportamentais 105354 Neoplasias 355570 Causas externas 233787 Demais causas 801123 Total 6925053 Nota Suprimidos os casos com idade ou local de residência ignorados Fonte Ministério da SaúdeSEDatasus Sistema de Informações Hospitalares do SUS SIHSUS 131 Tabelas de distribuição de frequências para dados qualitativos Quando observamos dados qualitativos classificamos cada observação em determinada categoria Depois contamos o número de observações em cada categoria A ideia seguinte é resumir as informações na forma de uma tabela que mostre essas contagens frequências por categoria Temos então uma tabela de distribuição de frequências Exemplo 19 Tabela de distribuição de frequências para dados ordinais Pesquisa realizada pelo Datafolha entre os dias 15 e 16 de julho de 2014 em 233 municípios brasileiros para saber a opinião das pessoas a margem de erro é de 2 para mais ou para menos sobre o trabalho do técnico Luiz Felipe Scolari na Seleção Brasileira de Futebol em 2014 mostrou que dos 5377 entrevistados 1075 consideravam o técnico ótimo ou bom 1506 julgavam o técnico regular e 2635 o consideravam péssimo 161 não tinham opinião ou não quiseram responder A Tabela 13 apresenta as respostas dadas pelos entrevistados primeira coluna e as respectivas frequências dessas respostas segunda coluna Tabela 13 Opinião dos brasileiros sobre o técnico de futebol Resposta Frequência Ótimo ou bom 1075 Regular 1506 Péssimo 2635 Não sabe não respondeu 161 Total 5377 Fonte dimassantoscombrpesquisaapontatiteparafuturotecnicodaselecao Acesso em Setembro de 2014 As tabelas de distribuição de frequências podem apresentar além das frequências a proporção frequência relativa de unidades que recaem em cada categoria Para obter a proporção frequência relativa de unidades de determinada categoria calcule As frequências relativas são muitas vezes expressas em percentuais porque as pessoas entendem mais facilmente proporções dadas em porcentagens Para obter o percentual de determinada categoria multiplique a frequência relativa por 100 Convém exibir sempre o total tamanho da amostra que é o indicador da credibilidade da informação3 Exemplo 110 Tabela de distribuição de frequências com frequências relativas A Tabela 14 apresenta na terceira coluna as frequências relativas para os dados contidos na Tabela 13 Tabela 14 Opinião dos brasileiros sobre o técnico de futebol Fonte dimassantoscombrpesquisaapontatiteparafuturotecnicodaselecao Acesso em setembro de 2014 132 Tabelas de contingência Muitas vezes os elementos da amostra ou da população são classificados de acordo com duas variáveis qualitativas Então os dados devem ser apresentados em tabelas de contingência que são tabelas de dupla entrada sendo cada entrada relativa a uma das variáveis Exemplo 111 Tabela de contingência Diabetes mellitus durante a gravidez aumenta o risco de complicações perinatais Para comparar a redução obtida sob novo tratamento com a redução obtida sob tratamento de rotina em diferentes raças ou grupos étnicos foi conduzido um ensaio clínico randomizado4 Os dados sobre raça e etnia das voluntárias bem como o grupo de estudo ao qual foram designadas estão na Tabela 15 Tabela 15 Raça ou etnia das voluntárias segundo o grupo Fonte Crowther CA et alii Effect of Treatment of Gestational Diabetes Mellitus on Pregnancy Outcomes N Engl J Med 2005 35224772486 June 16 2005 4Ver Vieira S e Hossne WS Metodologia científica para a área de saúde 2 ed Rio de Janeiro Elsevier 2015 As tabelas de contingência devem apresentar os totais porque não é possível confiar nos resultados obtidos de amostras muito pequenas Também podem expor percentuais5 Exemplo 112 Tabela de contingência com totais A Tabela 16 reapresenta a Tabela 15 agora com os totais Fica fácil ver que havia mais brancas no estudo e mais voluntárias no tratamento de rotina Tabela 16 Raça ou etnia das voluntárias segundo o grupo Fonte Crowther CA et alii Effect of Treatment of Gestational Diabetes Mellitus on Pregnancy Outcomes N Engl J Med 2005 352 24772486 June 16 2005 133 Apresentação de dados quantitativos Os dados quantitativos são apresentados na ordem em que foram coletados Os pesquisadores podem identificar a unidade que forneceu o dado por um número No caso de pesquisas em seres humanos alguns pesquisadores identificam os participantes pelas iniciais de seus nomes e apresentam os dados obedecendo à ordem alfabética das iniciais Exemplo 113 Apresentação de dados quantitativos Foram coletados dados de 48 pacientes que participaram de uma pesquisa A Tabela 17 apresenta os dados de seis deles Tabela 17 Idade peso altura pressão arterial sistólica pressão arterial diastólica em seis pacientes Nota Não são apresentados todos os dados porque isso tornaria a tabela muito extensa e a finalidade aqui é mostrar como se faz uma tabela Fonte Sousa MG Determinantes das propriedades funcionais e estruturais das grandes artérias e as relações com lesão de órgãosalvo em hipertensos estágio 3 Tese doutorado Faculdade de Medicina da USP 2012 134 Tabelas de distribuição de frequências para dados quantitativos Dados quantitativos podem ser apresentados em tabelas de distribuição de frequências como mostrado no Exemplo 114 Se os dados são discretos para organizar a tabela de distribuição de frequências escreva os dados em ordem crescente conte quantas vezes cada valor se repete organize a tabela apresentando os valores numéricos em ordem natural Exemplo 114 Tabela de distribuição de frequências para dados discretos É mais fácil entender os dados da Tabela 18 se forem apresentados como mostra a Tabela 19 Tabela 18 Número de faltas de trinta funcionários ao trabalho Clínica ABC segundo semestre de 2014 Tabela 19 Número de faltas de trinta funcionários ao trabalho Clínica ABC segundo semestre de 2014 N de faltas Frequência Porcentagem 0 9 300 1 10 333 2 5 167 3 3 100 4 2 67 5 0 00 6 1 33 Total 30 1000 Tabelas com grande número de dados contínuos não dão ao leitor visão rápida e global do fenômeno É difícil dizer como os valores se distribuem Por essa razão dados contínuos desde que em grande número são apresentados em tabelas de distribuição de frequências Mas veja os dados apresentados no Exemplo 115 Exemplo 115 Apresentação de dados contínuos Os dados apresentados na Tabela 110 não dão visão rápida sobre peso ao nascer Tabela 110 Peso ao nascer em quilogramas de nascidos vivos Para construir uma tabela de distribuição de frequências com dados contínuos ache o valor máximo e o valor mínimo do conjunto de dados calcule a amplitude que é a diferença entre o valor máximo e o valor mínimo divida a amplitude dos dados pelo número de faixas que pretende organizar no caso do Exemplo 116 as faixas são de peso Essas faixas recebem o nome de classes o resultado da divisão é o intervalo de classe Sempre é melhor arredondar o valor obtido para o intervalo de classes para um valor mais alto o que facilita o trabalho organize as classes de maneira que a primeira contenha o menor valor observado Exemplo 116 Construção de tabela de distribuição de frequências dados contínuos Observe os dados apresentados na Tabela 110 O menor valor é 1570 kg e o maior valor 4600 kg A amplitude dos dados é Para organizar sete classes calcule Arredonde o valor calculado para intervalo de classe que resultou em 0433 para 0500 e construa a primeira classe que será de 15 kg a 20 kg essa classe contém o menor valor em seguida construa a segunda classe que será de 20 kg a 25 kg e assim por diante como mostra o esquema a seguir Na classe de 15 kg até menos de 20 kg são colocados desde nascidos com 15 kg até os que nasceram com 1999 kg na classe de 20 kg até menos de 25 kg são colocados desde nascidos com 20 kg até os que nasceram com 2499 kg e assim por diante Logo cada classe cobre um intervalo de 05 kg É mais fácil trabalhar com intervalos de classe iguais Denominamse extremos de classe os limites dos intervalos de classe Deve ficar claro na tabela de distribuição de frequências se os valores iguais aos extremos estão ou não incluídos na classe Veja a notação usada no Exemplo 116 A primeira classe é Isso significa que o intervalo é fechado à esquerda ou seja pertencem à classe os valores iguais ao extremo inferior dessa classe por exemplo 15 na primeira classe Também significa que o intervalo é aberto à direita ou seja não pertencem à classe os valores iguais ao extremo superior por exemplo o valor 20 não pertence à primeira classe Exemplo 117 Tabela de distribuição de frequências para dados contínuos Os dados de peso ao nascer de nascidos vivos foram organizados em uma tabela de distribuição de frequências Veja a Tabela 111 Tabela 111 Distribuição de frequências para peso ao nascer de nascidos vivos em quilogramas Classe Frequência 15 20 3 20 25 16 25 30 31 30 35 34 35 40 11 40 45 4 45 50 1 É importante lembrar neste momento que para indicar se extremos de classe estão ou não incluídos em determinada classe é possível adotar outros métodos Aliás a Fundação Instituto Brasileiro de Geografia e Estatística IBGE usa notação diferente Para dados de idade por exemplo escreve De 0 até 4 anos De 5 até 9 anos De 10 até 14 anos e assim por diante A classe De 0 até 4 anos inclui desde indivíduos que acabaram de nascer até aqueles que estão na véspera de completar 5 anos O número de classes deve ser escolhido pelo pesquisador em função do que pretende mostrar Em geral convém estabelecer de 5 a 20 classes Se o número de classes for demasiadamente pequeno por exemplo 3 perdese muita informação Se o número de classes for grande por exemplo 30 têmse pormenores desnecessários Não existe um número ideal de classes para um conjunto de dados embora existam até fórmulas para estabelecer quantas classes devem ser construídas Os resultados obtidos por meio de fórmulas podem servir como referência mas não devem ser entendidos como obrigatórios Para usar uma dessas fórmulas faça n indicar o número de dados O número de classes será um inteiro próximo de k obtido pela fórmula ou então por esta segunda fórmula Exemplo 118 Cálculo do número de classes Reveja a Tabela 110 Com n 100 aplicando a primeira fórmula temse que Aplicando a segunda fórmula obtémse Para obter o número de classes apresentadas na Tabela 111 aplicouse a segunda fórmula e por isso foram construídas sete classes Às vezes as classes de uma distribuição de frequências já estão definidas por tabelas que informam por exemplo os intervalos de normalidade Essa situação é comum nas ciências biológicas Nesses casos a distribuição de frequências deve obedecer às definições dos especialistas Exemplo 119 Tabela de distribuição de frequências para dados contínuos com classes de tamanhos definidos por especialistas É difícil dizer observando os dados apresentados na Tabela 112 o número de obesos por exemplo Fica mais fácil observar os dados mostrados na Tabela 113 Tabela 112 IMC de hipertensos estágio 3 com idade média de 536 anos Fonte Sousa MG Determinantes das propriedades funcionais e estruturais das grandes artérias e as relações com lesão de órgãosalvo em hipertensos estágio 3 Tese doutorado Faculdade de Medicina da USP 2012 Tabela 113 Distribuição dos pacientes hipertensos classificados segundo o IMC IMC Frequência Porcentagem Abaixo do peso 1 21 Normal 4 83 Acima do peso 20 417 Obesidade I 14 292 Obesidade II 7 146 Obesidade III 2 42 Total 48 1000 Numa distribuição de frequências o extremo inferior da primeira classe o extremo superior da última classe ou ambos podem não estar definidos Além disso os intervalos de classe podem ser diferentes Exemplo 120 Tabela de distribuição de frequências para dados contínuos com classes de tamanhos diferentes e extremo superior da última classe não definido Para dar uma ideia geral sobre pressão sanguínea sistólica de mulheres com 30 anos um pesquisador apresentou não os valores observados mas o número de mulheres por faixas de pressão Veja a Tabela 114 que também é um exemplo no qual o extremo superior da última classe não está definido Tabela 114 Distribuição de frequências para pressão sanguínea sistólica em milímetros de mercúrio de mulheres com 30 anos Classe Frequência 90 100 6 100 105 11 105 110 12 110 115 17 115 120 18 120 125 11 125 130 9 130 135 6 135 140 4 140 150 4 150 160 1 160 e mais 1 As tabelas de distribuição de frequências mostram a distribuição da variável mas perdem em exatidão Por exemplo a Tabela 114 revela que seis mulheres apresentaram pressão sanguínea sistólica entre 90 e 100 mas não dá o valor exato para cada uma delas 14 Exercícios resolvidos 141 Converta as seguintes proporções em porcentagens 009 0955 033 0017 Multiplique por 100 para obter 9 955 3317 142 Converta as seguintes porcentagens em proporções 355 531504657 Basta dividir por 100 para obter 0355 0531 050 04657 143 Para estudar a distribuição dos erros cometidos por alunos nas radiografias intrabucais foram obtidos os dados que estão na Tabela 115 As frequências relativas e o total estão apresentados na Tabela 116 Tabela 115 Erros técnicos em radiografias intrabucais Erros Frequência Ângulo horizontal Exposição insuficiente Resultado amarelado Excesso de exposição Corte do dente Resultado manchado Corte cônico Outros erros 459 355 158 141 130 63 44 46 Fonte Carvalho PL et al Erros técnicos nas radiografias intrabucais realizadas por alunos de graduação RGO Porto Alegre v 57 n2 p 151155 abrjun 2009 Tabela 116 Erros técnicos em radiografias intrabucais Erros Frequência Porcentagem Ângulo horizontal 459 329 Exposição insuficiente 355 254 Resultado amarelado 158 113 Excesso de exposição 141 101 Corte do dente 130 93 Resultado amarelado 63 45 Corte cônico 44 32 Outros erros 46 33 Total 1396 1000 144 De acordo com o Sistema Nacional de Informações TóxicoFarmacológicas Sinitox em 2005 foram registrados no Brasil 23647 casos de intoxicação humana por animais peçonhentos Desse total 8208 foram atribuídos a escorpiões 4944 a serpentes 4661 a aranhas e 5834 a outros animais peçonhentos Esses dados estão apresentados na Tabela 117 Tabela 117 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal Animal Total Porcentagem Escorpião 8208 3471 Serpente 4944 2091 Aranha 4661 1971 Outros animais 5834 2467 Total 23647 10000 Fonte Sinitox 20056 145 Construa uma tabela de distribuição de frequências para apresentar os dados da Tabela 118 Tabela 118 Pressão arterial em milímetros de mercúrio de cães adultos anestesiados O número k de classes para apresentar n 49 dados pode ser obtido pela segutinte fórmula Podem ser constituídas sete classes Como o menor valor observado é 82 e o maior valor é 158 é razoável construir classes com intervalos iguais a 10 a partir de 80 O número de classes será então oito um pouco maior do que o estabelecido pela fórmula Veja a Tabela 119 Tabela 119 Distribuição da pressão arterial em milímetros de mercúrio de cães adultos anestesiados Classe Número 80 90 1 90 100 4 100 110 16 110 120 8 120 130 9 130 140 7 140 150 3 150 160 1 146 Imagine7 que você quer comparar as distribuições de frequências da mesma variável para homens e mulheres separadamente mas o número de mulheres é consideravelmente maior Você compararia as frequências ou as frequências relativas Por quê Dê um exemplo Devemse comparar em cada categoria as proporções obtidas para homens e para mulheres As frequências não são comparáveis uma vez que as amostras são de tamanhos diferentes Para entender essa informação imagine que são no total 200 mulheres e 50 homens e que para uma dada categoria a frequência seja de 4 em ambas as distribuições Isso significa 2 das mulheres 4 200 002 e 8 dos homens 450 008 uma diferença muito grande 6httpwwwsauderjgovbranimaispeconhentosestatisticashtml Disponível em 30 de maio de 2008 7Minium E W Clarke R C Coladarci T Elements of Statistical Reasoning 2 ed New York Wiley 1999 p 33 15 Exercícios propostos 151 Especifique o tipo qualitativa quantitativa nominal etc das seguintes variáveis a peso de pessoas b marcas comerciais de um mesmo analgésico mesmo princípio ativo c temperatura de pessoas d quantidade anual de chuva na cidade de São Paulo e religião f número de dentes permanentes irrompidos em uma criança g número de bebês nascidos por dia em uma maternidade h comprimento de cães 152 Faça uma tabela para mostrar que das 852 pessoas entrevistadas sobre determinado assunto 59 não tinham opinião ou não conheciam o assunto 425 eram favoráveis e as demais se mostravam contrárias 153 Complete a Tabela 120 Tabela 120 Distribuição das notas de 200 alunos Nota do aluno Frequência Frequência relativa De 9 a 10 008 De 8 a 89 36 De 65 a 79 90 De 5 a 64 30 Abaixo de 5 28 Total 200 10 154 Uma doença pode ser classificada em três estágios leve moderada severa Foram examinados vinte pacientes obtendose os seguintes dados moderado leve leve severo leve moderado moderado moderado leve leve severo leve moderado moderado leve severo moderado moderado moderado leve Com base nestes dados a determine a frequência de cada categoria b calcule a frequência relativa de cada categoria 155 Qual é o erro na distribuição de frequências dada em seguida Classe 20 30 30 40 40 50 60 70 70 e mais 156 São dados os tipos de sangue de quarenta doadores que se apresentaram no mês em um banco de sangue B A O A A A B O B A A AB O O A O O A A B A A A O O O A O A O O A O AB O O A AB B B Apresente os dados em uma tabela de distribuição de frequências 157 Dos 80 alunos que fizeram um curso de Estatística 70 receberam grau B e 5 grau C Quantos frequência alunos receberam grau A supondo que não tenha sido conferido nenhum outro grau 158 Foram avaliadas por cirurgiões dentistas com especialização em Ortodontia crianças no estágio de dentadura decídua entre 3 e 6 anos de idade Dessas crianças 615 não tinham hábitos de sucção 190 tinham o hábito de sucção do polegar 588 usavam chupeta e 618 usavam mamadeira Apresente os dados em tabela Calcule o total e as frequências relativas 159 Os pesos dos bombeiros que trabalham em determinada cidade variam entre 70 kg e 118 kg Indique os limites de dez classes nas quais os pesos dos bombeiros possam ser agrupados 1510 O número de enfermeiros em serviço varia muito em um hospital Foi feita uma distribuição de frequências com as seguintes classes 20 35 35 40 40 45 45 50 50 55 Qual é o intervalo de classes e qual é o intervalo de toda a distribuição de frequências 1511 Construa uma tabela de distribuição de frequências para apresentar os dados da Tabela 121 usando intervalos de classes iguais Em seguida faça outra tabela com os seguintes intervalos 1 dia 2 ou 3 dias de 4 a 7 dias de 8 a 14 dias mais de 14 dias Tabela 121 Tempo de internação em dias de pacientes acidentados no trabalho em um dado hospital 1512 Imagine dois conjuntos de dados A e B no primeiro conjunto n 50 e no segundo n 100 No conjunto A o valor mínimo é 24 e o valor máximo 70 no conjunto B o valor mínimo é 187 e o valor máximo 821 Construa intervalos de classe para cada conjunto 1513 Com base nos dados apresentados na Tabela 122 calcule o percentual de pacientes que abandonaram o tratamento contra tuberculose pulmonar taxa de abandono segundo a zona de moradia Tabela 122 Número de pacientes segundo o abandono do tratamento contra tuberculose pulmonar e a zona de moradia 1514 Perguntouse a cem dentistas se eles rotineiramente enfatizavam no consultório métodos de prevenção de cáries e doenças gengivais A resposta de 78 dentistas foi sim Os demais disseram não Apresente esses dados em uma tabela de distribuição de frequências e discuta os resultados Os dados mostram que os dentistas adotam a prática de prevenção 1515 Calcule as frequências relativas para os dados apresentados na Tabela 123 e comente Tabela 123 Número de óbitos por grupos de causa Brasil 2004 Notas 1 As análises devem considerar as limitações de cobertura e qualidade da informação da causa de óbito 2 Estão suprimidos os óbitos sem definição de causa Fonte Ministério da SaúdeSVS Sistema de Informações sobre Mortalidade SIM8 1516 Calcule as frequências relativas para os dados apresentados na Tabela 124 e aponte a faixa etária de maior risco Tabela 124 Pacientes portadores de carcinoma epidermoide de base de língua segundo a faixa etária em anos Faixa etária Número 30 40 10 40 50 66 50 60 119 60 70 66 70 80 24 80 e mais 5 1517 Com base nos dados apresentados na Tabela 125 calcule o percentual de órgãos aproveitados taxa de aproveitamento para cada órgão Tabela 125 Número de órgãos obtidos de doadores cadáveres Órgão Número de doadores Número de órgãos aproveitados Rim 105 210 Coração 105 45 Fígado 105 20 Pulmões 105 17 8Disponível em httptabnetdatasusgovbrCGItabcgiexeidb2006c04def Acesso em 4 mai 2008 3Não tem sentido fornecer resultados em porcentagens quando a amostra é muito pequena Por exemplo não teria sentido fornecer porcentagens se a amostra fosse constituída por cinco ou seis pessoas 5Ver o Capítulo 12 deste livro CAPÍTULO 2 Apresentação de Dados em Gráficos Gráficos ajudam a visualizar a distribuição das variáveis Neste capítulo vamos aprender como apresentar dados em gráficos seguindo as normas nacionais ditadas pela Fundação Instituto Brasileiro de Geografia e Estatística IBGE1 Todo gráfico deve apresentar título e escala O título deve ser colocado abaixo do gráfico As escalas devem crescer da esquerda para a direita e de baixo para cima As legendas explicativas devem ser colocadas de preferência à direita do gráfico 21 Apresentação de dados qualitativos 211 Gráfico de barras O gráfico de barras2 é usado para apresentar variáveis qualitativas sejam elas nominais ou ordinais Para construir um gráfico de barras desenhe o sistema de eixos cartesianos anote as categorias da variável estudada no eixo das abscissas eixo horizontal escreva as frequências ou as frequências relativas porcentagens no eixo das ordenadas eixo vertical obedecendo a uma escala desenhe barras verticais de mesma largura para representar as categorias da variável em estudo A altura de cada barra deve ser dada pela frequência ou pela frequência relativa em geral em porcentagem da categoria coloque legendas nos dois eixos e título na figura Exemplo 21 Gráfico de barras Foram entrevistadas cem pessoas que haviam sido submetidas a uma cirurgia estética reparadora Indagadas se consideravam que a cirurgia havia melhorado a aparência delas responderam como segue 66 afirmaram que sim 20 disseram que em parte 8 disseram que não e 6 não quiseram responder Os dados estão na Tabela 21 e o gráfico de barras está apresentado na Figura 21 Tabela 21 Você acha que a cirurgia melhorou sua aparência Resposta Frequência Porcentagem Sim 66 66 Em parte 20 20 Não 8 8 Sem resposta 6 6 Total 100 100 FIGURA 21 Você acha que a cirurgia melhorou sua aparência Para facilitar a leitura dos percentuais de cada categoria é possível fazer linhas auxiliares linhas de grade Exemplo 22 Gráfico de barras com grades Com os dados da Tabela 21 foi desenhado um gráfico de barras com linhas auxiliares apresentado na Figura 22 FIGURA 22 Você acha que a cirurgia melhorou sua aparência Os percentuais podem ser apresentados nas barras rótulos dos dados em diversas posições Exemplo 23 Gráfico de barras com percentuais nas barras Com os dados da Tabela 21 foi desenhado o gráfico de barras da Figura 23 com percentuais escritos acima das barras FIGURA 23 Você acha que a cirurgia melhorou sua aparência Os gráficos de barras podem ser feitos em três dimensões São então conhecidos como gráficos em 3D São agradáveis de ver mas de difícil compreensão quando apresentam muitas categorias Exemplo 24 Gráfico de barras com 3 D Com os dados da Tabela 21 foi feito o gráfico de barras em três dimensões apresentado na Figura 24 FIGURA 24 Você acha que a cirurgia melhorou sua aparência Quando o gráfico de barras é usado para apresentar variáveis ordinais devese obedecer à ordem das categorias da variável mas devem ser colocadas no final as categorias não sabe não respondeu etc Exemplo 25 Gráfico de barras para dados ordinais Veja os dados apresentados na Tabela 13 do Capítulo 1 A ordem das categorias foi respeitada e é mostrado o número de respondentes em cada categoria FIGURA 25 Opinião dos brasileiros sobre o técnico de futebol As barras do gráfico podem ser apresentadas na posição horizontal como mostra o Exemplo 26 Exemplo 26 Gráfico de barras horizontais Os dados sobre a etiologia de fraturas e corpos estranhos encontrados na face de 46 pacientes por meio de radiografias panorâmicas realizadas em um Centro de Radiologia estão na Tabela 22 O gráfico de barras com as barras em posição horizontal está apresentado na Figura 26 Tabela 22 Distribuição dos pacientes quanto à etiologia da fratura ou à presença de corpo estranho Etiologia Frequência Acidente de trânsito 16 Agressão 13 Arma de fogo 7 Queda 4 Acidente em esportes 2 Assalto 2 Cirurgia ortognática 2 Total 46 FIGURA 26 Pacientes quanto à etiologia da fratura ou à presença de corpo estranho diagnosticada por radiografia panorâmica Aqui cabe esclarecer que o programa Excel denomina gráfico de barras somente aqueles que apresentam as barras na posição horizontal Gráficos com barras verticais são denominados no Excel de gráfico de colunas No entanto o termo técnico em ambos os casos é gráfico de barras Cabe também considerar que gráficos com barras na posição vertical colunas são mais comuns porém gráficos com barras na posição horizontal facilitam a leitura dos nomes das categorias São portanto preferíveis quando os nomes são extensos 212 Gráfico de setores O gráfico de setores3 é especialmente indicado para apresentar variáveis nominais desde que o número de categorias seja pequeno Para construir um gráfico de setores trace uma circunferência uma circunferência tem 360o Essa circunferência representará o total ou seja 100 divida a circunferência em tantos setores quantas sejam as categorias da variável em estudo mas é preciso calcular o ângulo de cada setor é igual à proporção de respostas na categoria multiplicada por 360 marque na circunferência os ângulos calculados separe com o traçado dos raios escreva a legenda e coloque título na figura Exemplo 27 Gráfico de setores Por meio de radiografias panorâmicas foram constatados fraturas e corpos estranhos na face de 46 pacientes 29 homens e 17 mulheres Os dados estão apresentados na Tabela 23 e o gráfico de setores na Figura 27 Tabela 23 Pacientes com fraturas e corpos estranhos na face segundo o sexo Sexo Frequência Proporção Homens 29 063 Mulheres 17 037 Total 46 100 FIGURA 27 Pacientes com fraturas e corpos estranhos na face segundo o sexo Para fazer o gráfico de setores é preciso calcular o ângulo de cada setor Para o sexo masculino calcule o ângulo e para o feminino calcule A fim de destacar melhor a contribuição de cada valor em relação ao total as fatias da pizza podem ser separadas como mostra a Figura 215 na Seção 23 deste capítulo Além disso os gráficos de setores podem ser feitos em três dimensões como mostra a Figura 28 Esse tipo de apresentação aparece em muitas revistas mas deve ser evitado porque dificulta a avaliação da proporção de cada categoria Exemplo 28 Gráfico de setores em 3D Com os dados da Tabela 23 foi desenhado um gráfico de setores em três dimensões FIGURA 28 Pacientes com fraturas e corpos estranhos na face segundo o sexo Você encontra no programa Excel várias opções para o desenho do gráfico de setores Todas estão corretas a escolha é sua mas as opções mais simples são as de mais fácil entendimento por seu leitor 2121 Uma variação do gráfico de setores O programa Excel apresenta uma variação do gráfico de setores que denomina de gráfico de rosca Para desenhar esse gráfico faça primeiro o gráfico de setores Em seguida faça uma circunferência com o mesmo centro do gráfico de setores mas bem menor Deixe essa circunferência em branco Exemplo 29 Gráfico de setores rosca Com os dados da Tabela 23 foi desenhado o gráfico da Figura 29 FIGURA 29 Pacientes com fraturas e corpos estranhos na face segundo o sexo 22 Apresentação de dados quantitativos 221 Diagrama de linhas Para apresentar graficamente dados discretos organizados em uma tabela de distribuição de frequências podese construir um diagrama de linhas da seguinte forma escreva os valores assumidos pela variável no eixo das abscissas eixo horizontal escreva as frequências ou as frequências relativas porcentagens no eixo das ordenadas eixo vertical desenhe barras verticais com pequena largura para evidenciar que os dados são discretos a partir dos pontos marcados no eixo das abscissas Os comprimentos das barras são dados pelas frequências ou pelas frequências relativas em geral em porcentagem coloque legendas nos dois eixos e título na figura Exemplo 210 Diagrama de linhas A Tabela 19 apresenta a distribuição de frequências para o número de faltas dos funcionários da Clínica ABC no segundo semestre de 2014 ao trabalho O diagrama de linhas está na Figura 210 FIGURA 210 Diagrama de linhas para o número de faltas dos funcionários da Clínica ABC no segundo semestre de 2014 ao trabalho 222 Gráfico de pontos Os dados contínuos ao contrário dos discretos são na maioria das vezes diferentes uns dos outros Veja o Exemplo 211 os valores são todos diferentes entre si Dados contínuos em pequeno número podem ser apresentados por meio de um gráfico de pontos Para fazer um gráfico de pontos ou diagrama de pontos desenhe uma linha na verdade o eixo das abscissas com escala de maneira que nela caibam todos os dados desenhada a linha ponha sobre ela pontos que representem os dados obedecendo à escala coloque legenda no eixo e título na figura Exemplo 211 Gráfico de pontos O tempo de sobrevivência de sete pacientes submetidos a transplante renal em determinado hospital foi em dias de 17 5 48 120 651 64 150 Para apresentar esses dados em um gráfico de pontos ou diagrama de pontos comece desenhando uma linha eixo das abscissas que vá do zero até 700 porque o maior número é 651 Desenhada a linha você põe os pontos que vão representar os dados sobre ela sempre obedecendo à escala como mostra a Figura 211 FIGURA 211 Tempo de sobrevivência em dias após transplante renal 223 Histograma Quando os dados contínuos são em grande número não se pode fazer um gráfico de pontos É mais conveniente organizar os dados em uma tabela de distribuição de frequências4 como mostrado no Capítulo 1 e desenhar um histograma Para construir um histograma trace primeiro o sistema de eixos cartesianos apresente as classes no eixo das abscissas Se os intervalos de classe forem iguais trace barras retangulares com bases iguais que correspondam aos intervalos de classe desenhe as barras com alturas iguais às frequências ou às frequências relativas das respectivas classes As barras devem ser justapostas a fim de evidenciar a natureza contínua da variável coloque legendas nos dois eixos e título na figura Exemplo 212 Histograma Os dados apresentados na Tabela 111 do Capítulo 1 estão no histograma da Figura 212 FIGURA 212 Histograma para peso ao nascer em quilogramas de nascidos vivos 224 Polígono de frequências Dados contínuos apresentados em uma tabela de distribuição de frequências também podem ser apresentados em polígonos de frequências Para fazer esse tipo de gráfico trace o sistema de eixos cartesianos marque no eixo das abscissas pontos exatamente no meio dos extremos de classe marque no eixo das ordenadas as frequências de classe una os pontos por segmentos de reta feche o polígono unindo os extremos da figura com o eixo horizontal coloque legendas nos dois eixos e título na figura Exemplo 213 Polígono de frequências O polígono de frequências da Figura 213 apresenta os dados da Tabela 111 do Capítulo 1 FIGURA 213 Polígono de frequências para peso ao nascer de nascidos vivos em quilogramas 23 Exercícios resolvidos 231 Faça um gráfico de barras e um gráfico de setores para apresentar os dados da Tabela 117 do Capítulo 1 O gráfico de barras está na Figura 214 e o gráfico de setores está na Figura 215 FIGURA 214 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal FIGURA 215 Casos de intoxicação humana por animal peçonhento ocorridos no Brasil em 2005 segundo o animal 232 Faça um polígono de frequências para apresentar os dados da Tabela 119 Cap 1 FIGURA 216 Pressão arterial em milímetros de mercúrio de cães adultos anestesiados 233 Por que uma pessoa que conhece determinado assunto preferiria olhar uma tabela de distribuição de frequências a olhar um gráfico Qual seria um argumento razoável contra essa postura Como é possível construir gráficos muito diferentes com base nos mesmos dados a interpretação com base apenas neles às vezes não é confiável Por outro lado é a apresentação gráfica que ressalta determinadas características dos dados Em geral é melhor observar tanto os dados como o gráfico 234 Quando um gráfico deve ser grande Ou pequeno O gráfico deve ser grande quando os valores que apresenta precisam ser lidos Um gráfico pequeno mostra apenas as características gerais do conjunto de dados 24 Exercícios propostos 241 Uma doença pode ser classificada em três estágios leve moderada severa Foram examinados vinte pacientes e obtidos os seguintes dados moderado leve leve severo leve moderado moderado moderado leve leve severo leve moderado moderado leve severo moderado moderado moderado leve Com base nesses dados desenhe um gráfico de setores para apresentar a distribuição de frequências que você já construiu conforme pedido no Exercício 154 Cap 1 242 São dados os tipos de sangue de quarenta doadores que se apresentaram no mês em um banco de sangue B A O A A A B O B A A AB O O A O O A A B A A A O O O A O A O O A O AB O O A AB B B Coloque os dados em uma tabela de distribuição de frequências Desenhe um gráfico de barras para apresentar a distribuição de frequências que você já construiu conforme pedido no Exercício 156 Cap 1 243 Foram avaliadas por cirurgiõesdentistas com especialização em Ortodontia crianças no estágio de dentadura decídua na faixa etária de 3 a 6 anos Dessas crianças 615 não tinham hábitos de sucção 190 tinham o hábito de sucção do polegar 588 usavam chupeta e 618 usavam mamadeira Apresente os dados em tabela Desenhe um gráfico de barras horizontais para apresentar a distribuição de frequências que você construiu conforme pedido no Exercício 158 Cap 1 244 Desenhe um histograma para apresentar a distribuição de frequências que você já construiu usando intervalos de classes iguais conforme pedido no Exercício 1511 245 Com base nos dados apresentados no Exercício 1513 Cap 1 você construiu uma distribuição de frequências Desenhe dois gráficos de setores um para cada zona de moradia para apresentar essa distribuição 246 Você calculou as frequências relativas para o número de óbitos por grupos de causa Brasil 2004 no Exercício 1515 Cap 1 Agora faça um gráfico de barras as barras na posição horizontal para apresentar os percentuais por sexo 247 No Exercício 1515 Cap 1 você calculou as frequências relativas Agora desenhe um histograma para apresentar essa distribuição de frequências 248 Você já calculou o percentual de órgãos aproveitados taxa de aproveitamento para cada órgão usando os dados do exercício do Capítulo 1 Agora desenhe um gráfico de barras as barras na posição horizontal para apresentar a taxa de aproveitamento de cada órgão 249 Com base nos dados apresentados na Tabela 24 faça uma tabela de distribuição de frequências Desenhe um histograma Tabela 24 Pressão sanguínea diastólica de 35 enfermeiros que trabalham em um hospital 2410 Com os dados apresentados na Tabela 24 você construiu uma tabela de distribuição de frequências Agora desenhe um polígono de frequências 1As normas do IBGE são excelentes Veja essas normas em httpwww1ibgegovbrhomeestatisticapopulacaocenso2000tabelabrasil111shtm Disponível em 24 de abril de 2008 Veja também VIEIRA S Elementos de estatística 5 ed São Paulo Atlas 2003 2No programa Excel o gráfico de barras verticais é chamado gráfico de colunas No entanto o nome técnico é gráfico de barras 3O gráfico de setores é mais conhecido como gráfico de pizza Este contudo não é o nome técnico 4Se os intervalos de classe forem diferentes não se pode fazer o histograma como ensinado aqui Consulte textos mais avançados CAPÍTULO 3 Medidas de Tendência Central Para entender as características gerais de um conjunto de dados muitas pessoas preferem olhar uma figura1 Daí a importância dos métodos gráficos descritos no Capítulo 2 No caso das variáveis quantitativas ou numéricas mais usadas na pesquisa científica por serem mais exatas os gráficos são porém menos informativos porque para desenhar um histograma ou um polígono de frequências para uma grande quantidade de dados é preciso agrupar valores exatos em classes Mas já foram propostas há muito tempo medidas estatísticas que sumarizam as informações contidas em um grande conjunto de dados Essas medidas apontam características específicas do conjunto de dados e permitem a quem conhece suas propriedades e limitações uma visão geral do comportamento dos dados Neste capítulo veremos as medidas de tendência central Antes porém de descrever essas medidas precisamos apresentar alguns símbolos matemáticos 31 Símbolos matemáticos Para representar os valores numéricos de n unidades escrevemos O subscrito i indica a posição da medida portanto xi é a iésima observação x1 representa a primeira observação x2 representa a segunda e os três pontos são lidos como e assim por diante Exemplo 31 Representação de dados Os pesos em quilogramas de cinco recémnascidos são Em termos de símbolos podemos escrever A sequência x1 x2 x3 x4 x5 não é ordenada pela grandeza dos dados Veja o Exemplo 31 o primeiro bebê da amostra não é o menor ainda que o bebê maior seja o último Quaisquer que sejam os dados os valores x1 x2 x3 xn são registrados na ordem em que foram observados A soma dos valores x1 x2 x3 xn é escrita como segue ou de forma muito mais compacta que se lê somatório de χ índice i i de 1 a n O símbolo Σ que indica o somatório é a letra grega sigma maiúscula Sob o símbolo Σ está o subscrito i 1 e sobre o símbolo Σ está n indicando que o somatório se estende de x1 até xn Exemplo 32 Notação de somatório No Exemplo 31 são dados os pesos de cinco bebês x1 3500 x2 2750 x3 3250 x4 2250 x5 3 750 A soma desses pesos usando a notação de somatório fica como segue Quando é fácil saber o número de parcelas que devem ser somadas pelo próprio texto é usual escrever apenas Σχ em vez de 32 Média aritmética A média aritmética ou simplesmente média do conjunto de dados é obtida somandose todos os dados e dividindose o resultado da soma pelo número deles A fórmula da média é que se lê xtraço ou xbarra é igual ao somatório de x dividido por n A média aritmética é uma medida de tendência central É o centro de equilíbrio do conjunto de dados Para entender isso imagine que os dados estejam apresentados no eixo das abscissas e que esse eixo represente os braços de uma balança A média fica no fulcro da balança ou seja no centro de equilíbrio Exemplo 33 Cálculo da média Um professor de Educação Física mediu a circunferência abdominal de dez homens que se apresentaram em uma academia de ginástica Então obteve os seguintes valores em centímetros 88 83 79 76 78 70 80 82 86 106 A média é ou seja a média da circunferência abdominal desses homens é 828cm Agora observe a Figura 31 Imagine que o eixo das abscissas seja o braço de uma balança e que cada ponto tenha uma unidade de massa Para haver equilíbrio é preciso que o fulcro da balança esteja localizado onde está a média ou seja no ponto em que foi desenhada uma flecha FIGURA 31 Distribuição de dados de circunferência abdominal em centímetros sobre um eixo e a respectiva média 321 Média de dados agrupados em tabelas de distribuição de frequências Quando os dados são discretos e em grande número pode haver repetição de valores Nesses casos como vimos no Capítulo 1 é razoável organizar os dados em uma tabela de distribuição de frequências Veja a Tabela 31 Tabela 31 Tabela de distribuição de frequências Dados Frequência x1 f1 x2 f2 xn fn Total Σf A média aritmética de dados agrupados em uma tabela de distribuição de frequências é dada por Exemplo 34 Média de dados agrupados Uma psicóloga que trabalha em Recursos Humanos de uma empresa perguntou aos vinte funcionários qual era o número de filhos em idade escolar Os dados estão apresentados na Tabela 32 Tabela 32 Número de filhos em idade escolar de vinte funcionários Para calcular a média a psicóloga construiu a Tabela 33 que é uma distribuição de frequências Tabela 33 Distribuição de frequências para o número de filhos em idade escolar de vinte funcionários Número de filhos em idade escolar Frequência 0 6 1 8 2 4 3 1 4 0 5 1 A Tabela 34 apresenta os cálculos intermediários para obter a média cada valor x foi multiplicado pela respectiva frequência f A soma foi dividida pela soma das frequências Σf Tabela 34 Cálculos auxiliares Número de filhos em idade escolar Frequência Produto x f xf 0 6 0 1 8 8 2 4 8 3 1 3 4 0 0 5 1 5 Total Σf 20 Σxf 24 Quando os dados são contínuos e em grande quantidade é comum não apresentar os dados brutos mas apenas as tabelas de distribuição de frequências Veja o Exemplo 35 Para calcular a média de dados agrupados em classes é preciso calcular o ponto médio ou valor central de cada classe O ponto médio da classe é a média dos dois extremos da classe Exemplo 35 Média de dados contínuos agrupados Os dados apresentados no Exemplo 110 Cap 1 foram agrupados em faixas de peso na Tabela 111 reproduzida na Tabela 35 Tabela 35 Nascidos vivos segundo o peso ao nascer em quilogramas Classe Frequência 15 20 3 20 25 16 25 30 31 30 35 34 35 40 11 40 45 4 45 50 1 Para calcular a média é preciso obter o ponto médio de cada classe A classe 15 20 tem dois extremos o inferior que é 15 e o superior que é 20 O ponto médio dessa classe é Os demais pontos médios são obtidos da mesma forma Agora construa uma tabela com os cálculos auxiliares Escreva as classes os pontos médios x as frequências f de classe e os produtos xf como mostra a Tabela 36 Tabela 36 Cálculos auxiliares A média é de longe a medida de tendência central mais usada e talvez por isso a mais conhecida2 Quem nunca ouviu falar na média de aprovação em determinada disciplina ou no tempo médio de uma viagem de São Paulo ao Rio de Janeiro por exemplo ou na idade média dos jogadores de futebol Em certas circunstâncias porém outras medidas de tendência central como a mediana ou a moda dão melhor informação Mas o que é mediana e o que é moda 33 Mediana Mediana é o valor que ocupa a posição central do conjunto dos dados ordenados A mediana divide a amostra em duas partes uma com números menores ou iguais à mediana e outra com números maiores ou iguais à mediana Quando o número de dados é ímpar existe um único valor na posição central Esse valor é a mediana Por exemplo o conjunto de dados 3 5 9 tem mediana 5 porque 5 é o valor que está no centro do conjunto quando os números estão escritos em ordem crescente Quando o número de dados é par existem dois valores na posição central A mediana é a média desses dois valores Por exemplo o conjunto 3 5 7 9 tem a mediana 6 porque 6 é a média de 5 e 7 que estão na posição central dos números ordenados Exemplo 36 Cálculo da mediana Para obter a mediana do peso dos cinco bebês do Exemplo 31 coloque os dados em ordem crescente como segue 2250 2850 3250 3500 3970 A mediana está no centro dos dados ordenados Corresponde a 3250 kg mostrado na Figura 32 FIGURA 32 Distribuição dos pesos de bebês em quilogramas sobre um eixo e a respectiva mediana Em algumas circunstâncias a mediana descreve melhor do que a média a tendência central dos dados É o caso dos conjuntos com dados discrepantes ou seja de conjuntos de dados que têm um ou alguns valores bem maiores ou bem menores que os demais Veja o Exemplo 37 Exemplo 37 Decidindo entre média e mediana São dados 42 3 9 5 7 9 1 9 Para obter a média calcule Para obter a mediana é preciso ordenar os dados 1 3 5 7 9 9 9 42 e calcular a média aritmética dos valores 7 e 9 que ocupam a posição central dos dados ordenados Então a mediana é 8 A mediana descreve melhor o conjunto de dados porque o valor 42 que é discrepante puxa a média para cima Entretanto o valor discrepante não afeta a mediana Existem casos porém em que o uso da média aritmética é mais razoável do que a mediana mesmo que haja um valor discrepante Como exemplo considere que você jogou três vezes na loteria e ganhou na primeira vez x1 R 000 na segunda vez x2 R 000 na terceira vez x3 R100000000 Qual medida descreve melhor seu ganho A mediana é zero diga isso a seus parentes mas a média é 13 do valor de x3 e esse valor diz mais sobre seu ganho nas três tentativas 34 Moda Moda é o valor que ocorre com maior frequência Exemplo 38 Determinando a moda A moda dos dados 0 0 2 5 3 7 4 7 8 7 9 6 é 7 porque é o valor que ocorre maior número de vezes FIGURA 33 Distribuição dos dados sobre um eixo e a respectiva moda Um conjunto de dados pode não ter moda ou ter duas ou mais modas Assim o conjunto de dados 0 2 4 6 8 10 não tem moda enquanto o conjunto 1 2 2 3 4 4 5 6 7 tem duas modas 2 e 4 Quando uma tabela de distribuição de frequências apresenta grande quantidade de dados é importante destacar a classe de maior frequência chamada classe modal Essa classe mostra a área em que os dados estão concentrados Exemplo 39 Classe modal A distribuição da população brasileira no Censo 2010 segundo o sexo e o grupo de idade é apresentada na Tabela 37 Para homens a classe modal com maior frequência em negrito na tabela é o grupo de 10 a 14 anos Para mulheres a classe modal em negrito na tabela é o grupo de 25 a 29 anos Tabela 37 Distribuição da população brasileira segundo sexo e grupo de idade Brasil 2010 Fonte IBGE3 3Disponível em wwwibgegovbrcaracteristicasdapopulacaotabbrasil Acesso em 8 set 2014 A moda é a única medida de tendência central que também pode ser usada para descrever dados qualitativos Nesse caso a moda é a categoria da variável que ocorre com maior frequência Exemplo 310 Determinação da moda Veja os dados apresentados na Tabela 38 O grupo sanguíneo O ocorreu com maior frequência então é a moda Tabela 38 Distribuição de indivíduos segundo o grupo sanguíneo Grupo sanguíneo Frequência O 550 A 456 B 132 AB 29 Total 1167 A moda é bastante informativa quando o conjunto de dados é grande Se o conjunto de dados for relativamente pequeno menos de trinta observações você pode até obter a moda mas na maioria das vezes ela não terá qualquer sentido prático A média e a mediana fornecem nesses casos melhor descrição da tendência central dos dados 35 Exercícios resolvidos 351 Com base nos dados da Tabela 39 calcule o peso médio dos ratos em cada idade Tabela 39 Peso em gramas de ratos machos da raça Wistar segundo a idade em dias Para obter a média aritmética aos 30 dias basta calcular As médias para as demais idades obtidas da mesma maneira estão apresentadas na Tabela 310 e mostram que o peso médio dos ratos aumenta com a idade Tabela 310 Médias em gramas dos pesos de grupos de oito ratos machos Wistar segundo a idade em dias Idade Média 30 636 34 746 38 814 42 946 46 1056 352 Determine a mediana dos dados apresentados na Tabela 18 Cap 1 Para obter a mediana os dados da Tabela 18 foram arrumados em ordem crescente na Tabela 311 Tabela 311 Número de faltas de trinta funcionários ao trabalho Clínica ABC segundo semestre de 2014 em ordem crescente 0 1 2 0 1 2 0 1 2 0 1 2 0 1 3 0 1 3 0 1 3 0 1 4 0 1 4 1 2 6 Como o número de dados 30 é par a mediana é a média aritmética dos dois valores em negrito que ocupam a posição central ou seja a mediana é 1 Portanto metade dos empregados não faltou ou faltou apenas um dia 353 Foi feito um ensaio clínico randomizado para testar o efeito de um analgésico em cinco pacientes com osteoartrite Os pacientes foram designados para receber placebo 2 ao dia ou droga 60mg 2 ao dia em datas diferentes por processo aleatório Os dados apresentados na Tabela 312 correspondem às medidas da dor à noite relatadas pelos pacientes 0 nenhuma dor 100 dor extrema Calcule para cada paciente as diferenças entre os valores obtidos no final e no início da pesquisa para placebo e para a droga Calcule as médias dessas diferenças Discuta Tabela 312 Dados de dor referidos pelo paciente numa escala de zero a 100 segundo o grupo Tabela 313 Diferenças entre início e final do tratamento As médias das diferenças são 90 para placebo e 250 para o antiinflamatório Os pacientes relataram maior alívio da dor quando receberam a droga com efeito analgésico 36 Exercícios propostos 361 Determine média mediana e moda dos seguintes conjuntos de dados a 8 3 0 6 8 b 8 16 2 8 6 c 4 16 10 6 20 10 d 0 2 3 1 5 e 21 0 1 2 1 9 362 Imagine que você esteja dirigindo um carro em uma estrada e observe que o número de veículos que você ultrapassa é igual ao número de veículos que ultrapassam você Nesse caso a velocidade de seu carro corresponde considerando a velocidade de todos esses carros a qual medida de tendência central 363 Dado um conjunto de dados qual das medidas de tendência central média mediana e moda corresponde sempre a um valor numérico do conjunto 364 Quatro pessoas reunidas numa sala têm em média 20 anos Se uma pessoa com 40 anos entrar na sala qual passa a ser a idade média do grupo 365 Na Tabela 314 são apresentadas taxas de glicose em miligramas por 100 mL de sangue em ratos machos da raça Wistar com 30 dias de idade que serão usados em um ensaio préclínico para o teste de determinada droga Encontre média e mediana Tabela 314 Taxa de glicose em miligramas por 100 mL de sangue de oito ratos machos da raça Wistar com 30 dias de idade N do rato Taxa de glicose 1 101 2 98 3 97 4 104 5 95 6 105 366 Na Tabela 315 são apresentados estaturas em metros pesos em quilogramas e pressão arterial em milímetros de mercúrio de pacientes hospitalizados porque tiveram um acidente vascular cerebral AVC mais conhecido como derrame Calcule a média e a mediana para cada variável Tabela 315 Estaturas em metros pesos em quilogramas e pressão arterial em milímetros de mercúrio de 11 pacientes hospitalizados com AVC 367 Com os dados apresentados na Tabela 316 calcule o número médio de dentes cariados para cada sexo Tabela 316 Estudantes de 12 anos segundo o número de dentes cariados e o sexo 368 Para estudar o tempo de latência de um sonífero usando ratos de laboratório um pesquisador administrou o sonífero a dez ratos e determinou o tempo que levavam para dormir Dos dez ratos dois precisaram de meio minuto quatro de 1 minuto três de 15 minuto e 1 não dormiu Calcule o tempo médio de latência 369 Determine média mediana e moda para cada sexo em relação aos dados apresentados na Tabela 317 Tabela 317 Consumo diário de sal em gramas por dia segundo o sexo 3610 Determine média mediana e moda para cada sexo em relação aos dados de volume diário de urina apresentados na Tabela 318 Tabela 318 Volume diário de urina em litros por sexo 3611 Determine mediana e moda para os dados apresentados na Tabela 319 e interpreteas Tabela 319 Tempo de retorno em dias às atividades diárias de pacientes submetidas a histerectomia N da paciente Tempo de retorno 1 20 2 30 3 15 4 20 5 40 6 50 7 25 8 30 9 15 10 35 3612 Determine a média dos dados apresentados na Tabela 320 Tabela 320 Teor de vitamina C miligramas de ácido ascórbico em 100 mL em dez caixas de 100 mL de suco de maçã encontradas no mercado N da caixa Teor de vitamina C 1 25 2 49 3 41 4 08 5 24 6 57 7 33 8 74 9 16 10 35 3613 A média a mediana e a moda podem ser iguais Dê um exemplo 3614 Qual das medidas de tendência central não pode ser calculada para os dados da Tabela 321 Por quê Tabela 321 Número de reclamações recebidas pela diretoria de empregados de uma clínica em determinado semestre distribuídas segundo o sexo 1Já disse alguém um desenho vale por mil palavras 2Há quem pretenda ser engraçado dizendo que a média não faz sentido porque por exemplo se alguém tem os pés na geladeira e a cabeça no forno na média está em temperatura agradável O fato é que para relatar o comportamento de uma variável a média não basta É necessária mas não é suficiente Veja o Capítulo 4 CAPÍTULO 4 Medidas de Dispersão para uma Amostra As medidas de tendência central resumem a informação contida em um conjunto de dados mas não contam toda a história Por exemplo observase diariamente que na mesma cidade a temperatura varia ao longo do dia Então a temperatura média do dia não dá toda a informação O peso das pessoas varia ao longo da vida e a quantidade de dinheiro que carregam nos bolsos varia em função das circunstâncias Por causa da variabilidade a média a mediana e a moda que estudamos no Capítulo 3 não são suficientes para descrever um conjunto de dados informam apenas a tendência central ou seja onde está o centro mas nada dizem sobre a variabilidade Para entender esse ponto imagine dois domicílios no primeiro moram sete pessoas todas com 22 anos A média de idade dos moradores desse domicílio coletivo uma república é evidentemente 22 anos No segundo domicílio também moram sete pessoas um casal ela com 17 e ele com 23 anos dois filhos um com 2 e outro com 3 anos a mãe da moça com 38 anos um irmão da moça com 8 anos e a avó da moça com 65 anos A média de idade nesse segundo domicílio também é 22 anos No entanto idade média de 22 anos descreve bem a situação no primeiro domicílio mas não no segundo As medidas de tendência central são tanto mais descritivas de um conjunto de dados quanto menor é a variabilidade Então quando você apresentar um conjunto de dados deve fornecer não apenas medidas de tendência central mas também uma medida de variabilidade ou dispersão Veremos neste capítulo algumas formas de medir variabilidade 41 Mínimo máximo e amplitude Mínimo de um conjunto de dados é o número de menor valor Máximo de um conjunto de dados é o número de maior valor Para medir variabilidade você pode fornecer o valor mínimo e o valor máximo do conjunto de dados Pode também calcular a amplitude A amplitude de um conjunto de dados definida como a diferença entre o máximo e o mínimo é uma medida de dispersão ou variabilidade Exemplo 41 Mínimo máximo e amplitude A idade das crianças que estão no pátio de uma escola é respectivamente 3 6 5 7 9 anos É fácil apresentar em uma tabela o número de crianças a mediana o mínimo o máximo e a amplitude Você primeiro ordena os dados como segue 3 5 6 7 9 A mediana é 6 e a amplitude é Tabela 41 Estatísticas da idade das crianças Estatísticas Resultados Número de crianças 5 Mediana 6 Mínimo 3 Máximo 9 Amplitude 6 A amplitude de variação é uma ideia básica em Estatística mas um valor discrepante por ser muito grande ou muito pequeno aumenta muito a amplitude Como dizem os estatísticos a amplitude é muito sensível aos valores discrepantes Exemplo 42 Comparação de amplitudes É dado o barulho do tráfego em duas esquinas medido em decibéis durante os cinco dias úteis de determinada semana Vamos calcular as amplitudes dos dados de cada conjunto 1ª esquina 56 54 51 58 52 60 2ª esquina 56 54 58 52 51 67 1ª esquina 2ª esquina FIGURA 41 Distribuição de dados de barulho em decibéis sobre um eixo para os dois conjuntos Note que a amplitude maior na segunda esquina é explicada por um dia em que o barulho foi bem maior do que nos demais dias da semana Ocorreu então o que os estatísticos chamam de valor discrepante Esse valor 67 aumentou em muito a amplitude dos dados obtidos na segunda esquina A amplitude é bastante usada como medida de variabilidade mas para descrever um conjunto de dados muitas vezes é melhor fornecer mínimos e máximos Por exemplo se alguém informar que os policiais que estão na ativa em certa corporação têm idades entre 18 e 52 anos estará fornecendo uma informação mais útil do que se disser que a amplitude das idades é 34 anos 42 Quartil A mediana que você viu no Capítulo 3 divide um conjunto de dados em dois subconjuntos com o mesmo número de dados o que antecede a mediana dados iguais ou inferiores à mediana o que sucede a mediana dados iguais ou superiores à mediana Se o número de observações for grande digamos maior de trinta o conceito de mediana pode ser entendido da seguinte forma a mediana divide o conjunto de dados em duas metades os quartis como o nome sugere dividem o conjunto de dados em quatro quartos Os quartis são pontos que dividem o conjunto de dados ordenados em quatro partes de modo que cada parte contenha 25 dos dados O primeiro quartil Q1 ocupa a posição central entre a mediana e o dado de menor valor O segundo quartil é a mediana do conjunto de dados O terceiro quartil Q3 ocupa a posição central entre a mediana e o dado de maior valor Então se um item está no quartil superior significa que está entre os 25 de itens de maior valor Para obter os quartis1 quando o conjunto tem um número ímpar de dados 1 organize os dados em ordem crescente Encontre a mediana que é o segundo quartil marque esse valor 2 se o número de dados for ímpar a mediana é um número que está no conjunto Para achar o primeiro quartil tome o conjunto de dados iguais ou menores que a mediana o primeiro quartil é a mediana do novo conjunto de dados 3 para encontrar o terceiro quartil tome o conjunto de dados iguais ou maiores do que a mediana o terceiro quartil é a mediana do novo conjunto de dados Exemplo 43 Obtendo os quartis de conjunto com número ímpar de dados O número de dados no conjunto 1 2 3 4 5 6 7 9 10 é ímpar Então a mediana é o valor central dos dados ordenados ou seja 5 1 2 3 4 5 6 7 9 10 Para obter o primeiro quartil separe os dados iguais ou menores do que a mediana Primeiro quartil é a mediana do novo conjunto de dados ou seja 3 1 2 3 4 5 Para obter o terceiro quartil separe os dados iguais ou maiores do que a mediana Terceiro quartil é a mediana do novo conjunto de dados ou seja 7 5 6 7 9 10 Se o conjunto tiver um número par de dados para obter os quartis 1 organize os dados em ordem crescente Encontre a mediana que é o segundo quartil marque esse valor 2 a mediana dada pela média dos dois valores centrais não é necessariamente um número igual a qualquer outro do conjunto de dados Para encontrar o primeiro quartil separe o conjunto de dados menores do que a mediana o primeiro quartil é a mediana do novo conjunto de dados 3 para achar o terceiro quartil separe o conjunto de dados maiores do que a mediana o terceiro quartil é a mediana do novo conjunto de dados Exemplo 44 Obtendo os quartis de conjunto com número par de dados A mediana dos dados 0 1 2 3 4 5 5 7 9 10 é a média dos dois valores que estão no centro dos dados ordenados ou seja 45 0 1 2 3 4 5 6 7 9 10 Para obter o primeiro quartil separe os dados menores do que a mediana O primeiro quartil é a mediana desse novo conjunto de dados ou seja 2 0 1 2 3 4 Para obter o terceiro quartil separe os dados maiores do que a mediana O terceiro quartil é a mediana desse novo conjunto de dados ou seja 7 5 6 7 9 10 Pode parecer que o método apresentado para determinar quartis é confuso mas é pior do que simplesmente confuso os estatísticos não se entendem nesse assunto2 Existem vários métodos para obter quartis e os programas para computador empregam métodos diferentes Por isso se você calcular os quartis para o Exemplo 43 usando o Excel encontrará resultados diferentes dos achados aqui e se usar o Minitab encontrará outros resultados O SAS permite escolher entre cinco métodos Além disso os valores aqui calculados são chamados no Brasil de quartis em inglês quartiles mas o autor3 que inventou o boxplot os chama de dobradiças em inglês hinges Felizmente as diferenças entre resultados são pequenas e não afetam as conclusões de um trabalho De qualquer modo é preciso definir distância interquartílica que é uma medida de dispersão que aparece nos boxplots Como a amplitude é muito sensível aos valores discrepantes ou seja muda de valor se for incluída uma observação discrepante a distância interquartílica descreve melhor a dispersão dos dados Distância interquartílica é a distância entre o primeiro e o terceiro quartis Distância interquartílica Terceiro quartil Primeiro quartil Exemplo 45 Distância interquartílica Vamos calcular as distâncias interquartílicas para o Exemplo 42 Reveja os seguintes dados 1ª esquina 56 54 51 58 52 60 Para encontrar a distância interquartílica comece ordenando os dados 51 52 54 56 58 60 O número de dados é par A mediana é a média de 54 e 56 ou seja 55 Ache o primeiro e o terceiro quartis Então Mediana 55 1 quartil 52 3 quartil 58 Distância interquartílica 58 52 6 2ª esquina 56 54 58 52 51 67 Para encontrar a distância interquartílica é preciso ordenar os dados calcular a mediana e achar o primeiro e o terceiro quartis Então 51 52 54 56 58 67 Mediana 55 1 quartil 52 3 quartil 58 Distância interquartílica 58 52 6 421 Diagrama de caixa Boxplot As medidas que acabamos de ver mínimo primeiro quartil mediana terceiro quartil máximo permitem traçar o diagrama de caixa que ajuda a entender a informação contida em um conjunto de dados Para desenhar um diagrama de caixa 1 desenhe um segmento de reta em posição vertical para representar a amplitude dos dados 2 marque nesse segmento o primeiro o segundo e o terceiro quartis 3 desenhe um retângulo box de maneira que o lado superior e o lado inferior passem exatamente sobre os pontos que marcam o primeiro e o terceiro quartis 4 faça um ponto para representar a mediana obedecendo à escala e sobre o segmento de reta anteriormente traçado Exemplo 46 Diagrama de caixa boxplot A Figura 42 apresenta um diagrama de caixa para o conjunto de dados 1 2 3 4 5 6 7 8 9 10 Foram calculados FIGURA 42 Diagrama de caixa Mínimo 1 Primeiro quartil 3 Mediana 55 Terceiro quartil 8 Máximo 10 O retângulo do diagrama de caixa é dado pela distância interquartílica Esse retângulo contém cerca de 50 dos dados que estão no centro da distribuição 43 Desvio padrão O desvio padrão é uma medida de variabilidade muito recomendada porque mede bem a dispersão dos dados e permite por conta disso interpretação de interesse Para calcular o desvio padrão é preciso primeiro calcular a variância Vamos então entender o que é variância 431 Cálculo da variância Quando a média é usada como medida de tendência central podemos calcular o desvio de cada dado em relação à média como segue Exemplo 47 Desvios em relação à média No Exemplo 41 são dadas as idades de cinco crianças 3 6 5 7 e 9 anos Para calcular os desvios em relação à média subtraímos a média de cada observação Como a média é 6 os desvios são os valores apresentados na Tabela 42 Tabela 42 Cálculo dos desvios Desvios pequenos significam dados aglomerados em torno da média enquanto desvios grandes significam dados dispersos em torno da média Mas esses desvios precisam ser resumidos em um só número para que você possa olhar esse número e julgar o grau de variabilidade dos dados Como é possível fazer isso À primeira vista parece possível calcular a média dos desvios Mas a média seria sempre igual a zero porque a soma dos desvios negativos é sempre igual à soma dos desvios positivos O peso dos desvios negativos é igual ao peso dos desvios positivos uma vez que a média dá a tendência central dos dados Isso pode ser verificado em qualquer conjunto de dados No Exemplo 47 É preciso eliminar os sinais antes de somar É intuitivo pensar em calcular a média dos valores absolutos dos desvios Essa medida realmente existe É o desvio médio pouco encontrado nos trabalhos de Estatística4 Mas existe outra maneira de eliminar os sinais elevamse os valores ao quadrado A soma assim obtida é denominada soma de quadrados dos desvios A partir dessa soma obtémse a variância Veja a definição de variância da amostra que é indicada por s2 Variância da amostra é a soma dos quadrados dos desvios de cada observação em relação à média dividida por n 1 Para calcular a variância calcule o desvio de cada observação em relação à média eleve cada desvio ao quadrado some os quadrados dos desvios divida o resultado por n1 n é o número de observações Exemplo 48 Calculando a variância A Tabela 43 apresenta os cálculos intermediários para obter a variância dos dados do Exemplo 41 Tabela 43 Cálculo da variância A variância é A variância quantifica a variabilidade dos dados O divisor n1 recebe o nome de graus de liberdade5 4311 Outra fórmula para calcular a variância A fórmula dada na Seção 431 para calcular a variância da amostra pode ser algebricamente desenvolvida Obtémse então uma segunda fórmula que embora à primeira vista pareça mais complicada permite que o cálculo da variância seja feito com menor número de operações aritméticas6 Prefira usar esta segunda fórmula se você fizer cálculos à mão o que é pouco provável Exemplo 49 Calculando a variância São dados os tempos em minutos que seis meninos permaneceram sobre seus skates 4 6 4 6 5 5 Para calcular a variância foram feitos os cálculos intermediários que estão na Tabela 44 Tabela 44 Cálculo da variância x x2 4 16 6 36 4 16 6 36 5 25 5 25 Σx 30 Σx2 154 A variância é 4312 Variância de dados agrupados em tabelas de distribuição de frequências A variância de dados agrupados em uma tabela de distribuição de frequências ou seja de x1 x2 xn que se repetem f1 f2 fn vezes na amostra é Exemplo 410 Calculando a variância de dados agrupados Reveja o Exemplo 34 Cap 3 Foi construída a Tabela 33 reapresentada aqui como Tabela 45 Tabela 45 Distribuição de frequências para o número de filhos em idade escolar de vinte funcionários Número de filhos em idade escolar Frequência 0 6 1 8 2 4 3 1 4 0 5 1 A Tabela 46 apresenta os cálculos intermediários para se obter a variância Tabela 46 Cálculos auxiliares para obtenção da variância Aplicando a fórmula 432 Desvio padrão Lembrese de que para calcular a variância os desvios em relação à média foram elevados ao quadrado Então a unidade de medida da variância é igual ao quadrado da medida das observações Logo extraindo a raiz quadrada da variância você obtém uma medida de variabilidade com a mesma unidade de medida dos dados É o desvio padrão Desvio padrão é a raiz quadrada da variância com sinal positivo Exemplo 411 Calculando o desvio padrão A Tabela 47 apresenta a duração em minutos das chamadas telefônicas realizadas em três consultórios médicos As médias as variâncias e os desvios padrões são apresentados na Tabela 48 As observações foram medidas em minutos a variância é dada em minutos ao quadrado o que não tem sentido prático mas o desvio padrão é dado em minutos Tabela 47 Tempo em minutos das chamadas telefônicas feitas em uma manhã em três consultórios médicos Consultório A Consultório B Consultório C 4 9 9 6 1 1 4 5 1 6 5 2 5 1 8 5 9 9 Tabela 48 Estatísticas obtidas para os dados da Tabela 47 A duração em minutos das chamadas telefônicas realizadas nos três consultórios médicos foi em média a mesma ou seja 5 minutos No entanto a duração das chamadas variou significativamente entre os consultórios Compare por exemplo o desvio padrão 089 minuto do consultório A com o desvio padrão 405 minutos do consultório C 44 Coeficiente de variação Coeficiente de variação é a razão entre o desvio padrão e a média O resultado do cálculo do coeficiente de variação é multiplicado por 100 para ser apresentado em porcentagem Então Para entender como se interpreta o coeficiente de variação imagine dois grupos de pessoas no primeiro grupo as pessoas têm idades de 3 1 e 5 anos a média é evidentemente 3 anos No segundo grupo as pessoas têm idades de 55 57 e 53 anos portanto a média é 55 anos Verifique que nos dois grupos a dispersão dos dados é idêntica ambos têm variância s2 4 No entanto as diferenças de dois anos são muito mais importantes no primeiro grupo que tem média 3 do que no segundo grupo que tem média 55 Agora veja os coeficientes de variação No primeiro grupo o coeficiente de variação é e no segundo grupo o coeficiente de variação é Um coeficiente de variação de 6667 indica que a dispersão dos dados em relação à média é muito grande ou seja a dispersão relativa é alta Um coeficiente de variação de 364 indica que a dispersão dos dados em relação à média é pequena Em outras palavras diferenças de 2 anos são relativamente mais importantes no primeiro grupo em que a média é de 3 anos o coeficiente de variação é 6667 do que no segundo grupo que tem média de 55 anos o coeficiente de variação é 364 Então o coeficiente de variação mede a dispersão dos dados em relação à média É importante notar que o coeficiente de variação pode ser expresso em porcentagem porque é adimensional ou seja não tem unidade de medida Isso acontece porque média e desvio padrão são medidos na mesma unidade que então se cancelam Por ser adimensional o coeficiente de variação é útil para comparar a dispersão relativa de variáveis medidas em diferentes unidades Veja o Exercício 453 45 Exercícios resolvidos 451 Vamos calcular a média e a variância do nível de colesterol de cinco pessoas 260 160 200 210 240 A média é Para obter a variância foram feitos os cálculos intermediários apresentados na Tabela 49 Tabela 49 Cálculos intermediários para obtenção da variância Nível de colesterol Desvio em relação à média Desvio ao quadrado 260 46 2116 160 54 2916 200 14 196 210 4 16 240 26 676 Soma 0 5920 A variância é 452 Observe os conjuntos A B C D de dados Sem fazer cálculos qual deles apresenta menor variância Quais têm maior variância A 7 7 7 7 B 6 7 7 8 C 6 8 10 12 D 106 108 110 112 O conjunto A tem a menor variância pois os dados são todos iguais entre si O conjunto B tem variância maior do que o conjunto A pois os dados variam de 1 em 1 Os conjuntos C e D têm variâncias maiores do que as dos outros mas iguais entre si em ambos os conjuntos os dados variam de 2 em 2 453 Calcule a média o desvio padrão e o coeficiente de variação dos dados apresentados na Tabela 410 Comente os resultados Tabela 410 Peso em quilogramas e comprimento em centímetros de dez cães Peso Comprimento 23 104 22 107 21 103 21 105 17 100 28 104 19 108 14 91 19 102 19 99 a Para peso a média é 203kg e o desvio padrão é 374kg O coeficiente de variação é 1842 b Para comprimento a média é 1023cm e o desvio padrão é 485cm O coeficiente de variação é 474 Não se podem comparar desvios padrões de peso e comprimento porque as unidades de medida são diferentes No entanto os coeficientes de variação podem ser comparados porque são adimensionais É fácil ver que a dispersão relativa dos dados de peso CV 1842 é maior do que a dispersão relativa dos dados de comprimento CV 474 Isso significa que os dados de peso variam mais em relação à média do que os dados de comprimento Lembrese de que isso também acontece em humanos adultos e normais provavelmente você conhece duas pessoas tais que uma tem o dobro de peso da outra 104 kg e 52 kg por exemplo mas não uma com o dobro da altura da outra 454 Determine os quartis7 do conjunto de dados 1 2 2 5 5 7 8 10 11 11 Os dados já estão ordenados Para obter a mediana note que o número de dados é par Então a mediana é a média dos dois valores centrais ou seja de 5 e 7 que é 6 1 2 2 5 5 7 8 10 11 11 Para obter o primeiro quartil separe os dados menores do que a mediana 6 O primeiro quartil é a mediana desses dados 2 1 2 2 5 5 Para obter o terceiro quartil separe os dados iguais ou maiores do que a mediana O terceiro quartil é a mediana desses dados 10 7 8 10 11 11 455 Foi feito um experimento para comparar dois programas de treinamento para a execução de um serviço especializado Vinte homens foram selecionados para esse treinamento Dez dos vinte foram escolhidos ao acaso e treinados pelo método A Os outros dez foram treinados pelo método B Concluído o período de treinamento todos os homens executaram o serviço e foi medido o tempo de cada um Os dados são apresentados na Tabela 411 Vamos calcular as estatísticas apresentadas na Tabela 412 e desenhar diagramas de caixa na Fig 43 para comparar os métodos Tabela 411 Tempo em minutos despendido na execução do serviço segundo o método de treinamento Tabela 412 Tempo em minutos despendido na execução do serviço segundo o método de treinamento FIGURA 43 Comparação de dois diagramas de caixa A Figura 43 mostra que a variabilidade é praticamente a mesma para os dois métodos No entanto a mediana do tempo despendido por homens treinados pelo método A foi menor 456 Vamos calcular a variância e o desvio padrão dos dados apresentados na Tabela 39 Cap 3 em cada idade e comentar o resultado A variância é dada pela seguinte fórmula Usando uma calculadora ou o computador é possível obter as somas apresentadas na Tabela 413 Tabela 413 Resultados parciais As variâncias e os desvios padrões estão apresentados na Tabela 414 Os desvios padrões aumentam com a idade ou seja a dispersão dos dados em torno da média aumenta com a idade Tabela 414 Variância e desvio padrão do peso em gramas de ratos machos da raça Wistar segundo a idade 7Os métodos empregados para calcular os quartis têm pequenas diferenças Se você calcular os quartis para o Exemplo 45 usando o Excel encontrará 1 quartil 275 3 quartil 95 Não é o método aqui ensinado 46 Exercícios propostos 461 Dados os valores 5 3 2 e 1 calcule a ο mínimo b o máximo c a amplitude 462 Dados os valores 3 8 5 6 4 3 e 6 calcule a Σ x b 463 Calcule a média e o desvio padrão para o seguinte conjunto de dados 3 9 4 1 3 464 A variância de uma amostra é 100 e a soma de quadrados dos desvios é 500 Qual é o tamanho da amostra 465 A média das idades das quatro pessoas que estão reunidas em uma sala é 20 anos e a variância é zero Se uma pessoa com 40 anos entrar na sala qual será a idade média do novo grupo e qual será a variância 466 São dadas na Tabela 415 as notas de três alunos em cinco provas Calcule para cada aluno a média e o desvio padrão das notas obtidas Discuta Tabela 415 Notas de quatro alunos em cinco provas 467 Responda às seguintes questões a O valor do desvio padrão pode ser maior do que o valor da média b O valor do desvio padrão pode ser igual ao valor da média c O valor do desvio padrão pode ser negativo d Quando o desvio padrão é igual a zero 468 Calcule a variância o desvio padrão e o coeficiente de variação para os dados apresentados no Exercício 365 Cap 3 469 Os tempos de latência em minutos de um analgésico em seis pacientes foram 4 6 4 6 5 5 Calcule a média e a variância 4610 Responda às seguintes questões a qual é a desvantagem de usar a amplitude para comparar a variabilidade de dois conjuntos de dados b a variância pode ser negativa c a variância pode ser menor do que o desvio padrão 4611 Um professor de Odontologia queria saber se alunos que começam a atender pacientes em disciplinas clínicas têm aumento na frequência do batimento cardíaco Então mediu a frequência dos batimentos cardíacos de cinco alunos de primeiro ano que não cursam disciplinas clínicas e de cinco alunos do segundo ano pouco antes do primeiro atendimento de pacientes Os dados estão apresentados na Tabela 416 Calcule as médias e os desvios padrões Discuta Tabela 416 Frequência de batimento cardíaco medida em batimentos por minuto bpm de alunos de primeiro e segundo anos 1 ano 2 ano 87 106 70 100 76 86 71 96 69 90 4612 Para verificar se duas dietas indicadas para pessoas que precisam perder peso são igualmente eficientes um médico separou ao acaso um conjunto de 12 pacientes em dois grupos Cada paciente seguiu a dieta designada para seu grupo Decorrido certo tempo o médico aferiu a perda de peso em quilogramas de cada paciente de cada grupo Os dados estão apresentados na Tabela 417 Calcule as médias e as variâncias Discuta Tabela 417 Perda de peso em quilogramas segundo a dieta 1Os métodos empregados para calcular os quartis apresentam pequenas diferenças Se você calcular os quartis para o Exemplo 53 usando o Excel encontrará valores diferentes Os valores calculados aqui são os quartis em inglês quartiles O outro método usado no Excel calcula as dobradiças em inglês hinges 2Disponível em Defining Quartiles Math Forum Ask Dr Math mathforumorglibrarydrmathview60969html Acesso em 4 ago 2014 3John Wilder Tukey 4A introdução do valor absoluto numa fórmula torna muito mais complicado fazer o cálculo analítico posteriormente em deduções teóricas 5A soma dos desvios é sempre zero Então tendo os valores de n 1 desvios você pode calcular o valor do nésimo desvio que está faltando Reveja o Exemplo 56 Dados os desvios 3 01 e 1 é fácil verificar que a soma deles é 3 Para que a soma seja zero falta o desvio de valor 3 Os graus de liberdade representam o número de desvios que estão livres para variar podem ter qualquer valor o último está determinado porque a soma dos desvios é necessariamente zero 6Essa fórmula está sendo apresentada aqui porque é encontrada em muitos textos mas corresponde à mesma fórmula dada na definição Facilita os cálculos mas hoje isso não tem sentido CAPÍTULO 5 Noções sobre Correlação Você já ouviu falar que o número de pontos no Enem está relacionado ao grau de conhecimento dos alunos Também já ouviu falar que o bom desempenho do atleta está relacionado a um bom treinamento Essas afirmativas mostram que temos consciência de que pode haver relação entre duas variáveis E você sabe que o risco de câncer de pulmão aumenta com o tempo do hábito de fumar e que a pressão arterial aumenta com a idade Tais assertivas mostram que temos consciência da evolução de uma variável ao longo do tempo Neste capítulo vamos ver como se estudam em conjunto duas variáveis 51 Diagrama de dispersão Vamos pensar em duas variáveis numéricas e chamar como é habitual em Estatística uma de X e a outra de Y Se você medir essas duas variáveis em 22 pessoas ou em 22 animais ou em 22 objetos terá 22 pares de valores dessas variáveis Se X e Y têm a tendência de variar conjuntamente dizemos que existe correlação entre ambas Neste Capítulo vamos ver como se responde às seguintes questões É razoável considerar que existe correlação entre X e Y Que tipo de correlação existe entre ambas Qual é o grau dessa correlação É preciso desenhar gráficos e fazer alguns cálculos Começaremos desenhando um diagrama de dispersão Diagrama de dispersão scaterplot é um gráfico feito para mostrar o grau de correlação entre duas variáveis Para desenhar o diagrama de dispersão a trace um sistema de eixos cartesianos e represente cada uma das variáveis em um dos eixos b estabeleça as escalas de maneira a dar ao diagrama o aspecto de um quadrado c escreva os nomes das variáveis nos respectivos eixos e em seguida faça as graduações d desenhe um ponto para representar cada um dos pares de valores das variáveis Exemplo 51 Diagrama de dispersão Um fisioterapeuta mediu a altura X e o peso Y de 22 universitários Os dados estão apresentados na Tabela 51 e o diagrama de dispersão na Figura 51 Observando a figura você vê a variação conjunta de altura e peso os pesos tendem a ser maiores para as alturas maiores Tabela 51 Altura em metros e peso em quilogramas de 22 universitários FIGURA 51 Altura em metros e peso em quilogramas de 22 universitários Podemos considerar que existe correlação entre X e Y quando os dados apresentados no diagrama de dispersão formam uma nuvem de pontos que de alguma forma mostra a variação conjunta das variáveis Veja o Exemplo 52 Exemplo 52 Correlação forte correlação fraca correlação nula Os dados apresentados na Tabela 52 estão apresentados nos diagramas da Figura 52 Veja que Tabela 52 Correlação forte fraca e nula FIGURA 52 Correlação forte fraca e nula no Conjunto A os pontos estão distribuídos em torno e bem próximos de uma reta mostrando variação conjunta a correlação é forte no Conjunto B os pontos estão espalhados em torno de uma reta embora exista variação conjunta a correlação é fraca no Conjunto C X cresce e Y varia ao acaso como a variação não é conjunta não existe correlação entre as variáveis ou seja a correlação é nula Dizemos que a correlação entre duas variáveis é positiva quando X cresce e Y em média também cresce dizemos que a correlação é negativa quando X cresce e Y em média decresce Exemplo 53 Correlação positiva e correlação negativa A simples observação dos diagramas apresentados na Figura 53 deixa claro que no Conjunto A a correlação é positiva enquanto no Conjunto B a correlação é negativa Tabela 53 Correlação positiva e correlação negativa FIGURA 53 Correlação positiva e correlação negativa A correlação entre duas variáveis pode ser linear ou não linear Dizemos que a correlação é linear quando a nuvem de pontos que representam os dados se dispersa em torno de uma reta A correlação é não linear quando a nuvem de pontos se dispersa em torno de uma curva Neste livro são estudadas apenas as relações lineares entre duas variáveis Exemplo 54 Relação linear e relação não linear entre duas variáveis Tabela 54 Relação linear e relação não linear entre duas variáveis A Figura 54 exibe correlações perfeitas no Conjunto A os pontos estão sobre uma reta enquanto no Conjunto B os pontos estão sobre uma parábola FIGURA 54 Relação linear e relação não linear entre duas variáveis 52 Cálculo do coeficiente de correlação O grau de correlação linear entre duas variáveis numéricas X e Y é medido pelo coeficiente de correlação de Pearson1 que se representa por r e é definido pela seguinte fórmula Coeficiente de correlação de Pearson é a medida do grau de relação linear entre duas variáveis numéricas O valor de r só pode variar entre 1 e 1 inclusive ou seja 1 r 1 Então Para julgar o valor de r existe uma regra prática embora rudimentar2 correlação pequena 0 r 025 ou 025 r 0 correlação fraca 025 r 050 ou 050 r 025 correlação moderada 050 r 075 ou 075 r 050 correlação forte 075 r 100 ou 1 r 075 Nas ciências físicas os coeficientes de correlação têm valores relativamente altos Nas ciências da saúde os coeficientes de correlação são menores devido à grande variabilidade dos fenômenos biológicos Nas ciências do comportamento coeficientes de correlação iguais ou maiores que 070 são extremamente raros Mas é importante saber que para julgar o valor do coeficiente de correlação r deve ser aplicado um teste estatístico3 que leva em conta o tamanho da amostra n Exemplo 55 Cálculo do coeficiente de correlação Vamos calcular o coeficiente de correlação para os dados apresentados na Tabela 53 Conjunto A Os cálculos intermediários são apresentados na Tabela 55 Tabela 55 Cálculos intermediários para a obtenção do coeficiente de correlação Conjunto A da Tabela 53 Substituindo na fórmula os somatórios pelos valores calculados na Tabela 55 e lembrando que o tamanho da amostra é n 10 obtemos Usando a regra prática podemos dizer que a correlação entre X e Y é positiva e moderada Exemplo 56 Cálculo do coeficiente de correlação Vamos calcular o coeficiente de correlação para os dados do Conjunto B apresentado na Tabela 53 Os cálculos intermediários são apresentados na Tabela 56 Tabela 56 Cálculos intermediários para obter o coeficiente de correlação Conjunto B da Tabela 53 Substituindo na fórmula os somatórios pelos valores calculados na Tabela 56 e lembrando que o tamanho da amostra é n 10 obtemos Aplicando a regra prática dizemos que a correlação entre X e Y é negativa e moderada É necessário pressupor para que se possa calcular o coeficiente de correlação que 1 cada unidade da amostra forneceu valores tanto de X como de Y 2 as unidades foram selecionadas ao acaso ou pelo menos são representativas de uma grande população 3 as variáveis X e Y foram medidas de forma independente Não tem sentido calcular o coeficiente de correlação se Y tiver sido obtido por meio de uma fórmula que inclui X Exemplo 57 Pressuposição necessária para o cálculo de r Você pode calcular o coeficiente de correlação entre as notas obtidas pelos alunos de um curso na primeira prova X com as notas obtidas na segunda prova Y No entanto não tem sentido correlacionar as notas obtidas na primeira prova X com as notas finais de aprovação Z se essas notas forem médias de todas as notas que incluem a nota X da primeira prova 53 Cuidados na interpretação do coeficiente de correlação O diagrama de dispersão dá ideia da relação entre duas variáveis Mas para que o coeficiente de correlação de Pearson tenha significado é preciso que os pontos estejam espalhados em torno de uma linha reta Portanto antes de calcular o valor de r convém desenhar um diagrama de dispersão se a relação não for linear o valor de r não mede a relação entre as variáveis Outro ponto importante é saber que correlação não implica causa Uma correlação positiva entre duas variáveis mostra que essas variáveis crescem no mesmo sentido mas não indica que aumentos sucessivos em uma das variáveis causam aumentos sucessivos na outra variável Da mesma forma uma correlação negativa entre duas variáveis mostra apenas que variam em sentidos contrários mas não indica que acréscimos em uma das variáveis causam decréscimos na outra variável E cuidado com o chavão correlação não significa causa Pode existir uma relação de causa e efeito entre as variáveis De qualquer forma um exemplo antigo mas muito interessante foi apresentado por um estatístico que mostrou a existência de correlação positiva entre o número de recém nascidos e o número de cegonhas em pequenas cidades da Dinamarca4 nos anos 1940 A correlação entre essas duas variáveis é espúria não indica relação de causa e efeito Existe uma terceira variável tamanho da cidade que se correlacionava tanto com o número de recémnascidos quanto maiores são as cidades mais crianças nascem quanto com o número de casas com chaminés perto das quais as cegonhas faziam seus ninhos 54 Gráfico de linhas Quem trabalha na área de saúde frequentemente precisa observar a tendência da variável ou seja como uma variável evolui ao longo do tempo Isso pode ser feito por meio de um gráfico de linhas também chamado gráfico de série temporal Os dados observados referemse à variável resposta e o tempo é a variável explanatória Variável resposta ou desfecho é a variável que estamos estudando Variável explanatória ou fator é a variável que tem efeito sobre a variável resposta ou desfecho Exemplo 58 Variável resposta e variável explanatória A altura de uma criança varia em função da idade tempo de vida Então a variável resposta é altura e a variável explanatória é idade Para fazer um gráfico de linhas 1 colete valores da variável Y nos tempos que você quer estudar 2 trace um sistema de eixos cartesianos no eixo das abscissas represente o tempo X e no eixo das ordenadas coloque a variável resposta Y 3 estabeleça as escalas e faça as necessárias graduações em cada um dos eixos 4 escreva os nomes das variáveis nos respectivos eixos 5 desenhe um ponto para representar cada par de valores X Y 6 una os pontos por segmentos de reta 7 escreva o título Exemplo 59 Gráfico de linhas Tabela 57 População residente no Brasil segundo o ano do censo demográfico Ano do censo População 1940 1 41236315 1950 1 51944397 1960 1 70070457 1970 93139037 1980 119002706 1991 146825475 2000 169799170 2010 190755799 Nota População presente Fonte IBGE 20035 No gráfico os pontos consecutivos ligados por linhas ajudam a visualizar as mudanças da variável no período em estudo Assim a Figura 55 mostra nitidamente o crescimento da população brasileira entre 1940 e 2010 Nesse período a população mais do que quadruplicou FIGURA 55 População do Brasil segundo o ano do censo demográfico 55 Exercícios resolvidos 551 Calcule os coeficientes de correlação para cada um dos três conjuntos de dados apresentados no Exemplo 52 Para o Conjunto A ΣX 55 ΣY 60 ΣXY 352 ΣX2 385 ΣY2 434 Portanto r 0282 Para o Conjunto B ΣX 55 ΣY 76 ΣXY 487 ΣX2 385 ΣY2 654 Portanto r 0869 Para o Conjunto C ΣX 55 ΣY 75 ΣXY 495 ΣX2 385 ΣY2 645 Portanto r 1000 552 Em um trabalho sobre acumulação de placa dental em pacientes jovens foi obtido tanto um índice clínico para medir a quantidade de placa como o peso seco das placas em miligramas Os dados são apresentados na Tabela 58 Construa um diagrama de dispersão Você acha que existe correlação entre as medidas Em caso positivo a correlação é linear Tabela 58 Peso seco em miligramas das placas dentais de dez pacientes e índice clínico Peso seco Índice clínico 23 25 28 45 35 50 37 68 58 80 69 100 82 120 105 128 119 132 142 135 FIGURA 56 Índice clínico e peso seco em miligramas das placas dentais em dez pacientes Existe correlação positiva entre as variáveis duas maneiras de medir placas dentais pois ambas crescem no mesmo sentido Aliás sempre se espera correlação entre duas maneiras de medir uma mesma variável Observe que a correlação é não linear6 553 Faça um diagrama de dispersão e calcule o coeficiente de correlação para os dados apresentados na Tabela 59 Discuta o resultado Tabela 59 Peso em quilogramas e comprimento em centímetros de sete recém nascidos Peso Comprimento 35 51 37 49 31 48 42 53 28 48 35 50 32 49 Tabela 510 Cálculos intermediários para obtenção do coeficiente de correlação FIGURA 57 Peso em quilogramas e comprimento em centímetros de sete recém nascidos Usando a fórmula obtémse r 0869 ou seja existe elevada correlação positiva entre peso e comprimento de recémnascidos 554 A Tabela 511 fornece o peso a estatura e o IMC índice de massa corporal de dez pessoas É razoável calcular os coeficientes de correlação das três variáveis combinadas duas a duas Por exemplo altura versus peso altura versus IMC peso versus IMC Tabela 511 Peso em quilogramas estatura em centímetros e IMC de dez pessoas Altura Peso IMC 156 535 2198 158 584 2339 161 592 2284 162 532 2027 165 640 2351 172 575 1944 173 670 2239 174 660 2180 179 770 2403 180 660 2037 O IMC é dado pela seguinte fórmula e indica a condição da pessoa como segue IMC Condição Abaixo de 185 Abaixo do peso De 185 a 249 Peso normal De 25 a 299 Sobrepeso De 30 a 349 Obesidade grau I De 35 a 399 Obesidade grau II 40 e mais Obesidade grau III É perfeitamente cabível calcular a correlação entre peso e altura mas nunca de qualquer dessas variáveis contra IMC uma vez que essa variável é calculada a partir das outras duas Calcular a correlação entre peso e IMC ou entre altura e IMC por exemplo entraria em conflito com a pressuposição de independência 555 Faça um gráfico de linhas para os dados apresentados no Exercício 552 para mostrar como o índice clínico varia em função do peso seco das placas Discuta A Figura 58 mostra que o índice clínico usado para medir a quantidade de placa aumenta linearmente e de forma acelerada com o peso seco das placas em miligramas até cerca de 8mg Depois tende a estabilizar Isso talvez se explique pelo fato de o índice clínico medir a área dos dentes com placas bacterianas mas não o volume Ora o peso leva em conta o volume das placas que aumenta quando o acúmulo de placas é grande FIGURA 58 Índice clínico em função do peso seco das placas bacterianas 556 Reveja os dados apresentados no Exemplo 51 relativos ao fisioterapeuta que mediu o peso Y e a altura X de 22 universitários O valor do coeficiente de correlação para esses dados é r 0747 075 Verifique A correlação é forte e positiva indicando relação entre as variáveis 6Existe uma explicação para o fato de a curva se estabilizar o índice clínico mede apenas a extensão da área coberta pelas placas e não o volume que determina o peso 56 Exercícios propostos 561 Explique o que cada um dos seguintes coeficientes de correlação informa sobre a relação entre X e Y a r 1 b r 1 c r 0 d r 090 e r 090 562 Sem ver os dados que tipo de correlação você espera entre a idade de pessoas adultas e velocidade de corrida b número de vendedores em uma loja e volume de vendas feitas por dia c a estatura de um homem e o número de dentes existentes na boca 563 Um estudo mostrou que a taxa de morte por doenças do coração era maior entre motoristas de ônibus do que entre cobradores A princípio pensouse que o tipo de trabalho fosse a maior causa da doença mas depois se notou que o tamanho dos uniformes fornecidos aos motoristas era sempre bem maior que o dos cobradores O que isso sugere a você 564 Os valores de X e Y devem ser medidos na mesma unidade para que se possa calcular o coeficiente de correlação 565 Indique a afirmativa que melhor descreve os diagramas a b e o c apresentados na Figura 59 FIGURA 59 Diagramas de dispersão a Forte correlação positiva b Forte correlação negativa c Correlação nula ou próxima de nula d Correlação positiva fraca e Correlação negativa fraca f Correlação perfeita positiva g Correlação perfeita negativa 566 Preencha os vazios O maior valor possível para o coeficiente de correlação é Se todos os pontos caírem exatamente sobre uma reta o valor de r será ou dependendo de a correlação ser ou Se todos os pontos estiverem espalhados ao acaso no diagrama de dispersão o coeficiente de correlação terá valor próximo de Quanto mais próximos de uma reta estiverem todos os pontos será o valor absoluto de r 567 A correlação entre idade e expectativa de vida é a positiva b nula c negativa d irregular 568 O diagrama de dispersão deve ser feito para estabelecer a se as variáveis estão ou não correlacionadas b se as variáveis são positivas c se as variáveis são negativas d a qualidade das variáveis 569 Faça um diagrama de dispersão e calcule o coeficiente de correlação para os dados apresentados na Tabela 512 Discuta o resultado Tabela 512 Dados relativos a duas variáveis X e Y X Y 3 2 5 2 4 7 2 7 1 2 5610 Faça diagramas de dispersão e calcule os valores de r para os conjuntos de dados da Tabela 513 Tabela 513 Dois conjuntos de pares de valores de duas variáveis 5611 Se todos os valores de Y forem iguais entre si qual será o valor de r 5612 Calcule o coeficiente de correlação para os dados apresentados na Tabela 514 Tabela 514 Idade gestacional em semanas e peso ao nascer em quilogramas de recém nascidos Idade gestacional Peso ao nascer 28 125 32 125 35 175 38 225 39 325 41 325 42 425 5613 Calcule os coeficientes de correlação de Pearson para os dados dos dois conjuntos de dados apresentados na Tabela 515 Discuta a razão de os valores de r serem tão diferentes embora os dados sejam tão semelhantes Tabela 515 Dois conjuntos de pares de valores de duas variáveis 5614 Suponha que foram obtidos de pacientes com enfisema7 o número de anos que o paciente fumou X e a avaliação do médico uma nota medida numa escala de zero a 100 sobre a diminuição da capacidade pulmonar do paciente Y Os resultados para dez pacientes são apresentados na Tabela 516 Calcule o valor do coeficiente de correlação Tabela 516 Tempo do hábito de fumar X em anos e diminuição da capacidade pulmonar Y avaliada pelo médico do paciente N do paciente X Y 1 25 55 2 36 60 3 22 50 4 15 30 5 48 75 6 39 70 7 42 70 8 31 55 9 28 30 10 33 35 Saiba que ΣY 18055 ΣX2 11053 ΣY2 30600 5615 O volume máximo de oxigênio inalado VO2MAX tem sido usado como medida da situação cardíaca tanto de indivíduos saudáveis como de pessoas que sofrem de doenças cardíacas Os dados8 de VO2MAX em mililitros por quilograma por minuto e o tempo de exercício em minutos para 12 voluntários homens saudáveis depois da prática de exercícios estão apresentados na Tabela 517 Desenhe um diagrama de dispersão Olhando o diagrama você diria que VO2 MAX diminui quando aumenta o tempo de atividade Tabela 517 Duração do exercício em minutos e VO2 MAX em mililitros por quilograma por minuto para 12 homens saudáveis Voluntário Duração do exercício VO2 MAX 1 100 82 2 95 73 3 102 68 4 105 74 5 110 66 6 113 63 7 116 58 8 120 54 9 121 56 10 125 51 11 128 55 12 130 44 5616 Faça um gráfico de linhas para os dados apresentados na Tabela 518 Discuta o resultado Tabela 518 Taxas de fecundidade total no Brasil segundo o ano do censo Ano do censo Taxa de fecundidade total 1940 616 1950 621 1960 628 1970 576 1980 435 1991 289 2000 238 2010 190 7Ott L e Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 p 487 8Ott L e Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 p 503 5IBGE Dados Históricos dos Censos de 1940 a 1996 IBGE Instituto Brasileiro de Geografia e Estatística wwwibgegovbrhomeestatisticapopulacao19401996shtm Acesso em Abr 2014 Resultados do Universo do Censo Demográfico 2010 wwwibgegovbr Acesso em Abr 2014 1Para estudar a correlação entre variáveis ordinais calculase o coeficiente de correlação de Spearman Ver em Vieira Sonia Bioestatística tópicos avançados Rio de Janeiro Elsevier 2003 2A regra é imprecisa mas serve como primeira aproximação Além disso valores de r entre 030 e 030 embora possam apresentar significância estatística não são perceptíveis nos diagramas Colton T Statistics in Medicine New York Little Brown and Company 1974 p 20911 3Ver o teste t no Capítulo 12 4O exemplo é de Gustav Fischer que apresentou em gráfico a população da cidade de Oldenburg durante sete anos de 1930 a 1936 e o número de cegonhas observadas em cada um desses anos Box G E P Hunter W G Hunter J S Statistics for experimenters New York Wiley 1978 CAPÍTULO 6 Noções sobre Regressão Como vimos no Capítulo 5 a configuração dos pontos no diagrama de dispersão pode sugerir correlação entre duas variáveis mas também pode sugerir relação linear entre elas Se a variação da variável resposta Y em função da variação da variável explanatória X for aproximadamente linear é razoável buscar a equação da reta que descreve os dados Exemplo 61 Uma relação linear Um pesquisador colocou em oito tubos de ensaio a mesma quantidade de plasma humano e depois reuniu nos oito tubos a mesma quantidade de procaína1 O pesquisador então analisou o conteúdo de cada tubo em tempos diferentes variável X e obteve a quantidade de procaína que já estava hidrolisada Y em cada um Os dados são apresentados na Tabela 61 e o diagrama de dispersão na Figura 61 A relação entre a quantidade de procaína hidrolisada Y e o tempo decorrido X após o início da pesquisa parece linear Então tem lógica traçar uma reta para mostrar como Y varia em função de X nas condições estudadas Tabela 61 Quantidade de procaína hidrolisada em 10 moleslitro no plasma humano em função do tempo decorrido desde que foi colocada no tubo de ensaio contendo plasma humano em minutos Tempo Quantidade hidrolisada 2 35 3 57 5 99 8 163 10 193 12 257 14 282 15 326 FIGURA 61 Quantidade de procaína hidrolisada em 10 moleslitro no plasma humano em função do tempo em minutos decorrido desde que foi colocada no tubo de ensaio contendo plasma humano 1Procaína é um anestésico local 61 Regressão linear simples Regressão é um termo antigo em Estatística mas ainda usado para relatar que um modelo matemático foi ajustado aos dados para explicar a variação da variável resposta Y em função da variação da variável explanatória X Exemplo 62 Ideia de regressão Reveja o Exemplo 61 Como se explica a variação da quantidade de procaína nos oito tubos de ensaio que continham plasma humano Pelo passar do tempo Veja bem a procaína se hidrolisa no plasma humano ou seja a água do plasma quebra a molécula de procaína por meio de reação química À medida que o tempo passa mais procaína é hidrolisada Agora observe a Figura 61 a variação da quantidade de procaína hidrolisada em função da variação do tempo decorrido desde que foi colocada no tubo de ensaio contendo plasma humano é linear Vamos estudar neste capítulo apenas a regressão linear simples linear porque o modelo que vamos ajustar é uma reta e simples porque há apenas uma variável explanatória A melhor reta melhor no sentido de que reúne as propriedades estatísticas desejáveis recebe o nome de reta de regressão2 Nesta seção são fornecidas as fórmulas para se obter essa reta ou seja para se obterem o coeficiente linear e o coeficiente angular da reta Equação da reta a coeficiente linear b coeficiente angular Vamos entender o significado desses coeficientes no sistema de eixos cartesianos O coeficiente linear da reta indicado neste livro por a dá a altura em que a reta corta o eixo das ordenadas Se a for um número positivo a reta corta o eixo das ordenadas acima da origem negativo a reta corta o eixo das ordenadas abaixo da origem zero a reta passa na origem do sistema de eixos cartesianos Exemplo 63 Equação da reta coeficientes lineares diferentes FIGURA 62 Apresentação gráfica de retas com diferentes coeficientes lineares O coeficiente angular da reta aqui indicado por b dá a inclinação da reta3 Se b for um número positivo a reta é ascendente negativo a reta é descendente zero a reta é paralela ao eixo das abscissas Exemplo 64 Equação da reta coeficientes angulares diferentes FIGURA 63 Apresentação gráfica de retas com diferentes coeficientes angulares Em Estatística o coeficiente angular da reta é obtido por meio da seguinte fórmula e o coeficiente linear é obtido por meio desta fórmula em que e são as médias de Y e X respectivamente Veja o Exemplo 65 Exemplo 65 Cálculo dos coeficientes de regressão Vamos obter a reta de regressão para o problema apresentado no Exemplo 61 Tabela 62 Cálculos intermediários para a obtenção de a e de b Aplicando as fórmulas obtemos Para traçar a reta de regressão é preciso dar valores arbitrários para X e depois calcular os valores de Y Indicamse os valores calculados de Y por Ŷ Fazendo X 5 temse que e fazendo X 15 temse que Os dois pares de valores X 5 e Ŷ 982 e X 15 e Ŷ 3142 permitem traçar a reta de regressão no diagrama de dispersão Veja a Figura 64 FIGURA 64 Reta de regressão quantidade de procaína hidrolisada em 10 moleslitro no plasma humano em função do tempo em minutos decorrido após sua administração A equação da reta de regressão permite estimar valores de Y para quaisquer valores de X dentro do intervalo estudado mesmo que tais valores não existam na amostra Exemplo 66 Estimativas da variável resposta Observe os dados apresentados na Tabela 61 Não existe o valor X 13 mas é possível estimar o valor da variável resposta Y para X 13 Basta fazer O valor Ŷ 2710 é uma estimativa feita com base na equação da reta de regressão para a quantidade de procaína que deve estar hidrolisada 13 minutos após sua administração 62 Extrapolação Dada a reta de regressão fica fácil calcular o valor de Y para qualquer valor de X No entanto o bom senso deve fazer com que você não estime valores de Y para valores de X muito além do intervalo estudado a extrapolação pode levar ao absurdo porque a relação entre X e Y linear no intervalo estudado pode não ser linear fora desse intervalo A extrapolação pode ser incorreta ou até mesmo desastrosa É verdade que as pessoas gostariam de prever o que acontecerá em futuro próximo ou longínquo com base no que viram no passado Mas isso nem sempre dá certo o fenômeno pode ser modificado por fatores que não foram previstos Toda extrapolação exige muito cuidado Exemplo 67 A extrapolação indevida A Tabela 63 apresenta as temperaturas médias mensais nos primeiros sete meses do ano de uma cidade do sul do Brasil Esses dados são apresentados no diagrama de dispersão da Figura 65 Se alguém ajustar uma reta como a mostrada no diagrama e quiser usar essa reta para prever a temperatura na cidade em dezembro mês 12 chegará a um valor absurdo menor do que 2 graus negativos A razão disso é óbvia o fenômeno é cíclico não é linear além do período estudado Tabela 63 Temperaturas médias em graus centígrados segundo o mês de uma cidade do sul do Brasil Mês Número do mês Temperatura média no mês Janeiro 1 23 Fevereiro 2 22 Março 3 20 Abril 4 18 Maio 5 15 Junho 6 12 Julho 7 9 FIGURA 65 Reta ajustada às temperaturas médias de uma cidade do sul do Brasil segundo o mês 63 Escolha da variável explanatória Quando os valores de X são fixados antes do início da coleta dos dados ajustase a regressão de Y contra X No Exemplo 61 o pesquisador fixou os tempos em que iria observar a quantidade de procaína hidrolisada antes de iniciar a pesquisa Então a quantidade de procaína hidrolisada depende do tempo em que foi medida não o contrário Nem sempre os valores de X são fixados antes do início da pesquisa Nesses casos tanto é possível ajustar a regressão de Y contra X quanto a regressão de X contra Y mas recomendase identificar a variável que deve ser prevista conhecido o valor da outra variável e ajustar a regressão da variável resposta Y contra a variável explanatória X Exemplo 68 Escolha da variável explanatória Veja os dados apresentados na Tabela 64 Você deve ajustar uma regressão da pressão arterial Y contra o peso X porque é o peso que pode explicar explanar a pressão arterial e não o contrário Tabela 64 Pressão arterial PA em milímetros de mercúrio e peso de cães adultos em quilogramas Foram calculados Então A reta de regressão apresentada na Figura 66 mostra a tendência de ocorrer aumento de pressão arterial quando aumenta o peso mas convém observar que os pontos estão muito dispersos em torno da reta Isso significa que a previsão da pressão arterial de um cão adulto em função de seu peso apresenta grande margem de erro FIGURA 66 Reta de regressão para pressão arterial em função do peso 64 Coeficiente de determinação Antes de aprendermos o que é coeficiente de determinação vamos entender o que é uma relação matemática e o que é uma relação estatística Se você aumentar o lado de um quadrado em 1 cm a área aumenta E se você continuar aumentando o lado do quadrado de 1 cm em 1 cm a área continuará aumentando Você sabe dizer exatamente a área do quadrado para cada tamanho de lado porque a relação entre a área de um quadrado e seus lados é matemática área lado lado Pense agora em alguém que quer diminuir o peso porque seu médico lhe disse obesos tendem a ter pressão arterial alta Sabese portanto que o aumento da pressão arterial é função do aumento de peso Será que existe uma relação exata entre essas duas variáveis ou seja para cada quilo a mais haverá aumento fixo na pressão arterial Não é assim Sabese que existe a tendência de a pressão arterial aumentar de acordo com o aumento de peso mas a pressão arterial também aumenta em função de outros fatores como idade vida sedentária hereditariedade e certos hábitos como por exemplo o de fumar e de consumir sal em excesso E mesmo que conhecêssemos muitas das causas que explicam o aumento da pressão arterial ainda assim não saberíamos prever exatamente a pressão arterial de uma pessoa A relação entre pressão arterial e peso é probabilística e portanto sujeita a erro Assim existem relações determinísticas como é a relação entre lado e área de um quadrado e relações probabilísticas como é a relação entre peso e pressão arterial No primeiro caso não há erro na previsão ou seja dado o lado de um quadrado você pode dizer exatamente qual é a área está determinado No segundo caso a previsão é possível mas dentro de certas margens de erro Neste ponto a pergunta é inevitável qual é o tamanho desse erro Existe uma estatística denominada coeficiente de determinação indicada por R2 que mede a contribuição de uma variável na previsão de outra Parece complicado mas tente entender este exemplo imagine que você queira comprar uma camiseta para uma criança Você chega à loja e pede ajuda à vendedora O que ela pergunta em primeiro lugar A idade da criança claro Por quê Porque o tamanho de uma criança é função da idade Boa parte da variação do tamanho das crianças é explicada pela variação de sua idade o que é medido pelo R2 Portanto saber a idade da criança ajuda na previsão do tamanho de sua camiseta4 O coeficiente de determinação é a proporção da variação de Y explicada pela variação de X O coeficiente de determinação é calculado pelo quadrado do coeficiente de correlação Não pode portanto ser negativo Varia entre zero e 1 inclusive Para interpretar o coeficiente de determinação é melhor transformálo em porcentagem multiplicando o resultado obtido em seu cálculo por 100 Veja o Exemplo 69 Exemplo 69 Coeficiente de determinação Calcule o coeficiente de determinação para os dados apresentados na Tabela 61 e para os dados apresentados na Tabela 64 Discuta cada um deles Usando os cálculos intermediários já apresentados na Tabela 62 é possível obter R2 0994 Isso significa que 994 da variação da quantidade de procaína hidrolisada no plasma se explicam pelo tempo decorrido após sua administração Em outras palavras se você souber o tempo decorrido desde que a procaína foi colocada no plasma poderá justificar 994 da variação de procaína que se hidrolisou Para os dados contidos na Tabela 64 com o auxílio de um computador ou de seu professor é possível obter R2 0265 um valor baixo Se fosse alto a explicação seria que dado o peso de um cão a pressão arterial seria altamente previsível No entanto fatores como idade vida sedentária hereditariedade e alimentação também são importantes Para ajustar uma regressão linear simples de X contra Y é preciso que os dados dessas duas variáveis tenham sidos obtidos de forma independente Então quando você for interpretar os resultados do ajuste de uma regressão verifique como foram obtidos os dados de X e Y Veja o Exemplo 69 a regressão obtida é uma falácia porque não se pode fazer uma regressão da diferença das variáveis contra o valor inicial Exemplo 610 Uma falácia Observe os dados da Tabela 65 que estão no diagrama de dispersão da Figura 67 os pontos não sugerem correlação entre as variáveis O coeficiente de determinação é R2 0030 No entanto se você fizer a diferença Y X e colocar a diferença como função do valor inicial X obterá o diagrama de dispersão da Figura 68 com R2 0582 Só que isso não pode ser feito a regressão obtida é uma falácia Tabela 65 Notas de dez alunos em duas provas 1ª prova 2ª prova Diferença 2ª prova 1ª prova 7 7 0 5 5 0 4 8 4 9 9 0 2 10 8 4 3 1 8 4 4 10 6 4 6 4 2 7 3 4 FIGURA 67 Nota na segunda prova em função da nota na primeira prova FIGURA 68 Diferença das notas de dez alunos em duas provas em função da primeira nota 65 Regressão não linear Existem situações em que os pares de valores das variáveis X e Y apresentados em diagrama de dispersão não se distribuem em torno de uma reta5 Veja o Exemplo 611 Exemplo 611 Uma regressão não linear Observe os dados da Tabela 66 apresentados em diagrama de dispersão na Figura 69 os pontos estão dispersos em torno de uma curva Tabela 66 Valores de duas variáveis X e Y X Y 00 40 06 80 12 150 15 226 18 364 21 453 24 600 FIGURA 69 Diagrama de dispersão para os valores X e Y apresentados na Tabela 66 Quando os pontos apresentados em diagrama de dispersão não estão em torno de uma reta podemos transformar6 a variável Y Por exemplo é possível desenhar um diagrama de dispersão colocando no lugar de valores de Y os valores do logaritmo neperiano7 de Y Exemplo 612 Transformação dos dados Para os dados apresentados no Exemplo 611 os valores de X e dos logaritmos neperianos de Y estão apresentados na Tabela 67 e na Figura 610 Note que o diagrama de dispersão apresentado na Figura 610 mostra pontos praticamente sobre uma reta Tabela 67 Valores de X e dos logaritmos neperianos de Y X lnY 0 13863 06 20794 12 27081 15 31179 18 35946 21 38133 24 40943 FIGURA 610 Diagrama de dispersão É possível ajustar uma regressão linear de lnY contra X Para calcular a e b nas fórmulas dos coeficientes de regressão usamse os logaritmos neperianos de Y em vez dos valores coletados de Y Se você quiser voltar ao valor da variável Y é preciso calcular o antilogaritmo da equação Essa equação é chamada de exponencial porque traz a variável explanatória no expoente8 Exemplo 613 Ajuste de regressão não linear A Tabela 68 apresenta os cálculos intermediários para se obter a equação exponencial no Exemplo 611 Tabela 68 Cálculos intermediários para obtenção de a e b A equação de reta de regressão de lnY contra X é Se você quiser voltar ao valor da variável Y é preciso calcular o antilogaritmo da equação Você então obtém a equação exponencial ou Para que uma regressão linear possa ser ajustada aos dados muitas vezes basta transformar uma das variáveis9 Outras vezes é preciso transformar ambas as variáveis10 Também podem ser utilizadas outras transformações além da transformação logarítmica mostrada neste capítulo Assim também são usadas a extração de raiz quadrada e a inversão além de outras mais complicadas As transformações são em geral empíricas ou seja dados n pares de valores X e Y é preciso fazer várias tentativas até achar a transformação que permita ajustar uma regressão linear aos pares de dados Algumas vezes porém o modelo é especificado teoricamente Por exemplo a equação de Arrenhius dá a velocidade de uma reação química em função da temperatura em que a reação se processa Se T é a temperatura em graus Kelvin na qual ocorre a reação química a equação de Arrenhius estabelece que a velocidade V é dada por em que lnV é o logaritmo neperiano da velocidade da reação química à temperatura T e R é uma constante 1987 calgraumol Para ajustar a equação de Arrenhius aos dados de temperatura e de velocidade de uma reação química é preciso calcular os valores das variáveis transformadas ou seja o logaritmo neperiano da velocidade e o inverso da temperatura Em seguida ajustase uma regressão linear do logaritmo neperiano de V contra o inverso de T isto é Então C a e A Rb Uma regra porém é básica antes de ajustar uma reta de regressão aos dados devem se colocar os pontos X Y em um diagrama de dispersão e estudar o conhecimento disponível na literatura sobre o fenômeno A inspeção dos dados numéricos é obrigatória Às vezes é possível ajustar mais de um modelo aos dados e depois escolher com base nas estatísticas obtidas coeficientes de determinação etc o modelo que melhor se ajusta aos dados Neste Capítulo vimos como se ajusta uma regressão linear simples aos dados linear porque é uma reta e simples porque está no plano existe uma só variável resposta estudada em função de uma só variável explanatória Mas a variação da variável resposta ou o desfecho pode ser posta em função de diversas variáveis explanatórias É o caso por exemplo da pressão arterial desfecho que depende não apenas do fator peso como mostrado no exemplo mas também de outros fatores hereditários de alimentação de hábitos etc Nesses casos ajustase aos dados uma regressão múltipla ou seja uma função com diversas variáveis explanatórias Mas esse tema não será tratado neste livro 66 Exercícios resolvidos 661 Ajuste uma reta de regressão aos dados apresentados no Exercício 553 Cap 5 para estudar peso em função do comprimento dos recémnascidos Calcule o coeficiente de determinação FIGURA 611 Reta de regressão para peso de recémnascidos em função do comprimento 662 Ajuste uma reta de regressão aos dados apresentados no Exercício 554 Cap 5 para estudar peso em função de altura Calcule o coeficiente de determinação FIGURA 612 Reta de regressão para peso em função da altura 67 Exercícios propostos 671 Ajuste uma reta de regressão aos dados apresentados na Tabela 69 Tabela 69 Teor de vitamina C mg de ácido ascórbico100 mL de suco de maçã em função do período de armazenamento em dias Período de armazenamento Teor de vitamina C 1 409 45 327 90 245 135 327 180 164 672 A reta de regressão será a mesma se você trocar X por Y O coeficiente de correlação muda 673 É preciso que X e Y tenham as mesmas unidades para que seja possível calcular a reta de regressão 674 Se os filhos fossem exatamente 5 cm mais altos que seus pais como ficaria a reta de regressão que daria a altura dos filhos em função da altura de seus pais 675 Como seria a reta de regressão se todos os pontos de X tivessem o mesmo valor 676 Os dados da Tabela 610 foram apresentados com a finalidade de mostrar que existe relação entre CPOD médio a média de um índice de cáries ou seja a média da soma do número de dentes afetados pela cárie em uma amostra de crianças C cariados P perdidos por cárie O obturados ou seja restaurados devido a ataques de cárie e a média do número de anos de estudo do responsável pelas crianças O que você acha Tabela 610 Número médio de anos de estudo do responsável pelas crianças de uma amostra e CPOD médio Anos de estudo do responsável CPOD médio 0 170 De 1 até 4 anos 185 De 5 até 8 anos 075 De 9 a 11 anos 044 677 Uma cadeia de padarias queria saber se a quantidade de dinheiro gasto em propaganda faz as vendas aumentarem Durante seis semanas fez em ordem aleatória gastos com propaganda de valores variados conforme mostra a Tabela 611 e anotou os valores recebidos nas vendas Calcule a reta de regressão e coloque em forma de gráfico O que você acha Tabela 611 Gastos com propaganda em reais na semana e valores recebidos em reais nas vendas Gastos Valores recebidos 10000 102000 15000 161000 20000 203000 25000 256000 30000 280000 678 Com os dados11 apresentados no Exercício 5614 Cap 5 obtidos de pacientes com enfisema calcule a reta de regressão 679 Com os dados12 apresentados no Exercício 5615 Cap 5 sobre o volume máximo de oxigênio inalado VO2MAX você diria que a variável diminui linearmente à medida que a atividade aumenta Calcule a reta de regressão 6710 Os dados13 apresentados na Tabela 612 referemse à pressão sanguínea diastólica em milímetros de mercúrio quando a pessoa está em repouso Os valores de X indicam o tempo em minutos desde o início do repouso e os valores de Y são valores da pressão sanguínea diastólica Desenhe um diagrama de dispersão Uma reta de regressão explicaria a variação da pressão sanguínea diastólica em função desse tempo de repouso Tabela 612 Tempo em minutos desde o início do repouso e pressão sanguínea diastólica em milímetros de mercúrio Tempo em minutos desde o início do repouso Pressão sanguínea diastólica 0 72 5 66 10 70 15 64 20 66 6711 Faça um diagrama de dispersão para apresentar os dados da Tabela 613 Calcule a reta de regressão Coloque a reta no gráfico Que peso médio deveriam ter dez ratos com 32 dias Tabela 613 Idade em dias e peso médio em gramas de dez ratos machos da raça Wistar Idade Peso médio 30 64 34 74 38 82 42 95 46 106 6712 Ajuste uma equação exponencial aos dados da Tabela 614 Tabela 614 Dados de X e Y X Y 28 125 32 125 35 175 38 225 39 325 41 325 42 425 11Ott L e Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 p 487 12Ott L e Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 p 487 13Schork M A e Remington R D Statistics with applications to the biological and health sciences 3 ed New Jersey Prentice Hall 2000 p 297 2Muitos autores referemse à reta de regressão como reta de mínimos quadrados porque esse é o método estatístico utilizado para se chegar às fórmulas dadas nesta seção 3O coeficiente angular chamado neste livro de b é a tangente trigonométrica do ângulo θ formado pelo eixo das abscissas e pela reta de equação Y a bX 4A vendedora também pergunta se o presente é para menino ou menina Essa informação também contribui embora menos do que a idade para a escolha do tamanho na primeira infância os meninos são maiores mostrandose contudo decisiva para a escolha do modelo 5No programa Excel você encontra as seguintes opções para ajuste de regressão linear que vimos até o momento logarítmica polinomial que não será vista neste livro potência exponencial média móvel que não será vista neste livro 6Desde que não haja razão teórica para se acreditar que a relação é obrigatoriamente linear 7No Excel procure a opção exponencial 8O programa Excel para computadores faz essa transformação com muita facilidade 9Para ajustar uma regressão logarítmica transforme X ou seja ajuste a regressão dos logaritmos de X contra Y Para ajustar uma regressão potência transforme X e Y ou seja ajuste a regressão dos logaritmos de X contra os logaritmos de Y 10Veja mais sobre o assunto em Vieira Sonia Bioestatística tópicos avançados 2 ed Rio de Janeiro Campus 2003 CAPÍTULO 7 Noções sobre Amostragem Até o momento vimos a Estatística Descritiva que mostra como relatar os dados que temos em mãos A interpretação do material coletado é feita por meio de gráficos e da apresentação de estatísticas como médias e desvios padrões e se for o caso coeficientes de correlação e reta de regressão Então se você medir o peso e a altura de cem crianças com 7 anos saberá apresentar e resumir os dados ou seja descrever o que encontrou nesse grupo de crianças É possível generalizar as observações feitas nessas cem crianças uma amostra para todas as crianças com 7 anos da região a população Mas para isso é preciso usar um conjunto de técnicas de Estatística que permitem com base em uma amostra fazer inferência para a população de onde a amostra foi retirada Veremos um pouco dessas técnicas nos próximos capítulos Neste vamos estudar população e amostra 71 População e amostra População ou universo é o conjunto de unidades sobre o qual desejamos informação Amostra é todo subconjunto de unidades retiradas da população para obter a informação desejada A chave para o bom entendimento da Estatística é saber distinguir entre os dados observados amostra e a vasta quantidade de dados que poderiam ter sido observados população O uso de amostras permite obter respostas para a questão estudada com margens de erro conhecidas Os termos população ou universo não se restringem porém ao conjunto de pessoas referindose sim a qualquer conjunto grande de unidades que têm algo em comum como por exemplo radiografias feitas pelos alunos de uma faculdade em determinado curso prontuários de pacientes atendidos pelo SUS durante todo um ano laudos de necropsia encaminhados à Justiça por um dado serviço auditorias das contas hospitalares de uma maternidade ou certidões de óbito registradas numa cidade em determinado período Também é preciso distinguir entre populaçãoalvo e população configurada Para isso imagine que um instituto de pesquisa queira saber a proporção de moradores de uma cidade favoráveis à proposta do prefeito de implantar ciclovias A populaçãoalvo da pesquisa é constituída por todos os moradores da cidade No entanto nem toda a populaçãoalvo estará disponível para ser amostrada há os que não estão circulando nas ruas porque estão hospitalizados ou estão em casa cuidando de uma criança ou um doente os muito velhos os presidiários os que não sabem responder como é o caso de crianças pequenas e deficientes mentais indecisos pessoas que não aceitam responder etc Logo a população configurada para amostragem é necessariamente menor do que a populaçãoalvo Veja a Figura 72 FIGURA 72 Configuração da amostra FIGURA 71 A ideia de amostragem 72 Parâmetros e estatísticas Parâmetro é um valor em geral desconhecido e portanto que precisa ser estimado que representa determinada característica da população Em dada população e em dado momento o parâmetro não varia ou seja é um valor fixo1 Estatística é uma quantidade calculada com os dados de uma amostra É usada para estimar o parâmetro correspondente na população de onde foi retirada2 1Statistics Glossary Disponível em wwwstatsglaacukstepsglossary Acesso em 22 de janeiro de 2015 2Statistics Glossary wwwstatsglaacukstepsglossary Acesso em 22 de janeiro de 2015 É importante entender quando se faz pesquisa por amostragem que é possível tirar diferentes amostras da mesma população e os valores das estatísticas variarão de amostra para amostra Por exemplo no Brasil a média de idade dos universitários é um parâmetro Diferentes amostras retiradas ao acaso da população de alunos darão estimativas diferentes desse parâmetro mas todas serão estatísticas 73 Razões para o uso de amostras Chamase de censo o levantamento de dados de toda a população A Fundação Instituto Brasileiro de Geografia e Estatística IBGE faz o Censo Demográfico do Brasil a cada dez anos por exigência da Constituição da República Federativa do Brasil São coletadas por exemplo informações sobre sexo idade e nível de renda de todos os residentes no país Mas os pesquisadores da área de saúde não fazem censos embora às vezes usem os dados neles coletados As razões para se trabalhar com amostras e não com toda a população são poucas mas absolutamente relevantes A primeira razão é a questão do custo e da demora dos censos Por exemplo qual é a média de peso ao nascer de nascidos vivos no Brasil em determinado ano Avaliar toda a população pode ser impossível para o pesquisador porque levaria muito tempo e seria muito caro Outra razão para estudar amostras é o fato de existirem populações tão grandes que as estudar por inteiro seria impossível Por exemplo quantos peixes tem o mar Esse número é em determinado momento matematicamente finito mas tão grande que pode ser considerado infinito para qualquer finalidade prática Então quem faz pesquisas sobre peixes do mar trabalha necessariamente com amostras Outras vezes é impossível estudar toda a população porque o estudo destrói as unidades Uma empresa que fabrica fósforos e queira testar a qualidade do produto que fabrica não pode acender todos os fósforos que fabricou apenas alguns deles O uso de amostras tem ainda outra razão o estudo cuidadoso de uma amostra tem maior valor científico do que o estudo sumário de toda a população Por exemplo imagine que um pesquisador queira estudar os hábitos de consumo de bebidas alcoólicas entre adolescentes de uma grande cidade É melhor que o pesquisador faça a avaliação criteriosa de uma amostra do que a avaliação sumária de toda a população de adolescentes da cidade De qualquer modo a amostra deve refletir as características da população da qual foi retirada 74 Métodos de amostragem Antes de obter uma amostra é preciso definir quais serão os critérios para selecionar as unidades que a comporão De acordo com o critério temse o tipo de amostra como apresenta o digrama da Figura 73 FIGURA 73 Tipos de amostra 741 Amostra probabilística A amostra probabilística é constituída por unidades retiradas da população por procedimento casual ou aleatório Vamos definir dois tipos de amostra probabilística a casual simples e a estratificada 7411 Amostra casual simples Para obter uma amostra casual simples também chamada amostra aleatória simples confira um número a cada unidade da população e depois selecione ao acaso os números das unidades que irão formar a amostra Veja a Figura 74 que exibe quatro pessoas selecionadas ao acaso de um conjunto de doze pessoas FIGURA 74 População e amostra casual simples Os números das unidades que serão chamadas para a amostra devem ser obtidos por um gerador de números aleatórios que é encontrado em computador3 É o que chamamos informalmente de sorteio Também se faz o procedimento aleatório retirando papeizinhos de uma caixa ou bolas de uma urna usados em programas de auditório na televisão Para lembrar esse procedimento veja a Figura 75 e o Exemplo 71 que ajudam a entender as regras do procedimento que deve ser evitado porque é mais sujeito ao viés FIGURA 75 Procedimento aleatório Exemplo 71 Amostra aleatória simples Um dentista quer obter uma amostra de 2 dos quinhentos pacientes de sua clínica para entrevistálos sobre a qualidade de atendimento da secretária Para obter uma amostra aleatória de 2 dos quinhentos pacientes é preciso sortear dez Isso pode ser feito da maneira mais antiga e mais conhecida e também mais trabalhosa escrevem se os nomes de todos os pacientes em pedaços de papel colocamse todos os pedaços de papel em uma urna misturandoos bem e retirase um nome O procedimento é repetido até serem retirados os nomes dos dez pacientes que comporão a amostra Seria porém melhor que o dentista tivesse usado um gerador de números aleatórios que pode ser encontrado em um computador 7412 Amostra estratificada Se a população estiver naturalmente dividida em grupos distintos de pessoas o pesquisador deve obter uma amostra aleatória estratificada Para isso agrupa as pessoas similares em estratos e obtém de cada estrato uma amostra casual simples proporcional ao tamanho do estrato formando então uma só amostra Veja a Figura 76 e o Exemplo 72 FIGURA 76 Amostra estratificada Exemplo 72 Amostra estratificada Um dentista quer obter uma amostra de 2 dos quinhentos pacientes de uma clínica para entrevistálos sobre a qualidade de atendimento da secretária Ele suspeita que homens estejam sendo mais bem atendidos do que mulheres Aproximadamente ⅔ dos pacientes são do sexo feminino Para obter dados de ambos os grupos o dentista deve separar as fichas de homens e de mulheres formando assim dois estratos Em seguida obtém uma amostra aleatória de cada estrato e reúne os dados dos dois estratos numa só amostra aleatória estratificada A amostra aleatória simples é em tese a preferida pelos estatísticos No entanto só a amostra estratificada garante a representação de todos os estratos as categorias da população na amostra coletada 742 Amostra semiprobabilística Para retirar da população uma amostra semiprobabilística usase o procedimento parcialmente aleatório Vamos definir três tipos de amostra probabilística amostra sistemática amostra por conglomerados e amostra por quotas 7421 Amostra sistemática A amostra sistemática é constituída por unidades retiradas da população seguindo um sistema preestabelecido Você ordena as unidades numera e retira para a amostra a k ésima unidade O número k é obtido por sorteio Por exemplo se você quiser uma amostra constituída por ⅓ dos prontuários de um hospital deve sortear um número entre 1 e 3 Se sair o número 1 selecione a primeira unidade número 1 para a amostra A partir de então tome sistematicamente a primeira unidade de cada três em sequência No caso do exemplo como a primeira unidade é 1 seguem de três em três as unidades de números 4 7 10 etc Veja a Figura 77 e o Exemplo 73 FIGURA 77 Amostra sistemática Exemplo 73 Amostra sistemática Imagine que você precise obter uma amostra de 2 dos quinhentos pacientes de uma clínica para entrevistálos sobre a qualidade de atendimento da secretária Dois por cento de quinhentos pacientes significam uma amostra de dez Para obter essa amostra você pode dividir 500 por 10 obtendo 50 Sorteie então um número entre 1 e 50 inclusive Se sair o número 27 esse será o número do primeiro paciente a ser incluído na amostra Depois a partir do número 27 conte 50 e chame esse paciente Proceda dessa forma até completar a amostra de dez pacientes 7422 Amostra por conglomerados Conglomerados são grupos de unidades que já existem na população por alguma razão Um asilo é um conglomerado de idosos uma escola de ensino médio é um conglomerado de adolescentes um hospital é um conglomerado de doentes Na amostragem por conglomerados um conglomerado é selecionado ao acaso da população Veja a Figura 78 que mostra uma população com três conglomerados da qual foi sorteado um e o Exemplo 74 FIGURA 78 Amostra por conglomerados Exemplo 74 Amostra por conglomerados Um professor de Educação Física quer estudar o efeito da terapia de reposição hormonal uso de hormônios por mulheres depois da menopausa sobre o desempenho nos exercícios Para obter uma amostra por conglomerados o professor pode sortear duas academias similares conglomerados de ginástica da cidade avaliar o desempenho das mulheres que frequentam essas duas academias e comparar o desempenho das que fazem com o daquelas que não fazem uso da terapia de reposição hormonal na pósmenopausa Não confunda amostra aleatória estratificada com amostra por conglomerados Embora ambas envolvam grupos são muito diferentes Os conglomerados existem na população e embora haja diferença dentro deles são similares entre si de tal maneira que cada um deles pode representar a população Os estratos por sua vez são formados pelo pesquisador porque a população que examina é constituída por unidades diferentes Então embora haja similaridade dentro dos estratos existem diferença entre eles 7423 Amostra por quotas Na amostragem por quotas as pessoas são selecionadas para a amostra porque têm uma característica bem específica A ideia de quota é semelhante à de estrato com uma diferença básica a amostra estratificada é selecionada ao acaso da população enquanto a amostra por quotas não é aleatória A grande vantagem é ser relativamente barata Por essa razão é muito usada em levantamentos de opinião e pesquisas de mercado Veja a Figura 79 ⅔ da população é negra ⅓ da população é branca Para constituir a amostra percorrese a população tomamse ⅔ dos primeiros negros encontrados e ⅓ dos primeiros brancos encontrados não se faz sorteio FIGURA 79 Amostra por quotas Exemplo 75 Amostra por quotas Considere uma pesquisa de opinião referente a serviços públicos de saúde Como se faz uma amostra por quotas Você possivelmente irá entrevistar homens e mulheres com mais de 18 anos que vivem em uma metrópole por exemplo Curitiba na proporção apresentada pelo censo demográfico em termos de sexo idade e renda Então sai às ruas para trabalhar com a incumbência de entrevistar determinada quota de pessoas com determinadas características Por exemplo você pode ser incumbido de entrevistar trinta homens com mais de 50 anos que recebam mais de seis e menos de dez salários mínimos Você terá de julgar pela aparência da pessoa se ela se enquadra nas características descritas homem de mais de 50 anos que ganha entre seis e dez salários mínimos Se achar que viu a pessoa certa deve fazer a abordagem e em seguida confirmar as características com perguntas Você continua o procedimento até preencher a quota 743 Amostra não probabilística ou de conveniência A amostra não probabilística ou de conveniência é constituída por unidades reunidas em uma amostra simplesmente porque o pesquisador tem fácil acesso a essas unidades O professor que toma os alunos de sua classe como amostra de toda a escola está usando uma amostra de conveniência Exemplo 76 Amostra não probabilística Um nutricionista quer entrevistar mães de cinquenta crianças de 3 e 4 anos a fim de conhecer os hábitos alimentares dessas crianças Se o nutricionista trabalha em uma escola em que estão matriculadas crianças dessa faixa etária provavelmente procurará as mães das crianças matriculadas na escola para obter a amostra de que precisa Não confunda amostra de conveniência com amostra por conglomerados Embora ambas envolvam grupos são muito diferentes Os conglomerados existem na população e embora haja diferença dentro deles são similares entre si de tal maneira que cada um deles pode representar a população Então o pesquisador sorteia um deles Já a amostra de conveniência é tomada pelo pesquisador porque tem acesso a essas unidades sem considerar a falta de representatividade 744 Avaliação das técnicas de amostragem As amostras aleatórias exigem que o pesquisador tenha a listagem com todas as unidades da população porque dessa listagem serão sorteadas as unidades que comporão a amostra Essa exigência inviabiliza a tomada de amostras aleatórias em grande parte dos casos Por exemplo não é possível obter uma amostra aleatória de cariocas simplesmente porque não temos uma lista com o nome de todos os cariocas A amostra sistemática não exige que a população seja conhecida mas é preciso que esteja organizada em filas em arquivos ou mesmo em ruas como os domicílios de uma cidade Por exemplo para tomar uma amostra dos domicílios de uma cidade partese de um ponto sorteado e se toma de tantos em tantos um domicílio para a amostra A amostra por conglomerados exige livre acesso aos conglomerados o que nem sempre se consegue Um médico pode sortear cinco hospitais da cidade de São Paulo para entrevistar pacientes internados por problemas cardíacos mas dificilmente conseguirá permissão da diretoria de todos esses cinco hospitais para fazer sua pesquisa A amostra por quotas exige algum conhecimento da população mas as unidades não precisam estar numeradas ou identificadas Se você quiser uma amostra de homens e de mulheres empregados de uma grande empresa basta saber por exemplo a proporção de homens e mulheres na empresa e amostrar na mesma proporção De qualquer forma as amostras que usam algum tipo de procedimento aleatório são praticamente obrigatórias quando o objetivo da pesquisa é estimar probabilidades É o caso das prévias eleitorais que perguntam aos respondentes a probabilidade de voto em cenários hipotéticos de eleição Os respondentes são escolhidos de maneira planejada para que seja caracterizada a casualização No caso de pesquisas de opinião as amostras constituídas por voluntários são especialmente ruins Tendem a responder voluntariamente a determinadas questões pessoas que são extremamente favoráveis ou contrárias à ideia apresentada Do ponto de vista do estatístico as amostras probabilísticas são preferíveis embora na prática nem sempre sejam possíveis Na área de saúde o pesquisador trabalha necessariamente com unidades às quais tem acesso Nos ensaios clínicos4 os participantes são escolhidos de acordo com critérios de elegibilidade Um pesquisador da área de saúde não pode procurar pacientes com determinada patologia e usar procedimento aleatório para trazêlos para sua clínica por exemplo Pode no entanto buscar pacientes com determinadas características elegíveis tratados na instituição em que trabalha O interesse nessas pesquisas está centrado não nas estimativas de probabilidade mas nas diferenças relativas que podem ser bem estimadas com um bom delineamento5 75 Noções sobre o tamanho das amostras Do ponto de vista do estatístico as amostras devem ser grandes para trazer maior confiança às conclusões obtidas Para entender as razões desse ponto de vista imagine que em uma cidade existam dois hospitais6 Em um deles nascem em média 120 bebês por dia e no outro 12 A razão de meninos para meninas é em média 50 nos dois hospitais Em certa ocasião nasceram em um dos hospitais duas vezes mais meninos do que meninas Em qual dos hospitais é mais provável que isso tenha ocorrido Para o estatístico a resposta é óbvia é mais provável que o fato tenha ocorrido no hospital em que nasce menor número de crianças A probabilidade de uma estimativa desviarse muito do parâmetro do valor verdadeiro é maior quando a amostra é pequena A qualidade de uma estimativa depende em muito do número de unidades que compõem a amostra tamanho da amostra No entanto desde que a população seja muito maior do que a amostra a qualidade da estatística não depende do tamanho da população De qualquer modo as amostras não devem ser muito grandes porque isso seria perda de recursos Também não devem ser muito pequenas porque o resultado do trabalho seria de pouca utilidade Como se determina o tamanho da amostra Muitas vezes o tamanho da amostra é determinado mais por considerações reais ou imaginárias a respeito do custo de cada unidade amostrada do que por técnicas estatísticas Mas se seu orçamento for curto não tente enquadrar nele uma pesquisa ambiciosa Um pesquisador sempre precisa levar em conta o que é usual na área Então você tem a regra de ouro para determinar o tamanho da amostra veja o que se faz na sua área consultando a literatura e verifique o que seu orçamento permite fazer De qualquer forma o certo é calcular o tamanho da amostra por critério estatístico7 76 A questão da representatividade A amostra só traz informações sobre a população de onde foi retirada Não tem sentido por exemplo estudar os hábitos de higiene de índios bolivianos e considerar que as informações servem para descrever os hábitos de higiene de moradores da periferia da cidade de São Paulo Além disso a amostra deve ter o tamanho usual da área em que a pesquisa se enquadra Amostras demasiadamente pequenas não dão informação útil Desconfie também de amostras muito grandes Será que o pesquisador observou cada unidade amostrada com o devido cuidado As amostras podem ser representativas ou não representativas E não se pode julgar a qualidade da amostra pelos resultados obtidos Se você jogar uma moeda dez vezes podem ocorrer dez caras Provável Não Possível Sim Conclusões e decisões tomadas com base em amostras só têm sentido quando as amostras representam a população Para bem interpretar os dados e tirar conclusões adequadas não basta olhar os números é preciso entender como a amostra foi tomada e se não incidiram no processo de amostragem alguns fatores que poderiam trazer tendência aos dados Como você sabe se uma amostra é tendenciosa Não há fórmulas de matemática ou estatística para dizer se a amostra é tendenciosa ou é representativa da população Você precisará ter bom senso e conhecimento na área São portanto necessários muitos cuidados porque os erros de amostragem podem ser sérios Tendência é a diferença entre a estimativa que se obteve na amostra e o parâmetro que se quer estimar Exemplo 77 Amostra tendenciosa Em 1988 Shere Hite8 levantou por meio de questionários inseridos em revistas femininas americanas dados sobre a sexualidade feminina Estimase que cerca de 100000 mulheres tenham sido colocadas em contato com o questionário mas só 4500 responderam Mesmo assim a amostra é grande Mas os estatísticos consideraram a amostra tendenciosa O comportamento dos voluntários é diferente do comportamento dos não voluntários Então embora seja difícil ou até mesmo impossível estudar o comportamento de pessoas que não respondem a um questionário não se pode concluir que a amostra de respondentes represente toda a população incluindo aqueles que não respondem Conclusões baseadas em amostras de pessoas que voluntariamente destacam o encarte de uma revista respondem ao questionário e o remetem pelo correio são tendenciosas Não se pode fugir à conclusão de que o questionário foi respondido apenas por leitoras da revista e entre elas mulheres dispostas a falar de sua vida pessoal 8O exemplo é de Silver M Business statistics Londres McGraw 1997 Finalmente algumas pessoas afirmam não acreditar em resultados obtidos de pesquisas porque elas próprias nunca foram chamadas para opinar Se você é um daqueles que não acreditam em pesquisas porque nunca foi entrevistado então por coerência não tome um analgésico não dirija um carro não beba cerveja Afinal a qualidade desses produtos também é avaliada por amostragem e você possivelmente também não participou das pesquisas É verdade que ocorrem erros é verdade que existem fraudes e é verdade também que o improvável acontece mas daí a achar que não existem acertos vai uma enorme distância O Brasil tem excelentes institutos de pesquisa 77 Exercícios resolvidos 771 Os prontuários dos pacientes de um hospital estão organizados em um arquivo por ordem alfabética Qual é a maneira mais rápida de amostrar ⅛ do total de prontuários Selecionase para a amostra um de cada oito prontuários ordenados por exemplo o terceiro de cada oito desde que três tenha sido o número escolhido por procedimento aleatório 772 Na metade do século passado uma colunista muito conhecida por sua seção de aconselhamento em um jornal americano perguntou a seus leitores se você tivesse de começar de novo teria filhos Ela recebeu cerca de 10000 respostas cerca de 70 dizendo Não Você acha que as respostas foram tendenciosas Pessoas que escrevem para a Seção dos Leitores de jornais e revistas normalmente têm respostas fortes que refletem opinião polarizada Este exemplo mostra quanto pode ser tendenciosa uma amostra de voluntários que se dão ao trabalho de escrever a um jornal expondo uma situação pessoal de desconforto 773 Para levantar dados sobre o número de filhos por casal em uma comunidade um pesquisador organizou um questionário e em seguida enviouo pelo correio a todas as residências A resposta ao questionário era facultativa pois o pesquisador não tinha condições de exigir a resposta Nesse questionário perguntavase o número de filhos por casal morador na residência Você acha que os dados assim obtidos seriam tendenciosos Os dados devem ser tendenciosos porque é razoável esperar que a os casais com muitos filhos responderiam pensando na possibilidade de algum tipo de ajuda como por exemplo instalação de uma creche no bairro b os casais que recentemente tiveram o primeiro filho também responderiam c muitos dos casais que não têm filhos não responderiam 774 Um pesquisador pretende levantar dados sobre o número de moradores por domicílio usando a técnica de amostragem sistemática Para isso o pesquisador visitará cada domicílio selecionado Se nenhuma pessoa estiver presente na ocasião da visita o pesquisador excluirá o domicílio da amostra Essa última determinação torna a amostra tendenciosa Por quê Nos domicílios onde moram muitas pessoas será mais fácil o pesquisador encontrar pelo menos uma pessoa por ocasião de sua visita Então é razoável admitir que os domicílios com poucos moradores tenham maior probabilidade de serem excluídos da amostra 775 Muitas pessoas acreditam que as famílias se tornaram menores Suponha que para estudar essa questão tenha sido selecionada uma amostra de 2000 mulheres O pesquisador então perguntou a elas quantos filhos tinham quantos filhos tinham seus pais e quantos filhos tinham suas avós O procedimento produz dados tendenciosos Por quê Mulheres de gerações anteriores sem filhos não têm possibilidade de serem selecionadas para a amostra Por outro lado mulheres de gerações anteriores com muitos filhos terão grande probabilidade de serem amostradas 776 Para estudar atitudes religiosas um sociólogo sorteia dez membros de uma grande igreja para compor uma amostra casual simples Nota então que a amostra ficou composta por nove mulheres e um homem O sociólogo se espanta A amostra não é aleatória Praticamente só tem mulher O que você diria Se a amostra é ou não aleatória depende de como foi selecionada e não de sua composição As probabilidades envolvidas no processo de constituir uma amostra aleatória podem determinar amostras atípicas 777 Para avaliar a expectativa de pais de adolescentes em relação às possibilidades de estudo de seus filhos foram distribuídos 5000 questionários pelos estados do sul do Brasil Retornaram 1032 Cerca de 60 dos respondentes diziam que sua maior preocupação era com o preço que se paga para um jovem cursar a universidade Você considera esse resultado uma boa estimativa para o número de pais preocupados com essa questão Não é uma boa estimativa porque os respondentes foram relativamente poucos cerca de 20 Além disso tendem a responder pais que querem seus filhos na universidade e estão preocupados com os custos 778 Um dentista quer levantar o tipo de documentação que seus colegas arquivam quando fazem um tratamento ortodôntico A documentação depende do caso mas também envolve questões legais e de bom senso do ortodontista Para essa pesquisa o dentista elabora um questionário e o envia por email a todos os profissionais inscritos no Conselho de Odontologia O dentista provavelmente não receberá respostas de todos Você saberia dizer algumas das razões para isso acontecer Razões possíveis 1 Nem todos os endereços que constam dos arquivos de um Conselho estão atualizados 2 Nem todas as pessoas que recebem questionários por email respondem seja porque não têm tempo seja porque têm preguiça ou inércia ou ainda imaginam razões espúrias para terem sido contatadas entre outras 3 Não dão respostas profissionais que não contam com boa documentação de casos ou não a têm em ordem 4 Provavelmente também não respondem profissionais que estejam enfrentando problema de ordem financeira legal de admissão em cursos etc 779 Para estudar o uso de serviços de saúde por mulheres em idade reprodutiva moradoras de uma grande capital um pesquisador buscou na Fundação Instituto Brasileiro de Geografia e Estatística IBGE as subdivisões da cidade utilizadas em censos conhecidas como setores censitários Como você procederia para tomar uma amostra de mulheres moradoras nesses setores e em idade reprodutiva Cada setor pode ser considerado um conglomerado Podem ser sorteados quatro setores Em seguida em cada setor escolhese um ponto ao acaso e a partir de então tirase uma amostra sistemática A unidade amostral é um domicílio com mulheres em idade reprodutiva de 10 a 49 anos Devem ser excluídas do estudo mulheres que não queiram participar 7710 A Tabela 71 apresenta os resultados parciais de um levantamento de altura e peso de brasileiros feito pelo IBGE Nessa tabela são apresentados número de participantes na pesquisa tamanho da amostra e as medianas de altura e peso segundo o grupo de idade Por que não foi feito um levantamento de altura e peso de todos os brasileiros Tabela 71 Tamanho da amostra medianas de altura e peso da população por sexo segundo grupos de idade Brasil período 20082009 O levantamento de dados de toda a população censo é muito caro Então os censos são feitos de dez em dez anos No decorrer desse período o IBGE faz diversos levantamentos de dados como por exemplo o apresentado na referida tabela Fonte IBGE Diretoria de Pesquisas Coordenação de Trabalho e Rendimento Pesquisa de Orçamentos Familiares 20082009 78 Exercícios propostos 781 Dada uma população de quatro pessoas Antônio Luís Pedro e Carlos escreva as amostras casuais simples de tamanho 2 que podem ser obtidas 782 Descreva três formas diferentes de obter uma amostra sistemática de quatro elementos de uma população de oito elementos A B C D E F G e H 783 Dada uma população de quarenta alunos descreva uma forma de obter uma amostra casual simples de seis alunos 784 Organize uma lista com dez nomes de pessoas em ordem alfabética Depois descreva uma forma de obter uma amostra sistemática de cinco nomes 785 Pretendese obter uma amostra dos alunos de uma universidade para estimar o percentual deles com trabalho remunerado a Qual é a população em estudo b Qual é o parâmetro que se quer estimar c Você acha que seria possível obter uma boa amostra dos alunos no restaurante universitário d No ponto de ônibus mais próximo 786 A maneira de fazer a pergunta pode influenciar a resposta Basicamente existem dois tipos de questão a questão fechada e a questão aberta Na questão fechada o pesquisador fornece uma série de respostas possíveis e a pessoa que responde deve apenas assinalar a alternativa ou as alternativas que lhe convém A questão aberta deve ser respondida livremente Imagine que um dentista queira levantar dados sobre hábitos de higiene oral das pessoas de uma comunidade Escreva então uma questão fechada e uma questão aberta 787 Uma classe tem quatro alunos Eles foram submetidos a uma prova e suas notas foram João 10 José 6 Paulo 4 Pedro 0 Calcule a média da classe parâmetro Depois construa todas as amostras de tamanho 2 e calcule a média de cada uma estatísticas Verifique que a média das estatísticas é igual ao parâmetro 788 Um editor de livros técnicos quer saber se os leitores preferem capas de cores claras com desenhos ou capas simples de cores mais escuras Se o editor lhe pedir para estudar a questão como você definiria a população do estudo 789 Um fabricante de produtos alimentícios pede a você para escolher uma cidade de seu estado para fazer o teste de um novo produto Como você escolheria a cidade por sorteio ou usaria seu julgamento do que considera uma cidade típica do estado 7810 Um fiscal precisa verificar se as farmácias da cidade estão cumprindo um novo regulamento A cidade tem quarenta farmácias mas como a fiscalização demanda muito tempo o fiscal resolveu optar por visitar uma amostra de dez farmácias O cumprimento do regulamento que evidentemente é desconhecido pelo fiscal está apresentado na tabela abaixo Com base nessa tabela a escolha uma amostra para o fiscal b estime com base na amostra a proporção de farmácias que estão cumprindo o regulamento c com base nos dados da população estime o parâmetro d você obteve uma boa estimativa Dados sobre o cumprimento do regulamento 3Recomendase enfaticamente esse procedimento O Excel pode gerar números aleatórios 4Veja ensaios clínicos em Vieira S e Hossne WS Metodologia científica para a área da saúde 2 ed Rio de Janeiro Elsevier 2015 5Piantadosi Steven Clinical Trials A Methodologic Perspective Nova York Wiley 2005 6Baseado em um exemplo de Kahnemen D e Tvesky A Judgement under uncertainty heuristics and bias Science 185 27 de setembro de 1974 7Veja por exemplo 1 Cochran W Sampling techniques Nova York Wiley 1977 2 LOHR S L Sampling Design and analysis Pacific Grove Brooks 1999 3 Bolfarine H e Bussab W O Elementos de amostragem São Paulo Edgard Blucher 2005 CAPÍTULO 8 Distribuição Normal Você sabe que no jogo de uma moeda ou sai cara ou sai coroa ou seja o acaso determina o resultado Também sabe que não é apenas nos jogos de azar que os resultados ocorrem ao acaso Nascer menino ou menina pode ser entendido como obra do acaso Dois irmãos filhos dos mesmos pais podem ter olhos de cores diferentes um deles pode ter olhos azuis e o outro olhos castanhos Você tem ideia portanto do que é casual ou aleatório Neste capítulo vamos abordar a variável casual ou aleatória e sua distribuição Pode parecer difícil mas tenha em mente que muitas vezes a Estatística apenas formaliza o que já intuímos 81 Variável aleatória Absorver o conceito de aleatoriedade é muito mais importante do que absorver o conceito de causa e efeito que já pertence ao nosso dia a dia1 O fato é que as variáveis assumem valores diferentes em diferentes unidades da mesma população Uma variável é aleatória quando o acaso tem influência em seus valores Exemplo 81 Uma variável aleatória O tempo despendido para um aluno ler um livro é uma variável aleatória Há fatores determinísticos mas também há fatores aleatórios que afetam o tempo de leitura De qualquer forma se você anotar o tempo em que cada um de cem alunos lê o mesmo livro verá grande variabilidade nos valores obtidos porque esse tempo é uma variável aleatória Foi um matemático do século XIX2 quem primeiro pensou em descrever a variabilidade das medidas biométricas e estudar sua distribuição Para isso fez muitas medições em nada menos do que 5732 soldados escoceses3 A Tabela 81 apresenta a distribuição de frequências para o perímetro torácico4 dos soldados em 16 classes todas com amplitude de uma polegada Tabela 81 Distribuição de frequências para perímetro torácico de homens adultos em polegadas Fonte Daly F Hand D Jones C Lunn AD 1995 Veja a Tabela 81 a proporção de soldados escoceses com 38 polegadas de perímetro torácico ou seja entre 375 e 385 polegadas por exemplo era 007135 ou seja praticamente 7 Agora veja o histograma apresentado na Figura 81 na base do retângulo é dado o intervalo de 375 a 385 polegadas a proporção de soldados escoceses com perímetro torácico entre 375 e 385 polegadas deve ser lida no eixo das ordenadas aproximadamente 007 ou 7 FIGURA 81 Histograma para a distribuição de frequências do perímetro torácico de homens adultos em polegadas Toda distribuição de frequências é construída com os dados de uma amostra Se a variável é contínua como peso ao nascer quantidade de glicose no sangue pressão intraocular comprimento do fêmur os histogramas têm na maioria das vezes a aparência da Figura 81 Eles se assemelham à distribuição normal uma distribuição teórica apresentada em gráfico na Figura 82 FIGURA 82 Gráfico da distribuição normal Observe agora a Figura 83 fica fácil ver que o histograma apresentado na Figura 81 tem configuração semelhante à da distribuição normal da Figura 82 E é o fato de uma distribuição de frequências ser tão parecida com a distribuição normal que permite resolver muitos problemas de probabilidade em Estatística Vamos então estudar um pouco sobre distribuição normal FIGURA 83 Gráfico da distribuição normal desenhado sobre um histograma 82 Distribuição normal características A distribuição normal também chamada distribuição de Gauss tem características bem conhecidas graficamente é uma curva em forma de sino como mostram as Figuras 82 e 84 FIGURA 84 Simetria da distribuição normal a média a mediana e a moda coincidem e estão no centro da distribuição a curva é simétrica em torno da média Logo 50 dos valores são iguais ou maiores do que a média e 50 dos valores são iguais ou menores do que a média a curva abriga 100 da população ou seja toda a população está sob a curva A distribuição normal fica definida quando são dados dois parâmetros a média que se representa pela letra grega µ lêse mi e o desvio padrão que se representa pela letra grega σ lêse sigma5 Exemplo 82 Uma distribuição normal A escala de inteligência de Weschler6 pressupõe que inteligência é uma variável com distribuição normal de média µ 100 e desvio padrão σ 15 Dadas as características da distribuição normal usando escala de inteligência de Weschler metade das pessoas tem QI igual ou maior do que 100 metade tem QI igual ou menor do que 100 pessoas com QI muito alto na cauda à direita da curva são raras como também são raras as pessoas com QI muito baixo na cauda à esquerda da curva 6Existem muitas maneiras de medir a inteligência embora nenhuma delas explique exatamente o que está sendo medido Mas o teste de Weschler foi idealizado pressupondo que a inteligência tem distribuição normal como mostrado no exemplo 83 Soma de variáveis aleatórias independentes É necessário para vários procedimentos em Estatística pressupor que a variável em análise tem distribuição normal ou aproximadamente normal Essa pressuposição encontra respaldo no teorema do limite central Expor esse teorema está além dos limites deste livro mas um exemplo ajuda muito7 Imagine que vamos fazer 150 pães um a um seguindo uma receita que produz pães com 500 gramas Por simples acaso poderemos colocar mais ou menos farinha eou leite eou açúcar em alguns pães O forno pode estar mais quente ou menos quente quando assarmos alguns dos pães Pode haver um pouco mais ou um pouco menos de umidade no ar enquanto alguns pães crescem a temperatura ambiente pode estar um pouco mais alta ou um pouco mais baixa e assim por diante O fato é que no final teremos alguns pães com mais do que 500 gramas outros com menos e a maioria com pesos muito próximos de 500 gramas O teorema do limite central afirma que o peso de nossos pães irá variar de acordo com a distribuição normal Por quê Porque sobre o peso de nossos pães atuou grande número de variáveis aleatórias independentes algumas atuaram para aumentar o peso dos pães outras para diminuir Cada variável tem efeito pequeno mas os efeitos se somam É pouco comum que um pão só sofra efeitos positivos ou só efeitos negativos essas seriam as caudas da curva A maior parte dos pães sofre efeitos positivos e negativos em quantidade que dá origem a uma distribuição normal As medidas biológicas sofrem o efeito de uma soma de variáveis aleatórias independentes Cada variável afeta as medidas do que estamos estudando de uma forma às vezes positiva por exemplo colocamos mais farinha no pão ou negativa colocamos menos farinha no pão O efeito da soma de todas essas variáveis aleatórias quantidade de açúcar farinha calor umidade etc sobre o que estamos medindo peso dos pães produz uma distribuição normal É por isso que um fisioterapeuta está diante da distribuição normal quando monitora o desempenho físico de seus pacientes porque desempenho é uma variável aleatória que sofre o efeito de diversas variáveis como idade saúde geral compreensão da situação simpatia recíproca ajuda familiar etc que se somam com sinais negativos ou positivos Uma enfermeira também está diante da distribuição normal quando estuda o peso de recémnascidos uma variável aleatória que sofre o efeito de diversas outras variáveis aleatórias como tempo de gestação genética saúde da mãe e do bebê idade da mãe etc 84 Probabilidades associadas à distribuição normal Nenhuma distribuição de dados reais tem características idênticas às da distribuição normal No entanto se você puder pressupor que a variável que estuda tem distribuição aproximadamente normal pode considerar que os dados obedecem à chamada regra empírica Veja a Figura 85 De acordo com a regra empírica cerca de FIGURA 85 Probabilidades na distribuição normal regra empírica 68 pouco mais de ⅔ dos dados estarão a menos de um desvio padrão de distância da média µ 95 dos dados estarão a menos de dois desvios padrões de distância da média µ 997 dos dados estarão a menos de três desvios padrões de distância da média µ Mais exatamente se a variável tem distribuição normal Exemplo 83 Aplicando a regra empírica De acordo com o teste de inteligência de Weschler o quociente de inteligência tem distribuição normal de média µ 100 e desvio padrão σ 15 Então dadas as características da distribuição normal de acordo com esse teste 68 das pessoas têm quociente de inteligência entre 100 15 ou seja entre 85 e 115 95 das pessoas têm quociente de inteligência entre 100 2 x 15 ou seja entre 70 e 130 997 das pessoas têm quociente de inteligência entre 100 3 x 15 ou seja entre 55 e 145 As probabilidades associadas às variáveis biológicas por meio da distribuição normal são apenas aproximações De qualquer forma o intervalo µ σ abrange cerca de ⅔ da população e o intervalo µ 2σ engloba praticamente 95 da população ou seja a grande maioria Convencionouse assim definir normalidade na área da saúde quando se mede uma variável contínua considerando normais todas as pessoas que têm medidas dentro do intervalo µ σ As pessoas que têm medidas fora do intervalo µ 2σ fogem do padrão de normalidade Exemplo 84 Uso da distribuição normal Reveja a Tabela 81 na qual os dados estão agrupados em uma tabela de distribuição de frequências Vamos calcular a média e o desvio padrão A média é A variância dos dados apresentados na Tabela 81 é Logo o desvio padrão é Como foi tomada uma grande amostra n 5732 podemos tomar a média e o desvio padrão calculados como valores dos parâmetros µ e σ da população Então Com base nesses resultados podemos considerar que o normal entre soldados escoceses do século XIX era um perímetro torácico que variava entre 39 e 43 polegadas Medidas de perímetro torácico abaixo de 37 polegadas ou acima de 45 polegadas fugiam ao padrão 85 Distribuição normal reduzida ou padronizada Denominase distribuição normal reduzida ou padronizada a distribuição normal de média µ 0 e desvio padrão σ 1 A variável com distribuição normal reduzida é comumente indicada pela letra Z Você transforma um valor da variável X em Z fazendo o seguinte cálculo A variável Z é denominada reduzida ou padronizada e a transformação de X em Z é uma redução ou padronização da variável O importante é que na distribuição normal reduzida valem as probabilidades dadas na Figura 86 que correspondem às medidas das áreas sob a curva FIGURA 86 Áreas sob a curva normal reduzida Além dos valores de probabilidade exibidos na Figura 86 é possível verificar outros valores de probabilidades associados à distribuição normal reduzida em tabelas já prontas Assim a Tabela 82 fornece a probabilidade de a variável normal reduzida assumir valor no intervalo entre a média zero e um valor qualquer de Z até 3 Vamos então estudar o procedimento para encontrar probabilidades associadas a diferentes valores de Z na Tabela 82 Tabela 82 Tabela de distribuição normal reduzida Exemplo 85 Probabilidade de Z assumir um valor entre zero e 125 Qual é a probabilidade de a variável Z que tem distribuição normal reduzida assumir um valor entre zero e 125 Veja a Figura 87 FIGURA 87 Probabilidade de Z assumir valor entre zero e 125 A probabilidade de Z assumir um valor entre zero e 125 corresponde à área escurecida na Figura 87 Essa probabilidade é encontrada na Tabela 82 também trazida neste livro8 em Anexo Para achar a probabilidade pedida na primeira coluna da Tabela 82 procure o valor 12 para facilitar esse valor está em negrito encontrado o valor 12 siga na linha que começa com esse valor até a coluna que começa com 005 Para facilitar esse valor também está em negrito no cruzamento de 12 com 005 você encontra 03944 também está em negrito 03944 é a probabilidade de Z assumir um valor entre zero e 125 Escrevemos 8Você encontra a tabela de distribuição normal reduzida ou padronizada na Internet mas verifique como deve proceder para usála Exemplo 86 Probabilidade de Z assumir um valor maior que 125 Qual é a probabilidade de a variável Z que tem distribuição normal reduzida assumir um valor igual ou maior que 125 Veja a Figura 88 FIGURA 88 Probabilidade de Z assumir valor maior que 125 A probabilidade de Z assumir valor igual ou maior que 125 é a medida da área escurecida na Figura 88 Então a probabilidade de ocorrer valor entre zero e 125 que corresponde à área com hachuras na Figura 88 é P 0 Z 125 03944 a probabilidade de Z assumir valor maior ou igual à média zero é 05000 a probabilidade de ocorrer valor maior ou igual a 125 área escura na Figura 88 é Exemplo 87 Probabilidade de Z assumir valor menor do que 051 Qual é a probabilidade de a variável Z que tem distribuição normal reduzida assumir valor menor do que 051 Veja a Figura 89 FIGURA 89 Probabilidade de Z assumir valor menor do que 051 Para resolver o problema pense assim a probabilidade pedida é a área escurecida da Figura 89 como a curva é simétrica a probabilidade de ocorrer valor igual ou menor do que 051 é igual à probabilidade de ocorrer valor igual ou maior que 051 a probabilidade de ocorrer valor entre zero e 051 é dada na Tabela 82 encontre a linha que começa com 05 e a siga até achar a coluna que tem 001 no cabeçalho No cruzamento da linha que começa com 05 e da coluna que começa com 001 está 01950 que corresponde à área com hachuras na Figura 89 Escrevemos a probabilidade de ocorrer valor menor ou igual a zero a média é 05000 então Mas você pode estar se perguntando qual é o interesse em estudar a distribuição normal reduzida um tipo particular de distribuição A razão é simples para encontrar a probabilidade de uma variável com distribuição normal assumir valor em determinado intervalo você reduz a variável acha as probabilidades associadas à distribuição normal reduzida como aprendeu aqui volta à variável original 86 Cálculo das probabilidades sob a distribuição normal Veja alguns exemplos de cálculo de probabilidades pressupondo que a variável em estudo tenha distribuição normal Exemplo 88 Probabilidade variável com distribuição normal A quantidade de colesterol em 100 mL de plasma sanguíneo humano tem distribuição normal com média 200 mg e desvio padrão 20 mg Qual é a probabilidade de uma pessoa apresentar entre 200 e 225 mg de colesterol por 100 mL de plasma Veja a Figura 810 FIGURA 810 Probabilidade de uma pessoa apresentar entre 200 e 225 mg de colesterol por 100 mL de plasma A probabilidade pedida corresponde à área escurecida na Figura 810 Para responder à pergunta pense como segue A quantidade de colesterol em 100 mL de plasma sanguíneo humano indicada aqui por X tem distribuição normal com média 200 mg e desvio padrão 20 mg Então a variável tem distribuição normal reduzida Nessa distribuição a média é zero e ao valor x 225 corresponde A probabilidade de Z assumir valor entre a média zero e z 125 é 03944 como mostrado na Tabela 92 A probabilidade de X assumir valor entre a média µ 200 e 225 igual à probabilidade de Z assumir valor entre a média zero e z 125 é 03944 Portanto a probabilidade de uma pessoa apresentar entre 200 e 225 mg de colesterol por 100 mL de plasma é 03944 Exemplo 89 Probabilidade variável com distribuição normal A quantidade de colesterol em 100 mL de plasma sanguíneo humano tem distribuição normal com média 200 mg e desvio padrão 20 mg Qual é a probabilidade de uma pessoa apresentar menos do que 195 mg de colesterol por 100 mL de plasma Veja a Figura 811 FIGURA 811 Probabilidade de taxa de colesterol menor do que 195 mg por 100 mL de sangue A probabilidade pedida é mostrada pela área escurecida na Figura 811 Para resolver o problema pressupondo que a quantidade de colesterol em 100 mL de plasma sanguíneo humano tenha distribuição aproximadamente normal com média de 200 mg e desvio padrão de 20 mg a variável tem distribuição normal reduzida A probabilidade de Z assumir valor menor do que 025 é igual à probabilidade de z assumir valor maior do que 025 A probabilidade de Z assumir valor entre a média zero e 025 dada na Tabela 82 é 00987 A probabilidade de Z assumir valor igual ou menor do que 051 é Logo a probabilidade de uma pessoa apresentar 195 mg de colesterol por 100 mL de plasma ou menos é 04013 ou 4013 87 Usos da distribuição normal Imagine que você esteja lendo um artigo que informa que uma amostra de 4000 jovens forneceu para pressão sistólica a média mmHg e desvio padrão s 140 mmHg Esses valores estimam a média µ e o desvio padrão σ parâmetros da população da qual essa amostra proveio Por que essa informação é útil Primeiro é razoável assumir que a pressão sistólica tem distribuição normal Veja o gráfico da Figura 89 Depois leve em conta que você já aprendeu o seguinte a probabilidade de ocorrer valor de X no intervalo µ σ é 06826 a probabilidade de ocorrer valor de X no intervalo µ 2σ é 09544 No caso da amostra em discussão temos que Considerando a média e o desvio padrão obtidos da amostra como boas estimativas de µ e σ respectivamente temse que a probabilidade de encontrar pessoas na população da qual a amostra proveio com pressão sistólica entre 1094 e 1374 mm de mercúrio é de aproximadamente porque a distribuição é aproximadamente normal e os parâmetros estão estimados 6826 Ou seja cerca de ⅔ da população estudada deve ter pressão sistólica entre 1094 e 1374 mm de mercúrio a probabilidade de encontrar pessoas na população de onde a mostra proveio com pressão sistólica entre 954 e 1514 mm de mercúrio é de aproximadamente porque a distribuição é aproximadamente normal e os parâmetros estão estimados 9544 Ou seja a grande maioria da população estudada deve ter pressão sistólica entre 954 e 1514 mm de mercúrio FIGURA 812 Distribuição da pressão sistólica A distribuição normal tem ainda outro uso importante em Estatística Você já sabe que amostras tomadas ao acaso da mesma população são diferentes Logo as médias dessas amostras são diferentes Pense no exemplo que acabamos de examinar Foi medida a pressão sistólica de uma amostra de 4000 jovens A média calculada foi 1234 mmHg Se fossem obtidas outras cinquenta amostras dessa mesma população as médias de pressão sistólica variariam Qual seria a distribuição dessas médias As médias de diferentes amostras têm distribuição normal ou aproximadamente normal de acordo com um teorema da Estatística o teorema do limite central A grande aplicação dessa informação o intervalo de confiança para uma média será vista no Capítulo 9 Em exames radiológicos e laboratoriais o uso da distribuição normal é comum Veja como isso é feito Com base em grandes amostras estimamse µ e σ Em seguida com base na distribuição normal definemse critérios de normalidade e não normalidade Por exemplo para densidade mineral óssea BMD em inglês bone mineral density que é medida em gramas por centímetro ao quadrado a Organização Mundial de Saúde considera normal de qualquer valor mais alto que µ σ osteopenia ou osteoporose préclínica valores entre µ σ e µ 25σ osteoporose valores abaixo de µ 25σ FIGURA 813 Distribuição de BMD Então se for aceito que para coluna lombar o BMD médio é 1061 com desvio padrão 10 a pessoa que tiver BMD 0060 é diagnosticada como tendo osteopenia 88 Exercícios resolvidos 881 Em uma distribuição normal qual proporção de casos cai a fora dos limites X µ σ e X µ σ b fora dos limites X µ 2σ e X µ 2σ a Usando a regra prática 68 pouco mais de ⅔ dos dados estarão a menos de um desvio padrão de distância da média µ A área sob a curva vale 100 e a curva é simétrica em torno da média Então 100 68 32 de casos estão fora dos limites X µ σ Logo 16 dos casos estarão acima de µ σ e 16 dos casos estarão abaixo de X µ σ b Usando a regra prática 95 dos dados estarão a menos de dois desvios padrões de distância da média µ A área sob a curva vale 100 e a curva é simétrica em torno da média Então 100 95 5 de casos estão fora dos limites X µ σ Logo 25 dos casos estarão acima de µ 2σ e 25 dos casos estarão abaixo de X µ 2σ 882 Em homens adultos a quantidade de hemoglobina por 100 mL de sangue é uma variável aleatória com distribuição normal de média µ 16g e desvio padrão σ 1g Calcule a probabilidade de um homem apresentar de 16 a 18 g de hemoglobina por 100 mL de sangue Primeiro é preciso calcular A probabilidade de X assumir valor entre a média 16 e o valor 18 corresponde à probabilidade de Z assumir valor entre a média zero e o valor 2 área escurecida na Figura 814 Essa probabilidade é 04772 encontrada na tabela de distribuição normal reduzida Então a probabilidade de um homem apresentar de 16 a 18 g de hemoglobina por 100 mL de sangue é 04772 ou 4772 FIGURA 814 Probabilidade de um homem ter taxa de hemoglobina entre 16 a 18 gdL de sangue 883 Qual é a probabilidade de um homem ter taxa de hemoglobina maior do que 18 gdL de sangue Para x 18 z 2 a probabilidade de Z assumir valor entre a média zero e o valor z 2 é 04772 visto no Exercício 882 Então a probabilidade de Z assumir valor maior que 2 é 884 Sabese que o tempo médio para completar um teste feito para candidatos ao vestibular de uma escola é de 58 minutos com desvio padrão igual a 95 minutos Se o responsável pelo teste quiser que apenas 90 dos candidatos terminem o teste quanto tempo deve dar aos candidatos para que o entreguem Para resolver o problema primeiro observe a Figura 815 Lembrese de que a média delimita 05 da distribuição Então é preciso achar o valor de z que corresponde à probabilidade 04 porque 04 05 09 ou seja os 90 pedidos Na tabela de distribuição normal reduzida você encontra para 03997 que é o valor mais próximo de 04 o ponto z 128 Como FIGURA 815 Distribuição do tempo despendido para completar o teste ou seja devem ser fixados 7016 minutos para terminar o teste 885 Qual é o desvio padrão da variável aleatória X que tem distribuição normal de média µ 150 e 975 dos valores menores que 210 A média delimita 05 da distribuição Observe a Figura 816 é preciso encontrar o valor de z que corresponde à probabilidade 0475 porque 0475 05 0975 ou seja 975 Na tabela de distribuição normal reduzida você encontra para 0475 o ponto z 196 Como FIGURA 816 Distribuição da variável X σ fracx μz frac210 150196 3061 89 Exercícios propostos 891 O quociente de inteligência é uma variável aleatória com distribuição aproximadamente normal de média 100 e desvio padrão 15 Usando a regra empírica qual é a proporção de pessoas com quociente de inteligência acima de 130 892 A concentração de sódio no plasma tem média igual a 1395 mEqL de plasma com desvio padrão igual a 3 mEqL de plasma Que valor você poria como ponto de corte para dizer que a concentração de sódio no plasma de uma pessoa está além do limite de normalidade 893 Em uma distribuição normal reduzida quais valores de z englobam a 50 dos casos que ficam no centro da distribuição b 90 dos casos que ficam no centro da distribuição c 95 dos casos que ficam no centro da distribuição 894 Suponha que a pressão sanguínea sistólica em indivíduos com idade entre 15 e 25 anos seja uma variável aleatória com distribuição aproximadamente normal de média µ 120 mmHg e desvio padrão σ 8 mmHg Nessas condições calcule a probabilidade de um indivíduo dessa faixa etária apresentar pressão a entre 110 e 130 mmHg b maior do que 130 mmHg 895 A taxa de glicose no sangue humano é uma variável aleatória com distribuição aproximadamente normal de média µ 100 mg por 100 mL de sangue e desvio padrão σ 6mg por 100 mL de sangue Calcule a probabilidade de um indivíduo apresentar taxa a superior a 110 mg por 100 mL de sangue b entre 90 e 100mg por 100 mL de sangue 896 Em um hospital psiquiátrico os pacientes permanecem internados em média cinquenta dias com um desvio padrão de dez dias Se for razoável pressupor que o tempo de permanência tem distribuição aproximadamente normal qual é a probabilidade de um paciente permanecer no hospital a por mais de trinta dias b por menos de trinta dias 897 A estatura de recémnascidos do sexo masculino é uma variável aleatória com distribuição aproximadamente normal de média µ 50 cm e desvio padrão σ 250 cm Calcule a probabilidade de um recémnascido do sexo masculino ter estatura a inferior a 48 cm b superior a 52 cm 898 Em uma distribuição normal reduzida que proporção de casos cai a acima de z 1 b abaixo de z 2 c abaixo de z 0 d acima de z 128 899 Na distribuição normal reduzida a média é sempre zero Isso sugere que metade dos escores é positiva e metade é negativa Explique sua resposta 8910 Em uma academia os ginastas levantam em média 80 kg de peso com desvio padrão de 12 kg Pressupondo distribuição normal que proporção dos ginastas levanta mais de 100 kg 1O acaso é conceito mais fundamental que causalidade Max Born apud Mlodinow L O andar do bêbado Rio de Janeiro Zahar 2008 p 207 2Adolphe Quetelet 17961874 3Os homens eram em média menores do que são hoje 4DALY F HAND D JONES C LUNN AD Elements of Statistics Addison Wesley 1995 5Nos Capítulos 3 e 4 representamos média e desvio padrão por letras do nosso alfabeto porque estávamos nos referindo a amostras Aqui usamos letras gregas porque estamos nos referindo à população 7Mlodinow L O andar do bêbado Rio de Janeiro Zahar 2009 p 153 CAPÍTULO 9 Intervalo de Confiança Muitas pesquisas são realizadas com o objetivo de estimar parâmetros E para estimar parâmetros são necessários dados Para obter dados os pesquisadores retiram amostras da população que pretendem conhecer Mas será que os pesquisadores podem generalizar a informação obtida de uma amostra algumas pessoas para a população todas as pessoas É o que chamamos de inferência A inferência usa a informação obtida de uma amostra para estabelecer conclusões inferência sobre a população da qual a amostra foi retirada Exemplo 91 Inferência Um professor de Fisioterapia obteve dados biométricos dos alunos que ingressaram na universidade A média de altura de cem alunos do sexo masculino com 18 anos foi de 175 cm O professor se pergunta será que posso dizer que alunos com as características dos amostrados têm em média 175 cm de altura Veja a Figura 91 FIGURA 91 Representação da estimativa da média por ponto A média dos dados de uma amostra constitui estimativa da média µ da população o parâmetro da qual essa amostra foi retirada Será que é razoável generalizar o resultado dessa amostra para toda a população da qual a amostra proveio Precisamos ter uma medida da incerteza associada à média da amostra Temos apenas uma estimativa então precisamos conhecer as margens de erro dessa estimativa Veja o Exemplo 91 o professor calculou a média da amostra mas não deu qualquer medida para informar se a média da amostra está ou não perto da média da população Forneceu um só valor para descrever a amostra ou seja fez o que os estatísticos chamam de estimativa por ponto No entanto é possível calcular com base em dados de amostras intervalos de confiança que contêm com certa probabilidade a média µ da população E como se calculam esses intervalos Precisamos em primeiro lugar estimar a variabilidade das médias das amostras 91 Erro padrão da média Para entender a variabilidade das médias das amostras1 imagine uma população constituída por ⅓ de valores 4 ⅓ de valores 10 e ⅓ de valores 16 mas tão grande que para finalidade estatística possa ser considerada infinita Veja 4 4 4 4 4 4 10 10 10 10 1010 16 16 16 16 1616 A média da população é Considere agora as amostras de dois elementos que podem ser retiradas dessa população O primeiro número retirado pode ser 4 ou 10 ou 16 O segundo número retirado também pode ser 4 ou 10 ou 16 As amostras possíveis levando em conta os diferentes arranjos de dados estão apresentadas na Tabela 91 com as respectivas médias e variâncias Veja que Tabela 91 Médias das amostras de dois elementos que podem ser obtidas da população constituída por números 4 10 e 16 Amostras possíveis Média 1 retirado 4 4 2 retirado 4 10 Média 4 7 Variância 0 18 as médias 4 e 16 ocorrem com probabilidade 19 as médias 7 e 13 ocorrem com probabilidade 29 a média 10 ocorre com probabilidade 39 a média das médias é 10 e a média das variâncias é 24 Tabela 91 As médias das amostras apresentadas na Tabela 91 estão dispersas em torno da média µ 10 da população Será que é possível medir o grau de dispersão das médias das amostras que você vê na Figura 92 em torno da média da população FIGURA 92 Distribuição das médias das amostras de dois elementos obtidos da população constituída por 4 10 e 16 O grau de dispersão das médias das amostras em torno da média da população é dado pela variância da média Essa medida que se indica por σx 2 é dada pela seguinte fórmula em que xi é a média da iésima amostra e r é o número das diferentes amostras de mesmo tamanho que podem ser obtidas da população Para as médias apresentadas na Tabela 91 a variância da média é Na prática é impossível calcular a variância da média pela fórmula apresentada o pesquisador dispõe de uma única amostra e não de todas as amostras possíveis Existe porém uma solução já se demonstrou que a estimativa da variância da média2 é dada pela seguinte fórmula em que s2 é a variância e n é o tamanho da amostra As médias as variâncias e as variâncias das médias das amostras dadas na Tabela 91 estão apresentadas na Tabela 92 Veja que Tabela 92 Médias variâncias e variâncias das médias das amostras apresentadas na Tabela 91 A média das médias das amostras é a média µ 10 da população A média das variâncias das médias das amostras é a variância das médias da população Dizemos então que a média de uma amostra é uma estimativa não tendenciosa da média da população todas as amostras possíveis de mesmo tamanho retiradas da mesma população dão a média da população Da mesma forma a variância de uma amostra é uma estimativa não tendenciosa da variância da população Uma amostra permite ainda estimar a variância da média que como vimos é uma estimativa da variabilidade das médias que seriam obtidas caso o pesquisador tivesse tomado nas mesmas condições todas as amostras possíveis Podemos calcular o desvio padrão da média mais conhecido como erro padrão da média que se indica por e é dado por Erro padrão da média é a raiz quadrada com sinal positivo da variância da média Exemplo 92 Estimando o erro padrão da média Reveja o Exemplo 91 o pesquisador coletou uma amostra de cem alunos e calculou a média das alturas que resultou em 175 cm Com os dados em mãos calculou também o desvio padrão que resultou em s 10 cm A variabilidade das médias que poderiam ser obtidas caso o pesquisador tivesse tomado todas as amostras possíveis de mesmo tamanho da população é dada pelo erro padrão da média O fato de a média de todas as médias das amostras possíveis terem a média µ da população é intuitivo Mas também é fácil entender que as médias das amostras têm variabilidade menor do que os dados A amostra que tiver um valor muito alto discrepante dos demais provavelmente terá valores menores que farão certa compensação Isso significa que médias de amostras de n dados têm dispersão menor do que os dados que as compõem 92 Distribuição das médias das amostras Se a variável X em estudo apresentar distribuição normal as médias de amostras de qualquer tamanho tomadas ao acaso da população têm distribuição normal Se a variável X em estudo tiver distribuição aproximadamente normal amostras de n 10 unidades tomadas ao acaso da população são em geral suficientemente grandes para que as médias tenham distribuição normal3 No caso das variáveis biológicas como peso ao nascer ingestão alimentar peso corporal ingestão calórica taxa de colesterol pressão arterial para que as médias tenham distribuição aproximadamente normal é necessário tomar amostras casuais da população com tamanho n variando entre 30 a 100 unidades Veja bem as médias das amostras têm distribuição normal se a variável em estudo tiver distribuição normal ou aproximadamente normal pelo menos não seja assimétrica ou se as amostras forem suficientemente grandes Entender o comportamento das médias de dados observados é portanto um dos pontos cruciais para quem estuda Estatística Quando as médias de amostras de tamanho n tomadas ao acaso da população têm distribuição normal com média µ e erro padrão da média vale a regra apresentada em seguida também mostrada na Figura 93 FIGURA 93 Probabilidades associadas à distribuição das médias cerca de 68 pouco mais de ⅔ das médias de amostras de tamanho n tomadas ao acaso da população estarão a menos de um erro padrão de distância da média da população cerca de 95 das médias de amostras de tamanho n tomadas ao acaso da população estarão a menos de dois erros padrões de distância da média da população 997 das médias de amostras de tamanho n tomadas ao acaso da população estarão a menos de três erros padrões de distância da média da população Exemplo 93 Distribuição das médias Reveja o Exemplo 82 apresentado no Capítulo 8 de acordo com o teste de inteligência de Weschler o quociente de inteligência tem distribuição normal de média µ 100 e desvio padrão σ 15 Então médias de amostras de nove pessoas terão distribuição normal de média µ 100 e erro padrão da média Dadas as características da distribuição normal cerca de 95 mais exatamente 09545 das amostras de nove pessoas tomadas ao acaso da população terá média de quociente de inteligência medida pelo teste de Weschler no intervalo 100 2 x 5 ou seja entre 90 e 110Veja a Figura 94 FIGURA 94 Distribuição das médias de quociente de inteligência em amostras de nove pessoas Estamos considerando neste momento médias de amostras obtidas ao acaso de populações de variáveis que têm distribuição normal ou aproximadamente normal como por exemplo peso ao nascer de filhos de mães adolescentes ou taxa de hemoglobina no sangue ou perda de peso no primeiro mês de uma dieta Se X tem distribuição normal ou aproximadamente normal mas com média e desvio padrão desconhecidos amostras casuais de tamanho n fornecem estimativas da média do desvio padrão e do erro padrão da média que permitem calcular intervalos de confiança 93 Cálculo do intervalo de confiança para uma média No Capítulo 8 vimos uma amostra composta por n 5732 soldados escoceses Com uma amostra tão grande pareceu razoável tomar a média e o desvio padrão calculados como µ e σ Imagine agora que você tenha tomado uma amostra aleatória de n 15 soldados escoceses para obter medidas de perímetro torácico Pode então estimar a média o desvio padrão e o erro padrão da média da variável estudada Mas com base em uma amostra pequena é razoável considerar que é boa estimativa de µ Os pesquisadores tomam uma única amostra e em geral essas amostras são pequenas É portanto legítimo que o leitor de uma pesquisa se pergunte posso ter confiança nos resultados que foram obtidos com base em uma amostra de por exemplo quinze ou trinta pessoas Para dar essa confiança ao leitor as pesquisas que fornecem médias de dados coletados por amostragem devem fornecer também as margens de erro que delimitam um intervalo com probabilidade estabelecida pelo pesquisador de conter a média µ da população Temos então o que chamamos intervalo de confiança No Exemplo 91 o pesquisador deve relatar um intervalo de confiança para a média de altura de alunos do sexo masculino com 18 anos que tenham ingressado recentemente na universidade Vamos ver então como se acha esse intervalo Você pode calcular as margens de erro que dão por exemplo 95 de confiança de conter a verdadeira média da população por meio da seguinte expressão É bem conhecida a expressão margens de erro Elas delimitam o erro da estimação Mas antes de entender o procedimento de cálculo lembrese de que n é o tamanho da amostra é a média e s é o desvio padrão O valor de t é encontrado na Tabela de distribuição de t trazida neste livro nos Anexos Vamos então encontrar o valor de t Veja a Tabela 93 que é uma reprodução parcial da Tabela 6 apresentada em Apêndice Na coluna estão os graus de liberdade que se abrevia por gl Para uma amostra de tamanho n os graus de liberdade são gl n 1 Esses graus de liberdade se referem portanto à estimativa do desvio padrão Se você tomou uma amostra de n 15 pessoas estimou o desvio padrão com n 1 14 graus de liberdade Procure então o valor 14 na primeira coluna Em seguida procure na primeira linha da Tabela 93 o nível de significância indicado por α que será definido no Capítulo 10 De qualquer forma você já precisa saber que o nível de confiança do intervalo é dado por Tabela 93 Valores de t segundo os graus de liberdade e o nível de significância Em geral os pesquisadores calculam intervalos com nível de confiança de 90 95 ou 99 Se você quiser um nível de 95 de confiança como é mais usual procure na primeira linha o valor α 005 porque 1 005 095 No cruzamento da linha que exibe 14 graus de liberdade e da coluna que exibe 005 você encontra t 214 Exemplo 94 Obtendo as margens de erro do intervalo de confiança No Exemplo 91 o professor de Fisioterapia obteve a média o desvio padrão e o erro padrão da média Exemplo 92 de altura de cem alunos do sexo masculino com 18 anos que ingressaram recentemente na universidade Para obter as margens de erro do intervalo de 95 de confiança é preciso calcular Você já tem O valor de t com n 1 99 graus de liberdade porque a amostra é de tamanho 100 e com o nível de confiança de 095 α 005 é na Tabela 6 dos Anexos um valor entre 200 e 198 A tabela não dá o valor de t para 99 graus de liberdade Vamos então tomar t 200 Logo A média é 175 cm com margens de erro de 173 e 177 cm Veja a Figura 95 Escrevemos FIGURA 95 Representação da estimativa da média por intervalo O intervalo de confiança fornece a amplitude dos valores que muito provavelmente incluem o verdadeiro valor do parâmetro neste capítulo a média µ da população Temos então uma estimativa da média por intervalo Fig 95 que traz mais informação do que a estimativa da média por ponto Fig 91 Isso porque a amplitude do intervalo de confiança dá ideia de quanto de incerteza devemos associar à estimativa do parâmetro É importante entender o significado do intervalo de confiança para a média que dá uma estimativa da média por intervalo Em teoria se forem tomadas sucessivas amostras e forem calculados os respectivos intervalos de 95 de confiança 95 dos intervalos devem conter a média µ da população Exemplo 95 Cálculo do intervalo de confiança para a média Uma amostra de trinta homens sadios com idade entre 30 e 48 anos não fumantes e que tinham atividade física regular forneceu em repouso dados de pressão diastólica4 A média foi de 80 mm Hg com desvio padrão 71 mm Hg Para calcular o intervalo de 95 de confiança para a média é preciso obter Dados o tamanho da amostra a média e o desvio padrão falta apenas o valor de t005 É preciso procurar na Tabela 6 dos Anexos o valor de t para n 1 30 1 29 graus de liberdade e nível de confiança de 95 α 005 Você encontra na mesma Tabela 6 t 204 Então Podemos agora escrever o intervalo 4Com base em Brett S E et al Diastolic blood pressure change during exercise positively correlated with serum cholesterol and insulin resistance Circulation 2000 101611615 A expressão calculada no Exemplo 95 aponta que se os médicos repetirem o trabalho muitas e muitas vezes 95 de cada cem amostras de trinta homens sadios com idade entre 30 e 48 anos não fumantes e com atividade física regular deverão conter a média de pressão diastólica da população com as características estudadas5 94 Outras maneiras de estabelecer intervalos Algumas revistas não aceitam resultados escritos como por exemplo 193 21 porque essa expressão não informa se 21 é o desvio padrão ou o erro padrão da média É importante indicar como foram obtidos os limites relatados Então pode estar escrito por exemplo Esse intervalo referese aos dados porque na fórmula está o desvio padrão que mede a variabilidade dos dados mas não é um intervalo de confiança Se a amostra for suficientemente grande para que se possa admitir que a média e o desvio padrão da amostra sejam boas estimativas dos parâmetros µ e σ é razoável considerar como vimos no Capítulo 8 que ⅔ dos dados estão no intervalo calculado Além disso é comum apresentar o resultado do trabalho na forma Desde que a amostra seja suficientemente grande mais de cem essa expressão pode ser vista como um intervalo de 95 de confiança para o parâmetro µ a média da população porque você está usando a fórmula do erro padrão da média e 2 é o valor aproximado de t para grandes amostras Mas isso não é verdade no caso das pequenas amostras de tamanho seis ou dez unidades 95 Cuidados na interpretação dos intervalos de confiança A interpretação do intervalo de confiança exige cuidado Na prática o pesquisador dispõe de uma única amostra que fornece uma só estimativa de determinado parâmetro Calcula então um intervalo de 95 de confiança mas não sabe se o parâmetro está ou não contido no intervalo que calculou Sabese apenas que intervalos de confiança calculados da mesma forma têm 95 de probabilidade de conter o parâmetro A margem de erro da estimativa é dada pela amplitude do intervalo de confiança Quanto maior a amostra menor é a margem de erro mas o fato de o intervalo de confiança ficar menor não significa que contenha o parâmetro Conter o parâmetro é apenas uma probabilidade 96 Exercícios resolvidos 961 Foram obtidos dados sobre o nível de colesterol total em jejum de 25 universitários saudáveis A média e o desvio padrão medidos em mgdL foram de 200 e 20 respectivamente Encontre o intervalo de 90 de confiança Para um nível de 90 de confiança α 10 n 1 25 1 24 Então o valor de t na Tabela 6 dos Anexos é 171 A expressão do intervalo de confiança fica então como segue 962 Um professor obteve dados de idade de uma amostra de 61 alunos matriculados na universidade A média de idade foi de 235 anos e o desvio padrão foi 30 Calcule o intervalo de 99 de confiança para a média Sabemos que as margens de erro do intervalo de confiança são dadas por Temos média de 235 desvio padrão 30 tamanho da amostra 61 e nível de confiança pedido de 99 Para calcular o valor de t é preciso procurar na mesma Tabela 6 o valor que corresponde a n 1 61 1 60 graus de liberdade e α 100 99 1 Você acha t 266 Então O intervalo de 99 de confiança para a média de idade dos alunos apresenta margens de erro 23369 e 23631 anos 963 O limite inferior de um intervalo de confiança para a média para peso ao nascer pode ser negativo Pode ser igual a zero Se a amostra for pequena e a variabilidade for alta pode acontecer de o limite inferior ser zero ou até mesmo negativo o que não tem sentido biológico O problema é que no cálculo do intervalo de confiança não se leva em conta qualquer informação sobre a média da população mas apenas os dados da amostra 964 A pressão sanguínea sistólica medida em uma amostra de cem militares apresentou média igual a 125 mm Hg e desvio padrão igual a 9 mmHg Calcule o erro padrão da média e ache o intervalo de 95 para a média populacional Como no Exemplo 94 vamos tomar t 200 Então O intervalo de 95 tem limites 12320 mm Hg e 12680 mm Hg 965 A pressão sanguínea sistólica medida em uma amostra de nove militares apresentou média igual a 125 mm Hg e desvio padrão de 9 mmHg Calcule o erro padrão da média e ache o intervalo de 95 para a média populacional No nível de confiança de 95 com n 91 8 temos t 231 Então O intervalo de 95 para a variável em estudo tem limites 11107 mm Hg e 13193 mm Hg 966 Compare os intervalos de confiança obtidos nos exercícios 964 e 1065 A amplitude do intervalo de confiança dá ideia de quão incertos estamos acerca do valor do parâmetro que desconhecemos Amplitude grande pode estar indicando que a amostra deveria ser maior Não existe efeito do tamanho da amostra sobre o valor numérico do desvio padrão calculado No entanto o erro padrão da média tende a diminuir porque o valor da média da amostra tende a se aproximar do valor da média verdadeira veja que você divide o desvio padrão por n O valor de t é maior quando a amostra é pequena 97 Exercícios propostos 971 Um intervalo de 95 de confiança para a média tem a seguinte interpretação a se forem tomadas repetidamente muitas amostras e calculados seus intervalos de confiança 95 devem conter a média b 95 da população está contida no intervalo de 95 de confiança 972 Responda se a afirmativa Intervalos de confiança só podem ser calculados para a média é a verdadeira b falsa 973 Seja X a variável aleatória que representa a pressão sanguínea sistólica de indivíduos com idade entre 20 e 25 anos Essa variável apresenta distribuição aproximadamente normal Suponha que com base em uma amostra de cem indivíduos tenham sido obtidos a média de 123 mL de mercúrio e o desvio padrão de 8 mL de mercúrio Determine o intervalo de 90 de confiança para a média 974 Seja X a variável aleatória que representa a quantidade de hemoglobina em gramas encontrada em um decilitro 100 mL de sangue total Com base em uma amostra aleatória de duzentas mulheres adultas sadias obtevese a média de 14gdL e erro padrão da média de 11gdL Determine o intervalo de 95 de confiança para µ supondo que X seja uma variável com distribuição aproximadamente normal 975 Seja X a variável aleatória que representa o comprimento ao nascer de filhos do sexo masculino de mães sadias com período completo de gestação Com base em 28 recémnascidos masculinos uma enfermeira calculou a média e o desvio padrão que resultaram em 50 cm e 25 cm respectivamente Calcule o intervalo de 90 de confiança para µ pressupondo distribuição aproximadamente normal 976 Seja X a variável aleatória que representa a taxa de glicose no sangue humano Determine o intervalo de 95 de confiança para µ supondo que uma amostra de 25 pessoas tenha fornecido média 950 mg de glicose por 100 mL de sangue e o desvio padrão s 235 mg de glicose por 100 mL de sangue Suponha que X tenha distribuição aproximadamente normal 977 Uma amostra de trinta homens sadios com idade entre 30 e 48 anos não fumantes e que tinham atividade física regular forneceu em repouso dados de frequência cardíaca6 A média foi de 639 bpm batimentos por minuto com erro padrão da média de 13 bpm Calcule o intervalo de 95 de confiança para a média 978 Num estudo sobre qualidades nutricionais7 de lanches rápidos mediuse a quantidade de gordura em cem hambúrgueres de determinada cadeia de restaurantes Foram obtidos a média de 302 gramas e o desvio padrão de 38 gramas Construa um intervalo de 95 de confiança para a quantidade média de gordura nos hambúrgueres servidos nesses restaurantes 979 No mesmo estudo citado no Exercício 978 foi medida a quantidade de sal e se obtiveram a média de 658mg e o desvio padrão de 47mg Ache o intervalo de 90 de confiança 9710 Uma enfermeira mediu o comprimento de 105 bebês do sexo masculino e obteve o intervalo de 90 de confiança para a média em centímetros 453 532 Responda brevemente às questões feitas em seguida a A média da população está no intervalo 453 532 b A média da amostra está no intervalo 453 532 c Novas amostras de 105 bebês do sexo masculino darão médias no intervalo 453 532 d Um intervalo de 99 de confiança seria mais estreito 6Com base em Brett S E et al Diastolic blood pressure change during exercise positively correlated with serum cholesterol and insulin resistance Circulation 2000 101 611615 7Johnson R e Tsui K W Statistical reasoning and methods Nova York Wiley1998 p 338 1The Behavior of the Sample Mean Disponível em wwwjerrydallalcom1hspmeandisthtm Acesso em 20 nov 2014 2Note que para isso ser verdade é preciso que as variâncias das amostras tenham sido estimadas usando os graus de liberdade como divisores 3Esse comportamento é descrito pelo Teorema do Limite Central que diz mais ou menos o seguinte a distribuição da soma de variáveis aleatórias independentes é normal desde que a amostra seja suficientemente grande Esse teorema é assim chamado não por fornecer um limite central mas por ser um teorema do limite que é central para a prática da Estatística descrevendo o comportamento da média da amostra à medida que o tamanho da amostra vai aumentando 5É errado dizer que um intervalo de confiança com valores calculados com base em uma amostra tem 95 de probabilidade de conter µ O intervalo ou contém ou não contém µ Sabemos apenas que temos probabilidade 95 de os intervalos calculados da mesma forma conterem µ CAPÍTULO 10 Teste t para uma Amostra Muitas vezes é preciso verificar se certas diretrizes ou determinações estão sendo acatadas Neste capítulo veremos como se faz um teste estatístico para informar com certo nível de confiança e a partir dos dados de uma amostra que as medidas tomadas em determinada população têm em média o valor especificado por uma instituição ou uma empresa O teste é necessário porque se faz uma inferência ou seja usamos dados de uma amostra para informar a média da população Toda inferência está sujeita a erro mas o teste estatístico garante certo grau de confiança nas afirmativas Exemplo 101 Teste de uma taxa A Organização Mundial da Saúde OMS1 preconiza 15 para a taxa2 de parto cesáreo no mundo mas no Brasil essa taxa é muito maior Imagine que a maior maternidade de uma metrópole brasileira informe que nos últimos anos tem mantido a taxa de parto cesáreo com valor próximo ao recomendado pela OMS Para confirmar essa informação um pesquisador precisa comparar a taxa de parto cesáreo obtida em uma amostra aleatória de prontuários dessa maternidade com a taxa de 15 recomendada pela OMS usando um teste estatístico 1Disponível em httpbvsmssaudegovbrbvspublicacoesqualificacaosaudesuppdfAtencsaude2fasepdf Acesso em 5 fev 2015 2Taxa de parto cesáreo é a relação entre o número total de partos cesáreos e o total de partos normais e cesáreos realizados por uma operadora no ano considerado Exemplo 102 Teste de uma média Para verificar se a quantidade de flúor em dentifrícios de determinada marca comercial corresponde à quantidade especificada nas embalagens dessa marca vendidas no mercado um químico pode tomar uma amostra de vários tubos de dentifrício da marca em questão analisar a quantidade de flúor em cada tubo e comparar a média calculada com o valor informado nas embalagens por meio de um teste estatístico3 3Ver Vieira S Estatística para a qualidade 3 ed Rio de Janeiro Elsevier 2014 101 Tomada de decisão em condições de incerteza Imagine uma situação em que é preciso tomar uma decisão por exemplo você comprou um carro e precisa decidir se faz ou não o seguro contra roubo Você pensa se o carro for roubado e estiver segurado recebe outro carro Você teria então tomado a decisão certa Mas se seu carro não for roubado você talvez até lamente ter pagado o seguro porque não precisou dele E se não fizer o seguro Seu carro também pode ser ou não roubado e você irá se lamentar se tiver perdido o carro ou se congratular se não tiver despendido dinheiro com seguro Veja a Figura 101 FIGURA 101 Decidindo certo ou errado Ao tomar uma decisão pensamos estar tomando a decisão correta mas podemos estar errados Por essa razão nas decisões que você toma na sua vida pessoal leva em conta a própria experiência sua intuição os conselhos de terceiros para estimar probabilidades etc Mas o pesquisador precisa tomar decisões objetivas com base em dados e dar conta a seus leitores das probabilidades de erro envolvidas em suas decisões Deve então recorrer a um teste estatístico É o que vamos ver neste capítulo 102 Teste estatístico Para apresentar uma pesquisa o pesquisador precisa de dados coletados organizados analisados e interpretados Se os dados provêm de uma amostra retirada da população o pesquisador pode apenas descrever essa amostra ou pode usála como base para generalização A generalização passa necessariamente por análise estatística Este capítulo apresenta um teste estatístico antigo mas muito usado hoje em dia para comparar a média de uma população estimada por meio de uma amostra com um valor especificado Exemplo 103 Teste de uma média Uma análise de dados da literatura indicou que o peso de um menino de 7 anos morador do sul do Brasil deve ser 25 kg Um professor de Educação Física considera que esse parâmetro deve ter mudado Pesou então cem meninos de 7 anos e calculou a média Olhando essa média o professor pode dizer se em média os meninos de sua amostra têm ou não 25 kg Mas também pode generalizar seu resultado e eventualmente refutar a informação da literatura Mas para essa refutação precisa de um teste estatístico O pesquisador tem apenas uma amostra e quer generalizar seus achados para toda a população Aplica então um teste estatístico O teste estatístico não impede o erro mas calcula a probabilidade de esse erro ocorrer nesse tipo de pesquisa Vamos ver isso devagar Para fazer o teste siga os passos explicados em seguida 1 construa as hipóteses 2 especifique o nível de significância 3 calcule o valor do teste 4 interprete o resultado 1021 Construindo as hipóteses O pesquisador coleta dados com um objetivo em mente No Exemplo 103 o objetivo era verificar se o parâmetro citado na literatura peso de um menino de 7 anos mudou no tempo ou em determinada população São possíveis duas hipóteses a primeira é a de que nessa população o peso médio de um menino de 7 anos seja de 25 kg e a segunda é a de que nessa população o peso médio de um menino de 7 anos não seja de 25 kg Com base nos dados coletados e no resultado de um teste estatístico o pesquisador deve decidir por uma dessas duas hipóteses lembrando sempre que está sujeito a erro A primeira hipótese é chamada de hipótese da nulidade e é indicada por H0 lêse agá zero No exemplo que estamos discutindo a hipótese da nulidade afirma que a média µ dos pesos de meninos de 7 anos na população de onde o pesquisador retirou a amostra é igual a 25 kg A segunda hipótese contradiz a primeira e por isso é chamada de hipótese alternativa Indicase por H1 lêse agáum No exemplo a hipótese alternativa diz que a média dos pesos de meninos de 7 anos na população de onde a amostra proveio é diferente de 25 kg É importante deixar claro as hipóteses são feitas sobre os parâmetros nunca sobre as estimativas No Exemplo 103 o pesquisador não se perguntou se a média da amostra que obteve correspondia à média informada na literatura era fácil ver isso O objetivo da pesquisa era estabelecer se o que foi observado na amostra poderia ser estendido para toda a população de onde a amostra foi retirada 1022 Testes unilaterais e testes bilaterais A hipótese da nulidade afirma não há diferença ou então a diferença é nula No exemplo que acabamos de ver A hipótese alternativa afirma na população estudada a média é diferente Dizemos então que o teste é bilateral porque na população estudada a média tanto pode ser maior como menor que o parâmetro estabelecido na literatura Pode acontecer porém de o pesquisador especificar o sinal da diferença maior ou menor Dizemos então que o teste é unilateral É sempre mais seguro proceder a um teste bilateral Isso porque qualquer que seja a área de conhecimentos alguns tratamentos têm eventualmente efeito contrário ao esperado Exemplo 104 Teste bilateral Em média comprimidos para cefaleia dor de cabeça aliviam a dor por 100 minutos Para saber se uma nova formulação tem o mesmo efeito dez voluntários usaram a nova formulação em situação de dor A hipótese da nulidade H0 é a de que em média o tempo de alívio de dor é 100 minutos como acontece com as outras formulações A hipótese alternativa H1 é a de que o tempo médio para alívio de dor é diferente de 100 minutos Exemplo 105 Teste unilateral A Organização Mundial de Saúde OMS informa que o peso médio ao nascer de nascidos a termo em países desenvolvidos no ano de 2000 era de 34 kg 75 lb Duas médicas australianas4 se perguntaram se o peso ao nascer de filhos de mães que fizeram uso continuado de drogas ilícitas durante a gestação não seria menor do que o informado pela OMS Levantaram então por volta de 2001 dados de peso ao nascer de filhos de 62 mulheres que usaram maconha durante todo o período de gestação Obtiveram para a idade gestacional média de 38 semanas peso médio ao nascer de 3068 kg e erro padrão da média de 0096 kg Veja as hipóteses colocadas em teste hipótese da nulidade não há diferença entre o peso médio ao nascer de nascidos a termo de mães que fizeram uso continuado de drogas ilícitas durante a gestação e o peso médio ao nascer de nascidos a termo em países desenvolvidos informado pela OMS 34 kg ou 75 lb hipótese alternativa o peso médio ao nascer de nascidos a termo de mães que fizeram uso continuado de drogas ilícitas durante a gestação é menor que o peso médio ao nascer de nascidos a termo em países desenvolvidos informado pela OMS 34 kg ou 75 lb 4Quilivan JA Evans SF The impact of continuing illegal drug use on teenage pregnancy outcomes Australia BJOG An International Journal of Obstetrics Gynaecology109 10114853 2002 1023 Definindo os erros Para quem busca informação científica não há interesse em saber lembrando o Exemplo 105 que algumas mulheres australianas a amostra usuárias de maconha durante a gestação tiveram ou não filhos com peso ao nascer mais baixo do que o esperado o que interessa é saber se o uso de maconha na gestação é ou não fator de risco para baixo peso ao nascer toda a população Mas não há como estudar toda a população Então os pesquisadores levantam dados de amostras e fazem inferência estatística para a população Veja a Figura 102 a inferência estatística como toda inferência está sujeita a erro FIGURA 102 Erro tipo I e erro tipo II erro tipo I rejeitar a hipótese da nulidade quando essa hipótese é verdadeira erro tipo II não rejeitar a hipótese da nulidade quando essa hipótese é falsa Exemplo 106 Definindo os erros Reveja o Exemplo 105 Feitas as hipóteses quais são os erros possíveis Erro tipo I rejeitar H0 quando H0 é verdadeira Dizer que o uso de maconha durante a gestação faz diminuir o peso ao nascer dos bebês se isso não for verdade Erro tipo II não rejeitar H0 quando H0 é falsa Dizer que o uso de maconha durante a gestação não faz diminuir o peso ao nascer dos bebês se isso não for verdade É importante saber que a pesquisa científica deve responder a uma pergunta O profissional de Estatística transforma a pergunta do pesquisador em duas hipóteses que se contradizem uma negativa outra positiva Apenas uma das hipóteses pode ser verdadeira Um teste estatístico conduz a decisão por uma das hipóteses Veja a Figura 103 FIGURA 103 Decisão Sempre é possível tomar uma decisão errada mas os pesquisadores preferem diminuir a probabilidade de cometer erro tipo I Por quê Porque cometer erro tipo I significa dizer que uma intervenção tem efeito quando na verdade essa intervenção não tem efeito O erro no resultado da pesquisa pode determinar mudanças de tratamento de pacientes investimentos mudanças de hábitos sem necessidade Veja o Exemplo 107 Exemplo 107 Erros tipo I O pesquisador sugere mudança de tratamento quando conclui A velocidade de ação da nova droga é maior que a da droga convencional na redução da pressão sistólica Se não for verdade que a velocidade de ação da nova droga é maior que a da droga convencional o pesquisador terá cometido erro tipo I Evidentemente o pesquisador não sabe disso quando conclui Foi levado à conclusão errada porque errou na amostragem ou na coleta de dados ou no delineamento do ensaio ou foi simples azar O pesquisador sugere mudança de hábito quando conclui Exercício físico melhora o aproveitamento da glicose pelos músculos Se não for verdade que exercício físico melhora o aproveitamento da glicose pelos músculos o pesquisador terá cometido erro tipo I O pesquisador conclui O novo modelo de aparelho de raios X não é mais seguro que o antigo O pesquisador não estará cometendo erro tipo I porque erro tipo I seria concluir que o novo modelo de aparelho de raios X investimento é mais seguro que o antigo Não foi essa a conclusão Nível de significância é a probabilidade de se cometer erro tipo I rejeitar H0 quando H0 é verdadeira Indicase pela letra grega α lêse alfa Nível de significância 1 nível de confiança Os pesquisadores se sentem seguros para rejeitar a hipótese da nulidade concluir que a diferença existe quando a probabilidade de errar nessa decisão é pequena Por essa razão na pesquisa científica é comum usar nível de significância de 10 5 ou 1 Se o pesquisador rejeita a hipótese da nulidade no nível de significância α 005 diz que o resultado é significante embora fosse melhor especificar significante no nível de 5 Se o pesquisador rejeita a hipótese da nulidade no nível de significância IαI 001 diz que o resultado é altamente significante embora fosse melhor especificar significante no nível de 1 Exemplo 108 Nível de significância Reveja o Exemplo 105 Feitas as hipóteses estabeleceuse o nível de significância de 5 e então aplicouse o teste t O resultado foi significante no nível de 5 A conclusão da pesquisa foi a de que o uso continuado de maconha durante a gestação faz diminuir o peso ao nascer dos bebês 1024 Aplicando o teste t O teste t para uma amostra one sample ttest permite estabelecer se a média da população de onde essa amostra foi retirada tem um valor especificado Para aplicar o teste o pesquisador precisa ter coletado a amostra que fornece média e erro padrão da média O pesquisador então constrói as hipóteses estabelece o nível de significância e calcula o valor de t por meio da seguinte fórmula em que x é a média da amostra µ é a especificação e é o erro padrão da média Exemplo 109 Aplicando o teste A média de tempo de sono dos idosos internados numa instituição é de 6 horas e 8 minutos Uma enfermeira quer saber se os idosos que residem no pavilhão em que trabalha têm ou não o mesmo tempo de sono dos demais Uma amostra de quatro pessoas forneceu os seguintes tempos de sono medidos em horas 5 4 6 5 O nível de significância estabelecido pela pesquisadora é de 10 Aplique o teste t O valor especificado é de 6 horas e 8 minutos As hipóteses são A média da amostra é Para calcular o erro padrão da média é preciso obter a variância Veja os cálculos intermediários na Tabela 101 Tabela 101 Cálculos intermediários para o cálculo da variância x x2 5 25 4 16 6 36 5 25 20 102 O valor especificado para a média de tempo de sono dos idosos internados na instituição é de 6 horas e 8 minutos Transformando 8 minutos em decimais temse 613 h O valor de t é Feitos os cálculos o pesquisador deve comparar o valor absoluto do t calculado com o valor crítico dado em tabela de valores de t com os graus de liberdade da amostra e no nível estabelecido de significância Toda vez que o valor absoluto do t calculado for igual ou maior que o valor crítico dado na tabela o pesquisador deve rejeitar a hipótese de nulidade no nível estabelecido de significância Para entender como se encontra o valor crítico de t veja a Tabela 102 que reproduz parte da tabela de valores de t trazida neste livro nos Anexos O valor crítico de t para um teste bilateral com por exemplo 4 graus de liberdade e 005 de significância está no cruzamento da linha 4 com a coluna 005 É 2776 em negrito na Tabela 102 Tabela 102 Tabela parcial de valores de t Exemplo 1010 Interpretando o resultado do teste Reveja o Exemplo 109 sobre a média de tempo de sono dos idosos internados numa instituição Estabeleceuse nível de significância de 10 para o teste bilateral O valor de t calculado foi 277 O valor crítico de t dado na tabela para 3 graus de liberdade e 10 de significância é 2353 O valor absoluto do t calculado é maior que o valor crítico dado na tabela Logo a pesquisadora deve rejeitar a hipótese de nulidade ou seja deve dizer que a média de tempo de sono dos idosos sob sua responsabilidade é diferente da especificada de 6 horas e 8 minutos α 10 Quem rejeita a hipótese da nulidade não tem certeza total e absoluta de que a decisão tomada está correta não tem 100 de confiança O teste estatístico fixa o valor da probabilidade de cometer erro tipo I mas não elimina a probabilidade desse erro De qualquer modo é o teste estatístico que deixa claro para o pesquisador a possibilidade de estar errado em sua afirmativa está escrito na conclusão e ainda esclarece a probabilidade de erro nesse tipo de pesquisa 1025 Calculando o pvalor Os estatísticos usam computador para fazerem testes E para fazerem testes estatísticos usando um programa não se estabelece o nível de significância a priori porque esses programas fornecem o pvalor Calcular o pvalor é extremamente difícil e isso só é feito hoje em dia usando computador Mas o que significa pvalor O pvalor diz quão provável seria obter uma amostra tal qual a que foi obtida quando a hipótese da nulidade for verdadeira Exemplo 1011 Interpretando o pvalor Reveja o Exemplo 109 sobre a média de tempo de sono dos idosos internados numa instituição Usando o Minitab você obtém OneSample t Tempo de sono Test of µ 613 vs 613 Veja testase a hipótese de que µ 613 contra a hipótese de que µ 613 Você tem n 4 que é o tamanho da amostra média igual a 50 desvio padrão igual a 0816 erro padrão da média igual 0408 intervalo de 95 confiança para a média de 3701 a 6299 valor de t igual a 277 e pvalor igual a 0070 O que significa pvalor igual a 0070 Quando a hipótese de nulidade é verdadeira a probabilidade de se obter uma amostra tal qual a que foi obtida é 0070 ou 7 Como esse valor é menor que os 10 admitidos de erro rejeitase a hipótese de nulidade no nível de 10 de significância O pvalor valor de probabilidade permite decidir se existe evidência suficiente para rejeitar a hipótese de nulidade embora o teste de hipóteses não elimine a probabilidade de erro De qualquer modo os pesquisadores se sentem seguros para rejeitar a hipótese de nulidade assumir que existe a diferença procurada quando o pvalor é pequeno5 Quando p 005 dizemos que os resultados são significantes e quando p 001 dizemos que os resultados são altamente significantes Isso porque seria muito pouco provável chegar ao resultado obtido se a diferença entre médias não existisse 103 Exercícios resolvidos 1031 Um réu está sendo julgado Quais são as hipóteses possíveis Quais são as decisões possíveis Quais são os erros associados às decisões possíveis Hipóteses o réu é inocente do ato de cuja prática o acusam o réu é culpado do ato de cuja prática o acusam Decisões possíveis considerar o réu culpado considerar o réu inocente Erros possíveis dizer que o réu é culpado quando é inocente dizer que o réu é inocente quando é culpado 1032 Uma pessoa garante que um cão pode ser treinado para alertar seus donos no caso de o telefone tocar Quais são as hipóteses possíveis Quais são as decisões possíveis Quais são os erros associados às decisões possíveis Hipóteses não se consegue dar esse tipo de treinamento conseguese dar esse tipo de treinamento Decisões possíveis considerar que se conseguiu o resultado com treinamento considerar que não se conseguiu o resultado com treinamento Erros possíveis dizer que se conseguiu resultado com o treinamento quando não se conseguiu dizer que não se conseguiu resultado com o treinamento quando se conseguiu 1033 Um pesquisador requisitou ao biotério da universidade em que trabalha oito ratos machos da raça Wistar com 30 dias pesando 80 gramas Recebe então ratos machos da raça indicada com os seguintes pesos em gramas 76 81 50 47 63 65 63 64 Por simples inspeção o pesquisador acostumado a treinar ratos de laboratório suspeita que os ratos que recebeu tenham peso menor do que o pedido Aplicando um teste estatístico você diria que o peso médio dos ratos que o pesquisador recebeu corresponde ao especificado na requisição ou é menor que esse valor no nível de significância α 5 Para obter a média aritmética calcule Para obter o desvio padrão primeiro calcule a variância O desvio padrão é O valor de t é Como a hipótese de nulidade será rejeitada apenas em uma direção se o peso dos ratos do biotério for significantemente menor do que o valor especificado esse é um teste unilateral Com n 1 8 1 7 graus de liberdade o valor crítico na tabela de t no nível de 5 é 1895 Não se rejeita a hipótese de nulidade ou seja não se pode afirmar que os pesos de ratos do biotério sejam significantemente menores do que o valor especificado 1034 Uma análise de dados da literatura indicou que a escovação de dentes com dentifrício fluoretado reduz a incidência de cárie em 30 quando comparada com o dentifrício sem flúor considerando um acompanhamento de três anos6 Um cirurgiãodentista considerou esse valor muito alto Resolveu então fazer uma pesquisa Durante três anos examinou periodicamente cem crianças de 10 a 12 anos metade das quais usou dentifrício fluoretado enquanto a outra metade usou dentifrício sem flúor O cirurgiãodentista calculou as médias de incidência de cáries no grupo que usou flúor e naquele que não usou flúor Em seguida calculou a redução de incidência de cárie na amostra Quais são as hipóteses em tese para um teste bilateral E para um teste unilateral As hipóteses em teste são Para um teste bilateral H0 a redução de cárie com bochechos de solução fluoretada é igual a 30 H1 a redução de cárie com bochechos de solução fluoretada é diferente de 30 Para um teste unilateral H0 a redução de cárie com bochechos de solução fluoretada é igual a 30 H1 a redução de cárie com bochechos de solução fluoretada é menor de 30 6Chaves SCL e Silva LMV A efetividade do dentifrício fluoretado no controle da cárie dental uma meta análise Rev Saúde Pública v 36 5 São Paulo out de 2002 104 Exercícios propostos 1041 Você vai sair de casa e o céu está nublado prenunciando chuva Quais hipóteses você pode pôr em teste Quais são as decisões possíveis considerando que você tem um guardachuva Quais são os erros associados às decisões possíveis 1042 Um dos melhores indicadores da saúde do bebê é seu peso ao nascer7 Mas o peso ao nascer sofre o efeito de diversos fatores particularmente da privação de alimentos que pode ocorrer durante a gestação Embora o peso médio ao nascer nos Estados Unidos seja 3300 g a média de peso ao nascer para filhos de mulheres que vivem em extrema pobreza é de 2800 g Um hospital introduziu um novo programa de cuidado prénatal para diminuir o número de bebês com baixo peso ao nascer No primeiro ano 25 gestantes que viviam em extrema pobreza participaram do programa Dados do hospital revelam que os bebês nascidos dessas mães tiveram peso médio ao nascer de 3075 g e desvio padrão 500 g O programa é efetivo para gestantes que vivem em extrema pobreza 1043 Um professor de Estatística quer saber se os alunos que entram na universidade têm conhecimento de Matemática suficiente para enfrentar os cursos básicos de Estatística Ele considera que se os alunos não conseguirem em média pelo menos 7 em determinada prova devem estudar Matemática antes de iniciar o curso Seis alunos são escolhidos ao acaso para fazer a prova As notas deles foram 62 92 75 68 83 95 O professor pode ter 90 de confiança de que a nota média dos alunos está acima de 7 1044 As notas finais de estudantes de certo curso podem variar entre 1 pior nota e 6 excelente Nos últimos cinco anos a média foi 47 A média e o desvio padrão de uma amostra aleatória de 22 estudantes do ano em curso foram 50 e 0452 respectivamente Há razão para suspeitar de que os novos alunos tenham notas melhores que os alunos de anos anteriores em um nível de significância de 5 1045 Crianças com baixa estima têm mais depressão do que crianças em geral O escore para depressão na população em questão é sabidamente 908 Você estuda uma amostra de cem crianças com baixa estima e encontra um escore médio para depressão de 92 com desvio padrão de 14 Qual é sua conclusão 1046 Imagine que você esteja conduzindo um ensaio para saber se determinada terapia reduz a ansiedade em alunos do curso fundamental O valor teoricamente estabelecido para o teste de ansiedade que você vai fazer é 20 Com uma amostra casual simples de 81 alunos você encontrou média 18 e desvio padrão 9 Qual seria sua conclusão 1047 Uma amostra aleatória dos escores da avaliação do desempenho de funcionários de uma faculdade será comparada com a média dos escores de toda a universidade nos últimos cinco anos que foi 50 Os escores de avaliação do desempenho variavam de zero a 10 Qual seria sua avaliação 1048 A frase que segue está certa ou está errada O teste t para uma amostra é usado para verificar se a média de uma amostra é significantemente diferente de um valor especificado 1049 Aprenda a usar um programa de computador para fazer o teste t para uma amostra onesample ttest Em seguida use o programa para refazer o Exercício 1043 Encontre o pvalor 10410 Ache o pvalor para o Exercício 1047 Interprete o resultado 10411 Comprimidos para cefaleia dor de cabeça aliviam a dor por 100 minutos em média Para saber se uma nova formulação tem o mesmo efeito dez voluntários usaram a nova formulação em ocasião de dor O tempo de alívio de dor registrado por esses voluntários foi de 90 93 93 99 98 100 103 104 99 102 Aplique o teste 7Quantitative Methods in Social Research Disponível em httpccnmtlcolumbiaeduprojectsqmss Acesso em 10 de fevereiro de 2015 8httpptslidesharenetshoffma5onesamplettest 5Quando reduzimos a probabilidade de cometer um tipo de erro aumentamos a probabilidade de cometer o outro tipo de erro Como os pesquisadores consideram cometer erro tipo I mais grave esse tipo de erro é reduzido em geral a 5 CAPÍTULO 11 Teste t para a Comparação de Médias Os pesquisadores trabalham com amostras mas por meio de testes estatísticos fazem inferência ou seja generalizam suas conclusões para as populações das quais as amostras foram retiradas São sempre duas as hipóteses em teste a hipótese da nulidade que na grande maioria das vezes afirma não existir diferença entre as duas populações em comparação e a hipótese alternativa que contradiz a primeira Os testes estatísticos fornecem o pvalor valor de probabilidade que permite decidir se há evidência suficiente para rejeitar a hipótese da nulidade Em geral e por tradição se o pvalor for menor do que 005 p 005 a hipótese da nulidade é rejeitada1 Em outras palavras se p 005 os resultados são estatisticamente significantes Neste capítulo veremos como aplicar um teste estatístico para comparar duas médias2 da mesma variável quantitativa Exemplo 111 Comparando duas médias Para verificar se meninos e meninas aprendem a falar na mesma idade um pesquisador obteve para um grande número de crianças a idade em que cada uma delas começou a falar A primeira hipótese da nulidade é a de que a média das idades em que os meninos começam a falar meninos da população da qual a amostra foi retirada não apenas os da amostra é igual à média das idades em que as meninas começam a falar meninas da população da qual a amostra foi retirada não apenas as da amostra H0 as médias são iguais A segunda hipótese alternativa é a de que a média das idades em que os meninos começam a falar é diferente da média das idades em que as meninas começam a falar H1 as médias são diferentes Para comparar duas médias aplicase o teste t de Student desde que seja razoável pressupor que a variável em análise tem distribuição normal ou aproximadamente normal Vamos ver como se faz esse teste em duas situações diferentes 1 quando os dados são pareados 2 quando as amostras são independentes 111 Teste t nos estudos com dados pareados Dizemos que os dados são pareados se o pesquisador adotar um dos seguintes métodos para seu trabalho medir a mesma variável nas mesmas unidades antes e depois de uma intervenção recrutar participantes da pesquisa aos pares ou parear os participantes por idade sexo estágio da doença Depois administrar o tratamento em teste a um dos participantes de cada par escolhido ao acaso e ao outro o tratamento convencional medir a mesma variável em gêmeos ou outro tipo de par como mãe e filho Exemplo 112 Ensaio com dados pareados duas medidas obtidas em cada indivíduo Para verificar se duas drogas diferentes usadas como antitussígenos bloqueadores de tosse alteram o tempo de sono foi feito um ensaio com nove voluntários Eles tomaram um dos antitussígenos na primeira noite e o outro na noite seguinte Foi registrado o tempo de sono de cada voluntário nas duas noites consecutivas A proposta consiste em comparar as médias de tempo de sono obtidas com cada antitussígeno Exemplo 113 Ensaio com dados pareados medidas feitas em pares de unidades Para verificar se uma droga é eficiente na inibição do crescimento de tumores foram injetadas células cancerosas em 14 ratos similares Em seguida os tumores foram medidos e foram formados pares de ratos com tumores de mesmo tamanho Por sorteio um rato de cada par recebeu a droga grupo tratado enquanto o outro foi mantido como controle A ideia é comparar as médias dos tamanhos de tumores de ratos tratados e de ratos controles Quando temos dados pareados aplicamos o teste t Mas o pareamento deve ter algum tipo de lógica não basta ter duas amostras com o mesmo número de dados Para fazer o teste t 1 estabeleça as hipóteses 2 escolha o nível de significância 3 calcule as diferenças entre todas as observações pareadas 4 calcule a média dessas diferenças 5 calcule a variância dessas diferenças 6 calcule o valor de t que está associado a n 1 graus de liberdade pela seguinte fórmula 7 compare o valor absoluto do t calculado com o valor crítico dado em tabela de valores de t no nível estabelecido de significância e com os mesmos graus de liberdade Toda vez que o valor absoluto do t calculado for igual ou maior que o valor crítico dado na tabela rejeite a hipótese de que as médias são iguais no nível estabelecido de significância Exemplo 114 Aplicando o teste t em ensaio com dados pareados Lembre o Exemplo 112 realizouse um ensaio para verificar se pessoas submetidas a antitussígenos diferentes em duas noites consecutivas têm em média o mesmo tempo de sono nas duas noites Na Tabela 111 estão registrados os tempos de sono de nove voluntários com cada droga As hipóteses em teste são Tabela 111 Tempos de sono dos voluntários em horas segundo a droga H0 o tempo médio de sono é o mesmo para as duas drogas H1 as drogas determinam tempos médios de sono diferentes Nível de significância 005 Para fazer o teste a calcule as diferenças entre os tempos de sono observados para cada voluntário quando tomaram drogas diferentes conforme apresentado na Tabela 112 Tabela 112 Tempos de sono em horas segundo a droga e as respectivas diferenças b calcule a média das diferenças c calcule a variância das diferenças d calcule o valor de t que tem n 1 9 1 8 graus de liberdade e compare o valor absoluto do t calculado com o valor crítico dado em Tabela de valores de t no nível de significância de 005 e com 8 graus de liberdade Como o valor absoluto do t calculado 300 é maior que o valor crítico 231 rejeite a hipótese de que o tempo de sono para as duas drogas é em média o mesmo no nível de significância de 005 Se você fizer os cálculos em computador3 vai obter o pvalor 00171 A conclusão é a mesma 3É muito complicado calcular o pvalor razão pela qual não se fornece aqui nenhuma fórmula de cálculo Dados pareados podem ser submetidos a testes unilaterais desde que a pesquisa assim o exija Veja o Exemplo 115 Exemplo 115 Ensaio com dados pareados teste t unilateral Uma droga é tradicionalmente usada para alívio de dor nos casos de enxaqueca Uma empresa oferece um genérico Para testar se as duas drogas dão o mesmo tempo de alívio da dor realizouse um ensaio com sete voluntários4 Todos os voluntários usaram em períodos distintos tanto a droga tradicional como a genérica Os tempos de alívio da dor registrados pelos voluntários com cada droga estão na Tabela 113 Tabela 113 Tempos de alívio da dor em horas segundo a droga H0 o tempo médio de alívio da dor é o mesmo para as duas drogas H1 o tempo médio de alívio da dor é menor quando se administra o genérico Nível de significância de 5 Para fazer o teste a calcule as diferenças entre antes e depois conforme apresentado na Tabela 114 Tabela 114 Tempos de alívio da dor em horas segundo a droga e as respectivas diferenças Fazendo os cálculos você obtém a média das diferenças que é 05 e a variância das diferenças que é 05 Aplicando a fórmula para calcular o valor de t quando os dados são pareados você obtém No nível de significância de 5 para um teste unilateral e com 6 graus de liberdade o valor de t na Tabela de t é 194 leia na coluna de 10 Como o valor absoluto do t calculado é menor que o valor crítico 1871 194 não rejeite a hipótese de que o tempo de alívio da dor é em média o mesmo para droga tradicional e genérica no nível de significância de 5 Em termos do pesquisador não há evidência estatística de que o tempo de alívio da dor seja menor quando se usa a droga genérica pvalor 00553 005 4Esste tipo de teste é conhecido como de não inferioridade O número de voluntários deve estar em torno de 25 112 Teste t na comparação de grupos independentes Muitas vezes o pesquisador retira amostras de populações independentes Por exemplo pode comparar o nível de ansiedade de meninos e meninas no primeiro dia de aula Também pode comparar dois grupos de pessoas um grupo submetido a um novo tratamento enquanto o outro grupo é submetido a tratamento convencional5 Exemplo 116 Ensaio para comparação de grupos independentes Para saber se determinado produto faz nascer cabelos em pessoas calvas um dermatologista pode fazer um ensaio clínico um grupo de pessoas calvas recebe o tratamento em teste grupo tratado enquanto um grupo de pessoas calvas recebe um placebo grupo controle 1121 Comparação das variâncias dos grupos O teste t para grupos independentes compara as médias de medidas da mesma variável contínua obtidas de forma independente em cada um de dois grupos Antes porém de proceder ao teste t é preciso verificar se as variâncias dos grupos são ou não desiguais6 Para testar a hipótese de que as variâncias das duas populações são iguais7 aplicase o teste F como segue 1 estabeleça as hipóteses H0 as variâncias na população são iguais H1 as variâncias são diferentes ponto final 2 Escolha o nível de significância α ponto final 3 Siga os seguintes passos a calcule a variância de cada grupo variância do grupo 1 variância do grupo 2 b calcule o valor de F dado pela razão entre a maior e a menor variância Se o valor está associado a n1 1 numerador e n2 1 denominador graus de liberdade c compare o valor calculado de F com o valor dado na tabela de valores F com o nível de significância igual à metade do nível estabelecido e com n1 1 e n2 1 graus de liberdade Rejeite a hipótese de que as variâncias das duas populações são iguais8 no nível de significância α toda vez que o valor calculado de F for igual ou maior do que o valor da tabela de valores F no nível de significância α2 Para entender como se obtém o valor de F na tabela observe a Tabela 115 que reproduz parte da tabela apresentada neste livro nos Anexos Foi colocado em negrito o valor de F que deve ser utilizado para um teste bilateral com nível de significância α 5 n1 7 graus de liberdade no numerador e n2 8 graus de liberdade no denominador na forma descrita aqui O nível de significância que deve ser procurado na tabela é α2 25 com 7 e 8 graus de liberdade Tabela 115 Tabela parcial de valores de F para α 25 Exemplo 117 Teste F para comparar variâncias Para verificar se a quantidade de sódio em duas marcas comerciais de sopas industrializadas tem a mesma variabilidade um nutricionista tomou uma amostra de dez unidades de cada marca em supermercados e mediu a quantidade de sódio em cada unidade9 Os valores são apresentados na Tabela 116 Tabela 116 Quantidade de sódio em miligramas por 100 mL de sopa medida em dez unidades de cada uma das duas marcas comerciais do produto Para proceder ao teste é preciso estabelecer as hipóteses e o nível de significância Seja H0 σ1 2 σ2 2 contra H1 σ1 2 σ2 2 α 5 Em seguida é preciso calcular a a variância de cada grupo Para a marca A a variância é Para a marca B a variância é b o valor de F O valor calculado de F está associado a 9 graus de liberdade no numerador e 9 graus de liberdade no denominador A Tabela de valores F nos Anexos fornece para α 25 com 9 e 9 graus de liberdade o valor F 403 Então não se rejeita a hipótese de que as variâncias sejam iguais ao nível de significância de 5 9Disponível em wwwstatisticshowtocomhowtoconductastatistica Acesso em 3 mar 2015 1122 Teste t para comparar médias quando as variâncias são iguais homocedásticas Quando o teste F resulta não significante podemos considerar que as variâncias não são desiguais Para calcular o valor de t siga estes passos 1 estabeleça as hipóteses 2 estabeleça o nível de significância 3 calcule a média de cada grupo 4 calcule a variância de cada grupo 5 calcule a variância ponderada dada pela fórmula 6 calcule o valor de t que está associado a n1 n2 2 graus de liberdade pela seguinte fórmula 7 compare o valor calculado de t em valor absoluto com o valor crítico de t com o nível estabelecido de significância e com os mesmos graus de liberdade Se o valor absoluto do t calculado for igual ou maior que o da tabela rejeite a hipótese de que as médias são iguais com o nível estabelecido de significância Exemplo 118 Teste t para comparar as médias de dois grupos independentes com variâncias iguais Reveja o Exemplo 117 um nutricionista tomou amostras de duas marcas comerciais de sopas industrializadas A e B e mediu a quantidade de sódio em cada unidade10 Os dados estão apresentados na Tabela 116 Para comparar as médias da quantidade de sódio nas duas marcas Nível de significância 005 a as médias de A e B são respectivamente b as variâncias de grupo são c a variância ponderada é d o valor de t com n1 n2 2 10 7 2 15 graus de liberdade é e como o valor calculado de t em valor absoluto é maior que o valor crítico de t 350 213 ao nível de 5 de significância você rejeita a hipótese de que as duas marcas comerciais de sopa A e B tenham em média a mesma quantidade de sal no mesmo volume de líquido Em termos práticos o nutricionista pode concluir que as quantidades de sal por 125 mL são em média significantemente maiores nas sopas da marca A do que nas da marca B O pvalor neste exemplo é 000257 005 10Disponível em httpwwwstatisticshowtocomhowtoconductastatisticalftesttocomparetwovariances Acesso em 3 mar 2015 1123 Teste t para comparar médias quando as variâncias são desiguais heterocedásticas Quando as variâncias são diferentes para comparar duas médias aplicase o teste t na forma aqui descrita 1 estabeleça as hipóteses 2 estabeleça o nível de significância 3 calcule a média de cada grupo média do grupo 1 média do grupo 2 4 calcule a variância de cada grupo variância do grupo 1 variância do grupo 2 5 calcule o valor de t dado pela seguinte fórmula onde n1 é o número de elementos do grupo 1 e n2 é o número de elementos do grupo 2 6 calcule o número de graus de liberdade associado ao valor de t que é a parte inteira do número g obtido pela seguinte fórmula 7 Feitos os cálculos é preciso procurar o valor de t na tabela de valores de t com o nível estabelecido de significância e com g graus de liberdade Toda vez que o valor absoluto de t calculado for igual ou maior do que o valor de t dado na tabela conclui se que ao nível estabelecido de significância as médias não são iguais Exemplo 119 Teste t para comparar as médias de dois grupos independentes com variâncias desiguais Para verificar se determinada droga tem efeito sobre cefaleia um médico separou ao acaso um conjunto de pacientes em dois grupos um grupo foi submetido à droga em teste grupo tratado enquanto o outro recebeu tratamento padrão grupo controle O tempo de alívio da cefaleia em minutos para cada participante da pesquisa está apresentado na Tabela 117 Tabela 117 Perdas de peso em quilogramas de pacientes segundo o grupo Para proceder ao teste t é preciso estabelecer se as variâncias são ou não iguais Então 1 estabeleça as hipóteses H0 as variâncias na população são iguais H1 as variâncias são diferentes 2 escolha o nível de significância α 3 siga os passos a calcule a variância de cada grupo a variância do grupo tratado é 533 a variância do grupo controle é 43 b calcule o valor de F dado pela razão entre a maior e a menor variância Então se o valor O valor calculado de F está associado a 4 numerador e 4 denominador graus de liberdade A Tabela de valores F nos Anexos fornece para α 25 com 4 e 4 graus de liberdade o valor F 960 Então rejeitase a hipótese de que as variâncias são iguais com o nível de significância de 5 Em termos práticos a variabilidade das respostas com a nova droga é muito grande O resultado parece não ser previsível Para aplicar o teste t H0 µ A µ B H1 µ A µ B Nível de significância 005 Agora calcule 1 as médias de A e B são respectivamente 2 as variâncias de grupo são 3 o valor de t no caso de variâncias desiguais é dado pela seguinte fórmula c calcule o número de graus de liberdade associados ao valor de F O valor calculado de t está associado a aproximadamente 5 graus de liberdade Como o valor de t na tabela de valores t nos Anexos com o nível de significância de 5 e com 5 graus de liberdade é 257 rejeitase a hipótese de que as médias sejam iguais Em termos práticos o tempo de alívio da cefaleia em minutos é em média significativamente maior no grupo que recebeu tratamento padrão Se você fizer o teste no programa SAS vai obter pvalor de 00141 113 Exercícios resolvidos 1131 Os valores apresentados na Tabela 118 permitem testar a hipótese de que recémnascidos de ambos os sexos têm em média a mesma altura contra a hipótese de que em meninos essas medidas são em média maiores Teste essa hipótese com o nível de significância de 5 Tabela 118 Tamanho da amostra média e variância da estatura em centímetros de recém nascidos segundo o sexo Antes de proceder ao teste t convém testar a igualdade das variâncias Para isso vamos estabelecer H0 as variâncias são iguais H1 as variâncias são diferentes Nível de significância 005 Agora calcule que está associado a 1360 numerador e 1441 denominador graus de liberdade Para o nível de significância de 5 você deve comparar o valor calculado de F com o valor crítico de F dado na Tabela de valores de F com α 25 com 1360 e 1441 graus de liberdade A tabela não tem esses números de graus de liberdade que são muito grandes Use o valor de F associado a infinitos graus de liberdade tanto para numerador como para denominador Esse valor é 100 O valor calculado de F é maior do que 100 Portanto com o nível de significância de 5 as variâncias são diferentes A variabilidade de peso ao nascer é maior para o sexo feminino Para aplicar o teste t no caso de variâncias desiguais H0 µ A µ B H1 µ A µ B Nível de significância 005 Agora calcule que está associado aos graus de liberdade O valor calculado de t é maior do que o valor dado na Tabela de valores t nos Anexos Rejeite então ao nível de significância de 5 a hipótese de que recém nascidos de ambos os sexos têm em média a mesma altura Em termos práticos em média os meninos nascem com estatura maior do que as meninas 1132 Com base nos dados apresentados na Tabela 119 teste com o nível de significância de 5 a hipótese de que o calibre da veia esplênica é em média o mesmo antes e após a oclusão da veia porta Tabela 119 Calibre da veia esplênica em seis cães antes e após a oclusão da veia porta Note que foram tomadas duas medidas em cada cão uma antes outra após a oclusão da veia porta Para aplicar o teste t é preciso calcular a diferença observada em cada animal Tais diferenças estão apresentadas na Tabela 1110 Tabela 1110 Diferenças de calibre da veia esplênica antes e após a oclusão da veia porta A média das diferenças é 150 e a variância é s2 6000 Para aplicar o teste H0 o calibre da veia esplênica é o mesmo antes e após a oclusão da veia porta H1 o calibre da veia esplênica é diferente após a oclusão da veia porta Nível de significância 005 O valor de t associado a 5 graus de liberdade é Para α 5 e com 5 graus de liberdade o valor na tabela de t é 257 Como o valor calculado de t é maior que o da tabela a hipótese de que em média o calibre da veia esplênica seja o mesmo antes e depois da oclusão da veia porta deve ser rejeitada Em termos do problema em estudo a oclusão da veia porta determina aumento significativo do calibre da veia esplênica 1133 Reveja o Exercício 4611 um professor de Odontologia quer saber se alunos que começam a atender pacientes em disciplinas clínicas têm aumento na frequência do batimento cardíaco Mediu então a frequência dos batimentos cardíacos de cinco alunos de primeiro ano que não cursam disciplinas clínicas e de cinco alunos do segundo ano imediatamente antes do primeiro atendimento de pacientes Você já calculou as médias e os desvios padrões Aplique agora um teste t unilateral considerando as variâncias iguais Você calculou 1 ano média 1000 desvio padrão 157 2 ano média 1250 desvio padrão 152 Você já considerou no Exercício 4611 do Capítulo 4 que as variabilidades são praticamente iguais Então pressupondo variâncias iguais o teste t unilateral fornece t 256 com pvalor 00169 Com base nesse resultado é razoável concluir que alunos que começam a atender pacientes em disciplinas clínicas têm aumento significante no número de batimentos cardíacos por minuto p 005 1134 Um nutricionista11 quer saber se existe diferença na firmeza de iogurtes feitos de leite desnatado se no processo de fabricação for ou não adicionada determinada bactéria ao produto Para isso procura amostras de leite desnatado de sete marcas comerciais diferentes Inocula então metade da amostra de cada marca com a bactéria e a outra metade deixa sem a bactéria para servir como controle Depois de prontos os iogurtes o nutricionista mede a firmeza da massa Os dados estão apresentados na Tabela 1111 Faça o teste Tabela 1111 Firmeza da massa de iogurte segundo a marca e a presença ou não de bactéria H0 a firmeza do iogurte é em média a mesma com ou sem adição de bactéria H1 a adição de bactéria muda a média da firmeza do iogurte Nível de significância 005 Os resultados estão apresentados na Tabela 1112 O valor para t é significante Portanto há evidência de que a bactéria modifica a firmeza do iogurte Tabela 1112 Médias desvios padrões valor de t para firmeza da massa de iogurte 1135 Um nutricionista quer comparar o efeito de duas dietas alimentares para perda de peso Então seleciona voluntários que querem perder peso e os divide ao acaso em dois grupos um grupo é designado para a dieta A e o outro para a dieta B Os dados são apresentados na Tabela 1113 Faça o teste t Tabela 1113 Perda de peso em quilogramas segundo a dieta Para aplicar o teste t H0 as perdas de peso são em média as mesmas para qualquer das duas dietas H1 as dietas determinam as perdas médias de peso diferentes Nível de significância 005 Calcule a as médias de grupos b as variâncias de grupo c a variância ponderada é d o valor de t com n1 n2 2 10 7 2 15 graus de liberdade é Como o valor calculado de t em valor absoluto é maior que o valor crítico de t 2902 213 ao nível de 5 de significância você rejeita a hipótese de que as duas dietas determinam em média a mesma perda de peso Em termos práticos o nutricionista pode concluir que as perdas de peso são em média significativamente maiores quando os voluntários são submetidos à dieta B O pvalor neste exemplo é 00109 005 11Johnson R e Tsui K W Statistical reasoning and methods Nova York Wiley 1998 p 437 114 Exercícios propostos 1141 Dez ratos machos adultos criados em laboratório foram separados aleatoriamente em dois grupos um grupo foi tratado com a ração normalmente usada no laboratório enquanto o outro grupo foi submetido a uma nova ração experimental Decorrido certo período pesaramse os ratos Os pesos estão apresentados na Tabela 1114 Teste a hipótese de que o peso médio dos ratos é o mesmo para ambos os tipos de ração Tabela 1114 Pesos em gramas de ratos adultos segundo a ração 1142 Os quocientes de inteligência QI de dez crianças medidos segundo dois testes de inteligência A e B estão apresentados na Tabela 1115 Os dois testes de inteligência A e B fornecem em média o mesmo resultado Tabela 1115 Valores de QI em dez crianças segundo o teste de inteligência aplicado 1143 A Tabela 1116 apresenta dados de pressão sanguínea sistólica de mulheres na faixa etária de 30 a 35 anos que usavam e que não usavam anticoncepcionais orais Teste a hipótese de que o uso de anticoncepcionais não tem efeito sobre a pressão sanguínea sistólica Tabela 1116 Pressão sanguínea sistólica de mulheres de 30 a 35 anos segundo o uso de anticoncepcionais 1144 A Tabela 1117 apresenta o tamanho da amostra a média e a variância dos pesos ao nascer de nascidos vivos de ambos os sexos Teste com o nível de significância de 1 a hipótese de que os dois sexos têm em média o mesmo peso ao nascer Tabela 1117 Tamanho da amostra média e variância de pesos ao nascer de nascidos vivos segundo o sexo Fonte Arena JFP Estudo biométrico de recémnascidos de uma população Rev Paul Med 89 34 71109 1076 1145 Para saber o efeito do frio em humanos12 pesquisadores fizeram um experimento com ratos de laboratório Doze ratos foram divididos ao acaso em dois grupos Um grupo ficou durante 12 horas na temperatura de 26 C enquanto o outro grupo ficou numa temperatura de 5C pelo mesmo tempo Depois os pesquisadores mediram a pressão sanguínea dos 12 ratos Os resultados estão na Tabela 1118 O que você conclui Tabela 1118 Pressão sanguínea dos ratos segundo a temperatura à qual foram submetidos 1146 Para comparar o tempo de absorção de duas drogas A e B nove pessoas foram designadas ao acaso para receber a droga A e sete para receber a droga B Determinouse o tempo que levou até as drogas alcançarem determinado nível no sangue Com base nas estatísticas apresentadas na Tabela 1119 faça o teste t Tabela 1119 Médias e variâncias do tempo despendido para as drogas alcançarem determinado nível no sangue 1147 Para saber se o tempo de alívio da dor no pósoperatório é significativamente maior quando se administra a droga A em vez da droga B mais comumente usada observouse o tempo de alívio da dor de 25 pessoas que receberam a droga A no pósoperatório e de vinte que receberam a droga B Com base nas estatísticas apresentadas na Tabela 1120 faça o teste t Tabela 1120 Médias e variâncias do tempo de alívio da dor segundo a droga 1148 Acreditase que um novo método de armazenamento mantenha por mais tempo o ácido ascórbico do caqui do que o método usual Foram então armazenados vinte caquis pelo novo método e vinte pelo método usual Com base nas estatísticas apresentadas na Tabela 1121 faça o teste t Tabela 1121 Médias e variâncias do teor de ácido ascórbico em miligramas por 100 gramas da fruta segundo o processo de armazenamento 1149 Um nutricionista designa ao acaso 12 ciclistas para dois grupos ambos os grupos são instruídos a usar a dieta normal mas o primeiro recebe um suplemento de vitaminas enquanto o segundo recebe um placebo Decorrido um mês o nutricionista mede o tempo que cada ciclista leva para percorrer 10 km Os dados estão apresentados na Tabela 1122 Formule as hipóteses e faça o teste Tabela 1122 Tempo em minutos para percorrer 10 km segundo o grupo 11410 Alguns estudos13 indicam que o açúcar torna as crianças mais ativas enquanto outros não encontram evidências de que isso aconteça Foi feito um estudo com 25 crianças normais com idades entre 3 e 5 anos e 23 crianças que os pais diziam ficar hiperativas quando ingeriam açúcar Os nutricionistas foram até as respectivas casas e retiraram todos os alimentos Depois forneceram os alimentos por quatro semanas As famílias receberam dois tipos de dieta uma com açúcar outra com alimentos adoçados com sacarina Foram feitas medidas de comportamento nos dois grupos de crianças Os dois grupos nunca foram comparados As comparações foram realizadas dentro de grupos Esses dados constituem exemplo de dados pareados ou de grupos independentes Quais são as hipóteses em teste 12Ott L e Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 P 305 13Aliaga M e Gunderson B Interactive Statistics 2 ed New Jersey Prentice Hall 2003 p 679 1O pvalor pequeno indica que é muito improvável obter resultado igual ou menor do que o achado quando a hipótese da nulidade é verdadeira 2Para comparar mais de duas médias aplicamse a análise de variância e os testes de comparações múltiplas Veja o assunto em Vieira S Análise de variância ANOVA São Paulo Atlas 2006 5Para ver a metodologia desses ensaios Vieira S e Hossne WS Metodologia científica para a área da saúde Rio de Janeiro Elsevier 2015 6O programa Excel muito conhecido pelos usuários de Estatística pede que se indique o tipo de teste t pareado variâncias iguais das duas amostras homocedástico variâncias desiguais das duas amostras heterocedástico 7As duas populações das quais foram obtidas as amostras devem ter distribuição normal ou pelo menos simétrica 8Aqui a hipótese alternativa é necessariamente de um teste bilateral CAPÍTULO 12 Teste χ2 para Variáveis Qualitativas As pesquisas são feitas com o objetivo de responder a perguntas E para responder a perguntas são necessárias informações obtidas por meio de amostras Depois com base nos dados da amostra e no resultado de um teste estatístico os pesquisadores generalizam seus achados para toda a população aplicando testes estatísticos As tabelas 2 x 2 têm sido possivelmente a forma mais empregada para mostrar evidência estatística O teste estatístico mais simples e mais conhecido é o teste de χ2 lêse quiquadrado Neste capítulo vamos ver como se faz esse teste 121 Teste χ2 para a associação de duas variáveis Você aplica o teste de χ2 lêse quiquadrado para verificar se existe associação entre duas variáveis qualitativas Para isso é preciso contar quantos participantes estão em cada uma das categorias de cada uma das variáveis As contagens frequências são apresentadas em tabelas de contingência Veja o Exemplo 121 Exemplo 121 Uma tabela de contingência 2 x 2 Foram entrevistadas 1091 pessoas residentes em uma área metropolitana da região Sul do Brasil Cada pessoa foi classificada segundo duas variáveis sexo homem ou mulher e tabagismo tabagista ou não Depois foram feitas as contagens havia seiscentos homens dos quais 177 disseram ser tabagistas e 491 mulheres das quais 204 afirmaram ser tabagistas Esses dados estão apresentados na Tabela 121 Tabela 121 Tabagismo segundo sexo Fonte Moreira L et al Prevalência de tabagismo e fatores associados em área metropolitana da região Sul do Brasil Rev Saúde Pública 29 1 São Paulo 1995 É importante apresentar as proporções observadas quando se faz um estudo transversal1 ou seja quando se toma uma amostra da população e se classifica cada pessoa segundo duas variáveis ao mesmo tempo Veja o Exemplo 122 para cada uma das 1091 pessoas foram registradas duas variáveis 1 sexo homem ou mulher e 2 tabagismo não ou sim Exemplo 122 Proporções obtidas por estudo transversal Reveja o Exemplo 121 A Tabela 122 apresenta as proporções obtidas nesse estudo Tabela 122 Proporções obtidas por estudo transversal Vamos apresentar aqui o teste χ2 quiquadrado que se faz para estudar a associação de duas variáveis que se apresentam em apenas duas categorias Para proceder a um teste estatístico você já sabe é preciso estabelecer as hipóteses em teste e o nível de significância Em seguida é preciso calcular a estatística de teste que no caso que estamos estudando é o valor de χ2 As hipóteses em teste são H0 as variáveis são independentes H1 as variáveis estão associadas O nível de significância é α e a estatística de teste é Sob a hipótese da nulidade a estatística calculada tem distribuição de χ2 Mas o que significa isso tudo Vamos devagar veja a Tabela 123 que apresenta duas variáveis indicadas por X e Y A variável X tem duas categorias X1 e X2 a variável Y tem também duas categorias Y1 e Y2 Tabela 123 Valores literais em uma tabela 2 2 De posse dos dados você calcula o valor de χ2 Se esse valor for maior do que o valor dado na tabela de χ2 com 1 grau de liberdade e para o nível de significância estabelecido você rejeita a hipótese de independência Para calcular o valor de χ2 na tabela observe a Tabela 124 que reproduz parte da tabela de χ2 do Apêndice Foi sombreado o valor de χ2 com três graus de liberdade no nível de significância de 5 Tabela 124 Tabela parcial de χ2 segundo os graus de liberdade e o valor do nível de significância Exemplo 123 Calculando o valor de χ 2 Reveja o Exemplo 121 A Tabela 121 está reproduzida aqui como Tabela 125 a fim de facilitar o acompanhamento dos cálculos Tabela 125 Tabagismo segundo sexo É preciso estabelecer as hipóteses e o nível de significância bem como calcular o valor de χ2 Então H0 tabagismo independe do sexo H1 tabagismo está associado ao sexo Nível de significância 005 Como o valor calculado de χ2 1725 é maior do que o valor dado na Tabela de χ2 ao nível de 5 de significância 384 rejeitase a hipótese de independência A associação entre sexo e hábito de fumar é significante É mais correto calcular a estatística de teste com correção de continuidade Fazendo essa correção2 que indicaremos por χc 2 a estatística de teste fica como segue A correção de continuidade reduz o valor de χ2 porque se reduz o numerador3 O efeito da correção de continuidade sobre o valor de χ2 é maior quando a amostra é grande Veja o cálculo para os dados apresentados na Tabela 122 Preste portanto muita atenção porque acontece o seguinte você aplica o teste χ2 para testar a independência de duas variáveis a determinado conjunto de dados sem a correção de continuidade o resultado é significante com a correção é não significante Fique então com a seguinte conclusão este último resultado as variáveis são independentes 1211 Medidas de associação É comum usar o valor de χ2como medida de associação o que está errado O teste mede a significância da associação mas não o grau de associação O valor de χ2 aumenta com o tamanho da amostra desde que as proporções sejam mantidas Então se a amostra for grande é mais certo encontrar significância mesmo que a associação seja apenas trivial 12111 Coeficiente fi Uma medida do grau de associação de duas variáveis no Exemplo 121 sexo e tabagismo é o coeficiente φ lêse fi Esse coeficiente não sofre influência do tamanho da amostra e é obtido facilmente a partir do valor não corrigido do χ2 Veja a fórmula Você interpreta o resultado do coeficiente φ da seguinte forma 1 o valor do coeficiente φ varia entre zero e um ou seja 0 φ 1 2 quanto mais próximo de 1 estiver o valor de φ maior é o grau de associação entre as variáveis quanto mais próximo de zero estiver o valor de φ menor é a associação entre as variáveis 3 φ 1 significa associação perfeita4 4 φ 0 significa associação nula 5 como regra prática valores de φ menores do que 030 ou 035 podem ser tomados como indicadores de associação trivial5 entre as duas variáveis Exemplo 124 Calculando o coeficiente fi Para os dados do Exemplo 121 o tamanho da amostra é n 1091 O valor de χ2 sem correção de continuidade apresentado no Exemplo 123 é 1725 Então o coeficiente de associação φ é A associação embora significante como mostrada pelo teste χ2 é apenas trivial Não se pode considerar que a associação encontrada entre tabagismo e sexo feminino tenha maior importância 12112 Coeficiente gama O coeficiente gama6 que se representa pela letra grega γ lêse gama mede o grau de associação com que duas categorias ordenadas de variáveis tendem a crescer e portanto decrescer juntas É definido por em que a b c e d são os valores definidos na Tabela 123 O valor do coeficiente gama deve ser interpretado como segue γ 1 associação perfeita positiva γ 1 associação perfeita negativa γ 0 associação nula 0 γ 1 associação positiva 1 γ 0 associação negativa O coeficiente gama fica entre 1 e 1 inclusive ou seja 1 γ 1 Então o coeficiente gama fornece além do grau de associação entre duas variáveis qualitativas o sentido da associação Cuidado portanto ao desenhar a tabela para calcular o coeficiente γ porque ao inverter as linhas muda o sinal do coeficiente e evidentemente a interpretação Exemplo 125 Interpretando o valor do coeficiente gama Para os dados do Exemplo 121 o coeficiente γ é Se a Tabela 121 estivesse na forma apresentada na Tabela 126 mostrada em seguida o coeficiente γ seria Tabela 126 Tabagismo segundo o sexo Compare o coeficiente γ obtido para a Tabela 121 com o obtido para a Tabela 126 o primeiro mostra que embora em pequeno grau homens estão positivamente associados ao hábito de não fumar enquanto o segundo mostra que embora em pequeno grau a associação entre homens e hábito de fumar é negativa 1212 Restrições ao uso do teste χ2 para associação É importante saber que o teste χ2 apresenta muitas restrições de uso Vejamos os dados devem estar apresentados em tabelas de contingência as variáveis em estudo são obrigatoriamente qualitativas a amostra deve ter sido obtida por processo aleatório a população deve ter no mínimo dez vezes o tamanho da amostra 122 Teste χ2 para comparar dois grupos em ensaios clínicos Ensaio clínico7 é um estudo no qual os pesquisadores avaliam nos participantes da pesquisa os efeitos de intervenções Depois comparam os resultados Veja o Exemplo 126 Exemplo 126 Comparando dois grupos nos ensaios clínicos Para estudar a efetividade da betametasona no alívio da dor após a instrumentação endodôntica tratamento de canal um cirurgiãodentista fez um ensaio clínico Antes do procedimento administrou dois comprimidos de placebo para 17 pacientes grupo placebo controlado e dois comprimidos da droga para 21 pacientes grupo tratado com betametasona Os comprimidos foram acondicionados em envelopes codificados para que o paciente não soubesse se estava recebendo a droga em teste para o alívio da dor ou se estava recebendo placebo Os dados são apresentados na Tabela 127 Tabela 127 Distribuição dos pacientes segundo o grupo e o relato de alívio da dor Fonte QuintanaGomes Jr et al Estudo clínico dos efeitos da betametasona sobre incidência da dor após a instrumentação endodôntica JBC Jornal Brasileiro de Odontologia Clínica 212 s d 1221 Teste χ2 nos ensaios clínicos Para comparar as proporções de respostas positivas obtidas por exemplo por dois tratamentos concorrentes ou por um novo tratamento e um controle é preciso fazer um teste estatístico Neste caso é possível aplicar o teste χ2 Para proceder ao teste estatístico estabelecemse as hipóteses e o nível de significância Depois calculase a estatística de teste O teste consiste em rejeitar a hipótese de nulidade toda vez que o valor calculado de χ2 for maior do que o valor dado na tabela de χ2 com 1 grau de liberdade e para o nível estabelecido de significância Exemplo 127 O teste de χ 2 em ensaios clínicos Reveja o Exemplo 126 Para aplicar o teste é preciso estabelecer as hipóteses e o nível de significância Então H0 as probabilidades de relatos de dor são iguais em ambos os grupos ou seja P1 P2 H1 a probabilidade de relatos de dor é diferente nos dois grupos ou seja P1 P2 Nível de significância 005 Depois calculase Como o valor calculado de χ2 648 é maior do que o valor de χ2 com um grau de liberdade e ao nível 5 de significância 384 rejeitase H0 Em termos do ensaio o uso de betamesona após a instrumentação endodôntica diminui a probabilidade de dor 1222 Teste z nos ensaios clínicos Embora seja comum apresentar dados de ensaios clínicos como na Tabela 127 há autores8 que preferem fazêlo na forma da Tabela 128 que exibe proporções Assim o tamanho da amostra pequeno no exemplo e as proporções em comparação ficam mais visíveis Tabela 128 Proporção de pacientes com relato de dor após a instrumentação endodôntica segundo o grupo Grupo Tamanho da amostra Proporção de pacientes com relato de dor Betametasona 17 0118 Placebo 21 0571 Total 38 0368 Fonte QuintanaGomes Jr et al Estudo clínico dos efeitos da betametasona sobre incidência da dor após a instrumentação endodôntica JBC Jornal Brasileiro de Odontologia Clínica 212 s d A significância estatística da diferença das proporções de respostas negativas ou positivas obtidas por exemplo por dois tratamentos concorrentes ou por um novo tratamento e um controle pode ser obtida por meio da estatística Os valores n1 e n2 são os tamanhos das amostras de cada grupo p1 e p2 são as proporções do evento em estudo nas respectivas amostras é a proporção média das duas amostras e Para testar a hipótese H0 P1 P2 contra a hipótese H1 P1 P2 procurase o valor de z numa tabela de distribuição normal No entanto aqui entra uma definição teórica importante como z2 tem distribuição de χ2 com 1 grau de liberdade o valor obtido de z elevado ao quadrado pode ser comparado com o valor de χ2 com 1 grau de liberdade isso é mais fácil do que usar a tabela de distribuição normal padronizada Rejeitase a hipótese de nulidade se o valor calculado de z2 for maior do que o valor dado na tabela de χ2 com 1 grau de liberdade para o nível estabelecido de significância Exemplo 128 Outro teste para comparar duas proporções em ensaio clínico Reveja o Exemplo 126 Para aplicar o teste H0 as probabilidades de relatos de alívio de dor são iguais nos dois grupos ou seja P1 P2 H1 a probabilidade de relatos de alívio de dor é menor no grupo que recebeu betametasona ou seja P2 P1 Nível de significância 005 Temos Então O valor de z2 é 648 maior que o valor de χ2 com o nível 5 de significância Rejeitase H0 Em termos da pesquisa podese concluir que o uso de betamesona após a instrumentação endodôntica diminui a probabilidade de dor É importante lembrar que em um trabalho de pesquisa se deve fazer apenas um dos testes apresentados aqui Aliás ambos conduzem ao mesmo resultado A questão é que os programas de computador oferecem várias opções e alguém inexperiente pode achar que ao colocar todas as opções tornará seus resultados mais convincentes 123 Teste χ2 nos estudos prospectivos e retrospectivos 1231 Teste χ2 nos estudos prospectivos A probabilidade de ocorrer determinado desfecho não é a mesma em todas as populações Por exemplo a probabilidade de morte violenta é maior entre jovens do sexo masculino do que entre jovens do sexo feminino Para comparar probabilidades podese fazer um estudo prospectivo9 No estudo prospectivo uma das duas populações está exposta a um fator que se presume de risco por exemplo fumantes enquanto a outra não está não fumantes o pesquisador então procura nas amostras determinado desfecho câncer de pulmão Veja a Figura 121 FIGURA 121 Estudo prospectivo Exemplo 129 Um estudo prospectivo Entre 2004 e 2006 foi feito um estudo prospectivo com 1229 gestantes de Campinas SP para avaliar os fatores de risco comumente associados a desfechos desfavoráveis na saúde de recémnascidos como baixo peso ao nascer ou prematuridade10 Veja na Tabela 129 os dados para um desses fatores consumo de cigarros durante a gestação que permitem estimar riscos Tabela 129 Estimativas do risco de baixo peso ao nascer ou prematuridade segundo o consumo ou não de cigarros durante a gestação Fonte AUDI C A F et al Associação entre violência doméstica na gestação e peso ao nascer ou prematuridade J Pediatr v 4 n 1 Porto Alegre Janfev de 2008 Para testar a hipótese de que a proporção de pessoas com uma característica específica é a mesma em duas amostras independentes podese optar pelo teste de χ2 Para proceder ao teste estabelecemse as hipóteses e o nível de significância Em seguida calculase a estatística de teste 10O teste tem mais poder quando os tamanhos de grupos são iguais ou pelo menos similares Neste exemplo há grande disparidade os tamanhos de grupos para fumantes e não fumantes são respectivamente 165 e 1065 Exemplo 1210 Teste χ 2 para um estudo prospectivo Reveja o Exemplo 129 As hipóteses em teste são H0 a proporção de nascituros com baixo peso ao nascer é a mesma entre gestantes fumantes e gestantes não fumantes ou seja P1 P2 H1 a proporção de nascituros com baixo peso ao nascer é diferente entre gestantes fumantes e gestantes não fumantes ou seja P2 P1 Nível de significância 005 Agora é preciso calcular Como o valor calculado de χ2 1734 é maior do que o valor de χ2 com 1 grau de liberdade e ao nível de 5 de significância 384 rejeitase H0 Em termos do estudo gestantes que fumam apresentam maior probabilidade de ter bebês de baixo peso ou prematuros 12311 Teste dos grupos com base na distribuição normal Nos estudos prospectivos deve ser apresentada a proporção dos que têm o desfecho buscado tanto na amostra dos expostos ao fator que se presume de risco como na amostra dos não expostos Veja o Exemplo 1211 que exibe essas proporções É mais comum apresentar dados de estudos prospectivos como na Tabela 129 mas há autores11 que preferem fazêlo na forma da Tabela 1210 pois são essas proporções que estão em comparação Tabela 1210 Proporção de nascituros com baixo peso ao nascer ou prematuros segundo o fato de a mãe ter fumado ou não na gestação Exemplo 1211 Proporções obtidas por estudo retrospectivo Reveja o Exemplo 129 As hipóteses em teste são H0 a proporção de nascituros com baixo peso ao nascer é a mesma entre gestantes fumantes e gestantes não fumantes ou seja P1 P2 H1 a proporção de nascituros com baixo peso ao nascer entre gestantes fumantes é diferente da proporção de nascituros com baixo peso ao nascer entre gestantes não fumantes ou seja P2 P1 Nível de significância 005 Para verificar a significância estatística da diferença de proporções em populações independentes pode ser calculada a estatística Os valores n1 e n2 são os tamanhos das amostras de cada grupo p1 e p2 são as proporções de expostos ao fator que se presume de risco nas respectivas amostras com e sem o problema é a proporção média das duas amostras e Para testar a hipótese H0 P1 P2 contra a hipótese H1 P1 P2 procurase o valor de z numa tabela de distribuição normal Como z2 tem distribuição de χ2 com 1 grau de liberdade o valor obtido de z elevado ao quadrado pode ser comparado com o valor de χ2 com 1 grau de liberdade Rejeitase portanto a hipótese de nulidade se o valor calculado de z2 for maior do que o valor dado na tabela de χ2 para o nível estabelecido de significância Exemplo 1212 Teste para duas proporções em estudos prospectivos Reveja o Exemplo 129 As hipóteses em teste são H0 a proporção de nascituros com baixo peso ao nascer é a mesma entre gestantes fumantes e gestantes não fumantes isto é P1 P2 H1 a proporção de nascituros com baixo peso ao nascer é diferente entre gestantes fumantes e gestantes não fumantes ou seja P2 P1 Nível de significância 005 Agora é preciso calcular Temos Então Como o valor calculado de z2 é 1734 maior do que o valor dado na tabela de χ2 ao nível estabelecido de significância rejeitase H0 O hábito de fumar da gestante está relacionado com baixo peso ou prematuridade do nascituro 1232 Teste χ2 nos estudos retrospectivos No estudo retrospectivo uma das populações é definida por ter casos de pulmão enquanto e a outra por não ter controles determinado desfecho por exemplo câncer de pulmão nas amostras o pesquisador procura saber se houve exposição ao fator que se presume de risco fumar Então o o estudo retrospectivo vai do efeito para a causa Veja a Figura 122 FIGURA 122 Estudo retrospectivo Exemplo 1213 Um estudo retrospectivo Em uma pesquisa perguntouse a 142 jovens que apresentavam desordens mandibulares o desfecho se haviam ou não usado aparelho ortodôntico 87 disseram que sim ou seja 87 foram expostos ao fator de risco Também se perguntou a 228 jovens que não tinham desordens mandibulares se haviam ou não usado aparelho ortodôntico 113 responderam que sim ou seja 113 foram expostos ao fator de risco Esse é um estudo retrospectivo Os dados estão apresentados na Tabela 1211 Tabela 1211 Sintomas de desordens temporomandibulares DTM e uso de aparelho ortodôntico Fonte RizzatiBarbosa C M et al Correlação entre aparelho ortodôntico e desordens temporomandibulares J Bras Ortodon Ortop Facial 739 185192 2002 Para testar a hipótese de que a proporção de pessoas com uma característica específica é a mesma em duas amostras independentes podese optar pelo teste de χ2 Para proceder ao teste no caso de estudos retrospectivos estabelecemse as hipóteses e o nível de significância Depois se calcula a estatística de teste Exemplo 1214 Teste χ 2 para um estudo retrospectivo Reveja o Exemplo 1213 As hipóteses em teste são H0 a proporção de jovens que usaram aparelho ortodôntico é a mesma entre os que apresentam e os que não apresentam DTM isto é P1 P2 H1 a proporção de jovens que usaram aparelho ortodôntico é diferente para os que apresentam e os que não apresentam DTM isto é P2 P1 Nível de significância 005 Agora é preciso calcular Como o valor calculado de χ2 437 é maior do que o valor de χ2 com 1 grau de liberdade e com o nível de 5 de significância 384 rejeitase H0 Em termos do estudo o uso de aparelho ortodôntico pode aumentar a probabilidade de DTM 12321 Teste dos grupos com base na distribuição normal Nos estudos retrospectivos deve ser apresentada a proporção dos que foram expostos ao fator que se presume de risco tanto na amostra das pessoas que têm o problema em estudo como na amostra daquelas pessoas que não têm o problema Veja o Exemplo 1215 que exibe essas proporções Embora seja mais comum apresentar dados de estudos retrospectivos como na Tabela 1211 há quem12 prefira fazêlo na forma da Tabela 1212 pois são essas proporções que estão em comparação Tabela 1212 Proporção de jovens que usaram aparelho ortodôntico entre os que têm e os que não têm DTM DTM Amostra Proporção de usuários Sim 142 0613 Não 228 0496 Total 370 0541 Exemplo 1215 Proporções obtidas por estudo retrospectivo Reveja a Tabela 1212 p1 0613 dos 142 jovens com DTM foram expostos ao fator que se presume de risco o uso de aparelho ortodôntico e p2 0496 dos 228 jovens que não apresentavam DTM também foram expostos ao fator que se presume de risco o uso de aparelho ortodôntico Para verificar a significância estatística da diferença de proporções em populações independentes pode ser calculada a estatística Os valores n1 e n2 são os tamanhos das amostras de cada grupo p1 e p2 são as proporções de expostos ao fator que se presume de risco nas respectivas amostras com e sem o problema é a proporção média das duas amostras e Para testar a hipótese H0 P1 P2 contra a hipótese H1 P1 P2 procurase o valor de z numa tabela de distribuição normal Como z2 tem distribuição de χ2 com 1 grau de liberdade o valor obtido de z elevado ao quadrado pode ser comparado com o valor de χ2 com 1 grau de liberdade Rejeitase portanto a hipótese de nulidade se o valor calculado de z2 for maior do que o valor dado na tabela de χ2 para o nível estabelecido de significância 124 Risco relativo e razão de chances Risco é a probabilidade da ocorrência de algum tipo de dano Fator de risco é o fator que aumenta o risco portanto que afeta a probabilidade de ocorrer dano Por exemplo sempre há risco de ocorrer um acidente de trânsito mas o risco aumenta quando muita chuva ou quando o motorista ingere bebida alcoólica Dizemos então que muita chuva ou motorista embriagado são fatores de risco para acidente de trânsito É possível estudar riscos por meio de ensaios clínicos e de estudos prospectivos Reveja a Tabela 27 que apresenta pacientes com relato de dor após a instrumentação endodôntica O objetivo do estudo foi o de comparar a proporção de pacientes com dor em dois grupos o tratado que recebeu betametasona e o controle que não recebeu betametasona Então a estimativa de risco de dor para pacientes que receberam betametasona foi 118 e para pacientes que não receberam betametasona 571 Denominase risco relativo que se indica por RR a razão entre duas estimativas de risco Veja o exemplo a seguir Neste exemplo o risco relativo é de aproximadamente 5 Significa que é cinco vezes mais provável que pacientes que não receberam betametasona relatem dor após a instrumentação endodôntica Nos estudos prospectivos o pesquisador acompanha um grupo de pessoas com uma característica específica por exemplo hipertensão arterial e um grupo de pessoas sem essa característica normotensos por certo período à espera da ocorrência de determinado desfecho por exemplo AVC Depois calcula a proporção de pessoas com o desfecho esperado em ambos os grupos Essas proporções são estimativas de risco Os estudos retrospectivos não permitem fazer estimativas de riscos Nesses estudos os pesquisadores procuram pessoas com uma doença por exemplo úlcera gástrica e verificam quantas delas estiveram expostas a um fator que presumem de risco por exemplo comida apimentada por longo tempo Depois procuram pessoas sem a doença e verificam quantas estiveram expostas ao mesmo fator para depois fazer comparações Veja bem são relatos históricos das pessoas não são probabilidades A situação já aconteceu Então não é possível calcular riscos mas apenas as proporções de pessoas que foram expostas ao fator entre casos e controles Os estudos transversais também não permitem fazer estimativas de riscos Nesses estudos os pesquisadores verificam ao mesmo tempo duas variáveis para a mesma pessoa Por exemplo o pesquisador verifica o tipo de infração de trânsito cometida e o sexo do motorista 1241 Razão de chances 12411 O que é chance Os estudos retrospectivos não admitem estimar riscos mas permitem estimar chances Vamos entender isso por meio de dados fictícios Imagine que exista um tratamento não muito eficiente para uma doença com alta taxa de mortalidade Imagine que tenha sido proposto um novo tratamento Em um ensaio em que se comparou o novo tratamento com o tratamento convencional foram obtidos os dados mostrados na Tabela 1213 Tabela 1213 Número de pacientes que morreram e dos que sobreviveram segundo o tratamento Tratamento Morreram Sobreviveram Convencional 38 76 Novo 9 90 Com o tratamento convencional 38 pacientes morreram para um número de 76 que sobreviveram A chance de morrer é de 38 para 76 com o tratamento convencional Então Isso significa que para cada paciente submetido ao tratamento convencional que morre sobrevivem dois Com o novo tratamento nove pacientes morreram para noventa que sobreviveram Então Isso significa que para cada paciente que morre submetido ao novo tratamento sobrevivem dez Para obter a razão de chances calcule Mas o que significa essa razão de chances A chance de o paciente morrer é cinco vezes maior se receber o tratamento convencional em vez do novo Para cada cinco pacientes que morrem recebendo tratamento convencional apenas um morre recebendo o novo Considerando o evento morte mostrado no exemplo se a razão de chances for igual a 1 significa que ambos os grupos têm a mesma chance de morrer Se a razão de chances for maior que 1 significa que o primeiro grupo tem maior chance de morrer que o segundo Se a razão de chances for menor que 1 significa que o primeiro grupo tem menor chance de morrer que o segundo mas o número não é de fácil interpretação Coloque o grupo que você espera ter maior chance em primeiro lugar O uso da razão de chances na área de saúde tem aumentado mas para muitos pesquisadores a interpretação do resultado ainda é difícil No Brasil é comum o uso da expressão em inglês odds ratio uma vez que os programas de Estatística para computador estão em sua maioria em inglês Exemplo 1216 Cálculo da razão de chances Em 1950 dois pesquisadores ingleses quiseram verificar se o hábito de fumar aumentava o risco de ter câncer do pulmão Perguntaram então os hábitos de fumar dos 649 pacientes que tinham câncer do pulmão e os hábitos de fumar de outros 649 pacientes internados por outros motivos no mesmo hospital Os dados estão apresentados na Tabela 1214 Não era possível para os pesquisadores estimar riscos porque os fatos já haviam acontecido probabilidades referemse a eventos futuros nunca a eventos do passado Tabela 1214 Distribuição dos participantes da pesquisa segundo ter ou não câncer de pulmão e ser ou não fumante Fonte Doll R e Hill AB Smoking and carcinoma of the lung Br Med J 1950 2 73948 Dos pacientes que tinham câncer de pulmão 27 eram fumantes e 622 eram não fumantes Então entre os pacientes que tinham câncer de pulmão a chance era de encontrar 27 fumantes para cada 622 não fumantes Dos pacientes que não tinham câncer de pulmão havia dois fumantes e 647 pacientes que não fumavam Logo entre os pacientes que não tinham câncer de pulmão a chance era de encontrar dois fumantes para cada 647 não fumantes A razão de chance é Mas o que significa essa razão de chances A chance de ter câncer de pulmão é 14 vezes maior para fumantes do que para não fumantes Para cada 14 fumantes com câncer de pulmão há um não fumante na mesma condição A razão de chances também é conhecida como razão dos produtos cruzados É fácil entender essa denominação Usando os valores literais definidos na Tabela 310 Cap 3 a razão de chances é dada por 125 Teste de uma proporção As taxas e os coeficientes de prevalência são basicamente proporções Vamos mostrar aqui como se faz um teste estatístico para estabelecer se uma proporção tem um valor especificado Portanto o teste também se aplica às taxas e aos coeficientes de prevalência desde que expressos em proporções e não por mil ou cem mil indivíduos Considere então que um pesquisador tenha contado o número X de portadores de determinada característica em uma amostra de tamanho n Pode então calcular a proporção de portadores dessa característica na amostra como segue Exemplo 1217 Obtendo prevalência Em Campinas um médico13 examinou 2964 recémnascidos e verificou que 73 apresentavam anomalias no ano de 1977 Para obter a prevalência de anomalia nessa amostra divide o número de recémnascidos que apresentavam anomalia pelo tamanho da amostra Multiplicando o resultado por 100 obtém a prevalência em porcentagem 13Arena JFP Incidência de malformações em uma população brasileira Rev Paul Med 89 34 429 1977 Imagine agora que o pesquisador pretenda testar a hipótese de que a proporção P de portadores com essa característica na população da qual a amostra proveio tem o valor θ especificado na literatura É preciso então fazer um teste estatístico Para proceder a um teste estatístico estabelecemse as hipóteses e o nível de significância Depois se calcula a estatística de teste Sob a hipótese da nulidade a variável z tem aproximadamente distribuição normal padronizada desde que np 5 e n 1 p 5 Se o valor calculado de z for maior do que o valor dado na tabela de distribuição normal padronizada para o nível estabelecido de significância devese rejeitar a hipótese de que a proporção de portadores da característica em estudo na população da qual a amostra proveio tem o valor que foi especificado Exemplo 1218 Comparando a prevalência com o valor especificado Reveja o Exemplo 1217 o médico quis testar a hipótese de que a prevalência de recémnascidos com anomalia em Campinas no ano de 1977 era o valor especificado na literatura internacional ou seja 3 Então foi preciso estabelecer as hipóteses e o nível de significância H0 a prevalência de recémnascidos com anomalia em Campinas no ano de 1977 era o valor especificado de 3 H1 a prevalência de recémnascidos com anomalia em Campinas no ano de 1977 era diferente do valor especificado de 3 Nível de significância 005 A prevalência observada na amostra é A estatística de teste é Como o valor calculado de z 1714 é em valor absoluto menor do que o valor de z com o nível de 5 de significância 196 para teste bilateral não há evidência para rejeitar a hipótese de que a prevalência de recémnascidos com anomalia na região de Campinas em 1977 era de 3 compatível com a prevalência citada na literatura internacional É recomendável calcular a estatística de teste com correção de continuidade principalmente quando a amostra é pequena Ao fazer essa correção a estatística de teste fica como segue A correção de continuidade reduz o valor de z porque subtraindo 12n da diferença entre a proporção observada e a proporção esperada reduz o numerador14 Além disso o efeito da correção de continuidade sobre a estatística de teste é maior quando a amostra é grande o valor da estatística diminui com o aumento da amostra Exemplo 1219 Correção de continuidade Reveja o Exemplo 1218 O valor da estatística de teste com a correção de continuidade é menor do que o valor calculado anteriormente sem a correção de continuidade uma vez que o tamanho da amostra é bem grande 126 Exercícios resolvidos 1261 O Estudo do Coração de Helsinque Helsinki Heart Study15 mostrou redução na incidência de eventos cardíacos em homens de meiaidade com nível alto de colesterol mas sem diagnóstico de doença coronariana Dos 2051 participantes que durante cinco anos receberam uma droga para reduzir o nível de colesterol 56 registraram evento cardíaco Dos 2030 participantes que receberam placebo durante cinco anos 84 registraram evento cardíaco a Qual é a proporção de participantes que registraram evento cardíaco no grupo tratado b Qual é a proporção de participantes que registraram evento cardíaco no grupo placebo c Existe evidência suficiente do benefício da droga d No relatório final do estudo afirmouse que o uso da droga reduziu a incidência de eventos cardíacos em 34 Como isso foi calculado ab Veja a Tabela 1215 c É preciso fazer um teste estatístico Então Tabela 1215 Participantes da pesquisa segundo o tratamento e o registro ou não de evento cardíaco H0 P1 P2 H1 P1 P2 Nível de significância 5 Calcule a estatística de teste H0 deve ser rejeitada com o nível de 5 de significância temos portanto a evidência de que a droga surtiu efeito d Faça a diferença entre as duas proporções e divida pela proporção do grupo que recebeu placebo Multiplique por 100 para obter a diferença em relação ao placebo expressa em porcentagem O uso da droga reduziu a incidência de eventos cardíacos em 34 1262 Foi elaborado um questionário para comparar a sexualidade de pacientes jovens com doença de Parkinson com a sexualidade de controles sadios16 As respostas para uma das questões que avaliou o sentimento de solidão são apresentadas na Tabela 1216 Construa uma tabela para apresentar a proporção de pessoas que relatam sentir solidão em ambos os grupos Compare com o teste estatístico Tabela 1216 Pacientes que relatam sentir solidão segundo o grupo Tabela 1217 Proporções obtidas por estudo transversal Grupo Amostra Sentem solidão Parkinsoniano 121 0463 Controle sadio 126 0183 Total 247 0320 H0 a probabilidade de sentir solidão é a mesma para um jovem parkinsoniano e um jovem sadio ou seja P1 P2 H1 a probabilidade de sentir solidão é maior para um jovem parkinsoniano do que para um jovem sadio ou seja P2 P1 Nível de significância 005 Como o valor calculado de z 458 é maior do que o valor de z com o nível de 5 de significância 254 para teste unilateral rejeitase H0 Logo a conclusão da pesquisa é a de que parkinsonianos jovens sentem mais solidão do que jovens sadios 1263 Realizouse um estudo17 com 263 adolescentes que aparentavam comportamento suicida Eles fizeram avaliação psiquiátrica e foram acompanhados durante seis meses Desse grupo 86 adolescentes foram avaliados como apresentando comportamento suicida embora sem depressão no início do estudo Dos 77 jovens com comportamento suicida persistente no followup 45 foram avaliados como apresentando depressão no início do estudo Cem jovens não apresentavam nem depressão nem comportamento suicida A Construa uma tabela para apresentar os dados B calcule a razão de chances C interprete Em primeiro lugar é preciso obter os valores de b e d Veja em seguida a b 131 c 77 45 32 c d 263 131 132 d 132 32 100 Agora é preciso construir a Tabela 1218 A razão de chances é Tabela 1218 Depressão como fator de risco para comportamento suicida Usando a razão de chances como estimativa de risco podemos dizer que é 163 vez mais provável que um adolescente com depressão apresente comportamento suicida do que o adolescente que não tem depressão 15Marshall K G Canadian Medical Association Journal May 15 1996 Apud Aliaga M e Gunderson B Interactive Statistics 2 ed New Jersey Prentice Hall 2003 p 679 16Jacobs H Vieregge A Vieregge P Sexuality in young patients with Parkinsons disease a population based comparison with healthy controls Neurol Neurosurg Psychiatry 2000 550552 doi101136jnnp694550 17Greenfield B Henry M Weiss M Tse S M Guile J M Dougherty G Zhang X Fombonne E Lis E LapalmeRemis Harnden B Previously suicidal adolescents Predictors of sixmonth outcome Journal of the Canadian Association of Child and Adolescent Psychiatry 2008174197201 PMC free article PubMed 127 Exercícios propostos 1271 A proporção de recémnascidos com defeito ou doença séria é de 3 Imagine que um médico suspeite que essa proporção tenha aumentado Então examinou 1000 recémnascidos e encontrou 34 com defeito ou doença séria Você acha que a suspeita do médico é procedente 1272 Com base nos dados apresentados na Tabela 1220 com o nível de significância de 5 teste a hipótese de que a proporção de recémnascidos vivos portadores de anomalia é a mesma em ambos os sexos Tabela 1220 Recémnascidos vivos segundo o sexo e a presença ou não de anomalia Fonte Arena J F P Incidência de malformações em uma população brasileira Rev Paul Med 89 34429 1977 1273 Com base nos dados apresentados na Tabela 1221 teste com o nível de significância de 1 a hipótese de que a ausência congênita de dentes independe do sexo Tabela 1221 Escolares segundo o sexo e a ausência congênita de dentes Fonte Vedovelo Filho M Prevalência de agenesias dentárias em escolares de Piracicaba 1972 Tese mestrado FOPUnicamp 1274 Muitos pesquisadores consideram com base em grandes amostras que a ausência congênita de dentes está associada ao sexo da pessoa Amostras pequenas não permitem rejeitar H0 Isso se deve provavelmente à pequena associação Calcule um coeficiente de associação para os dados do Exercício 1273 Você considera grande a associação 1275 Com base nos dados apresentados na Tabela 1222 calcule o coeficiente de associação Faça o teste de quiquadrado Tabela 1222 Resultados de casos de diagnóstico prénatal segundo a idade da gestante e a presença ou a ausência de aberração cromossômica 1276 Para determinar se existe associação entre implantes mamários e doenças do tecido conjuntivo e outras doenças18 foram observadas durante vários anos 749 mulheres que haviam recebido implante e exatamente o dobro de mulheres que não haviam recebido implante Os pesquisadores então verificaram que cinco mulheres que receberam implantes e dez das que não receberam tiveram doenças do tecido conjuntivo Quais são as hipóteses em teste Quais são as proporções de mulheres doentes em ambos os grupos 1277 Com base nos dados apresentados na Tabela 1223 você rejeita a hipótese de que a probabilidade de natimorto é a mesma para ambos os sexos Tabela 1223 Recémnascidos segundo o sexo e a condição de vivo ou natimorto Fonte Arena J F P Incidência de malformações em uma população brasileira Rev Paul Med 89 34429 1977 1278 Com base nos dados apresentados na Tabela 1224 obtenha o coeficiente de associação O que significa Tabela 1224 Recémnascidos segundo a idade materna e o tempo de gestação Fonte Azevedo G D et al Efeito da idade materna sobre os resultados perinatais RBGO 24 3 2002 1279 Com base nos dados apresentados na Tabela 1225 você rejeita a hipótese de que a probabilidade de dormir mais de oito horas é a mesma para as duas faixas etárias Tabela 1225 Participantes da pesquisa segundo o tempo de sono em horas e a faixa etária 12710 Com base nos dados apresentados na Tabela 1226 você rejeita a hipótese de que a probabilidade de ter gripe é a mesma para pessoas vacinadas e não vacinadas Tabela 1226 Participantes da pesquisa segundo o fato de ter sido vacinada contra gripe e ter tido gripe 18Gabriel S E et al Risk of connective tissues diseases and other disorders after breast implantation New Engl J Med 33016971702 1994 Apud Motulsky H Intuitive Biostatistics Nova York Oxford University Press 1995 p 318 1Veja Vieira S e Hossne WS Metodologia científica para a área da saúde 2 ed Rio de Janeiro Elsevier 2015 2Alguns programas de computador dão o valor de χ2 com e sem correção de continuidade É preciso optar por um deles 3Nem sempre se faz a correção de continuidade embora seja teoricamente recomendada De qualquer forma o uso da correção diminui a probabilidade de encontrar valor significante 4Esse valor porém só ocorre quando as amostras são de mesmo tamanho 5Veja Fleiss JL Statistical methods for rates and proportions Nova York Wiley 1981 p 60 6O coeficiente γ também é conhecido como coeficiente de Yule 7Veja a metodologia em Vieira S e Hossne WS Metodologia científica para a área da saúde Rio de Janeiro Elsevier 2015 8Fleiss J L Statistical methods for rates and proportions Nova York Wiley 1981 9Veja mais sobre esses estudos em Vieira S e Hossne WS Metodologia científica para a área da saúde 2 ed Rio de Janeiro Elsevier 2015 11Fleiss J L Statistical methods for rates and proportions Nova York Wiley 1981 12Fleiss J L Statistical methods for rates and proportions Nova York Wiley 1981 14A correção de continuidade embora teoricamente recomendada nem sempre é feita De qualquer forma o uso da correção diminui a probabilidade de encontrar valor significante Apêndices ESBOÇO Apêndice Capítulo 13 Probabilidades Apêndice Capítulo 14 Distribuição Binomial APÊNDICE CAPÍTULO 13 Probabilidades Lidamos com ideias sobre probabilidade em nosso dia a dia Dizemos por exemplo É provável que chova amanhã ou Carlos provavelmente chega hoje Mas também calculamos probabilidades Quando alguém pergunta qual é a probabilidade de sair cara no jogo de moeda a resposta é fácil ½ ou 50 Como encontramos essa probabilidade Pensamos assim quando uma moeda é lançada pode sair tanto cara quanto coroa as duas faces não podem ocorrer ao mesmo tempo mas têm a mesma chance Portanto cara ocorre na metade vezes Mas será que se você jogar uma moeda duas vezes é certo que sairá cara uma das vezes Claro que não Quando dizemos que a probabilidade de sair cara num jogo de moeda é ½ estamos apenas afirmando que se uma moeda for lançada um grande número de vezes esperase que ocorra cara na metade delas 131 A linguagem para o estudo de probabilidades O estudo de probabilidades tem muita aplicação em todas as ciências mas começou com os jogos de azar As pessoas queriam entender a lei que rege esses jogos para ganharem dinheiro nos cassinos1 E os matemáticos acabaram estabelecendo a teoria das probabilidades que trata dos fenômenos aleatórios Muitos fenômenos têm padrão de comportamento previsível no longo prazo mas comportamento imprevisível quando observados por pouco tempo Lembrese de que você não sabe quando joga uma moeda se sairá cara ou coroa No entanto pode prever que em mil lançamentos ocorrerá cara em cerca de metade das vezes As ocorrências possíveis em dado fenômeno aleatório são até bem conhecidas Espaço amostral é o conjunto dos resultados possíveis de um fenômeno aleatório Para um lançamento de moeda o espaço amostral que indicaremos por E é cara e coroa Escrevemos Evento é qualquer subconjunto do espaço amostral Diversos resultados podem constituir o evento de interesse Por exemplo imagine um jogo em que se lançam duas moedas e o jogador ganha se a mesma face ocorrer em ambas O espaço amostral é O jogador ganha se ocorrer qualquer um dos dois resultados do evento A Dado o evento A denominase o complemento de A que se indica por Ac o conjunto de eventos que não são A No exemplo que acabamos de ver Dois eventos são chamados de mutuamente exclusivos quando não têm elementos em comum É o caso das pesquisas de opinião em que o entrevistador deve buscar grupos que são definidos por características excludentes quem está em determinado grupo não pode estar em outro Por exemplo 1 A adultos com idade de 18 a 60 anos 2 B idosos com mais de 60 anos Às vezes estamos interessados em eventos que não são simples Quando interessam tanto o evento A como o evento B ou seja A ou B dizemos estar interessados na união de A e B matematicamente indicada por AB Por exemplo quando você diz que aceita sorvete de creme ou de chocolate significa que aceita qualquer um deles um ou outro Quando interessam os resultados que sejam simultaneamente evento A e evento B dizemos estar interessados na intersecção A e B matematicamente indicada por AB A ideia de dois eventos que ocorrem juntos é expressa pela conjunção e Por exemplo quando o entrevistador pergunta a um morador da cidade de São Paulo se tem moto e é favorável à implantação de ciclovias pode estar interessado na interseção dos eventos Dois eventos são independentes se a ocorrência de um deles não tem influência na ocorrência do outro Lembrese do exemplo dado anteriormente do jogo em que se lançam duas moedas e o jogador ganha se a mesma face ocorrer em ambas a ocorrência de determinada face em uma das moedas não tem qualquer efeito sobre o que ocorre na outra moeda É importante considerar aqui o risco de confundir eventos independentes com eventos mutuamente exclusivos Às vezes as pessoas entendem que as duas expressões querem dizer a mesma coisa que os eventos não se sobrepõem No entanto eventos mutuamente exclusivos se um ocorre o outro não pode ocorrer não são independentes Pense no jogo de uma moeda quando se joga uma moeda não há como ocorrer cara e coroa ao mesmo tempo Logo esses eventos são mutuamente exclusivos Eles são independentes Não a probabilidade de sair cara é ½ mas dada a condição de que ocorreu coroa é zero Então a probabilidade de sair cara muda se sair coroa Eventos são indicados pelas primeiras letras do alfabeto escritas em itálico A B C etc Muitas vezes o espaço amostral e os eventos são apresentados em diagrama de Venn Para desenhar esse diagrama você traça um retângulo que representará o espaço amostral e dentro do retângulo círculos que representarão os eventos Veja a Figura 131 União Interseção Disjuntos Complemento FIGURA 131 Diagramas de Venn 132 Definições de probabilidade 1321 Definição frequentista de probabilidade PROBABILIDADE de ocorrer um evento com a característica A indicada por PA é dada pela frequência relativa desse evento em uma série de n observações feitas sob as mesmas condições Exemplo 131 Um médico2 verificou que de 2964 nascidos vivos 73 tinham algum defeito ou uma doença séria Com base nessa amostra a estimativa da probabilidade de um recém nascido ter defeito ou doença séria é 2Arena J F P Estudo clínicoepidemiológico prospectivo das anomalias congênitas na população de Campinas 1977 Tese Doutorado FCM Unicamp Campinas A palavra probabilidade é entendida neste texto como uma proporção ou seja o número de vezes em que um evento ocorre dividido pelo número de vezes em que o processo é repetido nas mesmas condições muitas e muitas vezes 13211 Regras a que as definições de probabilidade devem obedecer 1 Probabilidade é um valor numérico que varia entre zero e 1 inclusive3 Eventos impossíveis têm probabilidade zero enquanto eventos certos têm probabilidade 1 2 A soma das probabilidades de todos os eventos possíveis é igual a 1 3 A probabilidade de um evento é igual a 1 menos a probabilidade de esse evento não ocorrer Exemplo 132 Evento certo a probabilidade de que qualquer um de nós venha a morrer um dia é 1 Evento impossível a probabilidade de que qualquer um de nós seja imortal é zero A definição de probabilidade que acabamos de ver chamada por muitos de definição frequentista é aplicada às situações que podem ser pensadas como repetíveis sob condições específicas no mundo das ciências Tiramos amostras da população para ter dados que permitam estimar probabilidades Na área de saúde as probabilidades de danos e eventos adversos são referidas como riscos Muitos estudos já foram feitos para estimar o risco de um fumante ter câncer do pulmão de sobreviver a um acidente de carro ou de um nascituro ser menino O Exemplo 133 estima o risco de ocorrer erro médico em um hospital em determinado período limitado em condições específicas por exemplo mantidos o mesmo equipamento e a mesma equipe Exemplo 133 Numa amostra de 30195 registros hospitalares selecionados ao acaso foram identificados 1133 pacientes com lesões sérias causadas por imprudência negligência ou imperícia do médico4 O risco estimado de lesão séria por erro médico nesse hospital é 4Leape L et al The nature of adverse events in hospitalized patients Results of the Harvard Medical Practice Study II The New England Journal of Medicine v 324 n 6 Feb 7 1991 É comum que as pessoas pensem em probabilidades como porcentagens Os estatísticos preferem sempre expressar valores de probabilidade por números entre zero e 1 porque em cálculos mais avançados isso se faz necessário Mas se você quiser expressar probabilidade em porcentagem basta multiplicar o valor dado pela definição por 100 e acrescentar o símbolo de porcentagem ao resultado Aliás na prática as probabilidades são mais bemcompreendidas quando expressas em porcentagem Exemplo 134 No Exemplo 133 foi estimada a probabilidade de lesão séria por erro médico em determinado hospital Para ser dada em porcentagem essa estimativa é multiplicada por 100 Em porcentagem a estimativa do risco de lesão séria por erro médico nesse hospital é de 375 expressão mais facilmente entendida 1322 Definição clássica de probabilidade A definição frequentista de probabilidade atende bem ao conhecimento da área de saúde quando o pesquisador quer estimar riscos Por meio de observações de muitos casos é possível estimar o risco de efeitos adversos Mas é preciso que o número de eventos observados possa crescer indefinidamente Quando o espaço amostral contém um número finito de eventos contáveis desde que igualmente prováveis é fácil usar a definição clássica DEFINIÇÃO CLÁSSICA Se forem possíveis n resultados mutuamente exclusivos e igualmente prováveis se m desses resultados forem favoráveis a probabilidade de resultado favorável é Exemplo 135 Cálculo de probabilidade Qual é a probabilidade de ocorrer face 6 quando se joga um dado Os n 6 resultados possíveis compõem o espaço amostral S 1 2 3 4 5 6 Só um resultado m 1 atende à característica pedida face 6 Então a probabilidade de ocorrer 6 é 1323 Definição de probabilidade subjetiva É impossível encaixar dentro da ideia de probabilidade afirmativas como a probabilidade de o Brasil ganhar a próxima Copa Mundial de Futebol é 080 Nesses casos é preciso usar a definição subjetiva de probabilidade PROBABILIDADE SUBJETIVA é um valor entre zero e 1 que representa um ponto de vista pessoal sobre a possibilidade de ocorrer determinado evento É importante entender que probabilidade subjetiva não é apenas uma forma de pensar logicamente sobre fenômenos aleatórios É a maneira como uma pessoa descreve seu grau de crença em determinado desfecho É portanto racional embora não se baseie em técnicas computacionais E tem sentido quando fornecida por alguém que conhece o assunto Logo probabilidade subjetiva é de enorme importância quando as informações são apenas parciais e é preciso ter intuição A grande desvantagem da definição subjetiva de probabilidade é o fato de ser pessoal Em função disso nos casos em que a frequência relativa pode ser calculada a probabilidade subjetiva pode não ter relação alguma com os resultados realmente obtidos Mas a probabilidade subjetiva predomina nas decisões administrativas nas aplicações financeiras e nos jogos de azar 133 Teorema da soma ou a regra do ou 1331 Regra 1 da soma eventos mutuamente exclusivos Se A e B são eventos mutuamente exclusivos a probabilidade de ocorrer A ou B é igual à soma das probabilidades de ocorrer cada um deles Escrevese Exemplo 136 Soma de eventos mutuamente exclusivos Foi feito um estudo de casocontrole com pacientes hospitalizados 7804 casos e 15207 controles para determinar os fatores de risco de câncer do pulmão5 Os dados apresentados na Tabela 131 foram obtidos para saber se o risco de câncer do pulmão aumenta com o número de cigarros fumados por dia Qual é a probabilidade de uma pessoa tomada ao acaso dessa amostra fumar um maço de cigarros 20 ou mais por dia Tabela 131 Distribuição de casos e controles segundo o número de cigarros fumados por dia A probabilidade de uma pessoa tomada ao acaso fumar um maço de cigarros 20 ou mais por dia é dada usando os dados da Tabela 131 pela probabilidade de fumar de 20 a 29 cigarros por dia somada a probabilidade de fumar 30 cigarros ou mais por dia A probabilidade de a pessoa fumar um maço ou mais de cigarros por dia nessa amostra é 5Assessment of Lung Cancer Risk Factors by Histologic Category1 JNCI v 73 n 2 agosto de 1984 1332 Regra 2 da soma eventos não mutuamente exclusivos Se os eventos não são mutuamente exclusivos ou seja se A e B podem ocorrer ao mesmo tempo a probabilidade de ocorrer A ou B é dada pela probabilidade de A mais a probabilidade de B menos a probabilidade de A e B Escrevese É preciso subtrair o conjunto interseção porque quando somamos PA PB a probabilidade do conjunto interseção PAB é somada duas vezes No caso de eventos mutuamente exclusivos não se faz a subtração porque a probabilidade de os eventos ocorrerem ao mesmo tempo é zero Veja o diagrama da Figura 131 eventos mutuamente exclusivos não têm interseção Exemplo 137 Soma de eventos não mutuamente exclusivos Foi feito um estudo de casocontrole 299 casos e 292 controles para determinar os fatores de risco para infarto do miocárdio Os dados da Tabela 132 foram obtidos para saber se pacientes diabéticos apresentam maior risco de infarto do miocárdio Qual é a probabilidade de uma pessoa tomada ao acaso dessa amostra ser ou diabética ou infartada Tabela 132 Distribuição dos casos de infarto e controles segundo a presença ou não de diabetes Fonte Silva MAD Sousa AGMR Schargodsky H Fatores de Risco para Infarto do Miocárdio no Brasil Arq Bras Cardiol v 71 n 5 667675 1998 Probabilidade de ter tido infarto Probabilidade de ser diabético Veja que as pessoas que tiveram infarto e são diabéticas estão no conjunto interseção e portanto foram consideradas nos dois cálculos Então Probabilidade de ter tido infarto e ser diabético Pinfartado diabético 299591 88591 59591 328591 0 555 134 Teorema da multiplicação ou a regra do e Antes de estudar o teorema da multiplicação é importante entender bem a questão da independência de eventos Já vimos que dois eventos A e B são independentes se a ocorrência de um deles A ou B não tem efeito sobre a ocorrência do outro B ou A Por exemplo quando se joga uma moeda duas vezes o resultado da primeira jogada não tem qualquer efeito sobre o resultado da segunda São eventos independentes 1341 Regra 1 da multiplicação eventos independentes Se A e B são eventos independentes a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela probabilidade de ocorrer B Escrevese Exemplo 138 Ocorrência conjunta de eventos independentes Qual é a probabilidade de ocorrerem duas caras quando se joga uma moeda duas vezes Veja a Tabela 133 Tabela 133 Resultados de dois lançamentos de uma moeda A probabilidade de ocorrer cara na primeira jogada é O fato de ter ocorrido cara na primeira jogada não modifica a probabilidade de ocorrer cara na segunda jogada os eventos são independentes Então a probabilidade de ocorrer cara na segunda jogada é Para obter a probabilidade de ocorrer cara nas duas jogadas primeira e segunda fazse o produto Na vida real encontramos muitos exemplos de eventos independentes como o que vimos ou seja sair cara no primeiro lançamento de uma moeda e sair cara no segundo lançamento da mesma moeda Por exemplo chover hoje e ser feriado amanhã são eventos independentes porque o fato de chover hoje não muda a possibilidade de ser feriado amanhã nem o fato de ser feriado amanhã altera a possibilidade de chover hoje No entanto a ocorrência de certos eventos tem efeito sobre a ocorrência de outros Por exemplo estar alcoolizado aumenta a probabilidade de provocar acidente de trânsito Vida sedentária aumenta a probabilidade de sobrepeso Dizemos que esses eventos são dependentes Portanto dois eventos A e B são dependentes quando a ocorrência de um deles por exemplo a ocorrência de A modifica a probabilidade de o outro ocorrer no caso de B 1342 Regra 2 da multiplicação eventos dependentes Antes de estudar a regra 2 da multiplicação vamos entender por que alguns eventos estão condicionados a outros Denominase probabilidade condicional de B dado A a probabilidade de ocorrer o evento B sob a condição de A ter ocorrido Escrevese PBA que se lê probabilidade de B dado A Pense você só entra no cinema se comprar a entrada então comprar entrada é condição para entrar no cinema Exemplo 139 Probabilidade condicional Um casal tem dois filhos a Qual é a probabilidade de os dois serem meninos b Qual é a probabilidade de os dois serem meninos dado que o primeiro é menino Para obter a probabilidade de os dois serem meninos você calcula No entanto quando se pergunta a probabilidade de os dois serem meninos dado que o primeiro é menino você calcula De acordo com a regra 2 da multiplicação se A e B são eventos dependentes a probabilidade de ocorrer A e B é dada pela probabilidade de ocorrer A multiplicada pela probabilidade de ocorrer B dado que A ocorreu essa probabilidade é condicional Escrevese Exemplo 1310 Ocorrência conjunta de eventos dependentes Uma caixa contém duas bolas brancas e três bolas azuis Duas bolas são retiradas ao acaso uma em seguida da outra e sem que a primeira tenha sido recolocada Qual é a probabilidade de que as duas sejam brancas FIGURA 132 Retirada de duas bolas brancas sem reposição A caixa contém cinco bolas duas são brancas Então a probabilidade de a primeira bola retirada ser branca é Como a bola retirada não foi recolocada restam quatro bolas na caixa Para que as duas bolas retiradas da urna sejam brancas é preciso que a primeira bola retirada seja branca Dado que primeira bola retirada era branca das quatro bolas que estão na caixa uma é branca A probabilidade condicional de a segunda bola retirada ser branca é A probabilidade de as duas bolas retiradas serem brancas é dada pelo produto 1343 Condição de independência No dia a dia muitas vezes dizemos uma coisa não tem nada a ver com a outra Em linguagem técnica queremos dizer que os eventos são independentes O Exemplo 138 ilustra a condição de independência quando se jogam duas moedas o resultado da primeira não influencia o resultado da segunda Então dois eventos são independentes se a probabilidade de ocorrerem juntos for igual ao produto das probabilidades de que ocorram em separado uma vez que a ocorrência de um deles em nada ajuda a ocorrência do outro Essa é a condição de independência de dois eventos Escrevese Aprendemos que a probabilidade de ocorrer determinado evento depende muitas vezes das condições em que ocorre esse evento Isso é conhecido na área de saúde e é importante para a prevenção a probabilidade de câncer do pulmão depende de ter ou não o hábito de fumar a probabilidade de ter algumas doenças depende de ter ou não sido imunizado a probabilidade de ocorrer um acidente automobilístico depende das condições dos pneus Outras vezes a probabilidade de ocorrer determinado evento não depende da ocorrência de outro Por exemplo a probabilidade de ter cárie dentária não depende de a pessoa ser ou não míope a probabilidade de ter cálculos renais não depende da profissão a probabilidade de ser calvo não depende do estado civil Muitas pesquisas são realizadas para estudar se há ou não dependência entre determinados eventos o que significa buscar os fatores que modificam as probabilidades Veja um exemplo em que o valor de probabilidade não se modifica em dada condição Exemplo 1311 Condição de independência Para determinar se existe associação entre implantes mamários e doenças do tecido conjuntivo e outras doenças6 durante vários anos foram observadas 749 mulheres que haviam recebido implante e 1498 que não haviam recebido implante Verificou se que cinco das mulheres que haviam recebido implantes e dez das que não haviam recebido implante tiveram doenças do tecido conjuntivo Você acha que ter doenças do tecido conjuntivo depende ou não de a mulher ter implantes mamários A Tabela 133 mostra que 749 das 2247 mulheres observadas receberam implante mamário Então a probabilidade de nessa amostra uma mulher escolhida ao acaso ter implante mamário é A Tabela 134 também mostra que 15 das 2247 mulheres observadas tiveram doenças do tecido conjuntivo e outras doenças Então a probabilidade de nessa amostra uma mulher escolhida ao acaso ter doença do tecido conjuntivo e outras doenças é Tabela 134 Distribuição de mulheres com implante mamário e o fato de terem ou não doenças do tecido conjuntivo e outras Como 5 das 2247 mulheres observadas receberam implante mamário e tiveram doenças do tecido conjuntivo e outras doenças a probabilidade de ter implante mamário e ter doença é Agora é fácil verificar se ocorre a condição de independência Veja Logo os eventos são independentes porque 6Gabriel SE et al Risk of connective tissues diseases and other disorders after breast implantation New Engl J Med 33016971702 1994 Apud Motulsky H Intuitive Biostatistics Nova York Oxford University Press 1995 p 318 135 Exercícios resolvidos 1351 De uma classe com trinta alunos dos quais 14 são meninos um aluno é escolhido ao acaso para apresentar um trabalho Qual é a probabilidade de a o aluno escolhido ser um menino b o aluno escolhido ser uma menina A classe tem trinta alunos n 30 e todos têm a mesma probabilidade de ser escolhidos Como 14 são meninos m 14 a a probabilidade de o aluno escolhido ser menino é 1430 ou 715 b a probabilidade de o aluno escolhido ser menina é 1630 ou 815 1352 Uma pessoa comprou um número de rifa que tem cem números e irá sortear cinco prêmios Qual é a probabilidade de essa pessoa a ganhar um prêmio b de não ganhar Todos os cem números n 100 da rifa têm igual probabilidade de serem sorteados Serão sorteados cinco números m 5 Então a a probabilidade de uma pessoa que comprou um número ser sorteada é 5100 ou 120 b a probabilidade de a pessoa não ser sorteada é 95100 ou 1920 1353 Uma urna tem dez bolas brancas e quatro pretas Retirase uma bola ao acaso Qual é a probabilidade de essa bola a ser branca b Ser preta A urna tem dez bolas brancas e quatro pretas n 14 Retirase uma bola ao acaso A probabilidade de essa bola a ser branca m 10 é 1014 ou 57 b ser preta m 4 é 414 ou 27 1354 Jogase um dado Qual é a probabilidade de sair a o número 3 b um número maior do que 3 c um número menor do que 3 d um número par Quando se joga um dado pode ocorrer um dos seguintes eventos 1 2 3 4 5 ou 6 a Apenas um m 1 dos seis eventos n 6 é igual a 3 Então a probabilidade de ocorrer 3 é 16 b dos seis eventos três m 3 são maiores do que 3 4 5 6 Então a probabilidade de ocorrer um número maior do que 3 é ½ c dos seis eventos dois m 2 são menores do que 3 1 2 Então a probabilidade de ocorrer um número menor do que 3 é 13 d dos seis eventos três m 3 são números pares 2 4 6 Então a probabilidade de ocorrer um número par é ½ 1355 Jogamse duas moedas Qual é a probabilidade de saírem a duas caras b duas coroas c uma cara e uma coroa Para resolver este problema é conveniente escrever todos os eventos que podem ocorrer quando se joga uma moeda Veja a Tabela 135 Tabela 135 Resultados possíveis no jogo de duas moedas Evento 1ª moeda 2ª moeda 1 Cara Coroa 2 Coroa Cara 3 Cara Cara 4 Coroa Coroa A Tabela 135 mostra n 4 eventos mutuamente exclusivos e igualmente prováveis A probabilidade de saírem a duas caras evento 3 na tabela é ¼ b duas coroas evento 4 na tabela é ¼ c uma cara e uma coroa eventos 1 e 2 na tabela é 24 1356 Em uma família com três filhos qual é a probabilidade de os três serem homens Suponha que meninos e meninas tenham a mesma probabilidade de nascer Como o sexo de um filho não depende do sexo do anterior a probabilidade de o primeiro filho ser homem e de o segundo filho ser homem e de o terceiro filho ser homem é pelo teorema do produto 1357 Em uma família com três filhos qual é a probabilidade de a dois serem homens b um ser homem c nenhum ser homem Suponha que meninos e meninas têm a mesma probabilidade de nascer Para resolver este problema é conveniente escrever todas as possibilidades em uma família com três filhos Veja a Tabela 136 Tabela 136 Resultados possíveis no jogo de duas moedas A probabilidade de a dois serem homens eventos 2 3 e 5 na tabela é 38 b de um ser homem eventos 4 6 e 7 na tabela é 38 c nenhum ser homem evento 8 na tabela é 18 1358 Um casal tem dois filhos Qual é a probabilidade de a o primogênito ser homem b os dois filhos serem homens c pelo menos um filho ser homem Suponha que a probabilidade de nascer menino é ½ e que o sexo do segundo filho não depende do sexo do primeiro Então a a probabilidade de o primogênito ser homem é ½ b a probabilidade de os dois filhos serem homens pode ser obtida pelo teorema do produto de o primeiro ser homem e o segundo ser homem c a probabilidade de ser homem pelo menos um dos filhos pode ser obtida pelo teorema da soma o primeiro ser homem ou o segundo ser homem ou os dois serem homens 1359 No cruzamento de ervilhas amarelas homozigotas AA com ervilhas verdes homozigotas aa ocorrem ervilhas amarelas heterozigotas Aa Se essas ervilhas forem cruzadas entre si ocorrem três ervilhas amarelas para cada ervilha verde a proporção é de três para um Suponha que tenham sido pegas ao acaso três ervilhas resultantes do cruzamento de ervilhas amarelas heterozigotas Qual é a probabilidade de as três serem verdes A probabilidade de uma ervilha resultante do cruzamento Aa x Aa ser verde é 14 Logo a probabilidade de as três ervilhas pegas ao acaso serem verdes é 13510 Qual é a probabilidade de o filho de um homem normal XY e de uma filha de hemofílico XhX ser hemofílico XhY Um homem normal XY não transmite hemofilia para gerações seguintes Uma mulher portadora do gene Xh tem 50 de probabilidade de ter um filho hemofílico O filho será normal XY ou hemofílico XhY com a mesma probabilidade ou seja ½ 13511 Jogamse duas moedas ao mesmo tempo Os eventos cara na primeira moeda e faces iguais nas duas moedas são independentes Veja o espaço amostral Caracara Caracoroa coroacara coroacoroa Os eventos possíveis são quatro Só um deles caracara atende cara na primeira moeda que chamaremos de A e faces iguais nas duas moedas que chamaremos B Então a probabilidade pedida é Como A condição de independência foi portanto satisfeita Os eventos cara na primeira moeda e faces iguais nas duas moedas são independentes 136 Exercícios propostos 1361 Uma carta é retirada ao acaso de um baralho bem embaralhado Qual é a probabilidade de a ser um ás b ser uma carta de ouro c ser um ás de ouro 1362 Uma urna tem dez bolas numeradas de 1 a 10 Retirase uma bola ao acaso Qual é a probabilidade de essa bola a ter um número maior do que 7 b ter um número menor do que 7 c ter número 1 ou 10 1363 Uma urna tem 15 bolas numeradas de 1 a 15 Retirase uma bola ao acaso Qual é a probabilidade de essa bola a ter número par b ter número ímpar c ter um número maior do que 15 1364 Para melhorar as condições de pacientes com determinada doença crônica existem cinco drogas A B C D e E Um médico tem verba para comparar apenas três delas Se ele escolher três drogas ao acaso para comparar qual é a probabilidade de a a droga A ser escolhida b as drogas A e B serem escolhidas 1365 Dois dados um vermelho outro azul são lançados ao mesmo tempo e se pergunta a qual é a probabilidade de ocorrer a face 6 no dado vermelho b qual é a probabilidade de ocorrer a face 6 no dado vermelho sabendo que saiu a face 6 no dado azul 1366 Um exame realizado em jovens que concluíram o curso fundamental mostrou que 20 foram reprovados em Matemática 10 foram reprovados em Português e 5 foram reprovados tanto em Matemática como em Português Os eventos ser reprovado em Matemática e ser reprovado em Português são independentes 1367 Um casal tem dois filhos Qual é a probabilidade de a o segundo filho ser homem b o segundo filho ser homem dado que o primeiro é homem 1368 A probabilidade de determinado teste para a Aids dar resultado negativo em portadores de anticorpos contra o vírus falsonegativo é 10 Supondo que falsosnegativos ocorrem de forma independente qual é a probabilidade de um portador de anticorpos contra o vírus da Aids que se apresentou três vezes para o teste ter tido nas três vezes resultado negativo 1369 Uma pessoa normal filha de pais normais tem um avô albino aa Se os outros avós não forem portadores do gene para albinismo AA qual é a probabilidade de essa pessoa ser portadora do gene para albinismo Aa 13610 Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo O é de 40 ser A é de 30 e ser B é de 20 Suponha ainda que o fator Rh não dependa do tipo sanguíneo e que a probabilidade de Rh é de 90 Nessas condições calcule a probabilidade de uma pessoa tomada ao acaso da população ser a O Rh b AB Rh 1Os jogos de azar são antiquíssimos e foram praticados não só como apostas mas também como um modo de prever o futuro decidir conflitos ou dividir heranças 3Não existe por exemplo 200 de probabilidade Expressões desse tipo aparecem na linguagem coloquial na intenção de enfatizar uma certeza APÊNDICE CAPÍTULO 14 Distribuição Binomial A Estatística formaliza o que nós muitas vezes já sabemos Por exemplo você sabe que as idades das pessoas da sua família variam Portanto você tem consciência da variabilidade E também sabe que no Nordeste faz calor o ano todo o que não acontece no Sul Então você tem consciência de que no decorrer de um ano as temperaturas dos estados nordestinos são em média mais altas do que as temperaturas dos estados do sul do país E se você acha que o peso de uma pessoa depende da altura está mostrando que sabe o que é correlação Além disso todos nós sabemos que ganhar na loteria não é fácil Temos portanto percepção sobre probabilidade A seguir definiremos o que é variável aleatória que intuitivamente você talvez já conheça 141 Variável aleatória Quando você joga uma moeda ou sai cara ou sai coroa O acaso determina o resultado Quando num jogo de baralho você tira uma carta pode sair carta de paus de ouros de espadas de copas O acaso determina o resultado Uma variável é aleatória quando o acaso tem influência em seus valores As variáveis aleatórias são indicadas por números Se um jogador ganha quando sai cara associamos o número 1 à saída de cara e o número zero à saída de coroa Se a pessoa entrevistada numa pesquisa responder que tem 42 anos a variável aleatória que representa idade de pessoas assumiu nesse caso o valor 42 As variáveis aleatórias são portanto numéricas Portanto podem ser discretas e contínuas Neste capítulo vamos estudar as variáveis aleatórias discretas 1411 Variável aleatória binária Alguns experimentos só podem resultar em uma de duas possibilidades o evento no qual estamos interessados o sucesso e o evento contrário chamado de fracasso O exemplo mais conhecido é o jogo de moedas Quando se joga uma moeda ou sai cara ou sai coroa as duas faces não podem ocorrer ao mesmo tempo Dizemos então que a variável aleatória é binária Na área de saúde encontramos muitas variáveis binárias Veja alguns exemplos um exame laboratorial pode dar resultado positivo ou negativo um nascituro pode ser menino ou menina um medicamento pode surtir ou não o efeito esperado um doador de sangue pode ser Rh ou Rh a dieta pode ser adequada ou não adequada determinado material pode estar contaminado ou não Variável aleatória binária é aquela que resulta em um de dois eventos mutuamente exclusivos ou é sucesso ou é fracasso Associamos o valor 1 ao sucesso e o valor zero ao fracasso 1412 Variável aleatória binomial Muitas vezes contamos o número de vezes em que ocorre o evento de interesse ou sucesso em uma série de tentativas ou de experimentos Por exemplo um jogador conta quantas caras saem quando lança dez moedas um pesquisador conta quantos dos quinhentos chefes de família que entrevistou eram mulheres um médico conta quantos dos cem pacientes que tratou com uma nova droga ficaram curados um biomédico conta quantos dos 32 hemogramas feitos no dia indicaram doença contagiosa uma enfermeira conta quantos dos 3052 nascidos vivos em determinado ano em uma maternidade tinham doença ou defeito grave A variável que resulta da soma dos resultados de uma variável aleatória binária em n tentativas é uma variável aleatória binomial Exemplo 141 Variável aleatória binomial Uma moeda é lançada duas vezes O número X de caras que podem ocorrer estão apresentados na Tabela 141 Tabela 141 Eventos possíveis e número de caras quando uma moeda é lançada duas vezes Eventos possíveis Valor de X Coroa e coroa 0 Coroa e cara 1 Cara e coroa 1 Cara e cara 2 142 Distribuição de probabilidades Os valores observados da variável aleatória X são indicados por x1 x2 xk e as respectivas probabilidades por px1 px2 Pxk Obrigatoriamente 1 a soma das probabilidades de ocorrerem todos os valores possíveis de X é 1 2 a probabilidade de ocorrer qualquer valor de X é igual ou maior que zero não pode ser negativa Distribuição de probabilidades de uma variável aleatória discreta X é a lista dos valores que X pode assumir e suas respectivas probabilidades Exemplo 142 Distribuição de probabilidades Seja X a variável aleatória que representa o número de caras obtidas quando se lança uma moeda duas vezes vamos calcular a distribuição de probabilidades de X Se saírem duas coroas X 0 A probabilidade de X 0 é Se saírem uma coroa e uma cara a variável X assume valor um A probabilidade X 1 é Se saírem duas caras a variável X assume valor dois A probabilidade de X 2 é A Tabela 142 e a Figura 141 apresentam um resumo desses cálculos ou seja apresentam a distribuição de probabilidades de X A soma das probabilidades é 1 Tabela 142 Distribuição de probabilidades do número de caras em dois lançamentos de uma moeda FIGURA 141 Distribuição de probabilidades do número de caras em dois lançamentos de uma moeda Neste ponto é importante deixar claro que existe diferença entre distribuição de probabilidades e distribuição de frequências As distribuições de frequências tratadas no Capítulo 1 são empíricas porque são construídas com base nos dados de amostras As amostras variam mesmo que sejam tomadas no mesmo local e na mesma época A distribuição de probabilidades é teórica porque é construída com base em teoria ou nos dados de toda a população A distribuição de probabilidades é estável 143 Distribuição binomial Uma distribuição de probabilidades bem conhecida é a distribuição binomial que estuda o número X de sucessos em n tentativas e suas respectivas probabilidades Para aprender a trabalhar com a distribuição binomial imagine que em determinada maternidade tenham nascido três bebês em um dia Vamos estudar a distribuição de meninos em três nascimentos Fazendo A indicar menina e O indicar menino os eventos possíveis são os seguintes O número de meninos que podem ocorrer em três nascimentos é uma variável aleatória binomial que indicaremos por X A Tabela 143 apresenta os valores possíveis de X e o número de vezes que cada um deles ocorre Tabela 143 Números possíveis de meninos em três nascimentos Valor de X Frequência 0 1 1 3 2 3 3 1 Seja p a probabilidade de nascer menino e q a probabilidade de nascer menina Então p q 1 Se nascerem três meninas ou seja se ocorrer o evento AAA a variável aleatória X assume valor zero com probabilidade Se nascerem duas meninas e um menino X assume valor 1 Mas duas meninas e um menino podem ocorrer de três maneiras diferentes Veja as probabilidades Então Se nascerem uma menina e dois meninos X assume valor 2 Mas uma menina e dois meninos podem ocorrer de três maneiras diferentes Veja as probabilidades Então Se nascerem três meninos isto é se ocorrer o evento OOO a variável aleatória X assume valor 3 com probabilidade A distribuição binomial do número X de meninos em n 3 nascimentos está na Tabela 144 São dados os resultados possíveis de X e suas respectivas probabilidades Tabela 144 Distribuição de probabilidades do número de meninos em três nascimentos Valor de X Probabilidade 0 q3 1 3pq2 2 3p2q 3 p3 Vamos considerar por facilidade que a probabilidade de nascer menino seja p 05 e que a probabilidade de nascer menina seja q 05 embora se saiba que a probabilidade de nascer menino é ligeiramente maior do que 05 Estamos também ignorando nascimentos de gêmeos e nascimentos múltiplos Considerando obtemos a distribuição de probabilidades do número de meninos em três nascimentos apresentada na Tabela 145 e na Figura 142 Tabela 145 Distribuição de probabilidades do número de meninos em três nascimentos FIGURA 142 Distribuição de probabilidades do número de meninos em três nascimentos 1431 Caracterização da distribuição binomial Uma distribuição binomial tem as seguintes características consiste de n ensaios ou n tentativas ou n eventos idênticos cada ensaio só pode resultar em um de dois resultados identificados como sucesso e fracasso com valores 1 e zero respectivamente a variável aleatória X é o número de sucessos em n ensaios a probabilidade de sucesso ocorrer o evento de interesse é p e o valor de p permanece o mesmo em todos os ensaios os ensaios são independentes o resultado de um ensaio não tem efeito sobre o resultado de outro A distribuição binomial fica portanto definida quando são dados dois parâmetros 1 n ou seja o número de ensaios por exemplo se uma moeda for lançada dez vezes 2 p ou seja a probabilidade de sucesso em uma tentativa por exemplo sair cara quando se joga uma moeda 1432 Função de distribuição na distribuição binomial Um parâmetro de interesse é a probabilidade de sucesso numa distribuição binomial Lembrese de que a distribuição binomial surge quando se conta o número X de sucessos em n ensaios Considere um experimento em que fazemos n observações independentes da variável aleatória X que segue uma distribuição f x p onde p é o vetor de parâmetros ou seja p 1 p 2 p k para o de distribuição A probabilidade de obter os resultados específicos para essa experiência é dada pela Distribuição de probabilidades de uma variável aleatória discreta X que é a lista dos valores que X pode assumir e suas respectivas probabilidades Vamos aceitar sem demonstração que dada uma distribuição binomial de parâmetros n e p a probabilidade de ocorrerem x eventos favoráveis é dada pela seguinte fórmula em que é a combinação1 de n x a x Portanto a probabilidade de ocorrerem x eventos favoráveis em n tentativas é dada pela seguinte fórmula Veja agora um exemplo que ajuda a entender como trabalhamos com a distribuição binomial Exemplo 143 Eventos em uma distribuição binomial Um dentista vai examinar uma amostra de quatro crianças de 6 anos para saber se elas têm Sim indicado por S ou não Não indicado por N cárie Quais são os eventos possíveis Os eventos possíveis são os que seguem Exemplo 144 Distribuição binomial Reveja o Exemplo 143 Faça X indicar o número de crianças com cárie p indicar a probabilidade de uma criança ter cárie e q indicar a probabilidade de uma criança não ter cárie Escreva a distribuição Tabela 146 Distribuição de probabilidades do número de crianças com cárie em quatro crianças Evento Valor de X PX Nenhuma criança com cárie 0 q4 Uma criança com cárie 1 4pq3 Duas crianças com cárie 2 6p2q2 Três crianças com cárie 3 4p3q Quatro crianças com cárie 4 p4 Exemplo 145 Distribuição binomial n 4 p 04 Reveja o Exemplo 144 Considere que na população estudada a probabilidade de uma criança de 6 anos ter cárie é p 04 ou seja 40 Qual é a probabilidade de duas das quatro crianças examinadas terem cáries A Tabela 96 mostra a probabilidade de a variável X assumir valor 2 Se a probabilidade de uma criança dessa população ter cárie é p 04 então Exemplo 146 Cálculo de probabilidades na distribuição binomial Reveja o Exemplo 144 A probabilidade de uma criança de 6 anos ter cárie é p 04 ou 40 Calcule a probabilidade de duas X 2 das quatro n crianças examinadas terem cáries aplicando a fórmula A probabilidade de o dentista encontrar duas de quatro crianças com cáries nessa população é de 03456 1433 Média e variância na distribuição binomial A média µ lêse mi de uma distribuição binomial é dada pela seguinte fórmula e a variância σ2 lêse sigma ao quadrado é dada pela fórmula a seguir Exemplo 147 Média e variância da distribuição binomial A probabilidade de nascer um menino é p 05 ignorando nascimentos de gêmeos e nascimentos múltiplos Calcule a média e a variância do número de meninos em 1000 nascituros A média é e a variância é 144 Revisão sobre análise combinatória Se n é um número inteiro positivo maior do que zero por definição o fatorial de n que se indica por n é dado por O fatorial de 5 é portanto O desenvolvimento de um fatorial pode ser interrompido antes de chegar ao número 1 desde que se coloque o símbolo que indica o fatorial logo após o último número Escrevese porque O fatorial de zero que se indica por 0 é por definição igual a 1 Dado um conjunto de n elementos onde n 0 e dado o número x n a combinação de n x a x é indicada por Essa fórmula dá o número de diferentes conjuntos de x elementos que podem ser formados com n elementos distintos Seja n 5 e x 3 Então a combinação de 5 3 a 3 é Convém observar que para todo n 145 Exercícios resolvidos 1451 Encontre o erro nas duas afirmativas feitas em seguida a a probabilidade de você ser aprovado em Estatística é 2 e de ser reprovado é 02 b a probabilidade de chover amanhã é 20 de ficar nublado sem chuva é 10 e de ter sol é 80 A soma de probabilidades deve ser 1 ou 100 Nas duas afirmativas as somas excedem o valor 1 ou 100 1452 Numa prova2 o aluno deve assinalar a resposta que fornece as datas na ordem em que estão mencionadas de três acontecimentos históricos Descoberta do Brasil Descoberta da América Independência do Brasil As alternativas são a 1492 1822 1500 b 1822 1492 1500 c 1492 1500 1822 d 1822 1500 1492 e 1500 1492 1822 f 1500 1822 1492 Um aluno que nada sabe sobre a matéria tenta adivinhar Qual é distribuição de probabilidades do número de respostas que ele consegue acertar A resposta e seria correta Descoberta do Brasil 1500 Descoberta da América 1492 Independência do Brasil 1822 Outras respostas têm as datas de um ou dois acontecimentos na ordem correta Veja a distribuição de probabilidades na Tabela 147 Tabela 147 Distribuição de probabilidades do número de respostas que o aluno acerta Resposta Probabilidade N de respostas corretas a 16 0 b 16 1 c 16 1 d 16 0 e 16 3 f 16 1 1453 Na população branca do Brasil 85 têm Rh Três pessoas são amostradas ao acaso dessa população Construa a distribuição binomial e faça um gráfico No problema Tabela 148 Cálculos intermediários para se obter a distribuição binomial Para construir a tabela de distribuição binomial você soma as probabilidades dos eventos que levam ao mesmo valor de X A distribuição é apresentada na Tabela 99 Tabela 149 Distribuição de probabilidades do número de pessoas com Rh numa amostra de três pessoas Valores de X Probabilidade 3 0614125 2 0325125 1 0057375 0 0003375 FIGURA 143 Distribuição de probabilidades do número de pessoas com Rh em três pessoas 1454 Apresente em tabela e em gráfico a distribuição do número de meninos que podem ocorrer em uma família com seis crianças No problema n é o número de crianças 6 p é a probabilidade de menino 12 e q é a probabilidade de menina 12 Para obter a probabilidade de X assumir o valor 0 ou seja de não ocorrer nenhum menino calcule Para obter a probabilidade de X assumir o valor 1 ou seja de ocorrer um menino em uma família com seis crianças calcule Para obter a probabilidade de x assumir o valor 2 ou seja de ocorrerem dois meninos em uma família com seis crianças calcule Para obter a probabilidade de X assumir o valor 3 calcule Para obter a probabilidade de X assumir o valor 4 calcule Para obter a probabilidade de X assumir o valor 5 calcule Para obter a probabilidade de X assumir o valor 6 calcule Com os valores de X e as respectivas probabilidades podemos construir a Tabela 1410 que apresenta uma distribuição binomial para n 6 e p 05 O gráfico de barras é apresentado na Figura 144 Tabela 1410 Distribuição do número de meninos em uma família com seis crianças Evento X P X Nenhum menino 0 164 1 menino 1 664 2 meninos 2 1564 3 meninos 3 2064 4 meninos 4 1564 5 meninos 5 664 6 meninos 6 164 FIGURA 144 Distribuição do número de meninos em uma família com seis crianças 1455 A probabilidade de um menino ser daltônico é 8 Qual é a probabilidade de serem daltônicos todos os quatro meninos que se apresentaram em determinado dia para um exame oftalmológico No problema p 008 Então q 1 008 092 O número de meninos é n 4 Para obter a probabilidade de X assumir valor 4 aplicase a seguinte fórmula Então 1456 O resultado do cruzamento de ervilhas amarelas homozigotas AA com ervilhas verdes homozigotas aa são ervilhas amarelas heterozigotas Aa Se essas ervilhas forem cruzadas entre si ocorrem ervilhas amarelas e verdes na proporção de 3 para 1 Portanto a probabilidade de num cruzamento desse tipo ocorrer ervilha amarela é p 34 e a probabilidade de ocorrer ervilha verde é q 14 Logo o número de ervilhas amarelas em um conjunto de n ervilhas é uma variável aleatória com distribuição binomial de parâmetros n e p 34 Foram pegas ao acaso quatro ervilhas resultantes do cruzamento de ervilhas amarelas heterozigotas Qual é a probabilidade de duas dessas quatro ervilhas serem de cor amarela A probabilidade de duas das quatro ervilhas serem amarelas é dada por 1457 Considere novamente o cruzamento de ervilhas amarelas e verdes descrito no Exercício 1456 Qual é a média de ervilhas amarelas considerando uma amostra de n 100 ervilhas Qual é a variância Um conjunto de n 100 ervilhas tem em média e variância 1458 Um exame é constituído de cem testes com cinco alternativas em que apenas uma é correta Um aluno que nada sabe sobre a matéria do exame acerta em média quantos testes Qual é a variância da distribuição A probabilidade de um aluno acertar uma resposta ao acaso é p 15 Existem n 100 testes Então aplicando a fórmula temse ou seja um aluno que nada sabe sobre a matéria acerta em média vinte testes A variância da distribuição é 1459 Um pesquisador de mercado quer saber a proporção de consumidores que preferem café sem cafeína Se ele pergunta a quinhentas pessoas que tipo de café adquiriram em sua última compra como ele estimaria a média e a variância da distribuição O pesquisador terá respostas Sim e Não além de outras como Não sei Não me lembro Não tenho tempo para responder a questionários Se as respostas do tipo Sim e Não chegarem a 70 ou seja se a taxa de resposta for de 70 quando a quantidade de não respondentes é grande a pesquisa não responde à pergunta feita ou seja não tem validade terá uma distribuição binomial A média será obtida pela seguinte fórmula e a variância σ2 pela fórmula a seguir O valor de p é obtido dividindo o número de consumidores que preferem café sem cafeína pelo número n de respondentes 14510 Numa cirurgia experimental uma cobaia pode sobreviver S ou morrer M O pesquisador não sabe é exatamente isso que ele está pesquisando mas considere que a probabilidade de uma cobaia sobreviver na cirurgia é de 025 A cirurgia será feita em duas cobaias Se ambas sobreviverem operamse mais duas Se apenas uma sobreviver outra será operada Se as duas morrerem o pesquisador interrompe o experimento Qual é a probabilidade de não se fazer uma segunda sequência de cirurgias de as duas primeiras cobaias operadas morrerem Qual é a probabilidade de quatro cobaias serem operadas e as quatro sobreviverem As respostas são dadas na Tabela 1411 Se as duas cobaias morrerem sobrevivência zero o pesquisador interrompe o experimento A probabilidade de isso ocorrer é de 05625 Se as duas cobaias sobreviverem sobrevivência 2 o pesquisador opera mais duas A probabilidade de isso ocorrer é Tabela 1411 Probabilidade de sobrevivência de cobaias submetidas a uma cirurgia experimental 2Adaptado de Mosteller F Rourke R E K Thomas JR G B Probability and Statistics Reading Addison Wesley 1961 p 160 146 Exercícios propostos 1461 Há três bolas numeradas em uma caixa cada qual com um número diferente Os números são 1 2 e 3 Tirase uma bola da caixa em seguida outra Formase então um número de dois dígitos com os números das bolas retiradas Por exemplo se saiu o número 3 e em seguida o 2 foi formado o número 32 Um jogador ganha se sair número par Nesse jogo ganhase mais do que se perde ou é justamente o contrário 1462 Seja X a variável aleatória que indica o número de meninos em uma família com cinco crianças Apresente a distribuição de X em uma tabela Faça um gráfico 1463 Um exame é constituído de dez testes tipo certoerrado Um aluno que nada sabe sobre a matéria do exame quantos testes em média acerta Qual é a variância dessa distribuição 1464 Um exame é constituído de dez testes com cinco alternativas em que apenas uma é correta Um aluno que nada sabe sobre a matéria do exame acerta em média quantos testes Qual é a variância da distribuição 1465 Suponha que determinado medicamento usado no diagnóstico precoce da gravidez é capaz de confirmar casos positivos em apenas 90 das gestantes muito jovens Isso porque em 10 das gestantes muito jovens ocorre descamação do epitélio do útero que é confundida com menstruação Nessas condições qual é a probabilidade de duas de três gestantes muito jovens que fizeram uso desse medicamento não terem confirmado precocemente a gravidez 1466 A probabilidade de um casal heterozigoto para o gene da fenilcetonúria Aa Aa ter um filho afetado aa é de 14 Se o casal tiver três filhos qual é a probabilidade de ter um filho com essa doença 1467 A probabilidade de um indivíduo ter sangue Rh é 10 na população brasileira toda Qual é a possibilidade de se terem apresentado em determinado dia em um banco de sangue cinco doadores de sangue todos Rh 1468 Foi feito um levantamento acerca da opinião de 1000 enfermeiras que trabalhavam em determinado hospital sobre dada questão que tinha duas alternativas Sim e Não As respostas têm distribuição binomial Algumas enfermeiras não responderam ao questionário Que efeito isso pode ter sobre as respostas 1469 A experiência demonstra que um detector de mentiras dá resposta positiva indicando mentira 10 das vezes em que uma pessoa está dizendo a verdade e 95 das vezes em que a pessoa está mentindo Imagine que seis suspeitos de um crime sejam submetidos ao detector de mentiras Todos os suspeitos se afirmam inocentes e estão dizendo a verdade Qual é a probabilidade de ocorrer uma resposta positiva 14610 O diretor de uma grande empresa está preocupado com a questão de acidentes e quer fazer um levantamento da situação Existem os registros do número de acidentes por dia na empresa Essa variável tem distribuição binomial 1Uma rápida revisão sobre análise combinatória é dada ao final deste Apêndice Anexos ESBOÇO Anexos Capítulo 15 Tabelas ANEXOS CAPÍTULO 15 Tabelas Tabela 1 Distribuição normal reduzida P0 Z z Tabela 2 Valores de c2 segundo os graus de liberdade e o valor de α Tabela 3 Valores de F para α 25 segundo o número de graus de liberdade do numerador e do denominador Fonte SCHEFFÉ 1959 Tabela 4 Valores de F para α 5 segundo o número de graus de liberdade do numerador e do denominador Fonte Scheffé 1959 Tabela 5 Valores de F para α 10 segundo o número de graus de liberdade do numerador e do denominador Fonte Scheffé 1959 Tabela 6 Valores de t segundo os graus de liberdade e o valor de α Graus de liberdade a Respostas aos Exercícios Propostos Capítulo 1 Apresentação de Dados em Tabelas 151 a peso de pessoas numérica contínua b marcas comerciais de um mesmo analgésico nominal c temperatura de pessoas numérica contínua d quantidade anual de chuva na cidade de São Paulo numérica contínua e religião nominal f número de dentes permanentes irrompidos em uma criança numérica discreta g número de bebês nascidos por dia em uma maternidade numérica discreta h comprimento de cães numérica contínua 152 Distribuição das pessoas segundo a opinião Opinião Frequência Percentual Favorável 425 499 Contrária 368 432 Não temnão sabe 59 69 Total 852 1000 153 Distribuição das notas de duzentos alunos Nota do aluno Frequência Frequência relativa De 9 a 10 16 008 De 8 a 89 36 018 De 65 a 79 90 045 De 5 a 64 30 015 Abaixo de 5 28 014 Total 200 1 154 Distribuição dos pacientes segundo o estágio da doença Estágio da doença Frequência Frequência relativa Leve 8 040 Moderado 9 045 Severo 3 015 Total 20 100 155 Não está definido se os valores iguais aos extremos de classe estão ou não incluídos na classe Os intervalos se sobrepõem por exemplo de 20 a 30 e de 30 a 40 o valor 30 aparece nos dois intervalos e falta uma classe de 50 a 60 156 Doadores de sangue segundo o tipo de sangue Tipo de sangue Frequência Frequência relativa O 15 0375 A 16 04 B 6 015 AB 3 0075 Total 40 1 157 Vinte alunos 158 Distribuição das crianças segundo o hábito de sucção Hábito de sucção Frequência Percentual Sucção do polegar 190 94 Chupeta 588 292 Mamadeira 618 307 Não têm o hábito 615 306 Total 2011 1000 159 Classe 70 75 75 80 80 85 85 90 90 95 95 100 100 105 105 110 110 115 115 120 1510 O intervalo de classes é 5 enfermeiros em serviço O intervalo de toda a distribuição é 30 1511 Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias Classe Frequência 1 3 5 3 6 8 6 9 11 9 12 4 12 15 6 15 18 2 Total 36 Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias Classe Frequência 1 dia 2 De 2 a 3 dias 6 De 4 a 7 dias 12 De 8 a 14 dias 14 Mais de 14 dias 2 Total 36 1512 Conjunto A para achar o número de classes 50 701 7 amplitude dos dados 7024 46 Dividindo a amplitude total pelo número de classes achase o intervalo de classe 46 7 66 7 24 31 31 38 38 45 45 52 52 59 59 66 66 73 Conjunto B para calcular o número de classes 100 10 amplitude dos dados 821187 634 Dividindo a amplitude total pelo número de classes encontrase o intervalo de classe 634 10 634 65 185 250 250 315 315 380 380 445 445 510 510 575 575 640 640 705 705 770 770 835 1513 Taxa de abandono do tratamento contra tuberculose pulmonar segundo a zona de moradia 1514 Distribuição dos dentistas segundo a adoção de métodos de prevenção de cáries e doenças gengivais no consultório Prevenção Frequência Porcentual Sim 78 780 Não 22 220 Total 100 1000 A prática da prevenção deveria ser adotada por 100 dos dentistas 1515 Número e proporção de óbitos por grupos de causas Brasil 2004 Houve 896554 óbitos com causa definida 583 homens e 417 mulheres Doenças do aparelho circulatório respondem pela maior proporção de mortes Chama a atenção a grande proporção de óbitos de homens por causas externas acidentes e homicídios 1516 Pacientes portadores de carcinoma epidermoide de base de língua segundo a faixa etária em anos Faixa etária Número Frequência relativa 30 40 10 34 40 50 66 228 50 60 119 410 60 70 66 228 70 80 24 83 80 e mais 5 17 Total 290 1000 A faixa etária de maior risco dos 50 aos 60 anos 1517 Número de órgãos obtidos de doadores cadáveres Nota Cada cadáver é potencialmente doador de dois rins um coração um fígado e dois pulmões A taxa de aproveitamento é sobre número de órgãos não de cadáveres Capítulo 2 Apresentação de Dados em Gráficos 241 Distribuição dos pacientes segundo o estágio da doença 242 Distribuição dos doadores de sangue segundo o tipo de sangue 243 Distribuição das crianças segundo o hábito de sucção 244 Distribuição de pacientes acidentados no trabalho segundo o tempo de internação em dias 245 Taxa de abandono do tratamento contra tuberculose pulmonar segundo a zona de moradia 246 Proporção de óbitos por grupos de causas Brasil 2004 Nesses gráficos as grandes causas foram colocadas em ordem decrescente considerando as porcentagens Mas os dois gráficos podem ser reunidos em um só como na figura que se segue 247 Pacientes portadores de carcinoma epidermoide de base de língua segundo a faixa etária em anos 248 Taxa de aproveitamento de órgãos obtidos de doadores cadáveres 249 Pressão sanguínea diastólica de 35 enfermeiros que trabalham em um hospital Classe Frequência Frequência relativa 64 70 1 29 70 76 5 143 76 82 9 257 82 88 13 371 88 94 5 143 94 100 2 57 Total 35 1000 2410 Pressão sanguínea diastólica de 35 enfermeiros que trabalham em um hospital Capítulo 3 Medidas de Tendência Central 361 a Média 5 mediana 6 moda 8 b Média 8 mediana 8 moda 8 c Média 11 mediana 10 moda 10 d Média 1 mediana 0 não tem moda e Média 2 mediana 1 duas modas 1 e 2 362 Mediana 363 Moda 364 24 anos 365 A média é 100 mg por 100 mL de sangue e a mediana é 995 mg por 100 mL de sangue 366 Estatura Média 170 m mediana 168 m Peso Média 725 kg mediana 70 kg Pressão arterial Média 1655 mL de mercúrio mediana 160 mL de mercúrio 367 Menino média 088 dentes cariados meninas média 1 dente cariado 368 106 minuto O rato que não dormiu não entra na média porque tempo de latência é o tempo para a droga fazer efeito no caso dormir 369 Masculino Média 700 gramas por dia mediana 65 gramas por dia Feminino Média 700 gramas por dia mediana 70 gramas por dia 3610 Masculino Média 090 L por dia mediana 085 L por dia Feminino Média 080 L por dia mediana 075 L por dia 3611 Metade das pacientes retornou às atividades menos de 275 dias depois de submetidas a histerectomias o conjunto de dados não tem moda ou seja nenhum número de dias foi mais frequente 3612 362 mg de ácido ascórbico em 100 mL 3613 Sim exemplo 1 2 3 3 3 4 5 para esse conjunto de dados a média a mediana e a moda são iguais a 3 3614 A média porque a última classe não tem o extremo superior definido Capítulo 4 Medidas de Dispersão 461 a 1 b 5 c 4 462 a Σ x 35 b 463 A média é 4 e o desvio padrão é 3 464 O tamanho da amostra é 6 465 A média é 24 e a variância 80 466 Antônio média 5 desvio padrão 0 João média 5 desvio padrão 1 Pedro média 5 desvio padrão 5 As notas de Antônio não variaram as notas de Pedro variaram muito mais do que as de João 467 a O desvio padrão pode ser maior do que o valor da média exemplo a2 0 2 b O valor do desvio padrão pode ser igual ao valor da média exemplo 10 10 5 0 0 c O valor do desvio padrão não pode ser negativo por definição d O desvio padrão é igual a zero quando todos os dados do conjunto são iguais entre si 468 A variância é 16 o desvio padrão é 4 e o coeficiente de variação é 400 469 A média é 5 e a variância é 08 4610 a desvantagem de usar a amplitude os dois conjuntos podem ter amplitudes iguais e variabilidades diferentes b não c sim quando menor do que 1 4611 1 ano média 746 desvio padrão 74 2 ano média 956 desvio padrão 79 As variabilidades são praticamente iguais mas a diferença é que a média do 2º ano é aproximadamente 28 maior do que a média do 1 ano o que justifica a ideia de que alunos que começam a atender pacientes em disciplinas clínicas têm aumento na frequência do batimento cardíaco 4612 A diferença de médias não é muito grande 6 e 7 respectivamente mas a diferença de variabilidades é tão grande 2 e 112 respectivamente que justifica preferir a primeira dieta para perda de peso Como na primeira dieta as respostas são mais homogêneas a expectativa do resultado é mais previsível Capítulo 5 Noções sobre Correlação 561 a r 1 correlação perfeita positiva b r 1 correlação perfeita negativa c r 0 correlação nula d r 090 correlação positiva alta e r 090 correlação negativa alta 562 a correlação negativa b correlação positiva c correlação nula 563 O sobrepeso pode ser um fator de risco para morte por doenças do coração 564 Não 565 Correlação perfeita negativa 7 Forte correlação positiva 1 Correlação nula ou próxima de nula 3 566 1 1 ou 1 positiva ou negativa zero maior 567 Negativa 568 Se as variáveis estão ou não correlacionadas 569 Não existe correlação entre as variáveis r 0 O diagrama de dispersão mostra isso Dados relativos a duas variáveis X e Y 5610 Para o Conjunto A r 0936 portanto alta correlação positiva Para o Conjunto B r 0 o que no caso não significa correlação nula mas como mostra o gráfico correlação não linear Dois conjuntos de pares de valores de duas variáveis 5611 Não é possível1 calcular o valor de r mas obviamente não existe correlação entre as variáveis X cresce e Y permanece constante 5612 Σx 255 Σx2 9443 Σy 1725 Σy2 504375 Σxy 66025 Logo r 0913 5613 Para o Conjunto A r 1 portanto correlação perfeita positiva Para o Conjunto B r 0 o valor altamente discrepante anula a correlação Mas atenção retire o valor discrepante apenas no caso de ter havido erro na leitura ou no registro do dado Outras situações demandam discussão Note ainda o valor discrepante mudou totalmente o valor de r pelo fato de a amostra ser pequena 5614 O valor de r é 0774 correlação positiva alta 5615 Duração do exercício em minutos e VO2 MAX em mililitros por quilograma por minuto para 12 homens saudáveis Olhando o diagrama é razoável afirmar que VO2MAX diminui quando aumenta o tempo da atividade 5616 Taxas de fecundidade total no Brasil segundo o ano do censo 1Divisão por zero uma vez que a variância de Y que aparece no denominador é zero Capítulo 6 Noções sobre Regressão 671 Tanto o gráfico como a reta ajustada indicam que o teor de vitamina C no suco de maçã diminui à medida que aumenta o tempo de armazenamento Teor de vitamina C mg de ácido ascórbico100 mL de suco de maçã em função do período de armazenamento em dias O coeficiente de correlação 672 Não muda mas a reta de regressão será outra As duas retas se cruzarão no ponto de coordenadas iguais às médias de X e Y 673 Não 674 Ŷ 5 X 675 Não seria possível achar o valor de b pela fórmula uma vez que o denominador seria zero Mas a ideia é de uma reta paralela ao eixo das ordenadas 676 Os dados são poucos para discutir um assunto tão complexo mas em geral é possível afirmar que escolaridade está associada a nível de renda que significa maiores gastos com produtos de higiene e maior busca por profissionais de saúde além da facilidade de ter e buscar novos conhecimentos De qualquer forma ensinar métodos preventivos produz bons resultados O que não se pode é usar estatísticas de má qualidade ainda que se tenha por objetivo provar assuntos já comprovados ou demonstrar boas intenções 677 Os gastos com propaganda aumentaram as vendas O valor de R2 0984 indica que a proporção da variação do volume de vendas Y explicada pela variação do gasto em propaganda é muito alta Mas cuidado não se pode extrapolar Gastos com propaganda em reais na semana e valores recebidos em reais nas vendas 678 Ŷ 1123 1309X 679 Ŷ 1625 8841X Sim existe tendência de queda O coeficiente de determinação é R2 0859 Então o VO2MAX inalado diminui linearmente quando aumenta a atividade no intervalo estudado 6710 Tempo em minutos desde o início do repouso e pressão sanguínea diastólica em milímetros de mercúrio A simples inspeção do gráfico mostra que a pressão sanguínea diastólica diminui com o tempo de repouso mas há outros fatores que explicam a variação A maior crítica aqui é pelo fato de as observações feitas ao longo do tempo não serem independentes foram tomadas na mesma pessoa ao longo do tempo Para se ajustar uma reta de regressão aos dados é preciso que as observações sejam independentes 6711 Para 32 dias a estimativa é 6885 g 6712 A regressão exponencial traz a variável explanatória no expoente Escrevese Para ajustála é preciso calcular o logaritmo neperiano de Y Ajustase Cálculos auxiliares Aplicando as fórmulas obtémse Equação exponencial ajustada aos dados das variáveis X e Y Capítulo 7 Noções sobre Amostragem 781 Podem ser obtidas seis amostras diferentes 1 Antônio e Luís 2 Antônio e Pedro 3 Antônio e Carlos 4 Luís e Pedro 5 Luís e Carlos 6 Pedro e Carlos 782 Podem ser selecionados a os elementos de ordem par b os elementos de ordem ímpar c os quatro primeiros elementos 783 Numeramse os alunos e sorteiamse seis 784 Divida dez por cinco e obterá dois Sorteie um dos dois primeiros números ou seja 1 ou 2 Se sair 1 chame para a amostra o primeiro o terceiro o quinto o sétimo e o nono nomes se sair 2 chame o segundo o quarto o sexto o oitavo e o décimo nomes 785 a alunos da universidade b percentual de alunos que têm trabalho remunerado c não porque talvez no restaurante fiquem mais alunos que têm trabalho d não porque excluiria os que têm condução própria 786 Questão fechada Você costuma escovar os dentes todos os dias Sim Não Questão aberta Como você limpa seus dentes 787 A média da população parâmetro é 5 As médias das amostras estatísticas são João e José 8 João e Paulo 7 João e Pedro 5 José e Paulo 5 José e Pedro 3 Paulo e Pedro 2 A média das médias das amostras é 5 igual à média da população 788 Leitores de livros técnicos 789 O costume é escolher uma cidade representativa de todo o estado 7810 a qualquer conjunto de dez unidades como por exemplo 3 5 8 13 19 22 26 27 30 40 b no caso da amostra sugerida na resposta anterior 03 ou 30 c 05 ou 50 d Boa nota não são boas as estimativas 0 01 09 1 Capítulo 8 Distribuição Normal 891 De acordo com a regra empírica 95 dos dados estarão no entorno da média a menos de dois desvios padrões de distância da média µ No caso dois desvios padrões valem 2 x 15 30 A proporção de pessoas com quociente de inteligência acima da média que é 100 é 952 475 Então 25 de pessoas têm quociente de inteligência acima de 130 892 Usando apenas os conhecimentos adquiridos com a distribuição normal é razoável dizer que a média mais um desvio padrão é ponto de alerta no caso 1395 3 1425 média mais dois desvios padrões no caso 1395 2 x 3 1455 seria o ponto de corte para dizer que a concentração de sódio no plasma de uma pessoa está além do limite de normalidade 893 a 067 b 164 c 196 894 a 7888 b 1056 895 a 475 b 4525 896 a 9772 b 228 897 a 2119 b 2119 898 a 01587 ou 1587 b 00228 ou 228 c 05 ou 50 d 01003 ou aproximadamente 10 899 Sim metade dos escores é positiva e metade é negativa porque a distribuição normal reduzida é simétrica em torno da média zero 8910 00475 ou 475 Capítulo 9 Intervalo de Confiança 971 a Se forem tomadas repetidamente muitas amostras e calculados seus intervalos de confiança 95 deles devem conter a média 972 Resposta falso pois podem ser obtidos para qualquer parâmetro usando os dados de uma amostra 973 O intervalo de 90 de confiança obtido para a média da pressão sanguínea sistólica em mm Hg de uma amostra de cem indivíduos sadios com idade entre 20 e 25 anos é 974 O intervalo de 95 de confiança calculado para a média de Hb em gdL medida em uma amostra de duzentas mulheres adultas sadias é 975 O intervalo de 90 de confiança calculado para a média de comprimento em cm ao nascer para o sexo masculino dos filhos de mães sadias com período completo de gestação foi 976 O intervalo de 95 de confiança calculado para a média de glicose por 100 mL de sangue em uma amostra de 25 normoglicêmicos é 977 A amostra de trinta homens sadios com idade entre 30 e 48 anos não fumantes e que tinham atividade física regular forneceu em repouso o intervalo de 95 de confiança para a média de frequência cardíaca 978 A estimativa por intervalo da média da quantidade de gordura em cem hambúrgueres de determinada cadeia de restaurantes com 95 de confiança é 979 A estimativa por intervalo da média da quantidade de gordura em cem hambúrgueres de determinada cadeia de restaurantes com 95 de confiança é 9710 a não necessariamente b sim c não necessariamente d não Capítulo 10 Teste t para uma Amostra 1041 Hipóteses a chove b não chove Decisões possíveis a levar o guardachuva b não levar o guardachuva Erros possíveis a chover e não ter guardachuva b não chover e carregar o guardachuva 1042 Hipótese da nulidade o peso médio ao nascer de filhos de gestantes que vivem em extrema pobreza e participaram do programa é igual ao peso médio ao nascer histórico µ 2800 g de filhos de gestantes que vivem em extrema pobreza e não participaram do programa Hipótese alternativa o peso médio ao nascer de filhos de gestantes que vivem em extrema pobreza e participaram do programa é diferente do peso médio ao nascer histórico µ 2800 g de filhos de gestantes que vivem em extrema pobreza e não participaram do programa Nível de significância de 5 Considerandose peso médio ao nascer de 3075 g e desvio padrão 500 g na amostra de 25 mulheres calculase o valor de t Com n 1 251 24 graus de liberdade o valor crítico na tabela de t para um teste bilateral é 2064 Como o valor absoluto de t calculado é maior que o da tabela rejeitase a hipótese da nulidade ou seja o peso médio ao nascer de filhos de gestantes que vivem em extrema pobreza e participaram do programa é diferente do peso médio ao nascer histórico µ 2800 g de filhos de gestantes que vivem em extrema pobreza e não participaram do programa 1043 Estabeleça as hipóteses Calcule a média e o desvio padrão Calcule o valor de t Como a hipótese da nulidade será rejeitada apenas em uma direção o teste é unilateral Com n 1 6 1 5 graus de liberdade o valor crítico na tabela de t no nível de 10 é 1476 Como o valor absoluto de t calculado é maior que o da tabela rejeitase a hipótese da nulidade no nível de 5 ou seja em média as notas dos alunos são significantemente maiores do que o valor especificado 1044 Estabeleça as seguintes hipóteses Calcule o valor de t A hipótese da nulidade será rejeitada apenas em uma direção o teste é unilateral Com n 1 22 1 21 graus de liberdade o valor crítico na tabela de t no nível de 5 é 1721 Como o valor absoluto de t calculado é maior que o da tabela rejeitase a hipótese da nulidade ou seja as notas dos alunos são em média significantemente maiores do que o valor especificado 1045 Estabeleça as seguintes hipóteses Estabeleça o nível de significância 5 Calcule o valor de t Com n 1 22 1 21 graus de liberdade o valor crítico na tabela de t no nível de 5 é 1721 Como o valor absoluto de t calculado é menor que o da tabela não se rejeita a hipótese da nulidade ou seja não se pode concluir que em média o escore para depressão seja menor em crianças com baixa estima do que nas crianças em geral 1046 Estabeleça as hipóteses Estabeleça o nível de significância 5 Calcule o valor de t Com n 1 811 80 graus de liberdade o valor crítico na tabela de t no nível de 5 é 1960 Como o valor absoluto de t calculado é maior que o da tabela rejeitase a hipótese da nulidade ou seja em média a terapia proposta reduz a ansiedade em alunos do curso fundamental 1047 Usando o Minitab p 0074 010 Rejeitase a hipótese da nulidade OneSample T Notas dos alunos 1048 Errado Um teste estatístico não faz hipóteses sobre médias de amostras O teste t para uma amostra é usado para verificar se a média da população de onde a amostra proveio é significativamente diferente de um valor especificado 1049 10410 O pvalor calculado usando o programa Minitab é 100 Não se rejeita a hipótese de que a média dos escores seja 50 OneSample T Escore 10411 A hipótese da nulidade é a de que em média o tempo de alívio de dor é 100 minutos como acontece com as outras formulações A hipótese alternativa é a de que o tempo médio para alívio de dor é diferente de 100 minutos Para um teste bilateral no nível de 5 de significância temos que a média é 981 a variância 2187778 o desvio padrão 467737 a variância da média 218778 o erro padrão da média 147911 o valor de t 128455 e o pvalor é 0231026 O tempo médio de alívio da dor com a nova formulação não difere estatisticamente do tempo médio de outras formulações p 005 Capítulo 11 Teste t para Comparação de Médias 1141 Médias e desvios padrões de pesos de ratos O valor de t é 4536 significante a 5 Os ratos submetidos à dieta de ração experimental ganharam mais peso 1142 Observações pareadas t 4226 significante no nível de 5 O teste B dá em média resultados significativamente maiores de QI do que o teste A 1143 t 1642 não significante a 5 Os dados não mostram que o uso de anticoncepcionais orais aumente a pressão sanguínea sistólica 1144 t 0623 não significante a 5 Os dados não mostram diferença de peso ao nascer entre sexos 1145 Médias variâncias e desvios padrões da pressão sanguínea dos ratos Valores de F e t Nota ns pt indica não significância e o asterisco indica significância no nível de 5 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 005 A pressão sanguínea dos ratos ficou mais baixa em baixa temperatura 1146 Estatísticas para comparar o tempo despendido pelas drogas Estatística Resultado Valor de F 116 pvalor 04097 Variância ponderada 17457 Valor de t 299 pvalor bilateral 00097 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 000974 005 1147 Estatísticas para comparar o tempo de alívio da dor obtido com a droga A nova em relação à droga B mais usada Estatística Resultado Valor de F 133 pvalor 02644 Variância ponderada 2003 Valor de t 116 pvalor unilateral 01227 Não se rejeita a hipótese de variâncias iguais p 005 Também não há evidência de que a droga nova seja melhor do que a antiga p 005 1148 Estatísticas para comparar os dois métodos de processamento Estatística Resultado Valor de F 150 pvalor 01924 Variância ponderada 5000 Valor de t 1075 pvalor unilateral 00000 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 00000 005 1149 Estatísticas para comparar as duas dietas Estatística Resultado Valor de F 118 pvalor 04290 Variância ponderada 2183 Valor de t 234 pvalor unilateral 00205 Não se rejeita a hipótese de variâncias iguais p 005 Rejeitase a hipótese de médias iguais p 00205 005 11410 Teste t pareado porque a mesma criança foi observada em duas ocasiões a quando recebeu alimentos adoçados com açúcar e b quando recebeu alimentos adoçados com sacarina Os dois grupos de crianças mais velhas hiperativas e de crianças mais novas normais não são comparáveis porque diferem quanto a dois fatores idade e hiperatividade Capítulo 12 Teste χ2 1271 Um teste de quiquadrado no nível de 5 de significância não rejeita a hipótese de que a proporção de recémnascidos com defeito ou doença séria seja de 3 1272 χ2 482 A proporção de recémnascidos portadores de anomalia congênita é maior no sexo feminino 1273 χ2 904 A ausência congênita de dentes ocorre com mais frequência em meninas 1274 O coeficiente gama é 0372 A associação positiva entre anodontia e sexo feminino na ordem de 37 é pequena 1275 χ2 132 A associação é 022 pequena O teste não rejeita a hipótese de que a presença de aberração cromossômica no feto não depende de a faixa de idade da gestante ser de 35 a 40 anos ou de 40 anos ou mais 1276 Hipótese da nulidade existe associação entre implantes mamários e doenças do tecido conjuntivo e outras doenças Hipótese alternativa doenças do tecido conjuntivo e outras não estão associadas aos implantes mamários 1277 Hipótese da nulidade a probabilidade de natimorto é idêntica para ambos os sexos Hipótese alternativa a probabilidade de natimorto é maior para um dos sexos α 5 χ2 115 portanto não se rejeita H0 1278 O coeficiente gama é 00816 Associação praticamente inexistente 1279 Hipótese da nulidade a probabilidade de dormir mais de oito horas é idêntica para as duas faixas etárias hipótese alternativa a probabilidade de dormir mais de oito horas é diferente para as duas faixas etárias no nível de 1 de significância χ2 2226 portanto se rejeita H0 12710 χ2 4824 rejeitase H0 no nível de 1 Apêndices Capítulo 13 Probabilidades 1381 a b c 1382 a b c 1383 a b c zero 1384 É mais fácil resolver o problema construindo o espaço amostral a b 1385 a b 1386 Os eventos ser reprovado em Matemática e ser reprovado em Português não são independentes porque a condição de independência dada em seguida não é satisfeita Temos PReprovado Português 010 PReprovado Matemática 020 PReprovado Português Reprovado Matemática 005 1387 a 50 b 50 1388 01 1389 50 13810 a 36 b 1 Capítulo 14 Distribuição Binomial 1461 Eventos e respectivos resultados no jogo Eventos Resultados possíveis 12 Ganha 13 Perde 21 Perde 23 Perde 31 Perde 32 Ganha O jogador perde mais vezes do que ganha porque só 2 é par e 1 e 3 são ímpares O jogo é injusto 1462 Distribuição do número de meninos em uma família de cinco crianças X PX 0 132 1 532 2 1032 3 1032 4 532 5 132 1463 µ 5 σ2 25 1464 µ 2 σ2 16 1465 27 1466 2764 ou 422 1467 0001 1468 a as respostas têm distribuição binomial b depende da taxa de respostas que deve ser igual ou superior a 70 ou seja pelo menos 70 dos questionários devem ter sido respondidos Um cuidado importante aqui é saber se a pergunta feita não induz um tipo de resposta por exemplo dizer não pode ser prejudicial para a enfermeira ou ofender seus colegas Nesse caso as respostas poderiam eventualmente ser tendenciosas e a taxa de respostas pequena 1469 059049 14610 Se considerarmos cada dia um ensaio em cada dia podem ocorrer mais de dois eventos ocorreu acidente ou não Interessa saber o número de acidentes por dia e em seguida também o estudo da distribuição de frequências em quantos dias houve um acidente dois três etc e o estudo das respectivas causas Eventos e respectivos resultados no jogo Eventos Resultados possíveis 12 Ganha 13 Perde 21 Perde 23 Perde 31 Perde 32 Ganha O jogador perde mais vezes do que ganha porque só 2 é par e 1 e 3 são ímpares O jogo é injusto 1462 Distribuição do número de meninos em uma família de cinco crianças X PX 0 132 1 532 2 1032 3 1032 4 532 5 132 1463 µ 5 σ2 25 1464 µ 2 σ2 16 1465 27 1466 2764 ou 422 1467 0001 1468 a as respostas têm distribuição binomial b depende da taxa de respostas que deve ser igual ou superior a 70 isto é pelo menos 70 dos questionários devem ter sido respondidos Um cuidado importante aqui é saber se a pergunta feita não induz um tipo de resposta por exemplo dizer não pode ser prejudicial para a enfermeira ou ofender seus colegas Nesse caso as respostas poderiam eventualmente ser tendenciosas e a taxa de respostas pequena 1469 059049 14610 Se considerarmos cada dia um ensaio em cada dia podem ocorrer mais de dois eventos ocorreu acidente ou não Interessa saber o número de acidentes por dia e em seguida também o estudo da distribuição de frequências em quantos dias houve um acidente dois três etc e o estudo das respectivas causas Sugestões para leitura Aliaga M Gunderson B Interactive Statistics 2 ed New Jersey Prentice Hall 2003 Armitage P Statistical methods in medical research 4 ed Oxford Blackwel Scientific Publications 2002 Bland M An introduction to medical statistics 3 ed Oxford Oxford Medical Publications 2000 Brown B W Hollander M Statistics a biomedical introduction New York Wiley 1977 Bishop V MM et al Discrete multivariate analysis theory and practice Cambridge MIT Press 1977 Bussab W Morettin P A Estatística Básica São Paulo Saraiva 2002 Cochran W Sampling techniques New York Wiley 1977 Chow S C Liu J L Design and analysis of clinical trials New York Wiley 2004 Daniel C Applications of Statistics New York Wiley 1976 Daniel W W Biostatistics a foundation for analysis in the health sciences 10 ed New York Wiley 2013 Dawson B Trapp R G Bioestatística básica e clínica 3 ed Rio de Janeiro McGraw 1994 Dean A Voss D Design and analysis of experiments New York Springer 1999 Elston R C Johnson W D Essentials of biostatistics Philadelphia FA Davis Company 1994 Freund J E E Smith R M Statistics a first course 4 ed Englewood Cliffs Prentice Hall 1986 Glantz S A Primer of biostatistics 7 ed New York McGraw 2011 Johnson R E Tsui K W Statistical reasoning and methods New York Wiley 1998 Lohr S L Sampling Design and analysis 2 ed Pacific Grove Brooks 2010 Matthews D E Farewell V Using and understanding medical statistics 4 ed New York Karger 2007 Minium E W Clarke R C Coladarci T Elements of Statistical Reasoning 2 ed New York Wiley 1999 Motulsky H Intuitive Biostatistics New York Oxford Press 1995 Ott L Mendenhall W Understanding Statistics 6 ed Belmont Wadsworth 1994 Schork M A Remington R D Statistics with applications to the biological and health sciences 3 ed New Jersey Prentice Hall 2000 Vieira S Elementos de Estatística 5 ed São Paulo Atlas 2012 Vieira S Bioestatística Tópicos Avançados 2 ed Rio de Janeiro CampusElsevier 2008 5ª tiragem Vieira S E Hossne W S Metodologia científica para a área de saúde 2 ed São Paulo Rio de Janeiro Elsevier 2015 Vieira S Análise de variância São Paulo Atlas 2006 Vieira S Hossne W S Experimentação com seres humanos 3 ed São Paulo Moderna 1988 Zar J H Biostatistical analysis 5 ed New Jersey Prentice Hall 2010 Índice remissivo A Ajuste de regressão não linear 85 Amostra 91 casual simples 93 estratificada 94 não probabilística ou de conveniência 97 por conglomerados 95 por quotas 96 probabilística 93 semiprobabilística 95 sistemática 95 tendenciosa 99 Amplitude 43 Análise combinatória 199 Apuração de dados 2 Áreas sob a curva normal 108 Avaliação das técnicas de amostragem 97 C Cabeçalho tabela 4 Cálculo da razão de chances 170 da variância 47 das probabilidades sob a distribuição normal 111 de probabilidade 182 do coeficiente de correlação 63 do intervalo de confiança para uma média 121 do número de classes 11 dos coeficientes de regressão 78 Caracterização da distribuição binomial 197 Caudas da curva 106 Censo 92 Chances 169 Classe modal 35 Coeficientes angular da reta 77 de correlação 63 de correlação de Pearson 63 de determinação 81 82 de regressão cálculo dos 78 de variação 52 de Yule 160 fi 160 gama 160 linear da reta 76 Colunas tabela 4 Comparação de duas médias 139 Condição de independência 187 Confiança 122 Conglomerados 95 Construção de tabelas 3 Correção de continuidade 172 Correlação de Pearson coeficiente de 83 forte 60 fraca 60 negativa 61 nula 60 positiva 61 D Dados 23 apuração de 2 contínuos 9 discrepantes 34 discretos 8 9 estatístico 1 numéricos apresentação de 4 87 pareados 140 qualitativos 19 quantitativos 8 24 Desfecho 66 Desvio médio 48 Desvio padrão 47 51 Diagrama de caixa Box plot 47 de dispersão 59 de linhas 24 Dispersão dos dados em relação à média 53 relativa 53 Distância interquartílica 46 Distribuição binomial 195 197 198 das médias das amostras 120 de frequências 5 8 9 31 de Gauss 104 de probabilidades 194 198 teórica 103 Distribuição normal 103 cálculo das probabilidades 111 características 104 probabilidades associadas à 106 reduzida ou padronizada 107 usos da 112 E Ensaio clínico 161 com dados pareados 140 Equação da reta 76 Erros 130 definindo os 130 padrão da média 117 119 tipo I 130 Escolha da variável explanatória 80 Espaço amostral 179 Estatística 1 91 Estimativas da média por intervalo 123 da média por ponto 123 da variável resposta 79 de risco 169 por ponto 117 Estudo prospectivo 164 retrospectivo 166 Eventos 179 dependentes 186 impossíveis 181 independentes 185 não mutuamente exclusivos 184 Extração de raiz quadrada 86 Extrapolação 79 Extremos de classe 10 F Falácia 82 Fator 66 de risco 168 Frequência relativa 6 183 G Gerador de números aleatórios 93 Gráfico de linhas 66 de série temporal 66 de barras 19 de pontos 25 de setores 22 Grau de associação 160 de correlação linear 63 de dispersão das médias das amostras 118 de liberdade 49 122 H Hipóteses 128 alternativa 129 da nulidade 129 Histograma 25 I Inferência 117 127 estatística 130 Intervalos de classe 10 de confiança 117 interpretação dos 124 Inversão 86 L Levantamento de dados 1 Limites dos intervalos de classe 10 Logaritmo neperiano da velocidade 86 M Margens de erro 91 121 Máximo 43 Média aritmética 30 da amostra 117 da população 117 118 dos desvios 48 na distribuição binomial 199 Mediana 33 Medidas de associação 160 de dispersão 43 de tendência central 29 de variabilidade 43 Métodos de amostragem 93 Mínimo 43 Moda 35 N Nível de confiança 122 de significância 122 131 Notação de somatório 30 Número de classes 11 P pvalor 133 Parâmetro 91 Polígonos de frequências 26 Populaçãoões 91 alvo 91 configurada 91 independentes 143 Prevalência 171 Probabilidade 179 cálculo de 111 condicional 186 definições de 181 182 distribuição de 194 na distribuição normal reduzida 107 na distribuição normal 106 subjetiva 183 Proporção 171 Q Qualidade de uma estimativa 98 Quartil 44 R Razãoões de chances 168 169 para o uso de amostras 92 Regra do e 185 do ou 183 empírica 107 Regressão 75 linear simples 76 87 não linear 83 Relaçãoões determinísticas 81 linear 75 probabilísticas 81 Representatividade 99 Reta de regressão 76 Risco relativo 168 S Símbolos matemáticos 29 Soma de eventos mutuamente exclusivos 183 de eventos não mutuamente exclusivos 184 de quadrados dos desvios 48 de variáveis aleatórias independentes 105 Somatório notação de 30 T Tabelas de distribuição de frequências 5 31 dados quantitativos 8 variância de dados agrupados 50 de contingência 7 157 Tamanho da amostra 63 98 Tendência 99 central medidas de 29 Teorema da multiplicação 185 da soma 183 do limite central 105 106 Teoria das probabilidades 179 Teste bilateral 129 de hipóteses 134 de uma proporção 171 dos grupos com base na distribuição normal 165 167 estatístico 63 127 128 158 171 F 144 t 132 na comparação de grupos independentes 143 nos estudos com dados pareados 139 para comparar médias 139 145 para uma amostra 127 unilateral 129 Z nos ensaios clínicos 163 χ2 nos ensaios clínicos 162 nos estudos prospectivos 164 nos estudos retrospectivos 166 para a associação de duas variáveis 157 para comparar dois grupos em ensaios clínicos 161 Tomada de decisão em condições de incerteza 127 Transformação dos dados 84 logarítmica 86 V Valor científico 93 discrepante 44 máximo 9 mínimo 9 Variabilidade 43 das médias das amostras 117 Variação conjunta das variáveis 60 Variâncias 48 da média 118 de dados agrupados 50 na distribuição binomial 199 desiguais 147 dos grupos 143 iguais 145 Variável 1 aleatória 103 193 aleatória binária 193 aleatória binomial 194 explanatória 66 80 resposta 66 Z 108 BIOESTATÍSTICA Bioestatística Vieira Sonia 9788535289824 308 páginas Compre agora e leia O livro Bioestatística Tópicos Avançados é mais uma obra indispensável de Sonia Vieira que leva o leitor a dominar os conceitos progressivamente rever as próprias ideias e aperfeiçoar a aprendizagem sempre de modo agradável A competência e a capacidade da autora de transmitir ideias ficam demonstradas neste livro pela disposição dos temas pela sequência das ideias pelo didatismo sem prejuízo da profundidade na escolha dos exemplos e dos exercícios Longe da aridez que se atribui sem razão aliás à Bioestatística esta obra é capaz de atingir tanto o iniciante como o expert na área E este livro como os outros da autora caracteriza se pela precisão de linguagem como convém ao cientista elegância de forma como convém ao professor e conteúdo instigante como convém ao pesquisador O livro Bioestatística Tópicos Avançados explica como interpretar testes de hipóteses e como interpretar os intervalos de confiança Apresenta os testes não paramétricos muito usados em artigos da área de saúde E é dada não apenas a maneira de proceder a tais testes mas também a lógica deles A análise e a interpretação de dados apresentados nas tabelas de contingência são tratadas de maneira clara e didática O livro apresenta ainda coeficientes de correlação coeficientes de associação e coeficiente de concordância e trata a análise de exames para diagnóstico É portanto leitura obrigatória para quem se inicia em pesquisa para quem já é pesquisador e para quem lê resultados das pesquisas E mais importante essa obrigação se revela um prazer intelectual pois é uma dessas publicações cuja leitura desperta ao final a ansiedade agradável da espera por outro livro da autoraEste livro deve ser visto como complemento de outro de nome Introdução à Bioestatística da mesma autora Então tanto os estudantes que se iniciam em Estatística como aqueles que já se profissionalizaram na área verão que este livro é útil como texto e como material de referência Escrito para não estatísticos que já tenham tido algum curso dessa matéria é didático fácil de ler e explora o uso efetivo de técnicas estatísticas na solução de problemas usando exemplos publicados na área de saúde em geral mas especialmente em Medicina e em Odontologia O livro reflete os muitos anos de ensino e assessoria da autora na área de Estatística Os numerosos exemplos do texto fazem o estudante trabalhar com dados retirados de uma grande variedade de situações da vida real Mas o livro busca desenvolver a capacidade de julgamento e não apenas ensinar o aluno a aplicar testes mecanicamente Para isso explica a teoria depois ensina a resolver um problema e apresenta vários exemplos No final de cada capítulo são dados exercícios todos com respostas De início o livro trata os muitos tipos de dados que podem ser coletados na área da saúde Explica como interpretar testes de hipóteses e como interpretar os intervalos de confiança Depois apresenta as tabelas de contingência e os diversos testes envolvidos na análise e interpretação de tais dados Explica então os testes não paramétricos atualmente muito usados em artigos especializados Ainda apresenta coeficientes de correlação coeficientes de associação e coeficiente de concordância e trata a análise de exames para diagnóstico Compre agora e leia GUYTON HALL TRATADO DE FISIOLOGIA MÉDICA TRADUÇÃO DA 13ª EDIÇÃO JOHN E HALL Guyton E Hall Tratado De Fisiologia Médica Hall John E 9788535285543 1176 páginas Compre agora e leia A 13ª edição do Guyton Hall Tratado de Fisiologia Médica mantém a longa tradição deste bestseller como o melhor livrotexto de Fisiologia Médica do mundo Diferentemente de outros livros este guia claro e de fácil compreensão tem voz autoral única e consistente e ressalta o conteúdo mais relevante para os estudantes clínicos e préclínicos O texto detalhado porém esclarecedor é complementado por ilustrações didáticas que resumem conceitoschave em fisiologia e fisiopatologia O texto com fonte maior enfatiza a informação essencial sobre como o corpo deve manter a homeostasia de modo a permanecer saudável ao mesmo tempo em que as informações de apoio e os exemplos são detalhados com tamanho de fonte menor e destacados em lilás As figuras e tabelas de resumo transmitem de maneira facilitada os processos chave apresentados no texto Contém a nova tabela de referência rápida de valores laboratoriais padrão no final do livro Acréscimo do número de figuras correlações clínicas e mecanismos moleculares e celulares importantes para a medicina clínica Inclui o conteúdo online em português do Student Consult que oferece uma experiência digital aprimorada banco de imagens referências perguntas e respostas e animações Junto com a nova edição da consagrada referência mundial da fisiologia Guyton Hall você também tem acesso à forma mais inovadora simples visual e objetiva de aprender fisiologia o Homem Virtual a maneira inteligente de estudar fisiologia em 3D Compre agora e leia TRATADO DE GINECOLOGIA FEBRASGO Editores Édgar Eduardo Ferreira e Matheus Felipe Silva de Sá Autores Angélico Lopes da Silva Filho Leandro de MeloPinto Reginaldo Brasilia Machado Jorge Pedrosa Tratado de ginecologia Febrasgo Fernandes César Eduardo 9788535292145 1024 páginas Compre agora e leia Obra referência para as provas da especialidade certificação e recertificação na área de Ginecologia e Obstetrícia Chancela Febrasgo Obra referência para as provas da especialidade Compre agora e leia TRATADO DE OBSTETRICIA FEBRASGO Editores Édgar Eduardo Ferreira e Matheus Felipe Silva de Sá Colaboradores Camila Maria Lima Eduardo Cordas Dorna Barros de Moura Tavares Tratado de obstetrícia Febrasgo 9788535292213 1024 páginas Compre agora e leia Domine o conteúdo da ginecologia e obstetricia e passe nas provas da sociedade com o novo tratado da Febrasgo um texto de referência para esta importante área Chancela Febrasgo Referência para as provas da especialidade certificação e recertificação Compre agora e leia Miller Anestesia Perguntas e Respostas Lorainne M Sdrales Ronald D Miller TRADUÇÃO DA 3ª EDIÇÃO Miller Anestesia Perguntas e Respostas Sdrales Lorraine M 9788535291537 544 páginas Compre agora e leia Millers Anesthesia Review é um guia de estudo que permite avaliar seus conhecimentos para se preparar para a prova de título possui mais de 3800 perguntas e respostas comentadas sobre os diversos temas Aborda de diversas formas a distribuição da anestesia em vários contextos de acordo com o estado do paciente da doença praticamente em quase todos os capítulos os autores do livro Bases da Anestesia são os mesmos para o perguntas e respostas possui mais de 3800 perguntas e respostas comentadas sobre os diversos temas Serve para facilitar a aprendizagem e a retenção de conceitos fundamentais de anestesia que são necessários para uma sólida base de conhecimento e competência clínica Compre agora e leia

Sua Nova Sala de Aula

Sua Nova Sala de Aula

Empresa

Central de ajuda Contato Blog

Legal

Termos de uso Política de privacidade Política de cookies Código de honra

Baixe o app

4,8
(35.000 avaliações)
© 2025 Meu Guru®