·
Cursos Gerais ·
Bioestatística
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
Texto de pré-visualização
Camila Sachelli Coord Universidade Presbiteriana Saúde Pública Modalidade a distância Bioestatística 3 Produção editorial Nome Sobrenome Projeto e diagramação Nome Sobrenome Dados Internacionais de Catalogação na Publicação CIP Câmara Brasileira do Livro SP Brasil Nonononononono NOnononononononononononno non on ono no nnon ono nononnonnonnononnono ISBN 00000000000000 1 Estudo e ensino I Título II Série 00000000 CDD0000 Índices para catálogo sistemático 1 Estudo e ensino 4207 Nononononononono Bibliotecária CRB00000 2021 Universidade Presbiteriana Mackenzie Todos os direitos reservados à Universidade Presbiteriana Mackenzie Nenhuma parte desta publicação poderá ser distribuída ou substituída por qualquer meio ou forma sem a prévia autorização Universidade Presbiteriana Rua da Consolação 930 São Paulo SP CEP 01302907 T el 11 21148000 wwwmackenziebr Apresentação do componente curricular 4 TRILHA 1 Principais conceitos em bioestatística 5 TRILHA 2 População e cálculo amostral 13 TRILHA 3 Tipos de variáveis 23 TRILHA 4 Medidas de tendência central e de dispersão separatrizes 32 TRILHA 5 Noções sobre testes de hipóteses e significância estatística 43 TRILHA 6 Distribuição normal e o teste do quiquadrado 52 TRILHA 7 Testes estatísticos paramétricos 63 TRILHA 8 Aplicação da Bioestatística na pesquisa clínica 72 Sumário Apresentação do componente curricular Bioestatística é nome que se dá ao uso da estatística aplicada a dados biológicos Já a estatística é a parte da matemática aplicada que fornece métodos para coleta organização descrição análise e interpretação de dados para que então seja possível tirar conclusões e tomar decisões acerca de um fenômeno de estudo Neste componente curricular o alu no entenderá todas essas etapas da estatística que são absolutamente necessárias para aplicação e entendimento da ciência contemporânea ou seja conhecimento produzido a partir de dados matemáticos Para ter uma clara noção da relação entre dados biológicos e a ma temática é preciso entender a origem da estatística Tal origem se deu justamente para contornar uma das características mais fundamentais das ciências naturais a variação entre indivíduos A premissa básica da seleção natural é de que indivíduos variam entre si e essa variação é definida pelo genoma e possui uma herdabilidade Assim como pode mos assegurar por exemplo que determinado tratamento funciona para todos os indivíduos se sabemos que há variação entre eles Uma das primeiras revistas científicas sobre estatística foi a Biometrika criada em 1901 pela Universidade de Oxford e que teve como um dos seus fundadores e editores Karl Pearson responsável por desenvolver testes como o ChiQuadrado e Correlação Linear Como o próprio nome sugere o objetivo da revista que existe até hoje era publicar dados e experimentos sobres métricas biológicas Em linhas gerais surge então a bioestatística ou seja métodos científicos e ma temáticos para estudar e encontrar padrões em fenômenos naturais O que vamos aprender ao longo do componente curricular são os métodos matemáticos e estatísticos usados como ferramenta primordial para o estudo científico na área da saú de Primeiramente conheceremos os con ceitos básicos como população amostra desenho experimental passando para me didas descritivas como média e desviopa drão além de uso de gráficos e tabelas para encerrar com os testes de hipótese testes mais robustos que nos permitirão tirar conclusões sobre uma população de estudo a partir da amostra Bons estudos METAMORWORKSGETTYIMAGES COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 1 Principais conceitos em bioestatística Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem O que é verdade em ciência Esse é o principal conceito que preci samos entender na ciência moderna Quando falamos que um determi nado fenômeno natural acontece ou que um tratamento farmacológico pode ser empregado nas pessoas o quanto temos certeza disso Vamos usar um exemplo e partir daquela premissa básica pessoas são diferen tes pois há sempre variação genética entre os indivíduos Vamos então criar um medicamento para uma doença X Posso criar esse medica mento e testar em uma pessoa apenas Se surtir efeito nessa pessoa é certo que faça efeito em todas as outras Então para garantir que um medicamento uma vacina ou um tratamento fisioterapêutico funcione preciso ter um método científico válido e verificado por pares Como ponto de partida devemos ter uma amostragem bem deli neada para que possamos ter informações suficientes e de qualidade para então realizar os testes estatísticos adequados para cada tipo de conjunto de dados Nesse cenário o importante é que na amostragem nunca obtemos dados de 100 da população de estudo exceto amos tragem do tipo censo Por isso filosoficamente um pesquisador nunca terá a verdade absoluta pois nossos estudos são sempre com base em uma pequena parcela da população Nesta trilha vamos entender os princípios básicos da estatística e a sua importância na produção do conhecimento pois mesmo que não tenhamos certeza por questão puramente filosófica tentaremos che gar bem próximo disso com a escolha da amostragem adequada e com o uso correto dos testes estatísticos Conceitos básicos Sabemos que para produzir qualquer tipo de conhecimento científi co não basta realizar um teste ou um experimento com base em uma ou duas pessoas ou cobaias certo As pessoas e os animais variam ge neticamente e podem responder de modo diferente a um tratamento Assim precisamos realizar o experimento com um número satisfatório de indivíduos para decidir se o fenômeno de estudo é um padrão que poderia ser extrapolado até mesmo para os indivíduos que não fizeram parte do teste Com toda certeza você já tomou algum medicamento ou vacina mas nunca fez parte de um estudo clínico para saber se tal medicação funciona em você ou não Para isso foram feitos testes em animais a princípio depois em pessoas que aceitaram participar de um experimento para então saber que o medicamento é eficaz para a maioria das pessoas e não é mero fruto do acaso A amostra é uma fração ou parte de uma população de estudo Uma população não necessariamente se refere à população humana mas sim àquilo que você quer estudar podendo ser pessoas objetos ani mais plantas bactérias enfim qualquer coisa Uma população é por tanto um conjunto de unidades individuais que tenham uma caracte rística em comum ou seja aquilo que se deseja estudar Com base na amostra todo estudo estatístico é realizado Nesse pon to definimos o que é a inferência estatística quando tomamos uma decisão sobre a população de estudo com base na amostra Entretanto uma série de etapas precisa ser realizada para chegarmos a esse ponto Vamos definir a seguir essas etapas porém elas serão retomadas a todo momento ao longo do componente curricular Uma boa amostragem garantirá bons dados para serem analisados Lembrese de que para maus dados não há boa estatística Não basta coletar dados e esperar que eles respondam uma pergunta que você nunca fez Isso é o chamado método de pesca isto é jogase a isca e quem sabe se pesca alguma coisa Isso nunca deve ser feito Um dos nomes mais importantes da estatística e da ciência foi Ronald Aylmer Fisher que estabeleceu de maneira muito precisa o chamado desenho experimental Isso significa que para responder uma questão em ciência você deve desenhar seu experimento de modo que obtenha os dados corretos para responder aquela pergunta Então toda amos tragem deve ter foco e ter muito claro qual é o objetivo da pesquisa O tamanho amostral indicado será sempre relativo à cada objeto de pesquisa e será discutido em momentos específicos O que devemos TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 7 entender agora é que a amostragem está sempre relacionada à popu lação de estudo Por exemplo Foram coletadas informações de tipa gem sanguínea de 350 crianças de 5 a 10 anos residentes da cidade de Goiânia Goiás Qual é a amostra e qual é a população de estudo A amostra são 350 crianças já a população de estudo são crianças de 5 a 10 anos residentes da cidade de Goiânia Goiás Logo quaisquer conhecimentos que tenham sido obtidos com base nessa amostra e que possam ser extrapolados para a população irá se referir às crianças de 5 a 10 anos de Goiânia Goiás O conhecimento produzido sobre tipagem sanguínea pode ser usado para todas as crianças Não Para todas as crianças de 5 a 10 anos Não Para todas as crianças de 5 a 10 anos residentes da cidade de Goiânia Sim É claro que trataremos de representatividade e técnicas de amostragem mas vamos considerar que as crianças foram sorteadas ao longo de toda a cidade de Goiânia No exemplo anterior a variável de estudo é a tipagem sanguínea um conjunto de resultados possíveis de um fenômeno Então nesse caso podemos ter os quatro tipos sanguíneos A B AB e O Veja o que são esses resultados possíveis do fenômeno de estudo Podemos cole tar também as idades em anos das crianças Dentro do nosso desenho experimental as idades possíveis são crianças de 5 6 7 8 9 ou 10 anos Assim temos dois tipos de variáveis uma variável categórica e uma variável numérica respectivamente Os tipos de variáveis serão tratados em uma trilha específica pois dependendo do tipo teremos diferentes modos de apresentar os dados gráficos e testes estatísticos apropriados Definidas a amostra população e variável coletamos então os dados de uma variável de estudo dentro de uma amostra específica e esta é representativa da população Depois de coletadas as informações das variáveis de estudo devemos iniciar as análises dentro da chamada es tatística descritiva Essa é a primeira fase das análises que irão justa mente descrever todo o conjunto de dados no entanto não podemos tirar nenhuma conclusão sobre a variável de estudo Ainda Dentro da análise descritiva faremos cálculos matemáticos como média desviopadrão e também apresentar os dados em gráficos e tabelas adequadas Nesse ponto há um conceito extremamente im portante Uma média por exemplo é um cálculo matemático que é um resumo numérico do conjunto de dados da amostra Se ao exe cutar toda a análise descritiva encontrarmos algumas características apropriadas podemos considerar essa média um resumo numérico do conjunto de dados mas para a população esse conceito é chamado de parâmetro Toda uma família de testes estatísticos é baseada nes se conceito chamada de testes paramétricos Logo chegaremos a esse ponto TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 8 Quando encontrarmos essas características específicas nos conjun tos de dados coletados e as considerarmos parâmetros então entra remos na chamada Estatística Inferencial tirar conclusões para a população de estudo com base na amostra O quão certo ou correto eu devo estar ao fazer essa inferência estatística Será que 50 de probabilidade de estar certo Bom 50 seria um cara e coroa Em ciência devemos ser mais precisos correto Será que 80 O que automaticamente significa que você teria 20 de probabilidade de estar errado Parece ainda muito alto Então como grande consenso em ciência costumamos trabalhar com 95 ou 99 de probabilida de de fazer uma inferência válida Vamos trabalhar bem esse conceito na trilha dos testes de hipótese mas os conceitos já são evidentes Primeiro a probabilidade é sempre teórica ou seja não há a tal certe za Segundo a certeza ou a verdade não existem em ciências por essas duas razões Sempre teremos a ideia de probabilidade Segundo por não termos coletado todas as informações possíveis existentes Então palavras como certo errado certeza verdade não devem ser usadas em redação científica combinado Amostra população e inferência Vamos buscar entender melhor ao ler trabalhos acadêmicos como devemos interpretar a relação amostra e população de estudo e de pois como são interpretados os resultados Uma das grandes vantagens na redação científica em trabalhos acadêmicos é que há um padrão na maneira de escrever os métodos e os resultados Vamos desde já com binar que nossa escrita deve seguir esse padrão científico assim como aprendemos qualquer técnica em uma graduação ou pósgraduação Vamos rever um ponto ao trabalhar na redação e no método cien tífico A palavra método vem do grego methodos que é derivado de metá met depois ou que segue e hodós caminho isto é significa literalmente seguir um caminho Então tudo o que lemos e escreve mos na secção de métodos em um artigo científico deve servir para que uma pessoa ao ler não fique com dúvida de absolutamente nada e possa repetir os mesmos procedimentos metodológicos que você e chegue aos mesmos resultados já que ambos seguem o mesmo ca minho Assim não podemos apresentar um dado um resultado ou um gráfico sequer e não ter dito como e por que fizemos tal coisa Ou seja um gráfico não pode ser apresentado nos resultados sem ter sido dito por que e como o fizemos detalhadamente Você gostaria de ao ler os TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 9 resultados de um artigo científico se deparar do nada com um resul tado sem ter sido dito como esse resultado foi gerado Não lhe traria dúvida Então não podemos cometer esse tipo de erro Aqui vamos lançar um desafio Leia ao menos cinco artigos cientí ficos de um tema da área da saúde de que você goste e tente identi ficar os pontos trabalhados nesta trilha e os tais padrões que estamos começando a entender Antes de tudo precisamos estar de acordo com o fato de que nenhum artigo científico lhe ensinará estatística Todo e qualquer trabalho acadêmico parte do pressuposto de que o leitor tenha a habilidade e o conhecimento estatístico por isso esse com ponente curricular é extremamente importante uma vez que sem ele não sabemos ler um artigo científico por completo Nesse desafio pela busca de artigos científicos procure em buscado res científicos válidos como PubMed Scielo ou Google Acadêmico Busque também por artigos experimentais ou seja não um artigo de revisão ou pesquisa documental pois estes dificilmente terão a parte estatística que estamos procurando Vale ressaltar que a qualidade das revistas acadêmicas pode variar bastante e você deve começar a se preocupar com isso Além disso não tenha medo de ler artigos em in glês pois o fato é que esse idioma se tornou quase regra em ciências tanto que muitas revistas brasileiras aceitam apenas artigos em inglês Ao ler os métodos nos artigos primeiro será detalhada a amostra gem Na próxima trilha vamos trabalhar os diferentes tipos de amos tragem mas no geral os artigos dirão de forma muito clara como foi realizada a amostra e automaticamente entenderemos qual é a popu lação de estudo Já vimos um exemplo mas vamos a outro desta vez hipotético Foram selecionados 160 atletas de um clube esportivo da cidade de São Paulo que aceitaram participar do estudo Os atletas ti nham entre 18 a 25 anos de idade homens e mulheres sem relato de doenças crônicas considerados portanto saudáveis Qual é a popula ção de estudo e qual é a amostra No exemplo anterior temos que a população de estudo são atletas saudáveis de 18 a 25 anos de um clube esportivo da cidade de São Paulo A amostra são os 160 participantes E agora Como será a in terpretação dos resultados desse estudo Complementando na secção métodos Os participantes foram separados em dois grupos um grupo que recebeu um complemento vitamínico e outro que recebeu place bo ou seja uma cápsula sem nenhum princípio ativo Foram avaliados os recordes pessoais em tempo de cada participante na sua modalidade esportiva antes de começarem a receber o complemento vitamínico e depois de três meses foi avaliado se os recordes pessoais diminuíram há vários detalhes que não foram tratados aqui mas que ainda poderão ser trabalhos nas próximas trilhas Para acessar os buscadores acesse os seguintes links PUbMed httpspubmed ncbinlmnihgov Scielo httpswwwscielo brlngpt Google Acadêmico httpsscholargooglecom br TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 10 Você pode se perguntar será que os atletas não melhoraram seus respectivos tempos apenas porque se passaram três meses que estão treinando Ótima reflexão E é justamente isso que retrata a estatística tentar obter dados e resultados que diminuam o máximo possível de in fluências externas daquilo que se está testando Exatamente por essa razão a execução do experimento foi feita em dois grupos Se os dois grupos melhorarem significa para essa população de estudo que o com plemento vitamínico não teve efeito nos recordes pessoais dos atletas Como será a descrição dos resultados neste nosso exemplo Vou escrever de forma ainda superficial para completarmos o desafio desta trilha no entanto palavras como significativo ou significativamen te devem aparecer na leitura assim como p005 ou p5 Esses termos merecem um estudo mais aprofundado nas próximas trilhas Contudo vamos aos resultados Ao final do experimento houve me lhora nos recordes pessoais dos atletas que tomaram o complemento vitamínico em relação aos participantes que não o tomaram Vamos estudar melhor a probabilidade no futuro mas será que esse resultado significa que o complemento funcionou em todos os atletas que toma ram o complemento vitamínico Não Será que não houve atletas que tomaram placebo e que melhoraram seus tempos Sim Por que essas respostas Porque há variação entre as pessoas mas o que buscamos é o padrão Assim houve diferença no grupo como um todo e não nos atletas analisados individualmente E por fim o complemento vitamí nico funciona para todos os atletas Não Funciona para atletas saudá veis de 18 a 25 anos de um clube esportivo da cidade de São Paulo E por que não podemos extrapolar para todos os atletas saudáveis Porque não foram amostrados atletas saudáveis de outras idades E por que não podemos extrapolar para todos os atletas saudáveis de 18 a 25 anos Porque não foram amostrados atletas saudáveis de 18 a 25 anos em vários clubes esportivos ao longo do Brasil ou mesmo de toda a cidade de São Paulo A inferência estatística reportada deve ser seguida rigorosamente na redação científica mas na prática isso significaria que o complemento vitamínico poderia ser usado por atletas para melhorar a performance nos seus esportes Sim É claro que várias etapas seriam necessárias até tal recomendação e liberação desse complemento vitamínico mas a grande lógica da estatística é essa Não é preciso testar tudo em todas as pessoas do mundo A estatística e os métodos científicos estão aí para isso assegurar que algo funcione em uma probabilidade acei tável em até mesmo quem nunca participou de um estudo Então por isso tomamos vacinas medicamentos temos tais modos e estilos de vida não devemos fumar cigarro e consumir excessivamente diferentes produtos O conhecimento produzido na ciência irá e deve ser usado por toda a sociedade essa é a finalidade da estatística e da ciência TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 11 Síntese Vimos os conceitoschave de toda a estatística Nesse momento veja se conseguiu refletir sobre o que é Verdade em ciências Vimos também que a estatística é empregada para contornar o inerente fato que as pessoas ou os organismos são diferentes apresentan do alta variabilidade Entendeu os conceitos de amostra e popula ção Observamos que a amostra deve ser muito bem pensada com foco na pergunta que se quer responder que ela é representativa da população e que as conclusões sobre uma população devem cuidado samente interpretadas e redigidas Referências ARANGO h G Bioestatística teórica e computacional 3 ed Rio de Janeiro Guanabara Koogan 2009 BERQUÓ E SOUZA J GOTLIEB S Bioestatística 2 ed São Paulo EPU 1981 BUSSAB W O MORETTIN P A Estatística básica 5 ed São Paulo Saraiva 2005 CALLEGARIJACQUES S M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 DíAZ F R LÓPEZ J B Bioestatística São Paulo Pioneira Thomson Learning 2007 PAGANO M GAUVREAU K Princípios da bioestatística São Paulo Thomson 2004 VIEIRA S Introdução à bioestatística São Paulo Pioneira Thomson Learning 2005 TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 12 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 2 População e cálculo amostral Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem A presente trilha tratará sobre população e como faremos sua amos tragem Talvez essa seja a etapa mais importante em um estudo esta tístico pois caso esta seja mal dimensionada ou mal planejada o estu do não conseguirá responder à sua pergunta Simples assim Na trilha anterior vimos também que para dados ruins não há boa estatística Vimos que a amostra deve ser representativa da população e como a redação científica garante ao leitor a interpretação sobre a população de estudo Ou seja muitos artigos científicos não dizem claramente a população de estudo é mas relatam detalhadamente a amostra gem e logo entendemos qual é a população do estudo Então vamos aprender como fazer uma boa amostragem principalmente com foco no objetivo da pesquisa Amostragem Sabemos o que é população mas quanto eu devo amostrar dessa população de estudo Essa pergunta é fácil de responder não há um número certo ou um número mágico Isso porque há uma série de fa tores que podem definir como será sua amostra dentro do contexto de cada estudo Ao estudar os testes e cálculos estatísticos vamos enten der que existe sim uma premissa básica do tamanho amostral quanto maior o número da amostra melhor é Isso porque quanto maior o tamanho da amostra menor será o erro associado a uma tomada de decisão Entretanto há ressalvas sobre essa afirmação será que preciso amostrar muito Por exemplo 500 mil pessoas O projeto tem tempo e financiamento para tudo isso A Estatística serve justamente para isso Talvez não seja preciso coletar tanto assim e há um número razoável para realizar estudos excepcionais Vamos definir que tamanho amos tral pode ser referido apenas como o símbolo n ou namostral ok Um primeiro ponto sobre o tamanho amostral é sabemos qual é o tamanho da população de fato Por exemplo um estudo pretendia ava liar a pressão sanguínea sistólica de pacientes de 40 a 50 anos de idade que deram entrada nos hospitais públicos da cidade do Rio de Janeiro durante o ano de 2018 Se o estudo foi idealizado anteriormente a essa data é óbvio não há como saber qual seria o namostral Se forem utilizados os prontuários dos hospitais o pesquisador até pode usar todos os dados disponibilizados mas será que teria tempo e precisaria de todos os prontuários Talvez apenas uma fracção desses prontuários seja suficiente No caso anterior a população e a amostra de estudo poderiam ser realmente grandes Mas em casos mais restritos Por exemplo um estudo pretendia avaliar pacientes com uma síndrome rara no ano de 2019 na cidade de Campinas e que aceitem fazer um ensaio clínico com um determinado tratamento Quantos pacientes teríamos para esse estudo Se tivermos apenas oito pacientes dessa síndrome rara seria indicado não fazer o estudo Se não fizermos esse estudo pela limitação amostral continuaremos não tendo informações e conheci mentos sobre síndrome rara Vocês devem concordar que o estudo deve ser feito mas é claro que toda a análise estatística irá ser condi zente a esse n Embora seja difícil definir o número amostral há alguns cálculos e sugestões que podem ser usados e novamente não há uma regra Algumas sugestões serão mais bem compreendidas nas trilhas futuras e em muitos casos só saberemos se os dados coletados poderão ser TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 15 usados em determinados testes estatísticos após a análise exploratória para verificar se o seu conjunto de dados apresenta ou não determina do padrão Vale lembrar que a escolha da técnica de amostragem e o desenho experimental é mais importante que focar apenas em aumen tar o tamanho amostral Ou seja não adianta ter um grande número amostral se o desenho experimental não controla as variáveis que você quer estudar Assim vamos tratar dos cálculos do tamanho amostral e em seguida das técnicas de amostragem e do desenho experimental Veja a seguir uma equação que podemos usar para o cálculo do ta manho da amostra Nesse caso sabemos qual é o tamanho da popula ção e vamos padronizar alguns valores para não ficar muito abstrato 1 1 1 2 2 2 n N z p p z p p e N Onde n tamanho da amostra N tamanho da população z zscore variável normalizada vamos definir 196 que é usado para um intervalo de confiança de 95 e erro amostral em fração decimal vamos definir 5 ou seja 005 p probabilidade do evento em fração decimal vamos definir que o evento pode ser de 50 ou seja 05 Vamos exemplificar e calcular o tamanho amostral para uma popu lação com 750 pessoas Tente fazer o cálculo matemático apresentado anteriormente você chegará no resultado aproximado de 255 Neste caso consideramos que um evento de estudo teria a probabilidade de ocorrer em 50 Usamos esse padrão pois talvez não seja ainda conhe cida a probabilidade de ocorrer uma doença por exemplo Caso essa probabilidade já seja conhecida a amostragem se tornará mais precisa Outra fórmula mais simples seria a fórmula de Slovin 1 2 n N N e Onde n tamanho da amostra N tamanho da população e erro amostral em fração decimal vamos definir 5 ou seja 005 Ao calcular o tamanho amostral para uma população com o mesmo tamanho de 750 pessoas você deverá chegar a um valor aproximado de 260 TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 16 Outras sugestões são baseadas em testes que calcularemos em bre ve Quando calcularmos a média e o respectivo intervalo de confiança que seria a precisão da média populacional o n que aumenta a precisão desse cálculo é de 30 Então esse seria um valor razoável quando que remos comparar médias Em testes de hipótese uma das premissas básicas é que o conjunto de dados apresente distribuição normal Vamos estudar o que é distri buição normal mas explicando em poucas palavras é quando os dados apresentam um determinado padrão que possibilita calcular a proba bilidade de qualquer evento Por exemplo a medida de colesterol de um conjunto de dados apresentou distribuição normal com média de 114 mgdl qual seria a probabilidade de uma pessoa dessa população apresentar colesterol acima de 150 mgdl Nessa situação apenas sa beremos se o padrão foi encontrado após a coleta de dados o que difi culta saber qual seria o namostral que deveríamos ter coletado Aqui novamente quanto maior o namostral maior a chance de encontrar esse padrão Nesse caso namostrais abaixo de 30 ou 50 dificilmente apresentarão o padrão desejado mas isso não é uma regra vai depen der da natureza da variável estudada Técnicas de amostragem e desenho experimental Amostragem nada mais é do que o procedimento para a escolha dos elementos que irão compor a sua amostra Você deve estar imaginan do qual seria a forma de escolher as 255 pessoas para o meu estudo Sabemos que nós seres humanos somos altamente influenciáveis in clusive de modo inconsciente Então imagine que você tenha disponí vel 750 pessoas para o seu estudo Se você for escolher pode ser que o seu subconsciente queira selecionar pessoas mais saudáveis ou pessoas que concordarão com sua hipótese do estudo Assim a forma mais se gura é sempre a aleatorização ou simplesmente sorteio Nesse caso o pesquisador não sofrerá qualquer influência sendo portanto imparcial na amostragem e a seleção será ao acaso Na amostragem aleatória ou casual os elementos são retirados ao acaso a partir da população Isso não significa que você irá sortear os participantes do seu estudo sem nenhum critério Vale lembrar que a sua população deve ser definida por você e a partir dos critérios que você definiu para sua a população e com base no seu desenho expe rimental deve sortear os participantes do seu estudo Por exemplo TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 17 vamos selecionar 300 pacientes de modo aleatório que entraram na UTI por Covid19 em um determinado hospital particular no ano de 2022 sendo 150 homens e 150 mulheres Veja que a população do estudo foi definida e foram separados em dois grupos por gênero que gostaríamos de comparar No entanto o fato é que os pacientes foram sorteados dentre os tantos pacientes da população A amostragem sistemática é o tipo de amostragem em que os ele mentos são selecionados de acordo com um sistema definido pelo pes quisador Pode ser um sorteio sequencial a partir de uma ordenação natural da variável ou da população Por exemplo os prontuários de pacientes em uma clínica de fisioterapia são ordenados de modo alfa bético então você pode sortear um número de 1 a 10 e a partir desse número sorteado selecionar o décimo prontuário a partir do último Veja que você criou um sistema de amostragem e que não tem influên cia na escolha dos elementos há também a amostragem por conveniência na qual os elementos são selecionados simplesmente porque o pesquisador dispunha dos da dos É um método de amostragem mais flexível mas é muito usado nas pesquisas científicas A grande ressalva é que as conclusões do estudo se limitarão a uma população do estudo também menor Um exemplo seria um educador físico que já trabalha dentro de um clube ou em um time de algum esporte e ele irá selecionar cem participantes que fre quentam o clube Nesse caso a população e as conclusões se limitarão à população de frequentadores do clube Desenho experimental Independentemente da técnica a amostragem deve estar sempre relacionada ao seu objetivo Ou seja o desenho experimental é todo o procedimento que o pesquisador irá realizar visando responder à per gunta científica do estudo Imagine que um farmacêutico queira testar a hipótese de que um fitoterápico reduza triglicerídeos nas pessoas Então ele seleciona 10 participantes que irão tomar o fitoterápico por 60 dias Como ele sa berá que foi o fitoterápico que reduziu os triglicerídeos Apenas 10 participantes seriam suficientes nesse caso E se as 10 pessoas já es tavam fazendo algum tratamento Será que não seria o caso de com parar com outras pessoas que tomariam um placebo Então entramos nos conceitos de tratamento versus controle Figura 1 Geralmente o tratamento é aquilo que se pretende testar e o controle é um placebo ou tratamento já utilizado ou conhecido TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 18 Controle Tratamento Outro conceito extremamente importante é o de repetição ou ré plica Você deve concordar que executar um experimento com uma pessoa é muito pouco em virtude da variabilidade intrínseca dos or ganismos vivos Já discutimos isso e também em relação ao número amostral Assim repetição é executar um tratamento ou um experi mento repetindoo em diferentes unidades amostrais Figura 2 O pesquisador pode querer comparar também diversos tratamentos Por exemplo um grupo de participantes será dividido em três grupos para receber três diferentes concentrações de um princípio ativo de um fármaco Essa divisão deverá ser sorteada para reduzir novamente a influência do pesquisador Figura 3 Sorteio Tratamento A Tratamento B Tratamento C Figura 1 Esquema de um experimento de controle versus tratamento Fonte elaborada pelo autor Figura 2 Esquema de repetições de unidades experimentais Fonte elaborada pelo autor Figura 3 Esquema de um experimento ao acaso Fonte elaborada pelo autor TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 19 A sugestão na divisão entre os grupos é sempre que tenham o mes mo número de repetições ou réplicas mas isso nem sempre é possível Por exemplo em um teste com colônias de bactérias em placas de petri pode acontecer de quebrar ou não dar certo uma ou algumas repetições Em testes com ratos ou cobaias algumas unidades amos trais podem morrer ou não desenvolver a indução de uma doença por exemplo Nesses casos você acredita que todo o experimento deve ser refeito desde o início Não Os testes estatísticos a serem empregados irão considerar esse não balanceamento entre os grupos E sim pode acabar sendo um teste menos forte mas com certeza não é o fim do mundo e os testes garantirão bons resultados Outro desenho experimental extremamente utilizado é quando o pesquisador quer avaliar dois fatores ao mesmo tempo Então primei ro há uma separação em blocos e depois cada bloco recebe os tra tamentos do estudo Figura 4 Por exemplo você gostaria de testar se dois compostos químicos usados como fitossanitários induzem câncer em cobaias e ao mesmo tempo se essa indução seria diferente em cobaias de sexo diferente Nesse caso os dois fatores são os diferentes compostos químicos e o sexo das cobaias Blocos Tratamento A Tratamento A Tratamento B Tratamento B Sorteio Sorteio Outro tipo de pesquisa extremamente forte é o de antes e de pois É forte pelo fato de que a unidade amostral a ser comparada Figura 4 Esquema de um experimento em bloco ao acaso com repetições Fonte elaborada pelo autor TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 20 é a mesma Por exemplo uma indústria alimentícia gostaria de tes tar se um probiótico melhora as condições gastrointestinais dos 60 participantes do estudo Então faz uma avaliação antes do experi mento e outra 30 ou 60 dias depois que os participantes estiverem tomando o probiótico Pode haver pessoas que não melhoraram Claro mas no geral o grupo como um todo irá relatar melhora nas condições gastrointestinais Quando experimentos envolvem aprendizado ou a influência de um teste anterior eles devem ser do tipo rotacional Por exemplo em um teste de um novo equipamento para exercício físico focado nos braços metade dos participantes começará a realizar o exercí cio pelo braço esquerdo e metade pelo braço direito depois eles invertem Por que disso Caso não haja esse tipo de rotação pode se ter como resultado que o novo equipamento é melhor para o braço esquerdo mas isso talvez seja apenas porque os participantes aprenderam a usar o equipamento com o braço direito e depois o fizeram com mais eficiência com o braço esquerdo Outro exem plo seria a degustação de chás para um efeito calmante sendo que nestes há cinco compostos que dão um sabor diferente a eles Qual teria melhor aceitação Então um participante irá tomar o chá nú mero 1 depois o 2 3 4 e 5 Outro participante irá começar pelo 3 depois o 1 5 4 e 2 E assim sucessivamente vários participantes terão degustado os chás em ordem diferente Imagine se todos os chás fossem degustados sempre na mesma ordem Será que sempre o primeiro não seria a escolha mais comum entre os participantes simplesmente pelo fato de estarem com o paladar limpo ou ainda com mais sede no momento Veja como é importante delimitar ao máximo as influências de um estudo há ainda os experimentos chamados de duplamente cego Nesse tipo de estudo o participante não sabe se está recebendo o trata mento ou um placebo nem quem está coletando os dados sabe em que grupo determinado participante está incluso Isso porque é possí vel que até mesmo quem anota ou coleta os dados poderia influenciar e querer arredondar o número para cima do grupo do tratamento por exemplo Outro exemplo são as análises com alguma subjetividade como uma contagem de ovos de parasitas nesse caso às vezes a dúvida pode ser tendenciosa para o grupo do tratamento Assim os participantes recebem um código e somente no final do estudo o pesquisador faz a associação dos resultados com o código para saber qual é o grupo do estudo de cada participante se é do controle ou do tratado TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 21 Síntese Vimos nesta trilha que a amostragem e o desenho experimental são a parte mais importante de um estudo científico Pensar em tudo o que pode influenciar o resultado da sua pesquisa e como excluir ou delimitar essas influências é o que garantirá que seu estudo será bem realizado Quando entendemos qual é a pergunta do seu estudo e qual variável você irá coletar a escolha dos testes estatísticos virá como consequência disso tudo Referências ARANGO h G Bioestatística teórica e computacional 3 ed Rio de Janeiro Guanabara Koogan 2009 BERQUÓ E SOUZA J GOTlIEB S Bioestatística 2 ed São Paulo EPU 1981 BUSSAB W O MORETTIN P A Estatística básica 5 ed São Paulo Saraiva 2005 CAllEGARIJACQUES S M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 DÍAZ F R lÓPEZ J B Bioestatística São Paulo Pioneira Thomson learning 2007 PAGANO M GAUVREAU K Princípios da bioestatística São Paulo Thomson 2004 SAlSBURG D Uma senhora toma chá Como a estatística revolucionou a ciência no século XX Rio de Janeiro Zahar 2009 VIEIRA S Introdução à bioestatística São Paulo Pioneira Thomson learning 2005 TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 22 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 3 Tipos de variáveis Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem Nesta trilha entenderemos os tipos de variáveis Os conceitos dos tipos de variáveis são muito simples mas extremamente importantes na prática pois todo o pensamento estatístico está baseado em saber reconhecer qual é o tipo de variável que você está estudando Cada tipo de variável tem um modo de apresentação dos dados em tabelas e gráficos e as relações entre os tipos de variáveis vão definir qual teste estatístico deverá ser empregado Tipos de variáveis Variável é o conjunto de resultados possíveis de um fenômeno e pode ser definida como a característica de um conjunto de elementos população ou amostra De maneira simples é aquilo que você está estudando São exemplos de variáveis peso comprimento tipo sanguí neo taxa de colesterol escolaridade atividade profissional glicose no sangue nível de cortisol Enfim basicamente é o que o pesquisador irá coletar dentro do seu desenho experimental e do seu objetivo Um ponto extremamente importante na estatística é que nosso pen samento científico está baseado na variável de interesse Mas o que isso quer dizer Nossas perguntas científicas são sempre pensadas nas variáveis e não nos números Quando iniciamos um projeto de pesquisa não temos os dados para fazer as contas matemáticas concordam O que de fato temos A variável que iremos estudar As variáreis que serão relacionadas com outras Depois que pensamos nisso aí então é que vem a coleta dos dados e somente depois a análise estatística em si Conceitualmente temos dois principais tipos de variáveis variável nu mérica ou quantitativa e variável categórica ou qualitativa Uma variável quantitativa é aquela que pode ser expressa numericamente como peso em quilogramas Já uma variável qualitativa é aquela que é expressa por uma categoria ou informação por exemplo se a pessoa fuma ou não Para entendermos a diferença podemos exemplificar com a variável al tura que pode ser uma variável quantitativa se a altura dos indivíduos for anotada em metros mas também qualitativa se as anotações forem feitas em categorias como alto médio ou baixo Uma maneira muito sim ples de saber identificar esses dois tipos é a forma de anotar Imaginese coletando as informações Se você anotar um número a variável é quan titativa se anotar com um texto a variável é qualitativa Quando usaremos uma variável quantitativa ou qualitativa Isso está diretamente relacionado com o objeto da pesquisa mas vale uma sugestão no caso de variáveis que podem ser coletadas tanto como quantitativas como qualitativas sempre escolha coletar de modo quan titativo e se for necessário é possível fazer a categorização depois Por exemplo você está coletando o Índice de Massa Corpórea IMC de 30 participantes e no momento da coleta anotou peso normal sobrepeso abaixo do peso etc No entanto depois você definiu que gostaria de saber a média do IMC dos participantes desse modo você não conseguirá tirar a média se anotou apenas as categorias Mas o contrário é possível você anota o valor do IMC dos participantes tira a média e depois categoriza caso precise TrIlhA 3 TIPOS DE VArIáVEIS 25 A variável do tipo quantitativa pode ser subdividida em contínua ou discreta e a variável qualitativa pode ser subdividida em nominal ou or dinal Figura 1 Variável quantitativa contínua é aquela que pode ser mensurada e que qualquer valor pode ser assumido dentro de uma es cala contínua Geralmente são medidas por meio de um instrumento por exemplo peso balança comprimento régua tempo relógio etc Já uma variável quantitativa discreta é aquela em que apenas valores inteiros fazem sentido e geralmente são o resultado de contagens por exemplo número de filhos quantidade de cigarros fumados por dia número de dias na UTI Variável qualitativa nominal é aquela em que as categorias da va riável não possuem uma ordem mas sim uma informação nominal por exemplo sexo cor dos olhos fumantenão fumante doentenão doen te Já na variável qualitativa ordinal as categorias apresentam uma ordem natural por exemplo escolaridade 1ª 2ª 3ª séries estágio da doença inicial intermediário avançado mês de observação janeiro fevereiro dezembro Variável Quantitativa Numérica Contínua Nominal Qualitativa Categórica Discreta Ordinal Aplicações O primeiro passo para sabermos como devemos organizar e tra tar os dados da pesquisa é o modo de inserir os dados coletados na planilha eletrônica como o Excel Para um melhor entendimento e raciocínio sobre as variáveis o ideal é que cada variável do seu estudo fique em uma coluna diferente independentemente se a variável é quantitativa ou qualitativa Figura 2 Dessa forma você será capaz de pensar as relações entre as variáveis há ferramentas no Excel que facilitam os cruzamentos das variáveis mas novamente para isso as variáveis devem estar uma em cada coluna Outra observação impor tante é que em variáveis quantitativas as unidades devem ser indica das no cabeçalho nunca dentro da célula do Excel pois caso contrá rio os valores numéricos serão considerados um texto inviabilizando os cálculos matemáticos Figura 1 Esquema dos tipos e subtipos de variáveis Fonte elaborada pelo autor TrIlhA 3 TIPOS DE VArIáVEIS 26 Figura 3 Frequência absoluta do tipo sanguíneo dos participantes do estudo dados hipotéticos Fonte elaborada pelo autor Figura 2 Exemplo hipotético de dados Fonte elaborada pelo autor Utilizando o exemplo hipotético apresentado na Figura 2 você con segue definir os tipos de variáveis Consegue fazer perguntas relacio nando as variáveis entre si Tenha em mente que a tabela da Figura 2 é uma tabela com os dados brutos ou seja pode ter 100 200 linhas ou muito mais Ninguém irá apresentar uma tabela como essa em um artigo científico ou em um poster de congresso Assim devemos sem pre tratar os dados fazer uma análise exploratória e tentar resumir as informações para passar ao leitor Um resumo simples de variável quantitativa seria a média da altura peso e idade dos participantes Para variáveis qualitativas a contagem das categorias pode ser apresentada em frequência absoluta ou em porcentagem Para essas contagens gráficos de setores ou de barras são recomendados Figuras 3 e 4 Para fazer as contagens de modo rápido explore a ferramenta tabela dinâmica no Excel Frequência absoluta Tipo sanguíneo 35 30 25 20 15 10 5 0 26 23 42 19 A AB B O TrIlhA 3 TIPOS DE VArIáVEIS 27 Figura 5 Frequência absoluta do nível de atividade dos participantes do estudo dados hipotéticos Fonte elaborada pelo autor Figura 4 Frequência relativa da condição de fumante dos participantes do estudo dados hipotéticos Fonte elaborada pelo autor Fumante 46 54 Não Sim A função de qualquer tabela ou gráfico é que a informação seja com preendida pelo leitor de forma rápida Você conseguiu entender os gráfi cos rapidamente É mais rápido do que a planilha com os dados brutos Se sim devemos usar Mas vale lembrar que gráficos possuem uma subje tividade de cores formas até do tipo de gráfico entretanto pode haver erros se você escolher um gráfico que não é adequado ao tipo de variá vel Um cuidado que se deve ter é com variáveis qualitativas ordinais pois nesse tipo a ordem das categorias deve ser respeitada Figura 5 Frequência absoluta Nível de atividade física 40 35 30 25 20 15 10 5 0 36 29 35 Pouco ativo Muito ativo Ativo Você consegue relacionar uma variável quantitativa com uma qua litativa Nesses casos é muito comum relatar as médias de cada ca tegoria da variável qualitativa Figura 6 É possível ainda relacionar uma variável quantitativa com duas variáveis qualitativas Figura 7 A organização dos dados de entrada é muito importante Uma questão relevante é sempre pensar quais informações queremos passar ao leitor antes de sair fazendo os gráficos pois isso lhe garantirá muita autono mia nas suas pesquisas Observe a Figura 7 e responda você conseguiu entender as relações entre as variáveis TrIlhA 3 TIPOS DE VArIáVEIS 28 Figura 7 Média do volume expiratório litros de acordo com a condição de fumante e se teve ou não Covid19 dos participantes do estudo dados hipotéticos Fonte elaborada pelo autor Tabela 1 Número de participantes do estudo de acordo com o sexo e com a condição de fumante dados hipotéticos Fonte elaborada pelo autor Figura 6 Média de idade dos participantes do estudo de acordo com o sexo dados hipotéticos Fonte elaborada pelo autor Idade anos Média de idade 325 32 315 31 305 30 295 Feminino Masculino Volume expiratório Média de volume expiratório 42 415 41 405 4 395 39 385 38 375 Não teve Covid19 Teve Covid19 Fuma Não fuma Podemos fazer ainda o cruzamento de duas variáveis qualitativas e apresentar em tabela o que chamamos de tabela de contingência ou tabela 2x2 Tabela 1 Nada impede também de fazer um gráfico com as respectivas quantidades Fumante Sexo Não Sim Feminino 31 21 Masculino 23 25 Por fim podemos relacionar duas variáveis quantitativas e o gráfi co utilizado é o de dispersão Geralmente nessas situações buscamos encontrar algum padrão de que conforme aumenta a variável no eixo x aumenta também no eixo y Figura 8 A relação inversa também é buscada ou seja conforme aumenta a variável x diminui a variável y TrIlhA 3 TIPOS DE VArIáVEIS 29 Figura 8 Altura versus peso Altura m Altura x Peso 2 19 18 17 16 15 14 40 90 100 80 70 60 50 Peso kg Síntese Vimos nesta trilha os diferentes tipos de variáveis e como podemos relacionálas umas com as outras Para cada tipo de variável há uma forma de apresentar os resultados lembrese de que você deve pensar como o leitor irá receber a informação tentando fazêlo da maneira mais simples possível Para cada relação entre as variáveis apresenta das aqui haverá o teste estatístico apropriado Vamos aprender ainda gráficos estatísticos mais específicos nas próximas trilhas Por ora veja se você conseguiu primeiramente entender todos os gráficos apresen tados e depois tente executálos no Excel Referências ArANGO h G Bioestatística teórica e computacional 3 ed rio de Janeiro Guanabara Koogan 2009 BErQUÓ E SOUZA J GOTlIEB S Bioestatística 2 ed São Paulo EPU 1981 BUSSAB W O MOrETTIN P A Estatística Básica 5 ed São Paulo Saraiva 2005 CAllEGArIJACQUES S M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 TrIlhA 3 TIPOS DE VArIáVEIS 30 DÍAZ F r lÓPEZ J B Bioestatística São Paulo Pioneira Thomson learning 2007 lÓPEZ J B Bioestatística São Paulo Pioneira Thomson learning 2007 PAGANO M GAUVrEAU K Princípios da bioestatística São Paulo Thomson 2004 VIEIrA S Introdução à Bioestatística São Paulo Pioneira Thomson learning 2005 TrIlhA 3 TIPOS DE VArIáVEIS 31 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 4 Medidas de tendência central e de dispersão separatrizes Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem Nesta trilha vamos usar as bases conceituais para a estatística des critiva Média mediana e moda são as principais medidas de centra lidade Entretanto indicar a centralidade de um conjunto de dados não deixa claro como é esse conjunto de dados como um todo Ou seja usar apenas uma média para descrever o conjunto de dados não mostra como são as observações que compuseram essa média Para isso vamos estudar as medidas de dispersão que em suma indicam o quão distantes da média estão as observações Para complementar es sas informações vamos estudar as separatrizes e seu principal gráfico que descreve de maneira mais detalhada todo o conjunto de dados de uma variável Medidas de tendência central e de dispersão separatrizes Medidas de tendência central As medidas de centralidade são as estatísticas mais básicas e simples pois elas descrevem o conjunto de dados de uma variável numérica em um valor central Vamos aprender média mediana moda e média mó vel as principais medidas de centralidade usadas na área da saúde A média é a medida de centralidade mais usada pois indica o centro do conjunto de dados utilizando todos os dados O cálculo da média é a somatória de todos os dados dividido pelo número amostral A fórmula é apresentada a seguir e com o tempo vamos nos habituando com a linguagem matemática 1 1 2 3 4 5 X x n x x x x x x n i n i n A letra x é o símbolo de média amostral A letra grega sigma maiús culo é o símbolo da somatória o n representa que se deve somar até o último valor do conjunto de dados o i significa que se deve substi tuir o i até o n com números inteiros ou seja x1 x2 x3 até xn Assim em toda fórmula que apareça um xi devese substituir pelo valor de cada observação do conjunto de dados A média existe apenas para variáveis quantitativas e seu valor é úni co e da mesma natureza da variável considerada ou seja se a variável é peso em quilogramas a média também será peso em quilogramas Uma das características mais importantes da média é que ela sofre a influência de valores aberrantes ou valores extremos Isso significa que se em um conjunto de dados houver observações com valores muito altos a média acaba subindo e o inverso é verdadeiro A média móvel tornouse muito conhecida com o acompanhamento da Covid19 nos estudos epidemiológicos A média móvel é o cálculo normal da média mas o namostral varia de acordo com o período es colhido Ou seja para um período de 14 dias fazse a somatória do nú mero de novos casos por dia dos últimos 14 dias e divide por 14 Como o próprio nome sugere a média vai se alterando dia após dia Assim a média móvel é um caso apropriado no acompanhamento epidemioló gico ao longo do tempo TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 34 A mediana é o valor que ocupa a posição central de uma série de observações quando estas estão ordenadas de modo crescente ou de crescente Ou ainda o valor que ocupa a posição equidistante dos ex tremos é o valor mais representativo do conjunto de dados logo para achar a mediana você deve ordenar sua variável e encontrar o valor que ocupa a posição central se o número de observações for ímpar há um valor único central que separa o conjunto de dados de forma igual Agora se for par devese fazer uma média dos dois valores centrais para que seja possível separar o conjunto de dados em dois com o mes mo número de observações O erro mais comum é esquecer de ordenar o conjunto de dados Como características a mediana também é da mesma natureza da variável considerada tornase inadequada quando há muitos valores repetidos e principalmente não sofre influência dos valores extremos como a média Assim é fundamental para entender sua variável de estudo fazer o cálculo da média e da mediana O que significa se você encontrar uma média abaixo da mediana O que significa se a média e a mediana forem muito próximas Na primeira situação significa que valores inferiores estariam puxando a média para baixo Já na segunda pergunta significa que seu conjunto de dados é equilibrado A moda nada mais é do que o valor que mais se repete no conjunto de dados Assim o valor que aparece com maior frequência em uma sé rie de observações é o valor mais representativo dentre suas caracte rísticas pode haver conjunto de dados sem moda ou com duas ou mais modas se houver muitas modas no seu conjunto de dados obviamente não será uma boa estatística para resumir sua variável Imagine que você está lendo a informação de que a média de idade dos participantes de um grupo de estudo foi de 34 anos Você conse gue supor como é o conjunto de dados como um todo Agora um se gundo grupo apresentou também uma média de 34 anos Isso significa que as idades dos participantes dos dois grupos do estudo são iguais Que todos os participantes têm 34 anos Então precisamos de outro valor que pode ajudar no entendimento do conjunto de dados e essas são as medidas de dispersão Como regra não se deve fornecer ao lei tor um valor de centralidade sem o acompanhamento de uma medida de dispersão dos dados Medidas de dispersão dispersão ou variabilidade é a diferença observada entre os valores de um conjunto de dados Em linhas gerais são medidas que descrevem o quão variável são as observações que compõem o conjunto de dados Vamos aprender quatro medidas amplitude variância desviopadrão e TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 35 coeficiente de variância A essência de toda a estatística é justamente o conceito de variabilidade das observações em relação a uma média ou a uma reta ou curva seguindo o bom senso o que você acha de um conjunto de dados em que todas as observações estão próximas à média e outro conjunto de dados em que as observações estão muito dispersas ou muito distantes da média Amplitude total é o maior valor menos o menor valor do conjunto de dados É uma medida muito simples mas utiliza apenas os valores extremos Vamos seguir um exemplo de interpretação dois grupos de estudo relatam uma média de densidade mineral óssea no fêmur de 105 gcm2 para 20 participantes em cada grupo A amplitude do pri meiro grupo foi de 025 gcm2 e do segundo grupo foi de 005 gcm2 Você consegue imaginar como é a variação das observações em cada grupo Qual dos grupos tem uma menor variação das observações A variância é a medida de dispersão mais importante na estatística A base para alguns testes de hipótese é justamente o quão dispersas as observações estão da centralidade Vamos entender a fórmula primeiro 1 2 2 s x x n i Onde s2 é o símbolo da variância amostral xi é o valor de cada observação até n x é a média amostral n é o número de observações Então imagine que você tem um n de 20 observações Você deve primeiro calcular a média depois subtrair cada valor do valor da média Essa diferença é o que chamamos de desvio ou seja quanto cada valor se desviou da média Fazendo isso para as 20 observações você terá os 20 desvios Como a média é a centralidade você terá desvios positivos e desvios negativos certo Assim se somarmos todos os desvios o va lor final será zero pois os valores positivos anulam os valores negativos Para resolver esse problema a solução da fórmula é elevar cada desvio ao quadrado tirando assim os valores negativos depois é só somar e dividir por n1 ou seja 19 nesse caso Aqui vale a ressalva de que esta mos calculando a variância amostral Quando for calculada a variância populacional a divisão será apenas por n Assim o que fazemos nesse cálculo é somar os desvios e dividir por n se somarmos tudo e dividirmos por n isso é média correto Entretanto há o detalhe de que elevamos os valores dos desvios ao quadrado por tanto variância é a média aritmética dos desvios ao quadrado de cada valor observado em relação à média O resultado da variância é dado TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 36 em unidade quadrada em relação à variável em questão Ou seja a variância do peso de crianças por exemplo será dada em gramas ao quadrado Isso simplesmente não tem interpretação prática Qual é a solução para isso Tirar a raiz quadrada do resultado da variância Esse valor é o chamado desviopadrão 2 s s Onde s é o símbolo do desviopadrão amostral s2 é a variância amostral O desviopadrão portanto é a média aritmética dos desvios em relação à média do conjunto de dados O desviopadrão é a medida de dispersão mais utilizada juntamente com a média Então reforçando toda vez que você apresentar uma média apresente também o desvio padrão Vamos supor que você está lendo um trabalho acadêmico e foi apresentado que em um grupo de 30 participantes a média de inges tão diária foi de 3750 calorias com um desviopadrão de 127 calorias Agora em um segundo grupo também com 30 participantes a média de ingestão diária foi de 3510 calorias e desviopadrão de 316 calorias Você consegue ter uma noção de como são os valores de calorias que compuseram as respectivas médias Consegue entender que há um grupo em que na média as 30 observações estão mais próximas da média do outro grupo Qual dos dois grupos você sente que possui a média mais precisa O coeficiente de variação é outra medida de dispersão muito uti lizada quando o pesquisador quer comparar a variabilidade de duas variáveis diferentes ou com grandezas diferentes O cálculo é o des viopadrão dividido pela média Isso cria uma normalização ou uma padronização e o resultado é uma fração decimal se você optar por multiplicar por 100 você terá um percentual de variação cv S X Onde cv é coeficiente de variação s é o desviopadrão x é a média amostral Podemos exemplificar com um grupo de 25 pessoas que apresenta ram uma média de ingestão diária de 48 g de proteína e desviopadrão de 32 g e a média de ingestão diária de vitamina C foi de 381 UI e desviopadrão de 19 UI Qual das duas variáveis apresenta maior va riabilidade Como são variáveis diferentes com unidades de medidas TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 37 diferentes fica difícil saber de pronto essa resposta Fazendo os cál culos temos um cv de 00667 667 de proteína e 00498 498 logo vimos que a ingestão diária de vitamina C tem menor dispersão dos dados do que a ingestão diária de proteína Separatrizes são valores que separam o rol os dados ordenados em quatro quar tis dez decis ou em cem percentis partes iguais Note que para a sua correta aplicação exigese que os dados estejam organizados num rol As separatrizes são mais bem empregadas quando o conjunto de dados é grande O pesquisador pode decidir em quantas separatrizes ele quer separar o conjunto de dados Um exemplo de percentis é no acompanhamento gestacional quando no ultrassom estimase o peso e o comprimento do bebê então de acordo com a idade gestacional sabese se o bebê está no percentil 30 60 etc Isso acontece porque existe uma referência para população humana ou seja o percentil 50 é exatamente a mediana Os quartis são as separatrizes mais usadas na estatística descritiva e dividem um conjunto de dados em quatro partes iguais há apenas três quartis mas existem alguns modos de calculálos Entretanto o modo mais simples é ordenar o conjunto de dados encontrar a mediana que é o segundo quartil Na parte com os valores mais baixos encontre a mediana que será o primeiro quartil depois na parte com os valores mais altos encontre novamente a mediana que é o terceiro quartil resumindo dividese o conjunto de dados no meio e depois no meio em cada parte A principal característica dos quartis é que como dividimos o con junto de dados em quatro partes então cada quartil representa 25 dos dados A distância entre o primeiro e o terceiro quartis é chamada de distância interquartílica que representa 50 dos dados ao redor da mediana Os valores dos quartis dão portanto uma boa descrição de centralidade e dispersão dos dados ao mesmo tempo e ainda melhor quando representado de forma gráfica A representação gráfica dos quartis é chamada de diagrama de caixa ou boxplot Figura 1 Para isso são necessários os valores de mínimo primeiro quartil segundo quartil mediana terceiro quartil e máximo A caixa do gráfico é a distância interquartílica Além disso ainda é opcio nal indicar a média e é um ótimo gráfico para indicar valores extremos ou aberrantes também chamados de outliers Também há diferentes modos para indicar os valores extremos dependendo do programa es tatístico utilizado TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 38 Figura 2 Exemplo hipotético de dados Fonte elaborada pelo autor Diagrama de caixa 0006 0006 0005 0005 0004 0004 0003 0003 0002 0002 Grupo A Grupo B Valor extremo Média x x Máxima Terceiro quartil Mediana Primeiro quartil Mínima Com o diagrama de caixa conseguimos entender o conjunto de dados de maneira muito ampla com a interpretação de muitas in formações ao mesmo tempo principalmente quando queremos fazer comparações Observando a Figura 1 média e mediana são maiores no grupo B onde há valores extremos A caixa é menor no Grupo A onde há uma menor dispersão dos dados Aplicações Vamos pôr em prática os conceitos abordados da estatística descri tiva para entender os dados de sua pesquisa Considerando o exemplo dado na Figura 2 quais medidas podemos calcular Vamos entender a idade de acordo com a atividade física Primeiro organizamos os dados utilizando a função filtro no Excel e separamos a idade dos participan tes de acordo com as categorias da variável atividade física Figura 3 Figura 1 diagrama de caixa ou boxplot de conjunto de dados hipotético O símbolo x indica a média Os pontos são indicações de valores extremos Fonte elaborada pelo autor TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 39 Quais medidas descritivas podemos calcular Média Mediana e Moda Como inserir essas funções no Excel Toda função começa com o símbolo de e escreve o nome da função e seleciona o conjunto de dados Figura 4 Os nomes das funções podem ser deduzidos a partir do nome da estatística a seguir apresentamos exemplos das fun ções depois é só copiar para a célula em que o resultado será exibido verificando sempre se a seleção dos dados está correta No exemplo dado os dados vão da célula A2 a A37 na primeira coluna Pouco ati vo Na segunda coluna para Ativo os dados selecionados vão de B2 a B37 e assim por diante Copiando a função de uma coluna para a outra a seleção já é automática MÉdIAA2A37 Média MEdA2A37 Mediana MOdOMUlTA2A37 Moda pode ter mais de uma moda Agora vamos calcular as medidas de dispersão A seguir apresen tamos as funções e na Figura 5 os resultados organizados para poder mos interpretar corretamente Não se esqueça de verificar a seleção do conjunto de dados e preste atenção para não incluir valores das es tatísticas calculadas por exemplo não inclua os valores das médias Figura 3 Exemplo hipotético de dados dados apresentados parcialmente Fonte elaborada pelo autor Figura 4 Exemplo hipotético de dados mostrando como inserir as funções nas células dados apresentados parcialmente Fonte elaborada pelo autor TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 40 MÁXIMOA2A37MÍNIMOA2A37 VArAA2A37 A indicação A indica a variância amostral dEsVPAdAA2A37 A indicação A indica o desviopadrão amostral A44A38 Nesse caso é a célula em que está o desviopadrão dividido pela célula em que está localizado a média do conjunto de dados Agora preste atenção aos resultados encontrados e tente interpre tar o que significa cada estatística descritiva Veja se entendeu todos os cálculos tanto na fórmula apresentada como tentando resolver no Excel Observe o diagrama de caixa Figura 6 feito com os dados exemplifica dos e veja se a interpretação do gráfico coincide com a interpretação que vocês fizeram para os resultados da estatística descritiva anteriormente 45 40 35 30 25 20 Pouco ativo Muito ativo Ativo x x x Idade em Anos Diagrama de Caixa Figura 5 Exemplo hipotético de dados mostrando os resultados da estatística descritiva dados apresentados parcialmente Fonte elaborada pelo autor Figura 6 diagrama de caixa da idade por nível de atividade física considerando os dados hipotéticos Fonte elaborada pelo autor TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 41 Síntese Nesta trilha aprendemos o básico da estatística descritiva para va riáveis quantitativas Os conceitos de centralidade e dispersão são os mais usados na apresentação dos dados de uma pesquisa científica Esses conceitos serão fundamentais para a sequência do componente curricular pois a partir deles iremos nos aprofundar nas análises esta tísticas para então podermos tirar conclusões principalmente ao fazer comparações dentro do seu desenho experimental É extremamente importante ressaltar que as medidas e os gráficos apresentados nesta trilha não permitem tirar conclusões pois são apenas descritivos Referências ArANGO h G Bioestatística teórica e computacional 3 ed rio de Janeiro Guanabara Koogan 2009 BErQUÓ E sOUzA J GOTlIEB s Bioestatística 2 ed são Paulo EPU 1981 BUssAB W O MOrETTIN P A Estatística básica 5 ed são Paulo saraiva 2005 CAllEGArIJACQUEs s M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 dÍAz F r lÓPEz J B Bioestatística são Paulo Pioneira Thomson learning 2007 lÓPEz J B Bioestatística são Paulo Pioneira Thomson learning 2007 PAGANO M GAUVrEAU K Princípios da bioestatística são Paulo Thomson 2004 VIEIrA s Introdução à Bioestatística são Paulo Pioneira Thomson learning 2005 TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 42 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 5 Noções sobre testes de hipóteses e significância estatística Professora Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem Nesta trilha vamos abordar os conceitos usados pelos chamados testes de hipótese testes que permitem fazer a estatística inferencial ou seja nos permite tomar uma decisão sobre uma hipótese estatística com base nos dados amostrais assumindo uma probabilidade de erro ao tomar essa decisão Essa probabilidade de erro assumida é a signi ficância estatística Note que estamos lidando com uma das palavras mais importantes na ciência significativa que carrega uma carga conceitual gigantesca Assim entenderemos toda essa carga conceitu al que merece bastante cuidado Noções sobre testes de hipóteses e significância estatística Vimos que inferência estatística é quando tomamos uma decisão sobre a população de estudo com base na amostra certo Essa toma da de decisão é baseada nos testes de hipótese Vamos rever alguns pontos Já estudamos sobre o que é a população de estudo e como devemos amostrála para que tenhamos sempre bons dados ligados diretamente aos nossos objetivos do estudo Com os dados coletados vimos que precisamos entender quais são os tipos das nossas variáveis pois isso dependerá de qual teste de hipótese empregaremos De acor do com as variáveis coletadas analisamos de forma descritiva os nossos dados a fim de resumílos e apresentálos adequadamente Veremos agora como fazer a inferência estatística Figura 1 Primeiro vamos desenvolver os conceitos de hipótese estatística e depois segui remos com os passos necessários para os testes Um ponto importante é que todos os testes seguem a mesma lógica de criação do teste e de interpretação e essa é a razão para termos uma trilha específica para a inferência estatística depois vamos estudar os principais testes de hipó tese Mas o que é uma hipótese Vamos considerar que uma hipótese é uma explicação para um fenômeno População Amostra Análise Descritiva Probabilidade Inferência Estatística Figura 1 Esquema para inferência estatística Fonte elaborada pelo autor TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 45 Vamos seguir a linha de raciocínio bastante didática empregada por Vieira 2005 Um réu está sendo julgado por um crime Quais são as hipóteses possíveis o réu é inocente do ato de que o acusam ou é culpado do ato de que o acusam Quais são as decisões possíveis sobre esse julgamento Considerar o réu culpado ou inocente Assim quais são os erros associados à decisão Dizer que o réu é culpado do ato de que o acusam quando na verdade ele é inocente ou dizer que réu é inocente do ato de que o acusam quando na verdade é culpado Vejam que na sequência de perguntas e respostas em nenhum mo mento sabemos a verdade de fato Mesmo em um caso como esse mesmo que o réu tenha se declarado culpado essa é a verdade No entanto quando um júri decide o faz com base nas evidências Esse paralelo é extremamente pertinente aos nossos dados Nossa decisão estatística está baseada nas evidências ou seja na análise dos dados e o erro associado à decisão no caso do júri é que mesmo com todas as evidências a decisão pode ser errada o grande propósito é que um júri não erre concordam ou que chegue a uma menor probabilidade de errar outro ponto a ser analisado qual é o pior erro associado à decisão do júri Culpar um inocente ou inocentar um culpado Nos filmes ve mos a famosa frase Todo mundo é inocente até que se prove o contrá rio Na verdade esse é o princípio da presunção da inocência de que é um princípio jurídico que estabelece o estado de inocência como regra com relação ao acusado da prática de infração penal Então sim culpar um inocente é pior Estatisticamente temos então sempre duas hipóteses uma hipóte se nula e uma hipótese alternativa A hipótese nula ou H0 agá zero segue a ideia do princípio da presunção de inocência ou seja o parâ metro testado é igual ao parâmetro conhecido ou grupo A é igual ao grupo b um remédio ou tratamento não funciona ou ainda os da dos coletados poderiam ter sido gerados de acordo com o aleatório Consequentemente a hipótese alternativa ou H1 agá um seria a ideia do até que se prove o contrário ou seja o parâmetro testado é diferente do parâmetro conhecido ou grupo A é diferente do grupo b um remédio ou tratamento funciona ou ainda os dados coletados não poderiam ter sido gerados aleatoriamente Temos portanto dois erros associados às hipóteses estatísticas erro tipo i e erro tipo ii o erro tipo I ou α alpha é rejeitar a hipótese nula quando esta é verdadeira Então no nosso pensamento didático esse seria o caso de condenar um inocente logo o erro tipo i é considerado mais grave por isso ele é a nossa linhabase das decisões Esse erro se ria interpretado como dizer que um remédio funciona mas na verdade TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 46 não funciona um fenômeno acontece mas na verdade não acontece o tratamento é maior ou melhor que o controle mas na verdade não é e assim por diante logo o erro tipo II ou β beta é aceitar a hipótese nula quando ela é falsa Ela pode ser tida como menos ruim pois com o erro não haveria consequências Por exemplo ao dizer que um remédio não funciona mas ele na verdade ele funciona não houve gastos para produção não houve perda de tempo etc Agora dizer que um remédio funciona quando de fato isso não acontece geraria gastos financeiros inúteis perda de tempo colocaria as pessoas em risco etc observe na Figura 2 os tipos de erros e as respectivas decisões de que falamos há pouco No esquema e nas frases anteriores a ideia de verdade e realidade é algo que os cientistas não conhecem mas que rem ter a maior probabilidade de se aproximar dela correto Já desen volvemos esse pensamento anteriormente logo temos duas decisões corretas quando aceitamos a hipótese nula e ela é verdadeira e quan do aceitamos a hipótese alternativa e ela é verdadeira Prestem bas tante atenção que quando aceitamos uma hipótese automaticamente rejeitamos a outra elas são mutuamente excludentes Prestem bas tante atenção que quando aceitamos uma hipótese automaticamente rejeitamos outras pois elas são mutuamente excludentes há sempre uma dificuldade muito grande na fixação dos tipos de erro mas isso tende a diminuir com a experiência e a repetição Nas próximas trilhas quando empregarmos os testes de hipótese as inter pretações das hipóteses nulaalternativa e os erros tipo itipo ii ficarão mais assimiláveis então peço que vocês voltem a ler esta trilha ok REALIDADE H0 H0 verdadeira H1 H0 falsa DECISÃO H0 Aceitar H0 DECISÃO CORRETA ERRO TIPO II H1 Rejeitar H0 ERRO TIPO I DECISÃO CORRETA Finalmente todo o teste de hipótese ou toda inferência estatísti ca está sujeito a um erro que chamamos de nível de significância do teste o nível de significância é representado pela letra grega α alpha que é justamente a probabilidade de cometer o erro tipo i ou seja a probabilidade de rejeitar h0 quando h0 é verdadeira Qual se ria essa probabilidade aceitável Já discutimos que uma probabilidade de errar ao tomar uma decisão é consensual na ciência de 5 ou 1 dependendo do objetivo do estudo e da escolha do pesquisador Pela Figura 2 Esquema mostrando os tipos de erros e as decisões de acordo com a realidade Fonte elaborada pelo autor TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 47 lógica o chamado poder do teste seria respectivamente de 95 ou 99 o nível de significância do teste deve ser sempre definido pelo pesquisador antes da realização do teste portanto devem ser descritos em métodos nos artigos científicos Etapas dos testes de hipótese A formulação das hipóteses nula e alternativa é obrigatória mas muitas vezes está implícita nos artigos científicos ou é apresentada com pouca ou nenhuma clareza Mesmo não estando claras as hipóte ses existem sempre Particularmente recomendo deixar bastante claro o que se quer testar Por exemplo foi utilizado o teste t de student para testar a hipótese de que a média da variável x do grupo tratamen to foi maior que do grupo placebo Vejam que neste exemplo o ob jetivo é aceitar a hipótese alternativa mas são os resultados lá no final do teste que vão nos dizer qual hipótese podemos aceitar Nem sempre o pesquisador deseja aceitar a hipótese alternativa muitas vezes se deseja confirmar a hipótese nula a depender do objetivo e da pergunta do estudo por exemplo o uso de um fitoterápico teria a mesma efici ência que o remédio tradicional Identificar a distribuição de probabilidades é extremamente im portante para a escolha do tipo de teste que será empregado Mas o que significa a distribuição de probabilidades Quando falamos em probabilidade de cometer o erro tipo i precisamos calcular essa pro babilidade certo Cada tipo de variável e cada teste de hipótese usa uma distribuição de probabilidade diferente Na próxima trilha vamos aprender sobre uma das mais importantes a distribuição normal em que é possível calcular a probabilidade de qualquer evento com base nos parâmetros de média e desvio padrão o teste t de student usa dis tribuição normal temos a distribuição do QuiQuadrado e distribuição F de Fisher Essas distribuições de probabilidade estão nos anexos de todos os livros de estatística e em todos os casos e foram construídas para aceitar a hipótese nula Veremos o que isso significa na interpre tação final do teste Fixar o α é definir qual é o nível de significância do teste antes de realizálo que geralmente é 5 005 ou 1 001 Por que definir isso antes de realizar o teste Como o alpha é o risco que você assume de cometer o erro tipo i então não se deve mudar no meio do caminho esse risco conforme conveniência A fixação do alpha deve estar clara TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 48 na secção de métodos e em muitos artigos o nível de significância é representado como um p005 por exemplo Como veremos na se quência o resultado produzido pelos testes de hipótese é dado exa tamente como um p minúsculo Dessa forma uma sugestão é indicar o nível de significância como o alpha Um exemplo de como deve ser escrito nos artigos e trabalhos acadêmicos Foi considerado o nível de significância de 5 α005 para todos os testes empregados Calcular o valor da estatística do teste é propriamente dito o cál culo de cada teste de hipótese Não abordaremos os detalhes de cada cálculo pois não são óbvios e alguns deles são relativamente comple xos o fato é que nos programas computacionais de estatística o valor da estatística do teste é dado nos resultados e devemos indicálos nos nossos resultados Comparar o valor calculado com o valor da tabela de valores crí ticos significa que o valor encontrado pelo cálculo do teste deve ser comparado com o valor da tabela de referência ou chamado valor crí tico Vamos lembrar que o valor de referência da tabela foi construído para concordar com a hipótese nula A leitura desses valores na tabela depende de cada distribuição de probabilidades de cada teste de hipó tese mas no geral devese identificar o nível de significância do teste e os graus de liberdade que no geral também é o número amostral menos um n1 Nesse momento essas interpretações são ainda mui to abstratas mas devem ser consultadas após as leituras das trilhas futuras Tomar a decisão é dizer qual hipótese nula ou alternativa você de verá aceitar se o valor do teste calculado for menor que o valor crítico da tabela de distribuição de probabilidades você deve aceitar a hipó tese nula se o valor do teste calculado for maior que o valor crítico da tabela de distribuição de probabilidades você deve aceitar a hipótese alternativa Todos os testes de hipótese partem dessa lógica mas te mos de olhar sempre as tabelas Não necessariamente pois nos resul tados dentro dos programas de estatística também serão apresentados o pvalor o pvalor é o resultado que todo teste de hipótese irá fornecer ao observar esse valor devemos interpretar o teste de prontidão que é calculado a partir das funções das distribuições de probabilidades dos testes o que na prática substitui nossa necessidade de observar o va lor calculado com o valor crítico da tabela A interpretação do pvalor deve ser baseada no nível de significância do teste estabelecido pois ele diz quão provável seria obter uma amostra tal qual a que foi obtida quando a hipótese nula é verdadeira ou ainda o p mede a probabilida de de que a diferença observada poderia ser encontrada se a hipótese TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 49 nula fosse verdadeira Como uma representação matemática temos ppdadosh0 ou seja o p encontrado é a probabilidade de que seus dados sigam a hipótese nula Nessa lógica se o resultado de um teste for p003 abaixo do α005 significa que temos uma probabilidade de 3 que a diferença do teste foi de acordo com a hipótese nula se essa probabilidade é menor que o risco assumido de 5 do alpha en tão nossa decisão é aceitar a hipótese alternativa se o p for menor que alpha aceitase a hipótese alternativa e se p for maior do que alpha aceitase a hipótese nula Conforme o desenvolvimento de cada teste a interpretação será cada vez mais intuitiva Síntese Vimos nesta trilha o que são os testes de hipótese e suas etapas até a inferência estatística ou seja até a decisão final sobre a população de estudo Dessas etapas temos alguns pontos principais dos quais não pode mos ter dúvidas a construção das hipóteses nula e alternativa seguindo a lógica de que a hipótese nula significa que os dados seguem uma igual dade ou nulidade ou ainda uma aleatoriedade o nível de significância que é o risco assumido de cometer o erro tipo i ou seja a probabilidade de rejeitar h0 quando h0 é verdadeira o resultado pvalor que diz quão provável seria obter seus dados confirme a hipótese nula e de acordo com o nível de significân cia estabelecido Todas essas etapas serão enfatizadas nas próximas trilhas Referências ArANgo h g Bioestatística teórica e computacional 3 ed rio de Janeiro guanabara Koogan 2009 bErQUó E soUZA J goTliEb s Bioestatística 2 ed são Paulo EPU 1981 bUssAb W o MorETTiN P A Estatística básica 5 ed são Paulo saraiva 2005 TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 50 CAllEgAriJACQUEs s M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 DíAZ F r lóPEZ J b Bioestatística são Paulo Pioneira Thomson learning 2007 lóPEZ J b Bioestatística são Paulo Pioneira Thomson learning 2007 PAgANo M gAUVrEAU K Princípios da bioestatística são Paulo Thomson 2004 ViEirA s Introdução à bioestatística são Paulo Pioneira Thomson learning 2005 TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 51 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 6 Distribuição normal e o teste do quiquadrado Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem Nesta trilha vamos estudar a distribuição normal que é uma das dis tribuições de probabilidade mais importantes Com ela podemos cal cular a probabilidade de qualquer evento conhecendo os parâmetros de média e desvio padrão Além disso alguns testes de hipótese só podem ser realizados se os dados coletados se ajustarem a uma distri buição normal configurando portanto os testes paramétricos Entre os testes de hipótese não paramétricos vamos aprender o primeiro teste de hipótese o teste do quiquadrado Esse teste é empregado para comparar proporções entre duas variáveis categóricas Distribuição normal Para compreender a distribuição normal precisamos entender um gráfico chamado histograma O histograma é empregado para repre sentar o comportamento ou o padrão do conjunto de dados de uma variável numérica que é uma representação gráfica de uma tabela cha mada distribuição de frequências O que significa isso Imagine que você tenha um conjunto de dados de 100 300 ou 500 observações e queira mostrar em uma tabela Devemos então reduzila a um nú mero de linhas que seja apresentável Com isso separamos os valores do conjunto de dados em classes geralmente com intervalos iguais e contamos quantas observações se encaixam nessas classes Com isso teremos uma distribuição de frequências em cada classe da variável O número de classes é definido ou alterado pelo pesquisador e uma sugestão simples é a raiz quadrada do namostral logo se temos 100 observações o número de classes sugerido é de 10 Pegase então a amplitude do conjunto de dados e divide por 10 para termos o tama nho das classes e depois é só contar quantas observações há em cada classe Outra sugestão geralmente usada nos programas de estatística é a fórmula 1 3222 log k n Onde K é o número de classe n é o número amostral A distribuição de frequência pode representar a frequência absoluta ou a frequência relativa ou ambas Tabela 1 A frequência relativa é o número da frequência absoluta dividido pelo total do número amostral e esse resultado também pode ser representado como porcentagem caso opteser por multiplicar por 100 Obviamente nas contagens das frequências cada observação só pode ser contada uma vez então se um valor ficar no limite entre duas classes devese optar em incluílo no limite superior ou inferior e assim repetir essa escolha para todas as classes Embora não se possa contar duas vezes uma observação pode parecer que os rótulos das classes se repetem isso é apenas para dar uma representação mais limpa Por exemplo uma classe vai de 1500 g a 1600 g e a próxima vai de 1600 g a 1700 g Se uma observa ção for exatamente 1600 g ela é contada em uma das classes apenas TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 54 Classes de altura m Frequência Frequência Relativa 155 160 3 003 160 165 7 007 165 170 14 014 170 175 31 031 175 180 27 027 180 185 11 011 185 190 7 07 A forma gráfica da distribuição de frequência é o histograma Figura 1 Assemelhase a um gráfico de barras ou colunas mas con ceitualmente está longe disso Veja que em um histograma as colunas se emendam uma à outra pois tratase de uma variável numérica po dendo ser contínua ou discreta No entanto todos os valores em uma escala irão aparecer no rótulo da variável mesmo podendo não haver observação dentro de uma classe Frequência absoluta Histograma 35 30 25 20 15 10 5 0 Altura em metros Figura 1 histograma da altura em metros de 100 participantes de uma pesquisa Exemplo hipotético de dados Fonte elaborada pelo autor 155 16 16 165 165 17 17 175 175 18 18 185 185 19 Observando os dados de altura em metros dos 100 participantes do exemplo hipotético no histograma você consegue interpretar os valores mínimos máximo e a centralidade Contudo se você sorteasse um participante totalmente ao acaso apostaria que esse participante estaria em qual classe Em qual classe você não apostaria que fosse sorteado um participante Se você disse que seria a classe com maior frequência para a primeira questão e a classe com menor frequência para a segunda questão acertou Isso porque você deve ter imaginado que a classe com maior frequência teria maior probabilidade de sortear um participante dela Ou seja podemos interpretar as frequências rela tivas com uma estimativa de probabilidade Entretanto as frequências relativas são empíricas e as probabilidades teóricas Tabela 1 Distribuição de frequências de altura em metros de 100 participantes de uma pesquisa Exemplo hipotético de dados Fonte elaborada pelo autor TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 55 Em geral buscamos encontrar no conjunto de dados empíricos um histograma que apresente um padrão de uma curva em formato de sino A Figura 2 mostra o histograma igual à Figura 1 mas com a cur va em forma de sino ajustada aos dados empíricos de altura quando encontramos um histograma que se ajusta a uma forma de sino dize mos que a variável apresenta distribuição normal e automaticamente definimos que nossa variável de estudo é uma distribuição teórica e que representa uma população infinita a proporção no eixo das or denadas y são estimativas de probabilidade a área sob a curva é 1 ou seja 100 e a distribuição normal fica definida quando são dados dois parâmetros média mi µ e desvio padrão sigma σ Assim quando dizemos que a variável apresenta distribuição normal deixamos de considerar a média e desvio padrão amostral para considerar a média e o desvio padrão populacional Isso é extremamente relevante Probabilidade Histograma 30 25 20 15 10 5 0 Altura m Figura 2 histograma da altura em metros de 100 participantes de uma pesquisa a curva vermelha é o ajuste da distribuição normal e a linha azul é a média da altura m Exemplo hipotético de dados Fonte elaborada pelo autor 155 160 165 170 175 17485 180 185 190 Algumas características da distribuição normal são a média a me diana e a moda coincidem e estão no centro da distribuição tem o formato típico de sino simétrico em torno da média e como a curva é simétrica em torno da média 50 dos valores são iguais ou menores que a média e 50 são iguais e maiores que a média lembrando que o total sob a área da curva é 100 A distribuição normal é uma distribuição de probabilidades em que é possível calcular a probabilidade de qualquer evento de qualquer va riável com base na média e no desvio padrão Como isso é feito Com a distribuição normal reduzida ou distribuição normal padronizada a TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 56 qual transforma qualquer variável em uma variável reduzida de mé dia zero e desvio padrão igual a um que é indicada pela letra Z ou Zscore que é exatamente igual ao desvio padrão Como veremos é possível calcular qualquer probabilidade mas os valores entre os des vios padrão são bem conhecidos Figura 3 Algumas interpretações que podem ser feitas por exemplo ao redor da média entre a média mais um desvio padrão e a média menos um desvio padrão há uma probabi lidade de 6826 de os valores populacionais estarem neste intervalo e 9544 entre a média mais e menos duas vezes o desvio padrão em uma distribuição normal não existe a possibilidade de haver alguma probabilidade acima de quatro vezes o desvio padrão e apenas 013 de probabilidade de encontrar valores acima ou abaixo da média mais ou menos três vezes o desvio padrão 013 214 1359 3413 3413 1359 214 013 4s 3s 2s 1s Média Média 1s 2s 3s 4s 4Z 3Z 2Z 1Z 1Z 2Z 3Z 4Z Figura 3 Distribuição normal de média zero e desvio padrão igual a um e as respectivas probabilidades Fonte elaborada pelo autor Com isso como se transforma uma variável que tem distribuição normal com média e desvio padrão conhecidos em uma distribuição normal reduzida utilizando a fórmula a seguir z X µº s Onde Z é o zscore X é o evento que se quer conhecer μ é a média populacional da variável de estudo σ é o desvio padrão populacional da variável de estudo TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 57 Exemplo a quantidade de colesterol em 100 ml de plasma sanguí neo humano tem distribuição normal com média 200 mg e desvio pa drão 20 mg qual a probabilidade de uma pessoa apresentar mais do que 230 mg de colesterol Ao fazer o cálculo do Zscore achase o valor de 15 Esse valor é usado para buscar a probabilidade na tabela chamada de Distribuição Normal reduzida que se encontra nos anexos dos livros de estatística O valor encontrado nesse exemplo é de 04332 4332 mas essa é a probabilidade do valor do evento até a média conforme é inserido no próprio cálculo do Z Como há 50 de probabilidade de os valores serem iguais ou maiores que a média subtraise os 4332 dos 50 obtendose o resultado da pergunta de 668 de probabilidade de a pessoa apresentar mais do que 230 mg de colesterol Figura 4 4332 Colesterol em 100 ml de plasma sanguíneo humano mg 668 120 140 160 180 200 220 240 260 280 Probabilidade Figura 4 Distribuição normal de colesterol em 100 ml de plasma sanguíneo humano em miligramas As probabilidades apresentadas são explicadas no texto Fonte elaborada pelo autor No Excel é possível obter os valores de probabilidade da distribuição normal de duas formas A primeira é colocando diretamente o valor do Z na função da distribuição normal e a segunda é colocando o x a mé dia e o desvio padrão Em ambas são selecionadas a opção Verdadeiro para a opção de cumulativo Isso significa que a função calcula a pro babilidade cumulativa até o valor buscado no nosso exemplo o re sultado seria 09332 9332 que subtraindo de 100 obtémse o resultado de 668 DISTNOrmPNz cumulativo Exemplo DISTNOrmPN15VErDADEIrO DISTNOrmNx média desviopadrão cumulativo Exemplo DISTNOrmN23020020VErDADEIrO TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 58 A distribuição normal é também chamada de distribuição Gaussiana ou de Gauss em referência ao cientista Carl Friedrich Gauss que fez uso de suas propriedades em astronomia por volta de 1810 A distri buição normal é extremamente utilizada para descrever fenômenos naturais em que seria esperado maiores probabilidades em torno da média e baixas probabilidades distantes da média portanto algo nor mal na natureza A principal forma de identificar se a variável de estu do é considerada normal é mesmo o gráfico do histograma Os testes paramétricos que iremos aprender na próxima trilha são tão robustos que até mesmo um histograma que se aproxima de uma curva nor mal pode ser empregado Entretanto há testes de normalidade como Kolmogorov Smirnov normality test ShapiroWilks test ou qqplot no quais porém construir o histograma e verificar o padrão encontrado já é suficiente na maioria dos casos Teste do Quiquadrado O teste do quiquadrado ou Chiquadrado ou X2 serve para testar a hipótese nula de que duas variáveis qualitativas nominais são indepen dentes Ou seja aqui gostaríamos de testar se as proporções ou as fre quências de uma variável categórica nominal depende das proporções ou das frequências de outra variável categórica nominal No segundo modo de escrita interpretase a hipótese alternativa O teste do quiquadrado de independência é construído a partir de uma tabela chamada tabela de contingência ou tabela 2x2 mas não necessariamente devemos ter duas categorias em cada uma das duas variáveis qualitativas Geralmente isso acontece mas não é regra A Tabela 2 mostra a estrutura de uma tabela de contingência em segui da é apresentada a fórmula do X2 Variável X Variável Y Y1 Y2 Total X1 a b ab X2 c d cd Total ac bd n x ad bc n a b c d a c b d 2 4 2 Tabela 2 Estrutura de uma tabela de contingência ou tabela 2x2 Fonte elaborada pelo autor TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 59 Como podemos observar na fórmula a lógica desse cálculo é um cruzamento de todas as frequências entre todas as categorias Então imaginemos que as proporções entre as categorias das duas variáveis sejam todas iguais ou muito próximas Pelo bom senso se todas as pro porções são muito parecidas não há de se esperar que uma proporção dependa da outra variável correto Se os quatro valores das quatro células forem iguais o valor do X2 será zero E o contrário é verdadeiro se as proporções forem muito distantes o valor do X2 será afastado do zero ou seja sustentando a hipótese alternativa Esse cálculo é consi derado para avaliar dentro da distribuição de X2 para aceitar ou rejeitar a hipótese nula Vamos a um exemplo seguindo os passos para um teste de hipótese como visto na trilha anterior um estudo utilizou o teste do quiquadra do para testar a hipótese de que a proporção de pacientes que toma ram um anestésico e que não relataram dor durante um procedimento cirúrgico é a mesma proporção de pacientes que tomaram um placebo durante o mesmo procedimento ao nível de significância de 5 Os três primeiros passos foram expressos em um único período Colocamos a hipótese nula que automaticamente diz sobre a hipótese alternativa Como estamos falando de proporção ou frequência de pacientes que relataram ou não dor logo a distribuição de probabilidade identificada é a do quiquadrado deixando então claro o nível de significância do teste Vamos supor que os dados foram coletados Tabela 3 Grupo relato de dor SIm NãO Total Placebo 25 115 140 Analgésico 15 105 120 Total 40 220 260 Fazendo os cálculos o resultado foi X2142 Esse valor deve ser comparado ao da tabela de distribuição de quiquadrado ao nível de significância estabelecido no caso 5 ou 005 e aos graus de li berdade do teste Os graus de liberdade do teste do quiquadrado é r1 x r1 sendo que r é o número de categorias de cada variável No nosso exemplo 21 x 21 logo os graus de liberdade é de 1 Observando a tabela o seu valor crítico é de 3841 Como o valor cal culado da estatística foi menor do que o valor crítico da tabela não rejeitamos a hipótese nula ao nível de significância de 5 Então nossa decisão é portanto aceitar a hipótese nula Calculando o pvalor que aparece nos programas de estatística o resultado foi p02326 Tabela 3 Frequência dos pacientes submetidos a um procedimento cirúrgico e que relataram ou não dor tomando um analgésico ou um placebo Dados hipotéticos Fonte elaborada pelo autor TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 60 Como ficaria nos resultados essa nossa conclusão sobre o estudo As proporções entre relato de dor entre os grupos que tomaram anal gésico ou placebo são significativamente iguais X2142 p02652 Ou ainda o relato de dor não depende significativamente de qual grupo placebo ou com analgésico os pacientes participaram X2142 p02326 Veja que com a intepretação do pvalor temos que há uma probabilidade de 2326 de que os resultados possam ter ocorri do de acordo com a hipótese nula Como esse valor é mais alto do que os 5 do nível de significância ficamos com a hipótese nula Observe as proporções entre as categorias Tabela 4 mesmo que o número de participantes que tomaram analgésico e relataram dor foi menor do que os pacientes que tomaram placebo as proporções em relação ao total de participantes em cada grupo não é tão diferente a ponto de garantir uma probabilidade aceitável menor de 5 de cometer o erro tipo I então ficamos com a hipótese nula Grupo relato de dor SIm NãO Total Placebo 25 179 115 821 140 Analgésico 15 125 105 875 120 Total 40 220 260 O teste do quiquadrado apresenta algumas restrições Deve ser aplicado quando a amostra tiver mais de 20 elementos no total Se 20 n 40 o teste deve ser aplicado se nenhuma frequência esperada for menor do que 1 As variáveis devem ser nominais Para variáveis ordinais aplique o teste de X2 para tendências Existe a correção de Yates que torna o teste mais conservador Se houver frequências es peradas pequenas menor do que 5 use o teste exato de Fisher Os valores esperados podem ser observados nos programas de estatística Eles são os valores esperados de acordo com a hipótese nula ou seja as proporções são totalmente iguais entre as categorias das variáveis Síntese Nesta trilha entendemos a distribuição normal e a sua grande im portância para a estatística de variáveis numéricas Para ver se um con junto de dados se ajusta a uma distribuição normal devemos fazer um Tabela 4 Frequência absoluta e percentuais dos pacientes submetidos a um procedimento cirúrgico e que relataram ou não dor tomando um analgésico ou um placebo Dados hipotéticos Fonte elaborada pelo autor TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 61 histograma e notar se o padrão é em formato de sino Se sim dizemos que a variável apresenta distribuição normal e a média e desvio padrão vão representar a população e não mais a amostra Com base na média e desvio padrão populacional podemos calcular a probabilidade de qual quer evento E podendo calcular a probabilidade de qualquer evento vamos usar essa distribuição de probabilidades para os testes de hipótese e tomar uma decisão com uma probabilidade de cometer o erro tipo I de rejeitar a hipótese nula quando a hipótese nula é verdadeira Vimos o teste do quiquadrado que testa a hipótese de que duas variáveis categóricas nominais são independentes Essa é a hipótese nula quando houver uma dependência significativa entre as variáveis devemos entender as proporções para identificar qual categoria contri bui para a diferença observada Referências ArANGO h G Bioestatística teórica e computacional 3 ed rio de Janeiro Guanabara Koogan 2009 bErquÓ E SOuZA J GOTlIEb S Bioestatística 2 ed São Paulo EPu 1981 buSSAb W O mOrETTIN P A Estatística básica 5 ed São Paulo Saraiva 2005 CAllEGArIJACquES S m Bioestatística princípios e aplicações Porto Alegre Artmed 2007 DÍAZ F r lÓPEZ J b Bioestatística São Paulo Pioneira Thomson learning 2007 lÓPEZ J b Bioestatística São Paulo Pioneira Thomson learning 2007 PAGANO m GAuVrEAu K Princípios da bioestatística São Paulo Thomson 2004 VIEIrA S Introdução à bioestatística São Paulo Pioneira Thomson learning 2005 TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 62 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 7 Testes estatísticos paramétricos Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem Nesta trilha vamos aprender os principais testes paramétricos São testes de hipótese em que a principal premissa é que as variáveis de estudo devem apresentar distribuição normal Isso significa que as vari áveis são analisadas com base na estatística para toda a população ou seja nos parâmetros Logo toda a teoria sobre cálculos de probabilida de que vimos na trilha passada se aplica aqui Os testes são teste t de Student independente para comparar duas médias teste t de Student pareado para comparar uma média diferente de zero análise de variân cia para comparar três ou mais médias e correlação de Pearson para relacionar duas variáveis quantitativas Não será dito em cada teste mas em todos há a necessidade de que os dados apresentem distribui ção normal Caso seus dados não sigam a distribuição normal há sem pre uma alternativa não paramétrica São testes um pouco mais fracos mas que seguem as mesmas lógicas dos testes apresentados aqui Teste t de Student Teste t de Student para grupos independentes O teste t de Student é um dos testes mais conhecidos e mais fortes em toda a ciência O teste recebe esse nome por causa de seu criador William Sealy Gosset um excepcional estudante de Oxford que quando passou a trabalhar na cervejaria Guinness não podia publicar artigos científicos com seu nome verdadeiro por isso adotou o pseudônimo de Student nas publicações O teste t de Student testa a hipótese nula de que duas médias de dois grupos independentes são iguais consequentemente a hipótese alternativa de que as médias são diferentes Quais são as etapas para o teste Calcule a média de cada grupo depois calcule a variância po pulacional de cada grupo e em seguida calcule a variância ponderada 1 1 2 2 1 1 2 2 2 2 1 2 n n n n σp σ σ Onde σ2 p é a variância ponderada n1 número amostral do grupo 1 n2 número amostral do grupo 2 σ2 1 é a variância do grupo 1 σ2 2 é a variância do grupo 2 A variância ponderada nada mais é do que a média das variâncias dos dois grupos mas ponderada pelo tamanho amostral dos grupos Ou seja se um grupo tem maior namostral ele irá contribuir mais para o valor da Variância Ponderada A sugestão é que se puder balancear os grupos balanceie Calculada a variância ponderada calcule o valor de t que está associado a n1 n2 2 graus de liberdade Em uma explicação muito simples de por que graus de liberdade é sempre n1 é porque estamos incluindo uma média em nosso conjunto de dados então de vemos tirar uma observação para compensar a média Nesse caso estamos trabalhando com duas médias n1 1 n2 1 ou n1 n2 2 σ 1 1 1 2 1 2 2 m m t n n p TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 65 Depois de calculado o t compare o valor do t calculado com o t crí tico da tabela de distribuição de t de Student ao nível de significância estabelecido e aos graus de liberdade associados Se o t calculado for menor do que o valor encontrado na tabela não rejeite a hipótese nula Antes de irmos ao exemplo além de assumirmos a distribuição normal dos dados há a necessidade de testar a homocedasticidade que é a pressuposição de que as variâncias provêm de uma mesma população Como uma regra básica se a variância maior for até 4 vezes a da menor admitese variâncias iguais Por exemplo Foi realizado o teste t de Student ao nível de signi ficância de 5 para testar a hipótese nula de que a média do volume respiratório máximo em litros de um grupo de pessoas que fumam é a mesma que a de um grupo de pessoas que não fumam Na frase fo ram definidos a hipótese nula a distribuição de probabilidades no caso a distribuição de t de Student e o nível de significância do teste No nosso exemplo hipotético temos que a média do volume respiratório máximo em litros do grupo que não fuma foi de 526L DP044L e do grupo que fuma foi de 477L 025L O t calculado foi de 605 aos graus de liberdade de 98 Observando o t crítico da tabela temos o va lor de 2101 Como o nosso valor é maior do que o da tabela aceitamos a hipótese alternativa de que as médias são diferentes O valor de p foi de 0000 Na tabela de distribuição de t de Student são apresentadas três op ções duas caudas uma cauda e nível de confiança Devemos olhar a opção de duas caudas O que isso significa Significa que se a priori não sabemos se o grupo A é maior que o B ou se o B é maior que o A então assumimos que a hipótese alternativa pode ser para qualquer lado ou cauda da distribuição Se tivermos uma boa razão para escolher que na hipótese alternativa só me interessa saber se A é maior que B então optamos por um teste unicaudal Na redação final do nosso exemplo não podemos apenas dizer aceitamos a hipótese alternativa você deve ser o mais claro possível Como nossa hipótese alternativa é de que as médias são diferentes te mos de olhar os valores das médias para saber o que elas estão nos di zendo e deixar isso claro para o leitor Além disso vale sempre reforçar que estamos falando de média e de qual variável estamos comparando Como fica a redação do resultado final A média do volume expira tório máximo foi significativamente maior no grupo de participantes que não fumam do que do grupo de participantes que fumam t605 p0000 reforce que sempre devemos colocar o valor da estatística e o pvalor Dessa forma não precisamos ficar floreando ao descrever os resultados ou seja vamos direto a eles TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 66 Teste t de Student pareado O teste t de Student para estudos pareados indica que a compara ção entre duas médias ocorre quando a unidade amostral é a mesma Os estudos clássicos dessa técnica são o antes e depois estudos com gêmeos ou direito e esquerdo de um mesmo indivíduo São estudos muito fortes pois como o objeto da comparação é a mesma unidade amostral isso minimiza a variância da variável do estudo A hipótese nula do teste t pareado é de que a média das diferenças é igual a zero e a hipótese alternativa é diferente de zero Para o teste t pareado primeiro calculamos as diferenças entre to das as observações pareadas por exemplo o valor do depois menos o valor de antes do experimento d x2 x1 Depois calculamos a média das diferenças d d n Em seguida calculamos a variância dessas diferenças 1 2 2 S d d n Para então calcularmos o valor de t associado a n1 graus de liberdade 2 t d S n Então comparamos o valor de t calculado com o valor de t crítico no nível de significância estabelecido e com os mesmos graus de li berdade Se o t calculado for menor do que o t crítico da tabela não rejeitamos a hipótese nula ao nível de significância estabelecido Os graus de liberdade no teste t pareado é n1 pois estamos usando ape nas uma média a média das diferenças entre o antes e o depois Além disso aqui o pressuposto é que a diferença das observações apresenta distribuição normal Vamos a um exemplo ainda relacionado ao exemplo anterior Foi rea lizado um teste t de Student pareado ao nível de significância de 5 para testar a hipótese de que a Covid19 reduz a capacidade pulmonar dos pacientes Nesse exemplo claramente estamos partindo da premis sa de que é uma doença respiratória e que haveria comprometimen to dos pulmões logo esse é um ótimo exemplo de teste unicaudal TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 67 Suponha então que 30 participantes do estudo tinham o volume respi ratório máximo em litro registrados antes de contrair Covid19 e repeti ram o teste depois que tiveram a doença e tiveram alta Assim vamos ter 30 valores da diferença do depois menos o antes e então vamos calcular a média Se não houve diferença significa que a média foi zero concor dam Se for negativa significa que a capacidade pulmonar foi reduzida e se for positiva significa que a capacidade pulmonar foi aumentada mas essa última interpretação não fará sentido no teste unicaudal Como resultado do nosso exemplo hipotético houve uma diminuição signifi cativa de 0362L de volume respiratório máximo depois que as pessoas contraíram Covid19 t335 p0001 Análise de variância e correlação linear Análise de variância A análise de variância ou simplesmente ANOVA ANalysis Of VAriance foi proposta por ronald Aylmer Fisher um dos nomes mais importantes do desenho experimental A ANOVA testa a hipótese nula de que três ou mais grupos apresentam a mesma média ou que não há diferença entre as médias O resultado do teste sempre apresenta uma tabela contendo alguns valores que seguem uma lógica das diferenças entre as variâncias Vamos considerar que estamos comparando a média de três grupos e cada grupo apresenta 10 observações Primeiro vamos calcular a variância total ou seja independentemente do grupo tiramos a média geral e calculamos a variância ou também chamado de desvio quadrá tico Depois tiramos a variância de cada grupo ou variância intragru pos e somamos Em seguida calculamos a variância entre grupos ou seja consideramos a média de cada grupo em relação à média geral Se o nosso total de observações é de 30 os graus de liberdade são res pectivamente 29 n1 média geral 27 temos 3 médias a serem des contadas e 2 3 médias a média geral Então dividimos a variância total por 29 a variância intragrupos por 27 e a variância entregrupos por 2 obtendo portanto o desvio médio A razão entre a variância en tregrupos e intragrupos é o valor da estatística F o qual é então com parado com a distribuição de probabilidade de F de Fisher ao nível de significância estabelecido e aos graus de liberdade do numerador 2 e do denominador 27 Vamos trabalhar um exemplo bastante simples já visto em trilha an terior Foi realizado um teste ANOVA ao nível de significância de 5 TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 68 para verificar se a média de idade dos participantes do estudo difere em relação ao nível de atividade física As médias de idade foram 336 anos dp504 para o grupo pouco ativo 3131 dp355 para o grupo ativo e 2934 dp633 para o grupo muito ativo Será que essas médias são significativas A Tabela 1 mostra o resultado de uma ANOVA em qualquer programa de estatística e cada etapa foi descrita no parágrafo anterior O pontochave é a razão entre os desvios médios entregrupos por intragrupos que dá o valor de F de Fisher no caso 1664126896189 O que significa esse valor Que a variância entre as médias dos níveis de atividade física é 6189 vezes maior do que a variância de idade em cada grupo Imagine se essa razão fosse zero isso significa que ou há pouca variação entre as médias dos grupos o que não permite dizer que as médias são diferentes ou que há tanta variação dentro dos grupos que acaba gerando muito ruído nos dados que também não permite dizer que as médias são diferentes Em outras palavras que a variação dentro dos grupos é mais importante que a variação entre as médias dos grupos logo não poderíamos dizer que são diferentes Fonte Desvio quadrático Graus de liberdade Desvio médio Razão das variâncias Fvalor Probabilidade EntreGrupos 3328 2 16641 6189 000295 IntraGrupos 26081 97 2689 Total 29409 99 Comparando o Fvalor calculado com o da tabela de distribuição de probabilidades de Fisher tomamos a decisão O valor da tabela aos graus de liberdade do teste é de 579 O pvalor já nos fornece a conclusão do nosso estudo sem ter de observar as tabelas como já mencionado logo como ficaria nossa redação dos resultados no artigo científico A média de idade dos participantes diferiu significativamente entre os ní veis de atividade física sendo que a média da idade foi maior para os participantes que declararam que faziam pouca atividade física F6189 p000295 Vejam que devemos ser mais específicos ao dizer os resul tados ao leitor ou seja não podemos dizer apenas que diferiu O leitor vai se perguntar Mas qual é a diferença Então ou apresentamos um boxplot ou a tabela com os dados associado à nossa descrição do teste Correlação linear de Pearson O teste de correlação linear de Pearson testa a hipótese nula de que não há correlação entre duas variáveis quantitativas ou numéricas Tabela 1 resultado de uma análise de variância entre a média de idade de participantes de um estudo em relação a três níveis de atividade física pouco ativo ativo e muito ativo Exemplo hipotético de dados Fonte elaborada pelo autor TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 69 Esse teste calcula o coeficiente de correlação de Pearson denominado r e mede o grau de correlação entre duas variáveis numéricas 2 2 2 2 r xy x y n x x n y y n Apesar de o cálculo parecer muito difícil ele tem apenas operações simples entre a variável X e a variável Y O coeficiente r vai de valores de 1 até 1 O sinal indica se a correlação é positiva ou negativa Uma correlação positiva significa que conforme aumentam os valores de X aumentam também os valores de Y Uma correlação negativa significa que conforme aumentam os valores de X diminuem os valores de Y Além disso quando o r for mais próximo do valor 1 negativo ou positi vo mais forte é a correlação Como sugestão de intensidade da correla ção temos que zero não há correlação entre as duas variáveis de 01 a 03 seria uma correlação fraca de 04 a 06 temos uma correlação moderada e acima de 07 temos uma correlação forte É importante destacar que o r não indica uma relação de causa e efeito e sim que as duas variáveis estão correlacionadas apenas e não que uma variável ocorre em função da outra variável O r pode ser calculado no Excel com a função a seguir e selecionando os dados das duas variáveis COrrELmatriz1matriz2 O teste de correlação linear de Pearson não exige que se mostre o gráfico de dispersão mas é indicado caso você não faça muitos testes de correlação ao mesmo tempo nesse caso é melhor apresentar uma tabela com os diversos valores de r Dentro do gráfico também não é necessário a colocação da linha de tendência mas pode facilitar a interpretação Vamos a um exemplo visto na Trilha 3 quando aprendemos o gráfico de dispersão Foi feito um teste de correlação linear de Pearson para testar a hipótese de que há correlação entre peso e altura dos partici pantes ao nível de significância de 5 Nesse caso optamos em decla rar a hipótese alternativa O que significa a hipótese nula Simplesmente que r0 que não há correlação entre as duas variáveis Feito o teste de correlação em um programa de estatística temos como resultado houve uma correlação forte e positiva entre a altura e o peso dos parti cipantes do estudo r087 p0000 Simples assim Vejam que as duas variáveis estão correlacionadas mas não faz sentido atribuir causa e efei to ou seja não é o peso que causa a altura ou viceversa É importante destacar que a correlação pode ser fraca mas também significativa Isso vai da natureza do fenômeno que se deseja estudar TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 70 Síntese Nesta trilha estudamos quatro grandes testes de hipótese O teste t de Student para comparar duas médias entre grupos independentes ou dependentes teste t pareado o teste de análise de variância usa do para comparar três ou mais médias entre grupos independentes e o teste de Correlação linear de Pearson que serve para verificar se existe correlação entre duas variáveis quantitativas Vocês devem en tender quais os tipos de variáveis do estudo e fazer um paralelo com os exemplos dados aqui As estruturas dos testes paramétricos aprendidos aqui podem ser usadas caso os dados não sigam a distribuição normal bastando pesquisar qual é o teste alternativo não paramétrico Sendo assim é importante que ao lerem artigos científicos identifiquem as hipóteses nulas e alternativas e as intepretações do pvalor Referências ArANGO h G Bioestatística teórica e computacional 3 ed rio de Janeiro Guanabara Koogan 2009 BErQUÓ E SOUZA J GOTLIEB S Bioestatística 2 ed São Paulo EPU 1981 BUSSAB W O MOrETTIN P A Estatística básica 5 ed São Paulo Saraiva 2005 CALLEGArIJACQUES S M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 DÍAZ F r LÓPEZ J B Bioestatística São Paulo Pioneira Thomson Learning 2007 LÓPEZ J B Bioestatística São Paulo Pioneira Thomson Learning 2007 PAGANO M GAUVrEAU K Princípios da bioestatística São Paulo Thomson 2004 VIEIrA S Introdução à Bioestatística São Paulo Pioneira Thomson Learning 2005 TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 71 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 8 Aplicação da Bioestatística na pesquisa clínica Professora Juliana Masami Morimoto Introdução ao estudo da trilha de aprendizagem Nas trilhas de aprendizagem anteriores foram estudados conceitos básicos de estatística descritiva e de estatística inferencial Nesta trilha os conhecimentos da estatística inferencial serão aplicados aos tipos de estudos abordados nas trilhas 6 e 7 do componente curricular de Epidemiologia A partir do objetivo de sua pesquisa é possível definir o melhor tipo de estudo e consequentemente a melhor forma de analisar seus dados Será que em um estudo transversal posso usar um teste t de Student Em um estudo de coorte vou utilizar o teste t de Student pareado Em quais situações posso usar o teste do quiquadrado Assim os objetivos desta trilha são apresentar a definição de pesquisa clínica vincular objetivos de pesquisa aos testes estatísticos adequados a cada caso apresentar aplicações dos testes estatísticos paramétricos aos objetivos de pesquisa Recomendo que você inicie os estudos ouvindo o audioblog que apresentará a última trilha do componente curricular de Bioestatística Depois realize o estudo do capítulo do ebook que traz as interliga ções entre objetivos de pesquisa tipos de estudo e testes estatísticos paramétricos Em seguida assista à videoaula que traz a explicação da aplicação da análise estatística em dois tipos de estudo o que ajudará na fixação dos conteúdos deste ebook Por fim os materiais comple mentares trazem na íntegra alguns estudos apresentados no texto e que são importantes para a finalização dos estudos Retomando conceitos Pesquisa clínica A pesquisa clínica é definida por muitos autores como estudos que envolvem seres humanos com o objetivo de gerar novos conhecimen tos sobre medicamentos tratamentos e procedimentos entre outros que afetam o ser humano Por exemplo um estudo que analisa a eficá cia de uma vacina é uma pesquisa clínica pois os resultados ajudarão a saber se a vacina fornecerá à população algum grau de proteção contra uma doença Outro exemplo são os estudos que analisam a relação en tre alimentos e doenças pois os resultados ajudarão a criar orientações alimentares sobre alimentos com maior risco associado às doenças e alimentos considerados protetores da saúde Portanto o conhecimento produzido em pesquisas clínicas pode ser utilizado pelos profissionais de saúde em sua prática clínica mas para que isso ocorra alguns conhecimentos são necessários e que estão descritos a seguir Interpretar estatísticas vitais como nascimentos e mortes pode ajudar a diagnosticar e tratar pacientes de forma eficaz Conhecer dados epidemiológicos das doenças como sua pre valência população mais atingida localização geográfica e fa tores de risco associados auxilia no diagnóstico e tratamento de pacientes e na tomada de decisões sobre a utilização de recursos de saúde na população Conhecer procedimentos diagnósticos para decidir correta mente qual será o procedimento em cada caso a partir de in formações sobre sensibilidade e especificidade de um exame diagnóstico Avaliar protocolos de estudo e artigos científicos para avaliar a qualidade de um projeto de pesquisa ou de um artigo antes de ser publicado Para tanto necessita de conhecimento sobre metodologias aplicadas em pesquisas incluindo tipo de estudos e análise estatística Diante do que já foi explicado percebese a importância das pes quisas clínicas para o conhecimento científico já que seus resultados podem e devem ser usados na tomada de decisões pelos profissionais da saúde em sua prática clínica Para que isso seja possível as pesquisas precisam ser adequadamente desenvolvidas de forma que os resultados sejam precisos e corretos Por isso este tipo de pesquisa necessita de Planejamento como o estudo será conduzido Objetivo definição clara do objetivo principal do estudo TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 74 Método definir tipo de estudo amostra instrumentos e métodos de coleta de dados Análise dos dados definir os testes estatísticos adequados para responder ao objetivo do estudo Resultados definir como os resultados serão apresentados usan do medidas de tendência central e ou de dispersão ou frequên cias em número e porcentagem além do formato de tabelas gráficos ou texto Conclusão resposta ao objetivo delimitado no início do estudo A seguir serão apresentados os objetivos da pesquisa e como estes podem ser relacionados com testes estatísticos paramétricos e tipos de estudo Objetivos da pesquisa Os principais objetivos de pesquisa relacionados à análise estatística e que serão abordados nesta trilha são comparar médias de dois grupos comparar médias de três ou mais grupos comparar médias de um grupo em dois momentos antes e depois Analisar associações entre duas variáveis quantitativas correlações Analisar associações entre duas variáveis qualitativas comparar proporções comparar proporções de uma variável qualitativa em dois mo mentos antes e depois Analisar concordância entre dois métodos ou dois avaliadores Nos próximos tópicos serão apresentados os principais testes es tatísticos paramétricos e sua aplicação de acordo com o objetivo da pesquisa e em quais tipos de estudos poderão ser aplicados Serão abordados testes estatísticos paramétricos que consideram que as va riáveis quantitativas têm aderência à distribuição normal Comparação de médias entre dois grupos Para comparar médias entre dois grupos independentes o teste es tatístico adequado é o teste t de Student que assume que as observa ções nos dois grupos são independentes Nesse caso o objetivo é des cobrir se na comparação entre as duas médias estas não têm diferença estatística ou se uma média é estatisticamente maior do que a outra Para exemplificar em um estudo podese desejar comparar as mé dias de rendimento mensal segundo o sexo ou seja descobrir se as Saiba mais estude a Trilha 7 do componente de Bioestatística TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 75 pessoas do sexo feminino ou do sexo masculino tem um rendimento maior do que o outro grupo ou se as médias não têm diferença estatís tica Nesse caso devese utilizar o teste t de Student para comparar as médias de rendimento segundo o sexo considerando os tipos de estudo o teste t de Student pode ser usado em estudos transversais para comparar variáveis quantitativas dois grupos que fazem parte da amostra estudos casocontrole para comparar variáveis quantitativas nos casos e nos controles Nas variáveis demográficas e socioeco nômicas esperase que não haja diferença estatística entre as médias para que não interfira nos resultados do estudo espera se que casos e controles sejam semelhantes Nas variáveis de interesse já são esperadas diferenças estatísticas entre os casos e controles estudos de coorte para comparar variáveis quantitativas em dois grupos em qualquer momento cronológico do estudo estudos experimentais para comparar o grupo experimental e o controle em relação às variáveis demográficas e socioeconômi cas no início do estudo as médias não devem ter diferença esta tística Já as variáveis de interesse após intervenção devem ter diferença estatística na comparação entre o grupo experimental e o grupo controle Comparação de médias entre 3 ou mais grupos Para comparar médias de uma variável quantitativa entre 3 ou mais grupos independentes utilizase a Análise de Variância ANOVA Oneway Esse teste estatístico fornece como resultado se as três ou mais médias não têm diferença estatística ou se pelo menos uma delas é diferente das outras isso significa que pela ANOVA caso haja diferença entre as médias não é possível identificar qual é a maior média em relação às outras Para identificar qual mé dia é maior do que as outras é necessário usar um teste estatístico posthoc ou a posteriori após a ANOVA ter um resultado significati vo que fará múltiplas comparações entre todas as médias que estão sendo analisadas como exemplo podese citar um estudo em que se deseja analisar a média de idade dos alunos de três cursos de Graduação Psicologia Nutrição e Fisioterapia Devese utilizar a ANOVA para a comparação das médias e tendo resultado significativo podemos usar um teste posthoc de Tukey para identificar em qual curso a média de idade é maior do que a outra Saiba mais estude novamente a Trilha 7 do componente de Bioestatística TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 76 considerando os tipos de estudo a ANOVA pode ser usada para estudos transversais para comparar variáveis quantitativas em três ou mais grupos que fazem parte da amostra estudos de coorte para comparar variáveis quantitativas em três ou mais grupos em qualquer momento cronológico do estudo estudos experimentais para comparar o grupo controle e outros dois grupos experimentais com relação às variáveis demográficas e socioeconômicas que sejam quantitativas no início do estudo sendo que se espera que as médias não tenham diferença esta tística Já as variáveis de interesse após intervenção devem ter diferença estatística entre os três grupos Comparação de médias do mesmo grupo em dois momentos diferentes Para comparar médias de uma variável quantitativa entre duas amos tras relacionadas ou seja a mesma amostra em dois momentos dife rentes antes e depois podese utilizar o teste t pareado Nesse caso as observações do mesmo participante são pareadas umas com as ou tras para observar se há diferença ao longo do tempo Para ilustrar imagine um estudo no qual as pessoas têm o peso afe rido no início e recebem uma intervenção para perda de peso Após 3 meses os participantes têm o peso aferido novamente para compa ração da média de peso antes com a média de peso após intervenção pelo teste t pareado considerando os tipos de estudo o teste t pareado pode ser usado estudos de coorte para comparar uma variável quantitativa no mesmo grupo em dois momentos cronológicos do estudo estudos experimentais para comparar o grupo experimental e o controle no início do estudo em relação ao final para variáveis quantitativas Esperase que as variáveis de interesse tenham di ferença estatística no grupo experimental e não no controle Associação entre duas variáveis quantitativas correlações A análise da associação linear entre duas variáveis quantitativas é realizada por meio da análise de correlação de Pearson Nesse caso calculase o coeficiente de correlação de Pearson que representa a força e a direção da correlação entre as duas variáveis como exemplo podemos pensar em um estudo com adultos que tem o objetivo de analisar a correlação entre o peso corporal referido e TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 77 o peso aferido Geralmente nessa situação a correlação é forte e po sitiva pois adultos costumam relatar seu peso corporal em valor muito próximo ao aferido em balanças A correlação de Pearson pode ser usada em estudos transversais para analisar a correlação entre duas variá veis quantitativas estudos casocontrole para analisar a correlação entre variáveis quantitativas em cada grupo em casos e controles estudos de coorte para analisar a correlação entre duas variáveis quantitativas em qualquer momento cronológico do estudo estudos experimentais para analisar a correlação entre variáveis quantitativas em cada grupo o experimental e o controle Analisar associações entre duas variáveis qualitativas comparar proporções Para analisar a associação entre duas variáveis qualitativas podese utilizar o teste do quiquadrado que compara frequências ou propor ções entre dois ou mais grupos O teste exato de Fisher é um substi tuto ao teste do quiquadrado quando houver uma tabela 2 X 2 cada variável qualitativa tem duas categorias e quando no cálculo das fre quências esperadas houver pelo menos uma das células da tabela com frequência esperada menor do que 5 como exemplo podemos citar um estudo no qual se deseja saber se há mais homens ou mulheres fumantes na amostra Nesse caso teremos quatro frequências homens fumantes homens não fumantes mulheres fumantes e mulheres não fumantes Ao aplicar o teste do quiquadrado teremos a resposta se a proporção de fumantes em homens e mulheres não tem diferença estatística ou se há maior proporção estatisticamen te significativa em um dos grupos de sexo O teste do quiquadrado pode ser usado em estudos transversais para comparar variáveis qualitativas dois grupos que fazem parte da amostra estudos casocontrole para comparar os casos e os controles em variáveis qualitativas Nas variáveis demográficas e socioe conômicas esperase que não haja diferença estatística entre as médias para que não interfira nos resultados do estudo Nas variáveis de interesse já se esperam diferenças estatísticas entre os casos e controles estudos de coorte para comparar variáveis qualitativas em dois grupos em qualquer momento cronológico do estudo estudos experimentais para comparar o grupo experimental e o controle em relação às variáveis demográficas e socioeconômicas Saiba mais estude novamente a Trilha 6 do componente de Bioestatística TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 78 no início do estudo as proporções não devem ter diferença es tatística Já as variáveis de interesse após intervenção devem ter diferença estatística na comparação entre o grupo experimental e o grupo controle Comparar proporções de uma variável qualitativa em dois momentos antes e depois O teste de McNemar analisa a diferença entre proporções de uma variável qualitativa em uma mesma amostra ao longo do tempo an tes e depois Nesse caso a variável qualitativa deve ter apenas duas categorias Podemos citar o exemplo de avaliação de um programa de capacita ção a trabalhadores no qual se deseja saber se a proporção de respos tas corretas a uma pergunta aumenta após a capacitação Então você faz essa pergunta antes da capacitação e terá um número X de pessoas que responderam corretamente e um número Y de pessoas que res ponderam incorretamente A capacitação é realizada nessas pessoas e a mesma pergunta é realizada novamente obtendo novo número de pessoas que responderam corretamente e que responderam incorreta mente O teste do McNemar avaliará se o número de pessoas que res pondeu corretamente após a capacitação é estatisticamente diferente maior ou menor do que no início do estudo Por que não podemos utilizar o teste do quiquadrado nesta situação de avaliação antes e depois A resposta está no procedimento dos dois testes estatísticos que é diferente O teste de McNemar irá parear as respostas de cada indivíduo nos dois momentos e avaliará a mudança da resposta ao longo do tempo O teste do quiquadrado não analisa as respostas a partir do pareamento ao longo do tempo por isso se torna inadequado nesta situação O teste de McNemar pode ser usado em estudos de coorte para comparar o mesmo grupo em dois momentos cronológicos do estudo em relação às variáveis qualitativas estudos experimentais para comparar variáveis qualitativas no grupo experimental e no controle no início do estudo em relação ao final esperase que as variáveis de interesse tenham diferença estatística no grupo experimental e não no controle Analisar concordância entre dois métodos A estatística Kappa analisa o grau de concordância entre dois exami nadores ou dois métodos no qual o mesmo indivíduo é avaliado duas TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 79 vezes A variável que avalia os examinadores ou métodos deve ser qua litativa para o uso desse teste estatístico que também é chamado de análise de confiabilidade interna um exemplo é a avaliação de pacientes por dois profissionais di ferentes e utilizando a mesma ferramenta para o diagnóstico de uma doença sim ou não O teste da estatística Kappa será realizado a partir da análise da porcentagem de respostas concordantes entre os dois profissionais após correção para concordância ao acaso O quadro 1 apresenta valores de Kappa e a interpretação correspon dente Esperase que a concordância entre as medidas seja adequa da a partir de valores de Kappa de 061 pois é considerada uma boa concordância Kappa Interpretação da concordância 093 100 Excelente 081 092 Muito boa 061 080 Boa 041 060 Regular 021 040 Discreta 001 020 Pequena 000 Ausência O teste de concordância Kappa pode ser usado em estudos transversais para comparar dois avaliadores ou dois mé todos em um mesmo grupo isso pode ser realizado antes do estudo propriamente dito para escolha do método ou calibração dos avaliadores estudos de coorte para comparar dois avaliadores ou dois mé todos em um mesmo grupo isso pode ser realizado antes do estudo propriamente dito para escolha do método ou calibração dos avaliadores estudos experimentais para comparar dois avaliadores ou dois métodos em um mesmo grupo isso pode ser realizado antes do estudo propriamente dito para escolha do método ou calibração dos avaliadores Quadro 1 Valores da estatística Kappa e interpretação correspondente Fonte adaptado de Byrt 1996 TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 80 Aplicações Estudo transversal Foi realizado um estudo transversal em amostra de adultos para ava liar características do tabagismo segundo o sexo Foram coletados da dos sobre sexo idade situação do tabagismo fumante exfumante não fumante tempo de tabagismo número de cigarros fumados por dia As análises estatísticas possíveis são Para analisar se há diferença na proporção de fumantes segun do o sexo deve se utilizar o teste do quiquadrado ou exato de Fisher caso haja alguma frequência esperada menor do que 5 Para analisar se há diferença na média do número de cigarros fuma dos por dia segundo o sexo devemos utilizar o teste t de Student Poderia ser analisada a correlação linear entre idade e número de cigarros fumados por dia por meio do coeficiente de correlação de Pearson Para saber mais sobre estudo transversal leia o artigo científico de Vasconcellos Almei da e Marimoto 2021 estudo realizado com amostra de bailarinos profissionais que teve como objetivo analisar o comportamento alimentar e a imagem corporal destes parti cipantes Para analisar diferenças segundo o sexo utilizouse o teste t de Student nas variáveis quantitativas tabelas 1 e 3 e o teste do quiquadrado nas variáveis qualitativas tabelas 2 4 e 7 Também foi utilizada a ANOVA para analisar diferenças das médias da Escala de Atitudes Alimentares Transtornadas em relação a outras variáveis qualitativas com 3 ou mais categorias Disponível em httpwwwrbnecombrindexphprbnearti cleview1923 Acesso em 12 abr 2022 Estudo casocontrole com o objetivo de avaliar características da alimentação associados com câncer de mama foi realizado um estudo do tipo casocontrole no qual foram selecionados em um hospital pacientes incidentes casos novos de câncer de mama casos e pacientes da clínica de ortopedia que não tivessem doenças ou condições relacionadas à alimentação controles Foi aplicado um questionário de frequência alimentar que questionava sobre o consumo de alimentos nos 12 meses anteriores ao início do estudo de forma que nos casos coincidia com o período ainda sem o diagnóstico da doença As análises estatísticas possíveis são Para analisar diferenças nas variáveis demográficas e socioeco nômicas entre casos e controles devese utilizar o teste t de Student nas variáveis quantitativas e o teste do quiquadrado nas variáveis qualitativas O ideal é que esses testes estatísticos não TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 81 resultem em diferenças significativas pois a única diferença en tre casos e controles deve ser a presença ou ausência da doença Para analisar as diferenças nas características da alimentação entre casos e controles o teste t de Student pode ser utilizado para com parar médias de consumo de porções de alguns alimentos como média do número de frutas consumido diariamente O teste do quiquadrado pode ser utilizado para comparar o consumo ou não de alimentos entre casos e controles como o consumo frequen te de gorduras aparentes de carnes Para saber mais sobre estudo casocontrole leia o estudo de Cezar et al 2020 um estudo casocontrole constituído por 248 indivíduos com transtorno do espectro autista TEA casos e 886 típicos controles com o objetivo de avaliar a associação entre TEA e as coocorrências de transtornos psiquiátricos entre familiares O teste do quiquadrado foi utilizado para analisar diferenças de algumas variáveis qualitativas entre casos e con troles tabelas 1 e 2 Como o estudo é do tipo casocontrole pode se observar o uso do odds ratio em alguns resultados Disponível em httpswwwscielobrjjbpsiqarwDxN 4LCvT9trtmcq3HT3wwlangpt Acesso em 12 abr 2022 Estudo de coorte Estudo de coorte foi realizado com alunos de graduação em Nutrição de uma instituição de ensino superior privada para analisar crenças e atitudes antiobesidade ao longo de sua formação Na 1ª etapa do curso os alunos responderam a um questionário contendo dados demográficos socioeconômicos e a Escala de Atitudes Antiobesidade que fornece uma pontuação final Os mesmos instrumentos de coleta de dados foram apli cados aos estudantes quando estes estavam na última etapa do curso As análises estatísticas possíveis são Para analisar se os estudantes mudaram suas crenças e atitudes antiobesidade ao longo do curso podemos utilizar o teste t pa reado para comparar as médias da Escala no início do curso em relação ao final do curso sendo que o esperado é que a média seja menor no final do curso demonstrando atitudes mais positi vas em relação às pessoas com obesidade Se houver uma variável qualitativa que foi aplicada no início do curso e reaplicada no final poderiam ser realizadas comparações por meio do teste de McNemar Para saber mais sobre estudo de coorte leia o artigo de Kaufmann et al 2012 sobre um estudo de coorte realizado na cidade de Pelotas RS com coleta de dados de bebês nasci dos entre setembro de 2002 e maio de 2003 os quais foram acompanhados até o terceiro mês de vida com o objetivo de estudar o padrão alimentar nos primeiros três meses de vida Neste estudo os bebês foram divididos em dois grupos que sofreram desmame no primeiro mês de vida e os que continuaram com a amamentação A partir desses dois gru pos as variáveis qualitativas foram comparadas pelo teste do quiquadrado Tabela 1 Também foram calculados o risco relativo em cada variável medida de associação muito usada em estudos de coorte Disponível em httpswwwscielobrjrppatwm6DWStkZ rpMzk4kBK8GDrlangpt Acesso em 12 abr 2022 TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 82 Estudo experimental com o objetivo de avaliar a eficácia de um medicamento novo para redução do colesterol sérico indivíduos com colesterol total sérico entre 200 e 300 mgdl foram recrutados e divididos aleato riamente em dois grupos intervenção que receberá o medicamento novo e o controle que receberá o medicamento convencional exis tente no mercado O estudo será um ensaio clínico randomizado duplo cego e controlado conduzido por seis meses No início e no final do estudo serão coletadas amostras de sangue para análise do colesterol total e frações características da alimentação e realiza ção de atividade física As análises estatísticas possíveis são Para comparar as variáveis demográficas entre os grupos experi mental e controle o teste t de Student pode ser utilizado para as variáveis quantitativas e o teste do quiquadrado para as variáveis qualitativas esperando que os resultados não tenham diferenças significativas Para comparar as médias do colesterol total e frações no início e no final do estudo será utilizado o teste t pareado esperandose que o grupo experimental tenha valores médios menores do que o grupo controle para demonstrar melhor eficácia do medica mento novo Para comparar as características de alimentação e de atividade física no início e no final do estudo se a variável for quantita tiva devese utilizar o teste t pareado mas se for qualitativa deve se utilizar o teste de McNemar Nesses casos esperase que não haja diferenças significativas nos dois grupos experimental e controle para demonstrar que outras características que pode riam interferir no colesterol total e frações não foram modifica das ao longo do estudo Para saber mais sobre estudos experimentais leia o estudo de Silva et al 2021 so bre um ensaio clínico randomizado duplocego realizado em um Hemocentro do interior de Minas Gerais com o objetivo de avaliar os efeitos da música sobre ansiedadeestado parâmetros fisiológicos e laboratoriais em doadores de sangue O grupo experimental recebeu uma intervenção musical antes de doar sangue e o grupo controle teve a roti na padrão antes da doação Aplicouse o Inventário de Ansiedade TraçoEstado e cole taramse dados de pressão arterial saturação e oxigênio níveis de cortisol frequência cardíaca e respiratória antes e depois da doação de sangue Utilizouse o teste t de Stu dent para comparar as variáveis quantitativas nos grupos experimental e controle Tabela 2 Disponível em httpswwwscielobrjapeaPd5f7tg8BHHFkjPRGRMmLHwlangpt Acesso em 12 abr 2022 TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 83 Síntese Nesta trilha foi abordada a aplicação dos principais testes estatísticos paramétricos aos objetivos de pesquisa e tipos de estudo conhecimentos estudados em outras trilhas deste Bioestatística e de outro Epidemiologia componente curricular foram integrados para que se possa desenvolver adequadamente a análise estatística em cada situação de pesquisa clínica Percebese a importância de conhecer cada teste estatístico como funciona em que situação pode ser utilizado qual é o resultado que irá fornecer com esse conhecimento saber aplicar o teste estatístico correto para cada desenho de estudo se torna algo descomplicado O quadro 2 apresenta um resumo dos objetivos de pesquisa apre sentados nesta trilha e os testes estatísticos paramétricos que podem ser usados em cada caso Objetivo da pesquisa Teste paramétrico comparação de 2 médias em amostras independentes t de Student comparação de 2 médias em amostras relacionadas t pareado comparação de 3 ou mais médias em amostras independentes Análise de variância ANOVA coeficiente de correlação Pearson Teste de proporções em amostras relacionadas McNemar comparação entre proporções quiquadrado Exato de Fisher Teste de concordância Estatística Kappa caso tenha interesse em aprofundar os estudos de alguns te mas abordados nesta trilha consulte os materiais complementares lembrese de realizar os exercícios de fixação desta trilha pois eles ajudarão na finalização de seus estudos Referências ARANGO h G Bioestatística teórica e computacional 3 ed Rio de Janeiro Guanabara Koogan 2011 438p Quadro 2 Resumo dos principais testes estatísticos paramétricos segundo objetivos da pesquisa Fonte elaborado pela autora TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 84 BERquÓ E SOuZA J GOTliEB S Bioestatística 2 ed São Paulo EPu 2009 353p BuSSAB W O MORETTiN P A Estatística Básica 5 ed São Paulo Saraiva 2005 BYRT T how Good is That Agreement Epidemiology v 7 n 5 1996 Disponível em httpsjournalslwwcomepidem citation199609000howGoodisThatAgreement30aspx Acesso em 6 fev 2022 cAllEGARiJAcquES S M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 255p cARVAlhO E c de A pesquisa clínica e algumas estratégias para seu fortalecimento Rev LatinoAm Enfermagem v 19 n 1 duas telas 2011 cEZAR i A M et al um estudo casocontrole sobre transtorno do espectro autista e prevalência de história familiar de transtornos mentais J Bras Psiquiatr v 69 n 4 p 247 54 2020 Disponível em httpswwwscielobrjjbpsiqa rwDxN4lcvT9trtmcq3hT3wwlangpt Acesso em 4 fev 2022 cRATO A N et al como realizar uma análise crítica de um artigo científico Arquivos em Odontologia v 40 n 1 p 001110 2004 DAWSON B TRAPP R G Bioestatística Básica e Clínica 3 ed Rio de Janeiro McGrawhill interamericana do Brasil ltda 364 p DíAZ F R lÓPEZ J B Bioestatística São Paulo Pioneira Thomson learning 2007 284p KAuFFMANN c c et al Alimentação nos primeiros três meses de vida dos bebês de uma coorte na cidade de Pelotas Rio Grande do Sul Rev Paul Pediatr v 30 n 2 p 15765 2012 Disponível em httpswwwscielobrjrppatwm6DWStkZrpMzk4kBK8GDrlangpt Acesso em 4 fev 2022 PAES A T itens essenciais em bioestatística Arq Bras Cardiol v 71 n4 57580 1998 PAGANO M GAuVREAu K Princípios de bioestatística São Paulo Thomson Pioneira 2011 xv 506p RONDiNi c A et al leitura crítica dos procedimentos estatísticos aplicados no campo da Psicologia Avances en Psicología Latinoamericana v 34 n 3 p 605613 2016 ROuquAYROl M Z AlMEiDA FilhO N Epidemiologia e saúde 6 ed Rio de Janeiro Medsi 2003 TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 85 SilVA K F N et al Efeitos da música na ansiedade de doadores de sangue ensaio clínico randomizado Acta Paul Enferm v34 eAPE00461 2021 Disponível em httpswwwscielobrjapea Pd5f7tg8BhhFkjPRGRMmlhwlangpt Acesso em 4 fev 2022 VAScONcEllOS E G AlMEiDA A R MARiMOTO J M comportamento alimentar e imagem corporal de bailarinos profissionais associados às percepções no ambiente de trabalho Revista Brasileira de Nutrição Esportiva v 15 n 95 p 426441 2021 Disponível em httpwwwrbnecombrindexphprbnearticle view1923 Acesso em 3 fev 2022 ViEiRA S Bioestatística tópicos avançados 2 ed Rio de Janeiro Elsevier 2004 216p TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 86
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
Texto de pré-visualização
Camila Sachelli Coord Universidade Presbiteriana Saúde Pública Modalidade a distância Bioestatística 3 Produção editorial Nome Sobrenome Projeto e diagramação Nome Sobrenome Dados Internacionais de Catalogação na Publicação CIP Câmara Brasileira do Livro SP Brasil Nonononononono NOnononononononononononno non on ono no nnon ono nononnonnonnononnono ISBN 00000000000000 1 Estudo e ensino I Título II Série 00000000 CDD0000 Índices para catálogo sistemático 1 Estudo e ensino 4207 Nononononononono Bibliotecária CRB00000 2021 Universidade Presbiteriana Mackenzie Todos os direitos reservados à Universidade Presbiteriana Mackenzie Nenhuma parte desta publicação poderá ser distribuída ou substituída por qualquer meio ou forma sem a prévia autorização Universidade Presbiteriana Rua da Consolação 930 São Paulo SP CEP 01302907 T el 11 21148000 wwwmackenziebr Apresentação do componente curricular 4 TRILHA 1 Principais conceitos em bioestatística 5 TRILHA 2 População e cálculo amostral 13 TRILHA 3 Tipos de variáveis 23 TRILHA 4 Medidas de tendência central e de dispersão separatrizes 32 TRILHA 5 Noções sobre testes de hipóteses e significância estatística 43 TRILHA 6 Distribuição normal e o teste do quiquadrado 52 TRILHA 7 Testes estatísticos paramétricos 63 TRILHA 8 Aplicação da Bioestatística na pesquisa clínica 72 Sumário Apresentação do componente curricular Bioestatística é nome que se dá ao uso da estatística aplicada a dados biológicos Já a estatística é a parte da matemática aplicada que fornece métodos para coleta organização descrição análise e interpretação de dados para que então seja possível tirar conclusões e tomar decisões acerca de um fenômeno de estudo Neste componente curricular o alu no entenderá todas essas etapas da estatística que são absolutamente necessárias para aplicação e entendimento da ciência contemporânea ou seja conhecimento produzido a partir de dados matemáticos Para ter uma clara noção da relação entre dados biológicos e a ma temática é preciso entender a origem da estatística Tal origem se deu justamente para contornar uma das características mais fundamentais das ciências naturais a variação entre indivíduos A premissa básica da seleção natural é de que indivíduos variam entre si e essa variação é definida pelo genoma e possui uma herdabilidade Assim como pode mos assegurar por exemplo que determinado tratamento funciona para todos os indivíduos se sabemos que há variação entre eles Uma das primeiras revistas científicas sobre estatística foi a Biometrika criada em 1901 pela Universidade de Oxford e que teve como um dos seus fundadores e editores Karl Pearson responsável por desenvolver testes como o ChiQuadrado e Correlação Linear Como o próprio nome sugere o objetivo da revista que existe até hoje era publicar dados e experimentos sobres métricas biológicas Em linhas gerais surge então a bioestatística ou seja métodos científicos e ma temáticos para estudar e encontrar padrões em fenômenos naturais O que vamos aprender ao longo do componente curricular são os métodos matemáticos e estatísticos usados como ferramenta primordial para o estudo científico na área da saú de Primeiramente conheceremos os con ceitos básicos como população amostra desenho experimental passando para me didas descritivas como média e desviopa drão além de uso de gráficos e tabelas para encerrar com os testes de hipótese testes mais robustos que nos permitirão tirar conclusões sobre uma população de estudo a partir da amostra Bons estudos METAMORWORKSGETTYIMAGES COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 1 Principais conceitos em bioestatística Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem O que é verdade em ciência Esse é o principal conceito que preci samos entender na ciência moderna Quando falamos que um determi nado fenômeno natural acontece ou que um tratamento farmacológico pode ser empregado nas pessoas o quanto temos certeza disso Vamos usar um exemplo e partir daquela premissa básica pessoas são diferen tes pois há sempre variação genética entre os indivíduos Vamos então criar um medicamento para uma doença X Posso criar esse medica mento e testar em uma pessoa apenas Se surtir efeito nessa pessoa é certo que faça efeito em todas as outras Então para garantir que um medicamento uma vacina ou um tratamento fisioterapêutico funcione preciso ter um método científico válido e verificado por pares Como ponto de partida devemos ter uma amostragem bem deli neada para que possamos ter informações suficientes e de qualidade para então realizar os testes estatísticos adequados para cada tipo de conjunto de dados Nesse cenário o importante é que na amostragem nunca obtemos dados de 100 da população de estudo exceto amos tragem do tipo censo Por isso filosoficamente um pesquisador nunca terá a verdade absoluta pois nossos estudos são sempre com base em uma pequena parcela da população Nesta trilha vamos entender os princípios básicos da estatística e a sua importância na produção do conhecimento pois mesmo que não tenhamos certeza por questão puramente filosófica tentaremos che gar bem próximo disso com a escolha da amostragem adequada e com o uso correto dos testes estatísticos Conceitos básicos Sabemos que para produzir qualquer tipo de conhecimento científi co não basta realizar um teste ou um experimento com base em uma ou duas pessoas ou cobaias certo As pessoas e os animais variam ge neticamente e podem responder de modo diferente a um tratamento Assim precisamos realizar o experimento com um número satisfatório de indivíduos para decidir se o fenômeno de estudo é um padrão que poderia ser extrapolado até mesmo para os indivíduos que não fizeram parte do teste Com toda certeza você já tomou algum medicamento ou vacina mas nunca fez parte de um estudo clínico para saber se tal medicação funciona em você ou não Para isso foram feitos testes em animais a princípio depois em pessoas que aceitaram participar de um experimento para então saber que o medicamento é eficaz para a maioria das pessoas e não é mero fruto do acaso A amostra é uma fração ou parte de uma população de estudo Uma população não necessariamente se refere à população humana mas sim àquilo que você quer estudar podendo ser pessoas objetos ani mais plantas bactérias enfim qualquer coisa Uma população é por tanto um conjunto de unidades individuais que tenham uma caracte rística em comum ou seja aquilo que se deseja estudar Com base na amostra todo estudo estatístico é realizado Nesse pon to definimos o que é a inferência estatística quando tomamos uma decisão sobre a população de estudo com base na amostra Entretanto uma série de etapas precisa ser realizada para chegarmos a esse ponto Vamos definir a seguir essas etapas porém elas serão retomadas a todo momento ao longo do componente curricular Uma boa amostragem garantirá bons dados para serem analisados Lembrese de que para maus dados não há boa estatística Não basta coletar dados e esperar que eles respondam uma pergunta que você nunca fez Isso é o chamado método de pesca isto é jogase a isca e quem sabe se pesca alguma coisa Isso nunca deve ser feito Um dos nomes mais importantes da estatística e da ciência foi Ronald Aylmer Fisher que estabeleceu de maneira muito precisa o chamado desenho experimental Isso significa que para responder uma questão em ciência você deve desenhar seu experimento de modo que obtenha os dados corretos para responder aquela pergunta Então toda amos tragem deve ter foco e ter muito claro qual é o objetivo da pesquisa O tamanho amostral indicado será sempre relativo à cada objeto de pesquisa e será discutido em momentos específicos O que devemos TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 7 entender agora é que a amostragem está sempre relacionada à popu lação de estudo Por exemplo Foram coletadas informações de tipa gem sanguínea de 350 crianças de 5 a 10 anos residentes da cidade de Goiânia Goiás Qual é a amostra e qual é a população de estudo A amostra são 350 crianças já a população de estudo são crianças de 5 a 10 anos residentes da cidade de Goiânia Goiás Logo quaisquer conhecimentos que tenham sido obtidos com base nessa amostra e que possam ser extrapolados para a população irá se referir às crianças de 5 a 10 anos de Goiânia Goiás O conhecimento produzido sobre tipagem sanguínea pode ser usado para todas as crianças Não Para todas as crianças de 5 a 10 anos Não Para todas as crianças de 5 a 10 anos residentes da cidade de Goiânia Sim É claro que trataremos de representatividade e técnicas de amostragem mas vamos considerar que as crianças foram sorteadas ao longo de toda a cidade de Goiânia No exemplo anterior a variável de estudo é a tipagem sanguínea um conjunto de resultados possíveis de um fenômeno Então nesse caso podemos ter os quatro tipos sanguíneos A B AB e O Veja o que são esses resultados possíveis do fenômeno de estudo Podemos cole tar também as idades em anos das crianças Dentro do nosso desenho experimental as idades possíveis são crianças de 5 6 7 8 9 ou 10 anos Assim temos dois tipos de variáveis uma variável categórica e uma variável numérica respectivamente Os tipos de variáveis serão tratados em uma trilha específica pois dependendo do tipo teremos diferentes modos de apresentar os dados gráficos e testes estatísticos apropriados Definidas a amostra população e variável coletamos então os dados de uma variável de estudo dentro de uma amostra específica e esta é representativa da população Depois de coletadas as informações das variáveis de estudo devemos iniciar as análises dentro da chamada es tatística descritiva Essa é a primeira fase das análises que irão justa mente descrever todo o conjunto de dados no entanto não podemos tirar nenhuma conclusão sobre a variável de estudo Ainda Dentro da análise descritiva faremos cálculos matemáticos como média desviopadrão e também apresentar os dados em gráficos e tabelas adequadas Nesse ponto há um conceito extremamente im portante Uma média por exemplo é um cálculo matemático que é um resumo numérico do conjunto de dados da amostra Se ao exe cutar toda a análise descritiva encontrarmos algumas características apropriadas podemos considerar essa média um resumo numérico do conjunto de dados mas para a população esse conceito é chamado de parâmetro Toda uma família de testes estatísticos é baseada nes se conceito chamada de testes paramétricos Logo chegaremos a esse ponto TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 8 Quando encontrarmos essas características específicas nos conjun tos de dados coletados e as considerarmos parâmetros então entra remos na chamada Estatística Inferencial tirar conclusões para a população de estudo com base na amostra O quão certo ou correto eu devo estar ao fazer essa inferência estatística Será que 50 de probabilidade de estar certo Bom 50 seria um cara e coroa Em ciência devemos ser mais precisos correto Será que 80 O que automaticamente significa que você teria 20 de probabilidade de estar errado Parece ainda muito alto Então como grande consenso em ciência costumamos trabalhar com 95 ou 99 de probabilida de de fazer uma inferência válida Vamos trabalhar bem esse conceito na trilha dos testes de hipótese mas os conceitos já são evidentes Primeiro a probabilidade é sempre teórica ou seja não há a tal certe za Segundo a certeza ou a verdade não existem em ciências por essas duas razões Sempre teremos a ideia de probabilidade Segundo por não termos coletado todas as informações possíveis existentes Então palavras como certo errado certeza verdade não devem ser usadas em redação científica combinado Amostra população e inferência Vamos buscar entender melhor ao ler trabalhos acadêmicos como devemos interpretar a relação amostra e população de estudo e de pois como são interpretados os resultados Uma das grandes vantagens na redação científica em trabalhos acadêmicos é que há um padrão na maneira de escrever os métodos e os resultados Vamos desde já com binar que nossa escrita deve seguir esse padrão científico assim como aprendemos qualquer técnica em uma graduação ou pósgraduação Vamos rever um ponto ao trabalhar na redação e no método cien tífico A palavra método vem do grego methodos que é derivado de metá met depois ou que segue e hodós caminho isto é significa literalmente seguir um caminho Então tudo o que lemos e escreve mos na secção de métodos em um artigo científico deve servir para que uma pessoa ao ler não fique com dúvida de absolutamente nada e possa repetir os mesmos procedimentos metodológicos que você e chegue aos mesmos resultados já que ambos seguem o mesmo ca minho Assim não podemos apresentar um dado um resultado ou um gráfico sequer e não ter dito como e por que fizemos tal coisa Ou seja um gráfico não pode ser apresentado nos resultados sem ter sido dito por que e como o fizemos detalhadamente Você gostaria de ao ler os TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 9 resultados de um artigo científico se deparar do nada com um resul tado sem ter sido dito como esse resultado foi gerado Não lhe traria dúvida Então não podemos cometer esse tipo de erro Aqui vamos lançar um desafio Leia ao menos cinco artigos cientí ficos de um tema da área da saúde de que você goste e tente identi ficar os pontos trabalhados nesta trilha e os tais padrões que estamos começando a entender Antes de tudo precisamos estar de acordo com o fato de que nenhum artigo científico lhe ensinará estatística Todo e qualquer trabalho acadêmico parte do pressuposto de que o leitor tenha a habilidade e o conhecimento estatístico por isso esse com ponente curricular é extremamente importante uma vez que sem ele não sabemos ler um artigo científico por completo Nesse desafio pela busca de artigos científicos procure em buscado res científicos válidos como PubMed Scielo ou Google Acadêmico Busque também por artigos experimentais ou seja não um artigo de revisão ou pesquisa documental pois estes dificilmente terão a parte estatística que estamos procurando Vale ressaltar que a qualidade das revistas acadêmicas pode variar bastante e você deve começar a se preocupar com isso Além disso não tenha medo de ler artigos em in glês pois o fato é que esse idioma se tornou quase regra em ciências tanto que muitas revistas brasileiras aceitam apenas artigos em inglês Ao ler os métodos nos artigos primeiro será detalhada a amostra gem Na próxima trilha vamos trabalhar os diferentes tipos de amos tragem mas no geral os artigos dirão de forma muito clara como foi realizada a amostra e automaticamente entenderemos qual é a popu lação de estudo Já vimos um exemplo mas vamos a outro desta vez hipotético Foram selecionados 160 atletas de um clube esportivo da cidade de São Paulo que aceitaram participar do estudo Os atletas ti nham entre 18 a 25 anos de idade homens e mulheres sem relato de doenças crônicas considerados portanto saudáveis Qual é a popula ção de estudo e qual é a amostra No exemplo anterior temos que a população de estudo são atletas saudáveis de 18 a 25 anos de um clube esportivo da cidade de São Paulo A amostra são os 160 participantes E agora Como será a in terpretação dos resultados desse estudo Complementando na secção métodos Os participantes foram separados em dois grupos um grupo que recebeu um complemento vitamínico e outro que recebeu place bo ou seja uma cápsula sem nenhum princípio ativo Foram avaliados os recordes pessoais em tempo de cada participante na sua modalidade esportiva antes de começarem a receber o complemento vitamínico e depois de três meses foi avaliado se os recordes pessoais diminuíram há vários detalhes que não foram tratados aqui mas que ainda poderão ser trabalhos nas próximas trilhas Para acessar os buscadores acesse os seguintes links PUbMed httpspubmed ncbinlmnihgov Scielo httpswwwscielo brlngpt Google Acadêmico httpsscholargooglecom br TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 10 Você pode se perguntar será que os atletas não melhoraram seus respectivos tempos apenas porque se passaram três meses que estão treinando Ótima reflexão E é justamente isso que retrata a estatística tentar obter dados e resultados que diminuam o máximo possível de in fluências externas daquilo que se está testando Exatamente por essa razão a execução do experimento foi feita em dois grupos Se os dois grupos melhorarem significa para essa população de estudo que o com plemento vitamínico não teve efeito nos recordes pessoais dos atletas Como será a descrição dos resultados neste nosso exemplo Vou escrever de forma ainda superficial para completarmos o desafio desta trilha no entanto palavras como significativo ou significativamen te devem aparecer na leitura assim como p005 ou p5 Esses termos merecem um estudo mais aprofundado nas próximas trilhas Contudo vamos aos resultados Ao final do experimento houve me lhora nos recordes pessoais dos atletas que tomaram o complemento vitamínico em relação aos participantes que não o tomaram Vamos estudar melhor a probabilidade no futuro mas será que esse resultado significa que o complemento funcionou em todos os atletas que toma ram o complemento vitamínico Não Será que não houve atletas que tomaram placebo e que melhoraram seus tempos Sim Por que essas respostas Porque há variação entre as pessoas mas o que buscamos é o padrão Assim houve diferença no grupo como um todo e não nos atletas analisados individualmente E por fim o complemento vitamí nico funciona para todos os atletas Não Funciona para atletas saudá veis de 18 a 25 anos de um clube esportivo da cidade de São Paulo E por que não podemos extrapolar para todos os atletas saudáveis Porque não foram amostrados atletas saudáveis de outras idades E por que não podemos extrapolar para todos os atletas saudáveis de 18 a 25 anos Porque não foram amostrados atletas saudáveis de 18 a 25 anos em vários clubes esportivos ao longo do Brasil ou mesmo de toda a cidade de São Paulo A inferência estatística reportada deve ser seguida rigorosamente na redação científica mas na prática isso significaria que o complemento vitamínico poderia ser usado por atletas para melhorar a performance nos seus esportes Sim É claro que várias etapas seriam necessárias até tal recomendação e liberação desse complemento vitamínico mas a grande lógica da estatística é essa Não é preciso testar tudo em todas as pessoas do mundo A estatística e os métodos científicos estão aí para isso assegurar que algo funcione em uma probabilidade acei tável em até mesmo quem nunca participou de um estudo Então por isso tomamos vacinas medicamentos temos tais modos e estilos de vida não devemos fumar cigarro e consumir excessivamente diferentes produtos O conhecimento produzido na ciência irá e deve ser usado por toda a sociedade essa é a finalidade da estatística e da ciência TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 11 Síntese Vimos os conceitoschave de toda a estatística Nesse momento veja se conseguiu refletir sobre o que é Verdade em ciências Vimos também que a estatística é empregada para contornar o inerente fato que as pessoas ou os organismos são diferentes apresentan do alta variabilidade Entendeu os conceitos de amostra e popula ção Observamos que a amostra deve ser muito bem pensada com foco na pergunta que se quer responder que ela é representativa da população e que as conclusões sobre uma população devem cuidado samente interpretadas e redigidas Referências ARANGO h G Bioestatística teórica e computacional 3 ed Rio de Janeiro Guanabara Koogan 2009 BERQUÓ E SOUZA J GOTLIEB S Bioestatística 2 ed São Paulo EPU 1981 BUSSAB W O MORETTIN P A Estatística básica 5 ed São Paulo Saraiva 2005 CALLEGARIJACQUES S M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 DíAZ F R LÓPEZ J B Bioestatística São Paulo Pioneira Thomson Learning 2007 PAGANO M GAUVREAU K Princípios da bioestatística São Paulo Thomson 2004 VIEIRA S Introdução à bioestatística São Paulo Pioneira Thomson Learning 2005 TRILhA 1 PRINCIPAIS CONCEITOS EM BIOESTATíSTICA 12 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 2 População e cálculo amostral Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem A presente trilha tratará sobre população e como faremos sua amos tragem Talvez essa seja a etapa mais importante em um estudo esta tístico pois caso esta seja mal dimensionada ou mal planejada o estu do não conseguirá responder à sua pergunta Simples assim Na trilha anterior vimos também que para dados ruins não há boa estatística Vimos que a amostra deve ser representativa da população e como a redação científica garante ao leitor a interpretação sobre a população de estudo Ou seja muitos artigos científicos não dizem claramente a população de estudo é mas relatam detalhadamente a amostra gem e logo entendemos qual é a população do estudo Então vamos aprender como fazer uma boa amostragem principalmente com foco no objetivo da pesquisa Amostragem Sabemos o que é população mas quanto eu devo amostrar dessa população de estudo Essa pergunta é fácil de responder não há um número certo ou um número mágico Isso porque há uma série de fa tores que podem definir como será sua amostra dentro do contexto de cada estudo Ao estudar os testes e cálculos estatísticos vamos enten der que existe sim uma premissa básica do tamanho amostral quanto maior o número da amostra melhor é Isso porque quanto maior o tamanho da amostra menor será o erro associado a uma tomada de decisão Entretanto há ressalvas sobre essa afirmação será que preciso amostrar muito Por exemplo 500 mil pessoas O projeto tem tempo e financiamento para tudo isso A Estatística serve justamente para isso Talvez não seja preciso coletar tanto assim e há um número razoável para realizar estudos excepcionais Vamos definir que tamanho amos tral pode ser referido apenas como o símbolo n ou namostral ok Um primeiro ponto sobre o tamanho amostral é sabemos qual é o tamanho da população de fato Por exemplo um estudo pretendia ava liar a pressão sanguínea sistólica de pacientes de 40 a 50 anos de idade que deram entrada nos hospitais públicos da cidade do Rio de Janeiro durante o ano de 2018 Se o estudo foi idealizado anteriormente a essa data é óbvio não há como saber qual seria o namostral Se forem utilizados os prontuários dos hospitais o pesquisador até pode usar todos os dados disponibilizados mas será que teria tempo e precisaria de todos os prontuários Talvez apenas uma fracção desses prontuários seja suficiente No caso anterior a população e a amostra de estudo poderiam ser realmente grandes Mas em casos mais restritos Por exemplo um estudo pretendia avaliar pacientes com uma síndrome rara no ano de 2019 na cidade de Campinas e que aceitem fazer um ensaio clínico com um determinado tratamento Quantos pacientes teríamos para esse estudo Se tivermos apenas oito pacientes dessa síndrome rara seria indicado não fazer o estudo Se não fizermos esse estudo pela limitação amostral continuaremos não tendo informações e conheci mentos sobre síndrome rara Vocês devem concordar que o estudo deve ser feito mas é claro que toda a análise estatística irá ser condi zente a esse n Embora seja difícil definir o número amostral há alguns cálculos e sugestões que podem ser usados e novamente não há uma regra Algumas sugestões serão mais bem compreendidas nas trilhas futuras e em muitos casos só saberemos se os dados coletados poderão ser TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 15 usados em determinados testes estatísticos após a análise exploratória para verificar se o seu conjunto de dados apresenta ou não determina do padrão Vale lembrar que a escolha da técnica de amostragem e o desenho experimental é mais importante que focar apenas em aumen tar o tamanho amostral Ou seja não adianta ter um grande número amostral se o desenho experimental não controla as variáveis que você quer estudar Assim vamos tratar dos cálculos do tamanho amostral e em seguida das técnicas de amostragem e do desenho experimental Veja a seguir uma equação que podemos usar para o cálculo do ta manho da amostra Nesse caso sabemos qual é o tamanho da popula ção e vamos padronizar alguns valores para não ficar muito abstrato 1 1 1 2 2 2 n N z p p z p p e N Onde n tamanho da amostra N tamanho da população z zscore variável normalizada vamos definir 196 que é usado para um intervalo de confiança de 95 e erro amostral em fração decimal vamos definir 5 ou seja 005 p probabilidade do evento em fração decimal vamos definir que o evento pode ser de 50 ou seja 05 Vamos exemplificar e calcular o tamanho amostral para uma popu lação com 750 pessoas Tente fazer o cálculo matemático apresentado anteriormente você chegará no resultado aproximado de 255 Neste caso consideramos que um evento de estudo teria a probabilidade de ocorrer em 50 Usamos esse padrão pois talvez não seja ainda conhe cida a probabilidade de ocorrer uma doença por exemplo Caso essa probabilidade já seja conhecida a amostragem se tornará mais precisa Outra fórmula mais simples seria a fórmula de Slovin 1 2 n N N e Onde n tamanho da amostra N tamanho da população e erro amostral em fração decimal vamos definir 5 ou seja 005 Ao calcular o tamanho amostral para uma população com o mesmo tamanho de 750 pessoas você deverá chegar a um valor aproximado de 260 TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 16 Outras sugestões são baseadas em testes que calcularemos em bre ve Quando calcularmos a média e o respectivo intervalo de confiança que seria a precisão da média populacional o n que aumenta a precisão desse cálculo é de 30 Então esse seria um valor razoável quando que remos comparar médias Em testes de hipótese uma das premissas básicas é que o conjunto de dados apresente distribuição normal Vamos estudar o que é distri buição normal mas explicando em poucas palavras é quando os dados apresentam um determinado padrão que possibilita calcular a proba bilidade de qualquer evento Por exemplo a medida de colesterol de um conjunto de dados apresentou distribuição normal com média de 114 mgdl qual seria a probabilidade de uma pessoa dessa população apresentar colesterol acima de 150 mgdl Nessa situação apenas sa beremos se o padrão foi encontrado após a coleta de dados o que difi culta saber qual seria o namostral que deveríamos ter coletado Aqui novamente quanto maior o namostral maior a chance de encontrar esse padrão Nesse caso namostrais abaixo de 30 ou 50 dificilmente apresentarão o padrão desejado mas isso não é uma regra vai depen der da natureza da variável estudada Técnicas de amostragem e desenho experimental Amostragem nada mais é do que o procedimento para a escolha dos elementos que irão compor a sua amostra Você deve estar imaginan do qual seria a forma de escolher as 255 pessoas para o meu estudo Sabemos que nós seres humanos somos altamente influenciáveis in clusive de modo inconsciente Então imagine que você tenha disponí vel 750 pessoas para o seu estudo Se você for escolher pode ser que o seu subconsciente queira selecionar pessoas mais saudáveis ou pessoas que concordarão com sua hipótese do estudo Assim a forma mais se gura é sempre a aleatorização ou simplesmente sorteio Nesse caso o pesquisador não sofrerá qualquer influência sendo portanto imparcial na amostragem e a seleção será ao acaso Na amostragem aleatória ou casual os elementos são retirados ao acaso a partir da população Isso não significa que você irá sortear os participantes do seu estudo sem nenhum critério Vale lembrar que a sua população deve ser definida por você e a partir dos critérios que você definiu para sua a população e com base no seu desenho expe rimental deve sortear os participantes do seu estudo Por exemplo TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 17 vamos selecionar 300 pacientes de modo aleatório que entraram na UTI por Covid19 em um determinado hospital particular no ano de 2022 sendo 150 homens e 150 mulheres Veja que a população do estudo foi definida e foram separados em dois grupos por gênero que gostaríamos de comparar No entanto o fato é que os pacientes foram sorteados dentre os tantos pacientes da população A amostragem sistemática é o tipo de amostragem em que os ele mentos são selecionados de acordo com um sistema definido pelo pes quisador Pode ser um sorteio sequencial a partir de uma ordenação natural da variável ou da população Por exemplo os prontuários de pacientes em uma clínica de fisioterapia são ordenados de modo alfa bético então você pode sortear um número de 1 a 10 e a partir desse número sorteado selecionar o décimo prontuário a partir do último Veja que você criou um sistema de amostragem e que não tem influên cia na escolha dos elementos há também a amostragem por conveniência na qual os elementos são selecionados simplesmente porque o pesquisador dispunha dos da dos É um método de amostragem mais flexível mas é muito usado nas pesquisas científicas A grande ressalva é que as conclusões do estudo se limitarão a uma população do estudo também menor Um exemplo seria um educador físico que já trabalha dentro de um clube ou em um time de algum esporte e ele irá selecionar cem participantes que fre quentam o clube Nesse caso a população e as conclusões se limitarão à população de frequentadores do clube Desenho experimental Independentemente da técnica a amostragem deve estar sempre relacionada ao seu objetivo Ou seja o desenho experimental é todo o procedimento que o pesquisador irá realizar visando responder à per gunta científica do estudo Imagine que um farmacêutico queira testar a hipótese de que um fitoterápico reduza triglicerídeos nas pessoas Então ele seleciona 10 participantes que irão tomar o fitoterápico por 60 dias Como ele sa berá que foi o fitoterápico que reduziu os triglicerídeos Apenas 10 participantes seriam suficientes nesse caso E se as 10 pessoas já es tavam fazendo algum tratamento Será que não seria o caso de com parar com outras pessoas que tomariam um placebo Então entramos nos conceitos de tratamento versus controle Figura 1 Geralmente o tratamento é aquilo que se pretende testar e o controle é um placebo ou tratamento já utilizado ou conhecido TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 18 Controle Tratamento Outro conceito extremamente importante é o de repetição ou ré plica Você deve concordar que executar um experimento com uma pessoa é muito pouco em virtude da variabilidade intrínseca dos or ganismos vivos Já discutimos isso e também em relação ao número amostral Assim repetição é executar um tratamento ou um experi mento repetindoo em diferentes unidades amostrais Figura 2 O pesquisador pode querer comparar também diversos tratamentos Por exemplo um grupo de participantes será dividido em três grupos para receber três diferentes concentrações de um princípio ativo de um fármaco Essa divisão deverá ser sorteada para reduzir novamente a influência do pesquisador Figura 3 Sorteio Tratamento A Tratamento B Tratamento C Figura 1 Esquema de um experimento de controle versus tratamento Fonte elaborada pelo autor Figura 2 Esquema de repetições de unidades experimentais Fonte elaborada pelo autor Figura 3 Esquema de um experimento ao acaso Fonte elaborada pelo autor TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 19 A sugestão na divisão entre os grupos é sempre que tenham o mes mo número de repetições ou réplicas mas isso nem sempre é possível Por exemplo em um teste com colônias de bactérias em placas de petri pode acontecer de quebrar ou não dar certo uma ou algumas repetições Em testes com ratos ou cobaias algumas unidades amos trais podem morrer ou não desenvolver a indução de uma doença por exemplo Nesses casos você acredita que todo o experimento deve ser refeito desde o início Não Os testes estatísticos a serem empregados irão considerar esse não balanceamento entre os grupos E sim pode acabar sendo um teste menos forte mas com certeza não é o fim do mundo e os testes garantirão bons resultados Outro desenho experimental extremamente utilizado é quando o pesquisador quer avaliar dois fatores ao mesmo tempo Então primei ro há uma separação em blocos e depois cada bloco recebe os tra tamentos do estudo Figura 4 Por exemplo você gostaria de testar se dois compostos químicos usados como fitossanitários induzem câncer em cobaias e ao mesmo tempo se essa indução seria diferente em cobaias de sexo diferente Nesse caso os dois fatores são os diferentes compostos químicos e o sexo das cobaias Blocos Tratamento A Tratamento A Tratamento B Tratamento B Sorteio Sorteio Outro tipo de pesquisa extremamente forte é o de antes e de pois É forte pelo fato de que a unidade amostral a ser comparada Figura 4 Esquema de um experimento em bloco ao acaso com repetições Fonte elaborada pelo autor TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 20 é a mesma Por exemplo uma indústria alimentícia gostaria de tes tar se um probiótico melhora as condições gastrointestinais dos 60 participantes do estudo Então faz uma avaliação antes do experi mento e outra 30 ou 60 dias depois que os participantes estiverem tomando o probiótico Pode haver pessoas que não melhoraram Claro mas no geral o grupo como um todo irá relatar melhora nas condições gastrointestinais Quando experimentos envolvem aprendizado ou a influência de um teste anterior eles devem ser do tipo rotacional Por exemplo em um teste de um novo equipamento para exercício físico focado nos braços metade dos participantes começará a realizar o exercí cio pelo braço esquerdo e metade pelo braço direito depois eles invertem Por que disso Caso não haja esse tipo de rotação pode se ter como resultado que o novo equipamento é melhor para o braço esquerdo mas isso talvez seja apenas porque os participantes aprenderam a usar o equipamento com o braço direito e depois o fizeram com mais eficiência com o braço esquerdo Outro exem plo seria a degustação de chás para um efeito calmante sendo que nestes há cinco compostos que dão um sabor diferente a eles Qual teria melhor aceitação Então um participante irá tomar o chá nú mero 1 depois o 2 3 4 e 5 Outro participante irá começar pelo 3 depois o 1 5 4 e 2 E assim sucessivamente vários participantes terão degustado os chás em ordem diferente Imagine se todos os chás fossem degustados sempre na mesma ordem Será que sempre o primeiro não seria a escolha mais comum entre os participantes simplesmente pelo fato de estarem com o paladar limpo ou ainda com mais sede no momento Veja como é importante delimitar ao máximo as influências de um estudo há ainda os experimentos chamados de duplamente cego Nesse tipo de estudo o participante não sabe se está recebendo o trata mento ou um placebo nem quem está coletando os dados sabe em que grupo determinado participante está incluso Isso porque é possí vel que até mesmo quem anota ou coleta os dados poderia influenciar e querer arredondar o número para cima do grupo do tratamento por exemplo Outro exemplo são as análises com alguma subjetividade como uma contagem de ovos de parasitas nesse caso às vezes a dúvida pode ser tendenciosa para o grupo do tratamento Assim os participantes recebem um código e somente no final do estudo o pesquisador faz a associação dos resultados com o código para saber qual é o grupo do estudo de cada participante se é do controle ou do tratado TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 21 Síntese Vimos nesta trilha que a amostragem e o desenho experimental são a parte mais importante de um estudo científico Pensar em tudo o que pode influenciar o resultado da sua pesquisa e como excluir ou delimitar essas influências é o que garantirá que seu estudo será bem realizado Quando entendemos qual é a pergunta do seu estudo e qual variável você irá coletar a escolha dos testes estatísticos virá como consequência disso tudo Referências ARANGO h G Bioestatística teórica e computacional 3 ed Rio de Janeiro Guanabara Koogan 2009 BERQUÓ E SOUZA J GOTlIEB S Bioestatística 2 ed São Paulo EPU 1981 BUSSAB W O MORETTIN P A Estatística básica 5 ed São Paulo Saraiva 2005 CAllEGARIJACQUES S M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 DÍAZ F R lÓPEZ J B Bioestatística São Paulo Pioneira Thomson learning 2007 PAGANO M GAUVREAU K Princípios da bioestatística São Paulo Thomson 2004 SAlSBURG D Uma senhora toma chá Como a estatística revolucionou a ciência no século XX Rio de Janeiro Zahar 2009 VIEIRA S Introdução à bioestatística São Paulo Pioneira Thomson learning 2005 TRIlhA 2 POPUlAçãO E CálCUlO AMOSTRAl 22 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 3 Tipos de variáveis Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem Nesta trilha entenderemos os tipos de variáveis Os conceitos dos tipos de variáveis são muito simples mas extremamente importantes na prática pois todo o pensamento estatístico está baseado em saber reconhecer qual é o tipo de variável que você está estudando Cada tipo de variável tem um modo de apresentação dos dados em tabelas e gráficos e as relações entre os tipos de variáveis vão definir qual teste estatístico deverá ser empregado Tipos de variáveis Variável é o conjunto de resultados possíveis de um fenômeno e pode ser definida como a característica de um conjunto de elementos população ou amostra De maneira simples é aquilo que você está estudando São exemplos de variáveis peso comprimento tipo sanguí neo taxa de colesterol escolaridade atividade profissional glicose no sangue nível de cortisol Enfim basicamente é o que o pesquisador irá coletar dentro do seu desenho experimental e do seu objetivo Um ponto extremamente importante na estatística é que nosso pen samento científico está baseado na variável de interesse Mas o que isso quer dizer Nossas perguntas científicas são sempre pensadas nas variáveis e não nos números Quando iniciamos um projeto de pesquisa não temos os dados para fazer as contas matemáticas concordam O que de fato temos A variável que iremos estudar As variáreis que serão relacionadas com outras Depois que pensamos nisso aí então é que vem a coleta dos dados e somente depois a análise estatística em si Conceitualmente temos dois principais tipos de variáveis variável nu mérica ou quantitativa e variável categórica ou qualitativa Uma variável quantitativa é aquela que pode ser expressa numericamente como peso em quilogramas Já uma variável qualitativa é aquela que é expressa por uma categoria ou informação por exemplo se a pessoa fuma ou não Para entendermos a diferença podemos exemplificar com a variável al tura que pode ser uma variável quantitativa se a altura dos indivíduos for anotada em metros mas também qualitativa se as anotações forem feitas em categorias como alto médio ou baixo Uma maneira muito sim ples de saber identificar esses dois tipos é a forma de anotar Imaginese coletando as informações Se você anotar um número a variável é quan titativa se anotar com um texto a variável é qualitativa Quando usaremos uma variável quantitativa ou qualitativa Isso está diretamente relacionado com o objeto da pesquisa mas vale uma sugestão no caso de variáveis que podem ser coletadas tanto como quantitativas como qualitativas sempre escolha coletar de modo quan titativo e se for necessário é possível fazer a categorização depois Por exemplo você está coletando o Índice de Massa Corpórea IMC de 30 participantes e no momento da coleta anotou peso normal sobrepeso abaixo do peso etc No entanto depois você definiu que gostaria de saber a média do IMC dos participantes desse modo você não conseguirá tirar a média se anotou apenas as categorias Mas o contrário é possível você anota o valor do IMC dos participantes tira a média e depois categoriza caso precise TrIlhA 3 TIPOS DE VArIáVEIS 25 A variável do tipo quantitativa pode ser subdividida em contínua ou discreta e a variável qualitativa pode ser subdividida em nominal ou or dinal Figura 1 Variável quantitativa contínua é aquela que pode ser mensurada e que qualquer valor pode ser assumido dentro de uma es cala contínua Geralmente são medidas por meio de um instrumento por exemplo peso balança comprimento régua tempo relógio etc Já uma variável quantitativa discreta é aquela em que apenas valores inteiros fazem sentido e geralmente são o resultado de contagens por exemplo número de filhos quantidade de cigarros fumados por dia número de dias na UTI Variável qualitativa nominal é aquela em que as categorias da va riável não possuem uma ordem mas sim uma informação nominal por exemplo sexo cor dos olhos fumantenão fumante doentenão doen te Já na variável qualitativa ordinal as categorias apresentam uma ordem natural por exemplo escolaridade 1ª 2ª 3ª séries estágio da doença inicial intermediário avançado mês de observação janeiro fevereiro dezembro Variável Quantitativa Numérica Contínua Nominal Qualitativa Categórica Discreta Ordinal Aplicações O primeiro passo para sabermos como devemos organizar e tra tar os dados da pesquisa é o modo de inserir os dados coletados na planilha eletrônica como o Excel Para um melhor entendimento e raciocínio sobre as variáveis o ideal é que cada variável do seu estudo fique em uma coluna diferente independentemente se a variável é quantitativa ou qualitativa Figura 2 Dessa forma você será capaz de pensar as relações entre as variáveis há ferramentas no Excel que facilitam os cruzamentos das variáveis mas novamente para isso as variáveis devem estar uma em cada coluna Outra observação impor tante é que em variáveis quantitativas as unidades devem ser indica das no cabeçalho nunca dentro da célula do Excel pois caso contrá rio os valores numéricos serão considerados um texto inviabilizando os cálculos matemáticos Figura 1 Esquema dos tipos e subtipos de variáveis Fonte elaborada pelo autor TrIlhA 3 TIPOS DE VArIáVEIS 26 Figura 3 Frequência absoluta do tipo sanguíneo dos participantes do estudo dados hipotéticos Fonte elaborada pelo autor Figura 2 Exemplo hipotético de dados Fonte elaborada pelo autor Utilizando o exemplo hipotético apresentado na Figura 2 você con segue definir os tipos de variáveis Consegue fazer perguntas relacio nando as variáveis entre si Tenha em mente que a tabela da Figura 2 é uma tabela com os dados brutos ou seja pode ter 100 200 linhas ou muito mais Ninguém irá apresentar uma tabela como essa em um artigo científico ou em um poster de congresso Assim devemos sem pre tratar os dados fazer uma análise exploratória e tentar resumir as informações para passar ao leitor Um resumo simples de variável quantitativa seria a média da altura peso e idade dos participantes Para variáveis qualitativas a contagem das categorias pode ser apresentada em frequência absoluta ou em porcentagem Para essas contagens gráficos de setores ou de barras são recomendados Figuras 3 e 4 Para fazer as contagens de modo rápido explore a ferramenta tabela dinâmica no Excel Frequência absoluta Tipo sanguíneo 35 30 25 20 15 10 5 0 26 23 42 19 A AB B O TrIlhA 3 TIPOS DE VArIáVEIS 27 Figura 5 Frequência absoluta do nível de atividade dos participantes do estudo dados hipotéticos Fonte elaborada pelo autor Figura 4 Frequência relativa da condição de fumante dos participantes do estudo dados hipotéticos Fonte elaborada pelo autor Fumante 46 54 Não Sim A função de qualquer tabela ou gráfico é que a informação seja com preendida pelo leitor de forma rápida Você conseguiu entender os gráfi cos rapidamente É mais rápido do que a planilha com os dados brutos Se sim devemos usar Mas vale lembrar que gráficos possuem uma subje tividade de cores formas até do tipo de gráfico entretanto pode haver erros se você escolher um gráfico que não é adequado ao tipo de variá vel Um cuidado que se deve ter é com variáveis qualitativas ordinais pois nesse tipo a ordem das categorias deve ser respeitada Figura 5 Frequência absoluta Nível de atividade física 40 35 30 25 20 15 10 5 0 36 29 35 Pouco ativo Muito ativo Ativo Você consegue relacionar uma variável quantitativa com uma qua litativa Nesses casos é muito comum relatar as médias de cada ca tegoria da variável qualitativa Figura 6 É possível ainda relacionar uma variável quantitativa com duas variáveis qualitativas Figura 7 A organização dos dados de entrada é muito importante Uma questão relevante é sempre pensar quais informações queremos passar ao leitor antes de sair fazendo os gráficos pois isso lhe garantirá muita autono mia nas suas pesquisas Observe a Figura 7 e responda você conseguiu entender as relações entre as variáveis TrIlhA 3 TIPOS DE VArIáVEIS 28 Figura 7 Média do volume expiratório litros de acordo com a condição de fumante e se teve ou não Covid19 dos participantes do estudo dados hipotéticos Fonte elaborada pelo autor Tabela 1 Número de participantes do estudo de acordo com o sexo e com a condição de fumante dados hipotéticos Fonte elaborada pelo autor Figura 6 Média de idade dos participantes do estudo de acordo com o sexo dados hipotéticos Fonte elaborada pelo autor Idade anos Média de idade 325 32 315 31 305 30 295 Feminino Masculino Volume expiratório Média de volume expiratório 42 415 41 405 4 395 39 385 38 375 Não teve Covid19 Teve Covid19 Fuma Não fuma Podemos fazer ainda o cruzamento de duas variáveis qualitativas e apresentar em tabela o que chamamos de tabela de contingência ou tabela 2x2 Tabela 1 Nada impede também de fazer um gráfico com as respectivas quantidades Fumante Sexo Não Sim Feminino 31 21 Masculino 23 25 Por fim podemos relacionar duas variáveis quantitativas e o gráfi co utilizado é o de dispersão Geralmente nessas situações buscamos encontrar algum padrão de que conforme aumenta a variável no eixo x aumenta também no eixo y Figura 8 A relação inversa também é buscada ou seja conforme aumenta a variável x diminui a variável y TrIlhA 3 TIPOS DE VArIáVEIS 29 Figura 8 Altura versus peso Altura m Altura x Peso 2 19 18 17 16 15 14 40 90 100 80 70 60 50 Peso kg Síntese Vimos nesta trilha os diferentes tipos de variáveis e como podemos relacionálas umas com as outras Para cada tipo de variável há uma forma de apresentar os resultados lembrese de que você deve pensar como o leitor irá receber a informação tentando fazêlo da maneira mais simples possível Para cada relação entre as variáveis apresenta das aqui haverá o teste estatístico apropriado Vamos aprender ainda gráficos estatísticos mais específicos nas próximas trilhas Por ora veja se você conseguiu primeiramente entender todos os gráficos apresen tados e depois tente executálos no Excel Referências ArANGO h G Bioestatística teórica e computacional 3 ed rio de Janeiro Guanabara Koogan 2009 BErQUÓ E SOUZA J GOTlIEB S Bioestatística 2 ed São Paulo EPU 1981 BUSSAB W O MOrETTIN P A Estatística Básica 5 ed São Paulo Saraiva 2005 CAllEGArIJACQUES S M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 TrIlhA 3 TIPOS DE VArIáVEIS 30 DÍAZ F r lÓPEZ J B Bioestatística São Paulo Pioneira Thomson learning 2007 lÓPEZ J B Bioestatística São Paulo Pioneira Thomson learning 2007 PAGANO M GAUVrEAU K Princípios da bioestatística São Paulo Thomson 2004 VIEIrA S Introdução à Bioestatística São Paulo Pioneira Thomson learning 2005 TrIlhA 3 TIPOS DE VArIáVEIS 31 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 4 Medidas de tendência central e de dispersão separatrizes Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem Nesta trilha vamos usar as bases conceituais para a estatística des critiva Média mediana e moda são as principais medidas de centra lidade Entretanto indicar a centralidade de um conjunto de dados não deixa claro como é esse conjunto de dados como um todo Ou seja usar apenas uma média para descrever o conjunto de dados não mostra como são as observações que compuseram essa média Para isso vamos estudar as medidas de dispersão que em suma indicam o quão distantes da média estão as observações Para complementar es sas informações vamos estudar as separatrizes e seu principal gráfico que descreve de maneira mais detalhada todo o conjunto de dados de uma variável Medidas de tendência central e de dispersão separatrizes Medidas de tendência central As medidas de centralidade são as estatísticas mais básicas e simples pois elas descrevem o conjunto de dados de uma variável numérica em um valor central Vamos aprender média mediana moda e média mó vel as principais medidas de centralidade usadas na área da saúde A média é a medida de centralidade mais usada pois indica o centro do conjunto de dados utilizando todos os dados O cálculo da média é a somatória de todos os dados dividido pelo número amostral A fórmula é apresentada a seguir e com o tempo vamos nos habituando com a linguagem matemática 1 1 2 3 4 5 X x n x x x x x x n i n i n A letra x é o símbolo de média amostral A letra grega sigma maiús culo é o símbolo da somatória o n representa que se deve somar até o último valor do conjunto de dados o i significa que se deve substi tuir o i até o n com números inteiros ou seja x1 x2 x3 até xn Assim em toda fórmula que apareça um xi devese substituir pelo valor de cada observação do conjunto de dados A média existe apenas para variáveis quantitativas e seu valor é úni co e da mesma natureza da variável considerada ou seja se a variável é peso em quilogramas a média também será peso em quilogramas Uma das características mais importantes da média é que ela sofre a influência de valores aberrantes ou valores extremos Isso significa que se em um conjunto de dados houver observações com valores muito altos a média acaba subindo e o inverso é verdadeiro A média móvel tornouse muito conhecida com o acompanhamento da Covid19 nos estudos epidemiológicos A média móvel é o cálculo normal da média mas o namostral varia de acordo com o período es colhido Ou seja para um período de 14 dias fazse a somatória do nú mero de novos casos por dia dos últimos 14 dias e divide por 14 Como o próprio nome sugere a média vai se alterando dia após dia Assim a média móvel é um caso apropriado no acompanhamento epidemioló gico ao longo do tempo TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 34 A mediana é o valor que ocupa a posição central de uma série de observações quando estas estão ordenadas de modo crescente ou de crescente Ou ainda o valor que ocupa a posição equidistante dos ex tremos é o valor mais representativo do conjunto de dados logo para achar a mediana você deve ordenar sua variável e encontrar o valor que ocupa a posição central se o número de observações for ímpar há um valor único central que separa o conjunto de dados de forma igual Agora se for par devese fazer uma média dos dois valores centrais para que seja possível separar o conjunto de dados em dois com o mes mo número de observações O erro mais comum é esquecer de ordenar o conjunto de dados Como características a mediana também é da mesma natureza da variável considerada tornase inadequada quando há muitos valores repetidos e principalmente não sofre influência dos valores extremos como a média Assim é fundamental para entender sua variável de estudo fazer o cálculo da média e da mediana O que significa se você encontrar uma média abaixo da mediana O que significa se a média e a mediana forem muito próximas Na primeira situação significa que valores inferiores estariam puxando a média para baixo Já na segunda pergunta significa que seu conjunto de dados é equilibrado A moda nada mais é do que o valor que mais se repete no conjunto de dados Assim o valor que aparece com maior frequência em uma sé rie de observações é o valor mais representativo dentre suas caracte rísticas pode haver conjunto de dados sem moda ou com duas ou mais modas se houver muitas modas no seu conjunto de dados obviamente não será uma boa estatística para resumir sua variável Imagine que você está lendo a informação de que a média de idade dos participantes de um grupo de estudo foi de 34 anos Você conse gue supor como é o conjunto de dados como um todo Agora um se gundo grupo apresentou também uma média de 34 anos Isso significa que as idades dos participantes dos dois grupos do estudo são iguais Que todos os participantes têm 34 anos Então precisamos de outro valor que pode ajudar no entendimento do conjunto de dados e essas são as medidas de dispersão Como regra não se deve fornecer ao lei tor um valor de centralidade sem o acompanhamento de uma medida de dispersão dos dados Medidas de dispersão dispersão ou variabilidade é a diferença observada entre os valores de um conjunto de dados Em linhas gerais são medidas que descrevem o quão variável são as observações que compõem o conjunto de dados Vamos aprender quatro medidas amplitude variância desviopadrão e TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 35 coeficiente de variância A essência de toda a estatística é justamente o conceito de variabilidade das observações em relação a uma média ou a uma reta ou curva seguindo o bom senso o que você acha de um conjunto de dados em que todas as observações estão próximas à média e outro conjunto de dados em que as observações estão muito dispersas ou muito distantes da média Amplitude total é o maior valor menos o menor valor do conjunto de dados É uma medida muito simples mas utiliza apenas os valores extremos Vamos seguir um exemplo de interpretação dois grupos de estudo relatam uma média de densidade mineral óssea no fêmur de 105 gcm2 para 20 participantes em cada grupo A amplitude do pri meiro grupo foi de 025 gcm2 e do segundo grupo foi de 005 gcm2 Você consegue imaginar como é a variação das observações em cada grupo Qual dos grupos tem uma menor variação das observações A variância é a medida de dispersão mais importante na estatística A base para alguns testes de hipótese é justamente o quão dispersas as observações estão da centralidade Vamos entender a fórmula primeiro 1 2 2 s x x n i Onde s2 é o símbolo da variância amostral xi é o valor de cada observação até n x é a média amostral n é o número de observações Então imagine que você tem um n de 20 observações Você deve primeiro calcular a média depois subtrair cada valor do valor da média Essa diferença é o que chamamos de desvio ou seja quanto cada valor se desviou da média Fazendo isso para as 20 observações você terá os 20 desvios Como a média é a centralidade você terá desvios positivos e desvios negativos certo Assim se somarmos todos os desvios o va lor final será zero pois os valores positivos anulam os valores negativos Para resolver esse problema a solução da fórmula é elevar cada desvio ao quadrado tirando assim os valores negativos depois é só somar e dividir por n1 ou seja 19 nesse caso Aqui vale a ressalva de que esta mos calculando a variância amostral Quando for calculada a variância populacional a divisão será apenas por n Assim o que fazemos nesse cálculo é somar os desvios e dividir por n se somarmos tudo e dividirmos por n isso é média correto Entretanto há o detalhe de que elevamos os valores dos desvios ao quadrado por tanto variância é a média aritmética dos desvios ao quadrado de cada valor observado em relação à média O resultado da variância é dado TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 36 em unidade quadrada em relação à variável em questão Ou seja a variância do peso de crianças por exemplo será dada em gramas ao quadrado Isso simplesmente não tem interpretação prática Qual é a solução para isso Tirar a raiz quadrada do resultado da variância Esse valor é o chamado desviopadrão 2 s s Onde s é o símbolo do desviopadrão amostral s2 é a variância amostral O desviopadrão portanto é a média aritmética dos desvios em relação à média do conjunto de dados O desviopadrão é a medida de dispersão mais utilizada juntamente com a média Então reforçando toda vez que você apresentar uma média apresente também o desvio padrão Vamos supor que você está lendo um trabalho acadêmico e foi apresentado que em um grupo de 30 participantes a média de inges tão diária foi de 3750 calorias com um desviopadrão de 127 calorias Agora em um segundo grupo também com 30 participantes a média de ingestão diária foi de 3510 calorias e desviopadrão de 316 calorias Você consegue ter uma noção de como são os valores de calorias que compuseram as respectivas médias Consegue entender que há um grupo em que na média as 30 observações estão mais próximas da média do outro grupo Qual dos dois grupos você sente que possui a média mais precisa O coeficiente de variação é outra medida de dispersão muito uti lizada quando o pesquisador quer comparar a variabilidade de duas variáveis diferentes ou com grandezas diferentes O cálculo é o des viopadrão dividido pela média Isso cria uma normalização ou uma padronização e o resultado é uma fração decimal se você optar por multiplicar por 100 você terá um percentual de variação cv S X Onde cv é coeficiente de variação s é o desviopadrão x é a média amostral Podemos exemplificar com um grupo de 25 pessoas que apresenta ram uma média de ingestão diária de 48 g de proteína e desviopadrão de 32 g e a média de ingestão diária de vitamina C foi de 381 UI e desviopadrão de 19 UI Qual das duas variáveis apresenta maior va riabilidade Como são variáveis diferentes com unidades de medidas TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 37 diferentes fica difícil saber de pronto essa resposta Fazendo os cál culos temos um cv de 00667 667 de proteína e 00498 498 logo vimos que a ingestão diária de vitamina C tem menor dispersão dos dados do que a ingestão diária de proteína Separatrizes são valores que separam o rol os dados ordenados em quatro quar tis dez decis ou em cem percentis partes iguais Note que para a sua correta aplicação exigese que os dados estejam organizados num rol As separatrizes são mais bem empregadas quando o conjunto de dados é grande O pesquisador pode decidir em quantas separatrizes ele quer separar o conjunto de dados Um exemplo de percentis é no acompanhamento gestacional quando no ultrassom estimase o peso e o comprimento do bebê então de acordo com a idade gestacional sabese se o bebê está no percentil 30 60 etc Isso acontece porque existe uma referência para população humana ou seja o percentil 50 é exatamente a mediana Os quartis são as separatrizes mais usadas na estatística descritiva e dividem um conjunto de dados em quatro partes iguais há apenas três quartis mas existem alguns modos de calculálos Entretanto o modo mais simples é ordenar o conjunto de dados encontrar a mediana que é o segundo quartil Na parte com os valores mais baixos encontre a mediana que será o primeiro quartil depois na parte com os valores mais altos encontre novamente a mediana que é o terceiro quartil resumindo dividese o conjunto de dados no meio e depois no meio em cada parte A principal característica dos quartis é que como dividimos o con junto de dados em quatro partes então cada quartil representa 25 dos dados A distância entre o primeiro e o terceiro quartis é chamada de distância interquartílica que representa 50 dos dados ao redor da mediana Os valores dos quartis dão portanto uma boa descrição de centralidade e dispersão dos dados ao mesmo tempo e ainda melhor quando representado de forma gráfica A representação gráfica dos quartis é chamada de diagrama de caixa ou boxplot Figura 1 Para isso são necessários os valores de mínimo primeiro quartil segundo quartil mediana terceiro quartil e máximo A caixa do gráfico é a distância interquartílica Além disso ainda é opcio nal indicar a média e é um ótimo gráfico para indicar valores extremos ou aberrantes também chamados de outliers Também há diferentes modos para indicar os valores extremos dependendo do programa es tatístico utilizado TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 38 Figura 2 Exemplo hipotético de dados Fonte elaborada pelo autor Diagrama de caixa 0006 0006 0005 0005 0004 0004 0003 0003 0002 0002 Grupo A Grupo B Valor extremo Média x x Máxima Terceiro quartil Mediana Primeiro quartil Mínima Com o diagrama de caixa conseguimos entender o conjunto de dados de maneira muito ampla com a interpretação de muitas in formações ao mesmo tempo principalmente quando queremos fazer comparações Observando a Figura 1 média e mediana são maiores no grupo B onde há valores extremos A caixa é menor no Grupo A onde há uma menor dispersão dos dados Aplicações Vamos pôr em prática os conceitos abordados da estatística descri tiva para entender os dados de sua pesquisa Considerando o exemplo dado na Figura 2 quais medidas podemos calcular Vamos entender a idade de acordo com a atividade física Primeiro organizamos os dados utilizando a função filtro no Excel e separamos a idade dos participan tes de acordo com as categorias da variável atividade física Figura 3 Figura 1 diagrama de caixa ou boxplot de conjunto de dados hipotético O símbolo x indica a média Os pontos são indicações de valores extremos Fonte elaborada pelo autor TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 39 Quais medidas descritivas podemos calcular Média Mediana e Moda Como inserir essas funções no Excel Toda função começa com o símbolo de e escreve o nome da função e seleciona o conjunto de dados Figura 4 Os nomes das funções podem ser deduzidos a partir do nome da estatística a seguir apresentamos exemplos das fun ções depois é só copiar para a célula em que o resultado será exibido verificando sempre se a seleção dos dados está correta No exemplo dado os dados vão da célula A2 a A37 na primeira coluna Pouco ati vo Na segunda coluna para Ativo os dados selecionados vão de B2 a B37 e assim por diante Copiando a função de uma coluna para a outra a seleção já é automática MÉdIAA2A37 Média MEdA2A37 Mediana MOdOMUlTA2A37 Moda pode ter mais de uma moda Agora vamos calcular as medidas de dispersão A seguir apresen tamos as funções e na Figura 5 os resultados organizados para poder mos interpretar corretamente Não se esqueça de verificar a seleção do conjunto de dados e preste atenção para não incluir valores das es tatísticas calculadas por exemplo não inclua os valores das médias Figura 3 Exemplo hipotético de dados dados apresentados parcialmente Fonte elaborada pelo autor Figura 4 Exemplo hipotético de dados mostrando como inserir as funções nas células dados apresentados parcialmente Fonte elaborada pelo autor TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 40 MÁXIMOA2A37MÍNIMOA2A37 VArAA2A37 A indicação A indica a variância amostral dEsVPAdAA2A37 A indicação A indica o desviopadrão amostral A44A38 Nesse caso é a célula em que está o desviopadrão dividido pela célula em que está localizado a média do conjunto de dados Agora preste atenção aos resultados encontrados e tente interpre tar o que significa cada estatística descritiva Veja se entendeu todos os cálculos tanto na fórmula apresentada como tentando resolver no Excel Observe o diagrama de caixa Figura 6 feito com os dados exemplifica dos e veja se a interpretação do gráfico coincide com a interpretação que vocês fizeram para os resultados da estatística descritiva anteriormente 45 40 35 30 25 20 Pouco ativo Muito ativo Ativo x x x Idade em Anos Diagrama de Caixa Figura 5 Exemplo hipotético de dados mostrando os resultados da estatística descritiva dados apresentados parcialmente Fonte elaborada pelo autor Figura 6 diagrama de caixa da idade por nível de atividade física considerando os dados hipotéticos Fonte elaborada pelo autor TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 41 Síntese Nesta trilha aprendemos o básico da estatística descritiva para va riáveis quantitativas Os conceitos de centralidade e dispersão são os mais usados na apresentação dos dados de uma pesquisa científica Esses conceitos serão fundamentais para a sequência do componente curricular pois a partir deles iremos nos aprofundar nas análises esta tísticas para então podermos tirar conclusões principalmente ao fazer comparações dentro do seu desenho experimental É extremamente importante ressaltar que as medidas e os gráficos apresentados nesta trilha não permitem tirar conclusões pois são apenas descritivos Referências ArANGO h G Bioestatística teórica e computacional 3 ed rio de Janeiro Guanabara Koogan 2009 BErQUÓ E sOUzA J GOTlIEB s Bioestatística 2 ed são Paulo EPU 1981 BUssAB W O MOrETTIN P A Estatística básica 5 ed são Paulo saraiva 2005 CAllEGArIJACQUEs s M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 dÍAz F r lÓPEz J B Bioestatística são Paulo Pioneira Thomson learning 2007 lÓPEz J B Bioestatística são Paulo Pioneira Thomson learning 2007 PAGANO M GAUVrEAU K Princípios da bioestatística são Paulo Thomson 2004 VIEIrA s Introdução à Bioestatística são Paulo Pioneira Thomson learning 2005 TrIlhA 4 MEdIdAs dE TENdêNCIA CENTrAl E dE dIsPErsãO sEPArATrIzEs 42 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 5 Noções sobre testes de hipóteses e significância estatística Professora Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem Nesta trilha vamos abordar os conceitos usados pelos chamados testes de hipótese testes que permitem fazer a estatística inferencial ou seja nos permite tomar uma decisão sobre uma hipótese estatística com base nos dados amostrais assumindo uma probabilidade de erro ao tomar essa decisão Essa probabilidade de erro assumida é a signi ficância estatística Note que estamos lidando com uma das palavras mais importantes na ciência significativa que carrega uma carga conceitual gigantesca Assim entenderemos toda essa carga conceitu al que merece bastante cuidado Noções sobre testes de hipóteses e significância estatística Vimos que inferência estatística é quando tomamos uma decisão sobre a população de estudo com base na amostra certo Essa toma da de decisão é baseada nos testes de hipótese Vamos rever alguns pontos Já estudamos sobre o que é a população de estudo e como devemos amostrála para que tenhamos sempre bons dados ligados diretamente aos nossos objetivos do estudo Com os dados coletados vimos que precisamos entender quais são os tipos das nossas variáveis pois isso dependerá de qual teste de hipótese empregaremos De acor do com as variáveis coletadas analisamos de forma descritiva os nossos dados a fim de resumílos e apresentálos adequadamente Veremos agora como fazer a inferência estatística Figura 1 Primeiro vamos desenvolver os conceitos de hipótese estatística e depois segui remos com os passos necessários para os testes Um ponto importante é que todos os testes seguem a mesma lógica de criação do teste e de interpretação e essa é a razão para termos uma trilha específica para a inferência estatística depois vamos estudar os principais testes de hipó tese Mas o que é uma hipótese Vamos considerar que uma hipótese é uma explicação para um fenômeno População Amostra Análise Descritiva Probabilidade Inferência Estatística Figura 1 Esquema para inferência estatística Fonte elaborada pelo autor TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 45 Vamos seguir a linha de raciocínio bastante didática empregada por Vieira 2005 Um réu está sendo julgado por um crime Quais são as hipóteses possíveis o réu é inocente do ato de que o acusam ou é culpado do ato de que o acusam Quais são as decisões possíveis sobre esse julgamento Considerar o réu culpado ou inocente Assim quais são os erros associados à decisão Dizer que o réu é culpado do ato de que o acusam quando na verdade ele é inocente ou dizer que réu é inocente do ato de que o acusam quando na verdade é culpado Vejam que na sequência de perguntas e respostas em nenhum mo mento sabemos a verdade de fato Mesmo em um caso como esse mesmo que o réu tenha se declarado culpado essa é a verdade No entanto quando um júri decide o faz com base nas evidências Esse paralelo é extremamente pertinente aos nossos dados Nossa decisão estatística está baseada nas evidências ou seja na análise dos dados e o erro associado à decisão no caso do júri é que mesmo com todas as evidências a decisão pode ser errada o grande propósito é que um júri não erre concordam ou que chegue a uma menor probabilidade de errar outro ponto a ser analisado qual é o pior erro associado à decisão do júri Culpar um inocente ou inocentar um culpado Nos filmes ve mos a famosa frase Todo mundo é inocente até que se prove o contrá rio Na verdade esse é o princípio da presunção da inocência de que é um princípio jurídico que estabelece o estado de inocência como regra com relação ao acusado da prática de infração penal Então sim culpar um inocente é pior Estatisticamente temos então sempre duas hipóteses uma hipóte se nula e uma hipótese alternativa A hipótese nula ou H0 agá zero segue a ideia do princípio da presunção de inocência ou seja o parâ metro testado é igual ao parâmetro conhecido ou grupo A é igual ao grupo b um remédio ou tratamento não funciona ou ainda os da dos coletados poderiam ter sido gerados de acordo com o aleatório Consequentemente a hipótese alternativa ou H1 agá um seria a ideia do até que se prove o contrário ou seja o parâmetro testado é diferente do parâmetro conhecido ou grupo A é diferente do grupo b um remédio ou tratamento funciona ou ainda os dados coletados não poderiam ter sido gerados aleatoriamente Temos portanto dois erros associados às hipóteses estatísticas erro tipo i e erro tipo ii o erro tipo I ou α alpha é rejeitar a hipótese nula quando esta é verdadeira Então no nosso pensamento didático esse seria o caso de condenar um inocente logo o erro tipo i é considerado mais grave por isso ele é a nossa linhabase das decisões Esse erro se ria interpretado como dizer que um remédio funciona mas na verdade TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 46 não funciona um fenômeno acontece mas na verdade não acontece o tratamento é maior ou melhor que o controle mas na verdade não é e assim por diante logo o erro tipo II ou β beta é aceitar a hipótese nula quando ela é falsa Ela pode ser tida como menos ruim pois com o erro não haveria consequências Por exemplo ao dizer que um remédio não funciona mas ele na verdade ele funciona não houve gastos para produção não houve perda de tempo etc Agora dizer que um remédio funciona quando de fato isso não acontece geraria gastos financeiros inúteis perda de tempo colocaria as pessoas em risco etc observe na Figura 2 os tipos de erros e as respectivas decisões de que falamos há pouco No esquema e nas frases anteriores a ideia de verdade e realidade é algo que os cientistas não conhecem mas que rem ter a maior probabilidade de se aproximar dela correto Já desen volvemos esse pensamento anteriormente logo temos duas decisões corretas quando aceitamos a hipótese nula e ela é verdadeira e quan do aceitamos a hipótese alternativa e ela é verdadeira Prestem bas tante atenção que quando aceitamos uma hipótese automaticamente rejeitamos a outra elas são mutuamente excludentes Prestem bas tante atenção que quando aceitamos uma hipótese automaticamente rejeitamos outras pois elas são mutuamente excludentes há sempre uma dificuldade muito grande na fixação dos tipos de erro mas isso tende a diminuir com a experiência e a repetição Nas próximas trilhas quando empregarmos os testes de hipótese as inter pretações das hipóteses nulaalternativa e os erros tipo itipo ii ficarão mais assimiláveis então peço que vocês voltem a ler esta trilha ok REALIDADE H0 H0 verdadeira H1 H0 falsa DECISÃO H0 Aceitar H0 DECISÃO CORRETA ERRO TIPO II H1 Rejeitar H0 ERRO TIPO I DECISÃO CORRETA Finalmente todo o teste de hipótese ou toda inferência estatísti ca está sujeito a um erro que chamamos de nível de significância do teste o nível de significância é representado pela letra grega α alpha que é justamente a probabilidade de cometer o erro tipo i ou seja a probabilidade de rejeitar h0 quando h0 é verdadeira Qual se ria essa probabilidade aceitável Já discutimos que uma probabilidade de errar ao tomar uma decisão é consensual na ciência de 5 ou 1 dependendo do objetivo do estudo e da escolha do pesquisador Pela Figura 2 Esquema mostrando os tipos de erros e as decisões de acordo com a realidade Fonte elaborada pelo autor TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 47 lógica o chamado poder do teste seria respectivamente de 95 ou 99 o nível de significância do teste deve ser sempre definido pelo pesquisador antes da realização do teste portanto devem ser descritos em métodos nos artigos científicos Etapas dos testes de hipótese A formulação das hipóteses nula e alternativa é obrigatória mas muitas vezes está implícita nos artigos científicos ou é apresentada com pouca ou nenhuma clareza Mesmo não estando claras as hipóte ses existem sempre Particularmente recomendo deixar bastante claro o que se quer testar Por exemplo foi utilizado o teste t de student para testar a hipótese de que a média da variável x do grupo tratamen to foi maior que do grupo placebo Vejam que neste exemplo o ob jetivo é aceitar a hipótese alternativa mas são os resultados lá no final do teste que vão nos dizer qual hipótese podemos aceitar Nem sempre o pesquisador deseja aceitar a hipótese alternativa muitas vezes se deseja confirmar a hipótese nula a depender do objetivo e da pergunta do estudo por exemplo o uso de um fitoterápico teria a mesma efici ência que o remédio tradicional Identificar a distribuição de probabilidades é extremamente im portante para a escolha do tipo de teste que será empregado Mas o que significa a distribuição de probabilidades Quando falamos em probabilidade de cometer o erro tipo i precisamos calcular essa pro babilidade certo Cada tipo de variável e cada teste de hipótese usa uma distribuição de probabilidade diferente Na próxima trilha vamos aprender sobre uma das mais importantes a distribuição normal em que é possível calcular a probabilidade de qualquer evento com base nos parâmetros de média e desvio padrão o teste t de student usa dis tribuição normal temos a distribuição do QuiQuadrado e distribuição F de Fisher Essas distribuições de probabilidade estão nos anexos de todos os livros de estatística e em todos os casos e foram construídas para aceitar a hipótese nula Veremos o que isso significa na interpre tação final do teste Fixar o α é definir qual é o nível de significância do teste antes de realizálo que geralmente é 5 005 ou 1 001 Por que definir isso antes de realizar o teste Como o alpha é o risco que você assume de cometer o erro tipo i então não se deve mudar no meio do caminho esse risco conforme conveniência A fixação do alpha deve estar clara TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 48 na secção de métodos e em muitos artigos o nível de significância é representado como um p005 por exemplo Como veremos na se quência o resultado produzido pelos testes de hipótese é dado exa tamente como um p minúsculo Dessa forma uma sugestão é indicar o nível de significância como o alpha Um exemplo de como deve ser escrito nos artigos e trabalhos acadêmicos Foi considerado o nível de significância de 5 α005 para todos os testes empregados Calcular o valor da estatística do teste é propriamente dito o cál culo de cada teste de hipótese Não abordaremos os detalhes de cada cálculo pois não são óbvios e alguns deles são relativamente comple xos o fato é que nos programas computacionais de estatística o valor da estatística do teste é dado nos resultados e devemos indicálos nos nossos resultados Comparar o valor calculado com o valor da tabela de valores crí ticos significa que o valor encontrado pelo cálculo do teste deve ser comparado com o valor da tabela de referência ou chamado valor crí tico Vamos lembrar que o valor de referência da tabela foi construído para concordar com a hipótese nula A leitura desses valores na tabela depende de cada distribuição de probabilidades de cada teste de hipó tese mas no geral devese identificar o nível de significância do teste e os graus de liberdade que no geral também é o número amostral menos um n1 Nesse momento essas interpretações são ainda mui to abstratas mas devem ser consultadas após as leituras das trilhas futuras Tomar a decisão é dizer qual hipótese nula ou alternativa você de verá aceitar se o valor do teste calculado for menor que o valor crítico da tabela de distribuição de probabilidades você deve aceitar a hipó tese nula se o valor do teste calculado for maior que o valor crítico da tabela de distribuição de probabilidades você deve aceitar a hipótese alternativa Todos os testes de hipótese partem dessa lógica mas te mos de olhar sempre as tabelas Não necessariamente pois nos resul tados dentro dos programas de estatística também serão apresentados o pvalor o pvalor é o resultado que todo teste de hipótese irá fornecer ao observar esse valor devemos interpretar o teste de prontidão que é calculado a partir das funções das distribuições de probabilidades dos testes o que na prática substitui nossa necessidade de observar o va lor calculado com o valor crítico da tabela A interpretação do pvalor deve ser baseada no nível de significância do teste estabelecido pois ele diz quão provável seria obter uma amostra tal qual a que foi obtida quando a hipótese nula é verdadeira ou ainda o p mede a probabilida de de que a diferença observada poderia ser encontrada se a hipótese TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 49 nula fosse verdadeira Como uma representação matemática temos ppdadosh0 ou seja o p encontrado é a probabilidade de que seus dados sigam a hipótese nula Nessa lógica se o resultado de um teste for p003 abaixo do α005 significa que temos uma probabilidade de 3 que a diferença do teste foi de acordo com a hipótese nula se essa probabilidade é menor que o risco assumido de 5 do alpha en tão nossa decisão é aceitar a hipótese alternativa se o p for menor que alpha aceitase a hipótese alternativa e se p for maior do que alpha aceitase a hipótese nula Conforme o desenvolvimento de cada teste a interpretação será cada vez mais intuitiva Síntese Vimos nesta trilha o que são os testes de hipótese e suas etapas até a inferência estatística ou seja até a decisão final sobre a população de estudo Dessas etapas temos alguns pontos principais dos quais não pode mos ter dúvidas a construção das hipóteses nula e alternativa seguindo a lógica de que a hipótese nula significa que os dados seguem uma igual dade ou nulidade ou ainda uma aleatoriedade o nível de significância que é o risco assumido de cometer o erro tipo i ou seja a probabilidade de rejeitar h0 quando h0 é verdadeira o resultado pvalor que diz quão provável seria obter seus dados confirme a hipótese nula e de acordo com o nível de significân cia estabelecido Todas essas etapas serão enfatizadas nas próximas trilhas Referências ArANgo h g Bioestatística teórica e computacional 3 ed rio de Janeiro guanabara Koogan 2009 bErQUó E soUZA J goTliEb s Bioestatística 2 ed são Paulo EPU 1981 bUssAb W o MorETTiN P A Estatística básica 5 ed são Paulo saraiva 2005 TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 50 CAllEgAriJACQUEs s M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 DíAZ F r lóPEZ J b Bioestatística são Paulo Pioneira Thomson learning 2007 lóPEZ J b Bioestatística são Paulo Pioneira Thomson learning 2007 PAgANo M gAUVrEAU K Princípios da bioestatística são Paulo Thomson 2004 ViEirA s Introdução à bioestatística são Paulo Pioneira Thomson learning 2005 TrilhA 5 NoçõEs sobrE TEsTEs DE hiPóTEsEs E sigNiFiCâNCiA EsTATísTiCA 51 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 6 Distribuição normal e o teste do quiquadrado Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem Nesta trilha vamos estudar a distribuição normal que é uma das dis tribuições de probabilidade mais importantes Com ela podemos cal cular a probabilidade de qualquer evento conhecendo os parâmetros de média e desvio padrão Além disso alguns testes de hipótese só podem ser realizados se os dados coletados se ajustarem a uma distri buição normal configurando portanto os testes paramétricos Entre os testes de hipótese não paramétricos vamos aprender o primeiro teste de hipótese o teste do quiquadrado Esse teste é empregado para comparar proporções entre duas variáveis categóricas Distribuição normal Para compreender a distribuição normal precisamos entender um gráfico chamado histograma O histograma é empregado para repre sentar o comportamento ou o padrão do conjunto de dados de uma variável numérica que é uma representação gráfica de uma tabela cha mada distribuição de frequências O que significa isso Imagine que você tenha um conjunto de dados de 100 300 ou 500 observações e queira mostrar em uma tabela Devemos então reduzila a um nú mero de linhas que seja apresentável Com isso separamos os valores do conjunto de dados em classes geralmente com intervalos iguais e contamos quantas observações se encaixam nessas classes Com isso teremos uma distribuição de frequências em cada classe da variável O número de classes é definido ou alterado pelo pesquisador e uma sugestão simples é a raiz quadrada do namostral logo se temos 100 observações o número de classes sugerido é de 10 Pegase então a amplitude do conjunto de dados e divide por 10 para termos o tama nho das classes e depois é só contar quantas observações há em cada classe Outra sugestão geralmente usada nos programas de estatística é a fórmula 1 3222 log k n Onde K é o número de classe n é o número amostral A distribuição de frequência pode representar a frequência absoluta ou a frequência relativa ou ambas Tabela 1 A frequência relativa é o número da frequência absoluta dividido pelo total do número amostral e esse resultado também pode ser representado como porcentagem caso opteser por multiplicar por 100 Obviamente nas contagens das frequências cada observação só pode ser contada uma vez então se um valor ficar no limite entre duas classes devese optar em incluílo no limite superior ou inferior e assim repetir essa escolha para todas as classes Embora não se possa contar duas vezes uma observação pode parecer que os rótulos das classes se repetem isso é apenas para dar uma representação mais limpa Por exemplo uma classe vai de 1500 g a 1600 g e a próxima vai de 1600 g a 1700 g Se uma observa ção for exatamente 1600 g ela é contada em uma das classes apenas TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 54 Classes de altura m Frequência Frequência Relativa 155 160 3 003 160 165 7 007 165 170 14 014 170 175 31 031 175 180 27 027 180 185 11 011 185 190 7 07 A forma gráfica da distribuição de frequência é o histograma Figura 1 Assemelhase a um gráfico de barras ou colunas mas con ceitualmente está longe disso Veja que em um histograma as colunas se emendam uma à outra pois tratase de uma variável numérica po dendo ser contínua ou discreta No entanto todos os valores em uma escala irão aparecer no rótulo da variável mesmo podendo não haver observação dentro de uma classe Frequência absoluta Histograma 35 30 25 20 15 10 5 0 Altura em metros Figura 1 histograma da altura em metros de 100 participantes de uma pesquisa Exemplo hipotético de dados Fonte elaborada pelo autor 155 16 16 165 165 17 17 175 175 18 18 185 185 19 Observando os dados de altura em metros dos 100 participantes do exemplo hipotético no histograma você consegue interpretar os valores mínimos máximo e a centralidade Contudo se você sorteasse um participante totalmente ao acaso apostaria que esse participante estaria em qual classe Em qual classe você não apostaria que fosse sorteado um participante Se você disse que seria a classe com maior frequência para a primeira questão e a classe com menor frequência para a segunda questão acertou Isso porque você deve ter imaginado que a classe com maior frequência teria maior probabilidade de sortear um participante dela Ou seja podemos interpretar as frequências rela tivas com uma estimativa de probabilidade Entretanto as frequências relativas são empíricas e as probabilidades teóricas Tabela 1 Distribuição de frequências de altura em metros de 100 participantes de uma pesquisa Exemplo hipotético de dados Fonte elaborada pelo autor TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 55 Em geral buscamos encontrar no conjunto de dados empíricos um histograma que apresente um padrão de uma curva em formato de sino A Figura 2 mostra o histograma igual à Figura 1 mas com a cur va em forma de sino ajustada aos dados empíricos de altura quando encontramos um histograma que se ajusta a uma forma de sino dize mos que a variável apresenta distribuição normal e automaticamente definimos que nossa variável de estudo é uma distribuição teórica e que representa uma população infinita a proporção no eixo das or denadas y são estimativas de probabilidade a área sob a curva é 1 ou seja 100 e a distribuição normal fica definida quando são dados dois parâmetros média mi µ e desvio padrão sigma σ Assim quando dizemos que a variável apresenta distribuição normal deixamos de considerar a média e desvio padrão amostral para considerar a média e o desvio padrão populacional Isso é extremamente relevante Probabilidade Histograma 30 25 20 15 10 5 0 Altura m Figura 2 histograma da altura em metros de 100 participantes de uma pesquisa a curva vermelha é o ajuste da distribuição normal e a linha azul é a média da altura m Exemplo hipotético de dados Fonte elaborada pelo autor 155 160 165 170 175 17485 180 185 190 Algumas características da distribuição normal são a média a me diana e a moda coincidem e estão no centro da distribuição tem o formato típico de sino simétrico em torno da média e como a curva é simétrica em torno da média 50 dos valores são iguais ou menores que a média e 50 são iguais e maiores que a média lembrando que o total sob a área da curva é 100 A distribuição normal é uma distribuição de probabilidades em que é possível calcular a probabilidade de qualquer evento de qualquer va riável com base na média e no desvio padrão Como isso é feito Com a distribuição normal reduzida ou distribuição normal padronizada a TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 56 qual transforma qualquer variável em uma variável reduzida de mé dia zero e desvio padrão igual a um que é indicada pela letra Z ou Zscore que é exatamente igual ao desvio padrão Como veremos é possível calcular qualquer probabilidade mas os valores entre os des vios padrão são bem conhecidos Figura 3 Algumas interpretações que podem ser feitas por exemplo ao redor da média entre a média mais um desvio padrão e a média menos um desvio padrão há uma probabi lidade de 6826 de os valores populacionais estarem neste intervalo e 9544 entre a média mais e menos duas vezes o desvio padrão em uma distribuição normal não existe a possibilidade de haver alguma probabilidade acima de quatro vezes o desvio padrão e apenas 013 de probabilidade de encontrar valores acima ou abaixo da média mais ou menos três vezes o desvio padrão 013 214 1359 3413 3413 1359 214 013 4s 3s 2s 1s Média Média 1s 2s 3s 4s 4Z 3Z 2Z 1Z 1Z 2Z 3Z 4Z Figura 3 Distribuição normal de média zero e desvio padrão igual a um e as respectivas probabilidades Fonte elaborada pelo autor Com isso como se transforma uma variável que tem distribuição normal com média e desvio padrão conhecidos em uma distribuição normal reduzida utilizando a fórmula a seguir z X µº s Onde Z é o zscore X é o evento que se quer conhecer μ é a média populacional da variável de estudo σ é o desvio padrão populacional da variável de estudo TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 57 Exemplo a quantidade de colesterol em 100 ml de plasma sanguí neo humano tem distribuição normal com média 200 mg e desvio pa drão 20 mg qual a probabilidade de uma pessoa apresentar mais do que 230 mg de colesterol Ao fazer o cálculo do Zscore achase o valor de 15 Esse valor é usado para buscar a probabilidade na tabela chamada de Distribuição Normal reduzida que se encontra nos anexos dos livros de estatística O valor encontrado nesse exemplo é de 04332 4332 mas essa é a probabilidade do valor do evento até a média conforme é inserido no próprio cálculo do Z Como há 50 de probabilidade de os valores serem iguais ou maiores que a média subtraise os 4332 dos 50 obtendose o resultado da pergunta de 668 de probabilidade de a pessoa apresentar mais do que 230 mg de colesterol Figura 4 4332 Colesterol em 100 ml de plasma sanguíneo humano mg 668 120 140 160 180 200 220 240 260 280 Probabilidade Figura 4 Distribuição normal de colesterol em 100 ml de plasma sanguíneo humano em miligramas As probabilidades apresentadas são explicadas no texto Fonte elaborada pelo autor No Excel é possível obter os valores de probabilidade da distribuição normal de duas formas A primeira é colocando diretamente o valor do Z na função da distribuição normal e a segunda é colocando o x a mé dia e o desvio padrão Em ambas são selecionadas a opção Verdadeiro para a opção de cumulativo Isso significa que a função calcula a pro babilidade cumulativa até o valor buscado no nosso exemplo o re sultado seria 09332 9332 que subtraindo de 100 obtémse o resultado de 668 DISTNOrmPNz cumulativo Exemplo DISTNOrmPN15VErDADEIrO DISTNOrmNx média desviopadrão cumulativo Exemplo DISTNOrmN23020020VErDADEIrO TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 58 A distribuição normal é também chamada de distribuição Gaussiana ou de Gauss em referência ao cientista Carl Friedrich Gauss que fez uso de suas propriedades em astronomia por volta de 1810 A distri buição normal é extremamente utilizada para descrever fenômenos naturais em que seria esperado maiores probabilidades em torno da média e baixas probabilidades distantes da média portanto algo nor mal na natureza A principal forma de identificar se a variável de estu do é considerada normal é mesmo o gráfico do histograma Os testes paramétricos que iremos aprender na próxima trilha são tão robustos que até mesmo um histograma que se aproxima de uma curva nor mal pode ser empregado Entretanto há testes de normalidade como Kolmogorov Smirnov normality test ShapiroWilks test ou qqplot no quais porém construir o histograma e verificar o padrão encontrado já é suficiente na maioria dos casos Teste do Quiquadrado O teste do quiquadrado ou Chiquadrado ou X2 serve para testar a hipótese nula de que duas variáveis qualitativas nominais são indepen dentes Ou seja aqui gostaríamos de testar se as proporções ou as fre quências de uma variável categórica nominal depende das proporções ou das frequências de outra variável categórica nominal No segundo modo de escrita interpretase a hipótese alternativa O teste do quiquadrado de independência é construído a partir de uma tabela chamada tabela de contingência ou tabela 2x2 mas não necessariamente devemos ter duas categorias em cada uma das duas variáveis qualitativas Geralmente isso acontece mas não é regra A Tabela 2 mostra a estrutura de uma tabela de contingência em segui da é apresentada a fórmula do X2 Variável X Variável Y Y1 Y2 Total X1 a b ab X2 c d cd Total ac bd n x ad bc n a b c d a c b d 2 4 2 Tabela 2 Estrutura de uma tabela de contingência ou tabela 2x2 Fonte elaborada pelo autor TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 59 Como podemos observar na fórmula a lógica desse cálculo é um cruzamento de todas as frequências entre todas as categorias Então imaginemos que as proporções entre as categorias das duas variáveis sejam todas iguais ou muito próximas Pelo bom senso se todas as pro porções são muito parecidas não há de se esperar que uma proporção dependa da outra variável correto Se os quatro valores das quatro células forem iguais o valor do X2 será zero E o contrário é verdadeiro se as proporções forem muito distantes o valor do X2 será afastado do zero ou seja sustentando a hipótese alternativa Esse cálculo é consi derado para avaliar dentro da distribuição de X2 para aceitar ou rejeitar a hipótese nula Vamos a um exemplo seguindo os passos para um teste de hipótese como visto na trilha anterior um estudo utilizou o teste do quiquadra do para testar a hipótese de que a proporção de pacientes que toma ram um anestésico e que não relataram dor durante um procedimento cirúrgico é a mesma proporção de pacientes que tomaram um placebo durante o mesmo procedimento ao nível de significância de 5 Os três primeiros passos foram expressos em um único período Colocamos a hipótese nula que automaticamente diz sobre a hipótese alternativa Como estamos falando de proporção ou frequência de pacientes que relataram ou não dor logo a distribuição de probabilidade identificada é a do quiquadrado deixando então claro o nível de significância do teste Vamos supor que os dados foram coletados Tabela 3 Grupo relato de dor SIm NãO Total Placebo 25 115 140 Analgésico 15 105 120 Total 40 220 260 Fazendo os cálculos o resultado foi X2142 Esse valor deve ser comparado ao da tabela de distribuição de quiquadrado ao nível de significância estabelecido no caso 5 ou 005 e aos graus de li berdade do teste Os graus de liberdade do teste do quiquadrado é r1 x r1 sendo que r é o número de categorias de cada variável No nosso exemplo 21 x 21 logo os graus de liberdade é de 1 Observando a tabela o seu valor crítico é de 3841 Como o valor cal culado da estatística foi menor do que o valor crítico da tabela não rejeitamos a hipótese nula ao nível de significância de 5 Então nossa decisão é portanto aceitar a hipótese nula Calculando o pvalor que aparece nos programas de estatística o resultado foi p02326 Tabela 3 Frequência dos pacientes submetidos a um procedimento cirúrgico e que relataram ou não dor tomando um analgésico ou um placebo Dados hipotéticos Fonte elaborada pelo autor TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 60 Como ficaria nos resultados essa nossa conclusão sobre o estudo As proporções entre relato de dor entre os grupos que tomaram anal gésico ou placebo são significativamente iguais X2142 p02652 Ou ainda o relato de dor não depende significativamente de qual grupo placebo ou com analgésico os pacientes participaram X2142 p02326 Veja que com a intepretação do pvalor temos que há uma probabilidade de 2326 de que os resultados possam ter ocorri do de acordo com a hipótese nula Como esse valor é mais alto do que os 5 do nível de significância ficamos com a hipótese nula Observe as proporções entre as categorias Tabela 4 mesmo que o número de participantes que tomaram analgésico e relataram dor foi menor do que os pacientes que tomaram placebo as proporções em relação ao total de participantes em cada grupo não é tão diferente a ponto de garantir uma probabilidade aceitável menor de 5 de cometer o erro tipo I então ficamos com a hipótese nula Grupo relato de dor SIm NãO Total Placebo 25 179 115 821 140 Analgésico 15 125 105 875 120 Total 40 220 260 O teste do quiquadrado apresenta algumas restrições Deve ser aplicado quando a amostra tiver mais de 20 elementos no total Se 20 n 40 o teste deve ser aplicado se nenhuma frequência esperada for menor do que 1 As variáveis devem ser nominais Para variáveis ordinais aplique o teste de X2 para tendências Existe a correção de Yates que torna o teste mais conservador Se houver frequências es peradas pequenas menor do que 5 use o teste exato de Fisher Os valores esperados podem ser observados nos programas de estatística Eles são os valores esperados de acordo com a hipótese nula ou seja as proporções são totalmente iguais entre as categorias das variáveis Síntese Nesta trilha entendemos a distribuição normal e a sua grande im portância para a estatística de variáveis numéricas Para ver se um con junto de dados se ajusta a uma distribuição normal devemos fazer um Tabela 4 Frequência absoluta e percentuais dos pacientes submetidos a um procedimento cirúrgico e que relataram ou não dor tomando um analgésico ou um placebo Dados hipotéticos Fonte elaborada pelo autor TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 61 histograma e notar se o padrão é em formato de sino Se sim dizemos que a variável apresenta distribuição normal e a média e desvio padrão vão representar a população e não mais a amostra Com base na média e desvio padrão populacional podemos calcular a probabilidade de qual quer evento E podendo calcular a probabilidade de qualquer evento vamos usar essa distribuição de probabilidades para os testes de hipótese e tomar uma decisão com uma probabilidade de cometer o erro tipo I de rejeitar a hipótese nula quando a hipótese nula é verdadeira Vimos o teste do quiquadrado que testa a hipótese de que duas variáveis categóricas nominais são independentes Essa é a hipótese nula quando houver uma dependência significativa entre as variáveis devemos entender as proporções para identificar qual categoria contri bui para a diferença observada Referências ArANGO h G Bioestatística teórica e computacional 3 ed rio de Janeiro Guanabara Koogan 2009 bErquÓ E SOuZA J GOTlIEb S Bioestatística 2 ed São Paulo EPu 1981 buSSAb W O mOrETTIN P A Estatística básica 5 ed São Paulo Saraiva 2005 CAllEGArIJACquES S m Bioestatística princípios e aplicações Porto Alegre Artmed 2007 DÍAZ F r lÓPEZ J b Bioestatística São Paulo Pioneira Thomson learning 2007 lÓPEZ J b Bioestatística São Paulo Pioneira Thomson learning 2007 PAGANO m GAuVrEAu K Princípios da bioestatística São Paulo Thomson 2004 VIEIrA S Introdução à bioestatística São Paulo Pioneira Thomson learning 2005 TrIlhA 6 DISTrIbuIçãO NOrmAl E O TESTE DO quIquADrADO 62 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 7 Testes estatísticos paramétricos Professor Leandro Tavares Azevedo Vieira Introdução ao estudo da trilha de aprendizagem Nesta trilha vamos aprender os principais testes paramétricos São testes de hipótese em que a principal premissa é que as variáveis de estudo devem apresentar distribuição normal Isso significa que as vari áveis são analisadas com base na estatística para toda a população ou seja nos parâmetros Logo toda a teoria sobre cálculos de probabilida de que vimos na trilha passada se aplica aqui Os testes são teste t de Student independente para comparar duas médias teste t de Student pareado para comparar uma média diferente de zero análise de variân cia para comparar três ou mais médias e correlação de Pearson para relacionar duas variáveis quantitativas Não será dito em cada teste mas em todos há a necessidade de que os dados apresentem distribui ção normal Caso seus dados não sigam a distribuição normal há sem pre uma alternativa não paramétrica São testes um pouco mais fracos mas que seguem as mesmas lógicas dos testes apresentados aqui Teste t de Student Teste t de Student para grupos independentes O teste t de Student é um dos testes mais conhecidos e mais fortes em toda a ciência O teste recebe esse nome por causa de seu criador William Sealy Gosset um excepcional estudante de Oxford que quando passou a trabalhar na cervejaria Guinness não podia publicar artigos científicos com seu nome verdadeiro por isso adotou o pseudônimo de Student nas publicações O teste t de Student testa a hipótese nula de que duas médias de dois grupos independentes são iguais consequentemente a hipótese alternativa de que as médias são diferentes Quais são as etapas para o teste Calcule a média de cada grupo depois calcule a variância po pulacional de cada grupo e em seguida calcule a variância ponderada 1 1 2 2 1 1 2 2 2 2 1 2 n n n n σp σ σ Onde σ2 p é a variância ponderada n1 número amostral do grupo 1 n2 número amostral do grupo 2 σ2 1 é a variância do grupo 1 σ2 2 é a variância do grupo 2 A variância ponderada nada mais é do que a média das variâncias dos dois grupos mas ponderada pelo tamanho amostral dos grupos Ou seja se um grupo tem maior namostral ele irá contribuir mais para o valor da Variância Ponderada A sugestão é que se puder balancear os grupos balanceie Calculada a variância ponderada calcule o valor de t que está associado a n1 n2 2 graus de liberdade Em uma explicação muito simples de por que graus de liberdade é sempre n1 é porque estamos incluindo uma média em nosso conjunto de dados então de vemos tirar uma observação para compensar a média Nesse caso estamos trabalhando com duas médias n1 1 n2 1 ou n1 n2 2 σ 1 1 1 2 1 2 2 m m t n n p TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 65 Depois de calculado o t compare o valor do t calculado com o t crí tico da tabela de distribuição de t de Student ao nível de significância estabelecido e aos graus de liberdade associados Se o t calculado for menor do que o valor encontrado na tabela não rejeite a hipótese nula Antes de irmos ao exemplo além de assumirmos a distribuição normal dos dados há a necessidade de testar a homocedasticidade que é a pressuposição de que as variâncias provêm de uma mesma população Como uma regra básica se a variância maior for até 4 vezes a da menor admitese variâncias iguais Por exemplo Foi realizado o teste t de Student ao nível de signi ficância de 5 para testar a hipótese nula de que a média do volume respiratório máximo em litros de um grupo de pessoas que fumam é a mesma que a de um grupo de pessoas que não fumam Na frase fo ram definidos a hipótese nula a distribuição de probabilidades no caso a distribuição de t de Student e o nível de significância do teste No nosso exemplo hipotético temos que a média do volume respiratório máximo em litros do grupo que não fuma foi de 526L DP044L e do grupo que fuma foi de 477L 025L O t calculado foi de 605 aos graus de liberdade de 98 Observando o t crítico da tabela temos o va lor de 2101 Como o nosso valor é maior do que o da tabela aceitamos a hipótese alternativa de que as médias são diferentes O valor de p foi de 0000 Na tabela de distribuição de t de Student são apresentadas três op ções duas caudas uma cauda e nível de confiança Devemos olhar a opção de duas caudas O que isso significa Significa que se a priori não sabemos se o grupo A é maior que o B ou se o B é maior que o A então assumimos que a hipótese alternativa pode ser para qualquer lado ou cauda da distribuição Se tivermos uma boa razão para escolher que na hipótese alternativa só me interessa saber se A é maior que B então optamos por um teste unicaudal Na redação final do nosso exemplo não podemos apenas dizer aceitamos a hipótese alternativa você deve ser o mais claro possível Como nossa hipótese alternativa é de que as médias são diferentes te mos de olhar os valores das médias para saber o que elas estão nos di zendo e deixar isso claro para o leitor Além disso vale sempre reforçar que estamos falando de média e de qual variável estamos comparando Como fica a redação do resultado final A média do volume expira tório máximo foi significativamente maior no grupo de participantes que não fumam do que do grupo de participantes que fumam t605 p0000 reforce que sempre devemos colocar o valor da estatística e o pvalor Dessa forma não precisamos ficar floreando ao descrever os resultados ou seja vamos direto a eles TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 66 Teste t de Student pareado O teste t de Student para estudos pareados indica que a compara ção entre duas médias ocorre quando a unidade amostral é a mesma Os estudos clássicos dessa técnica são o antes e depois estudos com gêmeos ou direito e esquerdo de um mesmo indivíduo São estudos muito fortes pois como o objeto da comparação é a mesma unidade amostral isso minimiza a variância da variável do estudo A hipótese nula do teste t pareado é de que a média das diferenças é igual a zero e a hipótese alternativa é diferente de zero Para o teste t pareado primeiro calculamos as diferenças entre to das as observações pareadas por exemplo o valor do depois menos o valor de antes do experimento d x2 x1 Depois calculamos a média das diferenças d d n Em seguida calculamos a variância dessas diferenças 1 2 2 S d d n Para então calcularmos o valor de t associado a n1 graus de liberdade 2 t d S n Então comparamos o valor de t calculado com o valor de t crítico no nível de significância estabelecido e com os mesmos graus de li berdade Se o t calculado for menor do que o t crítico da tabela não rejeitamos a hipótese nula ao nível de significância estabelecido Os graus de liberdade no teste t pareado é n1 pois estamos usando ape nas uma média a média das diferenças entre o antes e o depois Além disso aqui o pressuposto é que a diferença das observações apresenta distribuição normal Vamos a um exemplo ainda relacionado ao exemplo anterior Foi rea lizado um teste t de Student pareado ao nível de significância de 5 para testar a hipótese de que a Covid19 reduz a capacidade pulmonar dos pacientes Nesse exemplo claramente estamos partindo da premis sa de que é uma doença respiratória e que haveria comprometimen to dos pulmões logo esse é um ótimo exemplo de teste unicaudal TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 67 Suponha então que 30 participantes do estudo tinham o volume respi ratório máximo em litro registrados antes de contrair Covid19 e repeti ram o teste depois que tiveram a doença e tiveram alta Assim vamos ter 30 valores da diferença do depois menos o antes e então vamos calcular a média Se não houve diferença significa que a média foi zero concor dam Se for negativa significa que a capacidade pulmonar foi reduzida e se for positiva significa que a capacidade pulmonar foi aumentada mas essa última interpretação não fará sentido no teste unicaudal Como resultado do nosso exemplo hipotético houve uma diminuição signifi cativa de 0362L de volume respiratório máximo depois que as pessoas contraíram Covid19 t335 p0001 Análise de variância e correlação linear Análise de variância A análise de variância ou simplesmente ANOVA ANalysis Of VAriance foi proposta por ronald Aylmer Fisher um dos nomes mais importantes do desenho experimental A ANOVA testa a hipótese nula de que três ou mais grupos apresentam a mesma média ou que não há diferença entre as médias O resultado do teste sempre apresenta uma tabela contendo alguns valores que seguem uma lógica das diferenças entre as variâncias Vamos considerar que estamos comparando a média de três grupos e cada grupo apresenta 10 observações Primeiro vamos calcular a variância total ou seja independentemente do grupo tiramos a média geral e calculamos a variância ou também chamado de desvio quadrá tico Depois tiramos a variância de cada grupo ou variância intragru pos e somamos Em seguida calculamos a variância entre grupos ou seja consideramos a média de cada grupo em relação à média geral Se o nosso total de observações é de 30 os graus de liberdade são res pectivamente 29 n1 média geral 27 temos 3 médias a serem des contadas e 2 3 médias a média geral Então dividimos a variância total por 29 a variância intragrupos por 27 e a variância entregrupos por 2 obtendo portanto o desvio médio A razão entre a variância en tregrupos e intragrupos é o valor da estatística F o qual é então com parado com a distribuição de probabilidade de F de Fisher ao nível de significância estabelecido e aos graus de liberdade do numerador 2 e do denominador 27 Vamos trabalhar um exemplo bastante simples já visto em trilha an terior Foi realizado um teste ANOVA ao nível de significância de 5 TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 68 para verificar se a média de idade dos participantes do estudo difere em relação ao nível de atividade física As médias de idade foram 336 anos dp504 para o grupo pouco ativo 3131 dp355 para o grupo ativo e 2934 dp633 para o grupo muito ativo Será que essas médias são significativas A Tabela 1 mostra o resultado de uma ANOVA em qualquer programa de estatística e cada etapa foi descrita no parágrafo anterior O pontochave é a razão entre os desvios médios entregrupos por intragrupos que dá o valor de F de Fisher no caso 1664126896189 O que significa esse valor Que a variância entre as médias dos níveis de atividade física é 6189 vezes maior do que a variância de idade em cada grupo Imagine se essa razão fosse zero isso significa que ou há pouca variação entre as médias dos grupos o que não permite dizer que as médias são diferentes ou que há tanta variação dentro dos grupos que acaba gerando muito ruído nos dados que também não permite dizer que as médias são diferentes Em outras palavras que a variação dentro dos grupos é mais importante que a variação entre as médias dos grupos logo não poderíamos dizer que são diferentes Fonte Desvio quadrático Graus de liberdade Desvio médio Razão das variâncias Fvalor Probabilidade EntreGrupos 3328 2 16641 6189 000295 IntraGrupos 26081 97 2689 Total 29409 99 Comparando o Fvalor calculado com o da tabela de distribuição de probabilidades de Fisher tomamos a decisão O valor da tabela aos graus de liberdade do teste é de 579 O pvalor já nos fornece a conclusão do nosso estudo sem ter de observar as tabelas como já mencionado logo como ficaria nossa redação dos resultados no artigo científico A média de idade dos participantes diferiu significativamente entre os ní veis de atividade física sendo que a média da idade foi maior para os participantes que declararam que faziam pouca atividade física F6189 p000295 Vejam que devemos ser mais específicos ao dizer os resul tados ao leitor ou seja não podemos dizer apenas que diferiu O leitor vai se perguntar Mas qual é a diferença Então ou apresentamos um boxplot ou a tabela com os dados associado à nossa descrição do teste Correlação linear de Pearson O teste de correlação linear de Pearson testa a hipótese nula de que não há correlação entre duas variáveis quantitativas ou numéricas Tabela 1 resultado de uma análise de variância entre a média de idade de participantes de um estudo em relação a três níveis de atividade física pouco ativo ativo e muito ativo Exemplo hipotético de dados Fonte elaborada pelo autor TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 69 Esse teste calcula o coeficiente de correlação de Pearson denominado r e mede o grau de correlação entre duas variáveis numéricas 2 2 2 2 r xy x y n x x n y y n Apesar de o cálculo parecer muito difícil ele tem apenas operações simples entre a variável X e a variável Y O coeficiente r vai de valores de 1 até 1 O sinal indica se a correlação é positiva ou negativa Uma correlação positiva significa que conforme aumentam os valores de X aumentam também os valores de Y Uma correlação negativa significa que conforme aumentam os valores de X diminuem os valores de Y Além disso quando o r for mais próximo do valor 1 negativo ou positi vo mais forte é a correlação Como sugestão de intensidade da correla ção temos que zero não há correlação entre as duas variáveis de 01 a 03 seria uma correlação fraca de 04 a 06 temos uma correlação moderada e acima de 07 temos uma correlação forte É importante destacar que o r não indica uma relação de causa e efeito e sim que as duas variáveis estão correlacionadas apenas e não que uma variável ocorre em função da outra variável O r pode ser calculado no Excel com a função a seguir e selecionando os dados das duas variáveis COrrELmatriz1matriz2 O teste de correlação linear de Pearson não exige que se mostre o gráfico de dispersão mas é indicado caso você não faça muitos testes de correlação ao mesmo tempo nesse caso é melhor apresentar uma tabela com os diversos valores de r Dentro do gráfico também não é necessário a colocação da linha de tendência mas pode facilitar a interpretação Vamos a um exemplo visto na Trilha 3 quando aprendemos o gráfico de dispersão Foi feito um teste de correlação linear de Pearson para testar a hipótese de que há correlação entre peso e altura dos partici pantes ao nível de significância de 5 Nesse caso optamos em decla rar a hipótese alternativa O que significa a hipótese nula Simplesmente que r0 que não há correlação entre as duas variáveis Feito o teste de correlação em um programa de estatística temos como resultado houve uma correlação forte e positiva entre a altura e o peso dos parti cipantes do estudo r087 p0000 Simples assim Vejam que as duas variáveis estão correlacionadas mas não faz sentido atribuir causa e efei to ou seja não é o peso que causa a altura ou viceversa É importante destacar que a correlação pode ser fraca mas também significativa Isso vai da natureza do fenômeno que se deseja estudar TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 70 Síntese Nesta trilha estudamos quatro grandes testes de hipótese O teste t de Student para comparar duas médias entre grupos independentes ou dependentes teste t pareado o teste de análise de variância usa do para comparar três ou mais médias entre grupos independentes e o teste de Correlação linear de Pearson que serve para verificar se existe correlação entre duas variáveis quantitativas Vocês devem en tender quais os tipos de variáveis do estudo e fazer um paralelo com os exemplos dados aqui As estruturas dos testes paramétricos aprendidos aqui podem ser usadas caso os dados não sigam a distribuição normal bastando pesquisar qual é o teste alternativo não paramétrico Sendo assim é importante que ao lerem artigos científicos identifiquem as hipóteses nulas e alternativas e as intepretações do pvalor Referências ArANGO h G Bioestatística teórica e computacional 3 ed rio de Janeiro Guanabara Koogan 2009 BErQUÓ E SOUZA J GOTLIEB S Bioestatística 2 ed São Paulo EPU 1981 BUSSAB W O MOrETTIN P A Estatística básica 5 ed São Paulo Saraiva 2005 CALLEGArIJACQUES S M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 DÍAZ F r LÓPEZ J B Bioestatística São Paulo Pioneira Thomson Learning 2007 LÓPEZ J B Bioestatística São Paulo Pioneira Thomson Learning 2007 PAGANO M GAUVrEAU K Princípios da bioestatística São Paulo Thomson 2004 VIEIrA S Introdução à Bioestatística São Paulo Pioneira Thomson Learning 2005 TrILhA 7 TESTES ESTATÍSTICOS PArAMÉTrICOS 71 COLIN ANDERSON PRODUCTIONS PTY LTDGETTYIMAGES Trilha 8 Aplicação da Bioestatística na pesquisa clínica Professora Juliana Masami Morimoto Introdução ao estudo da trilha de aprendizagem Nas trilhas de aprendizagem anteriores foram estudados conceitos básicos de estatística descritiva e de estatística inferencial Nesta trilha os conhecimentos da estatística inferencial serão aplicados aos tipos de estudos abordados nas trilhas 6 e 7 do componente curricular de Epidemiologia A partir do objetivo de sua pesquisa é possível definir o melhor tipo de estudo e consequentemente a melhor forma de analisar seus dados Será que em um estudo transversal posso usar um teste t de Student Em um estudo de coorte vou utilizar o teste t de Student pareado Em quais situações posso usar o teste do quiquadrado Assim os objetivos desta trilha são apresentar a definição de pesquisa clínica vincular objetivos de pesquisa aos testes estatísticos adequados a cada caso apresentar aplicações dos testes estatísticos paramétricos aos objetivos de pesquisa Recomendo que você inicie os estudos ouvindo o audioblog que apresentará a última trilha do componente curricular de Bioestatística Depois realize o estudo do capítulo do ebook que traz as interliga ções entre objetivos de pesquisa tipos de estudo e testes estatísticos paramétricos Em seguida assista à videoaula que traz a explicação da aplicação da análise estatística em dois tipos de estudo o que ajudará na fixação dos conteúdos deste ebook Por fim os materiais comple mentares trazem na íntegra alguns estudos apresentados no texto e que são importantes para a finalização dos estudos Retomando conceitos Pesquisa clínica A pesquisa clínica é definida por muitos autores como estudos que envolvem seres humanos com o objetivo de gerar novos conhecimen tos sobre medicamentos tratamentos e procedimentos entre outros que afetam o ser humano Por exemplo um estudo que analisa a eficá cia de uma vacina é uma pesquisa clínica pois os resultados ajudarão a saber se a vacina fornecerá à população algum grau de proteção contra uma doença Outro exemplo são os estudos que analisam a relação en tre alimentos e doenças pois os resultados ajudarão a criar orientações alimentares sobre alimentos com maior risco associado às doenças e alimentos considerados protetores da saúde Portanto o conhecimento produzido em pesquisas clínicas pode ser utilizado pelos profissionais de saúde em sua prática clínica mas para que isso ocorra alguns conhecimentos são necessários e que estão descritos a seguir Interpretar estatísticas vitais como nascimentos e mortes pode ajudar a diagnosticar e tratar pacientes de forma eficaz Conhecer dados epidemiológicos das doenças como sua pre valência população mais atingida localização geográfica e fa tores de risco associados auxilia no diagnóstico e tratamento de pacientes e na tomada de decisões sobre a utilização de recursos de saúde na população Conhecer procedimentos diagnósticos para decidir correta mente qual será o procedimento em cada caso a partir de in formações sobre sensibilidade e especificidade de um exame diagnóstico Avaliar protocolos de estudo e artigos científicos para avaliar a qualidade de um projeto de pesquisa ou de um artigo antes de ser publicado Para tanto necessita de conhecimento sobre metodologias aplicadas em pesquisas incluindo tipo de estudos e análise estatística Diante do que já foi explicado percebese a importância das pes quisas clínicas para o conhecimento científico já que seus resultados podem e devem ser usados na tomada de decisões pelos profissionais da saúde em sua prática clínica Para que isso seja possível as pesquisas precisam ser adequadamente desenvolvidas de forma que os resultados sejam precisos e corretos Por isso este tipo de pesquisa necessita de Planejamento como o estudo será conduzido Objetivo definição clara do objetivo principal do estudo TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 74 Método definir tipo de estudo amostra instrumentos e métodos de coleta de dados Análise dos dados definir os testes estatísticos adequados para responder ao objetivo do estudo Resultados definir como os resultados serão apresentados usan do medidas de tendência central e ou de dispersão ou frequên cias em número e porcentagem além do formato de tabelas gráficos ou texto Conclusão resposta ao objetivo delimitado no início do estudo A seguir serão apresentados os objetivos da pesquisa e como estes podem ser relacionados com testes estatísticos paramétricos e tipos de estudo Objetivos da pesquisa Os principais objetivos de pesquisa relacionados à análise estatística e que serão abordados nesta trilha são comparar médias de dois grupos comparar médias de três ou mais grupos comparar médias de um grupo em dois momentos antes e depois Analisar associações entre duas variáveis quantitativas correlações Analisar associações entre duas variáveis qualitativas comparar proporções comparar proporções de uma variável qualitativa em dois mo mentos antes e depois Analisar concordância entre dois métodos ou dois avaliadores Nos próximos tópicos serão apresentados os principais testes es tatísticos paramétricos e sua aplicação de acordo com o objetivo da pesquisa e em quais tipos de estudos poderão ser aplicados Serão abordados testes estatísticos paramétricos que consideram que as va riáveis quantitativas têm aderência à distribuição normal Comparação de médias entre dois grupos Para comparar médias entre dois grupos independentes o teste es tatístico adequado é o teste t de Student que assume que as observa ções nos dois grupos são independentes Nesse caso o objetivo é des cobrir se na comparação entre as duas médias estas não têm diferença estatística ou se uma média é estatisticamente maior do que a outra Para exemplificar em um estudo podese desejar comparar as mé dias de rendimento mensal segundo o sexo ou seja descobrir se as Saiba mais estude a Trilha 7 do componente de Bioestatística TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 75 pessoas do sexo feminino ou do sexo masculino tem um rendimento maior do que o outro grupo ou se as médias não têm diferença estatís tica Nesse caso devese utilizar o teste t de Student para comparar as médias de rendimento segundo o sexo considerando os tipos de estudo o teste t de Student pode ser usado em estudos transversais para comparar variáveis quantitativas dois grupos que fazem parte da amostra estudos casocontrole para comparar variáveis quantitativas nos casos e nos controles Nas variáveis demográficas e socioeco nômicas esperase que não haja diferença estatística entre as médias para que não interfira nos resultados do estudo espera se que casos e controles sejam semelhantes Nas variáveis de interesse já são esperadas diferenças estatísticas entre os casos e controles estudos de coorte para comparar variáveis quantitativas em dois grupos em qualquer momento cronológico do estudo estudos experimentais para comparar o grupo experimental e o controle em relação às variáveis demográficas e socioeconômi cas no início do estudo as médias não devem ter diferença esta tística Já as variáveis de interesse após intervenção devem ter diferença estatística na comparação entre o grupo experimental e o grupo controle Comparação de médias entre 3 ou mais grupos Para comparar médias de uma variável quantitativa entre 3 ou mais grupos independentes utilizase a Análise de Variância ANOVA Oneway Esse teste estatístico fornece como resultado se as três ou mais médias não têm diferença estatística ou se pelo menos uma delas é diferente das outras isso significa que pela ANOVA caso haja diferença entre as médias não é possível identificar qual é a maior média em relação às outras Para identificar qual mé dia é maior do que as outras é necessário usar um teste estatístico posthoc ou a posteriori após a ANOVA ter um resultado significati vo que fará múltiplas comparações entre todas as médias que estão sendo analisadas como exemplo podese citar um estudo em que se deseja analisar a média de idade dos alunos de três cursos de Graduação Psicologia Nutrição e Fisioterapia Devese utilizar a ANOVA para a comparação das médias e tendo resultado significativo podemos usar um teste posthoc de Tukey para identificar em qual curso a média de idade é maior do que a outra Saiba mais estude novamente a Trilha 7 do componente de Bioestatística TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 76 considerando os tipos de estudo a ANOVA pode ser usada para estudos transversais para comparar variáveis quantitativas em três ou mais grupos que fazem parte da amostra estudos de coorte para comparar variáveis quantitativas em três ou mais grupos em qualquer momento cronológico do estudo estudos experimentais para comparar o grupo controle e outros dois grupos experimentais com relação às variáveis demográficas e socioeconômicas que sejam quantitativas no início do estudo sendo que se espera que as médias não tenham diferença esta tística Já as variáveis de interesse após intervenção devem ter diferença estatística entre os três grupos Comparação de médias do mesmo grupo em dois momentos diferentes Para comparar médias de uma variável quantitativa entre duas amos tras relacionadas ou seja a mesma amostra em dois momentos dife rentes antes e depois podese utilizar o teste t pareado Nesse caso as observações do mesmo participante são pareadas umas com as ou tras para observar se há diferença ao longo do tempo Para ilustrar imagine um estudo no qual as pessoas têm o peso afe rido no início e recebem uma intervenção para perda de peso Após 3 meses os participantes têm o peso aferido novamente para compa ração da média de peso antes com a média de peso após intervenção pelo teste t pareado considerando os tipos de estudo o teste t pareado pode ser usado estudos de coorte para comparar uma variável quantitativa no mesmo grupo em dois momentos cronológicos do estudo estudos experimentais para comparar o grupo experimental e o controle no início do estudo em relação ao final para variáveis quantitativas Esperase que as variáveis de interesse tenham di ferença estatística no grupo experimental e não no controle Associação entre duas variáveis quantitativas correlações A análise da associação linear entre duas variáveis quantitativas é realizada por meio da análise de correlação de Pearson Nesse caso calculase o coeficiente de correlação de Pearson que representa a força e a direção da correlação entre as duas variáveis como exemplo podemos pensar em um estudo com adultos que tem o objetivo de analisar a correlação entre o peso corporal referido e TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 77 o peso aferido Geralmente nessa situação a correlação é forte e po sitiva pois adultos costumam relatar seu peso corporal em valor muito próximo ao aferido em balanças A correlação de Pearson pode ser usada em estudos transversais para analisar a correlação entre duas variá veis quantitativas estudos casocontrole para analisar a correlação entre variáveis quantitativas em cada grupo em casos e controles estudos de coorte para analisar a correlação entre duas variáveis quantitativas em qualquer momento cronológico do estudo estudos experimentais para analisar a correlação entre variáveis quantitativas em cada grupo o experimental e o controle Analisar associações entre duas variáveis qualitativas comparar proporções Para analisar a associação entre duas variáveis qualitativas podese utilizar o teste do quiquadrado que compara frequências ou propor ções entre dois ou mais grupos O teste exato de Fisher é um substi tuto ao teste do quiquadrado quando houver uma tabela 2 X 2 cada variável qualitativa tem duas categorias e quando no cálculo das fre quências esperadas houver pelo menos uma das células da tabela com frequência esperada menor do que 5 como exemplo podemos citar um estudo no qual se deseja saber se há mais homens ou mulheres fumantes na amostra Nesse caso teremos quatro frequências homens fumantes homens não fumantes mulheres fumantes e mulheres não fumantes Ao aplicar o teste do quiquadrado teremos a resposta se a proporção de fumantes em homens e mulheres não tem diferença estatística ou se há maior proporção estatisticamen te significativa em um dos grupos de sexo O teste do quiquadrado pode ser usado em estudos transversais para comparar variáveis qualitativas dois grupos que fazem parte da amostra estudos casocontrole para comparar os casos e os controles em variáveis qualitativas Nas variáveis demográficas e socioe conômicas esperase que não haja diferença estatística entre as médias para que não interfira nos resultados do estudo Nas variáveis de interesse já se esperam diferenças estatísticas entre os casos e controles estudos de coorte para comparar variáveis qualitativas em dois grupos em qualquer momento cronológico do estudo estudos experimentais para comparar o grupo experimental e o controle em relação às variáveis demográficas e socioeconômicas Saiba mais estude novamente a Trilha 6 do componente de Bioestatística TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 78 no início do estudo as proporções não devem ter diferença es tatística Já as variáveis de interesse após intervenção devem ter diferença estatística na comparação entre o grupo experimental e o grupo controle Comparar proporções de uma variável qualitativa em dois momentos antes e depois O teste de McNemar analisa a diferença entre proporções de uma variável qualitativa em uma mesma amostra ao longo do tempo an tes e depois Nesse caso a variável qualitativa deve ter apenas duas categorias Podemos citar o exemplo de avaliação de um programa de capacita ção a trabalhadores no qual se deseja saber se a proporção de respos tas corretas a uma pergunta aumenta após a capacitação Então você faz essa pergunta antes da capacitação e terá um número X de pessoas que responderam corretamente e um número Y de pessoas que res ponderam incorretamente A capacitação é realizada nessas pessoas e a mesma pergunta é realizada novamente obtendo novo número de pessoas que responderam corretamente e que responderam incorreta mente O teste do McNemar avaliará se o número de pessoas que res pondeu corretamente após a capacitação é estatisticamente diferente maior ou menor do que no início do estudo Por que não podemos utilizar o teste do quiquadrado nesta situação de avaliação antes e depois A resposta está no procedimento dos dois testes estatísticos que é diferente O teste de McNemar irá parear as respostas de cada indivíduo nos dois momentos e avaliará a mudança da resposta ao longo do tempo O teste do quiquadrado não analisa as respostas a partir do pareamento ao longo do tempo por isso se torna inadequado nesta situação O teste de McNemar pode ser usado em estudos de coorte para comparar o mesmo grupo em dois momentos cronológicos do estudo em relação às variáveis qualitativas estudos experimentais para comparar variáveis qualitativas no grupo experimental e no controle no início do estudo em relação ao final esperase que as variáveis de interesse tenham diferença estatística no grupo experimental e não no controle Analisar concordância entre dois métodos A estatística Kappa analisa o grau de concordância entre dois exami nadores ou dois métodos no qual o mesmo indivíduo é avaliado duas TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 79 vezes A variável que avalia os examinadores ou métodos deve ser qua litativa para o uso desse teste estatístico que também é chamado de análise de confiabilidade interna um exemplo é a avaliação de pacientes por dois profissionais di ferentes e utilizando a mesma ferramenta para o diagnóstico de uma doença sim ou não O teste da estatística Kappa será realizado a partir da análise da porcentagem de respostas concordantes entre os dois profissionais após correção para concordância ao acaso O quadro 1 apresenta valores de Kappa e a interpretação correspon dente Esperase que a concordância entre as medidas seja adequa da a partir de valores de Kappa de 061 pois é considerada uma boa concordância Kappa Interpretação da concordância 093 100 Excelente 081 092 Muito boa 061 080 Boa 041 060 Regular 021 040 Discreta 001 020 Pequena 000 Ausência O teste de concordância Kappa pode ser usado em estudos transversais para comparar dois avaliadores ou dois mé todos em um mesmo grupo isso pode ser realizado antes do estudo propriamente dito para escolha do método ou calibração dos avaliadores estudos de coorte para comparar dois avaliadores ou dois mé todos em um mesmo grupo isso pode ser realizado antes do estudo propriamente dito para escolha do método ou calibração dos avaliadores estudos experimentais para comparar dois avaliadores ou dois métodos em um mesmo grupo isso pode ser realizado antes do estudo propriamente dito para escolha do método ou calibração dos avaliadores Quadro 1 Valores da estatística Kappa e interpretação correspondente Fonte adaptado de Byrt 1996 TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 80 Aplicações Estudo transversal Foi realizado um estudo transversal em amostra de adultos para ava liar características do tabagismo segundo o sexo Foram coletados da dos sobre sexo idade situação do tabagismo fumante exfumante não fumante tempo de tabagismo número de cigarros fumados por dia As análises estatísticas possíveis são Para analisar se há diferença na proporção de fumantes segun do o sexo deve se utilizar o teste do quiquadrado ou exato de Fisher caso haja alguma frequência esperada menor do que 5 Para analisar se há diferença na média do número de cigarros fuma dos por dia segundo o sexo devemos utilizar o teste t de Student Poderia ser analisada a correlação linear entre idade e número de cigarros fumados por dia por meio do coeficiente de correlação de Pearson Para saber mais sobre estudo transversal leia o artigo científico de Vasconcellos Almei da e Marimoto 2021 estudo realizado com amostra de bailarinos profissionais que teve como objetivo analisar o comportamento alimentar e a imagem corporal destes parti cipantes Para analisar diferenças segundo o sexo utilizouse o teste t de Student nas variáveis quantitativas tabelas 1 e 3 e o teste do quiquadrado nas variáveis qualitativas tabelas 2 4 e 7 Também foi utilizada a ANOVA para analisar diferenças das médias da Escala de Atitudes Alimentares Transtornadas em relação a outras variáveis qualitativas com 3 ou mais categorias Disponível em httpwwwrbnecombrindexphprbnearti cleview1923 Acesso em 12 abr 2022 Estudo casocontrole com o objetivo de avaliar características da alimentação associados com câncer de mama foi realizado um estudo do tipo casocontrole no qual foram selecionados em um hospital pacientes incidentes casos novos de câncer de mama casos e pacientes da clínica de ortopedia que não tivessem doenças ou condições relacionadas à alimentação controles Foi aplicado um questionário de frequência alimentar que questionava sobre o consumo de alimentos nos 12 meses anteriores ao início do estudo de forma que nos casos coincidia com o período ainda sem o diagnóstico da doença As análises estatísticas possíveis são Para analisar diferenças nas variáveis demográficas e socioeco nômicas entre casos e controles devese utilizar o teste t de Student nas variáveis quantitativas e o teste do quiquadrado nas variáveis qualitativas O ideal é que esses testes estatísticos não TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 81 resultem em diferenças significativas pois a única diferença en tre casos e controles deve ser a presença ou ausência da doença Para analisar as diferenças nas características da alimentação entre casos e controles o teste t de Student pode ser utilizado para com parar médias de consumo de porções de alguns alimentos como média do número de frutas consumido diariamente O teste do quiquadrado pode ser utilizado para comparar o consumo ou não de alimentos entre casos e controles como o consumo frequen te de gorduras aparentes de carnes Para saber mais sobre estudo casocontrole leia o estudo de Cezar et al 2020 um estudo casocontrole constituído por 248 indivíduos com transtorno do espectro autista TEA casos e 886 típicos controles com o objetivo de avaliar a associação entre TEA e as coocorrências de transtornos psiquiátricos entre familiares O teste do quiquadrado foi utilizado para analisar diferenças de algumas variáveis qualitativas entre casos e con troles tabelas 1 e 2 Como o estudo é do tipo casocontrole pode se observar o uso do odds ratio em alguns resultados Disponível em httpswwwscielobrjjbpsiqarwDxN 4LCvT9trtmcq3HT3wwlangpt Acesso em 12 abr 2022 Estudo de coorte Estudo de coorte foi realizado com alunos de graduação em Nutrição de uma instituição de ensino superior privada para analisar crenças e atitudes antiobesidade ao longo de sua formação Na 1ª etapa do curso os alunos responderam a um questionário contendo dados demográficos socioeconômicos e a Escala de Atitudes Antiobesidade que fornece uma pontuação final Os mesmos instrumentos de coleta de dados foram apli cados aos estudantes quando estes estavam na última etapa do curso As análises estatísticas possíveis são Para analisar se os estudantes mudaram suas crenças e atitudes antiobesidade ao longo do curso podemos utilizar o teste t pa reado para comparar as médias da Escala no início do curso em relação ao final do curso sendo que o esperado é que a média seja menor no final do curso demonstrando atitudes mais positi vas em relação às pessoas com obesidade Se houver uma variável qualitativa que foi aplicada no início do curso e reaplicada no final poderiam ser realizadas comparações por meio do teste de McNemar Para saber mais sobre estudo de coorte leia o artigo de Kaufmann et al 2012 sobre um estudo de coorte realizado na cidade de Pelotas RS com coleta de dados de bebês nasci dos entre setembro de 2002 e maio de 2003 os quais foram acompanhados até o terceiro mês de vida com o objetivo de estudar o padrão alimentar nos primeiros três meses de vida Neste estudo os bebês foram divididos em dois grupos que sofreram desmame no primeiro mês de vida e os que continuaram com a amamentação A partir desses dois gru pos as variáveis qualitativas foram comparadas pelo teste do quiquadrado Tabela 1 Também foram calculados o risco relativo em cada variável medida de associação muito usada em estudos de coorte Disponível em httpswwwscielobrjrppatwm6DWStkZ rpMzk4kBK8GDrlangpt Acesso em 12 abr 2022 TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 82 Estudo experimental com o objetivo de avaliar a eficácia de um medicamento novo para redução do colesterol sérico indivíduos com colesterol total sérico entre 200 e 300 mgdl foram recrutados e divididos aleato riamente em dois grupos intervenção que receberá o medicamento novo e o controle que receberá o medicamento convencional exis tente no mercado O estudo será um ensaio clínico randomizado duplo cego e controlado conduzido por seis meses No início e no final do estudo serão coletadas amostras de sangue para análise do colesterol total e frações características da alimentação e realiza ção de atividade física As análises estatísticas possíveis são Para comparar as variáveis demográficas entre os grupos experi mental e controle o teste t de Student pode ser utilizado para as variáveis quantitativas e o teste do quiquadrado para as variáveis qualitativas esperando que os resultados não tenham diferenças significativas Para comparar as médias do colesterol total e frações no início e no final do estudo será utilizado o teste t pareado esperandose que o grupo experimental tenha valores médios menores do que o grupo controle para demonstrar melhor eficácia do medica mento novo Para comparar as características de alimentação e de atividade física no início e no final do estudo se a variável for quantita tiva devese utilizar o teste t pareado mas se for qualitativa deve se utilizar o teste de McNemar Nesses casos esperase que não haja diferenças significativas nos dois grupos experimental e controle para demonstrar que outras características que pode riam interferir no colesterol total e frações não foram modifica das ao longo do estudo Para saber mais sobre estudos experimentais leia o estudo de Silva et al 2021 so bre um ensaio clínico randomizado duplocego realizado em um Hemocentro do interior de Minas Gerais com o objetivo de avaliar os efeitos da música sobre ansiedadeestado parâmetros fisiológicos e laboratoriais em doadores de sangue O grupo experimental recebeu uma intervenção musical antes de doar sangue e o grupo controle teve a roti na padrão antes da doação Aplicouse o Inventário de Ansiedade TraçoEstado e cole taramse dados de pressão arterial saturação e oxigênio níveis de cortisol frequência cardíaca e respiratória antes e depois da doação de sangue Utilizouse o teste t de Stu dent para comparar as variáveis quantitativas nos grupos experimental e controle Tabela 2 Disponível em httpswwwscielobrjapeaPd5f7tg8BHHFkjPRGRMmLHwlangpt Acesso em 12 abr 2022 TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 83 Síntese Nesta trilha foi abordada a aplicação dos principais testes estatísticos paramétricos aos objetivos de pesquisa e tipos de estudo conhecimentos estudados em outras trilhas deste Bioestatística e de outro Epidemiologia componente curricular foram integrados para que se possa desenvolver adequadamente a análise estatística em cada situação de pesquisa clínica Percebese a importância de conhecer cada teste estatístico como funciona em que situação pode ser utilizado qual é o resultado que irá fornecer com esse conhecimento saber aplicar o teste estatístico correto para cada desenho de estudo se torna algo descomplicado O quadro 2 apresenta um resumo dos objetivos de pesquisa apre sentados nesta trilha e os testes estatísticos paramétricos que podem ser usados em cada caso Objetivo da pesquisa Teste paramétrico comparação de 2 médias em amostras independentes t de Student comparação de 2 médias em amostras relacionadas t pareado comparação de 3 ou mais médias em amostras independentes Análise de variância ANOVA coeficiente de correlação Pearson Teste de proporções em amostras relacionadas McNemar comparação entre proporções quiquadrado Exato de Fisher Teste de concordância Estatística Kappa caso tenha interesse em aprofundar os estudos de alguns te mas abordados nesta trilha consulte os materiais complementares lembrese de realizar os exercícios de fixação desta trilha pois eles ajudarão na finalização de seus estudos Referências ARANGO h G Bioestatística teórica e computacional 3 ed Rio de Janeiro Guanabara Koogan 2011 438p Quadro 2 Resumo dos principais testes estatísticos paramétricos segundo objetivos da pesquisa Fonte elaborado pela autora TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 84 BERquÓ E SOuZA J GOTliEB S Bioestatística 2 ed São Paulo EPu 2009 353p BuSSAB W O MORETTiN P A Estatística Básica 5 ed São Paulo Saraiva 2005 BYRT T how Good is That Agreement Epidemiology v 7 n 5 1996 Disponível em httpsjournalslwwcomepidem citation199609000howGoodisThatAgreement30aspx Acesso em 6 fev 2022 cAllEGARiJAcquES S M Bioestatística princípios e aplicações Porto Alegre Artmed 2007 255p cARVAlhO E c de A pesquisa clínica e algumas estratégias para seu fortalecimento Rev LatinoAm Enfermagem v 19 n 1 duas telas 2011 cEZAR i A M et al um estudo casocontrole sobre transtorno do espectro autista e prevalência de história familiar de transtornos mentais J Bras Psiquiatr v 69 n 4 p 247 54 2020 Disponível em httpswwwscielobrjjbpsiqa rwDxN4lcvT9trtmcq3hT3wwlangpt Acesso em 4 fev 2022 cRATO A N et al como realizar uma análise crítica de um artigo científico Arquivos em Odontologia v 40 n 1 p 001110 2004 DAWSON B TRAPP R G Bioestatística Básica e Clínica 3 ed Rio de Janeiro McGrawhill interamericana do Brasil ltda 364 p DíAZ F R lÓPEZ J B Bioestatística São Paulo Pioneira Thomson learning 2007 284p KAuFFMANN c c et al Alimentação nos primeiros três meses de vida dos bebês de uma coorte na cidade de Pelotas Rio Grande do Sul Rev Paul Pediatr v 30 n 2 p 15765 2012 Disponível em httpswwwscielobrjrppatwm6DWStkZrpMzk4kBK8GDrlangpt Acesso em 4 fev 2022 PAES A T itens essenciais em bioestatística Arq Bras Cardiol v 71 n4 57580 1998 PAGANO M GAuVREAu K Princípios de bioestatística São Paulo Thomson Pioneira 2011 xv 506p RONDiNi c A et al leitura crítica dos procedimentos estatísticos aplicados no campo da Psicologia Avances en Psicología Latinoamericana v 34 n 3 p 605613 2016 ROuquAYROl M Z AlMEiDA FilhO N Epidemiologia e saúde 6 ed Rio de Janeiro Medsi 2003 TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 85 SilVA K F N et al Efeitos da música na ansiedade de doadores de sangue ensaio clínico randomizado Acta Paul Enferm v34 eAPE00461 2021 Disponível em httpswwwscielobrjapea Pd5f7tg8BhhFkjPRGRMmlhwlangpt Acesso em 4 fev 2022 VAScONcEllOS E G AlMEiDA A R MARiMOTO J M comportamento alimentar e imagem corporal de bailarinos profissionais associados às percepções no ambiente de trabalho Revista Brasileira de Nutrição Esportiva v 15 n 95 p 426441 2021 Disponível em httpwwwrbnecombrindexphprbnearticle view1923 Acesso em 3 fev 2022 ViEiRA S Bioestatística tópicos avançados 2 ed Rio de Janeiro Elsevier 2004 216p TRilhA 8 APlicAçãO DA BiOESTATíSTicA NA PESquiSA clíNicA 86