·
Cursos Gerais ·
Bioestatística
Send your question to AI and receive an answer instantly
Recommended for you
Preview text
Leandro Vinhas de Paula Bioestatística Unidade 3 Noções de Inferência Estatística Livro didático digital Diretor Executivo DAVID LIRA STEPHEN BARROS Diretora Editorial ANDRÉA CÉSAR PEDROSA Projeto Gráfico MANUELA CÉSAR ARRUDA Autor LEANDRO VINHAS DE PAULA Desenvolvedor CAIO BENTO GOMES DOS SANTOS Olá Meu nome é Leandro Vinhas de Paula sou bacharel e licenciado em Educação Física Faculdade de Educação Física e Fisioterapia Universidade Federal de Uberlândia mestre em Ciências do Esporte Escola de Educação Física Fisioterapia e Terapia Ocupacional Universidade Federal de Minas Gerais EEFFTOUFMG e especialista em Estatística Aplicada Departamento de Estatística Instituto de Ciências Exatas ICEXUFMG com uma experiência técnicoprofissional na área de educação física e esportes por mais de 10 anos em atividades de ensino pesquisa e extensão na Universidade Federal de Ouro Preto e no meio privado Atualmente sou doutorando na área de Biomecânica EEFFTO UFMG Autor LEANDRO VINHAS DE PAULA INTRODUÇÃO para o início do desenvolvimen to de uma nova competência DEFINIÇÃO houver necessidade de se apresentar um novo conceito NOTA quando forem necessários obser vações ou comple mentações para o seu conhecimento IMPORTANTE as observações escritas tiveram que ser prioriza das para você EXPLICANDO MELHOR algo precisa ser melhor explicado ou detalhado VOCÊ SABIA curiosidades e indagações lúdicas sobre o tema em estudo se forem necessárias SAIBA MAIS textos referências bibliográficas e links para aprofun damento do seu conhecimento REFLITA se houver a neces sidade de chamar a atenção sobre algo a ser refletido ou discutido sobre ACESSE se for preciso aces sar um ou mais sites para fazer download assistir vídeos ler textos ouvir podcast RESUMINDO quando for preciso se fazer um resumo acumulativo das últimas abordagens ATIVIDADES quando alguma ativi dade de autoapren dizagem for aplicada TESTANDO quando o desen volvimento de uma competência for concluído e questões forem explicadas Iconográficos Olá Meu nome é Manuela César de Arruda Sou a responsável pelo pro jeto gráfico de seu material Esses ícones irão aparecer em sua trilha de aprendizagem toda vez que SUMÁRIO Introdução10 Competências11 Teste de hipótese12 Intervalo de confiança da média17 Testes para inferência sobre uma amostra21 Teste para inferência sobre duas ou mais amostras29 Bibliografia46 Bioestatística 9 UNIDADE 03 NOÇÕES DE INFERÊNCIA ESTATÍSTICA Bioestatística 10 Nesta unidade você terá noções de inferência estatística testará hipóteses sobre uma e duas amostras e será apresentado aos métodos não paramétricos para testagem de hipóteses para uma determinada variável aleatória Adicionalmente exemplos práticos serão apresentados para que possa entender como aplicar estes conceitos Então vamos lá INTRODUÇÃO Bioestatística 11 Olá Seja muito bemvindo à Unidade 3 Nosso objetivo é auxiliar você no desenvolvimento das seguintes competências profissionais até o término desta etapa de estudos 1 Testando hipóteses 2 Entendendo o que é o intervalo de confiança da média 3 Testando hipóteses sobre uma amostra 4 Testando hipóteses sobre duas ou mais amostras Vamos começar Está preparado Então vamos ao trabalho COMPETÊNCIAS Bioestatística 12 Teste de hipótese Nesta unidade 3 as duas maiores aplicações da inferência estatística serão trabalhadas constituindo no foco de nosso estudo envolvendo o uso de dados amostrais para estimar o valor de um parâmetro populacional e testar alguma afirmativa sobre a amostra O procedimento estatístico para estimação de parâmetros e teste de hipóteses são procedimentos padrões na área de bioestatística Considerando apenas uma única variável quais são as perguntas mais frequentes a responder após a coleta dos dados Separando pelo tipo da variável são Tabela 01 Variáveis quantitativas x qualitativas Fonte Autor Quantitativa Qualitativa Qual o valor médio popu lacional O valor médio encontrado é significativamente di ferente das expectativas atuais e teóricas Qual o nível de incerteza associado com a estimati va do valor médio Qual é a proporção po pulacional do evento de interesse A proporção encontrada é significativamente diferen te das expectativas atuais ou teóricas Qual o nível de incerteza associado com a estimati va da proporção Bioestatística 13 Tabela 02 Variáveis quantitativas x qualitativas Fonte Autor Suponha duas variáveis as questões a responder nesse caso dependem do tipo das variáveis Vejamos as três possibilidades Qualitativa vs Qualitativa Quantitativa vs Qualitativa Quantitativa vs Quantitativa Existe associa ção concor dância entre as variáveis Como se dá a associação Qual é o grau de associação concordância A variável quanti tativa é diferente entre as catego rias da variável qualitativa Qual é o nível de incerteza asso ciado à existência dessa diferença Existe correlação entre as variá veis Qual tipo de cor relação Qual é o grau de associação Inicialmente podese definir um teste de hipótese como um procedimento padrão para testar uma afirmativa sobre uma propriedade da amostra A construção de afirmativas com base na observação de fenômenos é parte essencial do método científico Logo antes de apresentar as etapas de um teste de hipótese primeiramente é importante definir alguns conceitos Nível de significância α É definido como o nível de significância o erro assumido pela testagem da hipótese o limite para o valor de probabilidade pvalor abaixo do qual assumese que a hipótese nula é falsa μ É conceituada como a média populacional a relação entre o somatório do conjunto total de valores dos elementos pelo número de elementos observado de uma determinada variável aleatória Bioestatística 14 ẋ definida como média amostral ou a relação entre o somatório do subconjunto de valores dos elementos pelo número de elementos observado nesta amostragem para uma determinada variável aleatória σ desvio padrão populacional definido como a raiz quadrada dos somatórios dos desvios elevados ao quadrado divididos pelo número elementos da amostra s desvio padrão amostral definido como a raiz quadrada dos somatórios dos desvios elevados ao quadrado divididos pelo número de elementos da amostra menos 1 H0 Hipótese nula consiste de uma afirmação produzida pela pesquisador que geralmente aponta que não há relação entre fenômenos medidos H1 Hipótese alternativa consiste de uma afirmação produzida pela pesquisador que geralmente aponta que há relação entre fenômenos medidos Erro tipo I α Significa rejeitar a hipótese nula quando essa era de fato verdadeira Erro tipo II β Significa não rejeitar a hipótese nula quando a hipótese nula é falsa Poder do teste 1 β Consiste da probabilidade de rejeitar a hipótese nula quando a hipótese nula é falsa Observem na tabela abaixo as possibilidades de erro Tabela 03 Tipos de erros Fonte Autor DECISÃO REJEITAR NÃO REJEITAR H0 verdadeira Erro tipo I 1 α H0 falsa 1 α Erro tipo II Bioestatística 15 A seguir será apresentado a idéia geral de um teste de hipótese e mostrar os princípios e conceitos que serão utilizados em todos os testes estatísticos As etapas de um teste de hipótese são a Estabelecimento das hipóteses Uma questão importante aqui é definir o parâmetro que se está testando média proporção ou variância e se o teste será bilateral ou unilateral As diferenças são mostradas abaixo I Teste unilateral H0 μ 332 H1 μ332 II Teste bilateral H0 μ332 H1 μ332 A diferença reside que no teste unilateral você quer testar somente se o valor é menor ou maior que o valor especificado enquanto o teste bilateral testa ao mesmo tempo as duas opções dos testes unilaterais Dessa forma o teste unilateral é utilizado quando se possui algum conhecimento sobre o que se está testando b Determinar a estatística de teste A estatística de teste é um valor calculado a partir dos dados amostrais e é usada para se tomnar a decisão sobre a rejeição ou não da hipótese nula c Cálculo do valor de probabilidade e tomada de decisão Comumente a estatística de teste está atrelada a alguma distribuição de probabilidade Por meio da estatística Bioestatística 16 de teste sabese a probabilidade do evento em questão ocorrer o que possibilita a tomada de decisão sobre as hipóteses traçadas previamente O valor de probabilidade p valor é definido como a probabilidade de se obter um valor da estatística de teste que seja no mínimo tão extremo quanto o que representa os dados amostrais supondo a hipótese nula verdadeira Sendo assim fixando o nível de significância em 005 5 se o pvalor for menor que 005 rejeitase a hipótese nula Uma outra maneira de tomar decisões sobre o teste de hipótese é sobre a região crítica A região crítica é definida como o conjunto de todos os valores da estatística de teste que nos fazem rejeitar a hipótese nula Cada teste de hipótese possui sua estatística de teste e na medida que o tamanho amostral aumenta se conhece a distribuição de probabilidade e sua respectiva distribuição de probabilidade da estatística de teste Porém qual teste de hipótese utilizar Como escolher o teste de hipótese adequado A fim de selecionar o teste adequado para garantir que a inferência esteja correta é preciso estar atento a alguns fatos sobre a distribuição dos dados As variáveis são normalmente distribuídas Conhecese a distribuição de probabilidade das variáveis Existem outliers ou seja valores extremos no conjunto de dados A mesma unidade amostral foi coletada ao longo de um período de tempo ou seja os dados são independentes O tamanho da amostra é pequeno O teste estatístico mais adequado para testar suas hipóteses será encontrado respondendo a essas perguntas A seguir serão alguns dos principais testes estatísticos classificados em testes sobre uma amostra duas amostras Bioestatística 17 Intervalo de Confiança da Média Suponhamos que dispomos de um grande número de observações de uma variável muito instável A com média 380 e desvio padrão de 190 e que a partir desses valores originais geraremos vários valores correspondentes à médias de 9 e 25 observações sorteadas aleatoriamente do conjunto original representados na segunda e terceira colunas da tabela abaixo Podemos verificar que ao gerarmos várias médias de 9 observações a grande variação observada entre os valores entre os valores individuais fica diminuída pela operação em si que controla a variação pela definição de valores médios O mesmo acontece com a distribuição de médias obtidas a partir de 25 valores iniciais com uma instabilidade desvio padrão ainda menor Entretanto as médias para as 3 distribuições serão as mesmas pois retratam sempre o mesmo fenômeno O valor do desvio porém diminui à medida que o número de observações n utilizadas para o cálculo do valor médio aumenta Este fato fica esclarecido e a redução da instabilidade justificada matematicamente quando consideramos que Var x s2 Pelas propriedades da média e do desvio Se 𝑋1𝑋2 𝑋𝑛 são respostas experimentais independentes como a tabela abaixo 𝑉𝑎𝑟 ẋ 𝑉𝑎𝑟 𝑋1 𝑋2 𝑋𝑛 𝑛 1 𝑛2 𝑉𝑎𝑟 𝑋1 𝑋2 𝑋𝑛 𝑉𝑎𝑟 𝑋1 𝑋2 𝑋𝑛 𝑉𝑎𝑟 𝑋1 𝑉𝑎𝑟𝑋2 𝑉𝑎𝑟𝑋𝑛 Então Bioestatística 19 constituirseá no intervalo de confiança da média obtida de n observações Logo a distribuição de médias obtidas de 10 observações terá um desvio padrão maior s10 que daquelas obtidas de 120 observações s120 Nesse sentido a distribuição normal apresentarseá com maior dispersão e os 95 dos valores médios possíveis estarão inclusos em um intervalo mais amplo que o de 196 a 196 no caso de 2262 a 2262 Esses valores de z ajustados para o tamanho amostral encontramse na tabela t á seguir de student que se apresenta em função dos graus de liberdade n 1 utilizados para o cálculo de s e da percentagem da amostra de respostas fora do intervalo de confiança 5 Por este motivo o erro implícito é de apenas 5 Exemplificado Um veterinário coletou o nível de tiroxina sérica em cães machos adultos normais a partir de uma amostra de 55 animais considerando os valores obtidos da média ẋ 204 mcg100ml e do desvio padrão s 078 mcg100ml como boas estimativas populacionais podemos dizer a Que 95 dos cães nesta categoria em qualquer amostra realizada estarão com o nível sérico de tiroxina entre 204196078 ou seja de 051 a 357 mcg100ml intervalos de respostas típicas ou intervalo de confiança b Caso outro pesquisador repita o estudo utilizando o mesmo número de animais n55 o valor médio de tiroxina sérica estará possivelmente entre 204200607855 sendo 2006 o valor t correspondente a 55154 graus de liberdade ou seja entre 183 e 225 mcg100ml intervalo de confiança da média Bioestatística 20 Figura 01 Vetor de dados planta A Fonte Autor Bioestatística 21 Fonte Autor Testes para inferência sobre uma amostra Um estudo sobre um determinado tipo de planta específica do cerrado Após um plano de amostragem foram medidas as alturas de cada planta Deseja se então uma estimativa pontual do valor médio da altura ou seja uma estimativa da altura média populacional É de interesse ainda obter uma estimativa intervalar e verificar se a média encontrada é equivalente à média apresentada em outros estudos teóricos Mas então como responder a estas questões Quais são as possibilidades de teste que se possui para responder se a média encontrada é equivalente à média apresentada em outros estudos teóricos Quais são as suposições dos testes Observe o fluxograma abaixo Figura 01 Suposições dos testes para uma amostra A população respeita um distribuição normal Teste Z Teste T A variância populacional é conhecida Utilizar métodos não paramétricos Bioestatística 22 Porém após definir anteriormente o que é um intervalo de confiança também denominado intervalo de respostas típicas definiremos o intervalo de confiança da média na seção seguir Teste Z Em um primeiro momento veja abaixo as alturas da planta A armazenadas em um vetor da figura 02 O conhecimento sobre a variância de uma amostra possivelmente não existe na prática porém a título teórico suponha que a variância populacional seja de 225 ou seja o desvio padrão populacional da altura da planta A de 15 Devese verificar se os dados da altura da planta A são normalmente distribuídos Para isso foi utilizado o quantile quantile plot QQ plot e o teste de shapiro wilk Com o gráfico de Q Q plot e o teste de Shapiro wilk pode se afirmar que existem evidências de que a amostra da planta A possui distribuição normal pois ao nível de 5 de significância não foi rejeitada a hipótese nula de normalidade com o p valor 01858 Figura 03 Intervalo de confiança da média Fonte Autor Para construir o intervalo de confiança da média Figura 03 devese conhecer a margem de erro fórmula 06 como a altura é normalmente distribuída e a variância populacional é conhecida a margem de erro é dada por Bioestatística 24 Figura 04 Cálculo da estatística de teste z e o valor de probabilidade Fonte Autor Após calcular a estatística de teste foi utilizado o comando pnorm para calcular a probabilidade acumulada até o ponto z Devese ter muita atenção aqui pois caso valor de z fosse positivo deveria fazer o cálculo de 2pnormz O valor é multiplicado por 2 pois o teste é bilateral e a curva da normal é simétrica Observe a importância de definir bem suas hipóteses Nesse caso se o teste fosse unilateral se rejeitaria a hipótese nula Como foi encontrado um pvalor associado ao teste de 0078 não será rejeitada a hipótese nula uma vez que existem evidências que a altura média encontrada com a nossa amostra é equivalente a altura média do estudo anterior Podemos instalar um pacote de funções para realizar os cálculos a partir de um computador com internet denominado BSDA e escolher o servidor de instalação A figura 06 ilustra a distribuição t student Para determinar o valor de t basta identificar o valor de significância adotado e o respectivo número de graus de liberdade O valor de t reside no valor observado na casela comum à coluna nível de significância e linha graus de liberdade Bioestatística 25 Fonte Autor Figura 05 Cálculo do teste z em ambiente R Teste T Em uma segunda situação e se a variância não fosse conhecida Qual seria a decisão e o procedimento adotado Conforme a figura 1 aplicase o teste T Neste caso a mudança basicamente reside sobre a estatística de teste e a distribuição de probabilidade a ser utilizada a distribuição de t student A diferença entre a distribuição normal padronizada e distribuição de tstudent é que esta última é diferente para tamanhos amostrais diferentes A sua forma é um pouco mais larga refletindo uma maior variabilidade No entanto a medida que o tamanho amostral aumenta a distribuição t student se aproxima da normal Os valores das duas distribuições são idênticas para tamanhos amostrais maiores que 2000 observações mas dependendo da referência adotada tem sido considerado que para amostras maiores que 30 parece ser razoável adotar o teste z ao invés de t pois é diferença é muito pequena Bioestatística 26 Tabela 04 Distribuição t student tabela Fonte wwwconteudoicmcuspbr Bioestatística 28 Onde s é estimativa do desvio padrão e 𝑡𝑎 2𝑛1 é o valor crítico da distribuição t com o nível de significância de 𝑎 2 e com n1 graus de liberdade Dessa maneira o intervalo de confiança é dado por ẋ Errot μ ẋ Errot Com os comandos lançados acima podese observar que o valor da estatística de teste t 17587 com os graus de liberdade degrees of freedom df49 gera um pvalor 008487 Como foi encontrado um pvalor associado ao teste de 008487 não é rejeitada a hipótese nula a 5 de significância Logo existem evidências de que a altura média encontrada em nosso estudo é equivalente a altura média do estudo anterior Nas saídas da figura 07 tem se também a hipótese alternativa especificada em língua inglesa o intervalo de 95 de confiança e a média amostral Para estabelecer testes unilaterais devese apenas mudar o argumento utilizando em alternative da forma apresentada conforme a figura 07 Figura 07 Aplicação do teste t em ambiente R Fonte Autor Bioestatística 29 Teste para inferência sobre duas ou mais amostras Para realizar inferência sobre duas amostras escolhendo adequadamente o teste de hipótese a ser utilizado devese estar atento aos objetivos do teste ao tipo de informação disponível e as suposições básicas de cada teste Nesta seção trabalharemos apenas com métodos de comparação de médias que se adequam a uma distribuição normal de probabilidade A figura 08 a seguir ilustra de maneira geral os testes apropriados em cada caso A situação apresentada abaixo é considerada como a mais frequente em pesquisas científicas Geralmente o interesse é comparar o valor médio de uma variável quantitativa entre as categorias de uma variável qualitativa como exemplo o nível de colesterol entre faixas de idade entre sexo entre raças etc À seguir exceto para análise longitudinal que não é o escopo desta disciplina será evidenciado para cada situação como interpretar e realizar cada teste Iremos iniciar com os testes apresentados na figura 08 para o caso de duas variáveis quantitativas Em um primeiro momento serão apresentados os testes paramétricos para amostras independentes Bioestatística 30 Figura 08 Suposições dos testes para duas amostras para variáveis qualitativas vs variáveis quantitativas Apresenta distribuição normal Amostras pareadas Qualitativa vs Quantitativa Teste t Anova 1 fator Qualitativa possui mais de 2 níveis Qualitativa possui mais de 2 níveis Teste t pareado Análise longitudinal Fonte Autor Não será tratado nesta disciplina Teste t Amostras independentes Para apresentar o test t e a análise de variância será utilizado o experimento em que um estudo observacional em mulheres que realizavam um tratamento especial de fertilização Ao iniciar o tratamento foram coletadas as idades das mulheres e o tipo de infertilidade que cada paciente possuía Após o tratamento as mulheres foram acompanhadas durante dois anos e no final desse período verificaramse quais pacientes que tinham engravidado e quais não tinham Suponha que o objetivo do estudo seja analisar a influência da idade sobre a gravidez e se existe Bioestatística 31 Fonte Autor alguma relação entre idade e o tipo de infertilidade Observe abaixo a importação do banco de dados e verificação do pressuposto de normalidade da variável idade Figura 09 Importação de dados e verificação do pressuposto de normalidade dos dados Pode se observar que a variável idade apresenta distribuição normal Dessa forma para verificar o efeito da idade sobre a gravidez podese utilizar o teste t porque a variável idade é normalmente distribuída a variável gravidez apresenta dois níveis e o estudo é independente pois somente observase uma medida de cada paciente Para realizar o teste t primeiramente deve ser realizado um teste para verificar se as variâncias são iguais Antes de apresentar os testes e os resultados segue o boxplot dessas variáveis para se ter uma visão de como são os dados Bioestatística 32 Notase com o boxplot que a idade mediana é aparentemente diferente entre o grupo de pacientes que conseguiram engravidar e que não conseguiram Pode observar também que aparentemente as pacientes que possuíam o tipo I de infertilidade apresentam a idade mediana maior que as pacientes que possuíam os tipos II e III de infertilidade Para utilizar o teste t primeiramente será verificado o efeito da idade sobre a gravidez Figura 10 Gráficos boxplot para as variáveis gravidez e infertilidade Fonte Autor Hipóteses H0 As idades são estatisticamente iguais entre grupos µG µNG H1 As idades são estatisticamente diferentes entre grupos µG µNG Estatística de teste para variâncias populacionais iguais 𝜎𝐴 2𝜎𝐵 2 Bioestatística 33 Onde nA e nB correspondem às amostras dos grupos experimentais A e B xA e xB médias amostrais dos grupos A e B μA e μB médias populacionais dos grupos A e B e s²p s²p ΣxA xA² ΣxB xB² nA 1 nB 1 Para variâncias populacionais diferentes temse que tGL xA xB μA μB S²AnA S²BnB Como antes de realizar o teste t devese verificar se as variâncias são iguais segue as hipóteses e a estatística de teste do teste F para variâncias Hipóteses H0 σ²Aσ²B H1 σ²Aσ²B Estatística de teste F S²1S²2 Bioestatística 34 Onde 𝑠1 2 é maior das duas variâncias e os graus de liberdade do numerador são n11 e n21 Figura 11 Teste de hipótese para variâncias iguais prérequisito para realização do teste t para amostras independentes Fonte Autor Notase na figura 11 que como o pvalor é maior que 005 não existem evidências para rejeitar H0 ou seja devemse considerar as variâncias como iguais Bioestatística 35 TESTANDO Em todo e qualquer teste estatístico expressase como elemento principal a variação mais provável entre indivíduos por meio da estimativa de desvio padrão ou variância onde a variação total é expressa pela fórmula 08 Como exemplo tomaremos dois grupos experimentais de 5 elementos A 72 75 70 71 68 e B 72 67 72 70 66 logo temos que a variância entre indivíduos será s²p ΣxA²nA ΣxB²nB nA 1 nB 1 s²p 25374 356²5 24113 347²5 s²p 268 3128 725 Bioestatística 36 Ou seja em 95 das respostas típicas testando os grupos A e B a diferença entre suas médias oscila de 209 a 569 intervalo que inclui o valor 0 Logo o grupo A apresenta média equivalente ao grupo B Adicionalmente pelo teste t temos que t xA xB 180 168 1071 S²PnA S²PnB Logo pelo valor de t tabelado 2306 ser maior que o valor calculado de t 1071 indicando que os grupos possuem médias equivalentes Em ambiente R o mesmo teste pode ser realizado conforme a figura 12 abaixo Bioestatística 37 Sobre o exemplo anteriormente apresentado com o pvalor igual a 01058 não existe evidência para rejeitar H0 ou seja dessa forma podese concluir que as pacientes que conseguiram engravidar tinham em média 2992 anos enquanto que as pacientes que não conseguiram engravidar tinham em média 2838 anos sendo essa diferente significativa ao nível de 5 de significância Análise de variância Amostras independentes Anteriormente foi relatado que a variância é fundamental para alcançarmos os objetivos da maioria das investigações científicas comparação de médias O objetivo nesta subseção agora é verificar se existe alguma relação entre o tipo de infertilidade e a idade das pacientes Como a variável tipo de infertilidade apresenta três níveis podese verificar essa relação utilizando a análise de variância de um fator As situações experimentais envolvem muitos fatores nem sempre totalmente controlados além dos tratamentos que desejamos testar variações de idade de indivíduos sexo temporalidade ou ainda instalações que se não identificadas e controladas serão incorporadas na estimativa da variação individual variância Basicamente o propósito da análise de variância é o domínio dos efeitos dessas fontes de variação de modo que o valor estimado como variância entre indivíduos corresponda à sua própria natureza sem a interferência de fatores estranhos A análise de variância além da suposição de normalidade estudada anteriormente possui a suposição de homocedasticidade ou seja as variâncias devem ser iguais entre os níveis da variável qualitativa O princípio de homocedasticidade reconhece que a instabilidade de uma variável não depende do grupo experimental onde Bioestatística 38 ela é mensurada O não cumprimento dessas premissas inviabiliza a realização da análise de variância É possível realizar um teste para verificar a homogeneidade de variâncias testando a igualdade entre a maior e a menor variância dos níveis da variável qualitativa através do teste F No entanto apesar de não ser o escopo desta disciplina deve ser empregado um teste de homogeneidade de variâncias mais apropriado para essa situação onde a hipótese nula do teste é que as variâncias são homogêneas como o teste de bartlett Na sequência veremos como a análise de variância é realizada por meio da identificação das fontes de variação que interferem sobre a resposta medida Em síntese a análise de variância avalia como os graus de liberdade e a soma dos quadrados totais de todos os resultados obtidos em um determinado estudo estão distribuídos entre todas as fontes de variação existentes Em geral nos experimentos que comparam valores médios de tratamentos sobre uma resposta medida a fonte de variação total é subdivida em fonte de variação de tratamentos grupos e erro Porém existem vários tipos de partições de variação dependendo do planejamento experimental adotado O somatório dos quadrados das fontes de variação é apresentado abaixo Após determinar o somatório dos quadrados para cada fonte de variação deve ser determinada a variância das fontes que consiste da relação entre a respectivas somas de quadrados e o número de graus de liberdade da fonte Logo a estatística F é obtida por meio da relação entre a variância de tratamentos e a variância do erro uma razão de variâncias como observado na fórmula 7 onde são testadas se as variâncias são iguais A 𝑺𝑸𝑻𝑶𝑻𝑨𝑳 𝑺𝑸𝑻𝑹𝑨𝑻𝑨𝑴𝑬𝑵𝑻𝑶𝑺 𝑺𝑸𝑬𝑹𝑹𝑶 A partir do escore F determinase se há ou não diferenças entre tratamentos através dos valores de probabilidade da distribuição F também denominada de distribuição de probabilidade de Fisher Para informações mais detalhadas sobre os procedimentos adotados na análise de variância nós recomendamos o livro de Zar 1999 Por fim abaixo é mostrado a tabela de análise de variância realizada com apenas um fator e suas respectivas hipóteses são apresentadas a seguir tabela 05 Tabela 05 Tabela de análise de variância Fonte de variação GL Soma dos quadrados Variância Estatística F Total n1 SQT xi² Σxi²n Tratamentos k1 SQTRAT Ti² ri Σ xi² MQT SQTratk1 F MQTMQE MQE SQErroNk Erro nk SQERRO SQT SQTRAT Sendo k o número de tratamentos níveis do fator da variável qualitativa n o tamanho amostral total ri número de repetições do nível i Ti repetições do nível i e xi cada elemento i amostral Estatística de teste F MQTMQE H0 µ1 µ2 µ3 µk H1 Pelo menos uma das médias diferentes Bioestatística 40 Para realizar a análise de variância no R basta utilizar o comando aov como realizado na figura 13 note que não são apresentados o somatório dos quadrados total Com os comandos abaixo conseguese toda a tabela de análise de variância calculada inclusive o pvalor do teste Como o pvalor é igual a 0006 existe evidências para rejeitar H0 logo existe pelo menos uma diferença entre os níveis do fator Tipo de infertilidade Para identificar quais são os níveis que se diferem devese realizar algum teste para comparações múltiplas de médias Existem diversos testes de comparações múltiplas mas será utilizado nesse exemplo o teste de tukey O teste de tukey é o mais utilizado entre os diversos testes que estão disponíveis O comando para executálo é mostrado também abaixo Figura 13 Análise de variância e teste de comparações múltiplas de médias ambiente R Fonte Autor Com as comparações múltiplas podese notar que a idade das pacientes do tipo I de infertilidade é significativamente diferente dos tipos II sem diferenças entre os tipos de infertilidade Sendo as pacientes que apresentaram o tipo I de infertilidade em média 357 anos mais jovens que as pacientes que apresentaram o tipo II de infertilidade Teste t pareado Amostras dependentes Nesta subseção teremos agora os testes de observações amostras dependentes ou também denominados de pareados A melhor forma de entender esse conceito é com um exemplo Então suponha um estudo em que foi medido o peso da mesma pessoa antes e após a realização de uma determinada dieta A figura 15 mostra os comandos empregados o banco de dados e a verificação da distribuição normal de probabilidade Após verificar se os pesos seguem registrados uma distribuição normal de probabilidade devemos aplicar o teste t pareado Vamos apresentar as hipóteses e sua estatística de teste abaixo considerando que as observações são normalmente distribuídas e pareadas onde d é a média das diferenças sd é o desvio padrão das diferenças e a µd a média populacional das diferenças Hipóteses H0 µd µANTES µDEPOIS0 H1 µd µANTES µDEPOIS0 Bioestatística 42 Tabela 06 Área de reação epidérmica em cm2 segundo o antígeno utilizado subcutaneamente e o paciente Individuo Antígeno A Antígeno B Diferença dAB 1 358 296 062 2 167 062 105 3 27 208 062 4 3 27 03 5 088 003 085 6 097 041 056 7 22 114 106 8 39 32 07 9 285 193 092 10 25 16 09 11 13 08 05 Fonte Sampaio 2010 TESTANDO No combate à verminoses na tentativa de selecionar de selecionar um antígeno identificado da Schistosomíase foram testados dois antígenos A e B em 11 pacientes um em cada braço e após oito minutos a área de reação epidérmica foi medida em cm² Tabela 6 Considerando as 11 observações da nova variável d d 808 e d² 651 termos dmédio 073 e Sdiferenças 024 Logo o intervalo de confiança da dmédio será 07345 t₁₀0241310 07345 01621 Sendo assim o provável valor de dmédio de 05424 a 08966 demonstrando sempre uma superioridade de área do antígeno A de 057 a 089 cm² a mais que o antígeno B Se o valor zero estivesse incluído neste intervalo isto significaria que em algumas situações o antígeno B apresentaria área superior à de A Na realidade para que a diferença média dmédio fosse significativa a condição matemática seria ttabelado dmedioSdiferençasn Temos t 073450241311 Bioestatística 44 Como o valor de t tabelado para n1 graus de liberdade é de 2228 o valor t calculado foi superior não só a este nível de 5 mas como a 1 3169 e 014587 Nesse sentido concluímos que o antígeno A provoca reação epidérmica mais extensa que a do antígeno B com probabilidade de erro inferior a 01 p0001 Para realizar o teste t pareado no R utilizamos o comando a seguir na figura 15 Notase que como o pvalor é menor que 005 podemos rejeitar a hipótese nula ou seja não existem evidências de que os pesos antes e depois da dieta são iguais Além disso verificase também que a média das diferenças é de 719 Isso significa que em média os indivíduos perdem 205kg com a dieta aplicada e que a 95 de confiança as médias das diferenças estão entre 438 e 1000 Bioestatística 45 Figura 15 Teste t para amostras dependentes pareadas Fonte Autor Para o caso de uma variável explicativa possuir mais de dois níveis e as observações serem dependentes é adequado empregar a análise de variância para medidas repetidas porém não abordaremos esse conteúdo em nosso curso Em suma nesta unidade você teve acesso a conceitos e noções sobre a área de inferência estatística e como comparar grupos experimentais com o uso do software R para aprofundar seus conhecimentos revise seus conceitos e explore novas bibliografias Agora é com você Bioestatística 46 BIBLIOGRAFIA CRAWLEY MJ The R book San Francisco John Wiley Sons 2009 942p SAMPAIO IB Estatística aplicada à experimentação animal Belo Horizonte FEPMZ 2010 264p SHAHBABA B Biostatistics with R New York Springer 2012 352p SIQUEIRA A L TIBÚRCIO J D Estatística na Área da Saúde conceitos metodologia aplicações e prática computacional Belo Horizonte Coopmed 2011 520p PAGANO M GAUVREAU K Princípios de Bioestatística 2 ed São Paulo Pioneira Thompson Learning 2004 522p ZAR JH Biostatistical analysis New Jersey Prentice Hall1999 718p
Send your question to AI and receive an answer instantly
Recommended for you
Preview text
Leandro Vinhas de Paula Bioestatística Unidade 3 Noções de Inferência Estatística Livro didático digital Diretor Executivo DAVID LIRA STEPHEN BARROS Diretora Editorial ANDRÉA CÉSAR PEDROSA Projeto Gráfico MANUELA CÉSAR ARRUDA Autor LEANDRO VINHAS DE PAULA Desenvolvedor CAIO BENTO GOMES DOS SANTOS Olá Meu nome é Leandro Vinhas de Paula sou bacharel e licenciado em Educação Física Faculdade de Educação Física e Fisioterapia Universidade Federal de Uberlândia mestre em Ciências do Esporte Escola de Educação Física Fisioterapia e Terapia Ocupacional Universidade Federal de Minas Gerais EEFFTOUFMG e especialista em Estatística Aplicada Departamento de Estatística Instituto de Ciências Exatas ICEXUFMG com uma experiência técnicoprofissional na área de educação física e esportes por mais de 10 anos em atividades de ensino pesquisa e extensão na Universidade Federal de Ouro Preto e no meio privado Atualmente sou doutorando na área de Biomecânica EEFFTO UFMG Autor LEANDRO VINHAS DE PAULA INTRODUÇÃO para o início do desenvolvimen to de uma nova competência DEFINIÇÃO houver necessidade de se apresentar um novo conceito NOTA quando forem necessários obser vações ou comple mentações para o seu conhecimento IMPORTANTE as observações escritas tiveram que ser prioriza das para você EXPLICANDO MELHOR algo precisa ser melhor explicado ou detalhado VOCÊ SABIA curiosidades e indagações lúdicas sobre o tema em estudo se forem necessárias SAIBA MAIS textos referências bibliográficas e links para aprofun damento do seu conhecimento REFLITA se houver a neces sidade de chamar a atenção sobre algo a ser refletido ou discutido sobre ACESSE se for preciso aces sar um ou mais sites para fazer download assistir vídeos ler textos ouvir podcast RESUMINDO quando for preciso se fazer um resumo acumulativo das últimas abordagens ATIVIDADES quando alguma ativi dade de autoapren dizagem for aplicada TESTANDO quando o desen volvimento de uma competência for concluído e questões forem explicadas Iconográficos Olá Meu nome é Manuela César de Arruda Sou a responsável pelo pro jeto gráfico de seu material Esses ícones irão aparecer em sua trilha de aprendizagem toda vez que SUMÁRIO Introdução10 Competências11 Teste de hipótese12 Intervalo de confiança da média17 Testes para inferência sobre uma amostra21 Teste para inferência sobre duas ou mais amostras29 Bibliografia46 Bioestatística 9 UNIDADE 03 NOÇÕES DE INFERÊNCIA ESTATÍSTICA Bioestatística 10 Nesta unidade você terá noções de inferência estatística testará hipóteses sobre uma e duas amostras e será apresentado aos métodos não paramétricos para testagem de hipóteses para uma determinada variável aleatória Adicionalmente exemplos práticos serão apresentados para que possa entender como aplicar estes conceitos Então vamos lá INTRODUÇÃO Bioestatística 11 Olá Seja muito bemvindo à Unidade 3 Nosso objetivo é auxiliar você no desenvolvimento das seguintes competências profissionais até o término desta etapa de estudos 1 Testando hipóteses 2 Entendendo o que é o intervalo de confiança da média 3 Testando hipóteses sobre uma amostra 4 Testando hipóteses sobre duas ou mais amostras Vamos começar Está preparado Então vamos ao trabalho COMPETÊNCIAS Bioestatística 12 Teste de hipótese Nesta unidade 3 as duas maiores aplicações da inferência estatística serão trabalhadas constituindo no foco de nosso estudo envolvendo o uso de dados amostrais para estimar o valor de um parâmetro populacional e testar alguma afirmativa sobre a amostra O procedimento estatístico para estimação de parâmetros e teste de hipóteses são procedimentos padrões na área de bioestatística Considerando apenas uma única variável quais são as perguntas mais frequentes a responder após a coleta dos dados Separando pelo tipo da variável são Tabela 01 Variáveis quantitativas x qualitativas Fonte Autor Quantitativa Qualitativa Qual o valor médio popu lacional O valor médio encontrado é significativamente di ferente das expectativas atuais e teóricas Qual o nível de incerteza associado com a estimati va do valor médio Qual é a proporção po pulacional do evento de interesse A proporção encontrada é significativamente diferen te das expectativas atuais ou teóricas Qual o nível de incerteza associado com a estimati va da proporção Bioestatística 13 Tabela 02 Variáveis quantitativas x qualitativas Fonte Autor Suponha duas variáveis as questões a responder nesse caso dependem do tipo das variáveis Vejamos as três possibilidades Qualitativa vs Qualitativa Quantitativa vs Qualitativa Quantitativa vs Quantitativa Existe associa ção concor dância entre as variáveis Como se dá a associação Qual é o grau de associação concordância A variável quanti tativa é diferente entre as catego rias da variável qualitativa Qual é o nível de incerteza asso ciado à existência dessa diferença Existe correlação entre as variá veis Qual tipo de cor relação Qual é o grau de associação Inicialmente podese definir um teste de hipótese como um procedimento padrão para testar uma afirmativa sobre uma propriedade da amostra A construção de afirmativas com base na observação de fenômenos é parte essencial do método científico Logo antes de apresentar as etapas de um teste de hipótese primeiramente é importante definir alguns conceitos Nível de significância α É definido como o nível de significância o erro assumido pela testagem da hipótese o limite para o valor de probabilidade pvalor abaixo do qual assumese que a hipótese nula é falsa μ É conceituada como a média populacional a relação entre o somatório do conjunto total de valores dos elementos pelo número de elementos observado de uma determinada variável aleatória Bioestatística 14 ẋ definida como média amostral ou a relação entre o somatório do subconjunto de valores dos elementos pelo número de elementos observado nesta amostragem para uma determinada variável aleatória σ desvio padrão populacional definido como a raiz quadrada dos somatórios dos desvios elevados ao quadrado divididos pelo número elementos da amostra s desvio padrão amostral definido como a raiz quadrada dos somatórios dos desvios elevados ao quadrado divididos pelo número de elementos da amostra menos 1 H0 Hipótese nula consiste de uma afirmação produzida pela pesquisador que geralmente aponta que não há relação entre fenômenos medidos H1 Hipótese alternativa consiste de uma afirmação produzida pela pesquisador que geralmente aponta que há relação entre fenômenos medidos Erro tipo I α Significa rejeitar a hipótese nula quando essa era de fato verdadeira Erro tipo II β Significa não rejeitar a hipótese nula quando a hipótese nula é falsa Poder do teste 1 β Consiste da probabilidade de rejeitar a hipótese nula quando a hipótese nula é falsa Observem na tabela abaixo as possibilidades de erro Tabela 03 Tipos de erros Fonte Autor DECISÃO REJEITAR NÃO REJEITAR H0 verdadeira Erro tipo I 1 α H0 falsa 1 α Erro tipo II Bioestatística 15 A seguir será apresentado a idéia geral de um teste de hipótese e mostrar os princípios e conceitos que serão utilizados em todos os testes estatísticos As etapas de um teste de hipótese são a Estabelecimento das hipóteses Uma questão importante aqui é definir o parâmetro que se está testando média proporção ou variância e se o teste será bilateral ou unilateral As diferenças são mostradas abaixo I Teste unilateral H0 μ 332 H1 μ332 II Teste bilateral H0 μ332 H1 μ332 A diferença reside que no teste unilateral você quer testar somente se o valor é menor ou maior que o valor especificado enquanto o teste bilateral testa ao mesmo tempo as duas opções dos testes unilaterais Dessa forma o teste unilateral é utilizado quando se possui algum conhecimento sobre o que se está testando b Determinar a estatística de teste A estatística de teste é um valor calculado a partir dos dados amostrais e é usada para se tomnar a decisão sobre a rejeição ou não da hipótese nula c Cálculo do valor de probabilidade e tomada de decisão Comumente a estatística de teste está atrelada a alguma distribuição de probabilidade Por meio da estatística Bioestatística 16 de teste sabese a probabilidade do evento em questão ocorrer o que possibilita a tomada de decisão sobre as hipóteses traçadas previamente O valor de probabilidade p valor é definido como a probabilidade de se obter um valor da estatística de teste que seja no mínimo tão extremo quanto o que representa os dados amostrais supondo a hipótese nula verdadeira Sendo assim fixando o nível de significância em 005 5 se o pvalor for menor que 005 rejeitase a hipótese nula Uma outra maneira de tomar decisões sobre o teste de hipótese é sobre a região crítica A região crítica é definida como o conjunto de todos os valores da estatística de teste que nos fazem rejeitar a hipótese nula Cada teste de hipótese possui sua estatística de teste e na medida que o tamanho amostral aumenta se conhece a distribuição de probabilidade e sua respectiva distribuição de probabilidade da estatística de teste Porém qual teste de hipótese utilizar Como escolher o teste de hipótese adequado A fim de selecionar o teste adequado para garantir que a inferência esteja correta é preciso estar atento a alguns fatos sobre a distribuição dos dados As variáveis são normalmente distribuídas Conhecese a distribuição de probabilidade das variáveis Existem outliers ou seja valores extremos no conjunto de dados A mesma unidade amostral foi coletada ao longo de um período de tempo ou seja os dados são independentes O tamanho da amostra é pequeno O teste estatístico mais adequado para testar suas hipóteses será encontrado respondendo a essas perguntas A seguir serão alguns dos principais testes estatísticos classificados em testes sobre uma amostra duas amostras Bioestatística 17 Intervalo de Confiança da Média Suponhamos que dispomos de um grande número de observações de uma variável muito instável A com média 380 e desvio padrão de 190 e que a partir desses valores originais geraremos vários valores correspondentes à médias de 9 e 25 observações sorteadas aleatoriamente do conjunto original representados na segunda e terceira colunas da tabela abaixo Podemos verificar que ao gerarmos várias médias de 9 observações a grande variação observada entre os valores entre os valores individuais fica diminuída pela operação em si que controla a variação pela definição de valores médios O mesmo acontece com a distribuição de médias obtidas a partir de 25 valores iniciais com uma instabilidade desvio padrão ainda menor Entretanto as médias para as 3 distribuições serão as mesmas pois retratam sempre o mesmo fenômeno O valor do desvio porém diminui à medida que o número de observações n utilizadas para o cálculo do valor médio aumenta Este fato fica esclarecido e a redução da instabilidade justificada matematicamente quando consideramos que Var x s2 Pelas propriedades da média e do desvio Se 𝑋1𝑋2 𝑋𝑛 são respostas experimentais independentes como a tabela abaixo 𝑉𝑎𝑟 ẋ 𝑉𝑎𝑟 𝑋1 𝑋2 𝑋𝑛 𝑛 1 𝑛2 𝑉𝑎𝑟 𝑋1 𝑋2 𝑋𝑛 𝑉𝑎𝑟 𝑋1 𝑋2 𝑋𝑛 𝑉𝑎𝑟 𝑋1 𝑉𝑎𝑟𝑋2 𝑉𝑎𝑟𝑋𝑛 Então Bioestatística 19 constituirseá no intervalo de confiança da média obtida de n observações Logo a distribuição de médias obtidas de 10 observações terá um desvio padrão maior s10 que daquelas obtidas de 120 observações s120 Nesse sentido a distribuição normal apresentarseá com maior dispersão e os 95 dos valores médios possíveis estarão inclusos em um intervalo mais amplo que o de 196 a 196 no caso de 2262 a 2262 Esses valores de z ajustados para o tamanho amostral encontramse na tabela t á seguir de student que se apresenta em função dos graus de liberdade n 1 utilizados para o cálculo de s e da percentagem da amostra de respostas fora do intervalo de confiança 5 Por este motivo o erro implícito é de apenas 5 Exemplificado Um veterinário coletou o nível de tiroxina sérica em cães machos adultos normais a partir de uma amostra de 55 animais considerando os valores obtidos da média ẋ 204 mcg100ml e do desvio padrão s 078 mcg100ml como boas estimativas populacionais podemos dizer a Que 95 dos cães nesta categoria em qualquer amostra realizada estarão com o nível sérico de tiroxina entre 204196078 ou seja de 051 a 357 mcg100ml intervalos de respostas típicas ou intervalo de confiança b Caso outro pesquisador repita o estudo utilizando o mesmo número de animais n55 o valor médio de tiroxina sérica estará possivelmente entre 204200607855 sendo 2006 o valor t correspondente a 55154 graus de liberdade ou seja entre 183 e 225 mcg100ml intervalo de confiança da média Bioestatística 20 Figura 01 Vetor de dados planta A Fonte Autor Bioestatística 21 Fonte Autor Testes para inferência sobre uma amostra Um estudo sobre um determinado tipo de planta específica do cerrado Após um plano de amostragem foram medidas as alturas de cada planta Deseja se então uma estimativa pontual do valor médio da altura ou seja uma estimativa da altura média populacional É de interesse ainda obter uma estimativa intervalar e verificar se a média encontrada é equivalente à média apresentada em outros estudos teóricos Mas então como responder a estas questões Quais são as possibilidades de teste que se possui para responder se a média encontrada é equivalente à média apresentada em outros estudos teóricos Quais são as suposições dos testes Observe o fluxograma abaixo Figura 01 Suposições dos testes para uma amostra A população respeita um distribuição normal Teste Z Teste T A variância populacional é conhecida Utilizar métodos não paramétricos Bioestatística 22 Porém após definir anteriormente o que é um intervalo de confiança também denominado intervalo de respostas típicas definiremos o intervalo de confiança da média na seção seguir Teste Z Em um primeiro momento veja abaixo as alturas da planta A armazenadas em um vetor da figura 02 O conhecimento sobre a variância de uma amostra possivelmente não existe na prática porém a título teórico suponha que a variância populacional seja de 225 ou seja o desvio padrão populacional da altura da planta A de 15 Devese verificar se os dados da altura da planta A são normalmente distribuídos Para isso foi utilizado o quantile quantile plot QQ plot e o teste de shapiro wilk Com o gráfico de Q Q plot e o teste de Shapiro wilk pode se afirmar que existem evidências de que a amostra da planta A possui distribuição normal pois ao nível de 5 de significância não foi rejeitada a hipótese nula de normalidade com o p valor 01858 Figura 03 Intervalo de confiança da média Fonte Autor Para construir o intervalo de confiança da média Figura 03 devese conhecer a margem de erro fórmula 06 como a altura é normalmente distribuída e a variância populacional é conhecida a margem de erro é dada por Bioestatística 24 Figura 04 Cálculo da estatística de teste z e o valor de probabilidade Fonte Autor Após calcular a estatística de teste foi utilizado o comando pnorm para calcular a probabilidade acumulada até o ponto z Devese ter muita atenção aqui pois caso valor de z fosse positivo deveria fazer o cálculo de 2pnormz O valor é multiplicado por 2 pois o teste é bilateral e a curva da normal é simétrica Observe a importância de definir bem suas hipóteses Nesse caso se o teste fosse unilateral se rejeitaria a hipótese nula Como foi encontrado um pvalor associado ao teste de 0078 não será rejeitada a hipótese nula uma vez que existem evidências que a altura média encontrada com a nossa amostra é equivalente a altura média do estudo anterior Podemos instalar um pacote de funções para realizar os cálculos a partir de um computador com internet denominado BSDA e escolher o servidor de instalação A figura 06 ilustra a distribuição t student Para determinar o valor de t basta identificar o valor de significância adotado e o respectivo número de graus de liberdade O valor de t reside no valor observado na casela comum à coluna nível de significância e linha graus de liberdade Bioestatística 25 Fonte Autor Figura 05 Cálculo do teste z em ambiente R Teste T Em uma segunda situação e se a variância não fosse conhecida Qual seria a decisão e o procedimento adotado Conforme a figura 1 aplicase o teste T Neste caso a mudança basicamente reside sobre a estatística de teste e a distribuição de probabilidade a ser utilizada a distribuição de t student A diferença entre a distribuição normal padronizada e distribuição de tstudent é que esta última é diferente para tamanhos amostrais diferentes A sua forma é um pouco mais larga refletindo uma maior variabilidade No entanto a medida que o tamanho amostral aumenta a distribuição t student se aproxima da normal Os valores das duas distribuições são idênticas para tamanhos amostrais maiores que 2000 observações mas dependendo da referência adotada tem sido considerado que para amostras maiores que 30 parece ser razoável adotar o teste z ao invés de t pois é diferença é muito pequena Bioestatística 26 Tabela 04 Distribuição t student tabela Fonte wwwconteudoicmcuspbr Bioestatística 28 Onde s é estimativa do desvio padrão e 𝑡𝑎 2𝑛1 é o valor crítico da distribuição t com o nível de significância de 𝑎 2 e com n1 graus de liberdade Dessa maneira o intervalo de confiança é dado por ẋ Errot μ ẋ Errot Com os comandos lançados acima podese observar que o valor da estatística de teste t 17587 com os graus de liberdade degrees of freedom df49 gera um pvalor 008487 Como foi encontrado um pvalor associado ao teste de 008487 não é rejeitada a hipótese nula a 5 de significância Logo existem evidências de que a altura média encontrada em nosso estudo é equivalente a altura média do estudo anterior Nas saídas da figura 07 tem se também a hipótese alternativa especificada em língua inglesa o intervalo de 95 de confiança e a média amostral Para estabelecer testes unilaterais devese apenas mudar o argumento utilizando em alternative da forma apresentada conforme a figura 07 Figura 07 Aplicação do teste t em ambiente R Fonte Autor Bioestatística 29 Teste para inferência sobre duas ou mais amostras Para realizar inferência sobre duas amostras escolhendo adequadamente o teste de hipótese a ser utilizado devese estar atento aos objetivos do teste ao tipo de informação disponível e as suposições básicas de cada teste Nesta seção trabalharemos apenas com métodos de comparação de médias que se adequam a uma distribuição normal de probabilidade A figura 08 a seguir ilustra de maneira geral os testes apropriados em cada caso A situação apresentada abaixo é considerada como a mais frequente em pesquisas científicas Geralmente o interesse é comparar o valor médio de uma variável quantitativa entre as categorias de uma variável qualitativa como exemplo o nível de colesterol entre faixas de idade entre sexo entre raças etc À seguir exceto para análise longitudinal que não é o escopo desta disciplina será evidenciado para cada situação como interpretar e realizar cada teste Iremos iniciar com os testes apresentados na figura 08 para o caso de duas variáveis quantitativas Em um primeiro momento serão apresentados os testes paramétricos para amostras independentes Bioestatística 30 Figura 08 Suposições dos testes para duas amostras para variáveis qualitativas vs variáveis quantitativas Apresenta distribuição normal Amostras pareadas Qualitativa vs Quantitativa Teste t Anova 1 fator Qualitativa possui mais de 2 níveis Qualitativa possui mais de 2 níveis Teste t pareado Análise longitudinal Fonte Autor Não será tratado nesta disciplina Teste t Amostras independentes Para apresentar o test t e a análise de variância será utilizado o experimento em que um estudo observacional em mulheres que realizavam um tratamento especial de fertilização Ao iniciar o tratamento foram coletadas as idades das mulheres e o tipo de infertilidade que cada paciente possuía Após o tratamento as mulheres foram acompanhadas durante dois anos e no final desse período verificaramse quais pacientes que tinham engravidado e quais não tinham Suponha que o objetivo do estudo seja analisar a influência da idade sobre a gravidez e se existe Bioestatística 31 Fonte Autor alguma relação entre idade e o tipo de infertilidade Observe abaixo a importação do banco de dados e verificação do pressuposto de normalidade da variável idade Figura 09 Importação de dados e verificação do pressuposto de normalidade dos dados Pode se observar que a variável idade apresenta distribuição normal Dessa forma para verificar o efeito da idade sobre a gravidez podese utilizar o teste t porque a variável idade é normalmente distribuída a variável gravidez apresenta dois níveis e o estudo é independente pois somente observase uma medida de cada paciente Para realizar o teste t primeiramente deve ser realizado um teste para verificar se as variâncias são iguais Antes de apresentar os testes e os resultados segue o boxplot dessas variáveis para se ter uma visão de como são os dados Bioestatística 32 Notase com o boxplot que a idade mediana é aparentemente diferente entre o grupo de pacientes que conseguiram engravidar e que não conseguiram Pode observar também que aparentemente as pacientes que possuíam o tipo I de infertilidade apresentam a idade mediana maior que as pacientes que possuíam os tipos II e III de infertilidade Para utilizar o teste t primeiramente será verificado o efeito da idade sobre a gravidez Figura 10 Gráficos boxplot para as variáveis gravidez e infertilidade Fonte Autor Hipóteses H0 As idades são estatisticamente iguais entre grupos µG µNG H1 As idades são estatisticamente diferentes entre grupos µG µNG Estatística de teste para variâncias populacionais iguais 𝜎𝐴 2𝜎𝐵 2 Bioestatística 33 Onde nA e nB correspondem às amostras dos grupos experimentais A e B xA e xB médias amostrais dos grupos A e B μA e μB médias populacionais dos grupos A e B e s²p s²p ΣxA xA² ΣxB xB² nA 1 nB 1 Para variâncias populacionais diferentes temse que tGL xA xB μA μB S²AnA S²BnB Como antes de realizar o teste t devese verificar se as variâncias são iguais segue as hipóteses e a estatística de teste do teste F para variâncias Hipóteses H0 σ²Aσ²B H1 σ²Aσ²B Estatística de teste F S²1S²2 Bioestatística 34 Onde 𝑠1 2 é maior das duas variâncias e os graus de liberdade do numerador são n11 e n21 Figura 11 Teste de hipótese para variâncias iguais prérequisito para realização do teste t para amostras independentes Fonte Autor Notase na figura 11 que como o pvalor é maior que 005 não existem evidências para rejeitar H0 ou seja devemse considerar as variâncias como iguais Bioestatística 35 TESTANDO Em todo e qualquer teste estatístico expressase como elemento principal a variação mais provável entre indivíduos por meio da estimativa de desvio padrão ou variância onde a variação total é expressa pela fórmula 08 Como exemplo tomaremos dois grupos experimentais de 5 elementos A 72 75 70 71 68 e B 72 67 72 70 66 logo temos que a variância entre indivíduos será s²p ΣxA²nA ΣxB²nB nA 1 nB 1 s²p 25374 356²5 24113 347²5 s²p 268 3128 725 Bioestatística 36 Ou seja em 95 das respostas típicas testando os grupos A e B a diferença entre suas médias oscila de 209 a 569 intervalo que inclui o valor 0 Logo o grupo A apresenta média equivalente ao grupo B Adicionalmente pelo teste t temos que t xA xB 180 168 1071 S²PnA S²PnB Logo pelo valor de t tabelado 2306 ser maior que o valor calculado de t 1071 indicando que os grupos possuem médias equivalentes Em ambiente R o mesmo teste pode ser realizado conforme a figura 12 abaixo Bioestatística 37 Sobre o exemplo anteriormente apresentado com o pvalor igual a 01058 não existe evidência para rejeitar H0 ou seja dessa forma podese concluir que as pacientes que conseguiram engravidar tinham em média 2992 anos enquanto que as pacientes que não conseguiram engravidar tinham em média 2838 anos sendo essa diferente significativa ao nível de 5 de significância Análise de variância Amostras independentes Anteriormente foi relatado que a variância é fundamental para alcançarmos os objetivos da maioria das investigações científicas comparação de médias O objetivo nesta subseção agora é verificar se existe alguma relação entre o tipo de infertilidade e a idade das pacientes Como a variável tipo de infertilidade apresenta três níveis podese verificar essa relação utilizando a análise de variância de um fator As situações experimentais envolvem muitos fatores nem sempre totalmente controlados além dos tratamentos que desejamos testar variações de idade de indivíduos sexo temporalidade ou ainda instalações que se não identificadas e controladas serão incorporadas na estimativa da variação individual variância Basicamente o propósito da análise de variância é o domínio dos efeitos dessas fontes de variação de modo que o valor estimado como variância entre indivíduos corresponda à sua própria natureza sem a interferência de fatores estranhos A análise de variância além da suposição de normalidade estudada anteriormente possui a suposição de homocedasticidade ou seja as variâncias devem ser iguais entre os níveis da variável qualitativa O princípio de homocedasticidade reconhece que a instabilidade de uma variável não depende do grupo experimental onde Bioestatística 38 ela é mensurada O não cumprimento dessas premissas inviabiliza a realização da análise de variância É possível realizar um teste para verificar a homogeneidade de variâncias testando a igualdade entre a maior e a menor variância dos níveis da variável qualitativa através do teste F No entanto apesar de não ser o escopo desta disciplina deve ser empregado um teste de homogeneidade de variâncias mais apropriado para essa situação onde a hipótese nula do teste é que as variâncias são homogêneas como o teste de bartlett Na sequência veremos como a análise de variância é realizada por meio da identificação das fontes de variação que interferem sobre a resposta medida Em síntese a análise de variância avalia como os graus de liberdade e a soma dos quadrados totais de todos os resultados obtidos em um determinado estudo estão distribuídos entre todas as fontes de variação existentes Em geral nos experimentos que comparam valores médios de tratamentos sobre uma resposta medida a fonte de variação total é subdivida em fonte de variação de tratamentos grupos e erro Porém existem vários tipos de partições de variação dependendo do planejamento experimental adotado O somatório dos quadrados das fontes de variação é apresentado abaixo Após determinar o somatório dos quadrados para cada fonte de variação deve ser determinada a variância das fontes que consiste da relação entre a respectivas somas de quadrados e o número de graus de liberdade da fonte Logo a estatística F é obtida por meio da relação entre a variância de tratamentos e a variância do erro uma razão de variâncias como observado na fórmula 7 onde são testadas se as variâncias são iguais A 𝑺𝑸𝑻𝑶𝑻𝑨𝑳 𝑺𝑸𝑻𝑹𝑨𝑻𝑨𝑴𝑬𝑵𝑻𝑶𝑺 𝑺𝑸𝑬𝑹𝑹𝑶 A partir do escore F determinase se há ou não diferenças entre tratamentos através dos valores de probabilidade da distribuição F também denominada de distribuição de probabilidade de Fisher Para informações mais detalhadas sobre os procedimentos adotados na análise de variância nós recomendamos o livro de Zar 1999 Por fim abaixo é mostrado a tabela de análise de variância realizada com apenas um fator e suas respectivas hipóteses são apresentadas a seguir tabela 05 Tabela 05 Tabela de análise de variância Fonte de variação GL Soma dos quadrados Variância Estatística F Total n1 SQT xi² Σxi²n Tratamentos k1 SQTRAT Ti² ri Σ xi² MQT SQTratk1 F MQTMQE MQE SQErroNk Erro nk SQERRO SQT SQTRAT Sendo k o número de tratamentos níveis do fator da variável qualitativa n o tamanho amostral total ri número de repetições do nível i Ti repetições do nível i e xi cada elemento i amostral Estatística de teste F MQTMQE H0 µ1 µ2 µ3 µk H1 Pelo menos uma das médias diferentes Bioestatística 40 Para realizar a análise de variância no R basta utilizar o comando aov como realizado na figura 13 note que não são apresentados o somatório dos quadrados total Com os comandos abaixo conseguese toda a tabela de análise de variância calculada inclusive o pvalor do teste Como o pvalor é igual a 0006 existe evidências para rejeitar H0 logo existe pelo menos uma diferença entre os níveis do fator Tipo de infertilidade Para identificar quais são os níveis que se diferem devese realizar algum teste para comparações múltiplas de médias Existem diversos testes de comparações múltiplas mas será utilizado nesse exemplo o teste de tukey O teste de tukey é o mais utilizado entre os diversos testes que estão disponíveis O comando para executálo é mostrado também abaixo Figura 13 Análise de variância e teste de comparações múltiplas de médias ambiente R Fonte Autor Com as comparações múltiplas podese notar que a idade das pacientes do tipo I de infertilidade é significativamente diferente dos tipos II sem diferenças entre os tipos de infertilidade Sendo as pacientes que apresentaram o tipo I de infertilidade em média 357 anos mais jovens que as pacientes que apresentaram o tipo II de infertilidade Teste t pareado Amostras dependentes Nesta subseção teremos agora os testes de observações amostras dependentes ou também denominados de pareados A melhor forma de entender esse conceito é com um exemplo Então suponha um estudo em que foi medido o peso da mesma pessoa antes e após a realização de uma determinada dieta A figura 15 mostra os comandos empregados o banco de dados e a verificação da distribuição normal de probabilidade Após verificar se os pesos seguem registrados uma distribuição normal de probabilidade devemos aplicar o teste t pareado Vamos apresentar as hipóteses e sua estatística de teste abaixo considerando que as observações são normalmente distribuídas e pareadas onde d é a média das diferenças sd é o desvio padrão das diferenças e a µd a média populacional das diferenças Hipóteses H0 µd µANTES µDEPOIS0 H1 µd µANTES µDEPOIS0 Bioestatística 42 Tabela 06 Área de reação epidérmica em cm2 segundo o antígeno utilizado subcutaneamente e o paciente Individuo Antígeno A Antígeno B Diferença dAB 1 358 296 062 2 167 062 105 3 27 208 062 4 3 27 03 5 088 003 085 6 097 041 056 7 22 114 106 8 39 32 07 9 285 193 092 10 25 16 09 11 13 08 05 Fonte Sampaio 2010 TESTANDO No combate à verminoses na tentativa de selecionar de selecionar um antígeno identificado da Schistosomíase foram testados dois antígenos A e B em 11 pacientes um em cada braço e após oito minutos a área de reação epidérmica foi medida em cm² Tabela 6 Considerando as 11 observações da nova variável d d 808 e d² 651 termos dmédio 073 e Sdiferenças 024 Logo o intervalo de confiança da dmédio será 07345 t₁₀0241310 07345 01621 Sendo assim o provável valor de dmédio de 05424 a 08966 demonstrando sempre uma superioridade de área do antígeno A de 057 a 089 cm² a mais que o antígeno B Se o valor zero estivesse incluído neste intervalo isto significaria que em algumas situações o antígeno B apresentaria área superior à de A Na realidade para que a diferença média dmédio fosse significativa a condição matemática seria ttabelado dmedioSdiferençasn Temos t 073450241311 Bioestatística 44 Como o valor de t tabelado para n1 graus de liberdade é de 2228 o valor t calculado foi superior não só a este nível de 5 mas como a 1 3169 e 014587 Nesse sentido concluímos que o antígeno A provoca reação epidérmica mais extensa que a do antígeno B com probabilidade de erro inferior a 01 p0001 Para realizar o teste t pareado no R utilizamos o comando a seguir na figura 15 Notase que como o pvalor é menor que 005 podemos rejeitar a hipótese nula ou seja não existem evidências de que os pesos antes e depois da dieta são iguais Além disso verificase também que a média das diferenças é de 719 Isso significa que em média os indivíduos perdem 205kg com a dieta aplicada e que a 95 de confiança as médias das diferenças estão entre 438 e 1000 Bioestatística 45 Figura 15 Teste t para amostras dependentes pareadas Fonte Autor Para o caso de uma variável explicativa possuir mais de dois níveis e as observações serem dependentes é adequado empregar a análise de variância para medidas repetidas porém não abordaremos esse conteúdo em nosso curso Em suma nesta unidade você teve acesso a conceitos e noções sobre a área de inferência estatística e como comparar grupos experimentais com o uso do software R para aprofundar seus conhecimentos revise seus conceitos e explore novas bibliografias Agora é com você Bioestatística 46 BIBLIOGRAFIA CRAWLEY MJ The R book San Francisco John Wiley Sons 2009 942p SAMPAIO IB Estatística aplicada à experimentação animal Belo Horizonte FEPMZ 2010 264p SHAHBABA B Biostatistics with R New York Springer 2012 352p SIQUEIRA A L TIBÚRCIO J D Estatística na Área da Saúde conceitos metodologia aplicações e prática computacional Belo Horizonte Coopmed 2011 520p PAGANO M GAUVREAU K Princípios de Bioestatística 2 ed São Paulo Pioneira Thompson Learning 2004 522p ZAR JH Biostatistical analysis New Jersey Prentice Hall1999 718p