·

Enfermagem ·

Bioestatística

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta

Texto de pré-visualização

Introdução à Bioestatística Conceitos e Aplicações Prof Ricardo Puziol de Oliveira Capítulo I Princípios de Bioestatística 11 O que é Bioestatística Somos frequentemente lembrados do fato que estamos vivendo na era da informação o que se faz necessário um conhecimento referente ao gerenciamento de dados isto é devemos entender como as informações são obtidas como são analisadas e como são interpretadas À ciência que é responsável por esse conhecimento sobre dados é chamada de Estatística Há muitas definições do que é Estatística na literatura mas podemos resumir todas essas definições em apenas uma Definição 1 Estatística Entendese por Estatística a ciência que oferece uma coleção de métodos para planejar experimentos e levantamentos para obter organizar resumir analisar interpretar dados e deles extrair conhecimento Essa ciência dividese basicamente em duas áreas Estatística Descritiva Técnicas e métodos desenvolvidos com o objetivo de organizar resumir e representar de um conjunto de dados do estudo Dentre tais métodos e técnicas destacamse as tabelas gráficos medidas resumos entre outras Inferência Estatística Técnicas e métodos desenvolvidos com o objetivo de fazer o uso das informações de pequeno grupo de dados chamado de amostra para chegar a conclusões sobre um grupo maior chamado de população que em geral não temos conhecimento de suas informações No entanto quando a Estatística é aplicada à Biologia e às Ciências da Saúde ela recebe o nome de Bioestatística A Bioestatística tem como os princípios básicos analisar dados referentes a essas áreas sendo muito utilizada em estudos de prevalência diagnóstico tratamento evolução e prognóstico de doenças bem como na avaliação de fatores ambientais que podem influenciar na saúde Mas é importante frisar que a Bioestatística não é necessariamente uma área da Estatística e sim uma adaptação de suas ferramentas aos desafios encontrados nas pesquisas da área biológica e da saúde MARTINEZ 2015 12 Elementos Fundamentais da Bioestatística 121 Populações e Amostras Em um estudo a população é o conjunto de todos os indivíduos sujeitos organismos ou objetos que compartilham uma ou mais características em comum de modo que a pergunta formulada é a eles direcionada Consideremos por exemplo a pergunta Qual é a prevalência de tuberculose em indivíduos do sexo masculino residentes no Estado do Paraná As características comuns a todas as pessoas são obviamente ser morador do Estado do Paraná e ser do sexo masculino Na redação de um projeto de pesquisa essas características em comum são chamadas critérios de inclusão MARTINEZ 2015 Um estudo que coleta dados de todos os elementos de uma população é denominado censo No entanto em muitos estudos é impraticável obter informações de todos os indivíduos da população devido a obstáculos de acesso tempo necessário para concluir a coleta de dados custos financeiros e outras limitações Nessas situações utilizamos informações de uma amostra que é uma porção selecionada de elementos da população Uma característica crucial de uma amostra é sua representatividade em relação à população de onde foi coletada Isso significa que a amostra deve compartilhar características similares à população para ser considerada representativa Por conseguinte uma amostra que não reflete adequadamente a população correspondente é considerada enviesada ou tendenciosa Por exemplo se quisermos estudar os hábitos de saúde dos adultos em uma cidade e coletarmos dados entrevistando pessoas na praça de alimentação de um shopping center é altamente provável que a amostra resultante não represente corretamente a população e leve a conclusões errôneas No entanto se dividirmos a cidade em setores e selecionarmos aleatoriamente um certo número de habitantes em cada setor para serem entrevistados em suas casas teremos uma amostra mais representativa da população É importante observar que mesmo com cuidados minuciosos uma amostra nunca será completamente idêntica à população em todas as suas características uma vez que representa apenas uma parte dos indivíduos em questão No entanto uma estratégia relevante para obter amostras tão representativas quanto possível é utilizar as chamadas técnicas de amostragem que estabelecem critérios de como os indivíduos devem ser selecionados para compor a amostra Na literatura existem dois tipos de amostragem aleatória e nãoaleatória No entanto devemos nos atentar ao fato de que se uma amostra não for selecionada aleatoriamente ela provavelmente será tendenciosa de alguma forma e os dados não representarão corretamente a população Sendo assim nesto texto iremos trabalhar apenas com a amostragem aleatória Existem diversas técnicas de amostragem aleatória no entanto cada uma delas embora tenham suas vantagens e sua desvantagens tem um único objetivo gerar uma amostra representativa Dentre as técnicas de amostragem existentes neste texto iremos trabalhar apenas com as duas técnicas principais de amostragem que são amostragem aleatória simples e amostragem aleatória estratificada 1211 Amostragem Aleatória Simples A primeira técnica de amostragem apresentada na literatura estatística é amostragem aleatória simples AAS Para este tipo de amostragem cada elemento da população é retirado ao acaso e deve ter a mesma chance de ser incluído na amostra Então para obter uma amostra por essa técnica devemos primeiramente enumerar a população em ordem crescente Em seguida a partir de uma tabela chamada de tabela de números aleatórios Tabela 1 selecionamos os elementos de nossa amostra amostra Entre as vantagens e desvantagens desse método de seleção de uma amostra aleatória destacamse Vantagens 1 Cada elemento tem igual probabilidade de ser selecionado 2 Tende a produzir amostras representativas Desvantagens 1 Não tirar proveito do conhecimento da população 2 Ter erros maiores e menos precisão 3 Com a população dispersa os custos por coleta de dados são mais altos Tabela 1 Tabela de números aleatórios para o uso do método de amostragem aleatória simples Colunas A B C D E Linhas 12345 67890 12345 67890 12345 67890 12345 67890 12345 67890 1 37100 62492 63642 47638 13925 80113 88067 42575 44078 62703 2 53406 13855 38519 29500 62479 1036 87964 44498 77930 21599 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Colunas A B C D E Linhas 12345 67890 12345 67890 12345 67890 12345 67890 12345 67890 3 55172 81556 18856 59043 64315 38270 25677 19650 21310 28115 4 40353 84807 47767 46890 16053 32415 60259 99788 55924 22077 5 18899 96120 77541 57675 70153 41179 97535 82889 27214 34820 6 68141 25340 92551 11326 60939 79355 41544 88926 91110 86431 7 51559 91159 81310 63251 91799 41215 87412 35317 74271 11603 8 92214 33386 73459 79359 65867 39269 57527 69551 17495 91456 9 15089 50557 33166 87094 52425 21211 41876 42525 36625 63964 10 96461 60400 11120 22254 16763 19206 67790 88362 18800 37911 11 28177 44111 15705 73835 69399 33602 13660 84342 97667 80847 12 66953 44737 81127 74930 78610 12666 85077 95972 96556 80108 13 19712 27263 84575 49820 19837 69985 34931 67935 71903 82560 14 68756 64757 19987 92222 11691 42502 95200 47981 97579 93408 15 75022 65332 98606 29451 57349 39219 85850 31502 96936 96356 16 11323 70069 90269 89266 46413 61615 66447 49751 15836 97343 17 55208 63470 18158 25283 19335 53893 87746 72531 16826 52605 18 11474 87860 55940 67045 13231 51186 71500 50498 59487 48677 19 81422 86842 60997 79669 43804 78690 58358 87639 24427 66799 20 21771 75963 23151 90274 82750 50677 99384 94022 84888 80139 21 42278 12160 32576 14278 34231 20724 27908 26570 19023 71900 22 17697 60114 63247 32096 32503 49230 17570 73243 76181 99343 23 56860 30243 34124 29360 71749 30310 72259 26351 77511 85000 24 52992 46650 89910 57395 39502 49738 87854 71066 84596 33115 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Colunas A B C D E Linhas 12345 67890 12345 67890 12345 67890 12345 67890 12345 67890 25 94518 93984 81478 67750 89354 10800 25988 84359 31088 13655 26 18400 72186 78906 75480 71140 15199 69002 83740 22126 23555 27 87462 63165 79816 61630 50140 95319 79205 79202 67414 60805 28 88692 58716 12273 48176 86038 78474 76730 82931 51595 20747 29 20094 42962 41382 16768 13261 13510 48220 96354 72001 68642 30 60935 81504 50520 82153 27892 18029 79663 44146 72876 67843 31 51392 85936 43898 50596 81121 98122 69196 54271 12059 62539 32 54239 41918 79526 46274 24853 67165 12011 49230 20273 89405 33 57892 73394 71600 90262 48731 46648 70977 58262 78359 50436 34 23300 74736 53274 44468 53616 35794 54838 39114 68302 26855 35 76115 29247 55342 51299 79908 36613 68361 18864 13419 34950 36 63312 81886 29085 20101 38037 34742 78364 39356 40006 49800 37 27632 21570 34274 56426 33000 71170 86673 46455 66866 76374 38 63350 62111 44014 52567 79480 45886 92585 87828 17376 35254 39 64142 87676 21358 88773 10604 62834 63971 39890 21421 76086 40 28436 25468 75235 75370 63543 76266 27745 31714 42190 69900 41 95220 83855 85973 15888 29554 17995 37443 11461 42909 32634 42 93714 15414 93712 27420 34395 21929 38928 31205 18380 60000 43 15681 53599 58185 73840 88758 10618 98725 23146 13521 47905 44 77712 23914 89070 43768 10304 61405 53986 61116 76164 54958 45 78453 54844 61509 12450 91199 74820 25340 81890 62978 55516 46 24860 68284 19367 29073 93464 67140 45268 60678 58506 23700 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Colunas A B C D E Linhas 12345 67890 12345 67890 12345 67890 12345 67890 12345 67890 47 37284 68440 78887 57276 42695 36820 83240 97440 63025 60997 48 35488 52473 37634 32569 39590 27379 23520 29714 37430 84440 49 51595 59909 35223 44991 29830 56614 59661 83397 38421 17503 50 90660 35171 30021 91120 78793 16827 89320 82600 91810 53616 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exemplo Gold et al 2002 estudaram a eficácia na cessação do tabagismo com o uso de bupropiona SR e um adesivo de nicotina quando coadministrado com terapia cognitivocomportamental Para fins ilustrativos vamos considerar todos os pacientes do estudo como uma população de tamanho cujo a variável de interesse seja a idade Os dados referentes as idades dos pacientes da população em questão são ilustrados na Tabela 3 Com base na tabela de números aleatórios como podemos selecionar uma amostra de tamanho por meio da técnica de amostragem aleatória simples dessa população Tabela 2 Dados referentes às idade dos pacientes que participaram do estudo sobre cessação do tabagismo com bupropiona SR e um adesivo de nicotina ID do Paciente Idade ID do Paciente Idade ID do Paciente Idade ID do Paciente Idade ID do Paciente Idade 1 48 11 38 21 51 31 52 41 44 2 35 12 44 22 50 32 53 42 39 3 46 13 43 23 50 33 61 43 38 4 44 14 47 24 55 34 60 44 49 5 43 15 46 25 63 35 53 45 49 6 42 16 57 26 50 36 53 46 53 7 39 17 52 27 59 37 50 47 56 8 44 18 54 28 54 38 53 48 57 9 49 19 56 29 60 39 54 49 51 10 49 20 53 30 50 40 61 50 61 Fonte Gold P B Rubey R N Harvey R T 2002 Naturalistic selfassignment comparative trial of bupropion SR a nicotine patch or both for smoking cessation treatment in primary care American Journal on Addictions 114 315331 N 50 n 10 Solução Neste caso como primeira etapa localizamos um ponto de partida aleatório na tabela Isso pode ser feito de várias maneiras uma delas é desviar o olhar da página enquanto a toca com a ponta de um lápis O ponto de partida aleatório é o dígito mais próximo de onde o lápis tocou na página Suponha que este procedimento levou a um ponto de partida na Tabela 1 localizado na linha 02 e coluna 28 O dígito neste ponto é 5 Como temos 10 valores para escolher podemos usar apenas os números aleatórios 01 a 50 então será conveniente escolher números de dois dígitos Assim o primeiro número de dois dígitos começando em nosso ponto inicial aleatório é 59 um número que não podemos usar Então seguindo para a próxima linha considerando a mesma posição o próximo número é 60 que novamente não podemos usar Seguindo esse procedimento chegamos na linha 09 em que o número 40 que é um número que podemos usar Logo a primeira observação da amostra é o paciente de número 40 na nossa população Repetindo esse processo chegamos na amostra aleatória simples Tabela 3 Tabela 2 Amostra aleatória obtida referente às idades dos pacientes que participaram do estudo sobre cessação do tabagismo com bupropiona SR e um adesivo de nicotina ID do Paciente Idade ID do Paciente Idade 40 61 37 50 45 49 13 43 16 57 11 38 10 49 22 50 19 56 15 46 Fonte Gold P B Rubey R N Harvey R T 2002 Naturalistic selfassignment comparative trial of bupropion SR a nicotine patch or both for smoking cessation treatment in primary care American Journal on Addictions 114 315331 Uma outra solução desse problema seria fazer o uso de softwares estatísticos como por exemplo o R No R para trabalharse com o conceito de amostragem fazse o uso da função sample Esta função A função cria uma amostra aleatória com base nos parâmetros fornecidos na chamada da função de acordo com a sintaxe x size replace Assim considerando os nossos dados temse a seguinte rotina Base de Dados setwddatasets dbgold readcsvdataset1goldcsv header TRUE sep Organização dos Dados idades cdbgold2dbgold4dbgold6dbgold8 ids cdbgold1dbgold3dbgold5dbgold7 dbnew dataframecbindidsidades namesdbnew cID do Paciente Idade amostra dbnewsamplenrowdbnew size 10 replace TRUE printamostra rownames FALSE ID do Paciente Idade 32 53 5 43 25 63 26 50 22 50 21 51 12 44 13 43 24 55 40 61 1212 Amostragem Aleatória Estratificada Frequentemente existem fatores que podem dividir a população em subpopulações ou estratos com tamanhos diferentes e esperamos que as medições de interesse variem entre esses estratos Naturalmente essa situação deve ser considerada quando selecionamos uma amostra Isso nos leva a segunda técnica de amostragem que abordaremos que é amostragem aleatória estratificada AAE Para este tipo de amostragem a população é divida em estratos proporcionais e em cada estrato é realizado uma amostragem aleatória simples Entre as vantagens e desvantagens desse método de seleção de uma amostra aleatória destacamse Vantagens 1 Captura as principais características da população na amostra 2 Ter erros menores e mais precisão do que AAS Desvantagens 1 Condições devem ser atendidas para o método funcionar corretamente 2 Classificar com precisão os membros da população em um único estrato 3 Os custos por coleta de dados podem ser mais altos do que a AAS Exemplo Os centros de trauma hospitalar recebem classificações dependendo de suas capacidades para tratar vários traumas Neste sistema um centro de trauma de nível 1 é o nível mais alto de atendimento e um centro de trauma de nível 4 é o nível mais baixo de atendimento Imagine que estamos interessados em estimar a taxa de sobrevida das vítimas de trauma atendidas em hospitais de uma grande área metropolitana com centros de trauma nível 1 nível 2 e nível 3 Como poderíamos coletar uma amostra de 30 pacientes para o estudo Solução Neste caso para a coleta da amostra devemos primeiramente assumir que as taxas de sobrevivência dos pacientes podem depender significativamente do trauma que sofreram e portanto do nível de cuidados no atendimento que receberam Se usarmos uma AAS sem levar em consideração o centro em que foram atendidos pode ser que amostra não represente taxas de sobrevida reais uma vez que os pacientes recebem atendimento diferenciado nos diversos centros de trauma Logo uma maneira de estimar melhor a taxa de sobrevida é tratar cada centro de trauma como um estrato e em seguida selecionar aleatoriamente 10 prontuários de cada um dos três centros para compor nossa amostra final Ou seja devemos realizar uma AAE Este procedimento baseiase no fato de que as taxas de sobrevivência dentro dos centros de trauma são menos variáveis do que as taxas de sobrevivência entre os centros de trauma Portanto uma AAE fornece uma melhor representação dessas taxas do que uma AAS neste caso 122 Variáveis Em Bioestatística as variáveis representam o atributo ou característica que se pretende estudar em uma população ou amostra por exemplo em uma análise sobre os fatores de risco para doenças cardiovasculares as variáveis de interesse podem ser a idade em anos a pressão sistólica em mmHg o peso em kg a prática de exercícios físicos os indivíduos são classificados como praticantes ou não os antecedentes familiares presentes ou ausentes e diabetes presente ou ausente Por outro lado em uma investigação sobre a internação de pacientes com tuberculose as variáveis de interesse podem ser o próprio tempo de internação em dias o motivo podem ser diversas causas e a condição de saída alta médica a pedido óbito abandono transferência ou outros tipos Nos exemplos anteriores observe que algumas variáveis são numéricas ou seja seus possíveis resultados expressam quantificações como a idade a pressão sistólica e o peso Por outro lado outras variáveis descrevem classificações atributos ou qualidades dos indivíduos como a prática de exercícios físicos antecedentes familiares e o motivo da internação Essa classificação das variáveis conforme sua natureza é muito importante dado que há ferramentas estatísticas voltadas à descrição e à análise de variáveis numéricas e outras ferramentas voltadas às variáveis não numéricas Portanto quando pensamos em que ferramenta utilizar para o tratamento de nossos dados um primeiro passo consiste em entender a natureza de nossas variáveis de interesse De acordo com sua natureza as variáveis podem ser classificadas como quantitativas ou qualitativas As variáveis que representam grandezas matemáticas numéricas são chamadas de quantitativas enquanto as variáveis que descrevem classificações atributos ou qualidades são conhecidas como qualitativas ou categóricas As variáveis qualitativas podem ser subclassificadas em dois grupos nominais sem ordenação nos atributos e ordinais com ordenação nos atributos ou seja uma ordem de classificação Por outro lado as variáveis quantitativas são subclassificadas como discretas que só podem produzir resultados inteiros e contínuas que podem assumir qualquer valor dentro de um intervalo na reta real sendo geralmente resultados de instrumentos de medida Como exemplo de variável qualitativa podemos citar a cor dos olhos que é uma variável qualitativa nominal Um outro exemplo seria a variável classificação de risco de um paciente que é uma variável qualitativa ordinal uma vez que o risco pode ser classifica em baixo médio e alto risco Por outro lado em relação as variáveis quantitativas um primeiro exemplo seria a variável número de dias em que um paciente ficou na UTI que é uma variável quantitativa do tipo discreta pois é uma contagem Um outro exemplo seria a variável índice de glicemia que é quantitativa e representa uma variável quantitativa contínua uma vez que não é possível contar os valores do índice glicemia Exemplo A insuficiência cardíaca é uma síndrome clínica caracterizada pela incapacidade do coração de atuar adequadamente como bomba quer seja por déficit de contração eou de relaxamento comprometendo o funcionamento do organismo e quando não tratada adequadamente reduzindo a qualidade de vida e a sobrevida Uma amostra de 20 pacientes com insuficiência cardíaca que foram admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 é mostrada na Tabela 3 Com base nessa tabela responda as questões a Quantos elementos existem neste conjunto de dados b Quantas variáveis existem neste conjunto de dados Quais as classificações de cada uma das variáveis Tabela 3 Dados amostrais referentes a 20 pacientes com insuficiência cardíaca que foram admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 Tempo Sexo Fumante Diabetes PA Anemia Idade FE Sódio Creatinina Plaquetas CPK Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Nota PA Pressão Alta FE Fração de Ejeção Tempo em dias completos Tempo Sexo Fumante Diabetes PA Anemia Idade FE Sódio Creatinina Plaquetas CPK 97 Feminino Não Não Não Sim 43 50 135 130 237000 358 180 Masculino Sim Sim Não Sim 73 30 142 118 160000 231 31 Masculino Sim Não Sim Não 70 20 134 183 263358 582 87 Masculino Não Não Não Sim 65 25 141 110 298000 305 113 Masculino Não Não Não Não 64 60 137 100 242000 1610 10 Masculino Não Não Não Sim 75 15 137 120 127000 246 250 Masculino Sim Não Não Não 70 40 136 270 51000 582 27 Masculino Não Sim Sim Não 94 38 134 183 263358 582 87 Masculino Não Não Sim Não 75 45 137 118 263358 582 87 Masculino Sim Não Não Não 80 25 144 110 149000 898 119 Masculino Sim Sim Não Não 50 35 137 118 263358 1846 112 Masculino Sim Não Não Não 50 30 141 070 266000 185 13 Masculino Não Não Não Sim 82 50 136 130 47000 379 4 Masculino Não Não Sim Não 75 20 130 190 265000 582 250 Masculino Sim Não Não Não 42 30 128 380 215000 64 108 Masculino Não Não Não Sim 68 25 130 210 305000 646 28 Masculino Não Não Não Não 85 45 132 300 360000 23 135 Masculino Não Sim Não Não 59 20 134 240 70000 66 240 Masculino Sim Não Não Sim 50 35 140 090 362000 298 112 Masculino Sim Não Não Não 52 30 136 070 218000 132 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Nota PA Pressão Alta FE Fração de Ejeção Tempo em dias completos Solução a Em relação ao número de elementos os mesmos se referem a soma do número de observações de cada variável De acordo com a Tabela 3 há 12 variáveis com 20 observações cada uma portanto há elementos na base de dados em questão b Em relação ao número de variáveis existem 12 variáveis que são classificadas como Qualitativas nominais Sexo Fumo Diabetes Pressão Alta Anemia Quantitativas discretas Tempo Plaquetas Quantitativas contínuas Idade Fração de Ejeção Sódio Creatinina CPK 13 O Método Científico e a Bioestatística Nas palavras de Hogg 1991 método científico é um conjunto de estratégias ferramentas e ideias resultantes da experiência humana e consequentes do acúmulo de saberes que estruturadas e sistematizadas possibilitam alcançar um objetivo que é responder a uma pergunta Em outras palavras toda pesquisa científica é baseada em uma pergunta São exemplos Qual é a incidência de dengue no Estado do Paraná O consumo de alimentos transgênicos pode elevar o risco de doenças gástricas Uma baixa fração de ejeção pode elevar o risco de insuficiência cardíaca Segundo Martinez 2015 o método científico estabelece as estratégias que utilizaremos para responder satisfatoriamente à pergunta de nosso estudo Tais estratégias incluem observação formulação de hipóteses experimentação coleta de dados e análise estatística de dados e podem ser resumidas como a Fazer observações O pesquisador é motivado a pesquisar quando olha para o mundo a seu redor e decide conhecêlo melhor Ele observa fatos fenômenos comportamentos e atividades e percebe que muitas coisas já são conhecidas e outras ainda estão para serem descobertas Define então um objeto de investigação que é o alvo da sua pesquisa b Definir uma questão No passo seguinte o pesquisador especifica o que deseja conhecer em relação ao fenômeno observado No processo de fazer observações o objeto de investigação era visto de forma ampla mas agora o pesquisador define pontualmente sua pergunta de estudo c Formular de uma hipótese Nesta etapa o pesquisador fundamentase em seu conhecimento e experiências prévias para imaginar o que explicaria o fenômeno observado ou seja o que poderia responder àquela questão definida previamente d Coletar dados Uma vez definidos os critérios que delimitam a população em estudo os sujeitos sob investigação como um todo o pesquisador tem à sua disposição técnicas estatísticas de amostragem para auxiliálo a selecionar de forma adequada um conjunto de sujeitos que representarão essa população e Analisar os dados Nesta etapa o pesquisador confronta seus dados que representam um universo empírico com as hipóteses previamente formuladas A análise dos dados implica então uma comparação entre aquilo que ele pensou e o que os dados estão representando f Conclusões A partir da organização das informações obtidas o pesquisador traça analogias com estudos prévios e faz reflexões sobre as limitações e o alcance de seu estudo É importante nesta etapa conhecer o que a análise estatística permite concluir e o que ela não permite concluir para que o pesquisador não atribua à estatística um alcance que ela não possui Pr fim o pesquisador apresenta uma conclusão que é a resposta à 12 20 240 pergunta formulada por ele Ele poderá perceber que essa resposta não é definitiva e então imaginará como uma nova pesquisa Ante o exposto você pode se perguntar Se a Bioestatística é tão importante para a pesquisa ela também seria importante para aqueles que não têm interesse em atuar no meio científico Se entendermos que a construção do conhecimento é necessária para todos a resposta é sim Nos tempos atuais é crucial manterse atualizado continuamente devido ao ritmo constante em que novas descobertas são divulgadas Mesmo aqueles que trabalham em clínicas consultórios unidades de saúde ou outros serviços fora do meio acadêmico ou de pesquisa podem se beneficiar dos conhecimentos estatísticos para entender com mais profundidade ou questionar uma publicação técnica ou científica que trate de um assunto relevante para sua atuação profissional como a avaliação de um novo tratamento fisioterápico ou procedimento cirúrgico ou a eficácia de um novo fármaco ou método diagnóstico MARTINEZ 2015 14 Tipos de Estudos Um vez que definimos o que é método científico o próximo passo é trabalhar com a escolha adequada da ferramenta estatística a ser utilizada em um estudo depende essencialmente da pergunta formulada De modo mais amplo para conseguirmos uma resposta adequada a essa pergunta precisamos estabelecer regras para a coleta dos dados e composição das amostras Essas regras definem o delinhamento do estudo que em geral visa responder as seguintes questões Questão 1 Relacionada aos indivíduos que compõe a amostra ou população Quem Que tipo de indivíduos os dados descrevem Quantos indivíduos aparecem nos dados isto é qual é o tamanho amostral ou populacional do estudo Questão 2 Relacionada a definição das variáveis O quê Quantas variáveis os dados contém Quais são as definições exatas dessas variáveis isto é qual o tipo de variável do estudo Em que unidade de medida cada variável é registrada Questão 3 Relacionada a finalidade do estudo Por quê Qual é o objetivo do estudo Que conclusões desejamos tirar sobre indivíduos além daquelas para as quais temse nos dados amostrais As variáveis são adequadas para o propósito pretendido Naturalmente a respostas das questões anteriores nos levam a diferentes tipos de delinhamento de estudos sendo que cada tipo de estudo tem suas próprias vantagens e desvantagens e é mais adequado para responder a diferentes tipos de perguntas de pesquisa em pesquisa clínica sendo importante a escolha do tipo de estudo correto para uma determinada pergunta de pesquisa para garantir que os resultados sejam válidos e confiáveis Neste sentido existem vários tipos de estudos em pesquisa clínica que são utilizados para responder a diferentes perguntas de pesquisa dentre os quais destacamos a Um estudo de coorte é um tipo de estudo observacional que acompanha um grupo de indivíduos por um período de tempo específico para avaliar a relação entre a exposição a um determinado fator de risco e o desenvolvimento de uma doença ou condição de saúde Por exemplo um estudo de coorte poderia acompanhar um grupo de indivíduos que foram expostos a um pesticida específico e comparar sua incidência de câncer com um grupo de controle de indivíduos que não foram expostos ao pesticida Existem dois tipos principais de estudos de coorte retrospectivos e prospectivos Um estudo retrospectivo analisa dados de saúde e exposição que já foram coletados anteriormente enquanto um estudo prospectivo recruta indivíduos e segueos ao longo do tempo coletando dados conforme eles surgem Por fim uma vantagem dos estudos de coorte é que eles podem fornecer informações importantes sobre a relação entre a exposição a um fator de risco e o desenvolvimento de uma doença ou condição de saúde No entanto eles podem ser caros e demorados para conduzir e nem sempre é possível controlar todas as variáveis que podem influenciar os resultados Exemplo Coorte retrospectiva de crianças e adolescentes hospitalizados por COVID19 no Brasil do início da pandemia a 1º de agosto de 2020 Objetivos Caracterizar a população do estudo estimar a taxa de letalidade intrahospitalar por estado e analisar fatores associados aos óbitos por COVID19 Métodos Foi realizado estudo de coorte retrospectiva de crianças e adolescentes hospitalizados com diagnóstico de COVID19 confirmado por transcrição reversa seguida de reação em cadeia da polimerase RTPCR tendo como desfecho óbito por COVID19 ou recuperação entre 1º de março e 1º de agosto de 2020 A fonte de dados foi o Sistema de Informação de Vigilância Epidemiológica da Gripe SIVEPGripe ao qual são notificados pacientes internados com Síndrome Respiratória Aguda Grave SRAG Consideraramse crianças os pacientes com idade entre 0 e 11 anos completos e adolescentes aqueles com idade entre 12 e 18 anos completos Realizouse análise bi e multivariável por meio de Regressão de Poisson com variância robusta utilizandose como medida de associação final o Risco Relativo ajustado RRa Resultados Dos 4930 casos analisados 2553 518 eram do sexo masculino A raçacor autodeclarada parda foi a mais frequente com 2335 474 A unidade federativa de Roraima apresentou a maior taxa de letalidade intrahospitalar com 688 n 1116 A análise multivariada mostrou que pertencer ao grupo etário adolescente RR 159 IC95 112 225 p 0009 ter sido classificado como SRAGcrítico RR 456 IC95 277 751 p 0001 e apresentar imunopatia RR 224 IC95 158 317 p 0001 como comorbidade configuraramse como fatores associados ao óbito pela COVID19 Conclusão Observouse que ser adolescente ter classificação de SRAGcrítico e imunopatia como comorbidade foram importantes fatores associados ao óbito Recomendase vigilância ativa e cuidados diferenciados a portadores de doenças crônicas e condições imunológicas especiais b Um estudo casocontrole é um tipo de estudo observacional que compara indivíduos com uma determinada condição de saúde os casos com indivíduos que não apresentam a condição os controles para avaliar a relação entre a exposição a um fator de risco e o desenvolvimento da doença ou condição Por exemplo em um estudo casocontrole sobre a relação entre o tabagismo e o câncer de pulmão os pesquisadores selecionariam um grupo de indivíduos com câncer de pulmão os casos e um grupo de indivíduos sem câncer de pulmão os controles e perguntariam sobre seus hábitos de tabagismo no passado Os resultados desse estudo permitiriam que os pesquisadores avaliassem se o tabagismo está associado ao risco de câncer de pulmão controlando outros fatores que podem influenciar o resultado como idade gênero e história familiar de câncer Por fim uma vantagem dos estudos casocontrole é que eles são úteis para investigar doenças raras ou que ocorrem em longo prazo já que os pesquisadores podem recrutar indivíduos que já desenvolveram a condição de interesse No entanto eles também têm algumas limitações como o risco de viés de seleção e a dificuldade de controlar todas as variáveis que podem influenciar o resultado Exemplo Fatores de vulnerabilidade associados às internações por HIVAIDS estudo caso controle Objetivos Identificar a associação entre as internações por HIVaids e os fatores que integram as vulnerabilidades individuais sociais e programáticas Métodos estudo casocontrole realizado em 2014 em um município do estado de São Paulo Casos compreenderam pessoas que viviam com HIV PVHIV internadas e controles aquelas que faziam acompanhamento ambulatorial Foram realizadas entrevistas utilizando um instrumento com variáveis sociodemográficas características clínicas e outras vulnerabilidades Os dados foram analisados por meio de regressão logística condicional Resultados participaram 56 casos e 112 controles Constituíram fatores de risco para internação hospitalar por HIV indivíduos desempregados e aposentadosdo lar pessoas em situação de rua não usuários de antirretroviral indivíduos que não compareciam regularmente aos retornos Acesso à assistente social constituiuse um fator de proteção para internação Conclusões esta investigação contribuiu para mensurar as vulnerabilidades sociais individuais e programáticas que interferem na agudização do HIV e consequentemente no desfecho desfavorável como a internação hospitalar c Um ensaio clínico randomizado é um estudo científico projetado para avaliar a eficácia e segurança de um tratamento médico comparandoo com um grupo de controle que recebe um tratamento padrão existente ou um placebo Ele é considerado o padrãoouro para avaliar a eficácia de novos tratamentos médicos já que o uso da randomização ajuda a minimizar o viés na seleção dos participantes e na distribuição de características importantes entre os grupos Sendo assim os participantes de um ensaio clínico randomizado são aleatoriamente alocados para receber um dos tratamentos em estudo e em seguida são acompanhados ao longo do tempo para avaliar os resultados do tratamento como a melhora dos sintomas o tempo de sobrevivência ou a redução do risco de complicações O uso da randomização ajuda a garantir que as diferenças entre os grupos de tratamento sejam devidas ao tratamento em si e não a outras diferenças entre os participantes Este tipo de estudo em geral costuma ser dividido em fases que incluem a fase de planejamento a fase de execução e a fase de análise dos resultados que são definidas como Na fase de planejamento os pesquisadores definem o protocolo do estudo incluindo o tamanho da amostra o critério de inclusão e exclusão a dosagem e a duração do tratamento bem como as medidas de resultados que serão usadas para avaliar a eficácia do tratamento Na fase de execução os pesquisadores recrutam e randomizam os participantes e implementam o protocolo do estudo Na fase de análise dos resultados os pesquisadores analisam os dados coletados durante o estudo para avaliar a eficácia e segurança do tratamento Em resumo o ensaio clínico randomizado é um estudo científico rigoroso que compara a eficácia de um tratamento médico com um grupo de controle que recebe um tratamento padrão existente ou um placebo Ele é importante para avaliar a segurança e eficácia dos tratamentos médicos mas pode ter limitações que precisam ser consideradas Exemplo Parâmetros maternos e perinatais após intervenções não farmacológicas um ensaio clínico randomizado controlado Objetivos Analisar os efeitos do banho quente de exercícios perineais com bola suíça ou de ambos durante o trabalho de parto em parâmetros maternos e perinatais Métodos Ensaio clínico randomizado controlado incluindo 101 gestantes de baixo risco admitidas em dois centros obstétricos entre junho de 2013 e fevereiro de 2014 com idade mínima de 18 anos gestação a termo feto único em apresentação cefálica dilatação cervical entre 3 e 8 cm escala de dor 5 sem patologias clínicas ou obstétricas ou doença mental não usuárias de drogas psicoativas ou de corticosteroides naturais ou sintéticos e que não fi zeram uso de produtos de tabaco cafeína e analgésicos duas quatro e seis horas antes de serem incluídas no estudo Os arâmetros maternos e perinatais foram avaliados antes e 30 minutos após as intervenções incluindo pressão arterial materna frequência cardíaca e respiratória contratilidade uterina dilatação cervical frequência cardíaca fetal linha de base variabilidade acelerações e desacelerações usando cardiotocografi a e escala de Apgar no 1º e 5º minutos após o nascimento Os participantes foram alocados aleatoriamente em três grupos A banho quente 33 B bola suíça 35 e C intervenções combinadas 33 Resultados Em relação aos parâmetros maternos a pressão arterial sistólica foi mantida abaixo de 100 mmHg com um pequeno aumento no grupo B A pressão arterial diastólica diminuiu em todos os grupos mantendose contudo acima de 70 mmHg A frequência cardíaca apresentou diminuição nos grupos B e C e esteva acima de 80 bpm A frequência respiratória ficou acima de 20 rpm em todos os grupos após as intervenções enquanto a dilatação cervical foi de 50 cm em média antes das intervenções com aumento de 13 cm após as intervenções em todos os grupos Em relação aos parâmetros fetais 90 dos fetos em todos os grupos apresentaram frequência cardíaca normal nos dois períodos avaliados acelerações transitórias estiveram presentes em mais de 80 dos fetos em todos os grupos em ambos os períodos analisados Não foi constatada desaceleração antes da intervenção em aproximadamente 584 dos casos Observouse desacelerações em 525 dos casos principalmente nos grupos A e B A variabilidade foi normal em mais de 80 dos casos e um valor 7 na escala de Apgar no primeiro minuto após o nascimento só foi observado em 14 casos Não foram encontradas diferenças signifi cativas na pressão arterial e frequência cardíaca materna e fetal incluindo a ocorrência de acelerações transitórias variabilidade ou desacelerações e valores na escala de Apgar tanto na análise inter e intragrupo quanto nos períodos avaliados Ao comparar os parâmetros maternos antes e 30 minutos após as intervenções observouse aumento na frequência respiratória p 0037 e na dilatação cervical p 0001 em todos os grupos de intervenção Na análise intergrupo a progressão do trabalho de parto estimulada dos grupos A p 0041 e C p 0021 em relação às contrações uterinas aumentou em comparação com o grupo B Conclusão As intervenções isoladas ou combinadas são uma forma segura de assistência ao parto uma vez que elas não afetam negativamente os parâmetros maternos e perinatais 15 Exercícios de Revisão Exercício 1 O que é Bioestatística Exercício 2 Qual a diferença entre população e amostra Exercício 3 Qual é o papel da estatística em um estudo científico Exercício 4 Por que muitos estudos em saúde fazem uso de amostras Exercício 5 O que é uma amostra representativa da população Exercício 6 Considere um determinado hospital deseja realizar um estudo clínico com 500 pacientes que foram submetidos a uma cirurgia cardíaca As variáveis clínicas que serão coletadas são Idade Sexo Peso Altura Índice de Massa Corporal IMC Pressão Arterial Sistólica Pressão Arterial Diastólica Fumo Histórico Familiar de Doença Cardíaca Histórico Pessoal de Doenças Crônicas Número de Artérias Coronárias Obstruídas Nível de Colesterol LDL Nível de Colesterol HDL Fração de Ejeção Anemia Valores CPK Níveis de Creatinina De acordo com o conceito de variáveis quais são as classificações de cada uma dessas variáveis Exercício 7 A dengue é uma doença infecciosa causada pelo vírus da dengue transmitida pela picada do mosquito Aedes aegypti Ela pode se manifestar de diferentes formas desde uma febre moderada até uma condição mais grave como a dengue hemorrágica Neste contexto considere uma amostra de 15 pacientes com dengue ilustrada na Tabela 4 Com base nessa tabela responda as questões a Quantos elementos existem neste conjunto de dados b Quantas variáveis existem neste conjunto de dados Quais as classificações de cada uma das variáveis Tabela 4 Dados fictícios referentes a 15 pacientes com dengue no Estado do Paraná no ano de 2022 ID Idade Sexo Tipo Anemia Glicemia Náusea Creatinina Plaquetas Sangramento 1 48 Masculino Clássica Não 9697 Sim 091 117355 Não 2 32 Masculino Clássica Sim 10660 Não 081 143189 Não 3 31 Feminino Clássica Não 3545 Não 124 122203 Não 4 20 Feminino Clássica Não 8456 Sim 115 114421 Não 5 59 Masculino Clássica Sim 10573 Não 096 127775 Não 6 60 Feminino Hemorrágica Sim 7559 Sim 069 94666 Sim 7 54 Masculino Hemorrágica Sim 10869 Sim 080 91989 Sim 8 31 Feminino Hemorrágica Sim 11600 Não 122 68472 Sim 9 42 Masculino Hemorrágica Não 9672 Não 069 74274 Sim 10 43 Feminino Hemorrágica Sim 12486 Sim 124 50031 Sim 11 44 Feminino Clássica Sim 8131 Sim 085 121675 Não 12 22 Masculino Hemorrágica Não 10787 Não 081 99783 Sim 13 44 Masculino Hemorrágica Sim 10807 Sim 075 76000 Sim 14 45 Masculino Hemorrágica Sim 8227 Sim 133 90223 Sim 15 26 Masculino Hemorrágica Sim 7362 Sim 063 72604 Sim Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exercício 8 Considere o resumo do estudo de intitulado Fatores de risco para sífilis em mulheres estudo caso controle escrito por Macêdo et al 2017 e publicado na Revista de Saúde Pública Objetivo Determinar os fatores sociodemográficos comportamentais e de assistência à saúde relacionados à ocorrência de sífilis em mulheres atendidas em maternidades públicas Métodos Tratase de um estudo casocontrole 239 casos e 322 controles com mulheres admitidas em sete maternidades do município do Recife no período de julho de 2013 a julho de 2014 As mulheres elegíveis foram recrutadas após o resultado do VDRL Venereal Disease Research Laboratory sob qualquer titulação A seleção dos casos e controles considerou o resultado da sorologia por ELISA enzymelinked immunosorbent assay variável dependente utilizada como diagnóstico para sífilis neste estudo As variáveis independentes foram agrupadas em sociodemográficas comportamentais e antecedentes clínicos e obstétricos e assistência à saúde no prénatal e na maternidade As informações foram obtidas por meio de entrevista durante o internamento por aplicação de um questionário Foi calculado odds ratio OR intervalo de confiança de 95 e realizada análise de regressão logística para identificar os fatores preditores da variável a ser explicada Resultados A análise de regressão logística identificou como fatores determinantes para a sífilis gestacional nível de escolaridade fundamental incompleto ou analfabeta OR 202 ausência de acesso a telefone OR 24 religião católica OR 170 quatro ou mais gestações OR 22 três ou mais parceiros sexuais no último ano OR 31 uso de drogas ilícitas antes dos 18 anos OR 30 e uso de drogas ilícitas por parte do atual companheiro OR 17 Além desses foram observadas a ocorrência de apenas uma a três consultas ao pré natal OR 35 e história anterior de infecção sexualmente transmissível OR 97 Conclusões Fatores sociodemográficos comportamentais e de assistência à saúde estão associados à ocorrência de sífilis em mulheres e devem ser levados em consideração na elaboração de estratégias universais direcionadas à prevenção e controle da sífilis porém com foco em situações de maior vulnerabilidade Com base neste resumo responda as seguintes questões a Qual é a população do estudo b Quais são os objetivos e as hipóteses do estudo c Qual é o tipo de estudo d Quais são os critérios de seleção da amostra do estudo e Quais são as variáveis f Quais são as classificações dessas variáveis g Quais são os métodos estatísticos do estudo h Quais são os resultados do estudo i Qual a conclusão do estudo Exercício 9 Suponha que um determinado profissional da saúde deseja obter uma amostra de 2 dos 500 pacientes de uma clínica para entrevistálos sobre a qualidade do atendimento na recepção da clínica para avaliar a hipótese de que pessoas de sexo masculino estejam sendo melhores atendidos do que pessoas do sexo feminino Sabendo que aproximadamente 35 dos pacientes são do sexo feminino como o profissional poderia selecionar uma amostra aleatória de tamanho referente à 2 dos 500 pacientes isto é de tamanho 10 Exercício 10 Minias et al 2018 realizaram uma avaliação dos perfis de leucócitos de aves limícolas grupo de aves migratórias que habitam ambientes costeiros e estuários Essas aves são caracterizadas por suas pernas longas e bicos finos e curvos que lhes permitem buscar alimento na lama e na areia das praias e estuários Uma das variáveis analisadas foi a relação entre heterófilos e linfócitos razão HL que é responsável por refletir a adaptação fisiológica de um organismo para lidar com uma infecção por lesão por meio de heterófilos ou uma doença contagiosa por meio de linfócitos Neste contexto para fins ilustrativos vamos considerar todos os pacientes do estudo como uma população de tamanho Os dados referentes a essa população pássaros são ilustrados na Tabela 5 Com base na tabela de números aleatórios como podemos selecionar amostras de tamanhos e por meio da técnica de amostragem aleatória simples dessa população Tabela 5 Dados referentes aos perfis de leucócitos de aves limícolas do estudo de Minias et al 2018 Espécies Escore de Gordura Massa Corporal em g Heterófilos H Linfócitos L Eosinófilos Monócitos Basófilos Razão HL Vanellus vanellus 0 204 31 60 6 0 3 052 Charadrius dubius 3 38 8 82 6 0 4 010 Actitis hypoleucos 4 49 77 22 1 0 0 350 Fonte Minias P Włodarczyk R Meissner W 2018 Leukocyte profiles are associated with longevity and survival but not migratory effort a comparative analysis of shorebirds Functional Ecology 322 369378 N 60 n 10 n 20 n 30 Espécies Escore de Gordura Massa Corporal em g Heterófilos H Linfócitos L Eosinófilos Monócitos Basófilos Razão HL Charadrius dubius 0 31 28 59 12 1 0 047 Tringa erythropus 5 144 36 45 10 0 9 080 Calidris canutus 0 95 58 36 2 1 3 161 Tringa erythropus 1 124 43 36 17 0 4 119 Charadrius hiaticula 0 49 30 59 9 0 2 051 Limicola falcinellus 0 30 2 80 4 0 14 003 Actitis hypoleucos 4 49 77 22 1 0 0 350 Tringa totanus 3 86 32 52 6 0 10 062 Calidris minuta 4 23 68 23 0 1 8 296 Calidris alpina 5 57 23 67 0 0 10 034 Calidris alpina 5 54 34 46 0 4 16 074 Philomachus pugnax 3 166 33 61 1 0 5 054 Charadrius dubius 0 33 26 55 15 2 2 047 Calidris alpina 5 54 34 46 0 4 16 074 Tringa glareola 3 57 48 34 11 4 3 141 Calidris ferruginea 6 62 81 14 1 0 4 579 Tringa nebularia 0 154 16 35 45 0 4 046 Tringa glareola 5 62 36 54 10 0 0 067 Arenaria interpres 0 86 24 73 0 3 0 033 Actitis hypoleucos 3 44 43 42 6 0 9 102 Calidris ferruginea 6 62 81 14 1 0 4 579 Philomachus pugnax 3 157 39 52 1 0 8 075 Charadrius hiaticula 6 57 52 33 12 0 3 158 Fonte Minias P Włodarczyk R Meissner W 2018 Leukocyte profiles are associated with longevity and survival but not migratory effort a comparative analysis of shorebirds Functional Ecology 322 369378 Espécies Escore de Gordura Massa Corporal em g Heterófilos H Linfócitos L Eosinófilos Monócitos Basófilos Razão HL Calidris alpina 4 49 22 71 0 0 7 031 Calidris alpina 5 50 36 59 0 2 3 061 Arenaria interpres 3 105 49 40 0 2 9 123 Tringa nebularia 0 153 44 55 1 0 0 080 Tringa totanus 4 99 60 37 1 1 1 162 Tringa glareola 5 67 22 61 12 0 5 036 Calidris ferruginea 6 59 29 63 0 0 8 046 Arenaria interpres 4 96 39 52 3 2 4 075 Calidris alpina 3 45 68 27 3 1 1 252 Philomachus pugnax 5 151 60 26 7 1 6 231 Tringa totanus 1 96 26 35 35 1 3 074 Tringa glareola 4 69 36 46 10 0 8 078 Arenaria interpres 5 95 22 61 0 0 17 036 Vanellus vanellus 1 236 81 14 2 1 2 579 Tringa erythropus 5 133 20 62 13 0 5 032 Calidris ferruginea 5 58 41 51 1 0 7 080 Tringa erythropus 5 133 20 62 13 0 5 032 Vanellus vanellus 1 236 81 14 2 1 2 579 Charadrius hiaticula 5 59 34 58 7 1 0 059 Calidris minuta 6 29 37 55 2 0 6 067 Charadrius hiaticula 0 38 9 82 7 1 1 011 Pluvialis squatarola 0 183 25 71 0 0 4 035 Calidris alpina 5 58 27 64 4 1 4 042 Fonte Minias P Włodarczyk R Meissner W 2018 Leukocyte profiles are associated with longevity and survival but not migratory effort a comparative analysis of shorebirds Functional Ecology 322 369378 Espécies Escore de Gordura Massa Corporal em g Heterófilos H Linfócitos L Eosinófilos Monócitos Basófilos Razão HL Calidris alpina 3 49 41 54 1 0 4 076 Calidris alpina 3 47 24 62 2 5 7 039 Calidris alpina 2 48 37 57 0 1 5 065 Calidris ferruginea 3 53 29 63 0 1 7 046 Charadrius hiaticula 6 54 26 43 29 0 2 060 Tringa nebularia 5 156 63 33 1 0 3 191 Tringa glareola 3 54 23 53 15 2 7 043 Calidris minuta 4 23 68 23 0 1 8 296 Pluvialis squatarola 0 156 26 61 7 0 6 043 Philomachus pugnax 3 99 45 50 0 0 5 090 Arenaria interpres 1 85 30 58 8 1 3 052 Fonte Minias P Włodarczyk R Meissner W 2018 Leukocyte profiles are associated with longevity and survival but not migratory effort a comparative analysis of shorebirds Functional Ecology 322 369378 Capítulo II Análise Exploratória de Dados 21 Introdução Para recapitular brevemente a Estatística Descritiva no sentido amplo do termo é um ramo da estatística que tem por objetivo resumir descrever e apresentar uma série de valores ou um conjunto de dados sendo frequentemente o primeiro passo e uma parte importante em qualquer análise estatística pois permite verificar a qualidade dos dados e ajuda a entender os dados tendo uma visão geral clara dos mesmos Em estudos clínicos ela é frequentemente usada para descrever a distribuição de variáveis importantes como idade sexo índice de massa corporal e dados laboratoriais em pacientes que participam de estudos clínicos Essas informações são úteis para entender a população em estudo e podem ser usadas para tomar decisões informadas sobre o desenho do estudo e a análise dos resultados A Estatística Descritiva geralmente começa com a construção de tabelas e gráficos que apresentam as características dos dados em questão As tabelas podem apresentar medidas de tendência central como média e mediana bem como medidas de dispersão como o desvio padrão e a variação Gráficos como histogramas e box plots são frequentemente usados para visualizar a distribuição dos dados Além disso pode ser usada para identificar possíveis desvios e outliers nos dados Essas informações podem ser úteis para identificar pacientes que podem ter sido mal incluídos no estudo ou que possam ter tido resultados incomuns devido a fatores desconhecidos Outra aplicação importante é a análise de correlação que pode ser usada para avaliar a associação entre duas variáveis como idade e pressão arterial por exemplo 22 Elementos de uma Tabela Representar dados não é uma tarefa fácil mas a Bioestatística nos mostra uma ferramenta que pode simplificar que são as tabelas Uma tabela é uma representação tabular de dados que apresenta informações de forma organizada e estruturada Na área da saúde por exemplo as tabelas são comumente usadas em pesquisas clínicas e epidemiológicas para resumir e apresentar dados coletados durante um estudo Elas podem apresentar informações sobre as características dos pacientes resultados de exames tratamentos recebidos e outros aspectos relevantes para o estudo em questão Tabela XX Título respondendo as perguntas o quê onde e quando Coluna Indicadora Cabeçalho Conteúdo da Linha Corpo da Tabela Fonte Origem dos dados É importante que as tabelas sejam claras precisas e fáceis de ler para que os leitores possam entender facilmente as informações apresentadas As normas para a apresentação de tabelas em ciências da saúde geralmente são definidas pelas revistas científicas ou órgãos reguladores e devem ser seguidas para garantir a qualidade e integridade dos dados apresentados Mas no geral as seguintes normas são utilizadas Elementos Obrigatórios Título aponta o fenômeno época e local de ocorrência Cabeçalho aponta as variáveis da tabela Coluna Indicadora responsável pelos detalhes das linhas Corpo onde se aloca os dados Fonte cita o informante a origem dos dados Elementos Opcionais Notas esclarecem o conteúdo e indicam a metodologia adotada na obtenção ou elaboração da informação Chamadas clarificam pontos específicos da tabela não sendo necessariamente obrigatório 23 Distribuição de Frequências Quando trabalhamos com dados em geral não desejamos trabalhar com os dados brutos pois as dimensões podem ser gigantescas Neste caso podemos trabalhar com a distribuição de frequências que é uma ferramenta útil para resumir tais dados sejam eles qualitativos ou quantitativos Basicamente uma distribuição de frequências apresenta o número de vezes que cada valor de uma variável ocorre em um conjunto de dados Por exemplo se estamos analisando a idade de um grupo de pessoas uma distribuição de frequências irá mostrar quantas pessoas têm 18 anos quantas têm 19 anos quantas têm 20 anos e assim por diante Para sua construção seguimos as etapas 1 Etapa 1 Definir a natureza da variável de interesse Nesta etapa sabendo que as variáveis são classificadas em qualitativas e quantitativas devemos classificar a nossa variável de estudo pois sua natureza irá definir como a tabela de frequências se comporta isto é quais informações são necessárias para sua construção 2 Etapa 2 Definir as classes ou os intervalos de classe Nesta etapa se estivermos trabalhando com uma variável qualitativa as nossas classes serão definidas pelas categorias da variável em questão No entanto se estiver trabalhando com uma variável quantitativa as nossas classes serão definidas por intervalos que representam um conjunto de valores dessa variável Neste caso os intervalos de classe devem ser mutuamente exclusivos e abrangentes ou seja cada dado deve pertencer a um e apenas um intervalo de classe e todos os intervalos de classes devem cobrir todo o intervalo dos dados A escolha do número e tamanho dos intervalos de classes pode influenciar a interpretação dos resultados mas como regra geral é recomendado utilizar uma metodologia conhecida como Regra de Sturges para definir o número de classes A regra de Sturges é descrita pela equação em que é o número total de classes e é o tamanho da amostra Uma vez definido o número de classes precisamos também definir à amplitude da classe que nos diz o quão grande deve ser nosso intervalo de classe Tal amplitude é descrita matematicamente por 3 Etapa 3 Contar as ocorrências em cada classeintervalo Nesta etapa devemos contar o número de vezes que cada dado aparece em cada classe isto é determinar a frequência absoluta da classe ou intervalo de classe Vale lembrar que se um dado não pertence a nenhuma das classes ele é incluído na classe correspondente ao limite inferior do intervalo anterior 4 Etapa 4 Calcular as frequências relativas As frequências relativas são calculadas dividindo o número de ocorrências em cada classe pelo número total de dados isto é indicar a proporção de observações pertencentes a uma classe em relação ao total Geralmente é expressa em percentual 5 Etapa 5 Calcular as frequências acumuladas As frequências acumuladas F são calculadas somando as frequências relativas ou absolutas de todas as classes anteriores à classe em questão Em resumo a distribuição de frequências é uma técnica estatística fundamental para a análise de dados numéricos que permite organizar e apresentar os dados de forma clara e objetiva além de fornecer informações importantes sobre tendências e padrões nos dados Exemplo 1 Sabese que no Brasil as cinco doenças mais comuns são hipertensão arterial doença crônica que afeta cerca de 30 da população brasileira segundo dados do Ministério da Saúde diabetes mellitus estimase que cerca de 7 da população brasileira tenha diabetes pneumonia segundo o Ministério da Saúde a pneumonia é uma das principais causas de morte de crianças menores de 5 anos no país infarto do miocárdio é um das principais causas de morte no Brasil segundo dados do Ministério da Saúde e câncer que é a segunda causa de morte mais comum no país Neste contexto na Tabela 1 é ilustrado a frequência dessas doenças em uma determinada Unidade Básica de Saúde de uma grande cidade brasileira Com base nesses dados como se constrói uma tabela de frequências completa para resumir as informações da Tabela 1 k 1 3 3 logn k n h xmax xmin k fa fr fa n Tabela 1 Dados referentes às as cinco doenças mais comuns no Brasil em um determinado ano Doenças Diabetes Mellitus Diabetes Mellitus Câncer Hipertensão Arterial Câncer Pneumonia Diabetes Mellitus Pneumonia Diabetes Mellitus Infarto do Miocárdio Hipertensão Arterial Pneumonia Pneumonia Pneumonia Diabetes Mellitus Diabetes Mellitus Pneumonia Pneumonia Infarto do Miocárdio Diabetes Mellitus Hipertensão Arterial Infarto do Miocárdio Diabetes Mellitus Diabetes Mellitus Infarto do Miocárdio Hipertensão Arterial Diabetes Mellitus Pneumonia Infarto do Miocárdio Infarto do Miocárdio Hipertensão Arterial Câncer Diabetes Mellitus Infarto do Miocárdio Pneumonia Câncer Hipertensão Arterial Câncer Hipertensão Arterial Pneumonia Câncer Infarto do Miocárdio Hipertensão Arterial Câncer Câncer Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Solução Como nossa variável de interesse tipo de doença é uma variável qualitativa nominal não será necessário o uso de intervalos de classe uma vez que as classes serão as categorias dessa variável isto é serão os tipos de doença Neste caso a nossa distribuição de frequências será pela frequência absoluta frequência relativa e frequência relativa acumulada isto é Tabela 2 Distribuição de frequências referentes às as cinco doenças mais comuns no Brasil em um determinado ano Frequência Absoluta Frequência Relativa Frequência Relativa Acumulada Câncer 8 1778 1778 Diabetes Mellitus 11 2444 4222 Hipertensão Arterial 8 1778 6000 Infarto do Miocárdio 8 1778 7778 Pneumonia 10 2222 10000 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Uma outra alternativa para trabalhar com a distribuição de frequências de variáveis qualitativas é fazendo o uso de software estatísticos como por exemplo o R que é um software livre para computação estatística e gráfica Neste software para a construção da distribuição de frequências para variáveis qualitativas utilizase a função freq do pacote summarytools que retorna a distribuição de frequências desejada com os argumentos Freq frequência absoluta frequência relativa e Cum frequência relativa acumulada isto é Frequencies doencas Type Character Freq Cum Câncer 8 1778 1778 Diabetes Mellitus 11 2444 4222 Hipertensão Arterial 8 1778 6000 Infarto do Miocárdio 8 1778 7778 Pneumonia 10 2222 10000 Exemplo 2 Farhad Atassi 2002 realizou um estudo com 81 pacientes em diálise renal cujo o objetivo principal era avaliar a prática de cuidados bucais domiciliares e os motivos de procura por atendimento odontológico desses pacientes O estado de higiene oral de todos os pacientes foi examinado utilizando como medida um índice de placa com variação de 0 a 3 0 nenhum depósito de placa 3 uma abundância de depósito de placa A Tabela 3 mostra os escores do índice de placa para todos os 81 pacientes Com base na Tabela 3 quais seriam as respostas as seguitnes questões a A variável Escores do índice de Placa é uma variável quantitativa ou qualitativa b Quantos intervalos de classe são necessários para construir uma tabela de frequências b Qual é a amplitude de classe desses intervalos de classe c Qual seria a distribuição de frequências completa para estes dados Tabela 3 Dados amostrais referentes aos escores do índice de placas dos 81 pacientes em diálise renal no estudo de Atassi 2002 Escores 033 133 150 217 200 217 117 117 200 Fonte Atassi F 2002 Oral home care and the reasons for seeking dental care by individuals on renal dialysis J Contemp Dent Pract 32 3141 Instalação e leitura do pacote installpackagessummarytools librarysummarytools Leitura dos dados doencas cDiabetes Mellitus Infarto do Miocárdio Infarto do Miocárdio Pneumonia Hipertensão Arteria Diabetes Mellitus Hipertensão Arterial Diabetes Mellitus Infarto do Miocárdio Câncer C Pneumonia Hipertensão Arterial Infarto do Miocárdio Hipertensão Arterial Hipertensão Arte Pneumonia Infarto do Miocárdio Hipertensão Arterial Pneumonia Câncer Pneumonia Diab Câncer Câncer Pneumonia Diabetes Mellitus Diabetes Mellitus Diabetes Mellitus Infar Diabetes Mellitus Diabetes Mellitus Infarto do Miocárdio Infarto do Miocárdio Hipertensão Pneumonia Pneumonia Hipertensão Arterial Pneumonia Câncer Diabetes Mellitus Pneumon Diabetes Mellitus Câncer Câncer Uso da função freqx var NULL rounddigits stoptionsrounddigits order default totals stoptionsfreqtotals reportnas stoptionsfreqreportnas freqdoencas rounddigits 2 totals FALSE reportnas FALSE Escores 217 167 233 217 217 267 133 250 200 183 033 117 133 200 150 167 200 133 200 150 250 133 217 200 217 150 217 217 217 200 200 183 217 150 150 283 200 233 233 233 267 200 200 100 150 100 233 167 200 083 200 217 217 250 217 117 133 217 117 200 200 217 233 217 000 117 217 150 200 217 167 217 Fonte Atassi F 2002 Oral home care and the reasons for seeking dental care by individuals on renal dialysis J Contemp Dent Pract 32 3141 Solução a A nossa variável de interesse escores do índice de placa é uma variável quantitativa contínua e neste caso para a construção da distribuição de frequências é necessário o uso de intervalos de classe b Pela regra de Sturges temse que o número de intervalos de classes é descrito por Isto é são necessários 7 intervalos de classes c Para determinar a amplitude dos intervalos de classe temse que Isto é a amplitude de cada intervalo de classe tem aproximadamente 041 unidades d Como nossa variável de interesse escores do índice de placa é uma variável quantitativa contínua a distribuição de frequências neste caso será pela limite inferior e superior do intervalo de classe ponto médio do intervalo de classe frequência absoluta frequência relativa frequência absoluta acumulada e frequência relativa acumulada isto é Tabela 4 Distribuição de frequências referentes aos escores do índice de placas dos 81 pacientes em diálise renal no estudo de Atassi 2002 Limite Inferior Limite Superior Ponto Médio Frequência Absoluta Frequência Relativa Frequência Absoluta Acumulada Frequência Relativa Acumulada 000 041 020 3 37 3 37 041 082 062 0 00 3 37 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá k 1 3 3 log81 7 298 7 h 0 41 xmax xmin k 2 83 0 7 Limite Inferior Limite Superior Ponto Médio Frequência Absoluta Frequência Relativa Frequência Absoluta Acumulada Frequência Relativa Acumulada 082 123 102 9 111 12 148 123 164 144 14 173 26 321 164 205 185 23 284 49 605 205 246 226 26 321 75 926 246 287 266 6 74 81 1000 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Assim como no Exemplo 1 uma outra alternativa para trabalhar com a distribuição de frequências de variáveis quantitativas é fazendo o uso de software estatísticos como por exemplo o R Neste Caso para a construção da distribuição de frequências para variáveis quantitativas utilizase a função graphfreq e tablefreq do pacote agricolae que retorna a distribuição de frequências desejada com os argumentos Lower Limite Inferior Upper Limite Superior Main Ponto Médio Frequency Frequência Absoluta Percentage Frequência Relativa CF Frequência Absoluta Acumulada e CPF Frequência Relativa Acumulada isto é Instalação e leitura do pacote installpackagesagricolae libraryagricolae Leitura dos dados placa c033 217 183 200 217 200 100 217 217 133 167 033 150 217 233 233 117 0 150 233 117 250 200 233 167 133 117 217 217 133 133 200 233 200 217 2 200 217 200 217 183 267 083 117 150 217 267 150 200 217 200 200 200 2 117 133 167 217 150 200 217 200 217 117 250 200 150 150 100 217 217 1 200 200 133 217 283 150 250 233 217 Uso da função graphfreq graphfreqx breaksNULLcountsNULLfrequency1 plotTRUE nclassNULL xlabylabaxes las1 tab graphfreqplaca plot FALSE Uso da função tablefreq tablefreqobject printtablefreqtabrownamesFALSE Lower Upper Main Frequency Percentage CF CPF 000 041 0205 3 37 3 37 041 082 0615 0 00 3 37 082 123 1025 9 111 12 148 123 164 1435 14 173 26 321 164 205 1845 23 284 49 605 205 246 2255 26 321 75 926 246 287 2665 6 74 81 1000 24 Representações Gráficas Uma segunda maneira de resumir e exibir dados é por meio do uso de representações gráficas Em geral os gráficos devem ser projetados de modo que transmitam os padrões em um conjunto de observações em um único olhar todavia embora sejam mais fáceis de ler do que tabelas eles geralmente fornecem um grau menor de detalhes Existem muitos tipos diferentes de gráficos cada um projetado para atender a um propósito específico e apresentar dados de maneiras diferentes porém neste primeiro momento iremos trabalhar com os tipos clássicos que são gráfico de barras gráfico de setores gráfico de linhas e histograma 241 Gráfico de Barras O gráfico de barras é um tipo de visualização de dados comum que é usado para representar variáveis qualitativas eou variáveis quantitativas discretas Ele é composto por barras retangulares de comprimentos variáveis que são posicionadas em um eixo horizontal ou vertical O eixo horizontal é geralmente utilizado para exibir as categorias ou nomes dos itens sendo analisados enquanto o eixo vertical mostra os valores numéricos associados a cada categoria É importante que os valores sejam precisos e proporcionais às alturas das barras para que o gráfico seja interpretado corretamente Os gráficos de barras podem ser usados para comparar dados de diferentes categorias ou para mostrar mudanças ao longo do tempo Eles são particularmente úteis quando se deseja visualizar diferenças significativas entre as categorias Há vários tipos de gráficos de barras incluindo o gráfico de barras simples o gráfico de barras empilhadas e o gráfico de barras agrupadas No gráfico de barras simples cada barra representa uma única categoria ou item enquanto que no gráfico de barras empilhadas cada barra é dividida em segmentos que representam diferentes subcategorias Por fim no gráfico de barras agrupadas várias barras são agrupadas em grupos para permitir a comparação direta entre as categorias Figura 1 Gráfico de barras simples referente ao consumo de cigarros por pessoa com de 18 anos ou mais nos Estados Unidos no período de 19001990 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press No software R o gráfico de barras é obtido pela função barplot Para exemplificar iremos considerar a base de dados aos pacientes com insufiência cardíaca apresentada anteriormente Nosso objetivo é obter o gráfico de barras da variável Plaquetas que se refere ao número de plaquetas dos pacientes Observe que a escala do número de plaquetas é muito alta então por questões de melhor visualização iremos trabalhar com notação científica e apenas com 10 pacientes Logo Base de Dados dbheart1 dbheart110 Gráfico de barras da variável Pletelets parmar c3551 barplotdbheart1Plaquetas axes FALSE namesarg 110 xlab ID do Paciente main Gráfico de barras referente ao número de plaquetas dos pacientes com insufiência cardiáca ylim c0 350000 ylab Número de Plaquetas x 10³ cexlab 12 axisside 2 at seq0 350000 50000 labels seq0 350 50 las 1 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 242 Gráfico de Setores Os gráficos de setores apresentam as mesmas informações que os gráficos de barras mas na forma de um círculo ou pizza Neste tipo gráfico o círculo é dividido em fatias uma para cada categoria de dados e o tamanho de cada fatia é determinado pela sua medição angular Isto é uma vez que um círculo contém 360 uma fatia que contém por exemplo 50 dos casos teria uma medida angular de 180 Como regra geral se a fatia contém dos casos o ângulo para a fatia será proporcional à Uma das principais vantagens do gráfico de setores é que ele permite que as informações sejam visualmente organizadas em uma única figura facilitando a comparação e a análise dos dados Além disso as cores e rótulos podem ser usados para ajudar a enfatizar as informações mais importantes do gráfico No entanto o gráfico de setores também apresenta algumas limitações Ele pode não ser tão preciso quanto outros tipos de gráficos para comparar valores exatos entre as categorias Figura 2 Gráfico de setores referente as principais causas de morte nos Estados Unidos no ano de 2009 0 α 100 360º α Fonte Gordis L 2013 Epidemiology Elsevier Health Sciences No software R o gráfico de setores é obtido pela função pie Para exemplificar iremos considerar uma base de dados referente à distribuição dos trabalhadores da área da saúde em exposição direta à possibilidade de contágio pela Covid19 na região Nordeste Os dados neste caso são descritos pelo vetor prof Assim Base de Dados prof crepTecnico de Enfermagem 69844 repMedico 12570 repAuxiliar de Enfermagem 13087 repEnfermeiro 23997 repServiços de Apoio 30083 repOutros Profissionais 77362 Frequências Absolutas prof tableprof Frequências Relativas em Porcentagem profpercent round100profsumprof1 Nome das Categorias profnames cAuxiliar de Enfermagem Enfermeiro Médico Outros Profissionais Serviços de Apoio Técnico de Enfermagem Gráfico pieprof main Gráfico de Setores Relação dos trabalhadores em exposição direta à possibilidade de contágio pela C radius 1 labels pasteprofnames profpercent col 16 border white Fonte RAIS 2021 Relação Anual de Informações Sociais Brasília MTP STRAB SPPT CGCIPE 243 Gráfico de Linhas Os gráficos de linhas é um dos tipos mais comuns de gráficos utilizados em análises de dados sendo em geral utilizado para mostrar a variação de uma ou mais variáveis ao longo do tempo ou de uma outra variável quantitativa contínua Além disso é útil para visualizar tendências e padrõe permitindo identificar facilmente se a variável está crescendo decrescendo ou permanecendo constante ao longo do período analisado Neste tipo gráfico os dados são plotados como pontos em um plano cartesiano com eixos X e Y sendo o eixo X normalmente utilizado para representar o tempo ou a outra variável contínua e o eixo Y para representar os valores das variáveis Em seguida esses pontos são ligados por linhas retas mostrando a variação das variáveis ao longo do tempo ou da outra variável contínua Figura 3 Gráfico de linhas referente ao consumo de cigarros por pessoa com de 18 anos ou mais nos Estados Unidos no período de 19001990 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press No software R o gráfico de linhas é obtido pela função plot com argumento type o Para exemplificar considere uma base de dados referentes a COVID19 denominada dbcovid A COVID19 é uma doença infecciosa causada pelo coronavírus SARSCoV2 e tem como principais sintomas febre cansaço e tosse seca Em 26 de novembro de 2021 a OMS designou a variante da COVID19 B11529 como uma variante de preocupação denominada Ômicron Essa variante apresenta um grande número de mutações algumas das quais preocupantes As outras variantes de preocupação ainda estão em circulação e são Alfa Beta Gama e Delta Então para ilustrar nosso gráfico de linhas consideremos o número de mortes por COVID19 nos 15 dias finais do mês de outubro de 2021 no Brasil Base de Dados data asDatec20211016 20211017 20211018 20211019 20211020 20211021 20211022 20211023 20211024 20211025 20211026 20211027 20211028 20211029 20211030 mortes c465128202379399403447350119207403435373408216 dbcovid dataframedata mortes namesdbcovid cData Mortes Gráfico parmar c6411 plotx dbcovidData y dbcovidMortes type o lwd 2 pch 19 axes FALSE ylab Número de Mortes por COVID19 xlab Data main Gráfico de Linhas Mortes por COVID19 em outubro de 2021 no Brasil axis1 at data labels data axis2 at roundseqminmortes maxmortes lengthout 60 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá 244 Histograma Talvez o tipo de gráfico mais usado seja o histograma Enquanto um gráfico de barras é uma representação de uma distribuição de frequência para dados nominais ou ordinais um histograma descreve uma distribuição de frequência para dados agrupados em classes Para a construção do histograma note que o eixo horizontal representa os intervalos de classe enquanto o eixo vertical representa a frequência ou a densidade de frequência de cada intervalo Os intervalos de classe podem ter larguras iguais ou desiguais dependendo da distribuição dos dados Figura 4 Histograma referente aos valores do volume corpuscular médio VCM para um grupo de pacientes com anemia Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá No software R este gráfico é obtido pela função hist Para exemplificar iremos considerar a base de dados aos pacientes com insufiência cardíaca apresentada anteriormente Nosso objetivo é obter o gráfico de barras da variável Sódio que se refere aos níveis de sódio dos pacientes Logo Base de dados setwddatasets dbheart2 readcsvdataset4heartcsv header TRUE sep Histograma dos níveis de sódio parmar c6411 histdbheart2Sodium main xlab Níveis de Sódio mEqL ylab Frequêcia Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 25 Medidas Descritivas Embora tabelas de frequência e gráficos nos forneçam resumos descritivos úteis eles não são completos Em certas situações por exemplo temos por interesse resumir os dados brutos por meio de certos valores numéricos que na Estatística são denominados medidas descritivas que são ferramentas estatísticas utilizadas para resumir e descrever um conjunto de dados Essas medidas são classificadas essencialmente em três grupos Posição ponto em torno do qual se concentram os dados Dispersão aponta o grau de variabilidade dos dados Associação síntese da relação entre duas variáveis Na área da saúde por exemplo uma das medidas descritivas mais comuns é a média que é frequentemente utilizada para resumir dados de resultados de exames laboratoriais como colesterol glicose creatinina entre outros A média também é amplamente utilizada para descrever a evolução temporal de dados clínicos como a pressão arterial a frequência cardíaca e o peso corporal No entanto é importante lembrar que as medidas descritivas têm limitações e não fornecem informações completas sobre a distribuição dos dados Portanto elas devem ser usadas em conjunto com outras ferramentas estatísticas como testes de hipóteses e modelos de regressão para uma análise mais completa e precisa dos dados clínicos e epidemiológicos 251 Medidas de Posição As medidas de posição representam por definição estatística a tendência das observações de um conjunto de dados de se agruparem ou centralizarem em torno de seu ponto central ou do ponto no qual tais observações estão condensadas Isto é estas medidas tem por objetivo identificar onde estão localizados os valores mais representativos em um conjunto de dados fornecendo informações úteis sobre a tendência central dos dados Dentre tais medidas destacamse a média amostral as médias móveis a moda a mediana 2511 Média Amostral A média ou média aritmética é a mais popular das medidas descritivas sendo utilizada para resumir os dados em uma amostra ou população e simoblizando medida de tendência central que representa o valor mais comum ou típico na distribuição dos dados Matematicamente ela é definida como a soma de todos os valores observados dividida pelo número de observações isto é Na área da saúde a média pode ser usada para analisar a eficácia de um tratamento em um grupo de pacientes Por exemplo se uma nova terapia é introduzida para tratar uma determinada condição os médicos podem comparar a média dos resultados dos pacientes que receberam a terapia com a média dos resultados dos pacientes que receberam o tratamento padrão Além disso a média também pode ser útil para monitorar tendências em um conjunto de dados ao longo do tempo Por exemplo as médias dos níveis de glicose no sangue em pacientes com diabetes podem ser monitoradas ao longo de vários meses ou anos para avaliar a eficácia do tratamento e identificar possíveis flutuações No entanto é importante notar que a média pode ser influenciada por valores extremos ou atípicos chamados de outliers na amostra o que pode distorcer a interpretação dos resultados Exemplo A espirometria do latim spirare respirar metrum medida é a medida do ar que entra e sai dos pulmões podendo ser realizada durante respiração lenta ou durante manobras expiratórias forçadas Tal medida é conhecida por Volume Expiratório Forçado VEF Neste aspecto considere um estudo com objetivo de examinar a resposta à inalação de ozônio e dióxido de enxofre entre adolescentes que sofrem de asma Os dados referentes as medidas iniciais do VEF em 1 segundo para os 14 pacientes do estudo são exibidos na Tabela 5 Com base nessa tabela qual seria o valor da média para a variável VEF O que isso significa na prática Tabela 5 Dados amostrais referentes as medidas iniciais do VEF em 1 segundo para os 14 pacientes do estudo ID do Paciente VEF em litros ID do Paciente VEF em litros 1 230 8 225 2 215 9 268 3 350 10 300 4 260 11 402 5 275 12 285 6 282 13 338 7 405 14 420 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press Solução Neste caso partindo do conceito de média temse que Portanto concluise para esta amostra que o volume de ar exalado no primeiro segundo durante a manobra forçada é em média 304 litros De acordo com a literatura esperase que o valor de VEF seja ao menos de 4 litros Então ao comparamos com nosso resultado sugerese que esta amostra tem potencial para uma possível doença pulmonar obstrutiva crônica DPOC uma vez que a média obtida é abaixo do que se espera x x i1 n xi n 3 04 x i1 n xi n 2 30 2 15 3 38 4 20 14 No R a média pode ser facilmente calculada pela função mean Para o nosso exemplo temos que 1 3039286 Observação Se houver pelo menos um valor ausente no conjunto de dados utilize meanvef narm TRUE para calcular a média com o NA excluído Média Amostral para Dados Agrupados em Tabelas de Frequência Agora suponha que nossos dados são agrupados em uma tabela de frequências em intervalos de classe Neste caso o cálculo da média é um pouco diferente do habitual e passa a ser calculada seguindo a equação onde representa a frequência absoluta da classe representa o ponto médio do intervalo de classe que é descrito por onde representa a respectiva classe e e são os limites da classe Em termos práticos podemos traduzir essa equação da média comomultiplicase cada valor do ponto médio da classe pela frequência de cada classe e soma se cada resultado Em seguida dividimos o valor obtido pela soma das frequências de cada classe Exemplo A insuficiência cardíaca é uma síndrome clínica caracterizada pela incapacidade do coração de atuar adequadamente como bomba quer seja por déficit de contração eou de relaxamento comprometendo o funcionamento do organismo e quando não tratada adequadamente reduzindo a qualidade de vida e a sobrevida Neste contexto considere a tabela de frequências referente a variável referente aos valores de CPK de 299 pacientes admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 ilustrada na Tabela 6 Com base nessa tabela quais seriam o valor da média Como interpretamos esse valor Tabela 6 Distribuição de frequências referentes aos valores de CPK dos pacientes com insuficiência cardíaca que foram admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 CPK Limite Inferior Limite Superior Ponto Médio Frequência Absoluta Frequência Relativa Frequência Absoluta Acumulada Frequência Relativa Acumulada Base de Dados setwddatasets dbvef readcsvdataset8vefcsv header TRUE sep namesdbvef cID do Paciente VEF em litros ID do Paciente VEF em litros vef cdbvef2dbvef4 Uso da função meanx narm FALSE meanvef xa n i1 faixci n i1 fai fai xci xci Li li 2 ci li Li CPK Limite Inferior Limite Superior Ponto Médio Frequência Absoluta Frequência Relativa Frequência Absoluta Acumulada Frequência Relativa Acumulada 20 892 456 255 853 255 853 892 1764 1328 20 67 275 920 1764 2636 2200 14 47 289 967 2636 3508 3072 3 10 292 977 3508 4380 3944 2 07 294 983 4380 5252 4816 2 07 296 990 5252 6124 5688 1 03 297 993 6124 6996 6560 0 00 297 993 6996 7868 7432 2 07 299 1000 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Solução Neste caso partindo do conceito de média para dados agrupados temse que Logo concluise para esta amostra de pacientes que o valor médio da creatinafosfoquinase CPK é de 73889 UL que é praticamente quatro vezes maior que a faixa de referência de 32 a 294 UL para homens e de 33 a 211 UL para mulheres Em termos clínicos essa enzima quando fora do valor de referência pode ser um marcador de infarto do miocárdio miocardite hipertermia e distrofia muscular Portanto comparando a média obtida e os valores de referência para homens e mulheres observase que o valor elevado se justifica como marcador de infarto do miocárdio uma vez que estamos trabalhando com pacientes que foram admitidos ao hospital com insuficiência cárdiaca No R neste caso não há uma função pronta para o cálculo da média para dados agrupados sendo necessário implentar a mesma Considerando o nosso exemplo então podemos obter a média da variável CPK definida em uma tabela de frequências em intervalos de classe pela rotina 738 89 xa n i1 faixci n i1 fai 456 255 7432 2 255 2 1 7388896 2512 Médias Móveis Em termos estatísticos a média móvel é uma técnica de suavização de dados que calcula a média de um conjunto de observações sequenciais ao longo do tempo utilizando um intervalo móvel Isso significa que em vez de utilizar a média dos dados brutos a média móvel é calculada com base nos valores mais recentes de um período específico Existem diferentes tipos de médias móveis incluindo a média móvel simples SMA e a média móvel exponencial EMA A média móvel simples calcula a média dos valores de uma série temporal para um período específico enquanto a média móvel exponencial dá mais peso aos valores mais recentes o que a torna mais sensível a mudanças repentinas nos dados Neste texto iremos trabalhar apenas com as médias móveis simples que são dadas matematicamente por em que é o valor previsto no período da série é o valor atual no período da série e é o período desejado Por exemplo se quisermos calcular a média móvel de uma variável em um período de 5 dias podemos traduzir o cálculo pela equação acima da seguinte forma ou Na área da saúde por exemplo as médias móveis são utlizadas para monitorar e analisar dados epidemiológicos e estatísticas de saúde com objetivo de determinar a tendência ou direção de uma determinada variável ao longo do tempo Por exemplo as médias móveis podem ser usadas para monitorar a propagação de uma doença infecciosa como a COVID19 As autoridades de saúde pública podem calcular a média móvel de novos casos ou mortes a cada dia ou semana o que permite identificar se a doença está se espalhando mais rapidamente ou desacelerando em uma determinada região Base de Dados setwddatasets dbheart4 readcsvdataset4heartcsv header TRUE sep Carregar Pacote libraryagricolae Cálculo da Média Agrupada mediaagrupada functionx tab tablefreqgraphfreqx plot FALSE media sumtabMain tabFrequencysumtabFrequency returnmedia mediaagrupadadbheart4CPK Yt1 Yt Yt1 Ytk1 k Yt1 t 1 Yt t k Média móvel de 5 dias Valor do dia atual Valor do dia anterior Valor de 4 dias antes 5 Y6 Y5 Y4 Y3 Y2 Y1 5 Exemplo A COVID19 é uma doença infecciosa causada pelo coronavírus SARSCoV2 e tem como principais sintomas febre cansaço e tosse seca Em 26 de novembro de 2021 a OMS designou a variante da COVID19 B11529 como uma variante de preocupação denominada Ômicron Essa variante apresenta um grande número de mutações algumas das quais preocupantes As outras variantes de preocupação ainda estão em circulação e são Alfa Beta Gama e Delta Com base neste contexto considere o número de mortes por COVID19 nos 15 dias finais do mês de outubro de 2021 no Brasil ilutrados na Tabela 7 Considerando um período de 3 dias qual seria a média móvel E considerando 7 dias Tabela 7 Dados amostrais referentes ao número de mortes por COVID19 nos 15 dias finais do mês de outubro de 2021 no Brasil Data Mortes 20211016 465 20211017 128 20211018 202 20211019 379 20211020 399 20211021 403 20211022 447 20211023 350 20211024 119 20211025 207 20211026 403 20211027 435 20211028 373 20211029 408 20211030 216 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Solução Considerando dias temos que as médias móveis do número de mortes por COVID19 MA3 serão descritas pela equação isto é para o dia 19 de outubro de 2021 temos por exemplo que Seguindo esse procedimento obtemos os seguintes valores para as médias móveis do número de mortes por COVID19 assumindo um período de 3 dias Tabela 8 Médias móveis de ordem 3 para o número de mortes por COVID19 nos 15 dias finais do mês de outubro de 2021 no Brasil Data Mortes Médias Móveis de 3 Dias 20211016 465 20211017 128 20211018 202 20211019 379 265 20211020 399 23633 20211021 403 32667 20211022 447 39367 20211023 350 41633 20211024 119 400 20211025 207 30533 20211026 403 22533 20211027 435 243 20211028 373 34833 20211029 408 40367 20211030 216 40533 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá k 3 Y4 Y3 Y2 Y1 3 265 Y4 202 128 465 3 Por outro lado considerando agora dias temos que as médias móveis do número de mortes por COVID19 MA7 serão descritas pela equação isto é para o dia 23 de outubro de 2021 temos por exemplo que Seguindo esse procedimento obtemos os seguintes valores para as médias móveis do número de mortes por COVID19 assumindo um período de 7 dias Tabela 9 Médias móveis de ordem 3 e 7 para o número de mortes por COVID19 nos 15 dias finais do mês de outubro de 2021 no Brasil Data Mortes Médias Móveis de 3 Dias Médias Móveis de 7 Dias 20211016 465 20211017 128 20211018 202 20211019 379 265 20211020 399 23633 20211021 403 32667 20211022 447 39367 20211023 350 41633 34614 20211024 119 400 32971 20211025 207 30533 32843 20211026 403 22533 32914 20211027 435 243 33257 20211028 373 34833 33771 20211029 408 40367 33343 20211030 216 40533 32786 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Comparando ambos os resultados obtidos observase que a MA3 está em geral acima da MA7 indicando um aumento na incidência de mortes de COVID19 nessa região o que pode sugerir que medidas de controle devem ser tomadas para prevenir sua propagação Por outro lado se a MA3 estivese em geral abaixo da MA7 isso k 7 Y8 Y7 Y6 Y5 Y4 Y3 Y2 Y1 7 346 14 Y8 447 403 399 379 202 128 465 3 poderia indicar uma diminuição na incidência de mortes por COVID19 nessa região o que poderia sugerir que as medidas de controle estão funcionando e que a situação está sob controle No R as médias móveis pode ser facilmente calculada pela função rollmean do pacote zoo Para o nosso exemplo temos que mortes medias3 1 465 NA 2 128 NA 3 202 NA 4 379 2650000 5 399 2363333 6 403 3266667 7 447 3936667 8 350 4163333 9 119 4000000 10 207 3053333 11 403 2253333 12 435 2430000 13 373 3483333 14 408 4036667 15 216 4053333 16 465 3323333 Instalação e leitura do pacote installpackageszoo suppressPackageStartupMessageslibraryzoo Base de Dados mortes c465128202379399403447350119207403435373408216 Uso da função rollmeanx k fill if napad NA napad FALSE align ccenter left right Para período de 3 dias medias3 cNA NA NA rollmeanmortes 3 tabelamedia3 suppressWarningscbindmortes medias3 tabelamedia3 Para período de 7 dias medias7 cNA NA NA NA NA NA NA rollmeanmortes 7 tabelamedia3e7 suppressWarningscbindmortes medias3 medias7 tabelamedia3e7 mortes medias3 medias7 1 465 NA NA 2 128 NA NA 3 202 NA NA 4 379 2650000 NA 5 399 2363333 NA 6 403 3266667 NA 7 447 3936667 NA 8 350 4163333 3461429 9 119 4000000 3297143 10 207 3053333 3284286 11 403 2253333 3291429 12 435 2430000 3325714 13 373 3483333 3377143 14 408 4036667 3334286 15 216 4053333 3278571 16 465 3323333 3087143 2513 Mediana A mediana é uma medida de posição que representa o valor central de um conjunto de dados ordenados ou seja a metade dos valores são maiores do que a mediana e a outra metade dos valores são menores do que a mediana Diferente da média a mediana é especialmente útil quando se trata de dados que apresentam valores discrepantes outliers pois ela não é afetada por esses valores Isso pode ser importante em pesquisas médicas onde a presença de um valor atípico pode distorcer as conclusões do estudo Para seu cálculo devemos seguir os seguintes passos 1º Passo Ordenar as observações em ordem crescente ou decrescente 2º Passo Determinar o número de observações da base de dados Se tal número for ímpar a mediana será a posição central Mas se tal número for par a mediana será dada pela média das duas posições centrais Na prática clínica a mediana pode ser usada para descrever o tempo de recuperação de pacientes ou a duração da hospitalização isto é a mediana do tempo de recuperação pode ser usada para informar os pacientes sobre quanto tempo levará para que a maioria dos pacientes se recupere após uma cirurgia ou tratamento Outro exemplo de seu uso é na análise da eficácia de um tratamento em um grupo de pacientes Neste caso se a mediana do tempo de sobrevivência de pacientes com uma determinada doença aumenta após o tratamento isso pode indicar que o tratamento está sendo eficaz Exemplo O chumbo integra grupo de elementos químicos conhecidos como metais pesados de grande força tóxica que produzem doenças devastadoras e mortes em seres vivos Em humanos a acumulação de chumbo no organismo pode afetar severamente as funções cerebrais sangue rins sistema digestivo e reprodutor inclusive com possibilidade de produzir mutações genéticas em descendentes Os dados de um determinado estudo com a finalidade de avaliar os níveis de chumbo no sangue após uma exposição ao chumbo de 40 trabalhadores de uma determinada metalúrgica são exibidos na Tabela 10 Com base nessa tabela qual seria o valor da mediana para estes dados E qual seria a interpretação desse valor Tabela 10 Dados amostrais referentes aos níveis de chumbo no sangue de 40 trabalhadores de uma determinada metalúrgica Níveis de Chumbo µgdl 3984 4007 3979 4004 4011 4011 4010 3991 4002 3995 4004 4008 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press x Níveis de Chumbo µgdl 4008 4015 4005 4003 3999 3994 4004 4008 3994 3984 3993 4022 3999 4002 4004 3980 4018 4007 3981 3989 3988 3996 4004 3993 4007 4006 3987 3991 4019 3996 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press Solução Para iniciar vamos ordenar nossos dados em ordem crescente isto é Tabela 11 Dados amostrais referentes aos níveis de chumbo no sangue de 40 trabalhadores de uma determinada metalúrgica Níveis de Chumbo µgdl 3979 3989 3995 4003 4006 4010 3980 3991 3996 4004 4007 4011 3981 3991 3996 4004 4007 4011 3984 3993 3999 4004 4007 4015 3984 3993 3999 4004 4008 4018 3987 3994 4002 4004 4008 4019 3988 3994 4002 4005 4008 4022 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press Logo como o número de observações é par a nossa mediana será a média entre as duas observações centrais isto é Assim podese dizer que o nível mediano de chumbo em µgdl nesta amostra é de 40025 µgdl que é cerca de duas vezes maior que os valores de referência para o corpo humano 25 mgdl Portanto podese sugerir que esta amostra tem grande potencial envenenamento por chumbo que causa em geral à artrite gotosa gota No R a mediana pode ser facilmente calculada pela função median Para o nosso exemplo temos que 40 025 x 40 02 40 03 2 1 40025 Mediana para Dados Agrupados em Tabelas de Frequência Assim como a média se os dados são agrupados em classes a mediana também tem seu cálculo realizado de forma diferente do habitual Neste caso é calculada seguindo as etapas 1 identificar a classe que apresenta a posição central dos dados 2 calcular a mediana pela equação em que indica a posição central representa a classe é o limite inferior é amplitude e é a frequência absoluta da classe Exemplo A insuficiência cardíaca é uma síndrome clínica caracterizada pela incapacidade do coração de atuar adequadamente como bomba quer seja por déficit de contração eou de relaxamento comprometendo o funcionamento do organismo e quando não tratada adequadamente reduzindo a qualidade de vida e a sobrevida Neste contexto considere a tabela de frequências referente a variável referente aos valores de CPK de 299 pacientes admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 ilustrada na Tabela 12 Com base nessa tabela quais seriam o valor da média Como interpretamos esse valor Tabela 12 Distribuição de frequências referentes aos valores de CPK dos pacientes com insuficiência cardíaca que foram admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 CPK Limite Inferior Limite Superior Ponto Médio Frequência Absoluta Frequência Relativa Frequência Absoluta Acumulada Frequência Relativa Acumulada 20 892 456 255 853 255 853 892 1764 1328 20 67 275 920 1764 2636 2200 14 47 289 967 2636 3508 3072 3 10 292 977 3508 4380 3944 2 07 294 983 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Base de Dados chumbo dbchumbo1 Uso da função medianx narm FALSE medianchumbo xa li hk Fai1 Fai k n 2 i li h fai CPK Limite Inferior Limite Superior Ponto Médio Frequência Absoluta Frequência Relativa Frequência Absoluta Acumulada Frequência Relativa Acumulada 4380 5252 4816 2 07 296 990 5252 6124 5688 1 03 297 993 6124 6996 6560 0 00 297 993 6996 7868 7432 2 07 299 1000 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Solução Neste caso partindo do conceito de mediana para dados agrupados observase que a classe da mediana será descrita pelo primeiro intervalo de classe uma vez que Assim o valor da mediana é descrito por Logo concluise para esta amostra de pacientes que o valor mediano da creatinafosfoquinase CPK é de 53123 UL que embora menor que a média 73889 UL ainda é duas vezes maior que a faixa de referência de 32 a 294 UL para homens e de 33 a 211 UL para mulheres Portanto chegamos a mesma conclusão que anteriormente isto é o valor elevado se justifica como marcador de infarto do miocárdio uma vez que estamos trabalhando com pacientes que foram admitidos ao hospital com insuficiência cárdiaca No R neste caso não há uma função pronta para o cálculo da mediana para dados agrupados sendo necessário implentar a mesma Considerando o nosso exemplo então podemos obter a mediana da variável CPK definida em uma tabela de frequências em intervalos de classe pela rotina k 299 149 5 255 2 Fac1 20 531 23 xa li hk Fai1 Fai 872 149 5 0 255 1 5312314 2514 Moda A moda é uma medida de tendência central que representa o valor mais comum em um conjunto de dados Em Ciências da Saúde por exemplo a moda pode ser utilizada para para identificar a doença mais frequente em uma determinada população permitindo direcionar esforços de prevenção e tratamento ou para identificar os medicamentos mais prescritos ou as causas de morte mais frequentes em uma determinada região ou população auxiliando na gestão de recursos e planejamento de políticas públicas de saúde Exemplo Em Massachusetts doze indivíduos experimentaram um episódio inexplicável de intoxicação por vitamina D que exigiu hospitalização pensavase que essas ocorrências incomuns poderiam ser o resultado da suplementação excessiva de leite Sendo assim foi realizado um estudo para investigar tais ocorrências Os dados referentes aos níveis sanguíneos de cálcio e albumina um tipo de proteína para cada indivíduo no momento da admissão hospitalar são fornecidos na Tabela 13 Considerando as variáveis níveis sanguíneos de cálcio e albumina quais seriam os valores para a moda neste caso E como interpretamos esses valores Tabela 13 Dados amostrais referentes aos níveis sanguíneos de cálcio e albumina para os 12 indivíduos com intoxicação por vitamina D Calcio mmoll Albumina gl Calcio mmoll Albumina gl 292 43 374 34 384 42 344 42 Fonte Daniel W W Cross C L 2018 Biostatistics A Foundation for Analysis in the Health Sciences Wiley Base de Dados setwddatasets dbheart4 readcsvdataset4heartcsv header TRUE sep Carregar Pacote libraryagricolae Cálculo da Média Agrupada medianaagrupada functionx tab tablefreqgraphfreqx plot FALSE h mintabUpper mintabLower Amplitude k sumtabFrequency2 Posição Central li tabLowerminwhichtabCPF 500 Limite Inferior Classe da Mediana Fa1 ifelseli tabLower1 0 tabLowerminwhichtabCPF 500 Frequência Acumulada Anterior Fa tabCFminwhichtabCPF 500 Frequêncua Acumulada Classe da Mediana mediana li h k Fa1Fa returnmediana medianaagrupadadbheart4CPK xm Calcio mmoll Albumina gl Calcio mmoll Albumina gl 237 42 267 34 299 40 292 35 292 42 297 44 317 38 384 42 Fonte Daniel W W Cross C L 2018 Biostatistics A Foundation for Analysis in the Health Sciences Wiley Solução Neste caso partindo do conceito de moda temse para a variável cálcio que mmolL e para a variável albumina temse que gL De acordo com a literatura esperase que níveis de cálcio estejam entre 220 a 260 mmolL enquanto que os de albumina estejam entre 35 a 50 gL Então ao comparamos com os nossos resultados observase que o valor mais frequente nesta amostra está fora da normalidade apenas para o nível de cálcio que pode ser um indicativo de que há presença de alterações hormonais que podem estar ligadas ao hipertireoidismo ou ao câncer por exemplo No R não há uma função para encontrar a moda de um conjunto de dados Para resolver essa questão podemos trabalhar com duas funções de suma importância as funções table e sort Neste caso a função table fornece o número de ocorrências para cada valor exclusivo e em seguida a função sort com o argumento decreasing TRUE exibe o número de ocorrências do maior para o menor Para o nosso exemplo temos que calcio 292 384 237 267 297 299 317 344 374 3 2 1 1 1 1 1 1 1 2 92 xm 42 xm Base de Dados setwddatasets dbcalcio readcsvdataset9calciocsv header TRUE sep namesdbcalcio cCalcio mmoll Albumina gl Calcio mmoll Albumina gl calcio cdbcalcio1dbcalcio3 albumina cdbcalcio2dbcalcio4 Uso da função table table exclude if useNA no cNA NaN useNA cno ifany always dnn listnames deparselevel 1 tab1 tablecalcio Frequência das observações tab2 tablealbumina Frequência das observações Uso da função sort sortx decreasing FALSE sorttab1 decreasing TRUE Ordena do maior para o menor albumina 42 34 35 38 40 43 44 5 2 1 1 1 1 1 Moda para Dados Agrupados em Tabelas de Frequência Assim como a média e a mediana se os dados são agrupados em classes a moda também tem seu cálculo realizado de forma diferente do habitual Neste caso a moda é calculada seguindo as etapas 1 identificar a classe que apresenta a maior frequência 2 calcular a moda pela equação em que representa a classe é o limite inferior da classe é amplitude da classe e é a frequência absoluta da classe Exemplo A insuficiência cardíaca é uma síndrome clínica caracterizada pela incapacidade do coração de atuar adequadamente como bomba quer seja por déficit de contração eou de relaxamento comprometendo o funcionamento do organismo e quando não tratada adequadamente reduzindo a qualidade de vida e a sobrevida Neste contexto considere a tabela de frequências referente a variável referente aos valores de CPK de 299 pacientes admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 ilustrada na Tabela 14 Com base nessa tabela quais seriam o valor da média Como interpretamos esse valor Tabela 14 Distribuição de frequências referentes aos valores de CPK dos pacientes com insuficiência cardíaca que foram admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 CPK Limite Inferior Limite Superior Ponto Médio Frequência Absoluta Frequência Relativa Frequência Absoluta Acumulada Frequência Relativa Acumulada 20 892 456 255 853 255 853 892 1764 1328 20 67 275 920 1764 2636 2200 14 47 289 967 2636 3508 3072 3 10 292 977 3508 4380 3944 2 07 294 983 4380 5252 4816 2 07 296 990 5252 6124 5688 1 03 297 993 6124 6996 6560 0 00 297 993 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 sorttab2 decreasing TRUE Ordena do maior para o menor xma li h fai faii fai faii fai faii i li h fai CPK Limite Inferior Limite Superior Ponto Médio Frequência Absoluta Frequência Relativa Frequência Absoluta Acumulada Frequência Relativa Acumulada 6996 7868 7432 2 07 299 1000 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Solução Neste caso partindo do conceito de moda para dados agrupados observase que a classe modal será descrita pelo primeiro intervalo de classe uma vez que o mesmo tem o maior valor para a frequência absoluta Assim o valor da moda neste caso é descrito por Logo concluise para esta amostra de pacientes que o valor mais frequente da creatinafosfoquinase CPK é de 47380 UL que embora menor que a média 73889 UL e a mediana 53123 UL ainda é maior que a faixa de referência de 32 a 294 UL para homens e de 33 a 211 UL para mulheres Portanto chegamos a mesma conclusão que anteriormente isto é o valor elevado se justifica como marcador de infarto do miocárdio uma vez que estamos trabalhando com pacientes que foram admitidos ao hospital com insuficiência cárdiaca No R neste caso não há uma função pronta para o cálculo da moda para dados agrupados sendo necessário implentar a mesma Considerando o nosso exemplo então podemos obter a moda da variável CPK definida em uma tabela de frequências em intervalos de classe pela rotina 20 473 80 xma li h fai faii fai faii fai faii 872 255 0 255 0 255 20 Base de Dados setwddatasets dbheart4 readcsvdataset4heartcsv header TRUE sep Carregar Pacote libraryagricolae Cálculo da Média Agrupada modaagrupada functionx tab tablefreqgraphfreqx plot FALSE h mintabUpper mintabLower Amplitude li tabLowerwhichmaxtabFrequency Limite Inferior Classe Modal fa1 ifelseli tabLower1 0 tabFrequencywhichmaxtabFrequency 1 Frequência Absoluta Ante fa2 tabFrequencywhichmaxtabFrequency 1 Frequência Absoluta Posterior a Classe Modal fa tabFrequencywhichmaxtabFrequency Frequêncua Absoluta Classe Modal moda li h fa fa1fa fa1 fa fa2 returnmoda modaagrupadadbheart4CPK 1 4737959 252 Medidas de Dispersão As medidas de dispersão transmitem por definição estatística informações a respeito da quantidade de variabilidade presente em um conjunto de dados sendo utilizadas em conjunto com as medidas de posição ou tendência central em algumas literaturas Na área da saúde por exemplo estas medidas podem ser utilizadas para comparar a variabilidade dos resultados de diferentes tratamentos em um determinado grupo de pacientes ajudando a avaliar a eficácia de cada tratamento Dentre as medidas de dispersão neste texto iremos trabalhar com a amplitude interquartil a variância o desviopadrão e o coeficiente de variação 2521 Amplitude Interquartil O primeiro conceito que devemos definir nessa seção é o conceito de quartis Os quartis tem por objetivo dividir uma série de observações de uma variável de um conjunto de dados em quatro partes iguais e são denominados 1º quartil 25 2º quartil ou mediana 50 e 3º quartil 75 Para se calcular tais quartis seguimos o mesmo procedimento de cálculo da mediana No entanto há um critério de ordem para os cálculos Isto é primeiro calculase ou mediana Em seguida usando o mesmo método aplicado para e por fim calculase pelo mesmo método A partir desse conceito dos quartis estamos aptos a definir a primeira medida de dispersão do nosso estudo que é a amplitude interquartil A amplitude interquartil de um conjunto em Estatística é a diferença entre o terceiro e o primeiro quartil isto é Uma das aplicações dessa medida na pesquisa clínica é na análise de dados de monitoramento em que a pode ser utilizada para avaliar a variabilidade das medidas de monitoramento em um conjunto de dados permitindo uma análise mais precisa dos dados e identificação de tendências de evolução da doença ou do tratamento ao longo do tempo Outro ponto importante sobre essa medida é que diferente da amplitude usual máximo mínimo ela é mais estável pois não considera valores mais extremos Além de uma melhor estabilidade a amplitude interquartil também nos traz uma informação importante sobre os dados que são os outliers Os outliers são definidos como valores atípicos das observações de uma variável Sendo assim uma observação será um outlier inferior se e será um outlier superior se Exemplo Hoekema et al 2003 estudaram a morfologia craniofacial de 18 pacientes do sexo masculino com síndrome da apneia obstrutiva do sono SAOS Uma das variáveis de interesse foi o comprimento do ponto mais súperoanterior do corpo do osso hióide até a horizontal de Frankfurt Os dados do estudo são fornecidos na Tabela 15 Com base nesta tabela quais seriam as respostas das seguintes questões a A variável comprimento do osso hióide para pacientes saúdaveis e com SAOS é uma variável quantitativa ou qualitativa b Quais seriam os valores do comprimento do osso hióide para pacientes saúdaveis e com SAOS para o 1º e 3º quartil Q1 Q2 Q3 Q2 Q1 Q2 Q3 AQ AQ Q3 Q1 AQ xi 1 5 xi Q1 AQ 1 5 xi Q3 AQ c Qual seria o valor da amplitude interquartil do comprimento do osso hióide para pacientes saúdaveis e com SAOS dessa amostra d Há presença de outliers isto é valores atípicos para ambos os tipos de pacientes Tabela 15 Dados amostrais referentes ao comprimento do ponto mais súperoanterior do corpo do osso hióide até a horizontal de Frankfurt Comprimento do Osso em mm Saudáveis Comprimento do Osso em mm SAOS Comprimento do Osso em mm Saudáveis Comprimento do Osso em mm SAOS 9680 10595 9700 11490 10070 11490 9770 11435 9455 11035 9700 11225 9965 12310 9455 10615 10915 11930 10645 10260 10275 11000 9455 10240 9770 9895 9405 10505 9210 11420 8945 11265 8950 10505 9820 11770 Fonte Hoekema A Hovinga B Stegenga B De Bont L G M 2003 Craniofacial morphology and obstructive sleep apnoea a cephalometric analysis Journal of Oral Rehabilitation 307 690696 Solução a A variável comprimento do osso hióide para pacientes saúdaveis e com SAOS é uma variável quantitativa do tipo contínua uma vez que é uma medição baseada em escala contínua b Consideremos inicialmente os indivíduos saudáveis Para determinar o primeiro e terceiro quartil devemos primeiramente ordenar os dados e em seguida determinar a mediana segundo quartil isto é Tabela 16 Dados amostrais referentes ao comprimento do ponto mais súperoanterior do corpo do osso hióide até a horizontal de Frankfurt para os pacientes saudáveis Comprimento do Osso em mm 8945 9405 9455 970 9820 10275 8950 9455 9680 977 9965 10645 9210 9455 9700 977 10070 10915 Fonte Hoekema A Hovinga B Stegenga B De Bont L G M 2003 Craniofacial morphology and obstructive sleep apnoea a cephalometric analysis Journal of Oral Rehabilitation 307 690696 de onde tiramos que a mediana é descrita por Agora trocamos os dois valores utilizados para o cálculo da mediana pela própria mediana Com a mediana segundo quartil em mãos note que tanto abaixo quanto acima dela há agora 8 observações Neste caso o primeiro e terceiro quartil também serão dados pela média da posição central Neste caso considerando as 8 primeiras observações temse que e considerando as 8 observações finais temos que isto é para os indíviduos saudáveis o primeiro quartil é descrito por mm e o terceiro quartil por mm Por outro lado para os indíviduos com SAOS ordenando os dados Tabela 17 e nos baseando no mesmo procedimento realizado para os indíviduos saudáveis obtemos que o primeiro quartil é descrito por mm e o terceiro quartil por mm Tabela 17 Dados amostrais referentes ao comprimento do ponto mais súperoanterior do corpo do osso hióide até a horizontal de Frankfurt para os pacientes com SAOS Comprimento do Osso em mm 9895 10505 10615 11225 11435 1177 10240 10505 11000 11265 11490 1193 10260 10595 11035 11420 11490 1231 Fonte Hoekema A Hovinga B Stegenga B De Bont L G M 2003 Craniofacial morphology and obstructive sleep apnoea a cephalometric analysis Journal of Oral Rehabilitation 307 690696 No R para trabalhar com o conceito de quartis se faz o uso da função quantile com argumento probs 025 para o 1º quartil probs 050 para o 2º quartil e por fim probs 075 para o 3º quartil O argumento type também deve ser utilizado para determinar qual método para o cálculo será utilizado Para o nosso caso será type 4 que é o méotodo tradicional de cálculo de quartis Sendo assim considerando o nosso exemplo obtemos que 97 00 x 97 00 97 00 2 94 30 Q1 94 05 94 55 2 98 93 Q3 98 20 99 65 2 94 30 Q1 98 93 Q3 Q1 105 05 Q3 114 63 Comprimento do Osso em mm 1º Quartil 25 94300 2º Quartil 50 97000 3º Quartil 75 98925 Comprimento do Osso em mm 1º Quartil 25 105050 2º Quartil 50 110350 3º Quartil 75 114625 c Neste caso para os indíviduos saudáveis dado que o primeiro quartil é descrito por mm e o terceiro quartil por mm temse que Por outro lado para os indíviduos com SAOS dado que o primeiro quartil é descrito por mm e o terceiro quartil por mm temse que Bases de Dados setwddatasets dbosso readcsvdataset16ossocsv header TRUE sep saudaveis sortcdbosso1 dbosso3 saos sortcdbosso2 dbosso4 Uso da função quantilex probs seq0 1 025 narm FALSE names TRUE type 7 digits 7 Saudáveis a1 quantilesaudaveis 025 type 4 Primeiro Quartil b1 quantilesaudaveis 050 type 4 Segundo Quartil c1 quantilesaudaveis 075 type 4 Terceiro Quartil resultados1 rbinda1b1c1 colnamesresultados1 cComprimento do Osso em mm rownamesresultados1 c1º Quartil 25 2º Quartil 50 3º Quartil 75 resultados1 SAOS a2 quantilesaos 025 type 4 Primeiro Quartil b2 quantilesaos 050 type 4 Segundo Quartil c2 quantilesaos 075 type 4 Terceiro Quartil resultados2 rbinda2b2c2 colnamesresultados2 cComprimento do Osso em mm rownamesresultados2 c1º Quartil 25 2º Quartil 50 3º Quartil 75 resultados2 94 30 Q1 98 93 Q3 98 93 94 30 4 63 AQ 105 05 Q1 114 63 Q3 AQ 114 63 105 05 9 58 No R para calcular a amplitude interquartil podemos trabalhar diretamente com a função IQR O argumento type também deve ser utilizado para determinar qual método para o cálculo será utilizado Para o nosso caso será type 4 que é o méotodo tradicional de cálculo de quartis Assim considerando nosso exemplo temos que 1 4625 1 9575 d Neste caso para os indíviduos saudáveis dado que o primeiro quartil é descrito por mm o terceiro quartil por mm e temse pela definição de outliers que será um outlier inferior se e será um outlier superior se Logo concluise que as medidas de comprimento de osso de 10645 mm e 10915 mm são os dois únicos outliers superiores desta amostra Por outro lado para os indíviduos com SAOS dado que o primeiro quartil é descrito por mm o terceiro quartil por mm e temse que será um outlier inferior se e será um outlier superior se Logo diferente do caso dos pacientes saudáveis concluise para os pacientes com SAOS que não há presença de valores outliers para os valores de comprimento de osso em mm No R no entanto para o cálculo dos outliers não há uma função implementada em R Neste caso podemos então criar uma função para este fim da seguinte forma Bases de Dados setwddatasets dbosso readcsvdataset16ossocsv header TRUE sep saudaveis sortcdbosso1 dbosso3 saos sortcdbosso2 dbosso4 Uso da função IQR IQRx narm FALSE type 7 Saudáveis IQRsaudaveis type 4 SAOS IQRsaos type 4 94 30 Q1 Q3 98 93 AQ 4 63 xi 94 30 1 5 4 63 87 36 xi 98 93 1 5 4 63 105 88 xi Q1 105 05 Q3 114 63 AQ 9 58 xi 105 05 1 5 9 58 90 68 xi xi 114 63 1 5 9 58 129 00 Assim considerando o nosso exemplo temse para os pacientes saudáveis que Outliers Inferiores numeric0 Outliers Superiores 1 10645 10915 e para os pacientes com SAOS temse que foutliers functionx inferior TRUE inf xwhichx quantilex p 025 type 4 15 IQRx type 4 sup xwhichx quantilex p 075 type 4 15 IQRx type 4 ifinferior TRUE results dataframeinf namesresults cOutliers Inferiores returnresults else results dataframesup namesresults cOutliers Superiores returnresults Bases de Dados setwddatasets dbosso readcsvdataset16ossocsv header TRUE sep saudaveis sortcdbosso1 dbosso3 Outliers Saudáveis cfoutlierssaudaveis inferior TRUE cfoutlierssaudaveis inferior FALSE Bases de Dados setwddatasets dbosso readcsvdataset16ossocsv header TRUE sep saos sortcdbosso2 dbosso4 Outliers Saudáveis cfoutlierssaos inferior TRUE Outliers Inferiores numeric0 Outliers Superiores numeric0 2522 Boxplot Com base na medida de dispersão introduzida anteriormente amplitude interquartil podemos trabalhar com um novo tipo de representação gráfica para o resumo dos dados brutos conhecido como gráfico de BoxWhisker ou boxplot que traz uma perspectiva sobre o comportamento e variabilidade dos dados Cada caixa no boxplot representa um intervalo de valores que inclui 50 dos dados amplitude interquartil enquanto que a linha central representa a mediana ou segundo quartil As barras verticais chamadas de whiskers mostram a variação dos dados dentro de um intervalo específico que geralmente corresponde a 15 vezes o tamanho da caixa ou ao limite de outliers Na área da saúde o boxplot é frequentemente usado para visualizar dados de estudos epidemiológicos estudos clínicos e pesquisas em saúde pública Por exemplo em um estudo sobre a relação entre a concentração de chumbo no sangue em g e tabagismo o boxplot pode ser usado para mostrar como as concentrações de chumbos são distribuídas de acordo com o status de tabagismo na população em estudo Figura 5 Boxplot referente aos valores das concentrações de chumbo no sangue em g de um grupo de trabalhadores de uma indústria metalúrgica Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press cfoutlierssaos inferior FALSE No software R este gráfico é obtido pela função boxplot Para exemplificar iremos considerar a base de dados referente aos pacientes com insufiência cardíaca apresentada anteriormente Nosso objetivo é obter o gráfico do tipo boxplot da variável Sódio que se refere aos níveis de sódio dos pacientes de acordo com a variável Sexo Logo Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 2523 Variância Amostral A nossa segunda medida de dispersão é a variância amostral ou variância A variância é uma medida estatística que mede a dispersão dos dados em torno da média Na área da saúde a variância pode ser usada para avaliar a variabilidade dos dados em uma amostra de pacientes ou em uma população Por exemplo em um estudo que investiga a eficácia de um tratamento para reduzir a pressão arterial em pacientes hipertensos a variância pode ser usada para avaliar o quão homogêneos são os resultados de pressão arterial em pacientes que receberam o tratamento Isto é se a variância for baixa isso pode indicar que o tratamento é eficaz em reduzir a pressão arterial em todos os pacientes de forma semelhante Por outro lado se a variância for alta isso pode indicar que o tratamento é menos eficaz em alguns pacientes do que em outros Matematicamente essa medida é calculada pela seguinte expressão Base de dados setwddatasets dbheart2 readcsvdataset4heartcsv header TRUE sep Boxplot dos níveis de sódio por sexo parmar c6411 boxplotdbheart2Sodiumdbheart2Gender ylab Níveis de Sódio mEqL xlab Sexo pch 19 names cMasculinoFeminino S2 em que é a media amostral Exemplo Sabese que a bulimia nervosa CID 10 F502 é um transtorno alimentar no qual uma pessoa oscila entre comer exageradamente com um sentimento de perda de controle sobre a alimentação e episódios de vômitos ou abusos de laxantes tentando impedir o ganho de peso Sendo assim foi realizado um estudo comparando adolescentes do sexo feminino que sofrem de bulimia com adolescentes do sexo feminino saudáveis com composição corporal e níveis de atividade física semelhantes Os dados do estudo são fornecidos na Tabela 18 Qual será o valor da variância para cada um dos grupos Tabela 18 Dados amostrais referentes as medidas de ingestão calórica diária registradas em Kcal por Kg para pacientes de cada grupo Bulimia Saudável Bulimia Saudável 159 207 160 224 165 231 170 238 176 245 181 253 184 257 189 306 189 306 196 332 215 366 175 321 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press Solução Considerando o grupo dos pacientes que sofrem de bulimia observe que a média neste caso é de KcalKg Por outro lado para os pacientes saudáveis a média é de KcalKg Assim a partir da definição de variância obtemos que a variância para os pacientes que sofrem com bulimia é dada por e para os pacientes saudáveis a variância é descrita por Em algumas situações no entanto o uso da fórmula da variância pode ser um pouco complexo especialmente com muitas observações Nestes casos podese fazer o uso de uma tabela para facilitar o trabalho Isto é considerando nosso exemplo podese construir a seguinte tabela Tabela 19 Cálculo de variância referente as medidas de ingestão calórica diária registradas em Kcal por Kg para pacientes de cada grupo Bulimia X e Saudáveis Y Bulimia X X MédiaX X MédiaX² Saudável Y Y MédiaY Y MédiaY² 159 209 437 207 668 4462 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press S2 1 n 1 i1 n xi x2 x x 17 99 27 38 x 15 9 17 99 17 5 17 99 2 61 S2 1 12 1 2 2 20 7 27 38 32 1 27 38 25 26 S2 1 12 1 2 2 Bulimia X X MédiaX X MédiaX² Saudável Y Y MédiaY Y MédiaY² 165 149 222 231 428 1832 176 039 015 245 288 829 184 041 017 257 168 282 189 091 083 306 322 1037 215 351 1232 366 922 8501 16 199 396 224 498 248 17 099 098 238 358 1282 181 011 001 253 208 433 189 091 083 306 322 1037 196 161 259 332 582 3387 175 049 024 321 472 2228 MédiaX 1799 Soma 2867 MédiaY 2738 Soma 2779 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press Assim obtemos que a variância para os pacientes que sofrem com bulimia é dada por e para os pacientes saudáveis a variãncia é descrita por Independente da forma de cálculo observe que a variância entre os grupos assim como a média é bem diferente Particularmente o grupo dos pacientes saudáveis tem uma variabilidade praticamente dez vezes maior que dos pacientes que sofrem bulimia No R para calcular a variância podemos trabalhar diretamente com a função var Assim considerando nosso exemplo temse que a variância é calculada como 2 61 S2 28 67 11 25 26 S2 277 90 11 1 2606288 1 2526333 Variância Amostral para Dados Agrupados em Tabelas de Frequência Agora suponha que nossos dados são agrupados em uma tabela de frequências em intervalos de classe Neste caso o cálculo da variância é um pouco diferente do habitual e passa a ser calculada seguindo a equação onde representa média para dados agrupados representa a frequência absoluta da classe representa o ponto médio do intervalo de classe que é descrito por onde representa a respectiva classe e e são os limites da classe Exemplo A insuficiência cardíaca é uma síndrome clínica caracterizada pela incapacidade do coração de atuar adequadamente como bomba quer seja por déficit de contração eou de relaxamento comprometendo o funcionamento do organismo e quando não tratada adequadamente reduzindo a qualidade de vida e a sobrevida Neste contexto considere a tabela de frequências referente a variável referente aos valores de creatinina de 299 pacientes admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 ilustrada na Tabela 20 Com base nessa tabela quais seriam o valor da variância Tabela 20 Distribuição de frequências referentes aos valores de creatinina dos pacientes com insuficiência cardíaca que foram admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 Base de Dados setwddatasets dbbulimia readcsvdataset10bulimiacsv header TRUE sep namesdbbulimia cBulimia Saudável Bulimia Saudável bulimia cdbbulimia1dbbulimia3 saudavel cdbbulimia2dbbulimia4 Uso da função varx y NULL narm FALSE use Bulimia varbulimia Saudável varsaudavel S2a n i1 fai xci xa2 n i1 fai xa fai xci xci Li li 2 ci li Li Creatinina Limite Inferior Limite Superior Ponto Médio Frequência Absoluta Frequência Relativa Frequência Absoluta Acumulada Frequência Relativa Acumulada 050 149 100 227 759 227 759 149 248 199 49 164 276 923 248 347 298 11 37 287 960 347 446 397 6 20 293 980 446 545 496 1 03 294 983 545 644 594 2 07 296 990 644 743 694 1 03 297 993 743 842 792 0 00 297 993 842 941 892 2 07 299 1000 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Solução Neste caso partindo do conceito de média para dados agrupados temse a média para a variável creatinina é descrita pela expressão Agora partindo da definição de variância para dados agrupados temse a variância para a variável creatinina é descrita pela expressão Em algumas situações no entanto o uso da fórmula da variância agrupada também pode ser um pouco complexo especialmente com muitas classes Nestes casos podese fazer o uso de uma tabela para facilitar o trabalho Isto é considerando nosso exemplo podese construir a seguinte tabela Tabela 21 Cálculo de variância referente aos valores de creatinina dos pacientes com insuficiência cardíaca que foram admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 Creatinina X Limite Inferior Limite Superior Ponto Médio Frequência Absoluta Xc MédiaX Xc MédiaX² Frequência AbsolutaXc MédiaX² 05 149 1 227 041 017 3859 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 1 41 xa n i1 faixci n i1 fai 1 227 8 92 2 227 2 1 07 S2a n i1 fai xci xa2 n i1 fai 2271 1 41 2 28 92 1 41 2 227 2 318 63 299 Creatinina X Limite Inferior Limite Superior Ponto Médio Frequência Absoluta Xc MédiaX Xc MédiaX² Frequência AbsolutaXc MédiaX² 149 248 199 49 058 034 1666 248 347 298 11 157 246 2706 347 446 397 6 256 655 393 446 545 496 1 355 126 126 545 644 594 2 453 2052 4104 644 743 694 1 553 3058 3058 743 842 792 0 651 4238 0 842 941 892 2 751 564 1128 Soma 299 Soma 31863 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Assim obtemos que a variância agrupada para a variável creatinina é descrita pela expressão No R neste caso não há uma função pronta para o cálculo da variância para dados agrupados sendo necessário implentar a mesma Considerando o nosso exemplo então podemos obter a média da variável Creatinina definida em uma tabela de frequências em intervalos de classe pela rotina 1 07 S2a 318 63 299 1 1064482 2524 DesvioPadrão Amostral A nossa terceira medida de dispersão é o desviopadrão amostral ou desviopadrão Assim como a variância desviopadrão é uma medida estatística que mede a dispersão dos dados em torno da média sendo em particular uma medida além de ter a mesma unidade de medida da média que indica o quanto um conjunto de dados é uniforme isto é quanto mais próximo de 0 for o desviopadrão mais homogêneo é o conjunto de dados Matematicamente essa medida é calculada pela seguinte expressão em que é a media amostral e é a variância amostral Exemplo A Diabetes Mellitus DM é uma síndrome metabólica de origem múltipla decorrente da falta de insulina eou da incapacidade eou falta de insulina exercer adequadamente seus efeitos caracterizando altas taxa de açúcar no sangue hiperglicemia de forma permanente Suponha que foi realizado um estudo para realizar o monitoramento da glicemia em pacientes com diabetes Os dados do estudo são fornecidos na Tabela 22 Sabendo que o desviopadrão dos níveis de glicemia neste caso pode indicar o quão instável está o controle glicêmico do paciente qual é o valor do desviopadrão para a amostra considerada neste estudo Tabela 22 Dados amostrais referentes as medidas glicemia para um grupo de pacientes com diabetes Índice Glicemico em mgdl 13720 14230 14200 14351 13687 13885 13367 14055 13764 13157 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Base de Dados setwddatasets dbheart4 readcsvdataset4heartcsv header TRUE sep Carregar Pacote libraryagricolae Cálculo da Variância Agrupada varianciaagrupada functionx tab tablefreqgraphfreqx plot FALSE media sumtabMain tabFrequencysumtabFrequency variancia sumtabFrequency tabMain media2sumtabFrequency returnvariancia varianciaagrupadadbheart4Creatinine S S 1 n 1 i1 n xi x2 S2 x S2 Índice Glicemico em mgdl 14779 13657 13722 13466 14419 14035 13777 14893 13891 14077 14065 14612 14249 13487 13431 14858 14180 13017 13636 14627 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Solução Observe que a média neste caso é de mgdl Assim o desviopadrão é dado por Em algumas situações no entanto o uso da fórmula do desviopadrão assim como da variância pode ser um pouco complexo especialmente com muita observações Nestes casos podese fazer o uso de uma tabela para facilitar o trabalho Isto é considerando nosso exemplo podese construir a seguinte tabela Tabela 23 Cálculo do desviopadrão referente as medidas glicemia para um grupo de pacientes com diabetes Índice Glicemico X X MédiaX X MédiaX² 1372 256 655 13885 091 083 14779 803 6448 14035 059 035 14065 089 079 14858 882 7779 1423 254 645 13367 609 3709 13657 319 1018 13777 199 396 14612 636 4045 1418 204 416 142 224 502 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá 139 76 x S 4 90 137 20 139 76 146 27 139 76 1 30 1 2 2 Índice Glicemico X X MédiaX X MédiaX² 14055 079 062 13722 254 645 14893 917 8409 14249 273 745 13017 959 9197 14351 375 1406 13764 212 449 13466 51 2601 13891 085 072 13487 489 2391 13636 34 1156 13687 289 835 13157 819 6708 14419 443 1962 14077 101 102 13431 545 297 14627 651 4238 MédiaX 13976 Soma 69758 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Assim obtemos que o desviopadrão é dado por Independente da forma de cálculo observe que uma vez que a média é mgdl um desviopadrão de mgdl pode indicar uma instabilidade sobre o controle glicêmico dos pacientes pois por exemplo se considerarmos dois desviospadrão acima e abaixo da média obtemos um intervalo para o índice glicemico de 12996 mgdl a 14956 mgdl que é bem acima da normalidade de índice glicemico podendo até indicar uma possibilidade de desenvolvimento de retinopatia diabética que é um dos estados mais grave da doença S 697 58 4 90 30 1 139 76 x S 4 90 No R para calcular o desviopadrão podemos trabalhar diretamente com a função sd Assim considerando nosso exemplo temse que o desviopadrão é dado por 1 4904615 2525 Coeficiente de Variação Por fim a última medida de dispersão que temos é o coeficiente de variação CV O CV é conhecida por ser uma medida de dispersão pura isto é não possui unidade utilizada em geral na comparação de grandezas com unidade de medida diferentes Matematicamente essa medida é calculada pela expressão em que é a media amostral e é o desviopadrão amostral Exemplo A Diabetes Mellitus DM é uma síndrome metabólica de origem múltipla decorrente da falta de insulina eou da incapacidade eou falta de insulina exercer adequadamente seus efeitos caracterizando altas taxa de açúcar no sangue hiperglicemia de forma permanente Suponha que foi realizado um estudo para realizar o monitoramento da glicemia em pacientes com diabetes Os dados do estudo são fornecidos na Tabela 24 Neste caso agora qual é o valor do coeficiente de variação para a amostra considerada neste estudo Tabela 24 Dados amostrais referentes as medidas glicemia para um grupo de pacientes com diabetes Índice Glicemico em mgdl 13720 14230 14200 14351 13687 13885 13367 14055 13764 13157 14779 13657 13722 13466 14419 14035 13777 14893 13891 14077 14065 14612 14249 13487 13431 14858 14180 13017 13636 14627 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Solução Dos resultados anteriores obtemos que a média é de mgdl e o desviopadrão é de mgdl Assim pela definição de coeficiente de variação temse que o CV é dado por Base de Dados setseed123 dbglicemia roundrnorm30 mean 140 sd 52 Uso da função sdx narm FALSE sddbglicemia C 100 V S x x S x 139 76 S 4 90 S 4 90 que é baixo mas pode indicar uma instabilidade sobre o controle glicêmico dos pacientes aos valores para o índice glicemico para esta amostra de pacientes No R não há uma função específica para o cálculo do CV porém podemos trabalhar com as funções mean e sd Assim considerando o nosso exemplo obtemos que o CV do índice glicemico é obtido pela rotina 1 3509195 253 Medidas de Associação Na pesquisa científica às vezes encontramos situações em que gostaríamos de entender se os valores de uma determinada variável quantitativa possui algum tipo de associação com os valores de outra variável quantitativa Por exemplo será que as pessoas com índice de massa corporal IMC relativamente alto teriam uma frequência cardíaca maior Será que quanto maior a frequência cardíaca maior o IMC Por outro lado há algumas situações que podemos estar interessados na investigação de fatores de risco para uma doença por meio da associação de duas variáveis qualitativas Por exemplo será que há associação entre tabagismo e câncer de pulmão Isto é pessoas fumantes são mais propensas a ter câncer de pulmão do que as pessoas não fumantes As respostas de todas essas questões nos leva ao conceito das medidas de associação que são utilizadas para descrever a relação entre duas ou mais variáveis sejam elas quantitativas ou qualitativas Dentre tais medidas neste texto iremos trabalhar com as medidas coeficiente de correlação testes de diagnósticos e por fim o coeficiente de concordância Mas antes de falar sobre tais medidas precisamos definir dois conceitos importantes diagrama de dispersão e tabelas de contigência 2531 Diagrama de Dispersão O diagrama de dispersão é um gráfico onde pontos no espaço cartesiano XY são usados para representar de maneira simultânea os valores das observações de duas variáveis quantitativas sendo uma ferramenta útil para visualizar a relação entre essas variáveis e também identificar se há uma correlação entre as duas variáveis e a direção e a força dessa correlação Um exemplo deste tipo gráfico é ilustrado na Figura 6 Figura 6 Gráfico de dispersão referente aos valores da capacidade vital forçada versus volume expiratório em um segundo para um grupo de 14 pacientes diagnosticados com asma C 100 100 3 51 V S x 4 90 139 76 Base de Dados setseed123 dbglicemia roundrnorm30 mean 140 sd 52 Uso das funções mean e sd meanx narm FALSE sdx narm FALSE Cálculo do CV CV 100 sddbglicemia meandbglicemia CV Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press No R este gráfico é obtido pela função plot Para exemplificar considerando a base de dados heart podemos obter o diagrama de dispersão referente ao níveis de creatinina variável Creatinine de acordo com os valores de CPK variável CPK pela rotina Base de dados setwddatasets dbheart2 readcsvdataset4heartcsv header TRUE sep Gráfico de dispersão Creatinina vs CPK parmar c6411 plotdbheart2Creatininedbheart2CPK ylab Creatinina mgdL xlab CPK UL pch 19 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 2532 Coeficiente de Correlação O coeficiente de correlação é uma medida estatística que avalia a relação entre duas variáveis quantitativas Na área da saúde essa medida pode ser usada para investigar a relação entre fatores de risco e doenças bem como para avaliar a eficácia de tratamentos e intervenções médicas Existem várias medidas de correlação que podem ser utilizadas como por exemplo o coeficiente de correlação de Pearson o coeficiente de correlação de Spearman e o coeficiente de correlação de Kendall No entanto neste texto iremos trabalhar apenas com e coeficiente de correlação de Pearson O coeficiente de correlação de Pearson foi publicado em 1896 na obra On the Theory of Correlation pelo matemático inglês Karl Pearson 18571936 Nesta obra Pearson introduziu o coeficiente de correlação como uma medida de associação linear entre duas variáveis descrevendo a relação entre a altura e o peso corporal em um grupo de indivíduos Para entendermos esse coeficiente no entanto precisamos introduzir uma outra medida chamada de covariância Covariância A covariância entre X e Y é uma medida do quanto uma das variáveis se modifica quando a outra se modifica sendo essencial para medir o grau de interdependência numérica entre duas variáveis de modo que se a covariância é igual à zero então as variáveis são independentes Matematicamente ela é dada pela equação em que é a media amostral da variável e em que é a media amostral da variável Exemplo A esclerose lateral amiotrófica ELA é uma doença que afeta o sistema nervoso de forma degenerativa e progressiva e acarreta em paralisia motora irreversível Os pacientes com a doença sofrem paralisia gradual e morte precoce como resultado da perda de capacidades cruciais Neste contexto Butz et al 2003 investigaram o impacto da ventilação nãoinvasiva com pressãopositiva VNIPP em pacientes com ELA Antes do tratamento mediram a r CovX Y 1 n 1 i1 n xi x yi y x X y Y pressão parcial de oxigênio PaO2 e a pressão parcial de dióxido de carbono PaCO2 Os dados são expostos na Tabela 25 Com base nessa tabela qual é a covariância entre a PaO2 e a PaCO2 Podese dizer que essas variáveis são independentes Tabela 25 Dados amostrais referentes aos níveis pressão parcial de oxigênio Pa e de dióxido de carbono arterial PaC PaC Pa PaC Pa PaC Pa 400 1010 470 690 340 1320 420 650 540 720 480 760 536 672 569 709 580 730 450 660 545 800 540 720 430 1050 443 1130 539 692 418 667 330 670 431 775 524 651 379 710 345 865 401 747 330 940 599 604 626 525 541 769 457 653 Fonte Butz M Wollinsky K H WiedemuthCatrinescu U Sperfeld A Winter S Mehrkens H H Schreiber H 2003 Longitudinal effects of noninvasive positivepressure ventilation in patients with amyotrophic lateral sclerosis American Journal of Physical Medicine Rehabilitation 828 597604 Solução Assim como no caso da variância em algumas situações o uso da fórmula da covariância pode ser um pouco complexo especialmente com muita observações Como em nosso exemplo temos bastante observações iremos trabalhar com o cálculo da covariância em forma de tabela isto é Tabela 26 Cálculo de covariância referente aos níveis pressão parcial de oxigênio Pa e de dióxido de carbono arterial PaC PaC X X MédiaX X MédiaX² Pa Y Y MédiaY Y MédiaY² X MédiaXY MédiaY 40 69 4761 101 2363 55838 163047 42 49 2401 65 1237 15302 60613 536 67 4489 672 1017 10343 68139 45 19 361 66 1137 12928 21603 43 39 1521 105 2763 76342 107757 Fonte Butz M Wollinsky K H WiedemuthCatrinescu U Sperfeld A Winter S Mehrkens H H Schreiber H 2003 Longitudin effects of noninvasive positivepressure ventilation in patients with amyotrophic lateral sclerosis American Journal of Physical Medicine Rehabilitation 828 597604 PaC X X MédiaX X MédiaX² Pa Y Y MédiaY Y MédiaY² X MédiaXY MédiaY 418 51 2601 667 1067 11385 54417 524 55 3025 651 1227 15055 67485 401 68 4624 747 267 713 18156 626 157 24649 525 2487 61852 390459 47 01 001 69 837 7006 0837 54 71 5041 72 537 2884 38127 569 10 100 709 647 4186 647 545 76 5776 80 263 692 19988 443 26 676 113 3563 12695 92638 33 139 19321 67 1037 10754 144143 379 9 81 71 637 4058 5733 33 139 19321 94 1663 27656 231157 541 72 5184 769 047 022 3384 34 129 16641 132 5463 298444 704727 48 11 121 76 137 188 1507 58 111 12321 73 437 191 48507 54 71 5041 72 537 2884 38127 539 7 49 692 817 6675 5719 431 38 1444 775 013 002 0494 345 124 15376 865 913 8336 113212 599 13 169 604 1697 28798 22061 457 12 144 653 1207 14568 14484 MédiaX 469 Soma 19474 MédiaY 7737 Soma 805771 Soma 202137 Fonte Butz M Wollinsky K H WiedemuthCatrinescu U Sperfeld A Winter S Mehrkens H H Schreiber H 2003 Longitudin effects of noninvasive positivepressure ventilation in patients with amyotrophic lateral sclerosis American Journal of Physical Medicine Rehabilitation 828 597604 Assim obtemos que a covariância entre PaCO2 e PaO2 é descrita por Portanto concluise que as variáveis PaCO2 e PaO2 não são independentes pois CovXY 0 No R para calcular a covariância podemos trabalhar diretamente com a função cov Assim considerando o nosso exemplo a covariância entre as variáveis PaCO2 e PaO2 é obtida pela rotina 1 77745 Coeficiente de Correlação de Pearson Uma vez definido o que é covariância estamos aptos para definir o conceito de coeficiente de correlação de Pearson r Este coeficiente nada mais é que uma medida de associação que mede tanto a direção quanto a força de uma relação linear entre as variáveis X e Y Matematicamente esta medida é calculada pela equação em que e são os desviospadrões amostrais de ambas as variáveis Em geral o que a correlação procura entender é como uma variável se comporta em um cenário onde outra está variando visando identificar se existe alguma relação entre a variabilidade de ambas e quantificando essa relação através de valores situados entre 1 e 1 Neste caso um valor de 1 indica uma correlação perfeita positiva ou seja as duas variáveis estão perfeitamente relacionadas em uma linha crescente Por outro lado um valor de 1 indica uma correlação perfeita negativa ou seja as duas variáveis estão perfeitamente relacionadas em uma linha decrescente Por fim um valor de 0 indica nenhuma correlação linear entre as variáveis Figura 7 Figura 7 Gráfico de dispersão referente aos tipos possíveis de correlações obtidas pela coeficiente de correlação de Pearson CovX Y 77 75 2021 37 26 Base de Dados setwddatasets dbpac readcsvdataset12paccsv header TRUE sep namesdbpac crepcPaCPa 3 paCO cdbpac1dbpac3dbpac5 paO cdbpac2dbpac4dbpac6 Uso da função covx y NULL use everything method cpearson kendall spearman covx paCO y paO r CovX Y SXSY sX sY Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exemplo A esclerose lateral amiotrófica ELA é uma doença que afeta o sistema nervoso de forma degenerativa e progressiva e acarreta em paralisia motora irreversível Os pacientes com a doença sofrem paralisia gradual e morte precoce como resultado da perda de capacidades cruciais Neste contexto Butz et al 2003 investigaram o impacto da ventilação nãoinvasiva com pressãopositiva VNIPP em pacientes com ELA Antes do tratamento mediram a pressão parcial de oxigênio PaO2 e a pressão parcial de dióxido de carbono PaCO2 Os dados são expostos na Tabela 27 Com base nessa tabela qual é o coeficiente de correlação entre a PaO2 e a PaCO2 O que pode se concluir sobre esse coeficiente Tabela 27 Dados amostrais referentes aos níveis pressão parcial de oxigênio Pa e de dióxido de carbono arterial PaC PaC Pa PaC Pa PaC Pa 400 1010 470 690 340 1320 420 650 540 720 480 760 536 672 569 709 580 730 450 660 545 800 540 720 430 1050 443 1130 539 692 418 667 330 670 431 775 524 651 379 710 345 865 401 747 330 940 599 604 626 525 541 769 457 653 Fonte Butz M Wollinsky K H WiedemuthCatrinescu U Sperfeld A Winter S Mehrkens H H Schreiber H 2003 Longitudinal effects of noninvasive positivepressure ventilation in patients with amyotrophic lateral sclerosis American Journal of Physical Medicine Rehabilitation 828 597604 Solução Como em nosso exemplo temos bastante observações e para o cálculo do coeficiente de correlação precisamos dos valores dos desviospadrão e covariância das variáveis vamos resgatar nossa tabela construída anteriormente para o cálculo de covariância isto é Tabela 28 Cálculo de covariância referente aos níveis pressão parcial de oxigênio Pa e de dióxido de carbono arterial PaC PaC X X MédiaX X MédiaX² Pa Y Y MédiaY Y MédiaY² X MédiaXY MédiaY 40 69 4761 101 2363 55838 163047 42 49 2401 65 1237 15302 60613 536 67 4489 672 1017 10343 68139 45 19 361 66 1137 12928 21603 43 39 1521 105 2763 76342 107757 418 51 2601 667 1067 11385 54417 524 55 3025 651 1227 15055 67485 401 68 4624 747 267 713 18156 626 157 24649 525 2487 61852 390459 47 01 001 69 837 7006 0837 54 71 5041 72 537 2884 38127 569 10 100 709 647 4186 647 545 76 5776 80 263 692 19988 443 26 676 113 3563 12695 92638 33 139 19321 67 1037 10754 144143 379 9 81 71 637 4058 5733 33 139 19321 94 1663 27656 231157 541 72 5184 769 047 022 3384 34 129 16641 132 5463 298444 704727 48 11 121 76 137 188 1507 Fonte Butz M Wollinsky K H WiedemuthCatrinescu U Sperfeld A Winter S Mehrkens H H Schreiber H 2003 Longitudinal effects of noninvasive positivepressure ventilation in patients with amyotrophic lateral sclerosis American Journal of Physical Medicine Rehabilitation 828 597604 PaC X X MédiaX X MédiaX² Pa Y Y MédiaY Y MédiaY² X MédiaXY MédiaY 58 111 12321 73 437 191 48507 54 71 5041 72 537 2884 38127 539 7 49 692 817 6675 5719 431 38 1444 775 013 002 0494 345 124 15376 865 913 8336 113212 599 13 169 604 1697 28798 22061 457 12 144 653 1207 14568 14484 MédiaX 469 Soma 19474 MédiaY 7737 Soma 805771 Soma 202137 Fonte Butz M Wollinsky K H WiedemuthCatrinescu U Sperfeld A Winter S Mehrkens H H Schreiber H 2003 Longitudinal effects of noninvasive positivepressure ventilation in patients with amyotrophic lateral sclerosis American Journal of Physical Medicine Rehabilitation 828 597604 Desta tabela encontramos que a covariância é dada por Além disso com base nessa tabela temse que os desviospadrão para as variáveis PaCO2 e PaO2 são descritos respectivamente por e Portanto com as informações dos valores dos desviospadrão e da covariância de PaC e Pa obtémse que o coeficiente de correlação de Pearson entre PaCO2 e PaO2 é dado por que indica uma relação negativa entre PaCO2 e PaO2 isto é se os valores de PaCO2 aumentam os valores de PaO2 reduzem Esse resultado é esperado visto que a VNIPP é uma ferramenta médica que não envolve qualquer procedimento cirúrgico ou sedação diferente do que ocorre com a traqueostomia e a intubação responsável para manter os valores da pressão arterial de oxigênio PaO2 eou da pressão arterial de gás carbônico PaCO2 dentro dos limites da normalidade PaO2 60 mmHg PaCO2 50 mmHg para determinada demanda metabólica Além disso a relação obtida por r é moderada uma vez que r 05 No R para calcular coeficiente de correlação de Pearson podemos trabalhar diretamente com a função cor usando o argumento method Pearson Assim considerando o nosso exemplo a covariância entre as variáveis PaCO2 e PaO2 é obtida pela rotina CovX Y 77 75 2021 37 26 8 65 SX 1947 40 26 17 60 SY 8057 71 26 r 0 51 77 75 8 65 17 60 1 05102861 2533 Tabelas de Contingência As tabelas de contingência são formadas pelo cruzamento de duas variáveis categóricas podendo ser de tamanho em que k representa o nº de linhas e n o de colunas No campo das ciências da saúde tais tabelas por exemplo podem ser usadas para comparar a prevalência de uma doença em diferentes grupos de pacientes como por idade gênero ou região geográfica ou para analisar a relação entre um fator de risco e uma doença específica permitindo que os pesquisadores identifiquem os fatores que podem aumentar o risco de desenvolver uma doença ou para comparar a eficácia de diferentes tratamentos em pacientes com a mesma condição de saúde ou ainda para avaliar a precisão e a validade de testes diagnósticos em relação a uma condição de saúde específica Um exemplo deste tipo de tabela é ilustrado na Tabela 29 Tabela 29 Exemplo de dados amostrais referentes ao número de fumantes com hipertensão de um determinado hospital no período de 2005 no Estados Unidos Fumo Sexo Sim Não Total Masculino 28 39 67 Feminino 20 13 33 Total 48 52 100 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press No R há várias formas de se construir uma tabela de contingência sendo a mais usual pela função table Por exemplo considere a base de dados referente aos dados de insuficiência cardíaca trabalhada anteriormente e suponha que nosso objetivo seja criar uma tabela de contingência referente ao sexo variável Gender e pressão alta variável BP Neste caso podemos seguir a seguinte rotina em R Base de Dados setwddatasets dbpac readcsvdataset12paccsv header TRUE sep namesdbpac crepcPaCPa 3 paCO cdbpac1dbpac3dbpac5 paO cdbpac2dbpac4dbpac6 Uso da função corx y NULL use everything method cpearson kendall spearman corx paCO y paO method pearson k n Não Sim Feminino 61 44 Masculino 133 61 Uma outra forma de trabalhar com as tabelas de contingência dentro do R é por meio da função ctable do pacote summarytools A função ctable produz tabulações cruzadas também conhecidas como tabelas de contingência para pares de variáveis categóricas utilizando frequências absolutas e também frequências relativas em percentual Como exemplo considere novamente as duas variáveis categóricas sexo variável Gender e pressão alta variável BP de nosso conjunto de dados Logo temse que Leitura dos Dados Dataset Heart setwddatasets dbheart readcsvdataset4heartcsv header TRUE sep Reestruturação do Banco de Dados dbheart2 NULL dbheart2 ifelsedbheart21 Masculino Feminino dbheart3 ifelsedbheart31 Sim Não dbheart4 ifelsedbheart41 Sim Não dbheart5 ifelsedbheart51 Sim Não dbheart6 ifelsedbheart61 Sim Não Tabela de Contingência 2x2 Sexo x Pressão Alta Uso da função table table exclude if useNA no cNA NaN useNA cno ifany always dnn listnames deparselevel 1 tabledbheartGender dbheartBP Carregar pacote librarysummarytools Tabela de Contingência 2x2 Sexo x Pressão Alta Uso da função ctable ctablex yprop stoptionsctableprop useNA ifany totals stoptionsctabletotals style stoptionsstyle rounddigits stoptionsctablerounddigits justify right plainascii stoptionsplainascii headings stoptionsheadings displaylabels stoptionsdisplaylabels splittables Inf dnn csubstitutex substitutey chisq FALSE OR FALSE RR FALSE weights NA rescaleweights FALSE ctablex dbheartGender y dbheartBP CrossTabulation Row Proportions Gender BP Data Frame dbheart BP Não Sim Total Gender Feminino 61 581 44 419 105 1000 Masculino 133 686 61 314 194 1000 Total 194 649 105 351 299 1000 2534 Testes de Diagnósticos De modo geral é do interesse médico prever corretamente a presença ou ausência de uma determinada doença a partir do conhecimento dos resultados dos testes positivos ou negativos eou do estado dos sintomas apresentados presentes ou ausentes Essa ideia nos caracteriza uma medida de associação chamada de testes de diagnósticos Os testes diagnósticos são ferramentas utilizadas para ajudar os profissionais de saúde a identificar a presença ou ausência de uma condição de saúde específica em um paciente Esses testes podem ser realizados em uma variedade de amostras biológicas como sangue urina fezes saliva tecidos entre outras Existem diferentes tipos de testes diagnósticos cada um com suas próprias vantagens e limitações Alguns exemplos comuns incluem Testes laboratoriais esses testes são realizados em amostras biológicas e podem incluir análises bioquímicas microbiológicas imunológicas e genéticas Exemplos comuns incluem a contagem de células sanguíneas a identificação de bactérias em uma cultura de urina ou a detecção de anticorpos contra um vírus específico Exames de imagem esses testes usam tecnologia de imagem como radiografia tomografia computadorizada TC ressonância magnética RM e ultrassom para visualizar órgãos tecidos e estruturas internas do corpo Eles podem ser usados para diagnosticar condições como fraturas ósseas tumores e anormalidades no sistema cardiovascular Testes de função esses testes avaliam a capacidade de um órgão ou sistema para desempenhar uma função específica Exemplos incluem o teste de função pulmonar para avaliar a capacidade respiratória e o teste de função hepática para avaliar a função do fígado É importante lembrar que nenhum teste diagnóstico é 100 preciso e que resultados falsos positivos e falsos negativos podem ocorrer Um falso positivo por exemplo resulta quando um teste indica um status positivo quando o status verdadeiro é negativo Já um falso negativo resulta quando um teste indica um status negativo quando o status verdadeiro é positivo Para ficar mais claro as ideias deste contexto sob o ponto de vista estatístico vamos resumilas de acordo com a tabela de contigência expressa na Tabela 30 abaixo Tabela 30 Amostra de n pacientes classificados de acordo com a doença e o resultado do teste Doença Resultado do Teste Presente Ausente Total Positivo a b a b Negativo c d c d Total a c b d n Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Então de acordo com a Tabela 30 os testes de disgnósticos devem essencialmente responder as seguintes questões a Questão 1 Dado que um paciente tem a doença qual é a chance do teste ser positivo E se o paciente não tem a doença qual é a chance do teste ser negativo b Questão 2 Dado que o teste é positivo qual é a chance de que o paciente tenha a doença E se o teste é negativo qual é a chance de que o paciente não tenha a doença A primeira questão nos define dois conceitos sensibilidade primeira parte e especificidade segunda parte A sensibilidade e especificidade são medidas importantes em estudos de diagnóstico e triagem e são frequentemente utilizadas para avaliar a eficácia de testes diagnósticos A sensibilidade de um teste é a chance de que uma pessoa com a doença testada tenha um resultado positivo Isto é a sensibilidade de acordo com a Tabela 30 é descrita pela expressão Por outro lado a especificidade é a chance de que uma pessoa sem a doença testada tenha um resultado negativo De acordo com a Tabela 24 a especificidade é descrita pela equação Para ilustrar esses conceitos consideremos o exemplo de um teste de HIV Se um teste de HIV tem uma sensibilidade de 95 isso significa que em 95 dos casos em que uma pessoa tem HIV o teste será positivo e indicará a presença da doença Por outro lado se o teste de HIV tiver uma especificidade de 99 isso significa que em 99 dos casos em que uma pessoa não tem HIV o teste será negativo e indicará corretamente que a pessoa não tem a doença No entanto embora a sensibilidade e a especificidade sejam medidas importantes elas não são suficientes para avaliar completamente a eficácia de um teste diagnóstico E isso nos leva a segunda questão pois a chance de um resultado positivo ser verdadeiramente positivo e a chance de um resultado negativo ser verdadeiramente negativo também são importantes Neste sentido a segunda questão nos define outros dois conceitos valor preditivo positivo ou VPP primeira parte e valor preditivo negativo ou VPN segunda parte O valor preditivo positivo descreve a chance de que uma pessoa com um resultado positivo realmente tenha a doença testada isto de acordo com a Tabela 30 o VPP é descrito pela expressão Por outro lado o valor preditivo negativo descreve a chance de que uma pessoa com um resultado negativo realmente não tenha a doença testada e de acordo com a Tabela 30 o VPN é descrito pela equação Exemplo Sabe que a doença arterial coronariana é causada pelo acúmulo de gordura depósitos gordurosos dentro das artérias Esses depósitos são formados por colesterol cálcio e outras substâncias no sangue e são denominados placas aterosclerótica Neste contexto foi realizado um estudo com o objetivo de investigar o uso de uma técnica chamada ventriculografia com radionuclídeos como um teste diagnóstico para detectar doença arterial coronariana Os dados do estudo são expostos na Tabela 31 abaixo Com base nestes dados responda as questões a Qual é a sensibilidade do teste de diagnóstico usando ventriculografia com radionuclídeos E a especificidade b Quais são os valores preditivos positivo e negativo do teste de diagnóstico usando ventriculografia com radionuclídeos Sensibilidade a a c Especificidade d b d VPP a a b VPN d c d c Por definição temse que o falso positivo é obtido por 1 VPP e o falso negativo é obtido por 1 VPN Neste contexto baseandose no teste de diagnóstico ventriculografia com radionuclídeos quais seriam as chances de falso positivo e negativo Tabela 31 Dados amostrais referentes ao uso da técnica ventriculografia com radionuclídeos como um teste diagnóstico para detectar doença arterial coronariana Doença Resultado do Teste Presente Ausente Total Positivo 302 80 382 Negativo 179 372 551 Total 481 452 933 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Solução a Com base nos dados apresentados na Tabela 31 temse por objetivo calcular as medidas de um teste de diagnóstico Neste caso temos que os valores da sensibilidade e especificidade do teste de diagnóstico em questão são descritos respectivamente pelas equações E b Com base nos dados apresentados na Tabela 31 temse por objetivo calcular as medidas de um teste de diagnóstico Neste caso temos que os valores preditivos VPP e VPN do teste de diagnóstico em questão são descritos respectivamente pelas equações E c Baseando na definição de falso positivo e falso negativo expressa no enunciado concluise portanto que as chances de falso positivo FP e negativo FN do teste de diagnóstico ventriculografia com radionuclídeos são com base no Item b dadas respectivamente pelas equações e No R para trabalhar com os conceitos de testes de diagnósticos é necessário fazer o uso do pacote caret Neste pacote a função sensitivity retorna a sensibilidade a função specificity retorna a especificidade e as funções posPredValue e negPredValue retornam respectivamente o VPP e o VPN Assim considerando o nosso exemplo temos a rotina Sensibilidade 0 628 a a c 302 481 Especificidade 0 823 d b d 372 452 VPP 0 791 a a b 302 382 VPN 0 675 d c d 372 551 FP 1 0 791 0 209 FN 1 0 675 0 325 Doenca Teste Positivo Negativo Positivo 302 80 Negativo 179 372 Sensibilidade Especificidade 06278586 08230088 VPP VPN 07905759 06751361 FP FN 02094241 03248639 2535 Coeficiente de Concordância Kappa Para encerrar nossos estudos então temos o coeficiente de concordância Kappa O coeficiente de concordância Kappa é uma medida de concordância que avalia a concordância entre dois ou mais avaliadores em relação a uma variável categórica Na área de saúde esse coeficiente é frequentemente utilizado para avaliar a concordância entre os avaliadores na classificação de diagnósticos na avaliação de resultados de exames e na avaliação de resultados de testes Para calculálo considere a tabela de contingência exposta na Tabela 32 Tabela 32 Tabela de contingência para o cálculo do coeficiente de concordância Kappa Base de Dados lvs cNegativo Positivo Doenca factorreplvs times c452 481 levels revlvs Teste factorcreplvs times c37280 replvs times c179302 levels revlvs ventri tableTesteDoenca ventri Pacote suppressPackageStartupMessagessuppressWarningslibrarycaret Sensibilidade Especificidade cSensibilidade sensitivityventri Especificidade specificityventri VPP VPN cVPP posPredValueventri VPN negPredValueventri FP FN cFP 1 posPredValueventri FN 1 negPredValueventri κ MétodoAvaliador Y 1 2 Total 1 AvaliadorMétodo X 2 Total Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Com base na Tabela 30 o coeficiente de concordância Kappa pode ser calculado de acordo com a seguinte expressão onde e Neste caso é a concordância observada é a concordância esperada Logo de acordo com a expressão acima observase que o coeficiente de concordância Kappa varia de 1 a 1 sendo que valores negativos indicam discordância pior do que o esperado ao acaso valores próximos a zero indicam concordância fraca valores entre 041 e 060 indicam concordância moderada valores entre 061 e 080 indicam concordância boa e valores acima de 080 indicam concordância excelente No entanto é importante ressaltar que este coeficiente é uma medida de concordância entre avaliadores e não é uma medida de validade ou acurácia do instrumento ou teste utilizado Exemplo Um método utilizado para a avaliação dos danos na superfície ocular é o teste com fluoresceína Este teste em geral é indicado para avaliação da córnea A fluoresceína tem a propriedade de penetrar em células epiteliais mortas ou degeneradas corandoas Neste contexto foi realizado um estudo para avaliar a concordância de dois médicos sobre a identificação de alterações na córnea com a fluoresceína Para evitar viés os médicos avaliaram de forma independente 180 testes com fluoresceína Os dados do estudo são expostos na Tabela 33 Com base nessa tabela responda as questões a Qual é a concordância observada entre as avaliações dos médicos em relação aos testes com fluoresceína b Qual é a concordância esperada entre as avaliações dos médicos em relação aos testes com fluoresceína c Dos resultados obtidos nos Itens a e b qual é o valor do coeficiente de concordância Kappa Qual seria a interpretação prática desse valor Tabela 33 Dados referentes aos 180 testes para a concordância de dois médicos sobre a identificação de alterações na córnea usando testes com Fluoresceína r n11 n12 n1r n1j n21 n22 n2r n2j r nr1 nr2 nrr nrj nj1 nj2 njr n κ p0 pe 1 pe p0 i1 r nii n pe i1 r nijnji n2 p0 pe Médico Y Normal Alterado Inconclusivo Total Normal 54 12 12 78 Médico X Alterado 6 24 12 42 Inconclusivo 18 18 24 60 Total 78 54 48 180 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá a Com base na Tabela 33 a concordância observada entre as avaliações dos médicos em relação aos testes com Fluoresceína é descrita por b Com base na Tabela 33 a concordância esperada entre as avaliações dos médicos em relação aos testes com Fluoresceína é descrita por c Com base nos resultados dos Itens a e b o valor do coeficiente de concordância Kappa é descrito por Portanto observase que a concordância entre os avaliadores é fraca sobre a identificação de alterações na córnea com a fluoresceína uma vez que o valor de é próximo de 0 e menor do que 040 No R para trabalhar com o coeficiente de concordância Kappa é necessário fazer o uso do pacote kappa que retorna o coeficiente Kappa pra tabelas de contingência Assim considerando o nosso exemplo temos a rotina MedicoY MedicoX Normal Alterado Inconclusivo Normal 54 12 12 Alterado 6 24 12 Inconclusivo 18 18 24 0 57 p0 i1 r nii n 54 24 24 180 0 35 pe i1 r nijnji n2 78 78 42 54 60 48 1802 κ 0 34 p0 pe 1 pe 0 57 0 35 1 0 35 κ 0 34 Base de Dados lvs cInconclusivo Alterado Normal MedicoY factorreplvs times c48 54 78 levels revlvs MedicoX factorcreplvs times c241212 replvs times c182412 replvs times c18654 le tabkappa tableMedicoXMedicoY tabkappa Estimate StdErr 25 975 Pvalue kappa 03367 005463 02297 04438 7106e10 26 Exercícios de Revisão Exercício 1 Considere a variável qualitativa referente aos termos mais frequentes utilizados na área da Enfermagem dentro dos hospitais apresentados na Tabela 34 abaixo Com base nesses dados como se constrói uma tabela de frequências completa Tabela 34 Os termos mais frequentes utilizados na área da Enfermagem dentro dos hospitais Termos Intravenoso Prurido Intravenoso Intravenoso Abscesso Abscesso Sutura Prurido Intravenoso Abscesso Abscesso Edema Intravenoso Abscesso Intravenoso Sutura Edema Edema Prurido Edema Sutura Edema Abscesso Edema Edema Intravenoso Abscesso Abscesso Prurido Intravenoso Edema Abscesso Intravenoso Sutura Abscesso Intravenoso Edema Prurido Sutura Abscesso Sutura Intravenoso Sutura Prurido Sutura Sutura Sutura Intravenoso Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exercício 2 Hoekema et al 2003 propuseram um estudo sobre a morfologia craniofacial de pacientes que foram diagnosticados com síndrome da apneia obstrutiva do sono SAOS por meio da avaliação de pacientes saudáveis do sexo masculino Uma das variáveis demográficas que os pesquisadores coletaram para todos os pacientes foi o Índice de Massa Corporal calculado dividindose o peso em kg pelo quadrado da altura do paciente em cm A Tabela 35 ilustra os valores de IMC dos 24 pacientes do estudo de SAOS Com base nessa tabela faça o que se pede a Dado que a variável Índice de Massa Corporal IMC é uma variável quantitativa contínua quantos intervalos de classe são necessários para construir uma tabela de frequências b Qual é a amplitude de classe desses intervalos de classe c Qual seria a distribuição de frequências completa para estes dados d Qual é a classe de valores IMC mais frequente E a menos frequente Tabela 35 Dados amostrais referentes aos valores de IMC dos 24 pacientes do estudo de SAOS Valores de IMC Fonte Hoekema A Hovinga B Stegenga B De Bont L G M 2003 Craniofacial morphology and obstructive sleep apnoea a cephalometric analysis Journal of Oral Rehabilitation 307 690696 Kappa kappatabkappa Valores de IMC 2686 5433 2899 2521 3049 2738 3642 4150 2939 2454 4175 4468 2449 3323 4709 2907 2821 4210 2654 2774 3348 3144 3008 4280 Fonte Hoekema A Hovinga B Stegenga B De Bont L G M 2003 Craniofacial morphology and obstructive sleep apnoea a cephalometric analysis Journal of Oral Rehabilitation 307 690696 Exercício 3 O sarampo é uma doença viral aguda e extremamente grave principalmente em crianças menores de 5 anos de idade pessoas desnutridas e imunodeprimidas Após os últimos casos da doença no ano de 2015 o Brasil recebeu em 2016 a certificação da eliminação do vírus No entanto em 2018 foram confirmados 9325 casos da doença No ano de 2019 após um ano de circulação do vírus do mesmo genótipo o País perdeu a certificação de País livre do vírus do sarampo dando início a novos surtos com a confirmação de 20901 casos da doença Desde a reintrodução do vírus do sarampo no Brasil em 2018 a rede de Laboratórios de Saúde Pública adotou a Vigilância Laboratorial para sarampo como uma das mais importantes estratégias para monitorar e mediar a tomada de decisões frente aos surtos Uma dessas estratégias foi a identificação de um resultado de sorologia IgM reagente para sarampo Neste contexto a Tabela 36 mostra o nº de exames sorológicos IgM reagente nas primeiras 24 semanas epidemiológicas no Brasil em 2022 Com base nessa tabela responda as questões a Qual é a classificação da variável de interesse número de exames com IgM reagente b Qual seria a representação gráfica para estes dados c O que podese concluir a respeito do gráfico construído d Em que semana há um pico de exames IgM reagentes e Em qual semana observase uma diminuição dos exames IgM reagentes Tabela 36 Dados amostrais referentes ao nº de exames sorológicos IgM reagentes nas 24 primeiras semanas epidemiológicas do Brasil em 2022 Nº de exames com IgM reagente 12 19 14 17 21 26 18 23 20 22 33 46 48 56 70 41 39 18 Fonte da Saúde M2022 Número de exames com sorologia IgM reagente para o sarampo Boletim Epidemiológico Ministério da Saúde Brasil Exercício 4 No Brasil embora a taxa de mortalidade da pneumonia esteja em queda redução de 255 entre 1990 e 2015 a quantidade de internações e o alto custo do tratamento ainda são desafios para a saúde pública e a sociedade como um todo Entre janeiro e agosto de 2018 417924 pacientes foram hospitalizados por causa da pneumonia totalizando gastos totais de mais de R 378 milhões com serviços hospitalares Na Tabela 37 são ilustrados o número de pacientes internados no Brasil no ano de 2018 Com base nessa tabela responda as questões a Qual é a classificação da variável de interesse Número de Internações por Pneumonia b Qual seria a representação gráfica para estes dados para ambas variáveis c O que podese concluir a respeito dos gráfico construído d Em que mês de 2018 se teve o maior pico de mortes e A variação do número de internações parece ser constante ou tem uma tendência mais instável Tabela 37 Dados amostrais referentes ao número de internações por pneumona no Brasil em 2018 Mês Internações Mês Internações Janeiro 45 Julho 40 Fevereiro 75 Agosto 57 Março 20 Setembro 43 Abril 37 Outubro 72 Maio 99 Novembro 38 Junho 52 Dezembro 25 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exercício 5 O zinco é um mineral com funções e processos importantes no corpo que desempenha um papel estrutural nas proteínas É absorvido no intestino delgado e liberado principalmente nas fezes podendo ser eliminado também pelo suor urina e outras secreções corporais Neste aspecto em um estudo realizado pelo National Center of Health Statistics em 1982 foi avaliado os níveis séricos de zinco em gdl de 462 pacientes com idades entre 15 e 17 anos residentes nos Estados Unidos Os dados do estudo são exibidos na Tabela 38 Com base nessa tabela responda as questões a Qual é a classificação da variável de interesse Níveis Séricos de Zinco b Qual seria a representação gráfica para estes dados c O que podese concluir a respeito da forma gráfico construído d Qual intervalo de variação de acordo com o gráfico produzido dos níveis séricos de zinco é mais frequente E o menos frequente e Os 50 dos níveis séricos de zinco encontram abaixo de qual classe Tabela 38 Dados amostrais referentes aos níveis séricos de zinco de 462 pacientes com idades entre 15 e 17 anos residentes nos Estados Unidos Nível de Zinco gdl Nº de Pacientes Nível de Zinco gdl Nº de Pacientes 50 59 6 100 109 63 60 69 35 110 119 30 70 79 110 120 129 5 80 89 116 130 139 2 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press Nível de Zinco gdl Nº de Pacientes Nível de Zinco gdl Nº de Pacientes 90 99 91 140 159 2 Fonte Pagano M Gauvreau K Mattie H 2022 Principles of biostatistics CRC Press Exercício 6 Sabese que a Diabetes Mellitus DM é uma síndrome metabólica de origem múltipla decorrente da falta de insulina eou da incapacidade eou falta de insulina exercer adequadamente seus efeitos caracterizando altas taxa de açúcar no sangue hiperglicemia de forma permanente Suponha que você coletou dados de uma amostra de 20 pacientes com diabetes de um hospital e registrou na Tabela 39 as seguintes informações Idade idade em anos dos pacientes Pressão arterial sistólica pressão arterial sistólica em mmHg dos pacientes Pressão arterial diastólica pressão arterial diastólica em mmHg dos pacientes Nível de glicose no sangue nível de glicose no sangue em mgdL dos pacientes Índice de massa corporal IMC IMC dos pacientes em kgm² Tempo de internação tempo de internação em dias dos pacientes Com base nos dados registrados calcule as medidas de posição e dispersão para cada uma das 6 variáveis Além disso determine a correlação entre as variáveis pressão arterial sistólica e pressão arterial diastólica e entre as variáveis glicose e IMC Quais seriam as interpretações dos resultados obtidos em termos clínicos Tabela 39 Dados amostrais referentes as informações glicemicas dos pacientes consideradas no estudo sobre Diabetes Mellitus Idade Pressão Arterial Sistólica Pressão Arterial Diastólica Nível de Glicose no Sangue IMC Tempo de Internação 43 10351 8286 11068 3164 5 49 10879 8098 8258 2074 8 6 13023 7894 9489 1103 0 36 10330 8016 8866 2017 2 48 13086 7865 9657 2873 3 30 11158 7866 9294 2798 7 50 10932 7988 11846 2493 6 55 10627 8004 9060 2438 10 43 13550 8125 10882 2617 5 60 10066 7869 8106 3510 2 34 11896 7912 7487 2622 6 50 12634 7830 7936 1664 6 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Idade Pressão Arterial Sistólica Pressão Arterial Diastólica Nível de Glicose no Sangue IMC Tempo de Internação 50 12034 8299 9723 1766 3 34 11812 8190 9843 2753 4 29 12194 8122 8632 2031 3 45 11248 8162 11236 2982 2 40 11171 7953 11822 3029 4 65 10499 7912 9777 3353 2 60 10665 8086 8575 2335 3 48 9972 8149 9243 1925 2 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exercício 7 Kriser et al 2002 realizam um estudo para investigar a taxa de filtração glomerular TFG em receptores de transplante renal pediátricos A TFG é uma medida que indica a quantidade de sangue que é filtrada pelos glomérulos dos rins por minuto sendo importante em receptores de transplante renal e pode ser estimada a partir da dosagem de substâncias como a creatinina e a Cistatina C no sangue A creatinina é um produto do metabolismo muscular que é eliminado pelos rins no entanto a creatinina pode não ser um indicador preciso da função renal em todas as situações especialmente em pacientes com doenças musculares ou com alterações na massa muscular Por outro lado a Cistatina C uma proteína básica catiônica é uma proteína produzida pelas células do corpo que é filtrada pelos glomérulos dos rins A dosagem de Cistatina C no sangue é outra forma de estimar a TFG e tem sido utilizada como um marcador mais sensível e específico da função renal em alguns pacientes sendo especialmente útil em pacientes com doenças musculares ou com obesidade em que a creatinina pode não ser um indicador preciso da função renal Os níveis de Cistatina C mgL Grupo 1 e de Creatinina mmolL Grupo 2 dos pacientes do estudo são fornecidos na Tabela 40 Neste estudo a Cistatina C uma proteína básica catiônica foi considerada devido a sua relação com os níveis de TFG dos pacientes Assim com base nos dados apresentados responda as seguintes questões a As variáveis Níveis de Cistatina C e Creatinina são variáveis quantitativa ou qualitativa b Como poderíamos representar cada uma das variáveis em uma distribuição de frequências c Quais seriam os valores das medidas de posição e dispersão para os dados brutos e para os dados agrupados de ambas as variáveis d Quais seriam os valores primeiro e terceiro quartil para ambas as variáveis e Quais seriam as amplitudes interquartil para os níveis de Cistatina C e Creatinina Há presença de outliers f Faça um boxplot comparando as variáveis o que podese concluir g Quais seriam os valores do desviopadrão e coeficiente de variação de ambas as variáveis h Qual seria o valor do coeficiente de correlação entre Cistatina C mgL e Creatinina mmolL O que se pode concluir i Considerando resultados dos Item a a h escreva um relatório descritivo sobre tais informações com implicações clínicas Tabela 40 Dados amostrais referentes aos níveis de Cistatina C mgL e de Creatinina mmolL dos pacientes do estudo Cistatina C mgL Creatinina mmolL Cistatina C mgL Creatinina mmolL 178 035 469 014 216 030 378 011 182 020 224 009 186 017 493 012 175 015 271 007 183 013 176 012 249 014 262 011 169 012 261 007 185 024 365 010 176 016 236 013 150 011 201 012 Fonte Krieser D Rosenberg A R Kainer G Daya Naidoo 2002 The relationship between serum creatinine serum cystatin C and glomerular filtration rate in pediatric renal transplant recipients a pilot study Pediatric Transplantation 65 392395 Exercício 8 Procellini et al 2003 investigaram o efeito na contagem de células TCD4 após administração de interleucina intermitente IL2 em adição à terapia antirretroviral altamente ativa HAART Na Tabela 41 são ilustradas as contagens de células TCD4 antes e depois da terapia HAART com IL2 Com base nos dados apresentados responda as seguintes questões a A variável Número de Células TCD4 é uma variável quantitativa ou qualitativa b Quais seriam os valores medidas de posição e dispersão em ambas as situações início do tratamento e após aplicação da HAART c Quais seriam os valores primeiro e terceiro quartil para ambas as situações início do tratamento e após aplicação da HAART d Quais seriam as amplitudes interquartil em ambas as situações início do tratamento e após aplicação da HAART Há presença de outliers e Faça um boxplot comparativo para cada uma das medições dessa variável Início do tratamento e após aplicação da HAART O que podese concluir f Qual seria o valor do coeficiente de correlação entre o início do tratamento e após aplicação da HAART O que se pode concluir i Considerando resultados dos Item a a f escreva um relatório descritivo sobre tais informações com implicações clínicas Tabela 41 Dados amostrais referentes as contagens de células TCD4 antes e depois da terapia HAART com IL2 ID do Paciente Células TCD4 Início Células TCD4 HAART ID do Paciente Células TCD4 Início Células TCD4 HAART 1 173 257 2 58 108 3 103 315 4 181 362 5 105 141 6 301 549 7 169 369 Fonte Porcellini S Vallanti G Nozza S Poli G Lazzarin A Tambussi G Grassi F 2003 Improved thymopoietic potential in aviremic HIV infected individuals treated with HAART by intermittent IL2 administration AIDS 1711 16211630 Exercício 9 Suponha que um novo teste diagnóstico para uma doença esteja sendo avaliado em um hospital Para avaliar o desempenho do teste foram recrutados 200 pacientes com sintomas suspeitos da doença em questão Cada paciente foi submetido ao teste diagnóstico e os resultados foram comparados com um padrãoouro que é o teste ou procedimento que é considerado o mais preciso para determinar se uma pessoa tem ou não uma determinada condição médica ou biológica Os resultados obtidos foram os seguintes Dos 200 pacientes testados 100 foram diagnosticados corretamente pelo novo teste Dos 100 pacientes diagnosticados corretamente 90 tinham a doença e 10 não tinham Dos 100 pacientes que foram diagnosticados incorretamente 20 tinham a doença e 80 não tinham Com base nessas informações responda às seguintes perguntas a Qual é a sensibilidade do novo teste diagnóstico b Qual é a especificidade do novo teste diagnóstico c Qual é o valor preditivo positivo do novo teste diagnóstico d Qual é o valor preditivo negativo do novo teste diagnóstico e Se você fosse um médico e tivesse que decidir se recomendaria ou não o novo teste para seus pacientes qual seria sua decisão com base nas informações disponíveis Justifique sua resposta Exercício 10 Suponha que você está conduzindo um estudo para avaliar a concordância entre dois médicos que estão avaliando a gravidade de uma doença em uma amostra de 270 pacientes Cada médico classifica a gravidade da doença em uma escala de 1 a 5 Os resultados estão apresentados na Tabela 42 abaixo Com base nestes dados calcule o coeficiente de concordância kappa para avaliar a concordância entre os médicos e interprete o resultado Tabela 42 Tabela de contingência para o cálculo do coeficiente de concordância Kappa entre dois médicos que avaliam a gravidade de uma doença em uma amostra de 200 pacientes Médico Y 1 2 3 4 5 Total Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Médico Y 1 20 10 5 0 0 35 2 5 30 20 5 0 60 Médico 1 3 0 5 40 25 5 75 4 0 0 10 30 20 60 5 0 0 0 10 30 40 Total 25 45 75 70 55 270 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Capítulo III Os Conceitos de Probabilidade 31 Introdução A experiência não permite nunca atingir a certeza absoluta Não devemos procurar obter mais que uma probabilidade Bertrand Russell Neste capítulo nosso objetivo é explorar um dos conceitos mais importantes da teoria estatística a probabilidade Na área da saúde por exemplo a probabilidade é amplamente aplicada em estudos epidemiológicos para determinar a incidência e prevalência de doenças bem como avaliar o risco de exposição a fatores de risco específicos No entanto a incerteza dos resultados é um dos principais desafios na aplicação da probabilidade na área da saúde devido à influência de muitos fatores como a variabilidade biológica dos pacientes a precisão dos testes diagnósticos e a aleatoriedade dos dados Apesar desses desafios a probabilidade é uma ferramenta essencial na saúde permitindo que os profissionais tomem decisões informadas e baseadas em evidências para melhorar a qualidade de vida dos pacientes e promover a saúde pública 32 História da Probabilidade Historicamente acreditase os primeiros cálculos da teoria da probabilidade foram realizados por estudiosos italianos dos séculos XV e XVI dentre os quais podemos destacar Frei Luca Pacioli 1445 1517 Tartaglia 1499 1557 e Girolamo Cardano 1501 1576 Frei Luca Pacioli por exemplo dedicouse ao estudo do problema conhecido como o problema dos pontos divisão de apostas publicando em 1494 na obra intitulada Summa de arithmetica geometria proportinoni e proportionalità uma solução incorreta para este problema Tal solução apontava que os jogadores deveriam dividir a aposta numa proporção de 5 por 3 Tartaglia também trabalhou com o problema dos pontos De acordo com Katz 2009 na obra intitulada General Trattato publicada em 1556 este matemático afirmou que a solução apresentada por Pacioli para o problema dos pontos poderia estar incorreta Já Girolamo Cardano publicou em 1663 a obra Liber de Ludo Alae que buscava permitir a tomada de boas decisões nos problemas de jogos de azar encontrados naquela época De acordo com Todhunter 1965 a obra de Cardano pode ser entendida como um manual de jogos Embora os cálculos dessa teoria tenha começado com os italianos o marco do início da teoria das probabilidades é considerado com a troca de correspondências entre os estudiosos franceses Blaise Pascal 1623 1662 e Pierre de Fermat 1601 1665 As cartas trocadas por estes estudiosos em 1654 apresentam discussões e uma solução de um problema semelhante ao problema dos pontos que foi apresentado a Pascal por Antoine Gombauld 1610 1685 um cavaleiro de Meré que ganhava a vida jogando Atualmente a teoria de probabilidade deixou de ser um pequeno ramo da consolidada Ciência Matemática e se tornou uma ciência relacionada com fenômenos aleatórios sendo a peça chave para a previsão e discussão desses fenômenos nas mais diversas áreas do conhecimento Na literatura podemos encontrar três interpretações essenciais para o conceito de probabilidade a interpretação frequentista a interpretação clássica e a interpretação subjetiva Intepretação Frequentista Seja um evento qualquer Se é o número de ocorrências de em repetições independentes do experimento então a probabilidade de ocorrência de é dada por Intepretação Clássica Seja um espaço amostral e um evento qualquer Se é o número de elementos do espaço amostral e é o número de elementos do evento então a probabilidade de ocorrência do evento A é definida como Se um experimento tem como espaço amostral com um número finito de elementos dizemos que os eventos elementares são equiprováveis se todos tem a mesma probabilidade de ocorrer isto é Desta forma podemos definir a probabilidade de um evento composto por elementos com menor que como sendo Intepretação Subjetiva Essa visão surgiu no início da década de 1950 com Leonard J Savage que deu um impulso considerável ao que é chamado de conceito subjetivo de probabilidade esta sendo expressa como a informação de um indivíduo Para Leonard J Savage essa visão sustenta que a probabilidade mede a confiança que um indivíduo tem na verdade de uma proposição Em outras palavras essa interpretação permite que a incerteza e a subjetividade intrínsecas do estudo sejam adicionadas nos processos de decisão 33 A Definição Matemática de Probabilidade Uma vez que a probabilidade lida com fenômenos aleatórios dois conceitos devem ser bem definidos espaço amostral e evento Os eventos são definidos como um conjunto de resultados possíveis de um experimento sendo representados por uma letra maiúscula A B C Já o conjunto que contém todos os resultados possíveis do experimento é chamado de espaço amostral e é representado por No lançamento de uma moeda por A nA A n A PA lim n nA n Ω A NΩ Ω NA A PA NA NΩ Ω e1 e2 en ei P ei 1 n E ej1 ejk k k n PE número de casos favoráveis a E número de casos possíveis de Ω k n Ω exemplo o espaço amostral é descrito por tendo os eventos e Todavia em situações em que o espaço amostral é um conjunto finito ou enumerável é natural tomar a classe de eventos aleatórios como isto é o conjunto de todos os subconjuntos de dado por e é chamado de conjunto das partes Porém há casos em que não é enumerável e não é possível construir um modelo probabilístico em toda essa classe Em todo caso faremos algumas suposições naturais sobre a classe de eventos aleatórios Mais precisamente vamos assumir que F satisfaz as seguintes propriedades Para todo temse que Se então Definição 1 Medida de Probabilidade Seja um espaço amostral e uma álgebra para um dado experimento Uma medida de probabilidade é uma aplicação satisfazendo as seguintes propriedades conhecidas como Axiomas de Kolmogorov Axioma 1 para todo Axioma 2 Axioma 3Se e então Observação A primeira propriedade ou Axioma 1 nos diz que a probabilidade de o resultado do experimento ser o resultado do evento é igual a algum número positivo Por outro lado a segunda propridade ou Axioma 2 nos que diz que a probabilidade do espaço amostral é sempre igual à 1 Essa propriedade é conhecida como axioma da certeza pois o espaço amostral contém todos os possíveis resultados do experimento Por fim a terceira propriedade ou Axioma 3 nos diz que para qualquer sequência de eventos mutuamente exclusivos a probabilidade de pelo menos um desses eventos ocorrer é justamente a soma de suas respectivas probabilidades Exemplo O objetivo do estudo de Carter et al 2003 foi investigar o efeito da idade de início do transtorno bipolar no curso da doença Na Tabela 1 é exposto a frequência do histórico familiar de transtornos do humor classificados de acordo com os grupos de interesse Sabendo que os grupos de interesse são idade de início precoce 18 anos ou menos e idade de início tardia superior a 18 anos suponha que escolhamos uma pessoa aleatoriamente Qual é a probabilidade de que essa pessoa seja pertencente ao grupo precoce Tabela 1 Frequência do histórico familiar de transtornos do humor classificados de acordo com os grupos de interesse Histórico Precoce P Tardio T Total Negativo A 28 35 63 Bipolar B 19 38 57 Unipolar C 41 44 85 Unipolar e Bipolar D 53 60 113 Fonte Carter T D C Mundo E Parikh S V Kennedy J L 2003 Early age at onset as a risk factor for poor outcome of bipolar disorder Journal of psychiatric research 374 297303 Ω Cara C Coroa K A C B K Ω F F PΩ Ω PΩ A A Ω Ω PΩ F PΩ Ω F A F F Ac A1 A2 A3 F F i1Ai Ω F σ P P F R PA 0 A F PΩ 1 A1 A2 F i j Ai Aj P P i1 Ai i1 Ai A Histórico Precoce P Tardio T Total Total 141 177 318 Fonte Carter T D C Mundo E Parikh S V Kennedy J L 2003 Early age at onset as a risk factor for poor outcome of bipolar disorder Journal of psychiatric research 374 297303 Solução Neste caso devemos definir o seguinte evento P ser do grupo precoce Assim a partir da interpretação clássica de probabilidade temos que Portanto a probabilidade de que essa pessoa seja pertencente ao grupo precoce é descrita por Observe que a probabilidade encontrada para o evento P satisfaz o Axioma 1 da definição de probabilidade pois Os outros axiomas são facilmente verificados definindo os eventos correspondentes na Tabela 1 34 Probabilidade Condicional Com uma certa frequência nos deparamos com a situação de um conhecimento adicional capaz de afetar a probabilidade do resultado de um dado experimento Quando isso acontece então precisamos alterar a probabilidade de um evento de interesse Na literatura estatística essa nova probabilidade é conhecida como probabilidade condicional de um evento que posteriormente será utilizada para definir o Teorema de Bayes que é baseado no conceito expresso na interpretação subjetiva de probabilidade Para obter tal probabilidade procedemos da seguinte forma dividimos a probabilidade de ocorrência da interseção dos eventos A e B B neste caso já ocorreu PrA B pela probabilidade de ocorrência do evento B PrB Em linguagem matemática A expressão acima é lida como probabilidade de ocorrência do evento A dado que o evento B aconteceu Na epidemiologia por exemplo a probabilidade condicional é uma ferramenta importante para determinar a probabilidade de uma pessoa ser infectada por uma doença com base em fatores como a taxa de infecção em uma determinada população e o comportamento de risco da pessoa Por exemplo a probabilidade condicional pode ser usada para determinar a probabilidade de uma pessoa contrair HIV com base em seu comportamento sexual e a taxa de infecção em sua comunidade Exemplo Suponha que em uma comunidade 20 dos indivíduos adultos são hipertensos 40 são diabéticos e 15 são hipertensos e diabéticos Em seguida considere o experimento que consiste em selecionar ao acaso um indivíduo dessa comunidade Defina os eventos D o indivíduo escolhido é portador de diabetes H o indivíduo escolhido é portador de hipertensão 141 nP 318 nΩ PrP 0 4434 44 34 nP nΩ 141 318 PrP 0 PA B PA B PB Note que quando dizemos que 15 são hipertensos e diabéticos nós estamos nos referindo a uma situação em que ambos os eventos D e H simultaneamente ocorrem Nesse caso nos referimos à interseção entre os eventos denotada pelo símbolo Evento resultante da interseção é então o indivíduo escolhido é portador de diabetes e de hipertensão Assim de acordo com a interpretação frequentista de probabilidade ao selecionar ao acaso um indivíduo dessa comunidade a probabilidade de ele ser portador de hipertensão é PH 02 Porém por outro lado se partimos do conhecimento que o indivíduo selecionado é portador de diabetes qual é agora a probabilidade de ele ser portador de hipertensão Essa pergunta se refere a uma probabilidade condicional denotada por PH D Lemos o símbolo como dado que Assim PH D se refere à probabilidade de ocorrer o evento H dado que o evento D ocorreu Ou no nosso exemplo à probabilidade de o indivíduo selecionado ser portador de hipertensão dado que ele é portador de diabetes Solução No diagrama de Venn ilustrado na Figura 1 sombreamos a região associada ao evento D considerando que partimos do conhecimento de que esse evento ocorreu Essa região sombreada corresponde a 40 dos indivíduos de toda a comunidade e consideramos que o indivíduo selecionado pertence a essa parcela Dentre esses 40 sabemos que 15 são hipertensos Figura 1 Diagrama de Venn para uma comunidade em que 20 dos indivíduos adultos são hipertensos 40 são diabéticos e 15 são hipertensos e diabéticos Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Assim para encontrarmos a probabilidade condicional PHD trabalhamos com a definição dada anteriormente isto é desde que PD seja maior que zero Se PD fosse igual a zero não teríamos um único portador de diabetes na comunidade e não faria sentido buscar a probabilidade condicional PH D Assim como PrH D 015 e PrD 040 temse que ou seja a probabilidade de selecionarmos um indivíduo hipertenso entre aqueles que portam diabetes é aproximadamente 375 D H PH D PH D PD PH D 0 15 0 375 0 40 35 Teorema de Bayes Na literatura o Teorema de Bayes foi originado do trabalho An essay towards solving a problem in the doctrine of chances de 1763 do reverendo Thomas Bayes Em seu trabalho Bayes introduziu um sistema que permitia atualizar crenças iniciais a partir de novos dados Esse sistema posteriormente ficou conhecido como Teorema de Bayes Do ponto de vista de inferência estatística duas quantidades são necessárias para as condições do teorema distribuição a priori e distribuição a posteriori A primeira delas a distribuição a priori representa o que se sabe sobre os parâmetros desconhecidos antes que os dados estejam disponíveis isto é ela corresponde ao conhecimento prévio ou ignorância relativa crença inicial Já a segunda a distribuição a posteriori representa a atualização do conhecimento crença atualizada após os dados estarem disponíveis sendo a proporção na teoria de probabilidade entre o conceito de probabilidade e o conceito de subjetividade Teorema Fórmula de Bayes Dado um espaço de probabilidade uma partição e um evento A para todo então a seguinte equação chamada de fórmula de Bayes é válida Na prática o Teorema de Bayes é amplamente utilizado em áreas como a medicina a engenharia a inteligência artificial e outras disciplinas em que é necessário fazer inferências probabilísticas com base em dados limitados Por exemplo na medicina o este teorema pode ser usado para atualizar a probabilidade de um paciente ter uma determinada doença com base em novos resultados de testes e informações clínicas No entanto uma das maiores aplicações deste teorema na medicina se refere aos testes de diagnósticos que estudamos anteriormente Então para traduzir os testes de diagnósticos em termos de probabilidade considere os eventos T corresponde a teste positivo T corresponde a teste negativo D 1 corresponde a indivíduo portador da doença D 0 corresponde a indivíduo não portador da doença Baseandose nestes eventos podemos reescrever a sensibilidade probabilidade de o teste ser positivo dado que o indivíduo testado realmente tem a doença da seguinte forma e a especificidade probabilidade de o teste ser negativo dado que o indivíduo testado realmente não tem a doença da seguinte forma No entanto a sensibilidade e especificidade têm uma limitação séria não ajudam a decisão da equipe médica que recebendo um paciente com resultado positivo do teste precisa avaliar se o paciente está ou não doente Isto é não se pode depender apenas da sensibilidade e da especificidade pois estes índices são provenientes de uma situação em que há certeza total sobre o diagnóstico o que não acontece no consultório médico Dois outros índices refletem melhor a realidade prática o valor preditivo positivo probabilidade de o paciente estar realmente com a doença quando o resultado do teste é positivo que é dado pelo teorema de Bayes por e o valor preditivo negativo probabilidade de o paciente não estar doente quando o resultado do teste é negativo que é dado pelo teorema de Bayes por Ω F P B1 B2 B3 j N Pr A Bj Pr PrA Bj Bj Pr PrA i Bj Bj Sensibilidade PrT D 1 Especificidade PrT D 0 V PP PrD 1T PrT D 1PrD 1 PrT D 1PrD 1 PrT D 0PrD 0 Exemplo Suponha que uma pessoa está preocupada em ter uma doença rara que afeta cerca de 01 da população Um teste diagnóstico está disponível que é 95 preciso no diagnóstico da doença em pessoas que a têm e 90 preciso em descartar a doença em pessoas que não a têm A pessoa faz o teste e recebe um resultado positivo Qual é a probabilidade de a pessoa realmente ter a doença Solução Em primeiro lugar resgatamos as informações presentes no nosso problema isto é temse que PrD 1 01 0001 probabilidade préteste de ter a doença PrT D 1 95 095 probabilidade de teste positivo dado que a pessoa tem a doença PrT D 0 10 010 probabilidade de teste positivo dado que a pessoa não tem a doença Agora precisamos calcular a probabilidade de um resultado positivo no teste independentemente de a pessoa ter a doença ou não isto é precisamos encontrar o valor da seguinte probabilidade Assim a partir das informações anteriores a probabilidade de um resultado positivo no teste é descrita por Note que queremos calcular a probabilidade de a pessoa ter a doença dado o resultado positivo no teste Em particular estamos interessados em determinar qual é o valor preditivo positivo do teste de diagnóstico dado Neste caso a partir do teorema de Bayes temse que o VPP é dado por isto é Portanto a probabilidade de a pessoa realmente ter a doença dado o resultado positivo no teste é de cerca de 095 Em outras palavras este resultado significa que a maioria das pessoas que testam positivo não tem a doença mesmo utilizando um teste relativamente preciso Essa ideia ressalta então a importância de confirmar resultados positivos com testes adicionais e considerar outros fatores de risco antes de fazer um diagnóstico Para trabalhar com teorema de Bayes no R podemos fazer o uso da função BayesTheorem disponível no pacote LaplacesDemon Essa função necessita basicamente de dois argumentos a probabilidade a priori do evento A e a probabilidade condicional do evento B dado o evento A também é conhecida como evidência Assim considerando o nosso exemplo e utilizando a função BayesTheorem podemos calcular a probabilidade de a pessoa realmente ter a doença isto é o VPP pela seguinte rotina V PN PrD 0T PrT D 0PrD 0 PrT D 0PrD 0 PrT D 1PrD 1 PrT PrT D 1PrD 1 PrT D 0PrD 0 PrT 0 95 0 001 0 10 0 999 0 1004 V PP PrD 1T PrT D 1PrD 1 PrT D 1PrD 1 PrT D 0PrD 0 V PP PrD 1T 0 0095 PrT D 1PrD 1 PrT 0 95 0 001 0 1004 1 0009419931 36 Modelos de Probabilidade Na pesquisa clínica as variáveis aleatórias são usadas para descrever resultados incertos ou imprevisíveis como por exemplo a resposta de um paciente a um tratamento ou o tempo de sobrevivência após o diagnóstico de uma doença Em outras palavras uma variável aleatória é uma observação numérica resultante de um experimento podendose dizer que esta é uma função que associa a cada resultado do espaço amostral um número real Matematicamente este conceito é definido como Definição Uma variável aleatória em um espaço de probabilidade é uma função real definida no espaço tal que o conjunto é um evento aleatório para todo isto é é uma variável aleatória se para todo O evento neste caso é denotado por Existem vários tipos de variáveis aleatórias sendo as mais comuns as discretas e as contínuas As variáveis aleatórias discretas são aquelas que podem assumir apenas valores inteiros como o número de indivíduos que apresentam uma determinada doença em uma população o número de dias que um paciente fica na UTI número de mortes entre outras Já as variáveis aleatórias contínuas são aquelas que podem assumir qualquer valor dentro de um intervalo como a altura ou o peso dos pacientes níveis de zinco níveis de glicose taxa de hemoglobina entre muitas outras A partir desse conceito podese definir os modelos de probabilidade Os modelos de probabilidade são técnicas matemáticas que permitem quantificar a incerteza associada a uma variável aleatória e fazer previsões sobre seu comportamento futuro sendo utilizados para descrever a distribuição de probabilidade da variável No geral essa distribuição pode ser representada por uma função matemática chamada de função de densidade de probabilidade variáveis aleatórias contínuas ou função de massa de probabilidade variáveis aleatórias discretas Na pesquisa clínica os modelos de probabilidade são frequentemente usados para avaliar a eficácia de tratamentos médicos e o risco de doenças em diferentes populações Por exemplo um modelo de probabilidade pode ser usado para estimar a probabilidade de que um determinado medicamento seja eficaz em um grupo de pacientes com uma determinada condição médica levando em consideração fatores como a idade o gênero e o histórico médico dos pacientes ou estimar a probabilidade de que um indivíduo desenvolva por exemplo diabetes Leitura do pacote suppressPackageStartupMessagessuppressWarningslibraryLaplacesDemon Determinar as probabilidades PrA c0001 0999 Probabilidade préteste de ter a doença e seu complemento PrBA c095 010 Probabilidade de teste positivo dado que a pessoa tem a doença e Probabilidade de teste positivo dado que a pessoa não tem a doença Uso da função BayesTheorem BayesTheoremPrA PrBA BayesTheoremPrA PrBA1 1 retorna a probabilidade 2 retorna a probabilidade complementar ω Ω X Ω F P Ω ω Ω Xω x x R X Ω R ω Ω Xω x F x R ω Ω Xω x X x com base em seus hábitos alimentares histórico familiar e outros fatores de risco Dentre os modelos de probabilidade disponíveis na literatura neste texto iremos trabalhar em particular com dois deles o modelo normal e o modelo t de Student 361 Modelo Normal Originado nos séculos XVIII e XIX o modelo normal desempenha um papel muito importante na Inferência Estatística sendo o único modelo de probabilidade perfeitamente simétrico isto é o único modelo em que a média mediana e moda são iguais Além disto este modelo tem sua curva em forma de sino simétrica em torno de sua média tal que dispersão dos valores em torno da média é descrita pela variância ou desvio padrão da distribuição que indica a largura da curva Matematicamente uma variável aleatória contínua tem distribuição normal com parâmetros e se sua função densidade de probabilidade for dada por em que é a média populacional é o desviopadrão populacional e A curva gerada por essa função densidade de probabilidade é conhecida como curva normal Figura 1 Figura 1 Representação gráfica da curva normal considerando os parâmetros e Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Muitos fenômenos hoje podem ser explicados por este modelo Em exames radiológicos laboratoriais e clínicos por exemplo o modelo normal é muito usada para estabelecer valores de referência quando se estudam variáveis como densidade óssea taxa de hemoglobina no sangue peso ao nascer entre outras Neste contexto sempre que for razoável pressupor que a variável em estudo tem distribuição normal ou aproximadamente normal podese considerar que o intervalo engloba aproximadamente 68 da população e o intervalo engloba praticamente 95 da população Assim para estabelecer valores de referência com base no modelo normal define se que Qualquer dado dentro do intervalo é normal X μ 0 σ2 x x fx 1 2πσ2 e 1 2 xμ σ 2 μ σ π 3 1415 e 2 7182 μ 30 σ 10 μ σ μ 2σ μ σ Qualquer dado abaixo de ou acima de exige cuidado isto é está acima ou abaixo da média Fogem do padrão de normalidade dados fora do intervalo Exemplo Suponha que em um determinado estudo foram obtidos os pesos ao nascer em quilogramas de uma amostra de 500 bêbes A média obtida nesta amostra foi de 3 kg com um desvio padrão amostral de 055 kg Como a amostra é grande suponha neste caso que as estimativas obtidas correspondem aos parâmetros populacionais Então temse kg kg kg kg Agora podemos considerar com base no modelo normal que os valores de referência para o peso ao nascer são descritos como O bêbe será considerado com peso médio se tiver peso dentro do intervalo kg kg O bêbe será considerado com peso abaixo da média se tiver peso dentro do intervalo kg até kg O bêbe será considerado com peso acima da média se tiver peso dentro do intervalo kg até kg O bêbe com com peso abaixo de 19 kg está fora do padrão de normalidade dos dados O bêbe com peso acima de 41 kg está fora do padrão de normalidade dos dados Cálculo de Probabilidades Modelo Normal Para o cálculo das probabilidades segundo esse modelo devese determinar a área abaixo da curva normal que é obtida integrandose a função densidade de probabilidade Isto é se quisermos encontrar a probabilidade por exemplo de uma variável aleatória X assumir um valor menor ou igual 6 segundo o modelo normal com e precisamos calcular a seguinte integral que graficamente seria equivalente a encontrar a área da seguinte região Figura 2 Área correspondente a probabilidade assumindo um modelo normal com parâmetros e μ σ μ σ μ 2σ μ σ 3 0 55 2 45 μ σ 3 0 55 3 55 μ 2σ 3 2 0 55 1 9 μ 2σ 3 2 0 55 4 1 2 45 3 55 1 9 2 45 2 45 4 1 μ 2 σ 15 PrX 6 dx 6 1 2π 152 e 1 2 x2 15 2 PX 6 μ 2 σ 15 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá No R essa probabilidade pode ser facilmente calculada por meio da função pnorm isto é 1 09961696 No entanto sem o uso do software R não é tão simples encontrar tal probabilidade Neste caso é mais viável trabalhar com uma padronização do modelo normal conhecida como modelo normal padrão obtida quando definimos uma variável aleatória Z tal que Z segue um modelo normal os parâmetros como e usando a seguinte transformação que é chamada de transformação Z do modelo normal A vantagem dessa padronização do modelo normal é as probabilidades são tabeladas Tabelas 2 e 3 não sendo necessário a solução de uma integral para o cálculo de probabilidades Para entender melhor como isso funciona vamos voltar ao nosso exemplo do cálculo da probabilidade de uma variável aleatória X assumir um valor menor ou igual 6 segundo o modelo normal com e Neste caso obtémse que o valor de Z de acordo com a transformação acima é descrito por Logo a probabilidade desejada é equivalente à igualdade onde corresponde a área abaixo da curva normal padrão com Figura 3 Figura 3 Área correspondente a probabilidade assumindo um modelo normal padrão Cálculo de probabilidade Distribuição Normal pnormq 6 mean 2 sd 15 μ 0 σ 1 Z X μ σ μ 2 σ 15 Z 2 67 X μ σ 6 2 1 5 PrX 6 PrZ 2 67 PrZ 2 67 Z 2 67 PrZ 2 67 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Assim para encontrar a probabilidade usando a tabela do modelo normal padrão observese que os dois primeiro dígitos do número 267 correspondem a linha e o terceiro dígito corresponde a coluna isto é a probabilidade é dada pelo valor que se encontra na linha 26 e coluna 7 da tabela do modelo normal padrão Portanto Tabela 2 Probabilidades do Modelo Normal Padrão Valores z positivos z 0 001 002 003 004 005 006 007 008 009 00 0500 0504 0508 0512 0516 0520 0524 0528 0532 0536 01 0540 0544 0548 0552 0556 0560 0564 0567 0571 0575 02 0579 0583 0587 0591 0595 0599 0603 0606 0610 0614 03 0618 0622 0626 0629 0633 0637 0641 0644 0648 0652 04 0655 0659 0663 0666 0670 0674 0677 0681 0684 0688 05 0691 0695 0698 0702 0705 0709 0712 0716 0719 0722 06 0726 0729 0732 0736 0739 0742 0745 0749 0752 0755 07 0758 0761 0764 0767 0770 0773 0776 0779 0782 0785 08 0788 0791 0794 0797 0800 0802 0805 0808 0811 0813 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá PrZ 2 67 PrZ 2 67 PrZ 2 67 0 996 z 0 001 002 003 004 005 006 007 008 009 09 0816 0819 0821 0824 0826 0829 0831 0834 0836 0839 10 0841 0844 0846 0848 0851 0853 0855 0858 0860 0862 11 0864 0867 0869 0871 0873 0875 0877 0879 0881 0883 12 0885 0887 0889 0891 0893 0894 0896 0898 0900 0901 13 0903 0905 0907 0908 0910 0911 0913 0915 0916 0918 14 0919 0921 0922 0924 0925 0926 0928 0929 0931 0932 15 0933 0934 0936 0937 0938 0939 0941 0942 0943 0944 16 0945 0946 0947 0948 0949 0951 0952 0953 0954 0954 17 0955 0956 0957 0958 0959 0960 0961 0962 0962 0963 18 0964 0965 0966 0966 0967 0968 0969 0969 0970 0971 19 0971 0972 0973 0973 0974 0974 0975 0976 0976 0977 20 0977 0978 0978 0979 0979 0980 0980 0981 0981 0982 21 0982 0983 0983 0983 0984 0984 0985 0985 0985 0986 22 0986 0986 0987 0987 0987 0988 0988 0988 0989 0989 23 0989 0990 0990 0990 0990 0991 0991 0991 0991 0992 24 0992 0992 0992 0992 0993 0993 0993 0993 0993 0994 25 0994 0994 0994 0994 0994 0995 0995 0995 0995 0995 26 0995 0995 0996 0996 0996 0996 0996 0996 0996 0996 27 0997 0997 0997 0997 0997 0997 0997 0997 0997 0997 28 0997 0998 0998 0998 0998 0998 0998 0998 0998 0998 29 0998 0998 0998 0998 0998 0998 0998 0999 0999 0999 30 0999 0999 0999 0999 0999 0999 0999 0999 0999 0999 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Tabela 3 Probabilidades do Modelo Normal Padrão Valores z negativos z 0 001 002 003 004 005 006 007 008 009 00 0500 0496 0492 0488 0484 0480 0476 0472 0468 0464 01 0460 0456 0452 0448 0444 0440 0436 0433 0429 0425 02 0421 0417 0413 0409 0405 0401 0397 0394 0390 0386 03 0382 0378 0374 0371 0367 0363 0359 0356 0352 0348 04 0345 0341 0337 0334 0330 0326 0323 0319 0316 0312 05 0309 0305 0302 0298 0295 0291 0288 0284 0281 0278 06 0274 0271 0268 0264 0261 0258 0255 0251 0248 0245 07 0242 0239 0236 0233 0230 0227 0224 0221 0218 0215 08 0212 0209 0206 0203 0200 0198 0195 0192 0189 0187 09 0184 0181 0179 0176 0174 0171 0169 0166 0164 0161 10 0159 0156 0154 0152 0149 0147 0145 0142 0140 0138 11 0136 0133 0131 0129 0127 0125 0123 0121 0119 0117 12 0115 0113 0111 0109 0107 0106 0104 0102 0100 0099 13 0097 0095 0093 0092 0090 0089 0087 0085 0084 0082 14 0081 0079 0078 0076 0075 0074 0072 0071 0069 0068 15 0067 0066 0064 0063 0062 0061 0059 0058 0057 0056 16 0055 0054 0053 0052 0051 0049 0048 0047 0046 0046 17 0045 0044 0043 0042 0041 0040 0039 0038 0038 0037 18 0036 0035 0034 0034 0033 0032 0031 0031 0030 0029 19 0029 0028 0027 0027 0026 0026 0025 0024 0024 0023 20 0023 0022 0022 0021 0021 0020 0020 0019 0019 0018 21 0018 0017 0017 0017 0016 0016 0015 0015 0015 0014 22 0014 0014 0013 0013 0013 0012 0012 0012 0011 0011 23 0011 0010 0010 0010 0010 0009 0009 0009 0009 0008 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá z 0 001 002 003 004 005 006 007 008 009 24 0008 0008 0008 0008 0007 0007 0007 0007 0007 0006 25 0006 0006 0006 0006 0006 0005 0005 0005 0005 0005 26 0005 0005 0004 0004 0004 0004 0004 0004 0004 0004 27 0003 0003 0003 0003 0003 0003 0003 0003 0003 0003 28 0003 0002 0002 0002 0002 0002 0002 0002 0002 0002 29 0002 0002 0002 0002 0002 0002 0002 0001 0001 0001 30 0001 0001 0001 0001 0001 0001 0001 0001 0001 0001 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exemplo Uma das variáveis coletadas nos dados do Registro de Nascimento da Carolina do Norte é o ganho de peso durante a gravidez De acordo tais registros o peso adquirido durante a gravidez segue uma distribuição normal com média de 3023 kg e desviopadrão de 1384 kg Qual seria a probabilidade de que escolhida uma mulher grávida ao acaso desta população ela tenha um ganho de peso a Menor ou igual à 15 kg b Maior ou igual à 40 kg c Entre 15 e 40 kg d O que podese concluir dos resultados obtidos nos Itens a a c Solução De acordo com o enunciado temos as informações kg e kg Assim para o cálculo das probabilidades iremos nos basear no modelo normal padrão isto é a Para encontrar Figura 4 note que pois é nosso objetivo e com as informações anteriores podemos calcular o valor de Z já que Z se relaciona com X pela expressão Figura 4 Área correspondente a probabilidade assumindo um modelo normal com parâmetros e μ 30 23 σ 13 84 PrX 15 X 15 Z 1 10 X μ σ 15 30 23 13 84 PX 15 μ 30 23 σ 13 84 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Assim temos que a probabilidade desejada é a área abaixo da curva normal padrão com Figura 5 que é descrita por Figura 5 Área correspondente a probabilidade assumindo um modelo normal padrão Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Z 1 10 PrX 15 PrZ 1 10 PrZ 1 10 Logo com base na tabela normal na linha 11 e coluna 0 temos que Isto é Portanto a probabilidade de selecionada uma mulher grávida ao acaso desta população ela ter um ganho de peso menor ou igual à 15 kg é de aproximadamente 136 No R essa probabilidade pode ser facilmente calculada por meio da função pnorm isto é 1 01355716 1 01355716 b Neste caso para encontrar Figura 6 note que pois é nosso objetivo e com as informações anteriores podemos calcular o valor de Z já que Z se relaciona com X pela expressão Figura 6 Área correspondente a probabilidade assumindo um modelo normal com parâmetros e PrZ 1 10 0 136 PrX 15 PrZ 1 10 0 136 Cálculo de probabilidade Usando a distribuição normal pnormq 15 mean 3023 sd 1384 Usando a distribuição normal padrão z 15 30231384 pnormq z mean 0 sd 1 PrX 40 X 40 Z 0 71 X μ σ 40 30 23 13 84 PX 40 μ 30 23 σ 13 84 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Assim temos que a probabilidade desejada é a área acima da curva normal padrão com Figura 7 que é descrita por Figura 7 Área correspondente a probabilidade assumindo um modelo normal padrão Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Z 0 71 PrX 40 PrZ 0 71 PrZ 0 71 No entanto a tabela normal trabalha apenas com as probabilidades do tipo menor e não maior então neste caso trabalhamos com o complemento dessa probabilidade que seria correspondente isto é Logo com base na tabela normal na linha 07 e coluna 1 temos que Isto é Portanto a probabilidade de selecionada uma mulher grávida ao acaso desta população ela ter um ganho de peso maior ou igual à 40 kg é de aproximadamente 239 No R essa probabilidade pode ser facilmente calculada por meio da função pnorm com argumento lowertail FALSE isto é 1 02401174 1 02401174 c Neste caso para encontrar Figura 8 devemos notar primeiramente que e já engloba a probabilidade Logo devese excluir essa repetição Assim o cálculo da probabilidade expressa pela Figura 5 é equivalente ao cálculo Figura 8 Área correspondente a probabilidade assumindo um modelo normal com parâmetros e PrX 40 PrZ 0 71 1 PrZ 0 71 PrZ 0 71 0 76 PrX 40 PrZ 0 71 1 PrZ 0 71 1 0 761 0 239 Cálculo de probabilidade Usando a distribuição normal pnormq 40 mean 3023 sd 1384 lowertail FALSE Usando a distribuição normal padrão z 40 30231384 pnormq z mean 0 sd 1 lowertail FALSE Pr15 X 40 PrX 15 1 PrX 15 PrX 40 PrX 15 Pr15 X 40 Pr15 X 40 PrX 40 PrX 15 P15 X 40 μ 30 23 σ 13 84 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Dos resultados dos Itens a e b temse que E daí Portanto a probabilidade de selecionada uma mulher grávida ao acaso desta população ela ter um ganho de peso entre 15 kg e 40 kg é de aproximadamente 625 No R essa probabilidade pode ser facilmente calculada por meio da função pnorm isto é 1 06243109 PrX 40 0 761 PrX 15 0 136 Pr15 X 40 PrX 40 PrX 15 0 761 0 136 0 625 Cálculo de probabilidade Usando a distribuição normal pnormq 40 mean 3023 sd 1384 pnormq 15 mean 3023 sd 1384 Usando a distribuição normal padrão z1 40 30231384 z2 15 30231384 pnormq z1 mean 0 sd 1 pnormq z2 mean 0 sd 1 1 06243109 d Concluise então dos cenários apresentados anteriormente que é mais provável que selecionada uma mulher grávida ao acaso desta população ela tenha um ganho de peso entre 15 kg e 40 kg 362 Modelo t de Student Originado no século XIX o modelo t de Student é um modelo de probabilidade semelhante ao modelo normal mas com um maior grau de incerteza Enquanto a distribuição normal é usada para descrever a distribuição de uma população completa a distribuição t de Student é usada para descrever a distribuição de uma amostra aleatória retirada de uma população quando o tamanho da amostra é pequeno e a variância da população é desconhecida A função densidade de probabilidade é para este modelo é definida por em que são os graus de liberdade e é a função gama A curva gerada por essa função densidade de probabilidade é conhecida como curva t Figura 10 Figura 9 Representação gráfica da curva t considerando os parâmetros e Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Assim como o modelo normal o modelo t de Student também tem uma forma de sino mas com uma média de zero e um desvio padrão que depende do tamanho da amostra e da variância desconhecida da população Quando o tamanho da amostra é pequeno a distribuição t de Student tem uma maior probabilidade de produzir valores extremos em relação à distribuição normal o que reflete a maior incerteza nos dados Este modelo em particular é amplamente utilizado para testes de hipóteses e intervalos de confiança É também utilizado em análise de regressão para modelar a incerteza dos coeficientes de regressão quando a amostra é pequena Cálculo de Probabilidades Modelo t de Student x x fx Γ ν1 2 νπΓ ν 2 1 x2 ν ν1 2 ν Γ ν 5 ν 15 ν 30 Para o cálculo das probabilidades segundo esse modelo devese determinar a área abaixo da curva t que é obtida integrandose a função densidade de probabilidade Isto é se quisermos encontrar a probabilidade por exemplo de uma variável aleatória X assumir um valor menor ou igual 1 segundo o modelo t de Student com precisamos calcular a seguinte integral que graficamente seria equivalente a encontrar a área da seguinte região Figura 10 Área correspondente a probabilidade assumindo um modelo t de Student com parâmetros Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá No entanto sem o uso de algum software não é tão simples encontrar tal probabilidade devido a complexidade da integral do modelo Sendo assim se o objetivo for calcular probabilidades usando o modelo t de Student iremos trabalhar diretamente com o R Neste cado considerando nosso exemplo a probabilidade desejada pode ser facilmente calculada por meio da função pt isto é 1 08334149 363 Modelo QuiQuadrado O modelo quiquadrado é uma distribuição de probabilidade contínua que surge no contexto de testes estatísticos como o teste quiquadrado Ela é definida pela soma dos quadrados de variáveis aleatórias independentes e padronizadas seguindo uma distribuição normal padrão e sua forma é determinada pelo número de graus de ν 15 PrX 1 dx 1 Γ 151 2 Γ 15π 15u 2 1 x2 15 151 2 PX 1 ν 15 Cálculo de probabilidade Distribuição t de Student ptq 1 df 15 liberdade gl que é igual ao número de variáveis aleatórias independentes que são somadas A distribuição quiquadrado tem uma única cauda positiva o que significa que a maior parte da probabilidade está concentrada em valores positivos devido ao fato de que a soma dos quadrados de variáveis aleatórias é sempre não negativa Além disso essa distribuição é uma distribuição assimétrica com uma cauda mais longa à direita Sua função densidade de probabilidade é definida por em que representa os graus de liberdade e é a função gama A curva gerada por essa função densidade de probabilidade é conhecida como curva quiquadrado Figura 1 e para o cálculo das probabilidades segundo esse modelo devese determinar a área abaixo da curva quiquadrado Figura 11 Representação gráfica da curva quiquadrado com 20 graus de liberdade Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Cálculo de Probabilidades Modelo QuiQuadrado Para o cálculo das probabilidades segundo esse modelo devese determinar a área abaixo da curva quiquadrado que é obtida integrandose a função densidade de probabilidade Isto é se quisermos encontrar a probabilidade por exemplo de uma variável aleatória X assumir um valor menor ou igual 1 segundo o modelo quiquadrado de Student com precisamos calcular a seguinte integral que graficamente seria equivalente a encontrar a área da seguinte região Figura 12 Área correspondente a probabilidade assumindo um modelo quiquadrado com parâmetro fx x k 1 2 e x 2 Γ 2 k 2 k 2 k Γ k 20 k 5 PrX 1 dx 1 x 5 1 2 e x 2 Γ 2 5 2 5 2 PX 1 k 5 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá No entanto sem o uso de algum software não é tão simples encontrar tal probabilidade devido a complexidade da integral do modelo Sendo assim se o objetivo for calcular probabilidades usando o modelo quiquadrado iremos trabalhar diretamente com o R Neste cado considerando nosso exemplo a probabilidade desejada pode ser facilmente calculada por meio da função pchisq isto é 1 003743423 37 Exercícios de Revisão Exercício 1 Pillmann et al 2003 estudaram pacientes com episódios agudos de psicoses Os pesquisadores classificaram os sujeitos em quatro tipos de personalidade obsessóide astênicobaixa autoconfiança astênicoalta autoconfiança nervosotenso e indeterminado A Tabela 4 cruza esses tipos de personalidade com três grupos de sujeitos aqueles com transtornos psicóticos agudos e transitórios ATPD aqueles com esquizofrenia positiva PS e aqueles com transtorno esquizoafetivo bipolar BSAD Com base nesta tabela calcule e interprete as seguintes probabilidades a b c d e Cálculo de probabilidade Distribuição t de Student pchisqq 1 df 5 PrO PrA 2 Pr1 Pr A PrA 3 f g h Tabela 4 Frequência do dos tipos de personalidade em episódios agudos de psicoses classificados de acordo com os grupos de interesse Tipo de Personalidade ATPD 1 PS 2 BSAD 3 Total Obsessóide O 9 2 6 17 AstênicoBaixa Autoconfiança A 20 17 15 52 AstênicoAlta Autoconfiança S 5 3 8 16 NervosoTenso N 4 7 4 15 Indeterminado U 4 13 9 26 Total 42 42 42 126 Fonte Pillmann F Blöink R Balzuweit S Haring A Marneros A 2003 Personality and social interactions in patients with acute brief psychoses The Journal of Nervous and Mental Disease 1918 503508 Exercício 2 A importância da fisioterapia na prevenção de quedas em idosos vem sendo estudada por muitos pesquisadores Em uma população de idosos foi implantado por fisioterapeutas um programa de prevenção de quedas que contou com a adesão de 30 dos integrantes Seis meses após a implementação do programa verificouse que 53 dos idosos dentre todos que aderiram ou não ao programa sofreram uma queda Os fisioterapeutas observaram que entre todos os idosos da população 7 sofreram uma queda e participaram do programa Neste contexto suponha que um indivíduo dessa população tenha sido selecionado ao caso qual é a probabilidade de ele a Não ter participado do programa e ter sofrido uma queda b Ter participado do programa e não ter sofrido uma queda c Não ter participado do programa e nem ter sofrido uma queda d Ter sofrido uma queda dado que participou do programa e Ter sofrido uma queda dado que não participou do programa f Ao comparar os resultados encontrados nos Itens 4 e 5 temos alguma evidência de que o programa cumpriu com seu objetivo Justifique sua resposta Exercício 3 Uma fonoaudióloga está investigando a possível associação entre o tabagismo o etilismo alcoolismo e um determinado distúrbio de voz Em uma comunidade em que 6 dos indivíduos são portadores desse distúrbio de voz e 24 são tabagistas todos os indivíduos etilistas são tabagistas mas nem todos os tabagistas são etilistas Notase que 3 dos indivíduos são ao mesmo tempo tabagistas etilistas e portadores do distúrbio de voz É conhecido também que 7 dos indivíduos são ao mesmo tempo tabagistas e etilistas e que 5 dos indivíduos são ao mesmo tempo tabagistas e portadores do distúrbio de voz Neste contexto suponha que um indivíduo dessa população tenha sido selecionado ao caso qual é a probabilidade de ele a Ser etilista b Ser portador do distúrbio de voz dado que ele é tabagista c Ser portador do distúrbio de voz dado que ele é etilista Pr 3 Pr2 3 Pr2 A Exercício 4 Rothenberg et al 2004 investigaram a eficácia do uso do Sahara Sonometer da Hologic um dispositivo portátil que mede a densidade mineral óssea DMO no tornozelo na predição de uma fratura Eles usaram um valor estimado de densidade mineral óssea da Hologic de 057 como ponto de corte Os resultados da investigação produziram os seguintes dados espostos na Tabela 5 Com base nesta tabela faça o que se pede a Calcule a sensibilidade e a especificidade do uso de um valor de DMO de 057 como ponto de corte na predição de fratura e interprete seus resultados b Calcule os valores preditivos positivo e negativo do uso de um valor de DMO de 057 como ponto de corte na predição de fratura e interprete seus resultados Tabela 5Dados referentes a eficácia do uso do Sahara Sonometer da Hologic na predição de uma fratura Presente P Ausente A Total DMO 057 T 214 670 884 DMO 057 F 73 330 403 Total 287 1000 1287 Fonte Rothenberg R J Boyd J L Holcomb J P 2004 Quantitative ultrasound of the calcaneus as a screening tool to detect osteoporosis different reference ranges for caucasian women african american women and caucasian men Journal of clinical densitometry 71 101110 Exercício 5 Verma et al 2003 examinaram o uso do teste de triagem heparinaPF4 ELISA para trombocitopenia induzida por heparina HIT em pacientes gravemente enfermos Usando o ensaio de liberação de serotonina C SRA como forma de validar a HIT os autores descobriram que em 31 pacientes que testaram negativo pelo SRA 22 também testaram negativo pelo heparinPF4 ELISA a Calcule a especificidade do teste heparinPF4 ELISA para a HIT b Usando uma sensibilidade derivada da literatura de 95 e uma probabilidade prévia de ocorrência de HIT de 31 encontre o valor preditivo positivo c Usando as mesmas informações da parte b encontre o valor preditivo negativo Exercício 6 Suponha que em um determinado estudo foram obtidos os valores de creatinofosfoquinase CPK em UL de uma amostra de 500 adultos A média obtida nesta amostra foi de 250 UL com um desvio padrão amostral de 30 UL Como a amostra é grande suponha neste caso que as estimativas obtidas correspondem aos parâmetros populacionais Com base nessas informações e no modelo normal determine os valores de referência para a creatinofosfoquinase CPK Exercício 7 Diskin et al 2003 estudaram metabólitos comuns na respiração como amônia acetona isopreno etanol e acetaldeído em cinco indivíduos ao longo de um período de 30 dias Em cada dia amostras de respiração foram coletadas e analisadas pela manhã cedo na chegada ao laboratório Para o sujeito A uma mulher de 27 anos a concentração de amônia em partes por bilhão ppb seguiu uma distribuição normal ao longo de 30 dias com média de 491 e desvio padrão de 119 Qual é a probabilidade de que em um dia aleatório a concentração de amônia do sujeito esteja entre 292 e 649 ppb Exercício 8 Se os valores totais de colesterol de uma determinada população são aproximadamente normal distribuídos com uma média de 200 mg100 ml e um desvio padrão de 20 mg100 ml encontre a probabilidade de que um indivíduo escolhido aleatoriamente desta população tenha um valor de colesterol a Entre 180 e 200 mg100 ml b Maior que 225 mg100 ml c Menor que 150 mg100 ml d Entre 190 e 210 mg100 ml Exercício 9 O Uptimer é um monitor de atividade leve alimentado por bateria e feito sob medida que registra o tempo que um indivíduo passa na posição vertical Em um estudo de crianças entre 8 e 15 anos Eldridge et al 2003 estudaram 529 crianças com desenvolvimento normal que usaram o Uptimer continuamente por um período de 24 horas que incluía um dia escolar típico Os pesquisadores descobriram que o tempo que as crianças passaram na posição vertical seguia uma distribuição normal com média de 54 horas e desvio padrão de 13 horas Suponha que essa descoberta se aplique a todas as crianças de 8 a 15 anos Encontre a probabilidade de que uma criança selecionada aleatoriamente passe menos de 3 horas na posição vertical em um período de 24 horas Exercício 10 Suponha que a altura de indivíduos adultos em uma determinada população é distribuída normalmente com média de 170cm e desvio padrão de 5cm A obesidade é definida como um índice de massa corporal IMC maior ou igual a 30 O IMC é calculado dividindose o peso em quilogramas pela altura em metros elevada ao quadrado a Qual é a probabilidade de um indivíduo selecionado aleatoriamente desta população ser obeso b Suponha que um estudo de saúde foi realizado nesta população e descobriuse que a média de IMC dos indivíduos obesos é 35 Qual é a probabilidade de um indivíduo selecionado aleatoriamente desta população ter um IMC menor ou igual a 30 Capítulo IV Noções de Inferência Estatística Paramétrica 41 Introdução Não é novidade que muitos estudos apresentam em certas situações resultados inconclusivos Por exemplo por décadas os cirurgiões consideraram que a mastectomia radical era a única forma de tratar o câncer de mama porém ensaios clínicos mais recentes com metodologia cuidadosamente projetada mostraram que tratamentos menos invasivos parecem ser igualmente eficazes Isso nos leva a questão por que os estudos nem sempre são precisos Uma das respostas dessa pergunta é que a natureza é complexa e apresenta variabilidade biológica inexplicada Todavia uma outra resposta mais adequada ao contexto da Bioestatística seria de que os métodos de observação e experimentação são imperfeitos o que torna os resultados suscetíveis a erros e viéses humanos A ciência é uma história em constante evolução com diferentes assuntos e variações nas medidas Especialmente na ciência biomédica há controvérsias e discordâncias e mesmo com a melhor das intenções os dados médicos históricos exames físicos interpretações de testes clínicos descrições de sintomas e doenças podem ser imprecisos Porém a nossa maior questão ainda é lidar com a informação incompleta uma vez que em geral é impossível ou muito caro estudar toda a população sendo necessário confiar em informações obtidas de um subgrupo da população estudada chamada de amostra Este processo de confiança em informações amostrais é chamado na literatura de tomada de decisão A tomada de decisões sobre uma população com base em estudos feitos sobre os dados amostrais constitui o problema central núcleo da Inferência Estatística Para tomar decisões estatísticas os pesquisadores devem avaliar a probabilidade de que as diferenças ou semelhanças observadas na amostra ocorram por acaso ou se elas refletem diferenças reais na população Neste sentido é comum utilizar os intervalos de confiança ou os testes de hipóteses Capítulo V que envolvem a formulação de uma hipótese nula não há diferença ou efeito na população e uma hipótese alternativa há uma diferença ou efeito real na população Mas antes de trabalhar com esses conceitos alguns conceitos prévios devem estar bem definidos como por exemplo o conceito de parâmetro e estimativa e o conceito das distribuições amostrais que serão descritos aos detalhes nas próximas seções 42 Parâmetros e Estimativas Em Estatística um parâmetro é uma medida numérica que resumem as características de uma população e é calculado a partir de todos os elementos dessa população sendo representados por letras gregas Por exemplo em um estudo que investiga a taxa de incidência de câncer de mama em uma determinada população o parâmetro pode ser a taxa real de incidência de câncer de mama em toda a população em estudo É importante destacar que em geral é impossível calcular o parâmetro para toda a população uma vez que isso exigiria a avaliação de todos os elementos da população o que é impraticável na maioria dos casos Por outro lado uma estimativa é uma medida numérica obtida a partir de uma amostra aleatória selecionada de uma população e é usada para fazer generalizações ou inferências sobre os parâmetros da população como um todo sendo representadas por letras de nosso alfabeto latino Por exemplo no mesmo estudo sobre a taxa de incidência de câncer de mama uma estimativa seria a taxa de incidência de câncer de mama em uma amostra de mulheres selecionada aleatoriamente a partir da população em estudo É importante destacar que as estimativas sempre envolvem uma margem de erro que depende do tamanho da amostra e da variabilidade dos dados Essa margem de erro deve ser levada em consideração ao interpretar os resultados do estudo 43 Distribuições Amostrais Por definição uma distribuição amostral é a distribuição de todas as possíveis estatísticas que podem ser calculadas a partir de amostras aleatórias de uma mesma população Por exemplo se tirarmos várias amostras aleatórias de tamanho da mesma população e calculamos a média de cada amostra então pdemos construir uma distribuição de probabilidade com essas médias que na literatura é conhecida como distribuição amostral da média Em geral as distribuições amostrais servem a dois propósitos 1 nos permitir responder a perguntas de probabilidade sobre estatísticas amostrais e 2 fornecer a teoria necessária para tornar os procedimentos de Inferência Estatística válidos Na área da saúde as distribuições amostrais são muito utilizadas para realizar inferências sobre a eficácia de tratamentos por exemplo Suponha que um novo medicamento foi desenvolvido e testado em uma amostra de pacientes com uma determinada doença Se a distribuição amostral da estatística de interesse como a média da melhora nos sintomas é conhecida é possível calcular a probabilidade de que a diferença observada na amostra ocorra simplesmente por acaso ou se ela é realmente uma diferença significativa e representa um efeito real do medicamento 431 Distribuição Amostral da Média A distribuição amostral da média é uma distribuição de probabilidade teórica que descreve as possíveis médias amostrais que podem ser obtidas de uma população específica Neste caso para trabalhar com tal distribuição é preciso primeiro entender que as amostras são geralmente retiradas de uma população que é um grupo maior de indivíduos ou observações com características semelhantes Isto é quando uma amostra é retirada de uma população a média amostral terá um resultado Mas se retirarmos várias amostras diferentes da mesma população cada uma delas terá uma média diferente Então a distribuição amostral da média descreve a frequência com que cada uma dessas médias amostrais pode ocorrer μ σ γ S x x n X Para deixar esse conceito mais claro suponha que temos uma população que consiste nas idades de cinco crianças internadas em um determinado hospital As idades das crianças são e tal que segue uma distribuição normal com parâmetros e Suponha agora que temos por objetivo retirar todas as amostras possíveis de tamanho dessa população Essas amostras junto as respectivas médias são exibidas na Tabela 1 Tabela 1 Todas as possíveis amostras de tamanho n 2 de uma população de tamanho N 5 consistente nas idades de cinco crianças internadas em um determinado hospital Segundo Sorteio 6 8 10 12 14 6 6 6 6 8 6 10 6 12 6 14 Média 6 Média 7 Média 8 Média 9 Média 10 8 8 6 8 8 8 10 8 12 8 14 Média 7 Média 8 Média 9 Média 10 Média 11 Primeiro 10 10 6 10 8 10 10 10 12 10 14 Sorteio Média 8 Média 9 Média 10 Média 11 Média 12 12 12 6 12 8 12 10 12 12 12 14 Média 9 Média 10 Média 11 Média 12 Média 13 14 14 6 14 8 14 10 14 12 14 14 Média 10 Média 11 Média 12 Média 13 Média 14 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá A partir da Tabela 1 podemos então construir a distribuição amostral da média listando resumidamente os valores das médias amostrais obtidas em uma tabela de frequências conforme a Tabela 2 Nesta tabela podemos observar que as médias amostrais satisfazem as condições de probabilidade uma vez que as probabilidades individuais frequências relativas são maiores do que zero e ao serem somadas a soma é igual um Em outras palavras a distribuição amostral das médias é uma distribuição de probabilidade cujo o comportamento neste caso é expresso pelo histograma dado na Figura 1 Tabela 2 Distribuição de frequências das médias amostrais de todas as possíveis amostras de tamanho n 2 de uma população de tamanho N 5 consistente nas idades de cinco crianças internadas em um determinado hospital Médias Frequência Absoluta Frequência Relativa 6 1 004 7 2 008 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá 6 8 10 12 x1 x2 x3 x4 14 x5 X X1 X2 X3 X4 X5 μ 10 8 σ2 n 2 Médias Frequência Absoluta Frequência Relativa 8 3 012 9 4 016 10 5 020 11 4 016 12 3 012 13 2 008 14 1 004 Total 25 100 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Figura 1 Comportamento da distribuição das médias amostrais de todas as possíveis amostras de tamanho n 2 de uma população de tamanho N 5 consistente nas idades de cinco crianças internadas em um determinado hospital Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Uma vez que a distribuição amostral da média satisfaz as condições de probabilidade podemos caracterizala por meio de duas medidas a média e a variância ou desviopadrão que aqui será chamado de erropadrão Neste caso se calcularmos a média dessa distribuição obtemos a seguinte relação 6 7 13 14 250 que é exatamente igual a média da população de onde as amostras foram retiradas Por outro lado em relação a variância obtemos que a mesma para a distribuição amostral da média é dada pela relação que neste caso é igual a variância da população de onde as amostras foram retiradas dividida pelo tamanho de amostra considerado para criação da distribuição amostral que neste caso é igual a 2 Sem perda de generalidade podemos escrever os parâmetros da distribuição amostral das médias da seguinte forma e em que e são os parâmetros populacionais O conhecimento dessa distribuição amostral nos permitirá fazer declarações de probabilidade sobre quão próximo a média amostral está da média populacional Sendo assim para o cálculo de probabilidades relativo podemos nos basear na transformação que neste caso é dada por tal que a medida que Esse resultado simplifica um dos teoremas mais importantes da Estatística o Teorema do Limite Central que nos diz de forma geral que dada uma população de qualquer forma funcional nãonormal com uma média e variância finita a distribuição amostral de calculada a partir de amostras de tamanho desta população terá média e variância e será aproximadamente normal distribuída quando o tamanho da amostra for grande Exemplo O National Health and Nutrition Examination na pesquisa de 19881994 estimou que o nível médio de colesterol sérico para mulheres americanas com idades entre 2074 anos é de 204 mgdl A estimativa do desvio padrão foi de aproximadamente 44 mgdl Usando as estimativas obtidas como média e desvio padrão para a população dos Estados Unidos considere a distribuição amostral da média amostral com base em amostras de tamanho 50 de mulheres nessa faixa etária a Qual é a média da distribuição amostral das médias b Qual é o erro padrão da distribuição amostral das médias c Qual a probabilidade de que selecionada uma amostra ao acaso o nível médio de colesterol nesta amostra seja inferior ou igual a 215 mgdl Solução Com base na definição de distribuição amostral da média observamos que os parâmetros da mesma média e erropadrão são descritos respectivamente pelas seguintes equações e a Como mgdl e mgdl temse que a média da distribuição amostral das médias neste caso é descrita por 10 μX 6 7 13 14 25 250 25 4 σ2 X 6 10 2 14 10 2 25 100 25 μ Média μX ErroPadrão σ2 X σ2 n σX σ n μ σ μ Zx Zx x μX σX Zx Normal0 1 n μ σ2 x n μ n σ2 μ Média μX ErroPadrão σ2 X σ2 n σX σ n n 50 μ 204 σ 44 μX μ 204 mgdl b Com os dados descritos no Item a obtemos que o erropadrão da distribuição amostral das médias neste caso é descrito por c Para encontrar a probabilidade de que selecionada uma amostra ao acaso o nível médio de colesterol nesta amostra seja inferior ou igual a 215 mgdl Figura 2 com as informações anteriores descritas nos Itens a e b podemos calcular o valor de já que se relaciona com pela expressão Figura 2 Área correspondente a probabilidade assumindo um modelo normal com parâmetros e e um tamanho amostral Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Assim temos que a probabilidade desejada é a área abaixo da curva de Figura 3 que é descrita por Figura 3 Área correspondente a probabilidade assumindo um modelo normal padrão 6 223 σX σ n 44 50 ZX ZX X 1 77 ZX x μX σX 215 204 6 223 P X 215 204 μX σX 6 223 n 50 1 77 ZX Pr 215 Pr 1 77 X ZX Pr ZX 1 77 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Logo com base na tabela da normal na linha 17 e coluna 7 obtemos que Isto é Portanto a probabilidade de selecionada uma amostra ao acaso desta população ela ter média de colesterol menor ou igual à 215 mgdl é de aproximadamente 962 No R essa probabilidade pode ser facilmente calculada por meio da função pnorm isto é 1 09614501 Pr 1 77 0 962 ZX Pr 215 Pr 1 77 0 962 X ZX Cálculo de probabilidade Distribuição Amostral da Média mediapop 204 despadpop 44 amostra 50 erropadrao despadpopsqrtamostra Usando a distribuição normal pnormq 215 mean mediapop sd erropadrao Usando a distribuição normal padrão z 215 mediapoperropadrao pnormq z mean 0 sd 1 1 09614501 432 Distribuição Amostral da Diferença de Médias A segunda distribuição amostral que temos é a distribuição amostral da diferença de médias A distribuição amostral da diferença de médias é uma distribuição de probabilidade teórica que representa todas as possíveis diferenças de médias que poderiam ser obtidas de duas amostras da mesma população Sendo assim essa distribuição é obtida através de um processo de amostragem aleatória onde várias amostras de tamanho e são retiradas da população e a diferença entre as médias amostrais é calculada para cada par de amostras Como resultado deste processo a distribuição amostral da diferença de médias é tem distribuição aproximadamente normal quando as seguintes condições são satisfeitas As amostras são independentes entre si Cada amostra é retirada de uma população normalmente distribuída ou quando e são grandes o suficiente e As variâncias das populações são iguais Em termos de parâmetros as características dessa distribuição amostral são 1 o estimador da diferença de médias da distribuição amostral de é descrito por onde é a média populacional da primeira amostra e é a média populacional da segunda amostra 2 se as duas amostras são independentes o erropadrão da distribuição amostral da diferença de médias é descrito por onde e são variâncias das duas populações sendo amostradas e e são os respectivos tamanhos amostrais Neste caso o conhecimento dessa distribuição amostral nos permitirá fazer declarações de probabilidade sobre quão próximo a diferença de médias amostrais está da diferença de médias populacionais Sendo assim para o cálculo de probabilidades relativo podemos nos basear na transformação que neste caso é dada por tal que a medida que Exemplo Suponha que tenha sido estabelecido que para um determinado tipo de paciente o tempo médio de uma visita domiciliar por um enfermeiro de saúde pública é de 45 minutos com um desvio padrão de 15 minutos e que para um segundo tipo de paciente a visita domiciliar dura em média 30 minutos com um desvio padrão de 20 minutos Se um enfermeiro visitar aleatoriamente 35 pacientes do primeiro grupo e 40 do segundo grupo qual é a probabilidade de que o tempo médio de visita domiciliar difira entre os dois grupos em 20 minutos ou mais Solução Note que não há menção à distribuição das duas populações então vamos assumir que essa característica é desconhecida ou que as populações não são distribuídas normalmente No entanto uma vez que os tamanhos das amostras são grandes maiores que 30 em ambos os casos podemos trabalhar com os resultados do Teorema do Limite Central para responder à pergunta feita Neste caso de acordo com o enunciado temos as informações com e com e Logo os parâmetros da distribuição amostral da diferença de médias são dados respectivamente pelas expressões e X1 X2 n1 n2 n1 n2 n1 30 30 n2 X1 X2 μ x1 x2 μ1 μ2 μ1 μ2 σ X1 X2 σ2 1 n1 σ2 2 n2 σ2 1 σ2 2 n1 n2 μ1 μ2 Z X1 X2 Z X1 X2 x1 x2 μ X1 X2 σ X1 X2 Normal0 1 Z X1 X2 n μ1 45 σ1 15 n1 35 μ2 30 σ2 20 40 n2 45 30 15 μ x1 x2 μ1 μ2 Assim a probabilidade de que nestas duas amostras o tempo médio de visita domiciliar difira entre os dois grupos em 20 minutos ou mais Figura 4 pode ser aproximada para o modelo normal por meio do valor de já que se relaciona com pela expressão Figura 4 Área correspondente a probabilidade assumindo um modelo normal com parâmetros e e tamanhos amostrais e Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Assim temos que a probabilidade desejada é a área acima da curva de Figura 5 que é descrita por Figura 5 Área correspondente a probabilidade assumindo um modelo normal padrão 4 0532 σ X1 X2 σ2 1 n1 σ2 2 n2 152 35 202 40 Z X1 X2 Z X1 X2 X1 X2 1 23 Z X1 X2 x1 x2 μ X1 X2 σ X1 X2 20 15 4 0532 P 20 X1 X2 15 μ X1 X2 4 0532 σ X1 X2 n1 35 40 n2 Z X1 X2 Pr 20 Pr 1 23 X1 X2 Z X1 X2 Pr 1 23 Z X1 X2 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá No entanto a tabela normal trabalha apenas com as probabilidades do tipo menor e não maior então neste caso trabalhamos com o complemento dessa probabilidade que seria correspondente isto é Logo com base na tabela da normal na linha 12 e coluna 3 obtemos que Isto é Portanto a probabilidade de que nestas duas amostras o tempo médio de visita domiciliar difira entre os dois grupos em 20 minutos ou mais é de 0109 ou aproximadamente 109 No R essa probabilidade pode ser facilmente calculada por meio da função pnorm com o argumento lowertail FALSE isto é 1 01086783 Pr 20 Pr 1 23 1 Pr 1 23 X1 X2 Z X1 X2 Z X1 X2 Pr 1 23 0 891 Z X1 X2 Pr 20 Pr 1 23 1 Pr 1 23 1 0 891 0 109 X1 X2 Z X1 X2 Z X1 X2 Cálculo de probabilidade Distribuição Amostral da Proporção diffmediapop 45 30 desviopadrao1 15 desviopadrao2 20 amostra1 35 amostra2 40 erropadrao sqrtdesviopadrao12amostra1 desviopadrao22amostra2 Usando a distribuição normal pnormq 20 mean diffmediapop sd erropadrao lowertail FALSE 1 01086783 433 Distribuição Amostral da Proporção Por fim além da distribuição amostral da média e da diferença de médias há uma outra distribuição amostral de suma importância no estudo de Inferência Estatística que é a distribuição amostral da proporção A distribuição amostral da proporção é uma distribuição de probabilidade que representa a variabilidade das proporções em amostras aleatórias de uma população sendo caracterizada por uma distribuição de Bernoulli com média igual à proporção populacional e desvio padrão igual à raiz quadrada da proporção populacional multiplicada pela proporção de não ocorrência do evento em questão No entanto sempre que em virtude do Teorema do limite Central essa distribuição pode ser aproximada para uma distribuição normal com parâmetros em que representa a proporção populacional Neste caso o conhecimento dessa distribuição amostral nos permitirá fazer declarações de probabilidade sobre quão próximo a proporção amostral está da proporção populacional Sendo assim para o cálculo de probabilidades relativo podemos nos basear na transformação que neste caso é dada por tal que a medida que Na área da saúde por exemplo essa distribuição amostral pode ser utilizada para avaliar a proporção de indivíduos em uma população que têm diabetes ou a proporção de indivíduos que receberam uma determinada vacina Exemplo Em seu estudo Smith et al 2002 realizaram uma análise retrospectiva de dados de 782 pacientes admitidos com infarto do miocárdio em uma clínica de cardiologia com 46 leitos Destes pacientes 248 relataram que tiveram um infarto do miocárdio anteriormente Neste contexto utilizando como a proporção da população e supondo que 50 pacientes sejam escolhidos aleatoriamente da população qual é a probabilidade de que nesta amostra mais de 40 dos pacientes relatem à ocorrência de infartos do miocárdio anteriores Solução De acordo com o enunciado temos as informações ou 32 e e daí os parâmetros da distribuição amostral da proporção são dados respectivamente pelas expressões e Usando a distribuição normal padrão z 20 diffmediapoperropadrao pnormq z mean 0 sd 1 lowertail FALSE ρ n 30 ρ Média μρ ErroPadrão σρ ρ1 ρ n ρ ρ Zρ Zρ ρ μρ σρ Zρ Normal0 1 n 248782 0 317 32 ρ 0 317 n 50 ρ 0 317 μρ 0 066 σρ ρ1 ρ n 0 3171 0 317 50 Assim a probabilidade de que nesta amostra mais do que 40 dos pacientes relatem à ocorrência de infartos do miocárdio Figura 6 pode ser aproximada para o modelo normal por meio do valor de já que se relaciona com pela expressão Figura 6 Área correspondente a probabilidade assumindo um modelo normal com parâmetros e e um tamanho amostral Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Assim temos que a probabilidade desejada é a área acima da curva de Figura 7 que é descrita por Figura 7 Área correspondente a probabilidade assumindo um modelo normal padrão Zρ Zρ ρ 1 26 Zρ ρ μρ σρ 0 400 0 317 0 066 P 040 ρ μρ 0 317 σρ 0 066 n 50 Zρ Pr 40 Pr 1 26 ρ Zρ Pr Zρ 1 26 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá No entanto a tabela normal trabalha apenas com as probabilidades do tipo menor e não maior então neste caso trabalhamos com o complemento dessa probabilidade que seria correspondente isto é Logo com base na tabela da normal na linha 12 e coluna 6 obtemos que Isto é Portanto a probabilidade de que nesta amostra mais do que 40 dos pacientes relatem à ocorrência de infartos do miocárdio anteriores é de 0104 ou aproximadamente 104 No R essa probabilidade pode ser facilmente calculada por meio da função pnorm com o argumento lowertail FALSE isto é 1 01039954 Pr 40 Pr 1 26 1 Pr 1 26 ρ Zρ Zρ Pr 1 26 0 896 Zρ Pr 40 Pr 1 26 1 Pr 1 26 1 0 896 0 104 ρ Zρ Zρ Cálculo de probabilidade Distribuição Amostral da Proporção proppop 248782 amostra 50 erropadrao sqrtproppop 1 proppopamostra Usando a distribuição normal pnormq 0400 mean proppop sd erropadrao lowertail FALSE 1 01039954 44 Intervalos de Confiança Os intervalos de confiança são uma das principais ferramentas estatísticas para trabalhar com inferência sobre parâmetros populacionais a partir de uma amostra Por exemplo na área saúde estes intervalos são utilizados em ensaios clínicos para testar a eficácia de um novo medicamento ou tratamento Nesses estudos tais intervalos são usados para avaliar a significância estatística dos resultados indicando se o tratamento é estatisticamente significativo ou não e também para estimar o tamanho do efeito do tratamento ou seja a magnitude da diferença entre o grupo de tratamento e o grupo de controle Em geral para obter uma estimativa mais precisa do parâmetro populacional é importante levar em consideração a incerteza associada à amostra Os intervalos de confiança fornecem uma maneira de quantificar essa incerteza fornecendo uma faixa de valores plausíveis para o parâmetro populacional com uma determinada probabilidade de confiança Por exemplo um intervalo de confiança de 95 significa que se a amostra fosse reamostrada muitas vezes em 95 das vezes o parâmetro populacional estaria dentro do intervalo calculado No entanto para amostras pequenas ou quando a distribuição da população não é normal ou o desviopadrão populacional é desconhecido é necessário utilizar outras distribuições para calcular o intervalo de confiança Por exemplo o intervalo de confiança para a média populacional de uma distribuição normal com desvio padrão desconhecido pode ser calculado usando a distribuição t de Student Em suma os intervalos de confiança são uma ferramenta poderosa para a inferência estatística mas é importante usálos corretamente e interpretálos adequadamente Por exemplo não se deve usar um intervalo de confiança para tirar conclusões sobre causalidade caso isso seja feito o nosso estudo irá trazer conclusões errôneas Existem diversos tipos de intervalos de confiança para os diferentes parâmetros de uma população todavia neste texto nosso foco será apenas três intervalos de confiança referentes as distribuições amostrais construídas anteriormente média diferença de médias e proporção 441 Intervalo de Confiança Média O intervalo de confiança para a média é uma das aplicações mais comuns de intervalos de confiança em análise estatística Esse tipo de intervalo é usado para fornecer uma estimativa da faixa plausível de valores da média populacional de uma variável aleatória com base em uma amostra aleatória retirada da população Na área da saúde por exemplo se o intervalo de confiança para a média da pressão arterial sistólica em indivíduos com mais de 60 anos for de 130 a 140 mmHg isso significa que existe uma probabilidade de 95 de que a verdadeira média da população esteja dentro dessa faixa Então para calcular o intervalo de confiança para a média são necessários três elementos a média amostral o erropadrão e o nível de confiança que é obtido por onde é o nível de significância desejado No entanto aqui devemos chamar a atenção para o erropadrão Sabemos que tal medida vem do cálculo da distribuição amostral da média tal que se as amostras forem suficientemente grandes o erropadrão será aproximado por de acordo com o Teorema do Limite Central Neste caso se o desviopadrão da população for conhecido o intervalo de confiança de para a média será descrito por Usando a distribuição normal padrão z 0400 proppoperropadrao pnormq z mean 0 sd 1 lowertail FALSE ICμ 1 α α n 30 σ n σ 1 α σ onde é o desviopadrão populacional é o tamanho amostral é a média amostral é o nível de significância e é o valor com base no modelo normal padrão Para este intervalo a margem de erro associada será expressa pela quantidade Exemplo Em um determinado estudo sobre insuficiência cardíaca um pesquisador deseja estimar o número médio de batimentos cardíacos por minuto de uma população normalmente distribuída com Para este fim ele considerou uma amostra de 49 pacientes onde obtevese que o número médio de batimentos cardíacos por minuto era 90 Neste contexto utilizando os dados amostrais qual é a margem de erro associada a um intervalo de confiança de 95 para o número médio de batimentos cardíacos por minuto desta população E qual seria um intervalo de confiança de 95 O que podese concluir Solução De acordo com o enunciado do nosso problema temos que batimentos por minuto batimentos por minutos e Note que o tamanho amostral é grande e o desvio padrão populacional é conhecido então o Teorema do Limite Central é aplicável e nosso intervalo de confiança de 95 para a média será baseado na distribuição normal Neste caso temos que o erropadrão é dado por Agora com base na distribuição normal e com um nível de significância de 5 obtemos que Logo a margem de erro associada ao intervalo de confiança de 95 é descrita pela quantidade Portanto o intervalo de confiança de 95 para o número médio de batimentos cardíacos por minuto desta população será descrito por Interpretando o resultado podemos dizer que há uma confiança de 95 de que o intervalo entre 87 e 93 batimentos cardíacos por minuto contenha o verdadeiro valor da média de batimentos cardíacos por minuto desta população Este resultado nos sugere que não parece haver risco de insuficiência cardíaca nesta população uma vez que o ritmo cardíaco normal varia 60 e 100 batimentos por minuto em repouso e o resultado obtido se enquadra dentro da normalidade No R para se trabalhar com os intervalos de confiança para a média para amostras grandes fazemos o uso da função qnorm Assim considerando nosso exemplo o de 95 é obtido pela seguinte rotina ICμ x z1 α 2 σ n σ n x α z1 α 2 z E z1 α 2 σ n σ 10 x 90 σ 10 n 49 n 49 30 σ 10 1 43 σX σ n 10 49 α 0 05 1 96 z1 α 2 z1 005 2 z0975 E 1 96 1 43 2 80 z1 α 2 σ n E 90 2 80 87 2 92 8 87 93 ICμ x z1 α 2 σ n x ICμ Informações mediaamostral 90 desviopadraopopulacional 10 amostra 49 erropadrao desviopadraopopulacionalsqrtamostra alpha 005 Intervalo de Confiança para Média Amostras Grandes ICMedia mediaamostral c11 qnorm1alpha2 erropadrao roundICMedia0 Arredondamento para 0 casas decimais pois estamos com número de batimentos cardícos 1 87 93 No entanto se as amostras forem pequenas o erropadrão agora não pode ser aproximado por pois o Teorema do Limite Central é aplicável apenas para amostras grandes Então nosso erropadrão precisará ser aproximado por outra quantidade Tal quantidade neste caso será obtida de outra distribuição equivalente a normal a distribuição t de Student Logo com base na distribuição t de Student o erropadrão será aproximado por em que é o desviopadrão amostral Portanto o intervalo de confiança de para a média será descrito por onde é o desviopadrão amostral é o tamanho amostral é a média amostral é o nível de significância e é o valor com base no modelo t de Student com graus de liberdade Diferente do modelo normal o modelo t de Student não possui uma forma padronizada para o cálculo de probabilidades Para este intervalo a margem de erro associada será expressa pela quantidade Observação Vale a ressalva que diferente da distribuição normal a distribuição t de Student não tem uma padronização para o cálculo de probabilidades no entanto ela tem uma tabela Tabela 3 que ao invés de retonar as probabilidades ela retorna os valores de t que serão utilizados para a construção dos intervalos de confiança de acordo com o grau de liberdade e o nível de confiança eou significância do intervalo de interesse Tabela 3 Valores t de acordo com os graus de liberdade do modelo t de Student Graus de Liberdade 02 01 005 0025 001 0005 1 1376 3078 6314 12706 31821 63657 2 1061 1886 2920 4303 6965 9925 3 0978 1638 2353 3182 4541 5841 4 0941 1533 2132 2776 3747 4604 5 0920 1476 2015 2571 3365 4032 6 0906 1440 1943 2447 3143 3707 7 0896 1415 1895 2365 2998 3499 8 0889 1397 1860 2306 2896 3355 9 0883 1383 1833 2262 2821 3250 10 0879 1372 1812 2228 2764 3169 11 0876 1363 1796 2201 2718 3106 12 0873 1356 1782 2179 2681 3055 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá n 30 σ n s n s 1 α ICμ x t α 2 s n s n x α t α 2 t n 1 E t α 2 s n Graus de Liberdade 02 01 005 0025 001 0005 13 0870 1350 1771 2160 2650 3012 14 0868 1345 1761 2145 2624 2977 15 0866 1341 1753 2131 2602 2947 16 0865 1337 1746 2120 2583 2921 17 0863 1333 1740 2110 2567 2898 18 0862 1330 1734 2101 2552 2878 19 0861 1328 1729 2093 2539 2861 20 0860 1325 1725 2086 2528 2845 21 0859 1323 1721 2080 2518 2831 22 0858 1321 1717 2074 2508 2819 23 0858 1319 1714 2069 2500 2807 24 0857 1318 1711 2064 2492 2797 25 0856 1316 1708 2060 2485 2787 26 0856 1315 1706 2056 2479 2779 27 0855 1314 1703 2052 2473 2771 28 0855 1313 1701 2048 2467 2763 29 0854 1311 1699 2045 2462 2756 30 0854 1310 1697 2042 2457 2750 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exemplo Em seu estudo Beynnon et al 2003 avaliou 9 pacientes com lesões crônica do ligamento do joelho em que o interesse do estudo era avaliar os valores de frouxidão do anteroposterior causada por frouxidão excessiva do ligamento cruzado anterior LCA De resultado dessa análise obtevese que o valor médio de frouxidão foi de 174 mm com um desviopadrão de 43 mm Neste contexto utilizando os dados amostrais qual é a margem de erro associada a um intervalo de confiança de 95 para o valor médio de frouxidão do anteroposterior para a população E qual seria um intervalo de confiança de 95 neste caso O que podese concluir Solução De acordo com o enunciado do nosso problema temos que mm mm e Note que o tamanho amostral é pequeno e o desvio padrão populacional é desconhecido então o Teorema do Limite Central não é aplicável e nosso intervalo de confiança de 95 para a média será baseado na distribuição t de Student Neste caso temos que o erropadrão é dado por x 17 4 s 4 3 n 9 n 9 30 4 3 Agora com base na distribuição t de Student com graus de liberdade Tabela 3 e com um nível de significância de 5 obtemos que Logo a margem de erro associada ao intervalo de confiança de 95 é descrita pela quantidade Portanto o intervalo de confiança de 95 para o valor médio de frouxidão do anteroposterior para a população será descrito por Interpretando o resultado podemos dizer que há uma confiança de 95 de que o intervalo entre 141 e 207 mm contenha o verdadeiro valor médio de frouxidão do anteroposterior para a população Esse resultado nos sugere que os pacientes desta população podem vir a sofrer instabilidade significativa no joelho e possivelmente aumentar o risco de lesões do ligamento cruzado anterior LCA uma vez que os valores de referência de frouxidão anteroposterior no LCA são menores que 5 mm em relação ao fêmur ou menos de 3 mm de diferença em relação ao lado contralateral No R para se trabalhar com os intervalos de confiança para a média para amostras pequenas fazemos o uso da função qt Assim considerando nosso exemplo o de 95 é obtido pela seguinte rotina 1 1409 2071 442 Intervalo de Confiança Diferença de Médias O intervalo de confiança para diferença de médias assim como a distribuição amostral da diferença de médias é uma medida estatística que permite estimar a diferença entre duas médias populacionais com um determinado nível de confiança sendo muito utilizado em pesquisas e estudos comparativos pois permite verificar se há diferenças significativas entre dois grupos ou populações Por exemplo podemos supor que um médico deseja avaliar a eficácia de uma nova terapia para reduzir a dor em pacientes com osteoartrite de joelho Então o médico recruta 50 pacientes com osteoartrite de joelho e divide aleatoriamente os pacientes em dois grupos um grupo recebe a terapia experimental e o outro grupo recebe um placebo Antes e após o tratamento o médico mede a intensidade da dor de cada paciente em uma escala de 0 a 10 O médico então calcula a média da intensidade da dor antes e após o tratamento em cada grupo e o intervalo de confiança para a média Os resultados mostram que a média da intensidade da dor antes do tratamento no grupo da 1 43 σX s n 4 3 9 9 1 8 α 0 05 2 31 t α 2 t 005 2 t0025 E 2 31 1 43 3 30 t α 2 s n E 17 4 3 30 14 1 20 7 ICμ x t α 2 σ n x ICμ Informações mediaamostral 174 desviopadraoamostral 43 amostra 9 erropadrao desviopadraoamostralsqrtamostra alpha 005 gl amostra 1 Intervalo de Confiança para Média Amostras Pequenas ICMedia mediaamostral c11 qtalpha2 df gl lowertail FALSE erropadrao roundICMedia2 Arredondamento para 2 casas decimais IC μ1 μ2 terapia experimental é de 78 com um intervalo de confiança de 70 a 86 A média da intensidade da dor após o tratamento é de 52 com um intervalo de confiança de 46 a 58 Já no grupo do placebo a média da intensidade da dor antes do tratamento é de 76 com um intervalo de confiança de 68 a 84 A média da intensidade da dor após o tratamento é de 68 com um intervalo de confiança de 60 a 76 Ao analisar os intervalos de confiança para a média da intensidade da dor antes e após o tratamento o médico pode concluir que há evidências estatísticas de que a terapia experimental é mais eficaz do que o placebo para reduzir a intensidade da dor em pacientes com osteoartrite de joelho Isso é porque o intervalo de confiança para a média da intensidade da dor após o tratamento no grupo da terapia experimental não se sobrepõe ao intervalo de confiança para a média da intensidade da dor após o tratamento no grupo do placebo Portanto com base nesses resultados o médico pode recomendar a terapia experimental como uma opção de tratamento para pacientes com osteoartrite de joelho que sofrem com dor intensa No entanto é importante lembrar que a interpretação dos intervalos de confiança deve ser feita com cautela e sempre levando em consideração outros fatores clínicos relevantes Existem duas categorias de intervalos de confiança para a diferença de médias os baseados em amostras independentes e os baseados em amostras pareadas As amostras independentes são aquelas em que os elementos das amostras provem de indivíduos distintos enquanto que as amostras pareadas são aquelas que os elementos das amostras provem dos mesmos indivíduos Embora o objetivo seja o mesmo em ambos os casos avaliar a diferença de médias entre duas amostras os intervalos de confiança são calculados de forma diferente como iremos trabalhar nas próximas seções 4421 Amostras Independentes Quando estamos trabalhando com daus amostras independentes o intervalo de confianção para a diferença de médias necessita também de três elementos a a diferença de média amostral o erropadrão e o nível de confiança que é obtido por onde é o nível de significância desejado No entanto aqui devemos chamar a atenção novamente para o erropadrão Para amostras grandes neste caso devemos ter e o erropadrão será aproximado por de acordo com o Teorema do Limite Central E então se o desviopadrão de ambas as populações e forem conhecidos o intervalo de confiança de para a diferença de médias neste caso será descrito por onde e são as variâncias populacionais e são os tamanhos amostrais e são as médias amostrais é o nível de significância e é o valor com base no modelo normal padrão Para este intervalo a margem de erro associada será expressa pela quantidade Exemplo Em seu estudo Iannello et al 2003 examinaram as concentrações de ácidos graxos tipo de lipídio ou gordura que é formada por cadeias de carbono e um grupamento carboxila COOH nas extremidades em 40 pacientes com peso normal G1 e 31 pacientes obesos G2 Sabendo que a concentração média de ácidos graxos no G1 foi de 299 EqL e no grupo G2 a concentração média foi de 744 EqL e que estudos anteriores constataram que 30 EqL e 62 EqL qual seria um intervalo de confiança de 95 para a diferença de médias dos grupos Qual seria a interpretação clínica desse intervalo Solução De acordo com o enunciado do nosso problema temos para o grupo G1 que EqL EqL e Por outro lado para o grupo G2 temos que EqL EqL e Em ambos os casos note que o tamanho amostral é grande e o desvio padrão populacional é conhecido então o Teorema do Limite Central é aplicável e nosso intervalo de confiança de 95 para a diferença de média entre os grupos será baseado na distribuição normal Neste caso temos que o erropadrão é dado por 1 α α n1 30 30 n2 σ2 1 n1 σ2 2 n2 σ1 σ2 1 α IC μ1 μ2 x1 x2 z1 α 2 σ2 1 n1 σ2 2 n2 σ2 1 σ2 2 n1 n2 x1 x2 α z1 α 2 z E z1 α 2 σ2 1 n1 σ2 2 n2 σ1 σ2 x1 299 30 σ1 n1 40 x2 744 σ2 62 31 n2 40 30 31 30 n1 n2 Agora com base na distribuição normal e com um nível de significância de 5 obtemos que Logo a margem de erro associada ao intervalo de confiança de 95 é descrita pela quantidade Portanto o intervalo de confiança de 95 para a diferença de médias da concentração de ácidos graxos dos grupos é descrito por Interpretando o resultado podemos dizer que há uma confiança de 95 de que o grupo referente aos pacientes obsesos tem uma média de ácidos graxos significativamente maior do que a média de ácidos graxos no grupo referente aos pacientes com peso normal Esse resultado pode nos sugerir há um risco mais elevado de doenças cardiovasculares associado ao grupo dos pacientes obsesos uma vez que o excesso particularmente de ácidos graxos saturados pode levar ao acúmulo de placas nas artérias e aumentar o risco de doenças cardíacas Logo uma intervenção que poderia ser feita neste caso seria a redução de ácidos graxos saturados na dieta e a introdução de ácidos graxos ômega3 encontrados em peixes nozes e sementes que têm um efeito protetor contra doenças cardiovasculares já que atuam na redução dos níveis de triglicerídeos No R para se trabalhar com os intervalos de confiança para a diferença de médias para amostras grandes fazemos o uso da função qnorm Assim considerando nosso exemplo o de 95 é obtido pela seguinte rotina 1 46872 42128 Por outro lado se tivermos amostras independentes pequenas de duas populações quaisquer e se as variâncias populacionais forem desconhecidas então nosso erropadrão não pode ser aproximado por pois o Teorema do Limite Central não é aplicável Neste caso o erropadrão é aproximado com base na combinação das amostras isto é se e são as variâncias amostrais temse que a variância combinada das amostras é descrita por 12 10 σ X1 X2 σ2 1 n1 σ2 2 n2 302 40 622 31 α 0 05 1 96 z1 α 2 z1 005 2 z0975 E 1 96 12 10 23 72 z1 α 2 σ2 1 n1 σ2 2 n2 E 299 744 23 72 468 72 421 28 IC μ1 μ2 x1 x2 z1 α 2 σ2 1 n1 σ2 2 n2 x1 x2 IC μ1 μ2 Informações diffmediaamostral 299 744 desviopadraopopulacional1 30 desviopadraopopulacional2 62 amostra1 40 amostra2 31 erropadrao sqrtdesviopadraopopulacional12amostra1 desviopadraopopulacional22amostra2 alpha 005 Intervalo de Confiança para Diferença de Média Amostras Grandes ICDiffMedia diffmediaamostral c11 qnorm1alpha2 erropadrao roundICDiffMedia2 Arredondamento para 2 casas decimais 30 30 n1 n2 σ2 1 n1 σ2 2 n2 s2 1 s2 2 2 2 E daí temse que a aproximação do erropadrão com base na combinação das amostras é dado por Portanto o intervalo de confiança de para a diferença de médias neste caso será descrito por onde é a variância combinada das amostras e são os tamanhos amostrais e são as médias amostrais é o nível de significância e é o valor com base no modelo t de Student com graus de liberdade Para este intervalo a margem de erro associada será expressa pela quantidade Observação Neste texto será considerado para o intervalo de confiança com base no valor t amostras pequenas apenas o caso em que as variâncias das amostras são homogêneas isto é iguais ou muito próximas Para o caso em que elas são heterogêneas isto é diferentes recomendase a leitura do livro Bioestatística para os cursos de graduação da área da saúde escrito por Martinez 2015 Exemplo Hoekema et al 2003 estudaram a morfologia craniofacial de 18 pacientes do sexo masculino com síndrome da apneia obstrutiva do sono SAOS e compararam os resultados com um grupo de 18 pacientes saudáveis Neste estudo a variável de interesse foi o comprimento do ponto mais súperoanterior do corpo do osso hióide até a horizontal de Frankfurt uma vez que quando essa distância é maior do que o normal pode indicar uma posição anormal da língua e das vias aéreas superiores o que pode levar a problemas respiratórios durante o sono como a apneia do sono Os dados do estudo são fornecidos na Tabela 4 Qual seria um intervalo de confiança de 95 para a diferença de média entre os grupos Quais seriam as interpretações práticas desse intervalo Tabela 4 Dados amostrais referentes ao comprimento do ponto mais súperoanterior do corpo do osso hióide até a horizontal de Frankfurt Comprimento do Osso em mm Saudáveis Comprimento do Osso em mm SAOS Comprimento do Osso em mm Saudáveis Comprimento do Osso em mm SAOS 9680 10595 9700 11490 10070 11490 9770 11435 9455 11035 9700 11225 9965 12310 9455 10615 10915 11930 10645 10260 10275 11000 9455 10240 9770 9895 9405 10505 Fonte Hoekema A Hovinga B Stegenga B De Bont L G M 2003 Craniofacial morphology and obstructive sleep apnoea a cephalometric analysis Journal of Oral Rehabilitation 307 690696 s2p 1 1 n1 s2 1 n2 s2 2 2 n1 n2 σ X1 X2 σ X1 X2 s X1 X2 s2p 1 n1 1 n2 1 α IC μ1 μ2 x1 x2 t α 2 s2p 1 n1 1 n2 σ2p n1 n2 x1 x2 α t α 2 t 2 n1 n2 E t α 2 s2p 1 n1 1 n2 Comprimento do Osso em mm Saudáveis Comprimento do Osso em mm SAOS Comprimento do Osso em mm Saudáveis Comprimento do Osso em mm SAOS 9210 11420 8945 11265 8950 10505 9820 11770 Fonte Hoekema A Hovinga B Stegenga B De Bont L G M 2003 Craniofacial morphology and obstructive sleep apnoea a cephalometric analysis Journal of Oral Rehabilitation 307 690696 Solução Note que neste caso não foi nos dados os valores das médias amostrais e além disso o tamanho amostral é pequeno para ambos os grupos e o desvio padrão populacional é desconhecido então o Teorema do Limite Central não é aplicável isto é nosso intervalo de confiança de 95 para a média será baseado na distribuição t de Student Neste caso para construir nosso intervalo iremos precisar das médias amostrais e também do erropadrão definido a partir da variância combinada entre os grupos Assim considerando como grupo 1 G1 os pacientes com saudáveis e como grupo 2 G2 os pacientes com SAOS obtemos que as médias amostrais são dadas respectivamente por e Agora para o cálculo da variância combinada precisamos calcular os desviospadrão amostrais que neste caso são descritos respectivamente por e Logo se e então temse que a variância combinada das amostras é dada por Portanto com base nessa medida a aproximação do erropadrão desejada é descrita por Nos resta agora para a construção do intervalo de confiança determinar o valor de t baseandose na distribuição t de Student com graus de liberdade Assim com um nível de significância de 5 obtemos que o valor de t é descrito por E daí a margem de erro associada ao intervalo de confiança de 95 é descrita pela quantidade 18 30 n1 n2 97 33 x1 96 80 100 70 89 45 98 20 18 110 55 x2 105 95 114 90 112 65 117 70 18 5 17 s1 96 80 97 33 2 98 20 97 33 2 18 1 6 52 s2 105 95 110 55 2 117 70 110 55 2 18 1 s1 5 17 6 52 s2 34 67 s2p 1 1 n1 s2 1 n2 s2 2 2 n1 n2 18 15 172 18 16 522 18 18 2 σ X1 X2 1 96 σ X1 X2 s X1 X2 s2p 1 n1 1 n2 34 67 1 18 1 18 2 18 18 2 34 n1 n2 α 0 05 2 04 t α 2 t 005 2 t0025 Por fim o intervalo de confiança de 95 para a diferença de médias entre as medições do comprimento do ponto mais súperoanterior do corpo do osso hióide até a horizontal de Frankfurt dos pacientes é dado por Interpretando o resultado podemos dizer que há uma confiança de 95 de que o grupo referente aos pacientes com SAOS tem uma média do comprimento do ponto mais súperoanterior do corpo do osso hióide até a horizontal de Frankfurt significativamente maior do que a média do comprimento do ponto mais súperoanterior do corpo do osso hióide até a horizontal de Frankfurt do grupo referente aos pacientes saudáveis Esse resultado é esperado pois uma vez que quando essa distância é maior do que o normal pode indicar uma posição anormal da língua e das vias aéreas superiores o que pode levar a problemas respiratórios durante o sono como a apneia do sono No R para se trabalhar com os intervalos de confiança para a diferença de médias para amostras grandes fazemos o uso da função qt com o argumento lowertail FALSE Assim considerando nosso exemplo o de 95 é obtido pela seguinte rotina 1 1722 922 4422 Amostras Pareadas Anteriormente trabalhamos com intervalos de confiança para diferença de média assumindo que as amostras eram independentes E se agora em vez de independentes as amostras fossem dependentes Como ficaria nosso intervalo de confiança para diferença de médias Para responder tais questões precisamos definir o que é estudo pareado Este tipo de estudo ocorre quando por exemplo realizamos medidas antes e depois da ocorrência de um E 2 04 1 96 4 00 t α 2 s2p 1 n1 1 n2 E 97 33 110 55 4 00 17 22 9 22 IC μ1 μ2 x1 x2 t α 2 s2p 1 n1 1 n2 x1 x2 IC μ1 μ2 Base de Dados setwddatasets dbosso readcsvdataset16ossocsv header TRUE sep namesdbosso cComprimento do Osso em mm Saudáveis Comprimento do Osso em mm SAOS Comprimento do Osso em mm Saudáveis Comprimento do Osso em mm SAOS saudaveis cdbosso1 dbosso3 saos cdbosso2 dbosso4 Informações diffmediaamostral meansaudaveis meansaos desviopadraoamostral1 sdsaudaveis desviopadraoamostral2 sdsaos amostra1 18 amostra2 18 varianciacombinada amostra1 1 desviopadraoamostral12 amostra2 1desviopadraoamostral2 erropadrao sqrtvarianciacombinada 1amostra1 1amostra2 alpha 005 Intervalo de Confiança para Diferença de Média Amostras Pequenas ICDiffMedia diffmediaamostral c11 qt0025 df 32 lowertail FALSE erropadrao roundICDiffMedia2 Arredondamento para 2 casas decimais evento sobre um mesmo dado amostral Neste caso não há uma segunda amostra mas sim uma segunda medida da mesma amostra Assim para se estudar a diferença de médias precisamos definir uma variável denotada por que descreve as diferença de medições antes e depois Neste caso a variável é dada por Como agora representa uma única amostra nosso intervalo de confiança baseado em amostras pareadas segue o mesmo procedimento para o intervalo de confiança para a média amostral Sendo assim teremos também dois tipos de intervalos a considerar amostras grandes e amostras pequenas No primeiro caso então o intervalo de confiança de será descrito por onde é o desviopadrão amostral da variável é o tamanho amostral é a média amostral é o nível de significância e é o valor com base no modelo normal padrão Já no segundo caso então o intervalo de confiança de será descrito por onde é o desviopadrão amostral da variável é o tamanho amostral é a média amostral é o nível de significância e é o valor com base no modelo t de Student com graus de liberdade Exemplo Suponha que um estudo retrospectivo de prontuários de pacientes atendidos por hipercolesterolemia foi realizado Sabese que hipercolesterolemia é uma condição caracterizada pela presença de níveis elevados de colesterol no sangue que pode levar a uma série de problemas de saúde incluindo doenças cardiovasculares como aterosclerose angina infarto do miocárdio e acidente vascular cerebral A Tabela 5 fornece medições do colesterol em mgdL total para pacientes antes e seis semanas após a administração de Rosuvastatina Com base nessa amostra qual seria um intervalo de confiança de 95 para a diferença de médias O que se pode concluir a respeito desse intervalo em termos clínicos Tabela 5 Dados amostrais referentes a medições do colesterol total para pacientes antes e seis semanas após a administração de Rosuvastatina ID do Paciente Antes Depois ID do Paciente Antes Depois ID do Paciente Antes Depois 1 195 125 11 245 170 21 234 161 2 208 164 12 257 182 22 170 139 3 254 152 13 199 153 23 242 159 4 226 144 14 277 204 24 186 114 5 290 212 15 249 174 25 223 134 6 239 171 16 197 160 26 220 166 7 216 164 17 279 205 27 277 170 8 286 200 18 226 159 28 235 136 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá d d d xantes xdepois d nd 30 30 nd nd 30 1 α IC μ1 μ2 d z1 α 2 sd n sd d nd d α z1 α 2 z 30 nd 1 α IC μ1 μ2 d t α 2 sd n sd d nd d α t α 2 t n 1 ID do Paciente Antes Depois ID do Paciente Antes Depois ID do Paciente Antes Depois 9 243 190 19 262 170 29 216 134 10 217 130 20 231 180 30 197 138 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Solução Como estamos trabalhando com um estudo pareado precisamos definir uma variável denotada por que descreve as diferença de medições antes e depois cuja expressão é descrita por Então calculando tais diferenças obtemos a seguinte tabela Tabela 6 Dados amostrais referentes a diferença de medições do colesterol total em mgdL para pacientes antes e seis semanas após a administração de Rosuvastatina ID do Paciente Antes Depois Diferença d ID do Paciente Antes Depois Diferença d 1 195 125 70 16 197 160 37 2 208 164 44 17 279 205 74 3 254 152 102 18 226 159 67 4 226 144 82 19 262 170 92 5 290 212 78 20 231 180 51 6 239 171 68 21 234 161 73 7 216 164 52 22 170 139 31 8 286 200 86 23 242 159 83 9 243 190 53 24 186 114 72 10 217 130 87 25 223 134 89 11 245 170 75 26 220 166 54 12 257 182 75 27 277 170 107 13 199 153 46 28 235 136 99 14 277 204 73 29 216 134 82 15 249 174 75 30 197 138 59 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá d d xantes xdepois Agora para obtermos as componentes do nosso intervalo de confiança necessitamos da média amostral e também do desviopadrão amostral da variável referente a diferença das medições de colesterol Neste caso e Por outro lado observe que o tamanho amostral pode ser considerado como grande já que então o Teorema do Limite Central é aplicável e nosso intervalo de confiança de 95 para a diferença de médias será baseado na distribuição normal Sendo assim temos que o erropadrão é dado por Agora com base na distribuição normal e com um nível de significância de 5 obtemos que Logo a margem de erro associada ao intervalo de confiança de 95 é descrita pela quantidade Portanto o intervalo de confiança de 95 para a diferença de médias de colesterol antes e depois da aplicação da rosuvastatina desta população será descrito por Interpretando o resultado podemos dizer que há uma confiança de 95 de que as medidas antes da administração da rosuvastatina tem uma média de colesterol em mgdL significativamente maior do que a média de colesterol após a administração da rosuvastatina Este resultado é esperado uma vez que a rosuvastatina inibe uma enzima importante para a fabricação do colesterol pelo organismo chamada HMGCoA redutase No R para se trabalhar com os intervalos de confiança para a diferença de médias para amostras pareadas grandes fazemos o uso da função qnorm Assim considerando nosso exemplo o de 95 é obtido pela seguinte rotina d 71 2 mgdL xd 70 44 82 59 30 18 97 mgdL sd 70 71 2 2 59 71 2 2 30 1 30 30 nd 3 46 σ X1 X2 sd nd 18 97 30 α 0 05 1 96 z1 α 2 z1 005 2 z0975 E 1 96 3 46 6 78 z1 α 2 sd nd 71 2 6 78 64 41 77 99 IC μ1 μ2 d z1 α 2 sd n ICμ 1 6441 7799 443 Intervalo de Confiança Proporção Chegamos agora ao nosso último intervalo de confiança de estudo o intervalo de confiança para proporção Em geral o intervalo de confiança para proporção é amplamente utilizado em estudos epidemiológicos e de saúde pública no sentido de promover estimativas precisas sobre a proporção de indivíduos afetados por uma determinada doença como COVID19 por exemplo Para construir esse intervalo seja uma amostra de uma população qualquer Como em geral a proporção é sempre baseada em amostras grandes então o Teorema do Limite Central sempre será válido isto é o intervalo de confiança da proporção sempre será baseado na distribuição normal Assim a partir da distribuição amostral da proporção o intervalo de confiança de para a proporção populacional será descrito por onde é a proporção amostral obtida de é o tamanho amostral é o nível de significância e é o valor com base no modelo normal padrão Neste caso a margem de erro associada a esse intervalo será a quantidade Exemplo Síncope ou desmaio é um sintoma definido como perda súbita e transitória da consciência secundária a hipoperfusão cerebral difusa tendo como quadros início súbito curta duração e recuperação espontânea A gravidade do quadro está na dependência da causa do desmaio Neste contexto em seu estudo Muhlen et al 2003 avaliou 136 pacientes que tiveram síncope ou uma quase síncope Dos resultados obtidos do estudo observouse que uma amostra de 75 dos pacientes que tiveram síncope também relataram ter doença cardiovascular Com base nessas informações construa o intervalo de confiança de 95 para a proporção populacional referente aos pacientes que tiveram síncope e também relataram ter doença cardiovascular Base de dados setwddatasets dbcol2 readcsvdataset14colesterolparcsv header TRUE sep antes cdbcol22 dbcol25 dbcol28 depois cdbcol23 dbcol26 dbcol29 d antes depois Informações mediadiffd meand desviopadraod sdd amostra 30 erropadrao desviopadraodsqrtamostra alpha 005 Intervalo de Confiança para Diferença de Médias Amostras Pareadas Grandes ICdiffMediad mediadiffd c11 qnorm1alpha2 erropadrao roundICdiffMediad2 Arredondamento para 2 casas decimais ICρ n 30 1 α ICρ ρ z1 α 2 ρ1 ρ n ρ ρ x n n α z1 α 2 z E z1 α 2 ρ1 ρ n Solução De acordo com o enunciado do nosso problema temos que a estimativa da proporção de pacientes com síncope que também relataram ter doença cardiovascular é dada por Note também que o tamanho amostral é grande então o Teorema do Limite Central é aplicável e nosso intervalo de confiança de 95 para a proporção será baseado na distribuição normal Além disso temos que o erropadrão é dado por Agora com base na distribuição normal e com um nível de significância de 5 obtemos que Logo a margem de erro associada ao intervalo de confiança de 95 é descrita pela quantidade Portanto o intervalo de confiança de 95 proporção de pacientes com síncope que também relataram ter doença cardiovascular será descrito por Interpretando o resultado podemos dizer que há uma confiança de 95 de que o intervalo entre 047 e 063 contenha o verdadeiro valor proporção populacional referente aos pacientes que tiveram síncope e também relataram ter doença cardiovascular No R para se trabalhar com os intervalos de confiança para a proporção fazemos o uso da função qnorm Assim considerando nosso exemplo o de 95 é obtido pela seguinte rotina 1 047 064 45 Tamanho de Amostra Na seção anterior trabalhamos com um conceito muito importante dos intervalos de confiança a margem de erro Nosso foco agora a partir desse conceito é descrever como escolher um tamanho amostral grande o suficiente para produzir uma margem de erro desejada Por exemplo em estudos científicos a determinação adequada do tamanho amostral é essencial para obter resultados confiáveis representativos e precisos além de maximizar a validade interna e externa dos estudos No geral a determinação do tamanho da amostra depende de vários fatores como a variabilidade da população em estudo a precisão desejada a margem de erro aceitável e o nível de confiança desejado Outros métodos estatísticos como a análise de poder do teste podem também ser usados para calcular o tamanho da amostra adequado para um estudo específico Então para entender como esse processo é feito retornemos ao caso do intervalo de confiança para a média em que é conhecido e a margem de erro é descrita pela expressão 0 55 ρ 75 136 n 136 30 0 04 σρ ρ1 ρ n 0 25 136 α 0 05 1 96 z1 α 2 z1 005 2 z0975 E 1 96 0 06 0 08 z1 α 2 ρ1 ρ n E 0 55 0 08 0 47 0 63 ICρ ρ z1 α 2 ρ1 ρ n ρ ICρ Informações propamostral 75136 amostra 136 erropadrao sqrtpropamostral 1 propamostralamostra alpha 005 Intervalo de Confiança para Proporção ICProp propamostral c11 qnorm1alpha2 erropadrao roundICProp2 Arredondamento para 2 casas decimais σ E z1 α 2 σ n Neste caso podemos observar que a margem de erro depende da combinação entre o desvio padrão da população o tamanho da amostra e o valor crítico que pode ser determinado ao escolhermos um coeficiente de confiança Em outras palavras se soubermos o valor de podemos calcular o tamanho da amostra necessário para alcançar qualquer margem de erro desejada Nosso objetivo agora é obter uma expressão para Neste caso isolandose na equação da margem de erro tem se que em que é a margem de erro que o pesquisador está disposto a aceitar e o valor de decorre diretamente do grau de confiança a ser usado no desenvolvimento da estimativa intervalar Observação Note que o uso da equação anterior necessita de um valor para o desvio padrão populacional Entretanto mesmo que seja desconhecido podemos utilizar a equação anterior desde que tenhamos um valor planejado para Na prática um dos procedimentos a seguir pode ser escolhido 1 Usar a estimativa do desvio padrão populacional calculada a partir de dados de estudos anteriores como o valor planejado para 2 Usar um estudopiloto para selecionar uma amostra preliminar O desvio padrão amostral da amostra pode ser usado como o valor planejado para 3 Use o julgamento ou o melhor palpite para o valor de Por exemplo poderíamos começar estimando os maiores e os menores valores de dados da população A diferença entre os maiores e os menores valores fornece uma estimativa da amplitude dos dados Por fim muitas vezes a amplitude dividida por 4 é sugerida como uma aproximação grosseira do desvio padrão e assim um valor planejado aceitável para Além do intervalo de confiança para média outros intervalos como proporção e diferença de médias também podem ser utilizados para determinar o tamanho amostral No caso da proporção temse que E no caso da diferença de médias amostras de mesmo tamanho temse que Exemplo Sabese que a hepatite B é um tipo de hepatite viral que acomete o fígado sendo transmitida através do contato com sangue sêmen ou outros fluidos corporais de uma pessoa infectada Neste contexto suponha que um epidemiologista deseja saber qual a proporção de adultos que vivem em uma grande área metropolitana com subtipo do vírus da hepatite B Assumindo que o valor planejado para a proporção populacional seja qual seria o tamanho da amostra que seria necessário para estimar a proporção de adultos com o subtipo do vírus da hepatite B com uma margem de erro de 003 e 95 de confiança Solução Como nossa quantidade de interesse nosso tamanho amostral será calculado com base no intervalo de confiança da proporção Neste caso considere o valor planejado para a proporção populacional seja uma margem de erro e um coeficiente de confiança de 95 obtemos que o tamanho amostral é descrito por σ n z1 α 2 1 α σ n n n n z2 1 α 2 σ2 E2 E z1 α 2 σ σ σ σ σ σ σ n 1 z2 1 α 2 ρ ρ E2 n1 n2 z2 1 α 2 σ2 1 σ2 2 E2 073 ρ 073 ρ E 0 03 n 841 31 841 1 0 731 0 73 962 0 032 Portanto o tamanho da amostra que seria necessário para estimar a proporção de adultos com o subtipo do vírus da hepatite B com uma margem de erro de 003 e 95 de confiança é de 841 pacientes 46 Exercícios de Revisão Exercício 1 Suponha que em uma determinada população a concentração de uma determinada substância no sangue segue uma distribuição normal com média de 100 ngmL e desvio padrão de 10 ngmL Suponha também que uma nova terapia foi introduzida e agora desejase avaliar sua eficácia na redução dos níveis dessa substância no sangue Um estudo foi realizado com 100 pacientes sendo que cada um deles recebeu o tratamento e teve seus níveis de substância no sangue medidos novamente após um mês de terapia a Qual é a probabilidade de que um paciente selecionado aleatoriamente tenha uma concentração de substância no sangue inferior a 90 ngmL antes do tratamento b Qual é a probabilidade de que após o tratamento a concentração média de substância no sangue seja reduzida em pelo menos 5 ngmL c Qual é o número mínimo de pacientes que devem ser selecionados aleatoriamente para garantir que a média amostral das concentrações de substância no sangue após o tratamento tenha uma precisão de pelo menos 2 ngmL com um nível de confiança de 95 Exercício 2 A hemoglobina ou Hb é um componente dos glóbulos vermelhos do sangue também conhecidos como hemácias e tem como principal função transportar oxigênio para os tecidos De forma geral a hemoglobina alta pode ser consequência da desidratação uso de tabaco ou enfisema pulmonar enquanto que a diminuição da quantidade de hemoglobina costuma estar relacionada com anemia talassemia ou ser consequência de hemorragia por exemplo Neste contexto suponha que você está interessado em estudar a concentração de hemoglobina de uma certa população de pacientes internados em hospital público e que você tenha coletado dados referentes as concentrações de hemoglobina de 100 indivíduos dessa população e encontrou uma média de 22 gdL com desvio padrão de 08 gdL Os dados são ilustrados na Tabela 7 Com base nestes dados e na definição de distribuição amostral da média faça o que se pede a Calcule a média de concentração de hemoglobina de todas as possíveis amostras de tamanho 20 que podem ser obtidas dessa população b Use as médias amostrais obtidas no Item a para criar um histograma da distribuição amostral da média Este histograma deve representar a distribuição de todas as possíveis médias de concentração de hemoglobina que poderíamos obter ao selecionar aleatoriamente 20 indivíduos dessa população c Calcule a média e o desvio padrão dessa distribuição amostral da média O que se pode concluir a respeito desses parâmetros d Com base na distribuição amostral da média construída qual é a probabilidade de selecionar aleatoriamente uma amostra de 10 indivíduos dessa população e obter uma média de concentração de hemoglobina de pelo menos 15 gdL E acima de 18 gdL O que você pode concluir a respeitos desse resultados sabendo que os valores de referência para a concentração de hemoglobina são 14 a 18 gdL Homens 12 a 16 gdL Mulheres e 11 gdL Grávidas Tabela 7 Dados referentes as concentrações de hemoglobina de uma população de 100 pacientes internados em hospital público Concentração de Hemoglobina em gdL 216 230 211 223 214 222 223 216 220 228 218 223 218 218 218 220 216 202 223 224 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Concentração de Hemoglobina em gdL 232 223 212 227 210 220 217 228 217 222 221 221 214 227 237 231 212 214 225 215 221 216 215 227 230 218 211 214 218 231 234 234 207 226 211 232 222 228 223 215 224 224 227 224 217 208 224 218 229 237 210 204 221 220 216 225 220 210 223 232 215 226 211 218 226 221 227 221 217 218 216 216 230 217 219 222 236 219 229 212 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exercício 3 Gallagher et al 2003 realizaram um estudo para identificar fatores que influenciam a participação de mulheres em programas de reabilitação cardíaca Eles descobriram que até 12 semanas após a alta apenas 64 das mulheres elegíveis compareceram a tais programas Usando 64 como uma estimativa da porcentagem de participação de todas as mulheres elegíveis encontre a probabilidade de que em uma amostra de 45 mulheres selecionadas aleatoriamente da população de mulheres elegíveis menos de 50 compareçam aos programas Exercício 4 Úlceras de estase venosa são tipicamente devidas a uma condição chamada hipertensão venosa ou insuficiência venosa crônica Isto é seu sangue não flui das pernas para o coração como deveria causando um acúmulo de pressão nas veias de tal forma que essa pressão adicional pode levar a uma ulceração na pele Neste contexo um estudo com 50 pacientes com úlceras de estase na perna foram divididos aleatoriamente em dois grupos iguais em que cada grupo recebeu um tratamento diferente para o edema No final do experimento a eficácia do tratamento foi medida em termos de redução no volume da perna As médias e desviospadrão para os dois grupos foram os seguintes cc com cc e cc com cc Com base neste contexto construa um intervalo de 95 para a diferença de médias Qual é a interpretação clínica deste intervalo Exercício 5 O objetivo de um estudo realizado por Crane et al 2003 foi examinar a eficácia segurança e satisfação materna do a misoprostol oral e b oxitocina intravenosa para a indução do trabalho de parto em mulheres com ruptura prematura de membranas a termo Os pesquisadores atribuíram aleatoriamente as mulheres aos dois tratamentos Para as 52 mulheres que receberam misoprostol oral o tempo médio em minutos até o trabalho de parto ativo foi de 358 minutos com um desvio padrão de 308 minutos Para as 53 mulheres que tomaram oxitocina o tempo médio foi de 483 minutos com um desvio padrão de 144 minutos Construa um intervalo de confiança de 95 para a diferença na média do tempo para o trabalho de parto ativo para esses dois medicamentos diferentes Quais suposições devem ser feitas sobre os dados relatados Quais as implicações clínicas do intervalo de confiança construído Exercício 6 Culligan et al 2003 compararam os resultados a longo prazo de dois tratamentos a um procedimento de Burch modificado e b um procedimento de sling para incontinência de esforço com uretra de baixa pressão Trinta e seis mulheres participaram do estudo com 19 no grupo de tratamento Burch e 17 no grupo de tratamento de sling Uma das medidas de resultado três meses após a cirurgia foi a pressão máxima de fechamento uretral cm H2O No grupo Burch a média e o desvio padrão foram 164 e 82 cm respectivamente No μ1 95 s1 25 μ2 125 s2 30 grupo sling a média e o desvio padrão foram 398 e 230 respectivamente Construa o intervalo de confiança de 90 95 e 99 para a diferença na média de pressão máxima de fechamento uretral para as duas populações representadas por essas pacientes Quais são as interpretações clínicas dos intervalos construídos Exercício 7 Sabese que a síndrome da imunodeficiência adquirida SIDA ou AIDS sigla em inglês é definida quando a contagem de células TCD4 está abaixo de 200 células por L de sangue ou pela ocorrência de doenças específicas em associação com uma infecção por HIV Neste contexto Procellini et al 2003 investigaram o efeito na contagem de células TCD4 após administração de interleucina intermitente IL2 em adição à terapia antirretroviral altamente ativa HAART Na Tabela 8 são ilustrados os resultados do estudo referente as contagens de células TCD4 antes e depois da terapia HAART com IL2 Com base nos dados apresentados construa um intervalo de confiança de 90 95 e 99 para a diferença de médias de células TCD4 antes e depois da terapia HAART com IL2 Quais são as interpretações clínicas dos intervalos construídos Tabela 7 Dados amostrais referentes as contagens de células TCD4 antes e depois da terapia HAART com IL2 ID do Paciente Células TCD4 Início Células TCD4 HAART 1 173 257 2 58 108 3 103 315 4 181 362 5 105 141 6 301 549 7 169 369 Fonte Porcellini S Vallanti G Nozza S Poli G Lazzarin A Tambussi G Grassi F 2003 Improved thymopoietic potential in aviremic HIV infected individuals treated with HAART by intermittent IL2 administration AIDS 1711 16211630 Exercício 8 Em um estudo sobre a eficácia de um tratamento para pacientes com doença renal crônica um pesquisador deseja obter um intervalo de confiança para a proporção de pacientes que apresentam melhora nos sintomas após o tratamento A partir de uma amostra aleatória de 100 pacientes tratados foi observado que 65 apresentaram melhora nos sintomas a Calcule o intervalo de confiança de 95 para a proporção de pacientes que apresentam melhora nos sintomas após o tratamento b Se o pesquisador deseja reduzir o erro amostral do intervalo de confiança pela metade qual seria o tamanho mínimo necessário da amostra c Suponha agora que o pesquisador deseja obter um intervalo de confiança mais estreito com uma margem de erro de no máximo 5 pontos percentuais Qual seria o tamanho mínimo necessário da amostra nesse caso Exercício 9 A insuficiência cardíaca é uma síndrome clínica caracterizada pela incapacidade do coração de atuar adequadamente como bomba quer seja por déficit de contração eou de relaxamento comprometendo o funcionamento do organismo e quando não tratada adequadamente reduzindo a qualidade de vida e a sobrevida Uma variável de interesse em estudos sobre insuficiência cardíaca é a fração de ejeção A fração de ejeção FE é a percentagem do sangue na câmara de bombeamento principal que é ejetada com cada batimento Quando a FE é reduzida devido a uma lesão do músculo cardíaco como após um ataque cardíaco a contração do músculo μ cardíaco é mais fraca e a capacidade de bombeamento é reduzida O esvaziamento insuficiente do ventrículo esquerdo que é a câmara de bombeamento principal também faz com que se forme líquido nos pulmões congestão e falta de ar devido à incapacidade do coração de esvaziarse corretamente Neste contexto uma amostra de 20 pacientes com insuficiência cardíaca que foram admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 é mostrada na Tabela 9 Com base nessa tabela qual seria um intervalo de confiança de 95 para a fração de ejeção O que se pode concluir com base neste intervalo sobre a FE destes pacientes Tabela 9 Dados amostrais referentes a 20 pacientes com insuficiência cardíaca que foram admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 Tempo Sexo Fumante Diabetes PA Anemia Idade FE Sódio Creatinina Plaquetas CPK 97 Feminino Não Não Não Sim 43 50 135 130 237000 358 180 Masculino Sim Sim Não Sim 73 30 142 118 160000 231 31 Masculino Sim Não Sim Não 70 20 134 183 263358 582 87 Masculino Não Não Não Sim 65 25 141 110 298000 305 113 Masculino Não Não Não Não 64 60 137 100 242000 1610 10 Masculino Não Não Não Sim 75 15 137 120 127000 246 250 Masculino Sim Não Não Não 70 40 136 270 51000 582 27 Masculino Não Sim Sim Não 94 38 134 183 263358 582 87 Masculino Não Não Sim Não 75 45 137 118 263358 582 87 Masculino Sim Não Não Não 80 25 144 110 149000 898 119 Masculino Sim Sim Não Não 50 35 137 118 263358 1846 112 Masculino Sim Não Não Não 50 30 141 070 266000 185 13 Masculino Não Não Não Sim 82 50 136 130 47000 379 4 Masculino Não Não Sim Não 75 20 130 190 265000 582 250 Masculino Sim Não Não Não 42 30 128 380 215000 64 108 Masculino Não Não Não Sim 68 25 130 210 305000 646 28 Masculino Não Não Não Não 85 45 132 300 360000 23 135 Masculino Não Sim Não Não 59 20 134 240 70000 66 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Nota PA Pressão Alta FE Fração de Ejeção Tempo em dias completos Tempo Sexo Fumante Diabetes PA Anemia Idade FE Sódio Creatinina Plaquetas CPK 240 Masculino Sim Não Não Sim 50 35 140 090 362000 298 112 Masculino Sim Não Não Não 52 30 136 070 218000 132 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Nota PA Pressão Alta FE Fração de Ejeção Tempo em dias completos Exercício 10 Suponha que você interessado em estudar a prevalência de uma doença rara digamos doença de Cushing em uma determinada população Para isso você planeja realizar um estudo com uma amostra de 1000 indivíduos selecionados aleatoriamente da população tal que a prevalência da doença seja de aproximadamente 1 a Para estimar a prevalência com uma margem de erro de 05 e um nível de confiança de 95 quantos indivíduos com a doença você precisa identificar na amostra b Suponha que você identificou 10 indivíduos com a doença na amostra Qual é a proporção de indivíduos na amostra que têm a doença c Com base no Item b calcule um intervalo de confiança de 95 para a proporção de indivíduos na população que têm a doença O que significa dizer que temos 95 de confiança de que a verdadeira proporção de indivíduos com a doença na população está dentro desse intervalo Qual é a precisão da estimativa da prevalência da doença d Quais são as fontes potenciais de erro na estimativa da prevalência da doença Como esses erros podem afetar a interpretação do intervalo de confiança Que outras informações seriam úteis para melhorar a precisão e validade da estimativa Capítulo V Os Testes de Hipóteses 51 Introdução Um teste de hipóteses é uma técnica estatística utilizada para avaliar se uma afirmação feita sobre uma população é verdadeira ou não Esse processo começa com a formulação de uma hipótese de pesquisa que é composta por duas hipóteses a hipótese nula e a hipótese alternativa A hipótese alternativa é o que chamamos de hipótese do pesquisador isto é aquilo que se deseja verificar enquanto a hipótese nula é o complemento da hipótese alternativa No entanto nem sempre é fácil formular adequadamente as hipóteses nula e alternativa É importante tomar cuidado para que as hipóteses sejam estruturadas de forma apropriada de modo que a conclusão do teste de hipótese forneça as informações que o pesquisador precisa Sendo assim ao formular as hipóteses nula e alternativa algumas perguntas importantes devem ser consideradas como por exemplo 1 Qual é a população em estudo 2 Qual é o parâmetro que estamos interessados em avaliar 3 Qual é a direção da hipótese alternativa 4 Qual é o nível de significância que será utilizado H0 Ha Além disso é importante lembrar que as hipóteses nula e alternativa devem ser mutuamente exclusivas e abrangentes isto é uma das hipóteses deve ser verdadeira e a outra deve ser falsa Nesse sentido se nosso interesse for em avaliar se há uma diferença em relação ao valor definido para a tanto positiva como negativa o teste será chamado de bilateral e suas hipóteses serão definidas como Às vezes porém podese supor que uma diferença real possa ocorrer somente em um sentido de tal forma que se ocorrer uma diferença no outro sentido isso é devido ao acaso Nesse caso o teste será chamado de unilateral e suas hipóteses serão definidas como Na área da saúde os testes de hipóteses são amplamente utilizados para avaliar a eficácia de tratamentos para determinar se uma intervenção de saúde pública é efetiva ou não ou para determinar se há uma associação entre uma determinada exposição e uma doença Por exemplo em um estudo clínico de um novo medicamento a hipótese nula pode ser que o novo medicamento não é mais efetivo do que o tratamento padrão enquanto a hipótese alternativa é que o novo medicamento é mais efetivo do que o tratamento padrão Assim com os dados coletados a partir dos pacientes que receberam o novo medicamento e os pacientes que receberam o tratamento padrão podese realizar um teste de hipóteses para determinar se a hipótese nula deve ou não rejeitada Outro exemplo de teste de hipóteses na área da saúde é o teste de hipóteses para a proporção de indivíduos que desenvolvem uma determinada doença Neste caso suponha que estamos interessados em avaliar se um novo programa de vacinação é mais efetivo na prevenção de uma doença em comparação com um programa de vacinação anterior Assim podemos coletar uma amostra aleatória de indivíduos vacinados em ambos os programas e determinar a proporção de indivíduos que desenvolveram a doença em cada grupo de tal forma que um teste de hipóteses possa ser realizado para determinar se a proporção de indivíduos que desenvolveram a doença é significativamente menor no novo programa de vacinação em comparação com o programa anterior 52 Tipos de Erros Em geral esperase que o teste de hipóteses leve à nãorejeição da hipótese nula quando ela for verdadeira e à rejeição de dela quando ela for falsa No entanto tais conclusões nem sempre são possíveis e isso nos gera dois tipos de erros erro do tipo I e o erro do tipo II O erro do tipo I ocorre quando rejeitamos a hipótese nula quando ela é verdadeira Isso significa que concluímos erroneamente que há uma diferença ou relação significativa quando na verdade ela não existe A probabilidade de cometer um erro do tipo I é chamada de nível de significância do teste Para minimizar esta probabilidade em geral escolhese um nível de significância apropriado com base no poder do teste que pode ser definido como a probabilidade de rejeitar corretamente a hipótese nula quando ela é falsa Por outro lado o erro do tipo II ocorre quando nãorejeitamos a hipótese nula quando ela é falsa Isso significa que concluímos erroneamente que não há diferença ou relação significativa quando na verdade ela existe A probabilidade de cometer um erro do tipo II neste caso depende necessariamente do tamanho do efeito que estamos tentando detectar do tamanho da amostra e do nível de significância escolhido isto é é um tipo de erro difícil de ser controlado em comparação ao erro do tipo I No entanto podemos minimizar probabilidade deste tipo de erro aumentando o tamanho da amostra ou escolhendo um nível de significância menor H0 Parâmetro Populacional Parâmetro de Teste H0 vs Parâmetro Populacional Parâmetro de Teste Ha Parâmetro Populacional ou Parâmetro de Teste H0 vs Parâmetro Populacional ou Parâmetro de Teste Ha α β Tabela 1 Erros e conclusões possíveis em um teste de hipóteses H0 Verdadeira H0 Falsa Não Rejeitase H0 Conclusão Correta Erro do Tipo II Rejeitase H0 Erro do Tipo I Conclusão Correta Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá 53 Etapas de um Teste de Hipóteses Anteriormente definimos um teste de hipóteses é uma técnica estatística utilizada para avaliar se uma afirmação feita sobre uma população é verdadeira ou não Uma das primeiras etapas desse processo era necessiamente a formulação de uma hipótese de pesquisa mas será que essa etapa é a única A resposta dessa questão é naturalmente não Assim como o método científico que era divido em diversas etapas como observação experimentação coleta de dados e análise estatística de dados entre outras os testes de hipóteses também são divididos em etapas Neste caso as etapas incluem Etapa 1 Formulação das Hipóteses A primeira etapa de um teste de hipóteses é a formulação das hipóteses nula e alternativa de acordo com o objetivo do experimento Por exemplo se quisermos testar se a média de altura de uma população é igual a 170 cm a hipótese nula seria a média de altura é igual a 170 cm e a hipótese alternativa seria a média de altura é diferente de 170 cm Etapa 2 Escolha do Nível de Significância Definir o nível de significância para o teste O nível de significância é a probabilidade de cometer um erro do tipo I ao rejeitar a hipótese nula quando ela é verdadeira sendo comum na prática o uso do valor de 5 ou 005 para essa probabilidade Etapa 3 Estatística do Teste Definir e calcular a estatística do teste que será utilizada Em geral para os testes paramétricos esta estatística é baseada na distribuição amostral do parâmetro de interesse para o teste sendo expressa matematicamente por Por outro lado para os testes nãoparamétrcios cada teste tem uma forma própria para sua estatística Etapa 4 Região Crítica Definir a região crítica do teste de hipóteses que são os valores numéricos da estatística do teste para os quais a hipótese nula será rejeitada Por exemplo se nosso teste é baseado na estatística Z uma região crítica assumindo para o teste seria descrita como 1 Teste Unilateral à Esquerda Rejeitase se o valor calculado da estatística for menor ou igual ao valor de definido para o teste de acordo com o nível significância Esta região é ilustrada na área cinza da Figura 1 2 Teste Unilateral à Direita Rejeitase se o valor calculado da estatística for maior ou igual ao valor de definido para o teste de acordo com o nível significância Esta região é ilustrada na área cinza da Figura 1 3 Teste Bilateral Rejeitase se o valor calculado da estatística for menor ou igual ao valor de definido para o teste de acordo com o nível significância ou se o valor calculado da estatística for maior ou igual ao valor de definido para o teste de acordo com o nível significância Esta região é ilustrada na área cinza da Figura 1 Figura 1 Região crítica de um teste de hipóteses baseado na estatística assumindo Estatística do Teste Parâmetro de Interesse Parâmetro da Hipótese ErroPadrão do Parâmetro de Interesse α 0 05 H0 Z zcalc Z z1α H0 Z zcalc Z z1α H0 Z zcalc Z z1α Z zcalc Z z1α α 0 05 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Etapa 5 Conclusão Estatística A conclusão do teste de hipóteses deve ser apresentada de forma clara e concisa indicando qual hipótese foi aceita ou rejeitada com base na região crítica expressa na Etapa 4 É importante lembrar que a aceitação ou rejeição de uma hipótese não significa que a hipótese seja verdadeira ou falsa mas apenas que os dados coletados são consistentes ou inconsistentes com a hipótese testada Etapa 6 Conclusão Prática Conclusão prática do teste isto é o que o resultado obtido na Etapa 5 diz na prática sobre o experimento No caso da área da saúde por exemplo se o teste de hipóteses rejeitar a hipótese nula então a conclusão clínica pode ser que existe uma diferença significativa entre os grupos comparados ou entre as variáveis estudadas significando que a intervenção ou o fator em estudo tem um efeito significativo sobre o desfecho clínico ou variável de interesse Por outro lado se o teste de hipóteses falhar em rejeitar a hipótese nula então a conclusão clínica pode ser que não há diferença significativa entre os grupos ou variáveis estudadas significando que a intervenção ou fator em estudo não tem um efeito significativo sobre o desfecho clínico ou variável de interesse Porém é importante ressaltar que a conclusão clínica não deve ser baseada exclusivamente no resultado do teste de hipóteses sendo fundamental que o resultado seja interpretado em conjunto com outros dados clínicos relevantes e com a avaliação crítica da qualidade do estudo e das limitações dos métodos estatísticos utilizados 54 Testes de Hipóteses Paramétricos Na literatura existem diferentes tipos de testes de hipóteses que podem ser utilizados de acordo com o tipo de dados e objetivo da pesquisa mas em geral são divididos em duas categorias paramétricos e nãoparamétricos Os testes de hipóteses paramétricos são baseados em pressupostos sobre a distribuição da população sendo frequentemente utilizados quando a distribuição dos dados é conhecida ou pode ser assumida como normal Por outro lado os testes de hipóteses nãoparamétricos não fazem suposições sobre a distribuição da população sendo frequentemente utilizados quando a distribuição dos dados é desconhecida ou não pode ser assumida como normal Daremos início aos nossos estudos pelos testes de hipóteses paramétricos que são os mais comuns de serem utilizados na prática Dentre estes testes estudaremos apenas os testes para médias de uma amostra para a diferença de médias entre amostras independentes e entre amostras pareadas e para a homogeneidade de variâncias que são os mais comuns de serem utilizados 541 Teste de Hipóteses Paramétricos Média O nosso primeiro teste paramétrico a ser estudo é o teste de hipóteses para média de uma amostra Este teste é um procedimento estatístico utilizado para avaliar se a média populacional de uma variável numérica é estatisticamente diferente de um valor de referência sendo comumente utilizado em pesquisas clínicas e experimentais para testar a eficácia de uma intervenção ou tratamento Para a construção deste teste há duas possibilidades amostras grandes e amostras pequenas No primeiro caso o nosso teste será baseado na estatística Z e no segundo caso o nosso teste será baseado na estatística T Um resumo deste teste é apresentado na Tabela 2 Tabela 2 Sumário de testes de hipóteses sobre a média populacional para amostras grandes e para amostras pequenas Amostras Grandes Teste Unilateral Esquerda Teste Unilateral Direita Teste Bilateral Hipótese Estatística do Teste Região Crítica Rejeitase se Rejeitase se Rejeitase se ou se Amostras Pequenas Teste Unilateral Esquerda Teste Unilateral Direita Teste Bilateral Hipótese Estatística do Teste Região Crítica Rejeitase se Rejeitase se Rejeitase se ou se Exemplo 1 E canis é uma abreviação de Ehrlichia canis que é um tipo de bactéria que pode infectar cães e causar uma doença chamada de erliquiose canina que é transmitida para cães através das picadas de carrapatos infectados pelo parasita Os sintomas da erliquiose em cães podem incluir febre letargia perda de apetite perda de peso anemia distúrbios de sangramento dor nas articulações e inchaço Se não tratada a doença pode progredir para uma fase grave e potencialmente fatal Além disso sabese que a infecção por E canis às vezes é contraída por humanos A infecção em humanos é conhecida como ehrlichiose humana monocítica cujo os sintomas incluem febre dor de cabeça mialgia náusea vômito diarreia e erupção cutânea Em casos mais graves pode ocorrer insuficiência renal distúrbios neurológicos e até mesmo a morte Neste contexto foi realizado um estudo em que entre os humanos infectados verificouse que a distribuição da contagem de glóbulos brancos tem uma média desconhecida e um desvio padrão Dado que na população geral a contagem média de glóbulos brancos é de 7250mm³ um pesquisador clínico elaborou a hipótese de que as pessoas infectadas com E canis devem ter em média contagens mais baixas de glóbulos brancos do que a população geral a Quais seriam as hipóteses nula e alternativa para o teste de hipóteses apropriadas para dar suporte a hipótese elaborada pelo pesquisador Essas hipóteses formam um teste de hipóteses bilateral ou um teste de hipóteses unilateral H0 μ μ0 Ha μ μ0 H0 μ μ0 Ha μ μ0 H0 μ μ0 Ha μ μ0 zcalc x μ0 σ n H0 zcalc z1α H0 zcalc z1α H0 zcalc z1α2 zcalc z1α2 H0 μ μ0 Ha μ μ0 H0 μ μ0 Ha μ μ0 H0 μ μ0 Ha μ μ0 tcalc x μ0 s n H0 tcalc tα H0 tcalc tα H0 tcalc tα2 tcalc tα2 μ σ b Sabendo que para uma amostra de 45 infectados com E canis Tabela 3 a média de glóbulos brancos foi de 7013mm³ e baseandose em experiências anteriores obtevese um desvio padrão populacional 320mm³ qual é a conclusão do teste de hipóteses ao nível de significância de 5 Tabela 3 Dados amostrais referentes a contagem de glóbulos brancos em mm³ dos pacientes infectados por E canis Contagem de Glóbulos Brancos em mm³ 6888 7245 6786 7085 6861 6954 7072 6956 6941 6958 7312 7080 6795 7179 6747 7014 7022 6854 7176 7434 7026 6889 6875 7164 7222 7343 7357 6663 7138 7092 7100 7168 7111 6747 6607 7031 6988 6863 7140 6772 6939 6911 6905 7251 6924 Fonte Fulwood R 1982 Hematological and nutritional biochemistry reference data of persons 6 months74 years of age United States 197680 Solução a De acordo com o problema o pesquisador clínico elaborou a hipótese de que as pessoas infectadas com E canis devem ter em média contagens mais baixas de glóbulos brancos do que a população geral Sendo a média de glóbulos brancos dos infectados por E canis descrita por e a média de glóbulos brancos da população geral descrita por 7250mm³ podemos formular as seguites hipóteses As hipóteses escritas dessa forma neste caso representam um teste unilateral à esquerda b Considerando as hipóteses elaboradas no Item a para realizar o teste de hipóteses ao nível de significância de 5 seguimos as etapas Etapa 1 Formulação das Hipóteses σ μ μ0 μ 7250mm³ H0 vs μ 7250mm³ Ha μ 7250mm³ H0 vs Ha μ 7250mm³ Etapa 2 Escolha do Nível de Significância Para este teste será considerado um nível de significância de 5 isto é Etapa 3 Estatística do Teste Como o desviopadrão populacional é conhecido mm³ e o tamanho amostral é grande nossa estatística de teste será baseada na estatística Z Neste caso temos que Etapa 4 Região Crítica Como nosso teste é unilateral à esquerda temos que a região crítica será denominada como Rejeitase se o valor calculado da estatística for menor ou igual ao valor de definido para o teste de acordo com o nível significância Esta região é ilustrada na área cinza da Figura 2 Figura 2 Região crítica do teste de hipótese de que as pessoas infectadas com E canis devem ter em média contagens mais baixas de glóbulos brancos do que a população geral ao nível de significância de 5 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Etapa 5 Conclusão Estatística Baseandose na região crítica exposta na Etapa 4 e na estatística Z calculada na Etapa 3 concluise estatisticamente que deve ser rejeitada ao nível de significância de 5 Etapa 6 Conclusão Clínica De acordo com a Etapa 5 concluise ao nível de 5 de significância que há evidências de que as pessoas infectadas com E canis tem significativamente contagens mais baixas de glóbulos brancos do que a população geral isto é a hipótese do pesquisador é sustentada pela amostra dada Como a Ehrlichia infecta glóbulos brancos células que combatem a infecção e mitocôndrias a força motriz da célula humana é esperado clinicamente que haja uma redução dos glóbulos brancos No entanto se essa contagem for menor do que 4000mm³ glóbulos brancos circulando no sangue há grandes chances do paciente desenvolver os sintomas mais graves da doença como insuficiência renal distúrbios neurológicos ou morte Para trabalhar com o Teste Z no R fazemos o uso da função ztest do pacote BSDA que é uma função baseada na distribuição normal padrão com objetivo de criar intervalos de confiança e testes de hipóteses para problemas com uma ou duas amostras Assim considerando nosso exemplo temse a seguinte rotina α 0 05 σ 320 n 45 30 4 97 zcalc x μ0 σ n 7013 7250 320 45 H0 Z zcalc Z 1 64 z1α z095 α 0 05 H0 Onesample zTest data x z 49683 pvalue 3378e07 alternative hypothesis true mean is less than 7250 95 percent confidence interval NA 7091464 sample estimates mean of x 7013 1 1644854 Exemplo 2 A insuficiência cardíaca é uma síndrome clínica caracterizada pela incapacidade do coração de atuar adequadamente como bomba quer seja por déficit de contração eou de relaxamento comprometendo o funcionamento do organismo e quando não tratada adequadamente reduzindo a qualidade de vida e a sobrevida Uma variável de interesse em estudos sobre insuficiência cardíaca é a creatinofosfoquinase CPK A creatinofosfoquinase CPK é uma enzima que desempenha um importante papel regulador no metabolismo dos tecidos contráteis Está presente principalmente nos músculos tecido cardíaco e no cérebro Na eletroforese podem ser identificadas três isoenzimas CPKBB é a forma encontrada no cérebro a CPKMB é forma encontrada no miocárdio músculo cardíaco e a CPKMM é forma encontrada no músculo estriado Neste contexto uma amostra de 20 pacientes com insuficiência cardíaca que foram admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 é mostrada na Tabela 4 Carregar o pacote suppressPackageStartupMessagessuppressWarningslibraryBSDA Carregar os dados x c6888 6954 7312 7014 7026 7343 7092 6747 6863 6911 7245 7072 7080 7022 6889 7357 7100 6607 7140 6905 6786 6956 6795 6854 6875 6663 7168 7031 6772 7251 7085 6941 7179 7176 7164 7138 7111 6988 6939 6924 6861 6958 6747 7434 7222 Como n 30 fazer o uso do teste Z pela função ztest Uso da função ztest ztestx y NULL alternative twosided mu 0 sigmax NULL sigmay NULL conflevel 095 ztestx x alternative less mu 7250 conflevel 095 sigmax 320 Valor de Z tabelado para hipótese alternativa do tipo menor qnorm095 lowertail FALSE Conclusão Como o valor calculado para Z 49683 é menor do que o valor tabelado de Z 164 rejeitase H0 Isto é ao nível de significância de 5 há evidências suficientes para dizer que a média de glóbulos brancos de pacientes infectados com E canis é inferior a da população geral de 7250mm³ a Um pesquisador clínico sugere que a média dos valores de CPK dos pacientes com insuficiência cardíaca é superior a 600 UIL Suponha que o interesse seja testar essa hipótese quais seriam as hipóteses apropriadas para o teste neste caso Essas hipóteses formam um teste de hipóteses bilateral ou um teste de hipóteses unilateral b Considerando a amostra descrita na Tabela 3 quais seriam os valores da média e desviopadrão amostral Baseandose nestes resultados a amostra fornecida é suficiente para apoiar a hipótese do pesquisador considerando um nível de significância de 5 Tabela 4 Dados amostrais referentes a 20 pacientes com insuficiência cardíaca que foram admitidos no Institute of Cardiology and Allied hospital FaisalabadPakistan no período de abril a dezembro de 2015 Tempo Sexo Fumante Diabetes PA Anemia Idade FE Sódio Creatinina Plaquetas CPK 97 Feminino Não Não Não Sim 43 50 135 130 237000 358 180 Masculino Sim Sim Não Sim 73 30 142 118 160000 231 31 Masculino Sim Não Sim Não 70 20 134 183 263358 582 87 Masculino Não Não Não Sim 65 25 141 110 298000 305 113 Masculino Não Não Não Não 64 60 137 100 242000 1610 10 Masculino Não Não Não Sim 75 15 137 120 127000 246 250 Masculino Sim Não Não Não 70 40 136 270 51000 582 27 Masculino Não Sim Sim Não 94 38 134 183 263358 582 87 Masculino Não Não Sim Não 75 45 137 118 263358 582 87 Masculino Sim Não Não Não 80 25 144 110 149000 898 119 Masculino Sim Sim Não Não 50 35 137 118 263358 1846 112 Masculino Sim Não Não Não 50 30 141 070 266000 185 13 Masculino Não Não Não Sim 82 50 136 130 47000 379 4 Masculino Não Não Sim Não 75 20 130 190 265000 582 250 Masculino Sim Não Não Não 42 30 128 380 215000 64 108 Masculino Não Não Não Sim 68 25 130 210 305000 646 28 Masculino Não Não Não Não 85 45 132 300 360000 23 135 Masculino Não Sim Não Não 59 20 134 240 70000 66 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Nota PA Pressão Alta FE Fração de Ejeção Tempo em dias completos Tempo Sexo Fumante Diabetes PA Anemia Idade FE Sódio Creatinina Plaquetas CPK 240 Masculino Sim Não Não Sim 50 35 140 090 362000 298 112 Masculino Sim Não Não Não 52 30 136 070 218000 132 Fonte Ahmad T Munir A Bhatti S H Aftab M Raza M A 2017 Survival analysis of heart failure patients A case study PloS one 127 Nota PA Pressão Alta FE Fração de Ejeção Tempo em dias completos Solução a De acordo com o problema o pesquisador clínico elaborou a hipótese de que a média dos valores de CPK dos pacientes com insuficiência cardíaca é superior a 600 UIL Neste caso sendo a média dos valores de CPK dos pacientes com insuficiência cardíaca descrita por podemos formular as seguites hipóteses As hipóteses escritas dessa forma neste caso representam um teste unilateral à direita b Considerando as hipóteses elaboradas no Item a para realizar o teste de hipóteses ao nível de significância de 5 seguimos as etapas Etapa 1 Formulação das Hipóteses Etapa 2 Escolha do Nível de Significância Para este teste será considerado um nível de significância de 5 isto é Etapa 3 Estatística do Teste Como o desviopadrão populacional é desconhecido e o tamanho amostral é pequeno nossa estatística de teste será baseada na estatística T que depende da média e desvio padrão amostral Neste caso temse que e Neste caso a estatística T será descrita por Etapa 4 Região Crítica Como nosso teste é unilateral à direita temos que a região crítica será denominada como Rejeitase se o valor calculado da estatística for maior ou igual ao valor de definido para o teste de acordo com o nível significância e os graus de liberdade da μ μ 600 UL H0 vs μ 600 UL Ha μ 600 UIL H0 vs μ 600 UIL Ha α 0 05 n 20 30 509 85 UIL x 358 231 298 132 20 s 478 28 UIL 358 509 85 2 132 509 85 2 20 1 0 84 tcalc x μ0 s n 509 85 600 478 28 20 H0 T tcalc T 1 73 tα t005 n 1 20 1 19 distribuição t de Student Esta região é ilustrada na área cinza da Figura 3 Figura 3 Região crítica do teste de hipótese de que a média dos valores de CPK dos pacientes com insuficiência cardíaca é superior a 600 UIL ao nível de significância de 5 com 19 graus de liberdade Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Etapa 5 Conclusão Estatística Baseandose na região crítica exposta na Etapa 4 e na estatística T calculada na Etapa 3 concluise estatisticamente que não deve ser rejeitada ao nível de significância de 5 com 19 graus de liberdade Etapa 6 Conclusão Clínica De acordo com a Etapa 5 concluise ao nível de 5 de significância que há evidências de que média dos valores de CPK dos pacientes com insuficiência cardíaca é inferior a 600 UIL isto é a hipótese do pesquisador não é sustentada pela amostra dada Clinicamente sabese que é preciso ter atenção ao tipo de CPK que está aumentado e o valor de referência indicado no exame já que pode ser indicativo de diferentes situações De forma geral é considerado CPK alto quando é verificada concentração acima de 294 UL nos homens ou 211 UL nas mulheres No entanto um CPK alto não significa necessariamente infarto já que nestes casos além do CPK deve ser dosada a CPKMB em geral é considerado normal o valor de CPKMB igual ou inferior a 5 ng mL além de outros marcadores cardíacos como a mioglobina e a troponina principalmente Embora em nosso estudo houve evidências de que média dos valores de CPK dos pacientes com insuficiência cardíaca é inferior a 600 UIL não é possível excluir a possibilidade de lessões no miocardio Neste caso sugerese também a medição dos outros marcadores cardíacos citados anteriormente Para trabalhar com o Teste T no R fazemos o uso da função ttest disponível no próprio R que é uma função baseada na distribuição t de Student com objetivo de criar intervalos de confiança e testes de hipóteses para problemas com uma ou duas amostras Assim considerando nosso exemplo temse a seguinte rotina α 0 05 H0 One Sample ttest data x t 084294 df 19 pvalue 07951 alternative hypothesis true mean is greater than 600 95 percent confidence interval 3249235 Inf sample estimates mean of x 50985 1 1729133 542 Teste de Hipóteses Paramétricos Diferença de Médias 5411 Amostras Independentes O segundo teste paramétrico a ser estudado é o teste de hipóteses para diferença de médias para duas amostras independentes Este teste em geral é utilizado para a comparação de grupos independentes amostrados de populações diferentes ou da mesma população como por exemplo na comparação da média de pressão arterial sistólica em pacientes com e sem hipertensão para comparar a efecácia média entre dois Carregar os dados setwddatasets dbheart readcsvdataset4heartcsv header TRUE sep dbheart dbheart120 x dbheartCPK Como n 30 fazer o uso do teste t pela função ttest Uso da função ttest ttestx y NULL alternative ctwosided less greater mu 0 paired FALSE varequal FALSE conflevel 095 ttestx x alternative greater mu 600 conflevel 095 Valor de t tabelado para hipótese alternativa do tipo menor qt005 19 lowertail FALSE Conclusão Como o valor calculado para T 0843 é menor do que o valor tabelado de T 173 nãorejeitase H0 Isto é ao nível de significância de 5 não há evidências suficientes para apoiar a hipótese do pesquisador clínico a qual sugere que a média dos valores de CPK dos pacientes com insuficiência cardíaca é superior a 600 medicamentos entre outras aplicações Para a construção deste teste há duas possibilidades amostras grandes e amostras pequenas No primeiro caso o nosso teste será baseado na estatística Z e no segundo caso o nosso teste será baseado na estatística T Um resumo deste teste é apresentado na Tabela 5 Tabela 5 Sumário de testes de hipóteses sobre a diferença de médias populacionais amostras independentes para amostras grandes e para amostras pequenas Amostras Grandes Teste Unilateral Esquerda Teste Unilateral Direita Teste Bilateral Hipótese Estatística do Teste Região Crítica Rejeitase se Rejeitase se Rejeitase se ou se Amostras Pequenas Teste Unilateral Esquerda Teste Unilateral Direita Teste Bilateral Hipótese Estatística do Teste Região Crítica Rejeitase se Rejeitase se Rejeitase se ou se Observação Neste texto será considerado para a estatística T apenas o caso em que as variâncias das amostras são homogêneas isto é iguais ou muito próximas Para o caso em que elas são heterogêneas isto é diferentes recomendase a leitura do livro Bioestatística para os cursos de graduação da área da saúde escrito por Martinez 2015 Exemplo Sabese que as arritmias cardíacas em pacientes com câncer podem ser causadas por alguma doença cardíaca já existente por efeitos diretos do tumor ou pelo tratamento oncológico O tratamento oncológico pode colocar o coração em risco de diferentes maneiras isto é segundo a cardiooncologista Ariane Vieira Scarlatelli Macedo vicepresidente do Grupo de Estudos de CardioOncologia da SBC e médica assistente do ambulatório de cardiooncologia da Santa Casa de São Paulo todo o sistema cardiovascular pode ser impactado não somente pelo tipo de terapia realizada mas até mesmo pelo próprio câncer devido ao próprio processo inflamatório da doença Sendo assim o risco de cardiotoxicidade relacionada ao tratamento oncológico varia de acordo com o tipo de câncer de tratamento realizado e principalmente com os antecedentes de doença cardiovascular que o paciente apresenta Estimase que cerca de 33 dos homens ao serem diagnosticados com câncer de próstata já apresentam doença cardíaca associada aumentando a possiblidade de complicações decorrentes do tratamento H0 μ1 μ2 D0 Ha μ1 μ2 D0 H0 μ1 μ2 D0 Ha μ1 μ2 D0 H0 μ1 μ2 D0 Ha μ1 μ2 D0 zcalc x1 x2 D0 σ x1 x2 σ x1 x2 σ2 1 n1 σ2 2 n2 H0 zcalc z1α H0 zcalc z1α H0 zcalc z1α2 zcalc z1α2 H0 μ1 μ2 D0 Ha μ1 μ2 D0 H0 μ1 μ2 D0 Ha μ1 μ2 D0 H0 μ1 μ2 D0 Ha μ1 μ2 D0 tcalc x1 x2 D0 s x1 x2 s x1 x2 s2p 1 n1 1 n2 s2p 1 1 n1 s2 1 n2 s2 2 2 n1 n2 H0 tcalc tα H0 tcalc tα H0 tcalc tα2 tcalc tα2 Neste contexto foi realizado um estudo com um total de 28 pacientes diagnosticados com câncer de pulmão 14 pacientes e câncer de próstata 14 pacientes com o objetivo de avaliar se a diferença de frequência cardíaca entre os tipos de câncer era significativa Os dados do estudo são apresentados na Tabela 6 a Com base na amostra apresentada um pesquisador clínico sugere que há uma diferença na média da frequência cardíaca considerando entre os pacientes com câncer de pulmão e câncer de próstata Suponha que o interesse seja testar essa hipótese quais seriam as hipóteses apropriadas para o teste neste caso Essas hipóteses formam um teste de hipóteses bilateral ou um teste de hipóteses unilateral b Considerando a amostra descrita na Tabela 6 quais seriam os valores da média e desviopadrão amostral Baseandose nestes resultados a amostra fornecida é suficiente para apoiar a hipótese do pesquisador considerando um nível de significância de 5 Tabela 6 Dados amostrais referentes a frequência cardíaca de 28 pacientes diagnosticados com câncer de pulmão 14 pacientes e câncer de próstata 14 pacientes em um determinado hospital Tipo de Câncer Frequência Cardíaca Tipo de Câncer Frequência Cardíaca Pulmao 126 Prostata 129 Pulmao 70 Prostata 84 Pulmao 68 Prostata 108 Pulmao 83 Prostata 90 Pulmao 67 Prostata 88 Pulmao 50 Prostata 126 Pulmao 128 Prostata 142 Pulmao 109 Prostata 156 Pulmao 92 Prostata 103 Pulmao 140 Prostata 137 Pulmao 85 Prostata 133 Pulmao 104 Prostata 112 Pulmao 121 Prostata 143 Pulmao 88 Prostata 101 Fonte Adaptado de Abou Dagher G El Khuri C Chehadeh A A H Chami A Bachir R Zebian D Chebl R B 2017 Are patients with cancer with sepsis and bacteraemia at a higher risk of mortality A retrospective chart review of patients presenting to a tertiary care centre in Lebanon BMJ open 73 Solução a De acordo com o problema o pesquisador clínico elaborou a hipótese de que há uma diferença na média da frequência cardíaca considerando entre os pacientes com câncer de pulmão e câncer de próstata Neste caso sendo a média da frequência cardíaca dos pacientes diagnosticados com câncer de pulmão descrita por e a média da frequência cardíaca dos pacientes diagnosticados com câncer de próstata descrita por podemos formular as seguites hipóteses As hipóteses escritas dessa forma neste caso representam um teste bilateral b Considerando as hipóteses elaboradas no Item a para realizar o teste de hipóteses ao nível de significância de 5 seguimos as etapas Etapa 1 Formulação das Hipóteses Etapa 2 Escolha do Nível de Significância Para este teste será considerado um nível de significância de 5 isto é Etapa 3 Estatística do Teste Como o desviopadrão populacional é desconhecido para ambos os grupos e o tamanho amostral é pequeno nossa estatística de teste será baseada na estatística T que depende da média e desviopadrão amostral de ambos os grupos além da variância combinada dos grupos Neste caso temse que e Logo a variância combinada entre os grupos é descrita por Portanto a estatística T será descrita por Etapa 4 Região Crítica Como nosso teste é bilateral temos que a região crítica será denominada como Rejeitase se ou se definido para o teste de acordo com o nível significância e os graus de liberdade da distribuição t de Student Esta região é ilustrada na área cinza da Figura 4 μ1 μ2 0 H0 μ1 μ2 vs 0 Ha μ1 μ2 0 H0 μ1 μ2 vs 0 Ha μ1 μ2 α 0 05 14 30 n1 n2 s2p 95 07 118 x1 126 70 121 88 14 x2 129 84 143 101 14 27 02 23 05 s1 126 95 07 2 88 95 07 2 14 1 s2 129 118 2 101 118 2 14 1 630 73 s2p 1 1 n1 s2 1 n2 s2 2 2 n1 n2 14 127 022 14 123 052 14 14 2 2 42 tcalc x1 x2 D0 s x1 x2 95 07 115 86 0 630 73 1 14 1 14 H0 2 06 tcalc tα2 2 06 tcalc tα2 2 28 2 26 n1 n2 Figura 4 Região crítica do teste de hipótese de que há uma diferença na média da frequência cardíaca considerando entre os pacientes com câncer de pulmão e câncer de próstata ao nível de significância de 5 com 26 graus de liberdade Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Etapa 5 Conclusão Estatística Baseandose na região crítica exposta na Etapa 4 e na estatística T calculada na Etapa 3 concluise estatisticamente que deve ser rejeitada ao nível de significância de 5 com 26 graus de liberdade Etapa 6 Conclusão Clínica De acordo com a Etapa 5 concluise ao nível de 5 de significância que há evidências de que há diferença significativa entre as médias e além disso observase que a média da frequência cardíaca dos pacientes com câncer de próstata é maior do que a média da frequência cardíaca dos pacientes com câncer de pulmão visto que a diferença entre as médias é negativa Esse resultado é esperado uma vez que cerca de 33 dos homens ao serem diagnosticados com câncer de próstata já apresentam doença cardíaca associada aumentando a possiblidade de complicações decorrentes do tratamento Para trabalhar com o Teste T para duas amostras independentes no R fazemos o uso da função ttest disponível no próprio R que é uma função baseada na distribuição t de Student com objetivo de criar intervalos de confiança e testes de hipóteses para problemas com uma ou duas amostras Como os desviospadrão são próximos podemos usar o argumento varequal TRUE Assim considerando nosso exemplo temse a seguinte rotina α 0 05 H0 Two Sample ttest data x and y t 24155 df 26 pvalue 002304 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval 42440300 3416843 sample estimates mean of x mean of y 9507143 11800000 1 2055529 2055529 5412 Amostras Pareadas O nosso terceiro teste paramétrico a ser estudado é o teste de hipóteses para diferença de médias para duas amostras pareadas Este teste em geral é utilizado para comprovar se determinado paciente teve melhora após a administração do medicamento ou tratamento Assim como o teste anterior para a construção deste teste há duas possibilidades amostras grandes e amostras pequenas A Tabela 7 traz um sumário deste tipo de teste em ambos os casos Carregar os dados setwddatasets dbcancer readcsvdatasetoncologycsv header TRUE sep namesdbcancer cTipo de Câncer Frequência Cardíaca Tipo de Câncer Frequência Cardíaca x dbcancer2 y dbcancer4 Como n1 n2 14 30 fazer o uso do teste t pela função ttest Uso da função ttest ttestx y NULL alternative ctwosided less greater mu 0 paired FALSE varequal FALSE conflevel 095 ttestx x y y alternative twosided mu 0 conflevel 095 varequal TRUE Valores de t tabelados para o teste de hipóteses bilateral cqt0025 26 lowertail TRUE qt0025 26 lowertail FALSE Conclusão Como o valor calculado para T 24155 é menor do que o valor tabelado de T 206 rejeitase H0 Isto é ao nível de significância de 5 há evidências suficientes para apoiar a hipótese de que há uma diferença na média da frequência cardíaca considerando os pacientes com câncer de pulmão e câncer de próstata Tabela 7 Sumário de testes de hipóteses sobre a diferença de médias populacionais amostras pareadas para amostras grandes e para amostras pequenas Amostras Grandes Teste Unilateral Esquerda Teste Unilateral Direita Teste Bilateral Hipótese Estatística do Teste Região Crítica Rejeitase se Rejeitase se Rejeitase se ou se Amostras Pequenas Teste Unilateral Esquerda Teste Unilateral Direita Teste Bilateral Hipótese Estatística do Teste Região Crítica Rejeitase se Rejeitase se Rejeitase se ou se Exemplo Sabese que a síndrome da imunodeficiência adquirida SIDA ou AIDS sigla em inglês é definida quando a contagem de células TCD4 está abaixo de 200 células por L de sangue ou pela ocorrência de doenças específicas em associação com uma infecção por HIV Neste contexto Procellini et al 2003 investigaram o efeito na contagem de células TCD4 após administração de interleucina intermitente IL2 em adição à terapia antirretroviral altamente ativa HAART Na Tabela 8 são ilustrados os resultados do estudo referente as contagens de células TCD4 antes e depois da terapia HAART com IL2 a Com base na amostra apresentada e após uma inspeção exploratória dos dados um pesquisador clínico afima que a diferença do número médio de células TCD4 antes é inferior ao número médio de céluas TCD4 depois da terapia HAART com IL2 indicando uma eficácia da terapia Suponha que o interesse seja testar essa hipótese quais seriam as hipóteses apropriadas para o teste neste caso Essas hipóteses formam um teste de hipóteses bilateral ou um teste de hipóteses unilateral b Considerando a amostra descrita na Tabela 8 quais seriam os valores da média e desviopadrão amostral Baseandose nestes resultados a amostra fornecida é suficiente para apoiar a hipótese do pesquisador considerando um nível de significância de 5 Tabela 8 Dados amostrais referentes as contagens de células TCD4 antes e depois da terapia HAART com IL2 ID do Paciente Células TCD4 Início Células TCD4 HAART H0 μantes μdepois D0 Ha μantes μdepois D0 H0 μantes μdepois D0 Ha μantes μdepois D0 H0 μantes μdepois D0 Ha μantes μdepois D0 zcalc d D0 sd nd H0 zcalc z1α H0 zcalc z1α H0 zcalc z1α2 zcalc z1α2 H0 μantes μdepois D0 Ha μantes μdepois D0 H0 μantes μdepois D0 Ha μantes μdepois D0 H0 μantes μdepois D0 Ha μantes μdepois D0 tcalc d D0 sd nd H0 tcalc tα H0 tcalc tα H0 tcalc tα2 tcalc tα2 μ ID do Paciente Células TCD4 Início Células TCD4 HAART 1 173 257 2 58 108 3 103 315 4 181 362 5 105 141 6 301 549 7 169 369 Fonte Porcellini S Vallanti G Nozza S Poli G Lazzarin A Tambussi G Grassi F 2003 Improved thymopoietic potential in aviremic HIV infected individuals treated with HAART by intermittent IL2 administration AIDS 1711 16211630 Solução De acordo com o problema o pesquisador clínico elaborou a hipótese de que diferença do número médio de células TCD4 antes é inferior ao número médio de céluas TCD4 depois da terapia HAART com IL2 Neste caso sendo a média da contagem de células TCD4 antes da terapia HAART descrita por e a média da contagem de células TCD4 após a terapia HAART descrita por podemos formular as seguites hipóteses As hipóteses escritas dessa forma neste caso representam um teste unilateral à esquerda b Como estamos trabalhando com um estudo pareado precisamos definir uma variável denotada por que descreve as diferença de medições antes e depois cuja expressão é descrita por Então calculando tais diferenças obtemos a seguinte tabela Tabela 9 Dados amostrais referentes as diferenças de contagens de células TCD4 antes e depois da terapia HAART com IL2 ID do Paciente Células TCD4 Início Células TCD4 HAART Diferença d 1 173 257 84 2 58 108 50 3 103 315 212 4 181 362 181 5 105 141 36 Fonte Porcellini S Vallanti G Nozza S Poli G Lazzarin A Tambussi G Grassi F 2003 Improved thymopoietic potential in aviremic HIV infected individuals treated with HAART by intermittent IL2 administration AIDS 1711 16211630 μantes μdepois 0 H0 μantes μdepois μantes μdepois vs 0 Ha μantes μdepois μantes μdepois d d xantes xdepois ID do Paciente Células TCD4 Início Células TCD4 HAART Diferença d 6 301 549 248 7 169 369 200 Fonte Porcellini S Vallanti G Nozza S Poli G Lazzarin A Tambussi G Grassi F 2003 Improved thymopoietic potential in aviremic HIV infected individuals treated with HAART by intermittent IL2 administration AIDS 1711 16211630 Agora para obtermos as componentes do nosso teste de hipóteses necessitamos da média amostral e também do desviopadrão amostral da variável referente a diferença das medições de células TCD4 Neste caso e Com essas medidas em mãos seguimos então nossas etapas do teste de hipóteses Etapa 1 Formulação das Hipóteses Etapa 2 Escolha do Nível de Significância Para este teste será considerado um nível de significância de 5 isto é Etapa 3 Estatística do Teste Como o desviopadrão populacional é desconhecido e o tamanho amostral é pequeno nossa estatística de teste será baseada na estatística T que depende da média e desviopadrão amostral da variável calculados anteriormente Neste caso com temse que a estatística T será descrita por Etapa 4 Região Crítica Como nosso teste é unilateral à esquerda temos que a região crítica será denominada como Rejeitase se o valor calculado da estatística for menor ou igual ao valor de definido para o teste de acordo com o nível significância e os graus de liberdade da distribuição t de Student Esta região é ilustrada na área cinza da Figura 5 Figura 5 Região crítica do teste de hipótese de que o número médio de células TCD4 antes é inferior ao número médio de céluas TCD4 depois da terapia HAART com IL2 ao nível de significância de 5 com 6 graus de liberdade d 144 43 xd 84 50 200 7 85 68 sd 84 144 43 2 200 144 43 2 7 1 0 H0 μantes μdepois μantes μdepois vs 0 Ha μantes μdepois μantes μdepois α 0 05 7 30 n1 n2 d 0 D0 4 41 tcalc d D0 sd nd 144 43 0 85 68 7 H0 T tcalc T 1 94 tα t005 1 7 1 6 nd α 0 05 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Etapa 5 Conclusão Estatística Baseandose na região crítica exposta na Etapa 4 e na estatística T calculada na Etapa 3 concluise estatisticamente que deve ser rejeitada ao nível de significância de 5 com 6 graus de liberdade Etapa 6 Conclusão Clínica De acordo com a Etapa 5 concluise ao nível de 5 de significância que há evidências de que o número médio de células TCD4 antes é inferior ao número médio de céluas TCD4 depois da terapia HAART com IL2 isto é a hipótese do pesquisador é sustentada pela amostra dada Clinicamente sabese que a terapia antirretroviral altamente ativa HAART é a principal ferramenta no tratamento em indivíduos infectados pelo vírus da imunodeficiência humana HIV pois leva a melhora da função imunológica suprimindo a replicação viral e diminuindo os óbitos decorrentes da síndrome da imunodeficiência adquiria AIDS e consequentemente aumentando às células TCD4 que correspondem ao linfócitos T Portanto podese afirmar que nosso estudo suporta de maneira quantativa o resultado clínico para a administração de interleucina intermitente IL2 em adição à terapia antirretroviral altamente ativa HAART Para trabalhar com o Teste T pareado no R fazemos o uso da função ttest disponível no próprio R que é uma função baseada na distribuição t de Student com objetivo de criar intervalos de confiança e testes de hipóteses para problemas com uma ou duas amostras Além disso devemos adicionar a essa função o argumento paired TRUE para indicar que é um teste para amostras pareadas Assim considerando nosso exemplo temse a seguinte rotina H0 Carregar os dados setwddatasets dbhaart readcsvdataset15haartcsv header TRUE sep Como n1 n2 7 30 fazer o uso do teste t pela função ttest Uso da função ttest ttestx y NULL alternative ctwosided less greater mu 0 paired FALSE varequal FALSE conflevel 095 ttestdbhaart2 dbhaart3 alternative less mu 0 conflevel 095 paired TRUE Paired ttest data dbhaart 2 and dbhaart 3 t 446 df 6 pvalue 0002141 alternative hypothesis true mean difference is less than 0 95 percent confidence interval Inf 8150253 sample estimates mean difference 1444286 1 194318 543 Teste de Hipóteses Paramétricos Homogeneidade de Variâncias O nosso último teste paramétrico a ser estudo é o teste de hipóteses para homogeneidade de variâncias para duas amostras Este teste também conhecido como teste F é um método estatístico utilizado para verificar se duas populações possuem variâncias iguais Por exemplo na área da saúde este teste pode ser utilizado em um estudo para verificar a eficácia de um novo método diagnóstico em que é necessário comparar os resultados obtidos pelo novo método com os resultados obtidos pelo método padrão Neste caso o teste F pode ser utilizado para verificar se as variâncias dos resultados obtidos pelos dois métodos são iguais ou diferentes Para realizar o teste F primeiro é necessário calcular a razão entre as variâncias das duas amostras Essa razão é chamada de estatística F que é calculada dividindo a maior variância pela menor variância isto é em que a distribuição F de FisherSnedecor com e graus de liberdade Em seguida a estatística F é comparada com um valor crítico de F para determinar se as duas amostras possuem variâncias homogêneas ou não Observação Assim como o modelo t de Student os valores de são obtidos também por meio de uma tabela chamada de Tabela F Tabela 10 e 11 com base no graus de liberdade da distribuição F e no nível de significância do teste sem perda de generalidade aqui iremos considerar a tabela apenas para Esta tabela no contexto de testes de hipóteses nos auxilia determinar os valores críticos que a estatística de teste deve ter para que a hipótese nula seja rejeitada Tabela 10 Valores de F de acordo com os graus de liberdade com base na probabilidade na cauda superior para testes unilateriais de significância de 5 Valor de t tabelado para hipótese alternativa do tipo menor qt005 6 lowertail TRUE Conclusão Como o valor calculado para T 446 é menor do que o valor tabelado de T 194 rejeitase H0 Isto é ao nível de significância de 5 há evidências de que o número médio de células TCD4 antes é inferior ao número médio de células TCD4 depois da terapia HAART com IL2 F ou σ2 X S2 X ou σ2 Y S2 Y sob H0 Fn1m1 Fn1m1 n 1 m 1 F α 005 Graus de Liberdade N1N2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 161448 199500 215707 224583 230162 233986 236768 238883 240543 241882 242983 243906 244690 245364 2 18513 19000 19164 19247 19296 19330 19353 19371 19385 19396 19405 19413 19419 19424 3 10128 9552 9277 9117 9013 8941 8887 8845 8812 8786 8763 8745 8729 8715 4 7709 6944 6591 6388 6256 6163 6094 6041 5999 5964 5936 5912 5891 5873 5 6608 5786 5409 5192 5050 4950 4876 4818 4772 4735 4704 4678 4655 4636 6 5987 5143 4757 4534 4387 4284 4207 4147 4099 4060 4027 4000 3976 3956 7 5591 4737 4347 4120 3972 3866 3787 3726 3677 3637 3603 3575 3550 3529 8 5318 4459 4066 3838 3687 3581 3500 3438 3388 3347 3313 3284 3259 3237 9 5117 4256 3863 3633 3482 3374 3293 3230 3179 3137 3102 3073 3048 3025 10 4965 4103 3708 3478 3326 3217 3135 3072 3020 2978 2943 2913 2887 2865 11 4844 3982 3587 3357 3204 3095 3012 2948 2896 2854 2818 2788 2761 2739 12 4747 3885 3490 3259 3106 2996 2913 2849 2796 2753 2717 2687 2660 2637 13 4667 3806 3411 3179 3025 2915 2832 2767 2714 2671 2635 2604 2577 2554 14 4600 3739 3344 3112 2958 2848 2764 2699 2646 2602 2565 2534 2507 2484 15 4543 3682 3287 3056 2901 2790 2707 2641 2588 2544 2507 2475 2448 2424 16 4494 3634 3239 3007 2852 2741 2657 2591 2538 2494 2456 2425 2397 2373 17 4451 3592 3197 2965 2810 2699 2614 2548 2494 2450 2413 2381 2353 2329 18 4414 3555 3160 2928 2773 2661 2577 2510 2456 2412 2374 2342 2314 2290 19 4381 3522 3127 2895 2740 2628 2544 2477 2423 2378 2340 2308 2280 2256 20 4351 3493 3098 2866 2711 2599 2514 2447 2393 2348 2310 2278 2250 2225 21 4325 3467 3072 2840 2685 2573 2488 2420 2366 2321 2283 2250 2222 2197 22 4301 3443 3049 2817 2661 2549 2464 2397 2342 2297 2259 2226 2198 2173 23 4279 3422 3028 2796 2640 2528 2442 2375 2320 2275 2236 2204 2175 2150 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Graus de Liberdade N1N2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 24 4260 3403 3009 2776 2621 2508 2423 2355 2300 2255 2216 2183 2155 2130 25 4242 3385 2991 2759 2603 2490 2405 2337 2282 2236 2198 2165 2136 2111 26 4225 3369 2975 2743 2587 2474 2388 2321 2265 2220 2181 2148 2119 2094 27 4210 3354 2960 2728 2572 2459 2373 2305 2250 2204 2166 2132 2103 2078 28 4196 3340 2947 2714 2558 2445 2359 2291 2236 2190 2151 2118 2089 2064 29 4183 3328 2934 2701 2545 2432 2346 2278 2223 2177 2138 2104 2075 2050 30 4171 3316 2922 2690 2534 2421 2334 2266 2211 2165 2126 2092 2063 2037 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Tabela 11 Valores de F de acordo com os graus de liberdade com base na probabilidade na cauda superior para testes bilateriais ao significância de 5 Graus de Liberdade N1N2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 647789 799500 864163 899583 921848 937111 948217 956656 963285 968627 973025 976708 979837 982528 2 38506 39000 39165 39248 39298 39331 39355 39373 39387 39398 39407 39415 39421 39427 3 17443 16044 15439 15101 14885 14735 14624 14540 14473 14419 14374 14337 14304 14277 4 12218 10649 9979 9605 9364 9197 9074 8980 8905 8844 8794 8751 8715 8684 5 10007 8434 7764 7388 7146 6978 6853 6757 6681 6619 6568 6525 6488 6456 6 8813 7260 6599 6227 5988 5820 5695 5600 5523 5461 5410 5366 5329 5297 7 8073 6542 5890 5523 5285 5119 4995 4899 4823 4761 4709 4666 4628 4596 8 7571 6059 5416 5053 4817 4652 4529 4433 4357 4295 4243 4200 4162 4130 9 7209 5715 5078 4718 4484 4320 4197 4102 4026 3964 3912 3868 3831 3798 10 6937 5456 4826 4468 4236 4072 3950 3855 3779 3717 3665 3621 3583 3550 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Graus de Liberdade N1N2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 11 6724 5256 4630 4275 4044 3881 3759 3664 3588 3526 3474 3430 3392 3359 12 6554 5096 4474 4121 3891 3728 3607 3512 3436 3374 3321 3277 3239 3206 13 6414 4965 4347 3996 3767 3604 3483 3388 3312 3250 3197 3153 3115 3082 14 6298 4857 4242 3892 3663 3501 3380 3285 3209 3147 3095 3050 3012 2979 15 6200 4765 4153 3804 3576 3415 3293 3199 3123 3060 3008 2963 2925 2891 16 6115 4687 4077 3729 3502 3341 3219 3125 3049 2986 2934 2889 2851 2817 17 6042 4619 4011 3665 3438 3277 3156 3061 2985 2922 2870 2825 2786 2753 18 5978 4560 3954 3608 3382 3221 3100 3005 2929 2866 2814 2769 2730 2696 19 5922 4508 3903 3559 3333 3172 3051 2956 2880 2817 2765 2720 2681 2647 20 5871 4461 3859 3515 3289 3128 3007 2913 2837 2774 2721 2676 2637 2603 21 5827 4420 3819 3475 3250 3090 2969 2874 2798 2735 2682 2637 2598 2564 22 5786 4383 3783 3440 3215 3055 2934 2839 2763 2700 2647 2602 2563 2528 23 5750 4349 3750 3408 3183 3023 2902 2808 2731 2668 2615 2570 2531 2497 24 5717 4319 3721 3379 3155 2995 2874 2779 2703 2640 2586 2541 2502 2468 25 5686 4291 3694 3353 3129 2969 2848 2753 2677 2613 2560 2515 2476 2441 26 5659 4265 3670 3329 3105 2945 2824 2729 2653 2590 2536 2491 2451 2417 27 5633 4242 3647 3307 3083 2923 2802 2707 2631 2568 2514 2469 2429 2395 28 5610 4221 3626 3286 3063 2903 2782 2687 2611 2547 2494 2448 2409 2374 29 5588 4201 3607 3267 3044 2884 2763 2669 2592 2529 2475 2430 2390 2355 30 5568 4182 3589 3250 3026 2867 2746 2651 2575 2511 2458 2412 2372 2338 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Então baseandose no valor crítico de F temse a seguinte regra de decisão Se a estatística F calculada for maior que o valor crítico de F então as variâncias das duas amostras são consideradas diferentes indicando que elas não são homogêneas Caso contrário se a estatística F calculada for menor que o valor crítico de F então as variâncias das duas amostras são consideradas iguais indicando que elas são homogêneas Um resumo deste teste é apresentado na Tabela 12 Tabela 12 Sumário de testes de hipóteses para homogeneidade de variâncias para duas amostras independentes Teste F Teste Unilateral Direita Teste Bilateral Hipótese Estatística do Teste Graus de Liberdade Região Crítica Rejeitase se Rejeitase se Exemplo Um pesquisador deseja avaliar se há diferença na variabilidade dos tempos em meses de recuperação de pacientes submetidos a dois tipos diferentes de cirurgia cardíaca cirurgia aberta e cirurgia minimamente invasiva Para isso ele coleta uma amostra de 20 pacientes que passaram por cirurgia aberta cujos os tempos em meses são 5 2 13 4 3 5 4 2 5 9 7 5 6 1 2 4 7 11 1 5 e outra amostra de 20 pacientes que passaram por cirurgia minimamente invasiva cujos os tempos em meses são 2 1 12 3 5 12 3 5 7 5 8 11 13 10 8 7 5 2 10 1 Com base nessas amostras ele calcula a variância dos tempos e obtém os seguintes resultados Amostra de cirurgia aberta Amostra de cirurgia minimamente invasiva Quais seriam as hipóteses nula e alternativa para o teste de hipóteses apropriadas para testar se as duas amostras possuem variâncias homogêneas Essas hipóteses formam um teste de hipóteses bilateral ou um teste de hipóteses unilateral Qual é a conclusão do teste de hipóteses ao nível de significância de 5 Solução De acordo com o problema podemos elaborar a hipótese de que há diferença na variabilidade dos tempos de recuperação de pacientes submetidos a cirurgia aberta e a cirurgia minimamente invasiva Para isto considere como A cirurgia aberta e MI cirurgia minimamente invasiva logo As hipóteses escritas dessa forma neste caso representam um teste bilateral Assim para realizar o teste de hipóteses ao nível de significância de 5 seguimos as etapas Etapa 1 Formulação das Hipóteses H0 σ2 X σ2 Y Ha σ2 X σ2 Y H0 σ2 X σ2 Y Ha σ2 X σ2 Y fcalc ou σ2 X S2 X ou σ2 Y S2 Y 1 n1 1 n2 H0 fcalc fα H0 fcalc fα2 10 05 σ2 A 15 11 σ2 MI H0 σ2 A σ2 MI vs Ha σ2 A σ2 MI H0 σ2 A σ2 MI vs Ha σ2 A σ2 MI Etapa 2 Escolha do Nível de Significância Para este teste será considerado um nível de significância de 5 isto é Etapa 3 Estatística do Teste Como as variâncias populacionais são conhecidas e são descritas por Amostra de cirurgia aberta Amostra de cirurgia minimamente invasiva E nosso objetivo é comparação de variância nossa estatística de teste será baseada na estatística F Neste caso temos que Etapa 4 Região Crítica Como nosso teste é bilateral temos que a região crítica será denominada como Rejeitase se o valor calculado da estatística se definido para o teste de acordo com o nível significância e os graus de liberdade das amostras que neste caso são dados respectivamente por e Esta região é ilustrada na área cinza da Figura 2 Figura 6 Região crítica do teste de hipótese para avaliar se há diferença na variabilidade dos tempos de recuperação de pacientes submetidos a cirurgia aberta e a cirurgia minimamente invasiva ao nível de significância de 5 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Etapa 5 Conclusão Estatística Baseandose na região crítica exposta na Etapa 4 e na estatística Z calculada na Etapa 3 concluise estatisticamente que não deve ser rejeitada ao nível de significância de 5 Etapa 6 Conclusão Clínica De acordo com a Etapa 5 concluise ao nível de 5 de significância que não há evidências de que há diferença na variabilidade nos tempos de recuperação de pacientes submetidos a cirurgia aberta e a cirurgia minimamente invasiva Para trabalhar com o Teste F no R fazemos o uso da função vartest disponível no próprio R que é uma função baseada na distribuição F com objetivo de criar intervalos de confiança e testes de hipóteses para problemas de homogeneidade de variâncias Assim considerando nosso exemplo temse a seguinte rotina α 0 05 10 05 σ2 A 15 11 σ2 MI 0 665 fcalc σ2 A σ2 MI 10 05 15 11 H0 F fcalc 2 526 fcalc fα2 n1 1 19 1 19 n2 α 0 05 H0 F test to compare two variances data A and MI F 066533 num df 19 denom df 19 pvalue 03824 alternative hypothesis true ratio of variances is not equal to 1 95 percent confidence interval 02633461 16809262 sample estimates ratio of variances 0665331 1 03958122 55 Testes de Hipóteses NãoParamétricos Nos problemas anteriores trabalhamos com problemas de testes de hipóteses em que a distribuição de probabilidade dos dados era conhecida para realizar inferências a respeito de alguns parâmetros populacionais Na prática entretanto essa distribuição é raramente ou nunca conhecida Em situações desse tipo então precisamos de outros tipos de técnicas que sejam livres da distribuição de probabilidade dos dados para realizar nossas inferências a cerca da população Na Estatística o conjunto de ferramentas que aborda tais técnicas é conhecido como Inferência Estatística NãoParamétrica O termo Inferência Estatística NãoParamétrica foi usado pela primeira vez por Jacob Wolfowitz em 1942 Basicamente um procedimento nãoparamétrico é um procedimento estatístico em que nenhuma suposição é feita sobre a distribuição subjacente isto é não há parâmetros envolvidos Duas características são importantes quando falamos de Inferência NãoParamétrica 1 a escala de mensuração da variável pode ser nominal ou categórica ou ordinal 2 as hipóteses mais frequentes são sobre o posto a mediana ou a distribuição de frequência dos dados Carregar os dados A c5213435425975612471115 MI c21123512357581113108752101 Uso da função vartest vartestx y ratio 1 alternative ctwosided less greater conflevel 095 vartestx A y MI alternative twosided Valor de F tabelado para teste bilateral qf0975 19 19 lowertail FALSE Conclusão Como o valor calculado para F 0665 é menor do que o valor tabelado de F 2526 não rejeitase H0 Isto é ao nível de significância de 5 não há evidências suficientes para dizer que há diferença na variabilidade nos tempos de recuperação de pacientes submetidos a cirurgia aberta e a cirurgia minimamente invasiva Com base nessa ideia nosso objetivo então será focado em entender qual é a estrutura e como se utiliza um teste de hipóteses nãoparamétrico Particularmente estaremos interessados em testes para uma única amostra e testes para duas amostras independentes ou pareadas Em geral entre os testes para uma amostra há aqueles testes nãoparamétricos de qualidade de ajuste em que o objetivo é testar a hipótese de que a amostra provém de uma distribuição especificada contra a hipótese de que ela provém outra distribuição este teste é conhecido como teste quiquadrado de aderência Já entre os testes para duas amostras independentes ou pareadas há aqueles testes nãoparamétricos com foco em independência das amostras em que o objetivo é testar a hipótese de que os grupos são independentes contra a hipótese de que eles são dependentes teste quiquadrado de independência ou teste exato de Fisher ou uma hipótese de associação teste de MantelHaenzel ou testar uma hipótese de comparação de grupos teste de MannWhitney ou o teste de Wilcoxon Embora tenhamos um gama de testes nãoparamétricos uma das desvantagens destes testes é que eles geralmente são menos poderosos do que os testes paramétricos correspondentes isto é eles têm menos probabilidade de detectar diferenças significativas entre as amostras quando elas existem Embora tenham essa limitação no entanto eles são mais robustos em relação às suposições sobre a distribuição dos dados o que os torna uma escolha útil em muitas situações 551 Testes QuiQuadrado Os testes quiquadrado pode ser usado para uma variedade de propósitos como avaliar a relação entre o tabagismo e o câncer de pulmão a associação entre o nível de escolaridade e o salário ou a associação entre o gênero e a preferência política Ele também pode ser usado para avaliar a adequação do modelo de ajuste como em análises de regressão Existem dois tipos principais de testes quiquadrado o teste quiquadrado de Pearson ou teste quiquadrado de aderência que é utilizado para comparar a frequência observada com a frequência esperada em cada categoria avaliando se há diferenças significativas entre essas frequências e o teste qui quadrado de independência que é utilizado para avaliar se há uma associação significativa entre duas variáveis categóricas avaliando se as frequências observadas são independentes das frequências esperadas 5511 Teste QuiQuadrado de Aderência O teste quiquadrado de aderência envolve a comparação entre as frequências observadas e as frequências esperadas que são calculadas a partir da distribuição teórica como por exemplo distribuição normal binomial Poisson entre outras Neste caso se as frequências observadas e esperadas forem semelhantes então a amostra pode ser considerada como seguindo a distribuição teórica Para trablhar com este teste considere a seguinte tabela de frequências com categorias Tabela 1 Tabela de frequências com categorias para o cálculo do teste quiquadrado de aderência Categorias Frequência Observada Frequência Esperada 1 2 k Total X Ho F0 X F Ha χ2a k 2 k 2 O1 E1 O2 E2 Ok Ek n n Com base nessa tabela seja é o total de indivíduos observado e é o total de indivíduos esperados obtido por em que é a probabilidade especificada pelo modelo probabilístico de interesse Logo da comparação de frequências podese concluir que se elas forem grandes a deverá ser rejeitada em favor da mas se elas forem pequenas a não será rejeitada e as diferenças serão atribuíveis de acordo com o modelo utilizado Um sumário do teste é apresentado na Tabela 2 Tabela 2 Sumário do teste quiquadrado de aderência para avaliar a adequabilidade de um modelo probabilístico Teste QuiQuadrado Condições Hipótese Seja a probabilidade associada à categoria então vs Ao menos uma probabilidade é diferente Estatística do Teste Região Crítica Com base no modelo quiquadrado com graus de liberdade rejeitase se Observação Assim como o modelo t de Student e o modelo F de FisherSnedecor os valores de são obtidos também por meio de uma tabela chamada de Tabela QuiQuadrado Tabela 3 com base no graus de liberdade da distribuição quiquadrado Esta tabela no contexto de testes de hipóteses nos auxilia determinar os valores críticos que a estatística de teste deve ter para que a hipótese nula seja rejeitada Tabela 3 Valores de quiquadrado de acordo com os graus de liberdade com base na probabilidade na cauda superior Graus de Liberdade 099 0975 095 09 01 005 0025 001 1 0000 0001 0004 0016 2706 3841 5024 6635 2 0020 0051 0103 0211 4605 5991 7378 9210 3 0115 0216 0352 0584 6251 7815 9348 11345 4 0297 0484 0711 1064 7779 9488 11143 13277 5 0554 0831 1145 1610 9236 11070 12833 15086 6 0872 1237 1635 2204 10645 12592 14449 16812 7 1239 1690 2167 2833 12017 14067 16013 18475 8 1646 2180 2733 3490 13362 15507 17535 20090 9 2088 2700 3325 4168 14684 16919 19023 21666 10 2558 3247 3940 4865 15987 18307 20483 23209 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Oi Ei Ei n p0i p0i H0 Ha H0 pi i H0 pi p0i Ha χ2 calc n i1 Oi Ei2 Ei k 1 H0 χ2 calc χ2 tab χ2 Graus de Liberdade 099 0975 095 09 01 005 0025 001 11 3053 3816 4575 5578 17275 19675 21920 24725 12 3571 4404 5226 6304 18549 21026 23337 26217 13 4107 5009 5892 7042 19812 22362 24736 27688 14 4660 5629 6571 7790 21064 23685 26119 29141 15 5229 6262 7261 8547 22307 24996 27488 30578 16 5812 6908 7962 9312 23542 26296 28845 32000 17 6408 7564 8672 10085 24769 27587 30191 33409 18 7015 8231 9390 10865 25989 28869 31526 34805 19 7633 8907 10117 11651 27204 30144 32852 36191 20 8260 9591 10851 12443 28412 31410 34170 37566 21 8897 10283 11591 13240 29615 32671 35479 38932 22 9542 10982 12338 14041 30813 33924 36781 40289 23 10196 11689 13091 14848 32007 35172 38076 41638 24 10856 12401 13848 15659 33196 36415 39364 42980 25 11524 13120 14611 16473 34382 37652 40646 44314 26 12198 13844 15379 17292 35563 38885 41923 45642 27 12879 14573 16151 18114 36741 40113 43195 46963 28 13565 15308 16928 18939 37916 41337 44461 48278 29 14256 16047 17708 19768 39087 42557 45722 49588 30 14953 16791 18493 20599 40256 43773 46979 50892 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exemplo O modelo HardyWeinberg é uma teoria que descreve a frequência dos alelos e genótipos em uma população assumindo que as condições necessárias para a equilíbrio genético sejam atendidas Essas condições incluem ausência de seleção natural população grande ausência de mutação ausência de migração alelos são transmitidos ao acaso a seleção de alelos é completamente aleatória Sob essas condições as frequências dos alelos na população permanecem constantes ao longo do tempo Neste contexto suponha que em uma certa população 100 descendentes foram estudados tal que as frequências observadas são ilustradas na Tabela 4 Com base nesta tabela podemos afirmar que o modelo genético de HardyWeinberg é adequado para descrever essa população ao nível de significância de 5 Tabela 4 Frequências observadas em 100 descendentes de uma determinada população Genótipo Frequência Observada AA 26 Aa 45 aa 29 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Solução Neste caso devemos trabalhar com o teste quiquadrado de aderência para modelos Então para realizar o teste de hipóteses ao nível de significância de 5 seguimos as etapas Etapa 1 Formulação das Hipóteses Se pensarmos em termos de probabilidade como há três tipos de genótipos gerados do cruzamento de Aa com Aa equilíbrio de HardyWeinberg obtemos que as probabilidades para cada genótipo segundo HardyWeinberg é descrita por e Logo nossas hipóteses se transformam em Etapa 2 Escolha do Nível de Significância Para este teste será considerado um nível de significância de 5 isto é Etapa 3 Estatística do Teste Se o modelo HardyWeinberg for adequado a frequência esperada de descendentes para o genótipo AA dentre os 100 indivíduos pode ser calculada por Da mesma forma para o genótipo Aa temos que e para o genótipo aa temos que Logo nossa tabela de frequências fica Tabela 5 Frequências observadas e esperadas pelo modelo de HardyWeinberg em 100 descendentes de uma determinada população Genótipo Frequência Observada Frequência Esperada AA 26 25 Aa 45 50 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá O modelo genético de HardyWeinberg é adequado H0 vs O modelo genético de HardyWeinberg não é adequado Ha PrAA 0 25 PrAa 0 50 Praa 0 25 PrAA 0 25 PrAa 0 50 e Praa 0 25 H0 vs Ao menos uma das igualdades de não se verifica Ha H0 α 0 05 100 PrAA 100 0 25 25 100 PrAa 100 0 50 50 100 Praa 100 0 25 25 Genótipo Frequência Observada Frequência Esperada aa 29 25 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Assim como base na estatística do teste quiquadrado de aderência encontramos o valor de pela seguinte expressão Etapa 4 Região Crítica Neste caso nossa região crítica será determinada por Rejeitase se definido para o teste de acordo com o nível significância e graus de liberdade Esta região é ilustrada na área cinza da Figura 2 Figura 2 Região crítica do teste de hipótese para avaliar se o modelo genético de HardyWeinberg é adequado para descrever a população estudada ao nível de significância de 5 com 2 graus de liberdade Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Etapa 5 Conclusão Estatística Baseandose na região crítica exposta na Etapa 4 e na estatística qui quadrado calculada na Etapa 3 concluise estatisticamente que não deve ser rejeitada ao nível de significância de 5 Etapa 6 Conclusão Clínica De acordo com a Etapa 5 concluise ao nível de 5 de significância que há evidências de que o modelo genético de HardyWeinberg é adequado para descrever essa população Neste caso como a lei do equilíbrio de HardyWeinberg é uma importante forma de verificar se a seleção natural ou outros fatores evolutivos estão influenciando uma determinada população Assim como a população de estudo encontrase em tal equilíbrio concluise que não há mudança nas frequências do genótipo indicando que não está ocorrendo uma evolução nesta população Para trabalhar com o Teste QuiQuadrado no R fazemos o uso da função chisqtest disponível no próprio R que é uma função baseada na distribuição quiquadrado com objetivo de criar intervalos de confiança e testes de hipóteses para problemas de adequabilidade de modelos Além disso precisamos definir o argumento χ2 calc 1 18 χ2 calc i1 n Oi Ei2 Ei 26 252 25 45 252 50 29 252 25 H0 5 991 χ2 calc χ2 tab n 1 3 1 2 α 0 05 H0 correct FALSE Assim considerando nosso exemplo temse a seguinte rotina Chisquared test for given probabilities data fobs Xsquared 118 df 2 pvalue 05543 1 5991465 5512 Teste QuiQuadrado de Independência O teste quiquadrado de independência é um teste com o objetivo de avaliar a associação entre duas variáveis categóricas isto é ele é utilizado para determinar se existe uma relação significativa entre as duas variáveis em uma tabela de contingência Para realizar este teste as variáveis devem estar tabuladas em forma de tabelas de contingência de tamanho em que k representa o nº de linhas e n o de colunas Um exemplo de tabela de contingência para o teste quiquadrado de independência é ilustrada na Tabela 6 Tabela 6 Tabela de contingência para o cálculo do teste quiquadrado de independência Categoria Y Total Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Definir o vetor com as frequências observadas fobs c264529 Definir o vetor com as probabilidades para cada categoria probs c025050025 Teste de Hipóteses Uso da função chisqtest chisqtestx y NULL correct TRUE p rep1lengthx lengthx rescalep FALSE simulatepvalue FALSE B 2000 chisqtestx fobs p probs correct FALSE Valor de X2 tabelado para hipótese qchisq095 2 Conclusão Como o valor calculado para X2 118 é menor do que o valor tabelado de X2 5991 não rejeitase H0 Isto é há evidências de que o modelo genético de HardyWeinberg é adequado para descrever essa população χ2 i k n Y1 Y2 Ys X1 O11 O12 O1s O1j Categoria Y Categoria X Total Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Neste caso as frequências esperadas são determinadas pela seguinte expressão Então da comparação de frequências podese concluir que se elas forem grandes a deverá ser rejeitada em favor da mas se elas forem pequenas a não será rejeitada e as diferenças serão atribuíveis de acordo com o modelo utilizado Um resumo deste teste é apresentado na Tabela 7 Tabela 7 Sumário do teste quiquadrado de independência para avaliar a independência entre duas variáveis categóricas Teste QuiQuadrado Condições Hipótese As variáveis X e Y são independentes vs As variáveis X e Y não são independentes Estatística do Teste Região Crítica Com base no modelo quiquadrado com graus de liberdade rejeitase se Exemplo A infecção do sítio cirúrgico é o processo pelo qual o microorganismo penetra se estabelece e se multiplica na incisão operatória Os tecidos normais podem tolerar a presença de até bactériasgrama de tecido sem que se desenvolva infecção A infecção da ferida operatória é uma das complicações cirúrgicas mais frequentes e é responsável por alta taxa de morbidade e mortalidade com conseqüente aumento dos gastos médico hospitalares Neste contexto Segal e Anderson 2002 realizaram um estudo que examinou dois tipos de preparação préoperatória da pele antes da realização de cirurgia cardíaca Os dados do estudo estão dispostos na Tabela 8 Esses dados fornecem evidência suficiente ao nível de significância de 5 para justificar a conclusão de que o tipo de preparação da pele e a infecção estão relacionados Tabela 8 Dados amostrais referente aos dois tipos de preparação préoperatória da pele antes da realização de cirurgia cardíaca Tipo de Preparação Grupo de Preparação Iodo Aquoso Iodo Insolúvel Total Fonte Segal C G Anderson J J 2002 Preoperative skin preparation of cardiac patients AORN journal 765 821828 X2 O21 O22 O2s O2j Xr Or1 Or2 Ors Orj Oj1 Oj2 Ojs n Eij Oij Oji n H0 Ha H0 H0 Ha χ2 calc n i1 Oij Eij2 Eij r 1s 1 H0 χ2 calc χ2 tab 105 Tipo de Preparação Infectado 14 4 18 NãoInfectado 94 97 191 Total 108 101 209 Fonte Segal C G Anderson J J 2002 Preoperative skin preparation of cardiac patients AORN journal 765 821828 Solução Neste caso devemos trabalhar com o teste quiquadrado de independência para verificar se X tipo de preparação da pele e Y infecção são independentes Para realizar o teste de hipóteses ao nível de significância de 5 seguimos as etapas Etapa 1 Formulação das Hipóteses Etapa 2 Escolha do Nível de Significância Para este teste será considerado um nível de significância de 5 isto é Etapa 3 Estatística do Teste Neste passo antes de calcular a estatística do teste devemos encontrar as frequências esperadas em cada célula da tabela com base na equação Assim temse que Logo nossa tabela de frequências esperadas é descrita como Tabela 9 Frequências esperadas referente aos dois tipos de preparação préoperatória da pele antes da realização de cirurgia cardíaca Tipo de Preparação Grupo de Preparação Iodo Aquoso Iodo Insolúvel Total Infectado 93 87 18 NãoInfectado 987 923 191 Total 108 101 209 Fonte Segal C G Anderson J J 2002 Preoperative skin preparation of cardiac patients AORN journal 765 821828 As variáveis X e Y são independentes H0 vs As variáveis X e Y não são independentes Ha α 0 05 Eij Oij Oji n 9 30 8 70 E11 108 18 209 E12 101 18 209 98 70 92 30 E21 108 191 209 E12 101 191 209 Assim como base na estatística do teste quiquadrado de aderência encontramos o valor de pela seguinte expressão Etapa 4 Região Crítica Neste caso nossa região crítica será determinada por Rejeitase se definido para o teste de acordo com o nível significância e grau de liberdade Esta região é ilustrada na área cinza da Figura 3 Figura 3 Região crítica do teste de hipótese para avaliar X tipo de preparação da pele e Y infecção são independentes ao nível de significância de 5 com 1 grau de liberdade Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Etapa 5 Conclusão Estatística Baseandose na região crítica exposta na Etapa 4 e na estatística qui quadrado calculada na Etapa 3 concluise estatisticamente que deve ser rejeitada ao nível de significância de 5 Etapa 6 Conclusão Clínica De acordo com a Etapa 5 concluise ao nível de 5 de significância que há evidências de que o tipo de preparação da pele e a infecção estão relacionados já que não são independentes isto é os dados fornecem evidência suficiente para suportar a hipótese em questão Esse resultado é esperado visto que a pele do paciente constituise na principal fonte de contaminação endógena da ferida operatória Os microorganismos têm acesso ou se implantam no campo cirúrgico no período entre a incisão e seu completo fechamento Portanto a preparação adequada da pele é fundamental devendose evitar a raspagem dos pêlos com lâmina que ocasiona pequenas lesões e pode aumentar a incidência de infecção pósoperatória Para trabalhar com o Teste QuiQuadrado no R fazemos o uso da função chisqtest disponível no próprio R que é uma função baseada na distribuição quiquadrado com objetivo de criar intervalos de confiança e testes de hipóteses para problemas de independência de variáveis Além disso precisamos definir o argumento correct FALSE Assim considerando nosso exemplo temse a seguinte rotina χ2 calc 5 37 χ2 calc i1 n Oij Eij2 Eij 14 9 302 9 30 94 98 702 98 70 4 8 702 8 70 97 92 302 92 30 H0 3 84 χ2 calc χ2 tab r 1s 1 2 12 1 1 α 0 05 H0 Pearsons Chisquared test data tabIAII Xsquared 53743 df 1 pvalue 002044 1 3841459 552 Teste Exato de Fisher O terceiro teste nãoparamétrico que iremos estudar é o teste exato de Fisher Este teste em geral é utilizado para analisar dados qualitativos nominais ou ordinais ou quantitativos discretos quando os tamanhos das duas amostras são pequenos Uma grande vantagem deste teste é determinar a probabilidade exata de ocorrência de uma frequência observada ou de valores mais extremos com base em uma tabela de contingência 22 Tabela 10 com linhas e colunas fixas Tabela 10 Tabela de contingência genérica para o teste exato de Fisher para independência de duas amostras Doença Grupo Presente Ausente Total Grupo 1 a b a b Grupo 2 c d c d Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Definir a tabela com os dados referente com as frequências observadas fobsIA c1494 fobsII c497 tabIAII cbindfobsIAfobsII Teste de Hipóteses Uso da função chisqtest chisqtestx y NULL correct TRUE p rep1lengthx lengthx rescalep FALSE simulatepvalue FALSE B 2000 chisqtestx tabIAII correct FALSE Valor de X2 tabelado para hipótese qchisq095 1 Conclusão Como o valor calculado para X2 537 é maior do que o valor tabelado de X2 384 rejeitase H0 Isto é há evidências de que variáveis tipo de preparação de pele e infecção são dependentes Doença Total a c b d n Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá O teste exato de Fisher é um dos testes mais poderosos para detectar associações em tabelas de contingência pequenas ou com células com frequências muito baixas No entanto ele pode ser computacionalmente intensivo para tabelas maiores e em alguns casos podem ser necessários métodos de aproximação para calcular as probabilidades exatas O resumo do procedimento deste teste é apresentado na Tabela 11 Tabela 11 Sumário do teste exato de Fisher para avaliar a associação entre os grupos Teste Exato de Fisher Condições Hipótese Não há associação entre os grupos vs Há associação entre os grupos Estatística do Teste Região Crítica Com base no base no nível de significância rejeitase se Exemplo O objetivo do estudo de Tahmassebi e Curzon 2002 foi determinar se a salivação em crianças com paralisia cerebral é devido à hiper salivação Um dos procedimentos nesse estudo foi examinar a capacidade salivar de crianças com paralisia cerebral e crianças saudáveis Os dados do estudo estão dispostos na Tabela 12 Esses dados fornecem evidência suficiente ao nível de significância de 5 para concluir que há associação entre o tipo de criança em relação a capacidade salivar Tabela 12 Tabela de contingência referente a capacidade salivar de crianças com paralisia cerebral e crianças saudáveis Capacidade Salivar Grupo Média Alta Total Paralisia Cerebral 2 8 10 Saudáveis 3 7 10 Total 5 15 20 Fonte Tahmassebi J F Curzon M E J 2003 The cause of drooling in children with cerebral palsyhypersalivation or swallowing defect International Journal of Paediatric Dentistry 132 106111 Solução Neste caso devemos trabalhar com o teste exato de Fisher para verificar há associação entre o tipo de criança em relação a capacidade salivar visto que as entradas da tabela são baixas Então para realizar o teste de hipóteses ao nível de significância de 5 seguimos as etapas Etapa 1 Formulação das Hipóteses H0 Ha ρ a bc da cc d nabcd α H0 ρ α Etapa 2 Escolha do Nível de Significância Para este teste será considerado um nível de significância de 5 isto é Etapa 3 Estatística do Teste A estatística de teste é a probabilidade de observar os resultados observados ou mais extremos sob a hipótese nula Para isso devemos calcular a probabilidade de todas as distribuições possíveis da tabela de contingência assumindo a hipótese nula de independência entre as variáveis Existem várias formas de calcular a estatística de teste mas aqui iremos nos basear na equação Portanto a probabilidade de observar um resultado tão extremo ou mais extremo do que o observado é de 35 Etapa 4 Região Crítica Neste caso nossa região crítica será determinada por rejeitase se Etapa 5 Conclusão Estatística Baseandose na região crítica exposta na Etapa 4 e na estatística do teste exato de Fisher calculada na Etapa 3 concluise estatisticamente que não deve ser rejeitada ao nível de significância de 5 Etapa 6 Conclusão Clínica Embora de acordo com a literatura clínica a salivação excessiva costuma surgir em crianças com paralisia cerebral uma vez que elas têm um aumento na produção salivar e a hipersalivação fica mais séria devido à dificuldade com a musculatura e em notar algo anormal concluise de acordo com a Etapa 5 que não há evidências ao nível de 5 de significância de que há associação entre o tipo de criança em relação a capacidade salivar neste estudo Para trabalhar com o Teste Exato de Fisher no R fazemos o uso da função fishertest disponível no próprio R que é uma função baseada na probabilidade descrita anteriormente No entanto vale a ressalva que se a tabela for 2x2 a função irá retornar por padrão a odds ratio que será nosso objeto de estudo no próximo teste em vez da probabilidade 553 Teste de MantelHaenzel O quarto teste nãoparamétrico de nosso estudo é o teste de MantelHaenszel Este teste foi desenvolvido por N Mantel e W Haenszel no ano de 1959 com o objetivo de avaliar se há uma associação entre duas variáveis categóricas controlando o efeito de uma terceira variável categórica chamada de efeito de confusão É frequentemente utilizado em estudos de casocontrole ou estudos de coorte para avaliar se uma exposição está associada a um determinado resultado de saúde controlando fatores de confusão que possam afetar a relação entre exposição e resultado Neste teste os dados a serem analisados consistem de várias tabelas de contingência a Tabela 13 por exemplo representa a iésima tabela de contingência ou iésimo estrato em vez de apenas uma Se for apropriado o teste fornecerá um meio de calcularmos uma estimativa pontual ou um intervalo de confiança para o odds ratio da população global E além disso nos permitirá testar a hipótese nula de nãoassociação entre a exposição e a doença Tabela 13 Iésima tabela de contingência genérica para o teste de MantelHaenzel para associação entre duas amostras Ocorrência da Doença Fator de Risco Presente Ausente Total Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Não há associação entre o tipo de criança e a capacidade salivar H0 vs Há associação entre o tipo de criança e a capacidade salivar Ha α 0 05 ρ 0 35 a bc da cc d nabcd 1010515 283720 H0 ρ α 0 05 H0 ρ ρ Ocorrência da Doença Presente Ausente Total Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá O teste de MantelHaenzel dois pressupostos devem ser satisfeitos 1 as observações devem independentes 2 todas as observações devem ser identicamente distribuídas Assumidos esses pressupostos o método de Mantel Haenszel se divide em duas etapas odds ratio combinados e o teste de associação Para a primeira etapa do teste de MantelHaenszel nosso objetivo é fornecer uma estimativa pontual para o estimador da odds ratio Neste caso com base na tabela de contingência defina na Tabela 13 este estimador é facilmente obtido por meo da equação A partir desse estimador podemos definir um intervalo de de confiança em torno de para o método de MantelHaenszel No entanto para a construção do intervalo é necessário um segundo componente que é o erropadrão do estimador da odds ratio que é obtido a partir do estimador da variância em torno de Segundo Robins Breslow e Greenland 1986 o estimador da variância em torno de é descrito pela equação Sendo assim de modo análogo aos métodos utilizados para distribuições amostrais obtemos que o erropadrão do estimador da odds ratio de MantelHaenszel é descrito por Portanto o intervalo de confiança para a odds ratio de MantelHaenszel é dado pela seguinte expressão A segunda etapa do método de MantelHaenszel de combinar a informação de duas ou mais tabelas de contingências 2x2 é testar se o odds ratio combinado é igual a 1 Neste caso se significa que não há associação entre a doença e o fator de risco Sendo assim para o nosso teste de hipóteses podemos definir as seguintes hipóteses Ai Bi Ai Bi Ci Di Ci Di Ai Ci Bi Di Ni OM ˆMH k i1 AiDi Ni k i1 BiCi Ni 100 1 α OM ˆMH OM ˆMH OM ˆMH V ar OM ˆMH k i1 AiDi Ai Di N 2 i 2 k i1 AiDi Ni 2 k i1 AiDi Bi Ci BiCi Ai Di N 2 i 2 k i1 AiDi Ni k i1 BiCi Ni k i1 BiCi Bi Ci N 2 i 2 k i1 BiCi Ni 2 OM ˆMH V arln OM ˆMH V ar OM ˆMH OM ˆMH2 1001 α OM ˆMH I exp ln COM ˆMH OM ˆMH z 1 α 2 V arln OM ˆMH OM ˆMH 1 OM ˆMH ˆ Agora para cada combinação das tabelas de contingências é suficiente calcular apenas o estimador do valor esperado da célula superior esquerda da seguinte para todos os estratos para construirmos nossa estatística de teste Sendo obtemos que tal estimador é descrito pela seguinte equação E o estimador da variância neste caso será dado pela expressão Com base nesses resultados podemos então prosseguir com a estatística do teste de MantelHaenzel Como estamos trabalhando com tabelas de contingência nossa estatística será baseada na estatística e neste caso será definida como Logo nossa regra de decisão será a seguinte rejeitamos a hipótese nula se o valor de for igual ou maior do que o valor crítico de obtido da distribuição quiquadrado com 1 grau de liberdade de acordo com o nível de significância definido Para fixar as ideias a Tabela 14 traz um resumo dos procedimentos utilizados para descrever o teste de MantelHaenszel Tabela 14 Sumário do teste de MantelHaenzel avaliar se há uma associação entre duas variáveis categóricas controlando o efeito de uma terceira variável categórica chamada de efeito de confusão Teste MantelHaenszel Condições Hipótese Não há associação entre o fator de risco e a doença vs Há associação entre o fator de risco e a doença vs Estatística do Teste Região Crítica Com base no modelo quiquadrado com 1 grau de liberdade rejeitase se Exemplo As doenças cardiovasculares são a principal causa de morte no mundo Dentre suas diversas formas a doença arterial coronariana DAC é a forma mais prevalente e a maior causa de morte nos países desenvolvidos Estudos sugerem que para um adulto de 40 anos de idade o risco de desenvolver DAC durante a vida é de 49 para homens e 32 para mulheres A DAC é uma consequência do processo de aterosclerose no qual há obstrução gradual ou súbita das artérias coronárias por placas de gordura e coágulos Com isso há insuficiência das artérias 1 H0 OM ˆMH vs 1 Ha OM ˆMH Eˆi Ai Bi Ai Ci Ni Sˆ2 i Ai Bi Ai Ci Bi Di Ci Di 1 N 2 i Ni χ2 χ2 MH k i1 Ai k i1 Eˆi 2 k i1 Sˆ2 i χ2 MH χ2 tab H0 Ha 1 H0 OM ˆMH 1 Ha OM ˆMH χ2 MH k i1 Ai k i1 Eˆi 2 k i1 Sˆ2 i H0 χ2 MH χ2 tab coronárias vasos sanguíneos encarregados em irrigar o próprio coração de proporcionarem ao músculo cardíaco miocárdio os nutrientes e o oxigênio de que este necessita para manter a sua atividade normal Neste contexto LaMont et al 2002 coletaram dados sobre doença arterial coronariana obstrutiva DACO hipertensão e idade entre os pacientes identificados por um teste de estresse em esteira como estando em risco Os dados do estudo estão dispostos na Tabela 15 a Esses dados fornecem evidência suficiente ao nível de significância de 5 para justificar a conclusão de que não existe uma associação entre a presença de hipertensão e a ocorrência de DACO nos pacientes com idade abaixo ou acima de 55 anos b Qual seria o valor da odds ratio e o intervalo de confiança de 95 neste caso Tabela 15 Pacientes estratificados por idade e classificados por status relativo à hipertensão fator de risco e DACO variável casonão caso Estrato 1 Abaixo de 55 anos Hipertensão Casos DACO Controles Saudáveis Total Presente 21 11 32 Ausente 16 6 22 Total 37 17 54 Estrato 2 Acima de 55 anos Hipertensão Casos DACO Controles Saudáveis Total Presente 50 14 64 Ausente 18 6 24 Total 68 20 88 Fonte LaMont D H Budoff M J Shavelle D M Shavelle R Brundage B H Hagar J M 2002 Coronary calcium scanning adds incremental value to patients with positive stress tests American heart journal 1435 861867 Solução a Neste caso devido a presença estratos referente as idades de nossos pacientes devemos trabalhar com o teste de MantelHaenszel já que a idade pode ser uma possível variável de efeito de confusão Sendo assim para realizar o teste de hipóteses ao nível de significância de 5 seguimos as etapas Etapa 1 Formulação das Hipóteses Etapa 2 Escolha do Nível de Significância Para este teste será considerado um nível de significância de 5 isto é Não existe associação entre a presença de hiperensão e a ocorrência de DACO nos pacientes abaixou ou acima de 55 anos H0 vs Existe associação entre a presença de hiperensão e a ocorrência de DACO nos pacientes abaixou ou acima de 55 anos Ha α 0 05 Etapa 3 Estatística do Teste Neste passo antes de calcular a estatística do teste devemos encontrar os estimadores das células superiores a esquerda de cada um dos estratos que são dados respectivamente por e precisamos também das variâncias desses estimadores que são dadas respectivamente por Com base nesses resultados temse então que a estatística do teste será dada por Etapa 4 Região Crítica Neste caso nossa região crítica será determinada por Rejeitase se definido para o teste de acordo com o nível significância dado e 1 grau de liberdade Esta região é ilustrada na área cinza da Figura 4 Figura 4 Região crítica do teste de hipótese para avaliar se existe uma associação entre a presença de hipertensão e a ocorrência de DACO nos pacientes com idade abaixo ou acima de 55 anos ao nível de significância de 5 com 1 grau de liberdade Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Etapa 5 Conclusão Estatística Baseandose na região crítica exposta na Etapa 4 e na estatística qui quadrado calculada na Etapa 3 concluise estatisticamente que não deve ser rejeitada ao nível de significância de 5 21 93 Eˆ1 A1 B1 A1 C1 N1 21 1121 16 54 49 45 Eˆ2 A2 B2 A2 C2 N2 50 1450 18 88 2 87 Sˆ2 1 A1 B1 A1 C1 B1 D1 C1 D1 1 N 2 1 N1 21 1121 1611 616 6 54 1 542 3 10 Sˆ2 2 A2 B2 A2 C2 B2 D2 C2 D2 1 N 2 2 N2 50 1450 1814 618 6 88 1 882 0 0242 χ2 MH k i1 Ai k i1 Eˆi 2 k i1 Sˆ2 i 21 50 21 93 49 45 2 87 3 10 H0 3 84 χ2 MH χ2 tab α 0 05 H0 Etapa 6 Conclusão Clínica Embora os fatores de risco para a aterosclerose como hipertensão arterial colesterol elevado principalmente LDL o chamado colesterol ruim e diabetes mellitus favoreçam a ocorrência de DACO em nosso estudo de acordo com a Etapa 5 concluise que não há evidências de que existe uma associação entre a presença de hipertensão e a ocorrência de DACO nos pacientes com idade abaixo ou acima de 55 anos ao nível de significância de 5 baseandose nesta amostra b O estimador da odds ratio neste caso é descrito por Isto é a partir desses resultados estimamos que independentemente da idade pacientes que possuem hipertensão são menos propensos a ter DACO do que pacientes que não possuem hipertensão Por outro lado para o cálculo do intervalo de confiança é necessário encontrar a variância em torno de que é dada por em que Logo Sendo assim de modo análogo aos métodos utilizados para distribuições amostrais obtemos que o erropadrão do estimador da odds ratio de MantelHaenszel é descrito por Portanto o intervalo de 95 confiança para a odds ratio de MantelHaenszel é dado pela seguinte expressão 0 94 OM ˆMH k i1 AiDi Ni k i1 BiCi Ni N1 A1D1 A2D2 N2 B1C1 N1 C2D2 N2 21 654 50 688 11 1654 14 1888 OM ˆMH V ar OM ˆMH k i1 AiDi Ai Di N 2 i 2 k i1 AiDi Ni 2 k i1 AiDi Bi Ci BiCi Ai Di N 2 i 2 k i1 AiDi Ni k i1 BiCi Ni k i1 BiCi Bi Ci N 2 i 2 k i1 BiCi Ni 2 V1 V2 V3 0 05 V1 A1D1 A1 D1 N 2 1 A2D2 A2 D2 N 2 2 2 A1D1 N1 A2D2 N2 2 21 6 50 6 21 6 542 50 6 882 2 21 6 50 50 6 88 2 V2 A1D1 B1 C1 B1C1 A1 D1 N 2 1 A2D2 B2 C2 B2C2 A2 D2 N 2 2 2 A1D1 N1 B1C1 N1 A2D2 N2 B2C2 N2 0 07 21 611 16 11 1621 6 542 50 614 18 14 1850 6 882 2 21 6 54 11 16 54 50 6 88 14 18 88 0 03 V3 B1C1 B1 C1 N 2 1 B2C2 B2 C2 N 2 2 2 B1C1 N1 B2C2 N2 2 11 16 14 18 11 16 542 14 18 882 2 11 16 50 14 18 88 2 V ar 0 15 OM ˆMH V1 V2 V3 OM ˆMH V arln 0 17 OM ˆMH V ar OM ˆMH OM ˆMH2 0 15 0 942 OM ˆMH Para trabalhar com o Teste MantelHaenszel no R fazemos o uso da função mantelhaentest disponível no próprio R que é uma função baseada na distribuição quiquadrado com objetivo de criar intervalos de confiança e testes de hipóteses para problemas associação de variáveis baseadas na odds ratio Além disso precisamos definir o correct FALSE Assim considerando nosso exemplo temse a seguinte rotina MantelHaenszel chisquared test without continuity correction data dataMH MantelHaenszel Xsquared 0024265 df 1 pvalue 08762 alternative hypothesis true common odds ratio is not equal to 1 95 percent confidence interval 04184851 21018264 sample estimates common odds ratio 09378609 1 3841459 I exp ln expln094 196 0 42 2 10 C OM ˆMH OM ˆMH z 1 α 2 V arln OM ˆMH 017 Definir a tabela com os dados dataMH arrayc21161165018146 dim c222 dimnames listHipertensao cPresenteAusente DACO cCasosControles Idade c 55Anos 55Anos Teste de Hipóteses Uso da função mantelhaentest mantelhaentestx y NULL z NULL alternative ctwosided less greater correct TRUE exact FALSE conflevel 095 mantelhaentestdataMH correct FALSE Valor de X2 tabelado para hipótese qchisq095 1 Conclusão Como o valor calculado para X2 0024265 é menor do que o valor tabelado de X2 38414 não rejeitase H0 Isto é ao nível de significância de 5 podese concluir que não há evidências suficientes para afirmar que uma associação entre a presença de hipertensão e a ocorrência de DACO nos pacientes de acordo com a idade 554 Teste de MannWhitneyWilcoxon O Teste de MannWhitneyWilcoxon U também conhecido como Teste de Soma de Postos de Wilcoxon é um teste estatístico nãoparamétrico utilizado para comprovar se dois grupos independentes foram ou não extraídos da mesma população sendo o análogo nãoparamétrico do teste paramétrico t de Student Em geral quando utilizamos este teste nosso objetvo é verificar se as duas populações têm a mesma forma em relação aos seus dados Em outras palavras queremos evidências sobre se os grupos são retirados de populações com diferentes níveis de uma variável de interesse Neste caso as hipóteses do teste são descritas por A hipótese nula é que as duas populações são iguais A hipótese alternativa é que as duas populações não são iguais Alguns pesquisadores interpretam isso como comparando as medianas entre as duas populações em contraste testes paramétricos comparam as médias entre dois grupos independentes Em certas situações em que os dados têm formas semelhantes isso é válido mas devese notar que as medianas não estão realmente envolvidas no cálculo da estatística do teste de MannWhitney U Dois grupos podem ter a mesma mediana e ser significativamente diferentes de acordo com o Teste de MannWhitney U Neste aspecto para a construção deste teste considere número de casos no menor dos dois grupos e número de casos no maior grupo Como primeiro passo combinamse as observações de ambos os grupos relacionandoos por ordem crescente Nessa ordenação crescente coo segundo passo definimos os postos é um numero atribuído a um item amostral individual de acordo com sua posição na lista ordenada Ao primeiro item atribuise o posto 1 ao segundo item o posto 2 e assim por diante das observações A soma de todos os postos naturalmente deve ser igual a Agora sem perda de generalidade para calcularmos matematicamente esta eststística iremos considerar o caso em que amostras pequenas e hipóteses do tipo bilateral Neste caso baseandose na ideia de que a estatística teste U será dada pelo número de vezes que um escore no grupo com casos precede um escore no grupo com casos no grupo ordenado formado por casos obtemos que e em que é a soma dos postos grupo tal que a estatística U do teste de MannWhitney é definida Neste caso a regra de decisão assim como nos testes paramétricos e quiquadrado também será baseada em uma tabela de valores críticos chamada de tabela U Tabela 17 em as colunas são definidas por e as linhas por Um resumo deste teste para amostras pequenas é apresentado na Tabela 16 Tabela 16 Sumário do teste bilateral de MannWhitney para avaliar a distribuição dos grupos amostrais Teste de MannWhitney Wilcoxon Condições Hipótese Não há diferença entre os grupos amostrais vs Há diferença entre os grupos amostrais Estatística do Teste H0 Ha n1 n2 1 n1 n2 n1 n2 2 n 20 n2 n1 n n1 n2 U1 n1n2 1 n1 n1 2 R1 U2 n1n2 1 n2 n2 2 R2 Ri i 1 2 U min U1 U2 n2 n1 H0 Ha min Ucalc U1 U2 Teste de MannWhitney Wilcoxon Condições Região Crítica Com base no nível de significância de 5 rejeitase se Tabela 17 Valores críticos de U assumindo um teste bilateral com 5 de significância 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 2 0 0 0 0 1 1 1 1 1 2 2 2 2 3 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 4 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14 5 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20 6 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27 7 8 10 12 14 16 18 20 22 24 26 28 30 32 34 8 13 15 17 19 22 24 26 29 31 34 36 38 41 9 17 20 23 26 28 31 34 37 39 42 45 48 10 23 26 29 33 36 39 42 45 48 52 55 11 30 33 37 40 44 47 51 55 58 62 12 37 41 45 49 53 57 61 65 69 13 45 50 54 59 63 67 72 76 14 55 59 64 69 74 78 83 15 64 70 75 80 85 90 16 75 81 86 92 98 17 87 93 99 105 18 99 106 112 19 113 119 20 127 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá H0 Ucalc Utab n1 n2 Exemplo A tianeptina é um fármaco antidepressivo do grupo dos tricíclicos Sua ação antidepressiva potencial foi demonstrada em estudos préclínicos através de testes em animais Rocha 1998 relata os resultados de um ensaio clínico aleatorizado duplocego realizado com o objetivo de comparar a tianeptina com o placebo O ensaio constituiu em administrar a droga a dois grupos de pacientes compostos de forma aleatória e quantificar a depressão em que os valores maiores indicam maior gravidade da depressão Os escores foram obtido para cada paciente 7 14 21 28 35 42 49 e 54 dias após o início do estudo e estão dispostos na Tabela 18 Ao nível de 5 de significância com base no teste de MannWhitneyWilcoxon podese concluir que há diferença significativa entre o uso de placebo e o uso de tianeptina Tabela 18 Os escores obtidos para cada paciente 7 14 21 28 e 42 dias após o início do estudo Placebo Tianeptina 6 10 33 8 21 17 26 4 10 17 29 14 33 9 29 4 Fonte Rocha F L Soares J F 1998 Estudo multicentrico duplocego controlado com placebo sobre a eficacia e tolerabilidade da tianeptina no tratamento de episodios depressivos maiores analise convencional e analise com modelos de dados longitudinais J bras psiquiatr 105117 Solução Para este exemplo iremos trabalhar com o teste de MannWhitneyWilcoxon que ao nível de significância de 5 seguiremos as mesmas etapas descritas anteriormente para sua construção Isto é Etapa 1 Formulação das Hipóteses Etapa 2 Escolha do Nível de Significância Para este teste será considerado um nível de significância de 5 isto é Etapa 3 Estatística do Teste Antes de calcular a estatística do teste precisamos definir o posto dos nossos grupos Para esta tafera iremos ordenar nossos dados em ordem crescente e calcular os postos posições sempre atentos a repetição Sendo assim podemos construir a seguinte tabela Tabela 19 Os escores e os postos obtidos para cada paciente 7 14 21 28 e 42 dias após o início do estudo Não há diferença entre os escores de placebo e tianeptina H0 vs Há diferença entre os escores de placebo e tianeptina Ha α 0 05 Placebo Posto Placebo Tianeptina Posto Tianeptina 4 e 4 15 6 3 8 4 9 5 10 65 10 65 14 8 17 e 17 95 21 11 26 12 29 e 29 135 33 e 33 155 Soma 905 Soma 455 Fonte Rocha F L Soares J F 1998 Estudo multicentrico duplocego controlado com placebo sobre a eficacia e tolerabilidade da tianeptina no tratamento de episodios depressivos maiores analise convencional e analise com modelos de dados longitudinais J bras psiquiatr 105117 Com os postos calculados devemos agora calcular os valores de e que são prerequisitos para a estatística do teste de MannWhitney Assim temos que e Portanto obtemos que Etapa 4 Região Crítica Neste caso nossa região crítica será determinada por rejeitase se Como obtemos da tabela U que Etapa 5 Conclusão Estatística Baseandose na região crítica exposta na Etapa 4 e na estatística do teste MannWhitneyWilcoxon calculada na Etapa 3 concluise estatisticamente que deve ser rejeitada ao nível de significância de 5 Etapa 6 Conclusão Clínica Concluise de acordo com a Etapa 5 que há evidências ao nível de 5 de significância de que há diferença entre os escores de placebo e tianeptina Particularmente observase ainda que os escores para o grupo de pacientes que tomaram tianeptina são menores indicando menor gravidade de depressão Esse resultado é esperado uma vez que a tianeptina é um antidepressivo que por sua estrutura U1 U2 8 8 90 5 100 90 5 9 5 U1 n1n2 1 n1 n1 2 R1 88 1 2 8 8 45 5 100 45 5 54 5 U2 n1n2 1 n2 n2 2 R2 88 1 2 min min9 5 54 5 9 5 Ucalc U1 U2 H0 Ucalc Utab 8 n1 n2 13 Utab H0 química pertence à família dos tricíclicos e sua ação se deve ao aumento da recaptura do neurotransmissor serotonina nos terminais nervosos serotoninérgicos presentes no córtex hipocampo e sistema límbico Além disso este medicamento apresenta atividade sobre as alterações do humor sendo que esta característica faz com que não seja considerada nem um antidepressivo sedativo nem estimulante Para trabalhar com o Teste MannWhitneyWilcoxon no R fazemos o uso da função mannwhitney disponível no pacote sjstats é uma função baseada na distribuição quiquadrado com objetivo de criar intervalos de confiança e testes de hipóteses para comparação de grupos Além disso esta função traz os valores U e W tal que a estatística do teste é obtida por desde que e o tamanho amostral seja pequeno Logo considerando nosso exemplo temse a seguinte rotina MannWhitneyUTest Groups 1 Placebo n 8 2 Tianeptina n 8 U 90500 W 54500 p 0018 Z 2372 effectsize r 0593 rankmean1 1131 rankmean2 569 555 Teste de Wilcoxon O nosso último teste nãoparamétrico para duas amostras no caso pareadas é o teste de Wilcoxon Desenvolvido por F Wilcoxon em 1945 este teste baseiase nos postos das diferenças intrapares sendo usado para comparar amostras relacionadas é uma alternativa para o teste tStudent quando as amostras não seguem distribuição max U W Ucalc n1n2 1 n1 n1 2 n1 n2 Carregando o pacote suppressWarningslibrarysjstats Carregar os dados obs c633212610293329 108174171494 grupos crepPlacebo 8 repTianeptina 8 tab dataframecbindobs grupos tab1 asnumerictab1 namestab cObservacoes Grupos Teste de Hipóteses Uso da função mannwhitney mannwhitneydata x grp distribution asymptotic out ctxt viewer browser encoding UTF8 file NULL suppressWarningsmannwhitneytab x Observacoes grp Grupos Conclusão Como o valor calculado para U Ucalc 100 905 95 é menor do que o valor tabelado de U para amostras de tamanho 8 Utab 13 rejeitase H0 Isto é ao nível de 5 de significância podese concluir que há diferença significativa entre os escores dos medicamentos indicando que um medicamento possui uma eficácia melhor que o outro no controle da depressão normal Portanto o teste de Wilcoxon é usado para testar se as medianas das amostras são iguais nos casos em que a suposição de normalidade não é satisfeita ou quando não for possível checar essa suposição Para a construção deste teste considere que representa os escores da amostra 1 e os escores da amostra 2 Primeiramente são calculadas as diferenças de cada par de escores Em seguida atribuemse postos às diferenças dos escores em valor absoluto A menor diferença em valor absoluto receberá o posto 1 a segunda menor diferença em valor absoluto receberá o posto 2 e assim por diante Depois acrescentase o sinal das diferenças aos postos É importante destacar que há possibilidades de empates que ocorrem de duas maneiras quando a diferença dos escores X e Y for zero em que retirase o par da análise ou quando houver diferenças em valor absoluto forem iguais em que atribuemse à essas diferenças a média dos postos que elas receberiam se não fossem empatadas e depois acrescentamse aos postos os sinais das diferenças Nessas condições sob a hipótese nula a soma dos postos positivos e a soma dos postos negativos devem ser aproximadamente iguais indicando que não existe diferença entre as medianas dos grupos se as somas não forem aproximadamente iguais podese dizer que as medianas dos grupos são diferentes rejeitandose Sem perda de generalidade iremos considerar para nosso estudo aqui o caso em que amostras pequenas e hipóteses do teste são do tipo bilateral Neste caso temse que a estatística do teste é dada por em que é o número de é o número de é o posto ordem de positivo e é o posto ordem de negativo Logo a regra de decisão assim como nos testes paramétricos quiquadrado e MannWhitney Wilcoxon também será baseada em uma tabela de valores críticos chamada de tabela W Tabela 21 em as colunas são definidas pelo nível de significância do teste e as linhas por Um resumo deste teste é apresentado na Tabela 20 Tabela 20 Sumário do teste bilateral de Wilcoxon para avaliar a diferença de medianas entre os grupos amostrais Teste de Wilcoxon Condições Hipótese Não há diferença entre as medianas dos grupos amostrais vs Há diferença entre as medianas dos grupos amostrais Estatística do Teste Região Crítica Com base no nível de significância de 5 rejeitase se Tabela 21 Valores críticos de W para testes bilaterais e unilaterais de acordo com os níveis de significância Níveis de Significância Tamanho Amostral 0001 0005 0010 0025 0050 0100 0200 5 0 2 6 0 2 3 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Xi Yi di Xi Yi di di 0 di di H0 H0 n 20 min Wcalc i1 m p i i1 k p i m d i k d i p i di p i di n H0 Ha min Wcalc m i1 p i k i1 p i H0 Wcalc Wtab Níveis de Significância Tamanho Amostral 0001 0005 0010 0025 0050 0100 0200 7 0 2 3 5 8 0 2 3 5 8 9 0 1 3 5 8 10 10 1 3 5 8 10 14 11 0 3 5 8 10 13 17 12 1 5 7 10 13 17 21 13 2 7 9 13 17 21 26 14 4 9 12 17 21 25 31 15 6 12 15 20 25 30 36 16 8 15 19 25 29 35 42 17 11 19 23 29 34 41 48 18 14 23 27 34 40 47 55 19 18 27 32 39 46 53 62 20 21 32 37 45 52 60 69 21 25 37 42 51 58 67 77 22 30 42 48 57 65 75 86 23 35 48 54 64 73 83 94 24 40 54 61 72 81 91 104 25 45 60 68 79 89 100 113 26 51 67 75 87 98 110 124 27 57 74 83 96 107 119 134 28 64 82 91 105 116 130 145 29 71 90 100 114 126 140 157 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Níveis de Significância Tamanho Amostral 0001 0005 0010 0025 0050 0100 0200 30 78 98 109 124 137 151 169 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exemplo Um estudo foi realizado para avaliar a eficácia de um programa de exercícios na redução da pressão arterial sistólica em pacientes com préhipertensão definida como uma pressão arterial sistólica entre 120139 mmHg No estudo um total de 15 pacientes com préhipertensão se inscreveram e suas pressões arteriais sistólicas foram medidas Depois da medição inicial cada paciente participou de um programa de treinamento de exercícios onde aprenderam as técnicas adequadas e a execução de uma série de exercícios Os pacientes foram instruídos a fazer o programa de exercícios 3 vezes por semana durante 6 semanas Após 6 semanas as pressões arteriais sistólicas foram medidas novamente Os dados são exibidos nas Tabela 22 Ao nível de 5 de significância com base no teste de Wilcoxon podese afirmar que existe diferença nas pressões arteriais sistólicas após participação no programa de exercícios Tabela 22 Valores das pressões arteriais sistólicas dos pacientes antes e depois do programa de exercícios Paciente Pressão Arterial Sistólica Antes Pressão Arterial Sistólica Depois 1 125 118 2 132 134 3 138 130 4 120 124 5 125 105 6 127 130 7 136 130 8 139 132 9 131 123 10 132 128 11 135 126 12 136 140 13 128 135 14 127 126 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Paciente Pressão Arterial Sistólica Antes Pressão Arterial Sistólica Depois 15 130 132 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Solução Para este exemplo iremos trabalhar com o teste de Wilcoxon que ao nível de significância de 5 seguiremos as mesmas etapas descritas anteriormente para sua construção Isto é Etapa 1 Formulação das Hipóteses Etapa 2 Escolha do Nível de Significância Para este teste será considerado um nível de significância de 5 isto é Etapa 3 Estatística do Teste Antes de calcular a estatística do teste precisamos definir duas coisas as diferenças entre os valores das pressões arteriais sistólicas para cada paciente e definir os postos das observações Para esta tarefa iremos inicialmente calcular as diferenças e em seguida ordenar essas diferenças em ordem crescente no caso a ordenação dos valores absolutos das diferenças e calcular os postos e adicionando os sinais a estes postos sempre atentos a repetição Neste caso podemos construir a seguinte tabela Tabela 23 Valores das pressões arteriais sistólicas dos pacientes antes e depois do programa de exercícios Paciente Pressão Arterial Sistólica Antes Pressão Arterial Sistólica Depois Diferenças Ordenação dos Valores Absolutos das Diferenças Rank dos Sinais 1 125 118 7 1 10 2 132 134 2 2 25 3 138 130 8 2 25 4 120 124 4 3 40 5 125 105 20 4 60 6 127 130 3 4 60 7 136 130 6 4 60 8 139 132 7 6 80 9 131 123 8 7 100 10 132 128 4 7 100 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Os valores medianos das pressões arteriais sistólicas antes e depois do programa de exercício são iguais H0 vs Os valores medianos das pressões arteriais sistólicas antes e depois do programa de exercício não são iguais Ha α 0 05 Paciente Pressão Arterial Sistólica Antes Pressão Arterial Sistólica Depois Diferenças Ordenação dos Valores Absolutos das Diferenças Rank dos Sinais 11 135 126 9 7 100 12 136 140 4 8 125 13 128 135 7 8 125 14 127 126 1 9 140 15 130 132 2 20 150 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Agora como temos que e Portanto obtemos que a estatística do teste de Wilcoxon é descrita por Etapa 4 Região Crítica Neste caso nossa região crítica será determinada por rejeitase se Como obtemos da tabela W que Etapa 5 Conclusão Estatística Baseandose na região crítica exposta na Etapa 4 e na estatística do teste Wilcoxon calculada na Etapa 3 concluise estatisticamente que não deve ser rejeitada ao nível de significância de 5 Etapa 6 Conclusão Clínica De acordo com a Etapa 5 não há evidências ao nível de 5 de significância de que há uma diferença significativa nas pressões arteriais sistólicas após o programa de exercícios Para trabalhar com o Teste Wilcoxon no R fazemos o uso da função wilcoxtest disponível no próprio R que é uma função utilizada com objetivo de criar intervalos de confiança e testes de hipóteses para comparação de grupos Além disso devemos definir o argumento paired TRUE por se tratar de uma amostra pareada e notar que esta função traz um valor tal que a estatística do teste é obtida por para amostras pequenas Logo considerando nosso exemplo temse a seguinte rotina min Wcalc m i1 p i k i1 p i 15 14 12 5 12 5 10 10 8 6 1 89 i1 m p i 2 5 2 5 4 6 6 10 31 i1 k p i min 89 31 31 Wcalc H0 Wcalc Wtab n 15 25 Wtab H0 V V Wcalc nn 1 2 Wilcoxon signed rank test data antes and depois V 89 pvalue 009886 alternative hypothesis true location shift is not equal to 0 56 Exercícios de Revisão Exercício 1 O objetivo de um estudo de Lugliè et al 2002 foi investigar o estado oral de um grupo de pacientes diagnosticados com talassemia maior TM Uma das medidas de resultado foi o índice de dentes cariados perdidos e obturados DMFT Em uma amostra de 18 pacientes o valor médio do índice DMFT foi de 103 com um desvio padrão de 73 Isso é evidência suficiente para nos permitir concluir que o valor médio do índice DMFT é maior que 90 em uma população de pacientes similares ao nível de significância de 5 Justifique sua resposta com base na abordagem clínica Exercício 2 O objetivo de um estudo de Ingle e Eastell 2002 foi examinar a densidade mineral óssea DMO e as propriedades de ultrassom de mulheres com fraturas de tornozelo Os investigadores recrutaram 31 mulheres pós menopáusicas com fraturas de tornozelo e 31 mulheres pósmenopáusicas saudáveis para servirem como controles Uma das medidas de base foi o índice de rigidez do tendão de Aquiles O índice médio de rigidez para o grupo de fratura de tornozelo foi de 769 com um desvio padrão de 126 No grupo controle a média foi de 909 com um desvio padrão de 125 Esses dados fornecem evidências suficientes para permitir que você conclua que em geral o índice de rigidez é maior em mulheres pósmenopáusicas saudáveis do que em mulheres pósmenopáusicas com fraturas de tornozelo ao nível de significância de 5 Justifique sua resposta com base na abordagem clínica Exercício 3 Garção e Cabrita 2002 queriam avaliar a capacidade de um farmacêutico comunitário influenciar positivamente os resultados da terapia medicamentosa antihipertensiva por meio de um programa de cuidado farmacêutico em Portugal Oitenta e dois sujeitos com hipertensão essencial foram aleatoriamente designados para um grupo de intervenção ou um grupo de controle O grupo de intervenção recebeu monitoramento mensal por um farmacêutico para monitorar a pressão arterial avaliar a adesão ao tratamento prevenir detectar e resolver Carregar os dados antes c125132138120125127136139131132135136128127130 depois c118134130124105130130132123128126140135126132 Teste de Hipóteses Uso da função wilcoxtest wilcoxtestx y NULL alternative ctwosided less greater mu 0 paired FALSE exact NULL correct TRUE confint FALSE conflevel 095 tolroot 1e4 digitsrank Inf suppressWarningswilcoxtestx antes y depois alternative twosided paired TRUE correct FALSE Conclusão Como o valor calculado para W Wcalc 120 89 31 é maior do que o valor tabelado de W para amostras de tamanho 15 Wtab 25 não rejeitase H0 Isto é ao nível de 5 de significância podese concluir que não há uma diferença significativa nas pressões arteriais sistólicas após o programa de exercícios problemas relacionados a medicamentos e incentivar medidas não farmacológicas para o controle da pressão arterial As mudanças após 6 meses na pressão arterial diastólica pré e pós em mmHg são apresentadas na Tabela 24 para cada um dos pacientes Com base nesses dados o que o pesquisador clínico deve concluir ao nível de significância de 1 Justifique sua resposta com base na abordagem clínica Tabela 24 Dados referentes as mudanças após 6 meses na pressão arterial diastólica pré pós em mmHg para cada um dos pacientes Grupo de Intervenção Grupo Controle 20 0 2 12 36 18 26 0 2 8 20 10 2 8 14 14 30 4 18 4 6 2 4 2 24 8 6 10 8 0 8 6 16 10 14 12 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Execício 4 Ellen Davis Jones 2003 estudou os efeitos da terapia de reminiscência em mulheres idosas com depressão No estudo foi coletada uma amostra de 15 mulheres com 60 anos ou mais que residiam por 3 meses ou mais em uma instituição de cuidados de longo prazo para idosos A depressão foi medida pela Escala de Depressão Geriátrica GDS tal que pontuações mais altas indicam sintomas mais graves de depressão Os participantes então receberam terapia de reminiscência para cuidados de longo prazo que utiliza fotografias de família álbuns de recortes e lembranças pessoais para estimular a memória e a conversa entre os membros do grupo As pontuações de depressão prétratamento e póstratamento estão apresentadas na Tabela 25 Podemos concluir com base nesses dados que os pacientes que participam da terapia de reminiscência experimentam em média uma queda nas pontuações de depressão GDS ao nível de significância de 5 Justifique sua resposta com base na abordagem clínica Tabela 25 Dados referentes as pontuações de depressão prétratamento e póstratamento para cada um dos pacientes PréGDS PósGDS 12 11 10 10 16 11 2 3 12 9 18 13 11 8 16 14 16 16 10 10 14 12 21 22 9 9 19 16 20 18 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exercício 5 Sabese que os efeitos colaterais dos antiinflamatórios nãoesteroides AINEs incluem problemas relacionados à ulceração péptica função renal e doença hepática Em 1996 o Colégio Americano de Reumatologia emitiu e divulgou diretrizes recomendando testes de referência CBC painel hepático e testes renais ao prescrever AINEs Neste contexto um estudo foi conduzido por Rothenberg e Holcomb 2000 para determinar se os médicos que participam de um banco de dados nacional de registros médicos informatizados realizavam os testes de referência recomendados ao prescrever AINEs Os pesquisadores classificaram os médicos no estudo em quatro categorias aqueles que praticam medicina interna medicina familiar medicina familiar acadêmica e grupos multispecializados Os dados aparecem na Tabela 26 Os dados fornecem evidência suficiente para concluirmos que o tipo de prática e o desempenho dos testes de base estão relacionados ao nível de significância de 5 Justifique sua resposta com base na abordagem clínica Tabela 26 Dados amostrais referente ao tipo de prática e o desempenho dos testes de base Testes de Base Tipo de Prática Sim Não Medicina Interna 294 921 Medicina Familiar 98 2862 Medicina Familiar Acadêmica 50 3064 Grupos de Multispecialidade 203 2652 Fonte Rothenberg R J Holcomb J P 2000 Guidelines for Monitoring of NSAIDS Who Listened JCR Journal of Clinical Rheumatology 65 258265 Exercício 6 A osteoartrite OA é uma doença articular crônicodegenerativa que evidencia desgaste da cartilagem articular Dentre as articulações de sustentação de peso o joelho é o mais frequentemente afetado Participaram de um estudo 15 voluntários com diagnóstico clínico e radiográfico de OA bilateral de joelho e outros 15 voluntários sem OA Dentre os 15 voluntários com diagnóstico de OA 7 eram sedentários e os demais ativos e dentre os 15 voluntários sem diagnóstico de OA 4 eram sedentários a Organize esses dados em uma tabela de contingência 2 x 2 identificando os indivíduos ativos e sedentários e os portadores e não portadores de OA b Com base na tabela descrita no Item a utilize o teste quiquadrado para testar a associação entre atividade física sedentáriosativos e a osteoartrite portadoresnão portadores Utilize um nível de significância de 005 c Compare o resultado do Item b com o contexto clínico o que você pode concluir Exercício 7 Kozinszky e Bártai 2004 examinaram o uso de contraceptivos por adolescentes que solicitaram aborto em Szeged Hungria As pacientes foram classificados como menores de 20 anos ou com 20 anos ou mais Das mulheres com menos de 20 anos 146 solicitaram um aborto Do grupo mais velho 1054 solicitaram um aborto Um grupo de controle que consistia em visitantes do centro de planejamento familiar que não solicitaram um aborto ou pessoas acompanhando mulheres que solicitaram um aborto também foram considerado Neste grupo houve 147 mulheres com menos de 20 anos e 1053 com 20 anos ou mais Uma das variáveis de resultado de interesse foi o conhecimento da contracepção de emergência Os pesquisadores relatam que A contracepção de emergência foi significativamente MantelHaenszel p 0001 menos conhecida entre as adolescentes que solicitariam o aborto em comparação com as mulheres mais velhas que solicitavam o aborto artificial OR 07 do que o conhecimento relevante dos controles adolescentes OR 010 Explique o significado das estatísticas reportadas Quais são suas conclusões com base nas informações fornecidas Exercício 8 A suspeita de que o café possa aumentar o número de infartos do miocárdio foi recentemente reforçada pela demonstração de que tomar café não filtrado como o café turco por exemplo faz aumentar o colesterol total e a fração LDL conhecida como mau colesterol Neste aspecto um certo estudo foi realizado com o objetivo de investigar a relação entre o consumo excessivo de café e infarto do miocárdio nãofatal de acordo com a idade O estudo fornece a informação de exposição para duas amostras de homens um grupo de 1559 fumantes e um grupo de 937 nãofumantes Os dados do estudo estão dispostos na Tabela 27 a Esses dados fornecem evidência suficiente ao nível de significância de 5 para justificar a conclusão de que não existe uma associação entre o fato de homem ser fumante e o consumo excessivo de café para os homens com idade abaixo ou acima de 60 anos b Qual seria o valor da odds ratio e o intervalo de confiança de 95 neste caso Tabela 27 Pacientes estratificados por idade e classificados por status relativo à fumo fator de risco e excesso de café variável casonão caso Consumo Excessivo de Café Estrato 1 Abaixo de 60 anos Fumante Sim Não Total Sim 1011 81 1092 Não 390 77 467 Total 1401 158 1559 Consumo Excessivo de Café Estrato 2 Acima de 60 anos Fumante Sim Não Total Sim 383 66 449 Não 365 123 488 Total 748 189 937 Fonte Oliveira R P 2023 Notas de Aula Bioestatística Departamento de Estatística Universidade Estadual de Maringá Exercício 9 No estudo de Zuckerman e Heneghan 2002 os estresses hemodinâmicos foram medidos em indivíduos submetidos à colecistectomia laparoscópica Uma variável de resultado de interesse foi o volume diastólico final ventricular LVEDV medido em mililitros Uma parte dos dados aparece na Tabela 28 O termo baseline referese a uma medição realizada 5 minutos após a indução da anestesia e o termo 5 minutos referese a uma medição realizada 5 minutos após a linha de base Podemos concluir com base nesses dados que entre os indivíduos submetidos à colecistectomia laparoscópica os níveis médios de LVEDV mudam ao nível se significância de 5 Justifique sua resposta com base na abordagem clínica Tabela 28 Dados amostrais referentes ai volume diastólico final ventricular LVEDV medido em mililitros em indivíduos submetidos à colecistectomia laparoscópica Paciente Baseline 5 Minutos 1 517 493 2 790 720 Fonte Zuckerman R S Heneghan S 2002 The duration of hemodynamic depression during laparoscopic cholecystectomy Surgical Endoscopy And Other Interventional Techniques 16 12331236 Paciente Baseline 5 Minutos 3 787 873 4 803 883 5 720 1033 6 850 940 7 697 947 8 713 463 9 557 717 10 563 723 Fonte Zuckerman R S Heneghan S 2002 The duration of hemodynamic depression during laparoscopic cholecystectomy Surgical Endoscopy And Other Interventional Techniques 16 12331236 Exercício 10 Um dos propósitos de um estudo realizado por Liu et al 2000 era determinar os efeitos do MRZ 2579 um antagonista receptor que apresentou atividade neuroprotetora in vivo e in vitro no déficit neurológico em ratos SpragueDawley No estudo 10 ratos receberiam MRZ 2579 e nove ratos receberiam solução salina regular Antes do tratamento os pesquisadores estudaram os níveis de gases no sangue nos dois grupos de ratos A Tabela 29 mostra os níveis de pO2 para os dois grupos Podemos concluir com base nesses dados que em geral os sujeitos em solução salina têm em média níveis mais baixos de pO2 no início ao nível se significância de 5 Justifique sua resposta com base na abordagem clínica Tabela 29 Dados amostrais referentes aos efeitos do MRZ 2579 no déficit neurológico em ratos SpragueDawley Salina MRZ 2579 1125 1333 1063 1064 995 1131 983 1172 1034 1264 1094 981 1089 1134 Fonte Liu Y Belayev L Zhao W Busto R Ginsberg M D 2000 MRZ 2579 a novel uncompetitive NmethylDaspartate antagonist reduces infarct volume and brain swelling and improves neurological deficit after focal cerebral ischemia in rats Brain research 86212 111119 Salina MRZ 2579 1074 1168 1165 Fonte Liu Y Belayev L Zhao W Busto R Ginsberg M D 2000 MRZ 2579 a novel uncompetitive NmethylDaspartate antagonist reduces infarct volume and brain swelling and improves neurological deficit after focal cerebral ischemia in rats Brain research 86212 111119 Referências Bibliográficas 1 Martinez E Z Bioestatística Para os Cursos de Graduação da Área da Saúde Editora Blucher 2015 2 Pagano M Gauvreau K Princípios de Bioestatística 3ª Edição CRC Press 2022 3 Daniel W W Cross C L Biostatistics A Foundation for Analysis in the Health Sciences Wiley 2018 4 Rosner B Fundamentals of Biostatistics Cengage Learning 2015 5 Verma A K Levine M Shalansky S J Carter C J Kelton J G 2003 Frequency of heparininduced thrombocytopenia in critical care patients Pharmacotherapy The Journal of Human Pharmacology and Drug Therapy 236 745753 6 Eldridge B Galea M McCoy A Wolfe R Graham H K 2003 Uptime normative values in children aged 8 to 15 years Developmental Medicine and Child Neurology 453 189193 7 Diskin A M Španěl P Smith D 2003 Time variation of ammonia acetone isoprene and ethanol in breath a quantitative SIFTMS study over 30 days Physiological Measurement 241 107 8 Smith J P Mehta R H Das S K Tsai T Karavite D J Russman P L Eagle K A 2002 Effects of endofmonth admission on length of stay and quality of care among inpatients with myocardial infarction The American Journal of Medicine 1134 288293 9 Beynnon B D Fleming B C Churchill D L Brown D 2003 The effect of anterior cruciate ligament deficiency and functional bracing on translation of the tibia relative to the femur during nonweightbearing and weightbearing The American Journal of Sports Medicine 311 99105 10 Iannello S Cavaleri A Milazzo P Cantarella S Belfiore F 2003 Low fasting serum triglyceride level as a precocious marker of autoimmune disorders MedGenMed Medscape General Medicine 53 2020 11 von zur Muhlen F Quan W DAgate D J Cohen T J 2002 A study of carotid sinus massage and headup tilt table testing in patients with syncope and nearsyncope The Journal of Invasive Cardiology 148 477482 12 Janssen I Heymsfield S B Ross R 2002 Low relative skeletal muscle mass sarcopenia in older persons is associated with functional impairment and physical disability Journal of the American Geriatrics Society 505 889896 13 Gallagher R McKinley S Dracup K 2003 Predictors of womens attendance at cardiac rehabilitation programs Progress in Cardiovascular Nursing 183 121126 14 Crane J M Delaney T Hutchens D 2003 Oral misoprostol for premature rupture of membranes at term American Journal of Obstetrics and Gynecology 1893 720724 15 Culligan P J Goldberg R P Sand P K 2003 A randomized controlled trial comparing a modified Burch procedure and a suburethral sling longterm followup International Urogynecology Journal 14 229233 16 Fulwood R 1982 Hematological and nutritional biochemistry reference data of persons 6 months74 years of age United States 197680 17 Antman E M Medical management of the patient undergoing cardiac surgery In Braunwald E Heart Disease Textbook of Cardiovascular Medicine 5th Ed Philadelphia Saunders Company 1997 p 171541 18 Rothenberg R J Holcomb J P 2000 Guidelines for Monitoring of NSAIDS Who Listened JCR Journal of Clinical Rheumatology 65 258265 19 Shaked G Kleiner O Mordechai J Newman N Cohen Z 2003 Management of Blunt Pancreatic Injuries in Children European Journal of Trauma 293 20 Kozinszky Z Bártai G 2004 Contraceptive behaviour of teenagers requesting abortion European Journal of Obstetrics Gynecology and Reproductive Biology 1121 8083 21 Zuckerman R S Heneghan S 2002 The duration of hemodynamic depression during laparoscopic cholecystectomy Surgical Endoscopy And Other Interventional Techniques 16 12331236 22 Liu Y Belayev L Zhao W Busto R Ginsberg M D 2000 MRZ 2579 a novel uncompetitive N methylDaspartate antagonist reduces infarct volume and brain swelling and improves neurological deficit after focal cerebral ischemia in rats Brain research 86212 111119 23 Luglie P Campus G Deiola C Mela M Gallisai D 2002 Oral condition chemistry of saliva and salivary levels of Streptococcus mutans in thalassemic patients Clinical Oral Investigations 6 223226 24 Ingle B M Eastell R 2002 Sitespecific bone measurements in patients with ankle fracture Osteoporosis International 13 342347 25 Garçao J A Cabrita J 2002 Evaluation of a pharmaceutical care program for hypertensive patients in rural Portugal Journal of the American Pharmaceutical Association 1996 426 858864 26 Jones E D 2003 Reminiscence therapy for older women with depression Effects of nursing intervention classification in assistedliving longterm care Journal of Gerontological Nursing 297 2633