3
Bioestatística
UNICESUMAR
17
Bioestatística
UNICESUMAR
2
Bioestatística
UNICESUMAR
1
Bioestatística
UNICESUMAR
1
Bioestatística
UNICESUMAR
6
Bioestatística
UNICESUMAR
13
Bioestatística
UNICESUMAR
4
Bioestatística
UNICESUMAR
1
Bioestatística
UNICESUMAR
6
Bioestatística
UNICESUMAR
Texto de pré-visualização
PROFESSORA Me Renata Cristina de Souza Chatalov Bioestatística ACESSE AQUI O SEU LIVRO NA VERSÃO DIGITAL NEAD Núcleo de Educação a Distância Av Guedner 1610 Bloco 4 Jd Aclimação Cep 87050900 Maringá Paraná wwwunicesumaredubr 0800 600 6360 PRODUÇÃO DE MATERIAIS Coordenador de Conteúdo Renato Castro da Silva Designer Educacional Amanda Peçanha dos Santos Curadoria Cleber Lisboa e Elziane Vieira Alencar Revisão Textual Erica Fernanda Ortega Editoração Caroline Casarotto Andujar Ilustração Bruno Cesar Pardinho Figueiredo Eduardo Aparecido Alves e Geison Ferreira da Silva Realidade Aumentada Maicon Douglas Curriel Fotos Shutterstock Pró Reitoria de Ensino EAD Unicesumar Diretoria de Design Educacional Universidade Cesumar UniCesumar U58 FICHA CATALOGRÁFICA Impresso por Bibliotecária Leila Regina do Nascimento CRB 91722 Núcleo de Educação a Distância Ficha catalográfica elaborada de acordo com os dados fornecidos peloa autora Bioestatística Renata Cristina de Souza Chatalov Indaial SC Arqué 2023 300 p il ISBN papel 9788545925446 ISBN digital 9788545925453 Graduação EaD 1 Bioestatística 2 Dados 3 Saúde 4 Renata Cristina de Souza Chatalov I Título CDD 570727 AVALIE ESTE LIVRO CRIAR MOMENTOS DE APRENDIZAGENS INESQUECÍVEIS É O NOSSO OBJETIVO E POR ISSO GOSTARÍAMOS DE SABER COMO FOI SUA EXPERIÊNCIA Conta para nós leva menos de 2 minutos Vamos lá DIGITE O CÓDIGO 025XXXXX RESPONDA A PESQUISA ACESSE O QRCODE Me Renata Cristina de Souza Chatalov Olá meu nome é Renata Cristina de Souza Chatalov Eu adoro viajar estudar e bater um bom papo Gosto de espumante e de comida italiana principalmente risoto Sempre que tem um feriado emendado eu me organizo com meu marido para viajarmos e conhecer novos lugares Iniciei a minha trajetória como professora em 2012 nos cursos de Engenharia Civil e Engenharia Elétrica nos quais ministrava a disciplina de Estatística No final de 2012 iniciei as minhas atividades na educação a distância Tenho experiência com a disciplina Estatística há mais de 10 anos e vasta experiência na escrita de materiais dessa área Também trabalhei em cursos da área de saúde ministrando a disciplina de Bioestatística Espero que você goste de Bioestatística assim como eu aprendi a gostar Já fiz alguns experimentos para melhorar a didática durante o ensino dessa disciplina como plantar um grão de feijão no algodão e fazer sorteios com bolinhas coloridas tudo isso trouxe muitos resultados positivos no processo de aprendizagem Além da área de Bioestatística gosto muito do tratamento de efluen tes e resíduos sólidos Espero que com a minha experiência e com a sua vivência na área de saúde tenhamos uma forte conexão e possamos trocar muitos aprendizados Um abraço Renata Lattes httplattescnpqbr7312835687328748 Aqui você pode conhecer um pouco mais sobre mim além das informações do meu currículo Quando identificar o ícone de QRCODE utilize o aplicativo Unicesumar Experience para ter acesso aos conteúdos online O download do aplicativo está disponível nas plataformas Google Play App Store Ao longo do livro você será convidadoa a refletir questionar e transformar Aproveite este momento PENSANDO JUNTOS EU INDICO Enquanto estuda você pode acessar conteúdos online que ampliaram a discussão sobre os assuntos de maneira interativa usando a tecnologia a seu favor Sempre que encontrar esse ícone esteja conectado à internet e inicie o aplicativo Unicesumar Experience Aproxime seu dispositivo móvel da página indicada e veja os recursos em Realidade Aumentada Explore as ferramentas do App para saber das possibilidades de interação de cada objeto REALIDADE AUMENTADA Uma dose extra de conhecimento é sempre bemvinda Posicionando seu leitor de QRCode sobre o código você terá acesso aos vídeos que complementam o assunto discutido PÍLULA DE APRENDIZAGEM Professores especialistas e convidados ampliando as discussões sobre os temas RODA DE CONVERSA EXPLORANDO IDEIAS Com este elemento você terá a oportunidade de explorar termos e palavraschave do assunto discutido de forma mais objetiva BIOESTATÍSTICA Você sabia que é importante que profissionais da área de saúde entendam de Bioestatística Sabia que para exercer sua profissão você vai precisar lidar com dados Aprender a fazer tabelas leitura de gráficos e fazer testes Que para elaboração de projetos em sua área de atuação a bioestatística lhe auxiliará a ordenar e organizar os dados As técnicas estatísticas utilizadas te ajudarão a buscar aplicações na área de saúde o que é essencial para a problematização o planejamento a coleta de dados e a análise crítica Além disso será uma ferramenta de auxílio na tomada de decisão Na disciplina Bioestatística muitas vezes você trabalhará com a análise de dados certo Para isso é importante que você entenda como tratar os dados provenientes de uma pesquisa Diante disso sugerimos que você faça uma pesquisa no site do IBGE e veja quais são as regras para construir um quadro e uma tabela Depois faça uma análise dos dados populacionais e do painel de indicadores voltado à saúde e ao saneamento no Brasil Você também pode fazer uma pesquisa no site da Fiocruz e avaliar o perfil epidemiológico do Brasil tudo isso foi possível porque teve algo por trás da pesquisa aí você pode perceber a importância de entender a Bioestatística É importante que você entenda que para trabalharmos com dados é preciso ter segurança na hora da coleta de dados que pode ser in loco ou por pesquisas bibliográficas voltadas à área de saúde Teremos a oportunidade de conhecer a origem da Bioestatística sua definição e importância Além disso constataremos que as técnicas estatísticas são essenciais para uma pesquisa e saberemos o modo de execução de uma coleta de dados utilizando as principais técnicas de amostragem Também aprenderemos a construir tabelas e compreenderemos as suas regras Não só mas saberemos como se dá a elaboração de gráficos e faremos a sua leitura e interpretação É fundamental entendermos como ocorre a análise dos dados oriundos de uma pesquisa para que possamos analisar as situações quanto à frequência à incidência e às ocorrências por exemplo Trabalhar com as medidas de posição as separatrizes e a variabilidade e entender como as probabilidades podem ajudar em experimen tos em resultados e em possíveis situações que envolvem as incertezas são imprescindíveis para a sua futura atuação profissional Finalizaremos o nosso estudo com um assunto muito importante para a sua formação a inferência estatística que visa por meio de testes analisar uma amostra e fazer projeções para a população Na prática todo o conhecimento a ser obtido trará a você futuroa profissional de saúde um diferencial pois você perceberá que em seu campo profissional certamente utilizará a Bioestatística de várias maneiras Alguns exemplos incluem o teste de uma hipótese o teste de kappa a análise de condições determinantes da saúde da população o incentivo aos alunos em experimentos científicos por meio das técnicas provenientes de bioestatística e a análise de fenômenos climáticos em aplicações em vários campos da área de saúde Assim como você pode ter observado a Bioestatística é fundamental na formação de profissionais na área de saúde Você já conhecia toda essa importância Já tinha alguma ideia de suas aplicações Você pode constatar que sem a análise e o trabalho com os dados é apenas uma pessoa com opinião Portanto mergulharemos juntos no universo da Bioestatística para que você seja uma profissional dife renciadoa Vamos lá 1 2 4 3 5 6 9 VISÃO GERAL E PRINCÍPIOS DA BIOESTATÍSTICA 37 VARIÁVEIS ALEATÓRIAS DISCRETAS E VARIÁVEIS ALEATÓRIAS CONTÍNUAS 55 TABELAS E GRÁFICOS 87 MEDIDAS DE POSIÇÃO E DISPERSÃO 129 PROBABILIDADES 175 CORRELAÇÃO E REGRESSÃO LINEAR 7 8 9 203 INFERÊNCIA ESTATÍSTICA 233 TESTES 259 INFORMÁTICA APLICADA À BIOESTATÍSTICA 1 Olá alunoa esta unidade será essencial para sua trajetória profis sional na área da saúde Por meio dela você terá oportunidade de conhecer a origem da Bioestatística sua definição sua importância bem como entender que as técnicas estatísticas são essenciais para uma pesquisa além disso você compreenderá como fazer uma coleta de dados utilizando as principais técnicas de amostragem Vamos lá Visão Geral e Princípios da Bioestatística Me Renata Cristina de Souza Chatalovv 10 Ao iniciar a leitura deste material você deve estar se perguntando por que eu futuroa profissional da saúde preciso da Bioestatística Qual a sua importância Como ela pode influenciar minha vida Será que realmente utilizarei a Bioestatística no meu dia a dia como profissional da saúde Para que possamos compreender utilizare mos um exemplo bem amplo e possível para to dos os profissionais da saúde Imagine que você estará atuando em sala de aula como docente de disciplinas comuns à formação das futuras gerações de profissionais da saúde é provoca do por seus alunos a realizar um experimento Isso mesmo um experimento no qual os alunos coloquem em prática o que estão aprendendo Você tem uma ideia bem interessante propon do aos seus alunos vamos fazer uma pesquisa de campo Rapidamente os alunos ficam todos animados com a possibilidade de fazer uma pes quisa de campo Assim você como professor da disciplina inicia uma provocação com a sua tur ma fazendo as seguintes perguntas Qual será o problema de pesquisa Quais serão os objetivos desta pesquisa Porque faremos essa pesquisa O que faremos com os resultados disso tudo Qual o tema Qual a relevância desse tema Quanto custará Aonde vamos Diante de tantas perguntas as respostas que devem ser apresentadas pelos estudantes parecem simples contudo para que a sua provocação seja efetiva e a reflexões dos discentes sejam significa tivas para a aprendizagem deles será necessário que os estudantes alcancem tais respostas com base em um planejamento Logo antes de realizar o experimento com seus alunos ter um planeja mento de pesquisa e um método como será feita a pesquisa fazemse necessários Mas como a bioestatística pode me ajudar com essa questão Para isso convido você a fazer a leitura do artigo intitulado Qual a importância da Bioesta tística e da Epidemiologia na área da saúde a fim de conhecer um dos exemplos para a aplicação da Bioestatística Nesse artigo você verá que a Bioestatística está presente em diversas áreas denossa vida entre elas a Epidemiologia Nessa leitura é evidenciada a relação da Bioestatística e da Epidemiologia em aspectos como quanti ficação e análise dos eventos em saúde Acesse o Qrcode a seguir UNICESUMAR UNIDADE 1 11 Sabemos que a dengue ainda é uma epidemia em várias regiões do mundo Sendo assim considere que você já é um profissional da saúde e está atuando na Secretaria de Saúde de seu município e deseja realizar um experimento a respeito dos casos de dengue em um dos bairros do município Porém o bairro em questão possui 35 mil pessoas segundo dados da prefeitura Você tem o prazo de uma semana para fazer a pesquisa e dispõem de pouca mão de obra e poucos recursos financeiros Neste contexto você se questiona como será possível fazer essa pesquisa É aí que a Bioestatística pode ajudar Utilizando técnicas de estatística como a amostragem na qual você poderá selecionar algumas pessoas que farão parte da sua amostra mas que seja representativa para toda população do bairro Considere esta situação hipotética apresentada e para que possamos nos ambientar com tal prática que tal nos apropriarmos de uma das aplicações da Bioestatística e colocarmos a mão na massa Vamos lá Faça uma pesquisa com os membros de sua família perguntando se eles têm tomado cuidado com ações preventivas contra dengue Diante de tudo isso que discutimos até o momento faça suas anotações em um Diário de Bordo Aqui neste espaço você pode anotar suas primeiras impressões até o momento Escreva os resultados de sua pesquisa com seus familiares anotando também as dificuldades para realizar a pesquisa e os pontos a melhorar Faça esta reflexão 12 No futuro o pensamento estatístico será tão necessário para a cidadania eficiente como saber ler e escrever H G Wells Até o momento estudamos que o futuro profissional da saúde usará a Bioestatística na prática e que ela é fundamental para sua formação Mas o que ela significa Como podemos conceituála A Bioestatística é um ramo da estatística que traz aplicações no campo da Saúde sendo fundamental para problematização planejamento coleta de dados crítica e sumarização dos dados avaliação aná lise e interpretação de todos os dados que resultam nas pesquisas de campo RODRIGUES LIMA BARBOSA 2017 Conhecer a Bioestatística é essencial para as áreas da Epidemiologia à Ecologia à Psicologia Social e à Medicina baseada em evidência Se a Bioestatística porém deriva da própria Estatística como definir Estatística Para Parenti Silva e Silveira 2017 p 13 Estatística é a ciência por meio da qual se faz inferências sobre um fenômeno aleatório específico com base em uma amostra relativamente limitada A área de estatística tem duas subáreas estatística matemática e estatística aplicada A estatística matemática se preocupa com o desenvolvimento de novos métodos de inferência estatística e requer conhecimento detalhado de matemática complexa para a sua execução A estatística apli cada envolve a aplicação dos métodos de estatística matemática em assuntos específicos como economia psicologia e saúde pública Desde a Antiguidade a estatística está presente na vida do homem Ela é utilizada como fonte de da dos que por sua vez são dados ou teorias utilizadas para explicar uma informação de alguma coisa Para Parenti 2018 p 14 É a ciência que tem por objetivo orientar a coleta o resumo a apresentação a análise e a interpretação de dados Apesar de estarmos habituados à análise de informações popula cionais principalmente quando tratamos de censos demográficos ela também pode ser usada como fonte em outras ciências e no nosso caso especialmente nas ciências ligadas à vida e aos seres vivos Podemos observar que a estatística está voltada para problematização de estudos coleta de dados tabulação apresentação e análise de dados UNICESUMAR UNIDADE 1 13 Depois que vimos o que significa a estatística e como ela pode ser útil em nossa vida com um valor importante para todos nós conheceremos suas duas vertentes A estatística pode ser di vidida em estatística descritiva e inferencial A estatística descritiva segundo Arango 2011 é a parte da estatística que é encarregada do levantamento organização classificação e des crição dos dados em tabelas gráficos ou outros recursos visuais além do cálculo de parâme tros representativos desses dados Enquanto a estatística inferencial trata do ramo da esta tística que tem por intuito fazer afirmações a partir de dados observados ou seja fazer projeções para uma população com dados ba seados em amostras Assim mais do que dados a estatística dános oportunidade de olhar as informações coletadas fazer análise de modo crítico e pode ser utilizada dentro da área da Saúde em vários contextos tais como levantamento de dados diagnósticos con tagem de ocorrências análise de dados pandêmi cos comprovação da utilização de medicamentos entre outros PARENTI 2018 No nível da iniciação a estatística não deve ser apresentada como um ramo da Matemáti ca A boa estatística não deve ser identificada com rigor ou pureza matemáticos mas ser mais estreitamente relacionada com pensamento cuidadoso Em particular os alunos devem apreciar como a Estatística é associada com o método científico observamos a natureza e formulamos questões cogitamos dados que lançam luz sobre essas questões analisamos os dados e comparamos os resultados com o que tínhamos pensado previamente levanta mos novas questões e assim sucessivamente HOGG 2001 p 342 Geralmente um profissional da Estatística deve ter bons conhecimentos matemáticos além de in terpretação para criação de novos métodos esta tísticos Por outro lado Hogg 2001 apresentanos que a eficácia no ensino de estatística para acadê micos de áreas não exatas daráse conforme forem relacionados os conteúdos com as habilidades e as competências em questão bem como a utilização de exemplos voltados à área de formação Sendo assim a Bioestatística é uma ramificação da estatística aplicada que utiliza métodos estatísti cos para problemas biológicos e médicos Eviden temente estas áreas da estatística se sobrepõem de alguma maneira Em alguns casos por exem plo em razão de uma aplicação da Bioestatística os métodos padrão não se aplicam e devem ser modificados Nessas situações os bioestatísticos empenhamse para desenvolver novos métodos Na área da Saúde não é diferente nestas áreas cabe aos pesquisadores a avaliação dos dados a interpretação de resultados e a análise das conclu sões com aplicações por exemplo em atividades desenvolvidas em determinado ambiente Além disso em tais áreas a Bioestatística oferece a possi bilidade de análise e interpretação de informações sobre medicamentos equipamentos avaliação de protocolos e artigos científicos GLANTZ 2014 Uma boa maneira de aprender a Bioesta tística e seu papel no processo de pesquisa é seguir o fluxo de uma pesquisa desde o início do estágio de planejamento até a conclusão momento em que geralmente a pesquisa com os resultados alcançados é publicada Assim a questão está em como direcionar o aprendizado da estatística de maneira que o pro fissional da área da saúde possa utilizar estes con ceitos Para isso é importante que você conheça todas as etapas do método científico 14 OLHAR CONCEITUAL Uma Variável corresponde ao que estamos estudando ela pode ser dividida em qualitativa e quantitativa Uma variável qualitativa nominal é referente a um atributo enquanto uma variável qualitativa ordinal referese a uma ordem hierarquia Por sua vez uma variável quantitativa contínua referese a medições e uma variável quantitativa discreta trata de contagem Variável Qualitativa Quantitativa Nominal Característica única Ordinal Hierarquia Discreta Contagem Contínua Medições Figura 1 Variável qualitativa x Variável quantitativa Fonte o autor O método científico é um conjunto de estratégias ferramentas e ideias resultantes da experiência humana e consequentes do acúmulo de saberes que estruturadas e sistematizadas possibilitam alcançar um objetivo que é responder a uma pergunta afinal toda pesquisa científica é baseada em uma pergunta Fonte Parenti Silva e Silveira 2017 p 25 A seguir veremos alguns exemplos da utilização do método científico com perguntas tais como Qual é a incidência de dengue na cidade de São Paulo Quantos casos da covid19 ocorreram na cidade de Curitiba Se uma pessoa consumir alimentos transgênicos ela poderá elevar o risco de doenças gástricas Descrição da Imagem a Figura 1 apresenta um fluxograma da Variável Ela está dividida em duas variáreis a qualitativa e a quantitativa A variável qualitativa está dividida em nominal e ordinal Para a variável qualitativa nominal temos uma característica única e na variável qualitativa ordinal a hierarquia Já a variável quantitativa discreta tratase de contagem e para a variável quantitativa contínua as medições UNICESUMAR UNIDADE 1 15 Assim o método científico nos traz maneiras para respon dermos as perguntas que estão presentes em nossos estu dos e a estatística está presente em seus passos que são a Fazer observações nesta etapa da pesquisa é preciso olhar a todas as variáveis ao redor do pesquisador fazer anotações investigação defi nir o algo de sua pesquisa delimitar sua pesquisa b Definir uma questão nesta etapa do método cien tífico o pesquisador especificará o que quer saber em relação ao que está sendo estudado É impor tante que a questão em si seja tangível c Formular uma hipótese nesta etapa o pesquisa dor irá fundamentar seu conhecimento prévio para explicar o fenômeno observado direcionando para um parâmetro a ser estudado Nesta etapa o pes quisador pode utilizar alguns testes estatísticos tais como testes de hipóteses d Coletar dados depois que são definidos e delimi tados todos os critérios da pesquisa será definido como serão coletados os dados e nesta etapa a estatística ajudará o pesquisador pois na prática muitas vezes ele utilizará amostras e a estatística traz as maneiras de como fazer essas coletas e Analisar os dados nesta fase depois de coletar os dados é preciso analisar os dados coletados fazer a tabulação para apresentação em tabelas e gráficos f Conclusões depois de passar por todas as etapas anteriores o pesquisador faz sua conclusão do seu estudo é importante observar que a estatís tica é uma ferramenta que ajudará na tomada de decisões Podemos observar com mais detalhes a seguir na Figura 2 01 Fazer observações O pesquisador motivado pela pesquisa e interessado em conhecer melhor o mundo em que vive Faz a observação dos fatos fenômenos comportamentos e atividades e percebe que muitas coisas já são conhecidas e outras ainda não Além disso define o objeto de investigação que é o alvo da sua pesquisa o que ele deseja investigar de fato Caso o objeto de estudo seja passível de mensurações o pesquisador começa a perceber que a estatística vai ser bastante útil em seu processo de construção de conhecimento Exemplo Diante dos tempos atuais um pesquisador quer saber a dinâmica do novo Corona vírus em uma cidade para isso o pesquisador deve compreender esse vírus a partir de quanticações de novos casos da doença número de internações hospitalares número de óbitos quanto foi gasto para controlar e prevenir 02 Definir uma questão O pesquisador especificará o que quer saber em relação ao que está sendo estudado O pesquisador define pontualmente sua pergunta de estudo e precisa ser bem objetiva estabelecendo quem serão os sujeitos da pesquisa e se haverá comparações entre grupos Tratase de uma etapa essencial para que se possa escolher como será utilizada a estatística de análise de dados que se será baseada principalmente na pergunta formulada e no desenho estabelecido 03 Formular uma hipótese O pesquisador fundamentará seu conhecimento prévio para imaginar o que poderia explicar o fenômeno observado isto é o que poderia responder àquela questão que já foi definida anteriormente Caso essa hipótese seja direcionada a um parâmetro aqui os testes estatísticos poderão ajudar o pesquisador 04 Coletar dados Depois de definidos todos os critérios que delimitarão a população o pesquisador deverá estabelecer como será feita a coleta de dados e tem à disposição técnicas baseadas na estatística de amostragem para que possam auxiliar o pesquisador selecionar a amostra que representará essa população 05 Fazer observações O pesquisador avalia os dados coletados na pesquisa podendo extrapolar dados amostrais Podem ser apresentados sob forma de tabelas e gráficos e técnicas estatísticas 06 Conclusões A partir das informações obtidas o pesquisador pode fazer comparações com estudos prévios fazendo reflexões sobre o estudo realizado por ele Essas técnicas estatísticas podem orientar os pesquisadores nas tomadas de decisões Figura 2 Etapas para a construção de uma pesquisa científica Fonte o autor UNIDADE 1 17 Descrição da Imagem a Figura 2 apresenta as etapas para a construção de uma pesquisa científica Apresentamos a fase 1 Fazer obser vações Nesta fase o pesquisador é motivado pela pesquisa e interessado em conhecer melhor o mundo em que vive Faz a observação dos fatos fenômenos comportamentos e atividades e percebe que muitas coisas já são conhecidas e outras ainda não Além disso define o objeto de investigação que é o alvo da sua pesquisa o que ele deseja investigar de fato Caso o objeto de estudo seja passível de men surações o pesquisador começa a perceber que a estatística vai ser bastante útil em seu processo de construção de conhecimento Por exemplo diante dos tempos atuais um pesquisador quer saber a dinâmica do novo Corona vírus em uma cidade para isso o pesquisador deve compreender esse vírus a partir de quantificações de novos casos da doença número de internações hospitalares número de óbitos quanto foi gasto para controlar e prevenir Na fase 2 apresentamos como definir uma questão Nesta etapa o pesquisador especificará o que quer saber em relação ao que está sendo estudado O pesquisador define pontualmente sua pergunta de estudo e precisa ser bem objetiva estabelecendo quem serão os sujeitos da pesquisa e se haverá comparações entre grupos Tratase de uma etapa essencial para que se possa escolher como será utilizada a estatística de análise de dados que se será baseada principalmente na pergunta formulada e no desenho estabelecido A seguir vem a fase 3 Formular uma hipótese Aqui o pesquisador fundamentará seu conhecimento prévio para imaginar o que poderia explicar o fenômeno observado isto é o que poderia responder àquela questão que já foi definida anteriormente Caso essa hipótese seja direcionada a um parâmetro aqui os testes estatísticos poderão ajudar o pesquisador Coleta de dados está na fase 4 Nesta fase depois de definidos todos os critérios que delimitarão a população o pesquisador deverá estabelecer como será feita a coleta de dados e tem à disposição técnicas baseadas na estatística de amostragem para que possam auxiliar o pesquisador selecionar a amostra que representará essa população A penúltima fase a quinta fase é a Análise de dados O pesquisador avalia os dados coletados na pesquisa podendo extrapolar dados amostrais Podem ser apresentados sob forma de tabelas e gráficos e técnicas estatísticas Na última fase que é a 6 temos a Conclusão A partir das informações obtidas o pesquisador pode fazer comparações com estudos prévios fazendo reflexões sobre o estudo realizado por ele Essas técnicas estatísticas podem orientar os pesquisadores nas tomadas de decisões Assim quando a Estatística é apresentada a um aluno de graduação ele poderá perguntar Se a Estatística é essencial às pesquisas ela é im portante para quem quer atuar no meio cien tífico A resposta a este questionamento é sim Em especial quando falamos em construção do conhecimento Na prática é preciso estudar sempre estar atualizado à medida que novos estudos sobretudo da sua área de interesse ou atuação são divulgados Nesse entendimento um profissional que trabalha em sala de aula pode utilizar a pesquisa em sua área de atuação e se basear em conhecimentos estatísticos para fazer uma publicação científica por exemplo Assim a estatística também tem função de auxiliar a pesquisa científica e precisa estar alinhada aos conhecimentos e ao objeto de es tudo como estudar uma dada enfermidade a ação de um medicamento entre outros Dessa maneira a Bioestatística está relacionada aos segmentos de ciências da vida como Ciências Biológicas Enfermagem Ecologia Saúde Pú blica Saúde Coletiva Epidemiologia Genética entre outros Dessa forma um pesquisador ao agrupar as informações de determinado estudo normalmente ele trabalhará com os resultados provenientes de uma coleta de dados como contagens experimentos e outros PARENTI 2018 p 4 Esses dados são chamados de dados primários uma vez que o primeiro a ter acesso aos mesmos é o próprio pesquisador ou a sua equipe Considerase que o pesquisador tenha trabalhado de forma a garantir um nível ade quado de qualidade de dados e que as limita ções dos mesmos sejam conhecidas São usuais no entanto nos estudos os dados secundários provenientes de outras fontes tais como publicações de artigos em periódicos científicos artigos ou comunicações em even tos científicos ou institutos de pesquisa e esta tísticas Como os dados secundários não foram obtidos diretamente pelo pesquisador e sua equipe verificase que a qualidade deles pode estar prejudicada Contudo pelo menos nos exemplos de fontes de dados secundários que foram mencionados esperase que a qualidade seja elevada No caso de periódicos científicos a qualidade está relacionada normalmente ao prestígio da publicação É importante que nesta jornada de construção e consolidação do saber 18 Para que possamos nos habituar à consulta de fontes confiáveis e de prestígio científico o uso de plataformas específicas se faz necessário como é o caso da plataforma Sucupira que possibilita por meio de sua ferramenta de consulta verificar o Qualis do periódico pelo Qr Code Para entendermos melhor a análise estatística dois conceitos são primordiais ao entendimento da aná lise estatística de dados população e amostra Uma população N referese a um conjunto de elementos que têm pelo menos uma característica em comum como todos os acadêmicos dos cursos da área de saúde da UniCesumar Uma população pode ser composta de um número tão grande de elementos que muitas vezes não conseguimos quantificar Nesse caso dizemos que a população é de tamanho infinito Supondo que faremos uma pesquisa para investigar hábitos alimentares dos funcionários de um hospital podemos entender que nossa população que estamos estudando é finita porque teremos o número de pessoas que e de sua trajetória acadêmica você compreenda e internalize que a qualidade das informações presentes nos periódicos e nos artigos são de extrema importância Não é necessário mencionar aqui o cuidado que se deve expressar com pesquisas e informações provenientes de fontes não confiáveis Cabe mencionarmos os impactos e os perigos relacionados com a propagação de infor mações irreais em especial no contexto da saúde Provavelmente você recebeu alguma corrente no WhatsApp no início da pandemia do novo coronavírus contendo alguma informação sem a devida indicação da fonte científica e que parecesse no mínimo duvidosa Acertei Isso aconteceu com grande parte da população e nos faz refletir sobre a problemática envolvida em tal prática Nesse contexto como profissionais da saúde devemos por obrigações éticas pautar nossas de cisões mediante a consulta de pesquisas confiáveis publicadas e divulgadas em periódicos com relevância e robustez científica trabalham neste hospital No entanto se tivermos como objetivo de pesquisa investigar os hábitos alimentares dos indivíduos adultos residentes em uma grande cidade o tamanho populacional pode ser bastante amplo Quando temos um estudo em que usamos toda a população denominamos censo Entretanto em boa parte dos estudos a obtenção de todos os dados de todos os elementos da população pode ser inviável devido às dificuldades de acesso aos indivíduos o tempo para concluir a coleta das informações os custos financeiros e entre outras limitações Nesse caso utilizamse informações provenientes de uma amostra ou seja de uma parte da população UNICESUMAR UNIDADE 1 19 Um Censo referese a um levantamento ou registro estatístico de certa população de acordo com alguns critérios tais como sexo idade religião estado civil e profissão No entanto esse conceito está relacionado com a definição clássica de Censo ou seja a ideia de Censo Demográfico De acordo com a definição de população que foi dada anteriormente que população é um conjunto de elementos com pelo menos uma característica em comum a contagem populacional pode estar relacionada ao número de estabelecimentos industriais rebanhos de animais tamanho de propriedades rurais número de estabelecimentos bancários etc Esses censos são denominados Censo Industrial Censo Agropecuário e Censo Comercial e de Serviços IBGE Assim podemos definir amostra n como sendo um subconjunto finito da população isto é uma parte representativa da população por exemplo se como população temos todos os alunos dos cursos de Saúde da UniCesumar uma amostra seriam os alunos do primeiro ano do curso Uma característica importante da amostra que não podemos esquecer é que ela seja representativa da população da qual foi retirada isto é deve ter características similares às daquela população Uma amostra representativa é uma miniatura da população como podemos observar na Figura 3 No entanto uma amostra que não representa adequadamente a respectiva população é chamada enviesada ou tendenciosa Descrição da Imagem a figura apresenta dois círculos e em cada círculo existem grupos de indivíduos com diferentes características O grupo maior é destinado à representação de uma população e está ao lado esquerdo enquanto o grupo menor que se refere à amostra e se posiciona à direita Há uma seta que sai da população para a amostra representando uma parcela da população contudo nesta amostra observamse ca racterísticas representativas da população Figura 3 Seleção de uma amostra 20 Agora que já sabemos a definição de população e amostra que tal analisar um exemplo para diferenciar na prática estes termos que estudamos Vamos lá Uma médica pediatra quer fazer uma análise estatística do uso de medicamentos homeopáticos por pacientes de um a três anos de idade Ela deseja comparar os efeitos do uso destes medicamentos com os alopáticos Os medica mentos homeopáticos são produzidos de forma diferente dos fitoterápicos através de dinamização Neste tipo de terapia são também utilizados além de princípios ativos de origem vegetal outros de origem animal mineral e sintética Um tratamento homeopático não busca eliminar apenas os sintomas da doença e sim estimular o organismo a se fortalecer Logo o tratamento homeopático é eficaz para curar o doente e não apenas aliviálo Já o tratamento alopático busca por meio de medicamentos de ação química eliminar os sintomas e manifestações da doença por meio do chamado princípio dos contrários Por exemplo uso de laxantes na prisão de ventre Fonte CRFESP 2019 Façamos juntos uma nova reflexão Considere o seguinte cenário hipotético Você objetiva realizar uma pesquisa para avaliar os hábitos relacio nados à saúde dos habitantes adultos de uma cidade de porte médio e para tanto realizou a coleta de dados por meio de entrevistas reali zadas na praça de alimentação de um shopping Center do município em questão É importante considerar que nesse caso hi potético descrito a amostra selecionada ou seja o público presente na praça de alimentação de um shopping pode fazer com a que pesquisa não alcance seu objetivo de verificar os hábitos alimentares de uma população direcionando você a uma conclusão errada sobre tais hábitos E por que isso aconteceu Porque não houve nenhum critério para a seleção desta amostra Uma das formas de se garantir que a amostra seja representativa quanto à população con siste na utilização de técnicas estatísticas com as quais ainda em nosso exemplo hipotético apresentado poderíamos dividir a cidade em setores em bairros e para cada setor seria se lecionado determinado número de habitantes para participarem da pesquisa Dessa maneira você conseguiria uma amostra mais represen tativa da população É preciso observar que por mais cuidados que tenhamos na seleção dos elementos que farão par te da amostra ela jamais será perfeitamente igual à população em todas as suas características visto que ela é uma fatia da totalidade dos indivíduos Entretanto uma estratégia importante para obter mos amostras tão representativas quanto possível consiste em usar os chamados planos probabi lísticos que com base em técnicas estatísticas definem como os indivíduos serão melhor sele cionados para a composição da amostra Para que possamos avançar considere o exemplo presente em nosso elemento Explorando Ideias apre sentado anteriormente Suponha que a médica inicia sua pesquisa definindo a população para estudo todos os seus pacientes que se enquadrem na faixa etária apresentada Depois disso ela selecionará dois tipos de amostras diferentes para oferecer a medicação ao paciente assim terá como amostras UNICESUMAR UNIDADE 1 21 Amostra 1 que será composta pelos pacientes cujos pais optaram por medicamentos ho meopáticos Sistematicamente sua análise terá como indicador o número de vezes em que as crianças apresentaram alguma alteração na saúde no período de um ano bem como o tipo de doença que apresentaram Amostra 2 será composta pelos pacientes cujos pais não utilizam medicamentos homeopáticos nos tratamentos indicados pela pediatra Para dar continuidade em sua pesquisa a médica realiza os registros e as verificações necessárias ao longo de um ano de acordo com a proposta inicial da pesquisa e ao término deste prazo ela poderá por intermédio dos dados obtidos verificar se a sua hipótese inicial foi comprovada ou não Assim os dados poderão ser utilizados em desdobramentos da mesma pesquisa ou provocar a necessidade de uma nova coleta de dados A vantagem deste tipo de análise é que ele oportuniza ao profissional mais segurança na tomada de decisões além de melhores e mais confiáveis argumentos junto aos pacientes e aos clientes e maior sucesso nas abordagens escolhidas Você pode estar se perguntando agora mas e na prática como fica Um ganho para os profissionais da Saúde consiste no conhecimento sobre diferentes experimen tos de uma maneira mais clara e objetiva para obtenção de dados concretos que podem interferir na qualidade do seu trabalho Façamos uma nova reflexão com base em um novo cenário hipotético Considere que um profissional da saúde trabalhe em dois laboratórios que ficam localiza dos em regiões distintas porém em uma mesma cidade No laboratório 1 o profissional atende pacientes de baixa renda que quase não fazem consultas nem exames Já no labo ratório 2 o mesmo profissional atende pacientes que tem uma rotina elevada de consultas e exames Assim note que esse profissional consegue ainda que intrinsicamente analisar como está a frequência na procura de exames em relação aos dois laboratórios e conse quentemente em relação ás duas regiões da mesma cidade Para tanto esse profissional considera que a população será composta pelos pacientes do laboratório 1 e laboratório 2 já a amostra será composta pelos pacientes que procuraram atendimento nos últimos 6 meses Caso queira verificar com detalhamento descrição e por meio da Estatística esse profissional poderá elaborar uma tabela para cada laboratório para agrupar os dados que vão servir de parâmetro Ao finalizar sua pesquisa o profissional poderá analisar e levantar informações que lhe possibilitem concluir com propriedade estatística em qual dos laboratórios será necessário um maior estoque mais colaboradores dentre outras informações voltadas a gestão PARENTI 2018 p 1718 De acordo com Parenti Silva e Silveira 2017 o conceito de variáveis é referente a características individuais do que estamos estudando como unidade ou objeto de estudo como o gênero o peso a estatura Dessa maneira as variáveis representam quaisquer características que possam modificar o resultado da pesquisa Em Bioestatística assim como em Estatística como já mencionado anterior mente que as variáveis estão classificadas em quantitativas e qualitativas Assim as quantitativas são 22 referentes a atributos que podem ser medidos ou mensurados e as qualitativas somente a atributos que não sejam numéricos Retomando estes conceitos dizemos que Variáveis quantitativas referentes a valores numéricos por exemplo peso altura número de espé cies em uma floresta número de nascidos vivos em uma maternidade enfim as variáveis quantitativas se adequam às necessidades da pesquisa e representam valores referentes ao universo pesquisado Podem ser divididas em discretas ou contínuas As variáveis quantitativas discretas são referentes a contagens ou números inteiros como por exemplo número de nascidos vivos em uma maternidade número de óbitos de uma cidade Também podem ser classificadas em contínuas que são referentes a mensurações ou medidas tais como peso de uma pessoa estatura de um indivíduo entre outros Variáveis qualitativas referentes a atributos não mensuráveis como gênero etnia entre ou tros Podem ser divididas em nominais ou ordinais Uma variável é qualitativa nominal quando temos por exemplo uma espécie Já uma variável é qualitativa ordinal quando são referentes a atributos que podem ser classificados de acordo com uma hierarquia como a prestação de um serviço sendo do melhor ao pior As variáveis quantitativas e qualitativas são muito utilizadas em todos os tipos de pesquisas que usam dados estatísticos CRESPO 2009 A seguir vejamos alguns exemplos que podem auxiliar no enten dimento da finalidade e do conceito de cada uma assim como as diferenças entre elas Vamos supor que temos que fazer uma pesquisa que tenha por objetivo analisar a relação entre o hábito de fumar e o desenvolvimento de doenças pulmonares Para essa pesquisa faráse presente uma série de variáveis diferentes com as quais poderemos trabalhar tais como Figura 4 Descrição da Imagem a figura 4 apre senta as análises das variáveis De cima pra baixo Variáveis quantitativas discre tas analisar a relação entre o número de cigarros que são consumidos por dia por cada um dos pacientes com a idade de início do consumo de cigarros e a idade atual Variáveis quantitativas contínuas avaliar o peso dos pacientes bem como o estado de saúde Variáveis qualitati vas nominais fazer uma relação entre o gênero dos investigados ao hábito de fumar Variáveis qualitativas ordinais fa zer um registro quanto o grauestágio da doença pulmonar que os pacientes se encontram classificandoos em inicial intermediário e terminal Figura 4 Análise das variáveis Fonte o autor Variável Quantitativa Discreta Contagem número de cigarros consumidos Variável Quantitativa Contínua Mensuração peso dos pacientes Variável Qualitativa Nominal Característica única gênero dos investigados Variável Qualitativa Ordinal Ordemhierarquia grauestágio da doença UNICESUMAR UNIDADE 1 23 Ao decidir realizar uma pesquisa na área da saúde é imprescindível que o pesquisador conheça as normas estabelecidas pelo Conselho Nacional da Saúde por intermédio da Resolução Nº 0188 de 13 de junho de 1988 Essas normas referemse a questões éticas que envolvem pesquisas com seres humanos em relação à dignidade à adequação aos princípios éticos e científicos à privacidade do indivíduo e aos possíveis riscos que o estudo possa acarretar Fonte Brasil 1988 online Dessa forma é fundamental e muito importante destacar qual será a variável que o pesquisador escolherá para analisar no seu objeto de estudo Parenti Silva e Silveira 2017 trazemnos conceitos de pesquisa experimental que objetivam identificar as relações entre duas variáveis No método experimental devese provocar variações na ocorrência de uma variável e verificar se ela é a causa de algum efeito em outra por exemplo podemos utilizar diferentes medicamentos para determi nada doença e observar os seus resultados Na pesquisa correlacional não tem como provocar mudanças nas variáveis assim o pesquisador observa as alterações e seus efeitos elencando as va riáveis que serão observadas por exemplo avaliar os efeitos das alterações naturais de temperatura em determinado ambiente e nos seres que vivem ali A pesquisa de levantamento tem variáveis não interferentes como uma pesquisa eleitoral que terá como universo a população da cidade do estado ou do país A amostra deve ser composta por número representativo de cada segmento da sociedade por exemplo pessoas que podem votar que farão parte desta amostra Existem ainda outros tipos de pesquisa que atendem às necessidades específicas de cada objeto de estudo e que terão suas características próprias como os estudos de caso e as observações Neste sentido é relevante que o pesquisador tenha em mente Qual é o meu objeto de pes quisa Qual é meu públicoalvo Quais hipó teses desejo comprovar com a minha pesquisa Que tipo de pesquisa se adéqua melhor ao meu objeto de estudo Respondidas estas questões o pesquisador pode pensar em quais metodolo gias poderá usar para sua investigação Com a escolha da metodologia virão as decisões sobre como tratar os dados estatísticos levantados que tipos de questões deverão ser feitas se os dados serão quantitativos ou qualitativos e as sim sucessivamente Como você pôde perceber falamos bastante do conceito de amostra Mas por que esse con ceito é tão importante dentro de uma pesquisa Na prática temos situações em que não se torna viável o uso de uma população e o pesquisa dor precisa utilizar uma amostra Mas quais são essas situações De acordo com Barbetta 2014 as técnicas de amostragem são utiliza das quando temos 24 1 Economia geralmente nas pesquisas é muito mais econômico trabalharmos com amostra ou seja com uma pequena parcela da população do que como um todo Supondo que você precisa fazer uma pesquisa em um bairro que tem 25 mil pessoas imagine o custo para entrevistar todas as pessoas que fazem parte da população deste bairro Fica mais econômico selecionarmos uma amostra ou seja uma parte de moradores do bairro para fazer parte da entrevista do que trabalharmos com 25 mil pessoas 2 Tempo muitas vezes o pesquisador não tem tempo suficiente para estudar toda população por exemplo ele tem por objeto de pesquisa saber se as pessoas em um bairro fazem reciclagem Nesse bairro tem 25 mil pessoas e o pesquisador tem cinco dias para fazer a pesquisa nesse caso ele deverá recorrer a uma técnica de amostragem para dar continuidade à sua pesquisa 3 Confiabilidade e operacionalidade quando o pesquisador precisa reduzir o número de elementos na qual ele poderá dar mais ênfase aos casos individuais estudados Para Barbetta 2014 entretanto existem situações em que as técnicas de amostragens não são viáveis tais como 1 Quando a população pequena nesse caso quando a população é pequena fica melhor estu dar todos os elementos do que uma parte apenas imagine a situação um professor tem quinze alunos em uma turma e quer saber quantos praticam a reciclagem em suas casas Nesse caso por se tratar de uma população pequena vale a pena o professor trabalhar com todos seus quinze alunos do que com uma parte deles apenas 2 Quando a característica é de fácil mensuração este caso ocorre por exemplo quando a po pulação é de fácil acesso e quando não compensa elaborar um plano de amostragem Considere que um professor quer saber dentre os alunos de sua escola quantos são a favor de participar da feira de ciências para isso ele pode entrevistar ou colocar urnas na escola e incentivar a participação de todos na própria escola 3 Necessidade de alta precisão por exemplo o Instituto Brasileiro de Geografia e Estatística IBGE faz o censo demográfico a cada dez anos para conhecer as características da popula ção brasileira Nesse caso a pesquisa é feita com toda população e não com parte da amostra Segundo Arango 2011 um conceito importante que se deve ter em mente quando se trata de le vantamento de dados é o de que o sucesso nas conclusões tiradas acerca da população com base nas informações colhidas de uma ou mais amostras depende da criteriosa seleção destas Dessa forma se os dados forem mal coletados certamente carregarão suas distorções para qualquer análise que se faça deles Toda pesquisa tem suas limitações nos seus resultados decorrentes da metodologia empregada na investigação Para termos sucesso nas conclusões em uma pesquisa é preciso ter a metodologia bem descrita bem como o passo a passo do estudo UNICESUMAR UNIDADE 1 25 Basicamente existem dois tipos de validade validade interna e validade externa A validade interna diz se as conclusões de uma pesquisa são corretas para a amostra estudada Essa validade é prérequisito para a validade externa A validade externa diz se as conclusões de uma pesquisa são aplicáveis à população da qual a amostra se originou ou a outras populações A limitaçã o dos resultados de uma pesquisa científica deve ser discutida à luz dos possíveis erros meto dológicos vieses que constituem ameaças à validade da pesquisa Buscase então um nível de confiança que é possível depositar nos resultados e conclusões a partir de uma análise criteriosa dos possíveis erros e suas causas Chamamos de viés um erro sistemático vício distorçã o e não intencional proveniente de questões metodológicas Existem dois fatores que influenciam no correto levantamento dos dados a representatividade e a fidedignidade A representatividade é um fator associado à forma de amostragem Assim de uma maneira qual quando selecionamos uma amostra buscamos reproduzir as características observáveis da população Este procedimento é conhecido como critério de proporcionalidade e quando ele é considerado dizse que a amostra é representativa da população em questão No entanto para que isto seja possível as características da população devem ser previamente conhecidas Contudo a disponibilidade de in formações prévias sobre a estrutura populacional para um estudo nem sempre é a ideal de forma que normalmente a fonte de informação acaba sendo um outro estudo ou dados estatísticos secundários extraídos de institutos de pesquisa por exemplo Na falta de informações sobre a composição da população em estudo trata se de que a escolha seja a mais isenta possível adotandose algum critério de aleatoriedade escolha ao acaso como um sorteio ARANGO 2011 Todavia quando os dados necessários para o conhecimento dos atributos da população estão disponíveis e são ignorados ou manipulados a amostra resultante seria considerada tendenciosa Conclusões e estimativas efetuadas com base nessa amostra não possuiriam consistência Para entender melhor este conceito vejamos o exemplo imagine um estudo feito por biólogos e biomédicos para verificar a incidência de Escherichia coli em determinado município O exame da água é fundamental para distribuição principalmente quando destinada ao consumo humano Assim parece claro que o estudo deverá ser realizado por amostragem domiciliar da água pois seria inviável testar todos os domicílios Supondo ainda que existem outras informações como a classificação das áreas geográficas rural e urbana por exemplo a localização dos bairros a população dos bairros e a taxa de atendimento com água tratada Podemos observar o resultado com o exemplo de amostragem com as informações no Quadro 1 26 População N Número de Habitantes Taxa de Atendimento com Água Tratada Rural 1000 0 Urbana 9000 89 Bairro A 2000 100 Bairro B 2000 87 Bairro C 5000 80 Com essas informações uma amostra representativa da população de domicílios deveria observar que Todos os locais sejam alcançados pela pesquisa observandose a distribuição geográfica área urbana com seus três bairros e área rural Não sendo possível por simples conveniência efetuar pesquisa somente em domicílios urbanos no bairro A Seja considerada nesse caso a população de cada setor geográfico A amostra deverá ser cons tituída de partes proporcionais idênticas às da população Assim 10 da amostra seriam constituídos por domicílios rurais 20 do bairro A etc Na falta das populações poderiam ser empregados pesos para a constituição da amostra de acordo com o pesquisador Exista total aleatoriedade na escolha dos domicílios Estes aspectos são importantes para evitar caracterizar a amostra como tendenciosa e consequente mente adquirir credibilidade sem espaço para gerar conclusões duvidosas Outro aspecto que deve ser levado em conta no trabalho de levantamento de dados e constituição das amostras é o da fidedignidade dos dados ou das informações relacionada com a precisão dos dados ou com a sua qualidade A falta de precisão pode ser ocasionada por vários motivos De uma maneira geral podemos ter as situações equipamentos que não sejam aferidos corretamente falta de calibração de equipamentos questionário mal elaborado no caso de entrevistas com perguntas tendenciosas e falhas na hora da coleta No primeiro caso o uso de balança mal calibrada réguas com defeito coletor de amostra de água por exemplo inadequado amostras em mau estado de conservação pode causar erros nas medições Existem também alguns exames laboratoriais como os que implicam contagem e estão sujeitos à falha Nesses casos durante o levantamento dos dados da amostra é recomendado para minimizar as falhas utilizar os mesmos aparelhos Já no segundo caso existem informações que carregam grande margem de erro Por exemplo suponha que um questionário contenha a seguinte pergunta Quanto tempo faz desde que você foi ao médico pela última vez Mesmo que a pessoa entrevistada tenha boa vontade em responder e não esteja tencionando falsear a resposta ela pode encontrar dificuldades em realmente precisar o tempo solicitado pela pergunta A razão da resposta do entrevistado poder apresentar uma falha de infor Quadro 1 Exemplo de amostragem com informações Fonte adaptado de Arango 2011 UNICESUMAR UNIDADE 1 27 A definição da amostra de uma pesquisa clínica é dividida em quatro fases Critérios de inclusão quais são as características necessárias para a participação do estudo Por exemplo no estudo de determinada patologia estarão incluídos os pacientes que apre sentam os sintomas há menos de cinco anos Critérios de exclusão quais características podem eliminar os candidatos ao estudo No exem plo estarão excluídos todos os pacientes que apresentam sintomas há mais de cinco anos Escolha da técnica de amostragem o que dependerá dos objetivos a que a pesquisa se propõe Consentimento livre e esclarecido em que o paciente ou sujeito participante da pesquisa afirma conhecer as condições e o seu desejo de contribuir Fonte Pereira 2003 mação é simplesmente o fato de que um conjunto de informações não é devidamente registrado e para obtêlas às vezes não existe alternativa a não ser contar com a memória do entrevistado Outro exemplo de uma questão que poderia suscitar erros seria Já dirigiu embriagado Tratandose de um tema que em boa parte dos casos cria constrangimento ao entrevistado ou ele pode falsear a sua resposta exagerando ou escondendo a verdadeira informação Pelos mais variados motivos desde a precária memória em alguns casos passando pelo medo e a própria fantasia do entrevistado é comum a falta de precisão das respostas Por este motivo os questionários de levantamento de dados devem ser elaborados com extremo cuidado evitando perguntas vagas ou que deem margem a respostas muito subjetivas Naturalmente seus resultados devem ser tomados com grande cautela Agora que já sabemos que a amostragem é importante nas pesquisas e que é utilizada na prática conheceremos algumas técnicas estatísticas de amostragem Já estudamos em nossa disciplina que a população N referese ao universo da pesquisa como sendo um conjunto de elementos que tenha pelo menos uma característica em comum CRESPO 2009 E a amostra n é uma parte da população Por exemplo ao utilizarmos como população todos os pacientes internados em determinado hospital podese definir que serão parte da pesquisa apenas os internados em leitos ímpares ou os que permanecerem internados por mais de dois dias O critério de escolha para a determinação da amostra seguirá as necessidades e os objetivos da pesquisa desde que sejam imparciais não tendenciosos e representativos da população Para isso devese definir a população que se busca e a característica investigada As técnicas de amostragem podem ser divididas em probabilísticas e não probabilísticas A amostra gem probabilística considera que todos os elementos da população tenham a mesma probabilidade diferente de zero de compor a amostra A não probabilística é definida por elementos não aleatórios Uma amostragem probabilística é aquela em que todos os elementos da população tem a mesma chance de compor a amostra podendo ser dividida em 28 Uma ferramenta importante para a realização de seleção de amostras aleatórias são os denominados números aleatórios Estes são números compreendidos em um intervalo cuja probabilidade de serem selecionados é igual como em um sorteio Em programas como o Excel a função geradora de números aleatórios permite definir o intervalo do sorteio e por tipo de número inteiro ou real Para isto utiliza a função ALEATORIO ou ALEATORIOENTRE dependendo da versão No último caso a função é acompanhada de um argumento que permite mudar o intervalo do sorteio Por exemplo ALEATORIOENTRE a b sorteia números entre a e b H G Arango a Amostragem casual simples ou aleatória simples referese a um evento de seleção simples como o caso de um sorteio Para compreendermos por meio de exemplos considere a população o total de pacientes que se consultam em um hospital X Com o objetivo de investigar os tipos de patologias que os pacientes apresentam um sorteio é realizado para direcionar os selecionados a um estudo clínico Ao realizar um sorteio compreendemos que a amostragem foi realizada de forma casual simples ou aleatória simples Vejamos outro exemplo a população de outro estudo é composta por pacientes de um hospital 500 pessoas considere que o pesquisador almeja desenvolver uma pesquisa com 10 desta população ou seja a amostra será composta por 50 pacientes deste hospital Para tanto ele realizará um sorteio simples dos 50 pacientes que comporão a amostra o que caracteriza uma seleção por amostragem casual simples Na Figura 5 podemos observar um exemplo de um sorteio simples de amostragem aleatória No exem plo hipotético temos doze pessoas enumeradas de um a doze considere que deste total obteremos uma amostra composta por quatro pessoas Considere que após um sorteio simples as pessoas selecionadas foram os indivíduos com os números 2 5 8 e 11 Logo estas pessoas passam a compor a amostra Amostragem simples Amostra População Descrição da Imagem a figura representa um sorteio simples no qual temos doze pessoas enu meradas de um a doze Uma seta indica a realização de um sorteio no qual as pessoas sorteadas passam a compor a amostra A nova composição da amostra se dá com os representantes da população enumerados com os números 2 5 8 e 11 Figura 5 Amostragem casual simples sorteio simples UNICESUMAR UNIDADE 1 29 REALIDADE AUMENTADA Para entender melhor como funciona o processo de amostragem sistemática convido você a acessar o QRCODE e experimentar a realidade aumentada b Amostragem sistemática os elementos são escolhidos a partir de um fator que se repete Para que ocorra a população deve estar ordenada de forma aleatória como em uma lista ou fila Por exemplo a partir das fichas de consultas da mesma Unidade Básica de Saúde UBS retirase a 15 depois a 30 a 45 e assim sucessivamente até atingir um número de pacientes desejado que deve ser proporcional ao número da população de pacientes atendidos Ou definese que a pesquisa se dará com os pacientes que estiveram em consulta no mês de maio Para exempli ficar você pode observar a Figura 6 na qual temos treze pessoas em uma fila ordenada Considere que selecionaremos uma amostra composta por cinco pessoas Para tanto podemos utilizar a equação 1 a seguir I N n Em que I intervalo N População n amostra Para isso temos I 13 5 I arredondando 2 6 3 Portanto escolheremos ou sortearemos a pri meira pessoa que comporá a amostra e contará o intervalo de 3 em 3 Supondo que determinamos que a primeira pessoa da fila será a primeira a compor a amostra somaremos mais três a pró xima pessoa será a número 4 depois somare mos mais 3 será a número 7 somamos mais 3 e teremos a pessoa na posição 10 e por último somamos mais 3 e teremos a pessoa na posição 13 Assim a amostra tornase sistemática ou seja foi definido por meio de um sistema antes de se lecionar a amostra que esta será composta pelos indivíduos nas posições 1 4 7 10 e 13 30 Descrição da Imagem na figura temos a amostragem estratifica da na qual temos um grupo de pessoas divididas em dois grupos o primeiro grupo composto doze pessoas e o segundo grupo com posto por nove pessoas Descrição da Imagem na figu ra temos a amostragem Siste mática em que se observa uma imagem composta por 13 pes soas foi calculado anteriormen te que o sistema será de 3 em 3 ou seja sistematizado para a seleção dos indivíduos que estão na posição 1 4 7 10 e 13 que passam a compor a amostra Figura 6 Amostragem Sistemática Figura 7 Amostragem Estratificada d Amostragem por conglomerados o agrupamento se dará por proximidade física indepen dentemente de outras características ou seja por um conglomerado Por exemplo a amostra será composta por um grupo de pacientes do hospital A que moram na mesma rua da unidade Na Figura 8 você pode observar um exemplo de amostragem por conglomerados supondo que há pessoas em locais diferentes e você fez um sorteio com dois locais diferentes sua amostra será composta por essas pessoas nestes locais diferentes c Amostragem estratificada será a amostragem escolhida quando a população estiver estra tificada O tamanho dos estratos deve ser proporcional aos seus tamanhos na população de origem Como a população de um hospital é composta por 500 pessoas divididas em 200 homens e 300 mulheres supondo que o pesquisador deseja 10 de uma amostra assim a amostra será composta por 50 pessoas divididas em 20 homens e 30 mulheres Na Figura 7 temos um modelo de amostragem estratificada em que os grupos foram divididos para em seguida serem selecionados uma amostra UNICESUMAR UNIDADE 1 31 Amostragem Probabilística Amostragem Casual Simples Amostragem Sistemática Amostragem Estratifcada Amostragem por Conglomerados Sorteio Simples Defnição de sistema Subdivisão de grupos Locaiscluster Ex Sortear 5 de uma população de 100 pessoas Ex Amostra composta por 25 casas em um intervalo defnido de 5 em 5 Ex População composta por 1000 pessoas 800 homens e 200 mulheres defnido 10 Portanto 80 homens e 20 mulheres Ex Em uma cidade sortear um bairro dentre todos os conglo merados Descrição da Imagem a fi gura 8 é composta por cinco grupos de três pessoas sen do destacado dois grupos compostos por três pessoas Figura 8 Amostragem por conglomerados Temos um resumo das técnicas de amostragem probabilística com suas divisões bem como suas pala vras chaves e um exemplo Podemos perceber que a amostragem probabilística Figura 9 que se trata daquela amostragem que todos os elementos podem fazer parte da amostra é dividida em amostra gem casual simples sorteio simples amostragem sistemática definição de um sistema amostragem estratificada subdivisão de grupos e amostragem por conglomerados territórios Descrição da Imagem na figura temos um resumo da amostragem probabilística primeiro temos a amostragem casual que é um sorteio simples como Sortear 5 de uma população de 100 pessoas Temos a amostragem sistemática que é a definição de um sistema e como exemplo temos Amostra composta por 25 casas em um intervalo definido de cinco em cinco Temos a amostragem estratificada composta pela subdivisão de grupos e como exemplo temos População composta por 1000 pessoas 800 homens e 200 mulheres definido 10 Portanto 80 homens e 20 mulheres Por fim temos a amostragem por conglomerados que é locaiscluster como exemplo temos em uma cidade sortear um bairro dentre todos os conglomerados Figura 9 Resumo das técnicas de amostragem probabilística Fonte o autor 32 Além disso a amostragem também pode ser não probabilística isso significa que existe uma escolha deliberada dos elementos da amostra e dependendo dos critérios do pesquisador temos Amostragem por acessibilidade ou por Conveniência a seleção se dará a partir de elementos que estejam ao alcance do pesquisador Essa amostragem não tem verdadeiro valor estatístico e serve mais como forma de buscar dados iniciais para a pesquisa como a amostra ser composta por um grupo de dados formado com perguntas feitas a pessoas em um shopping da cidade Na Figura 10 você pode observar que as pessoas participantes da amostra são selecionadas de acordo com os critérios estabelecidos pelo pesquisador Amostragem por julgamento ou intencional neste caso a seleção ocorre a partir do julga mento do pesquisador por exemplo quando se quer fazer uma pesquisa com o intuito de se comprovar que o consumo de carne tem influência sobre a saúde das pessoas Escolhese Porto Alegre RS como base para a coleta da amostragem por se considerar que seja a capital onde mais se consome este alimento no Brasil Amostragem por cotas neste caso oferece mais rigor à coleta sendo que a fixação das cotas deve seguir critérios que caracterizam a amostra como representativa da população No exemplo da carne primeiro é feita uma análise da população de Porto Alegre e depois são definidas as proporções entre homens mulheres as faixas etárias e os estratos sociais Em seguida serão entrevistados um número de pessoas correspondente à proporcionali dade de cada um desses grupos Dessa maneira haverá uma amostragem significativa de toda a população da cidade Temos um resumo das técnicas de amostragem não probabilística Figura 11 com suas divisões bem como suas palavras chaves e um exemplo Podemos perceber que a amostragem por conveniência ou acessibilidade é aquela em que os elementos que comporão a amostra estão de fácil acesso do pesquisador a amostragem por julgamento é aquela em que há interferência ou seja julgamento do pesquisador e na amostragem por cotas as cotas são fixas pelo pesquisador em seguida é feita a coleta de dados que comporão a pesquisa Descrição da Imagem na figura temos a amostragem por conveniência e temos um grupo de 15 pessoas e a pessoa sorteando por conve niência 5 pessoas destacadas na figura Figura 10 Amostragem por conveniência UNICESUMAR UNIDADE 1 33 Descrição da Imagem a Figura 11 apresentanos a amostragem não probabilística iniciando pela Amostragem por conveniência ou acessibilidade que se trata de elementos a partir do alcance do pesquisador Temos por exemplo a aplicação de questionários entrevistas em uma escola para levantarmos dados iniciais Depois a amostragem por julgamento que se trata de julgamento do pesquisador Temos como exemplo um pesquisador supõe que o departamento de Biologia tem mais publicações e ele pesquisa lá a partir disso Por fim a Amostragem por cotas nas quais são fixadas as cotas por exemplo define proporções e cotas para então fazer a coleta de dados Figura 11 Amostragem não probabilística Fonte o autor Amostragem não probabilística Amostragem por conveniência ou acessibilidade Amostragem por julgamento Amostragem por cotas Elementos a partir do alcance do pesquisador Julgamento do pesquisador Fixa cotas Ex Aplicação de questionários entrevistas em uma escola para levantamentos de dados iniciais Ex Defne proporções e cotas para então fazer a coleta de dados Ex Um pesquisador passa a integrar um grupo de pesquisa de um laboratório em específco por compreender que o laboratório tem condições e expertise em sua área de interesse Assim podemos observar que as técnicas de amostragem podem ser muito úteis para os pesquisadores Parenti Silva e Silveira 2014 salientam que é importante que os investimentos em pesquisa possam ser ampliados aproximando a teoria do cotidiano e que o tipo de pesquisa e as ferramentas usadas em geral não requerem alto investimento mas a geração de informações adequadas a respeito de doenças e tratamentos fará a diferença na vida de cada um Dessa forma podemos citar várias linhas de investimentos necessários nos dias de hoje como o aumento da resistência bacteriana a ausência de tratamentos eficazes para doenças endêmicas em países pobres como a dengue as pesquisas em saúde mental entre outros Os diferentes tipos de amostragem podem se mostrar bastante úteis no cotidiano dos profissionais da área biológica e da saúde pois auxilia tanto na administração de consultórios e clínicas quanto na determinação de estratégias de tratamentos medicamentos e outras Dependendo dos objetivos propostos pela pesquisa o desafio é determinar que tipo de amostragem escolher para que os dados obtidos sejam um reflexo real da investigação 34 Você sabia que a Bioestatística e Epidemiologia são dois ramos espe cializados da área da saúde que têm o objetivo de analisar e fazer uma leitura crítica sobre os fenômenos que ocorrem na população Saiba que ambas as áreas contribuem para elencar e selecionar novas tecnologias e soluções inovadoras relacionadas ao processo saúde doença tais como a formulação de novos fármacos diferentes procedimentos cirúrgicos e identificação de fatores de risco para determinadas condições Em nossa roda de conversa traremos uma explicação destes dois ramos que são importantes para área da saúde principalmente na tomada de decisão O artigo Desenho da Amostra da Pesquisa Nacional de Saúde 2013 publica do pela revista científica Epidemiologia Serviços de Saúde no ano de 2015 aborda a questão da importância de um plano amostral uma população alvo e técnicas de amostragem bem como a condução de uma pesquisa O trabalho apresenta a forma como foram elaborados os questionários propostos na pesquisa as técnicas de amostragem e a tabulação dos resultados oriundos da pesquisa Recomendo a leitura para aprofunda mento por meio de um estudo científico dos aspectos que estudamos nesta unidade Boa leitura É possível perceber que as pesquisas geralmente requerem atenção especial dos profissionais da área da saúde tanto para atualização e frequente busca por alternativas e novos procedimentos quanto para alimentar a própria necessidade de busca O médico o enfermeiro o farmacêutico o biólogo enfim todos os profis sionais dessa área devem estar atentos às possibilidades e aos conhecimentos desenvolvidos em pesquisas Você percebeu que a Bioestatística será bem aplicada em seu futuro profissional Ao escolher a área da Saúde verá que para realizar uma pesquisa será necessário entender o conceito de população N e amostra n bem como entender os meios de pesquisa e a técnica de amostragem que será utilizada Como exemplo você pode fazer uma pesquisa com seus alunos em um colégio com o objetivo de saber se eles praticam ou não a reciclagem Mas no momento em que for fazer essa pesquisa se o colégio tem 5000 alunos e você tem um tempo curto para fazêla pode recorrer a uma técnica de amostragem que estudamos aqui nesta unidade na disciplina de Bioestatística e fazer essa pesquisa com uma amostra representativa da população Além disso quando você vai a campo por exemplo fazer uma coleta de água em um rio para verificar a qualidade da água ao retirar essa amostra de água está utilizando uma técnica de amostragem e ao levala ao laboratório para estudar parâmetros físicoquímicos e microbiológicos saindo o resultado ao interpretar você estará fazendo uma projeção da qualidade da água daquele rio então você utilizou a técnica de estatística inferencial UNICESUMAR Olá aluno a chegamos à avaliação e aqui você fará um Mapa de Empatia que consiste em fazer a autoavaliação de uma forma mais divertida de tudo que foi estudado até agora nesta unidade Vamos lá Você se identificará e se perguntará como fará um mapa sobre as técnicas de estatística e amostragem Vejamos você poderá pensar em como estas informações tratadas nesta unidade como as técnicas de estatística poderão ajudar você em uma pesquisa em que se tem as etapas de planejamento coleta de dados agrupamento dos dados tabelas e gráficos análise e avaliação podem ajudar em uma pesquisa científica em sua vida profissional ou até mesmo em sala de aula Também verá como as técnicas de amostragem podem ajudar a trabalhar corretamente com uma amostra que seja representativa da população Então comece escrevendo seu nome sua idade e preencha com comentários tópicos ou perguntas sobre si mesmo dentro do quadro da empatia E no final você verá o tanto de coisas que descobrirá sobre este tema proposto Assim Utilize o Mapa de Empatia para refletir e se expressar nas questões a seguir O que ele PENSA E SENTE Qual a importância da Bioestatística para sua formação O que ele ESCUTA O que você já tinha ouvido falar sobre a Bioestatística Você já tinha ouvido falar em técnicas de amostragem Consegue entender sua importância nas pesquisas O que ele VÊ O que você já viu em relação na prática utilizando técnicas estatísticas O que ele FALA E FAZ O que você achou do conteúdo estudado até o momento faz sentido um futuro profissional da área da saúde estudar técnicas de Estatística Quais são suas aplicações DOR Quais são suas dificuldades Você acha que vem coisas mais difíceis na disciplina Consegue entender como os conceitos e exemplos são essenciais para sua compreensão GANHOS O que você ainda acha que tem que estudar para entender melhor a Bioestatística MAPA MENTAL MEU ESPAÇO 2 Nesta unidade vamos trabalhar com as variáveis que se tratam das características de interesse que são medidas em populações ou amos tras Assim é por meio de conhecimentos obtidos na Bioestatística que vamos conseguir classificar as variáveis que desejamos estudar Uma pesquisa na área de saúde na maioria das vezes pode ter variáveis de interesse como por exemplo peso altura se a pes soa tem algum histórico crítico de doença se tem alguma doença genética Essas variáveis podem ser classificadas em qualitativas e quantitativas e será essa oportunidade de aprendizagem que você terá nesta aula Variáveis Aleatórias Discretas e Variáveis Aleatórias Contínuas Me Renata Cristina de Souza Chatalovv 38 Você sabia que precisamos entender de variáveis para fazer uma pesquisa de qualquer natureza Sabia que é importante diferenciar uma variável qualitativa de uma variável quantitativa Assim temos que classificar essas variáveis e saber bem suas diferenças para que nossas pesquisas não comecem com erros categóricos As variáveis nos estudos de Bioestatística são valores que assumem certas características dentro de uma pesqui sa e podem ser classificadas em qualitativas e quantitativas Uma variável é qualitativa quando temos qualidade ou atributos relacionados ao que vamos estudar e uma va riável é quantitativa quando temos que contar ou medir a variável analisada Você já fez alguma pesquisa e ficou em dúvida se estava classificando a variável estudada corretamente Você sabia que existe diferença em qualitativa e quantitativa E que todas as variáveis analisadas estão relacionadas ao planeja mento e objetivos da pesquisa Faça um experimento pergunte a dez pessoas na rua no seu trabalho em uma unidade de saúde peso idade altura se a pessoa já teve Covid 19 sim ou não como resposta e estado civil solteiro viúvo divorciado união instável Anote estes valores Aqui você já pode perceber que a Bioestatística vai além de fazer testes gráficos e tabelas aqui já pode perceber que ela também está presente na coleta e tabulação dos dados para a pesquisa e lembrese é importante você entender como classificar essas variáveis Agora vamos voltar ao nosso experimento Agora que você já fez as perguntas para as dez pessoas você certamen te está utilizando as variáveis vejamos que peso e altura são medições portanto é uma variável quantitativa contínua A idade é uma medição assim se trata de uma variável quantitativa discreta Já se pessoa teve ou não covid é uma variável qualitativa nominal e o estado civil da pessoa se refere a uma variável quantitativa ordinal Veja que você já está praticando como trabalhar e olhar de maneira in dividual para essas variáveis UNICESUMAR UNIDADE 2 39 Quando realizamos algum tipo de pesquisa observamos que o número de informações originadas da coleta de dados geralmente é bem grande e para nos auxiliar nesse processo de agrupamento e organização dos dados o pesquisador dispõe das estatísticas descritiva e inferencial A estatística descritiva nos traz o resumo e apresentação dos dados sempre buscando facilitar sua interpretação a qual envolve a escolha de um possível modelo que explique o comportamento dos dados para na sequência nos proporcionar a realização de sua inferência sendo que as ferramentas utilizadas na estatística descritiva são tabelas de frequências gráficos cálculo de medidas de tendência central como média moda e mediana cálculo de medidas de dispersão tais como variância desvio padrão e coeficiente de variação A estatística indutiva ou inferencial por sua vez auxilia no encontro de respostas e conclu sões sobre conjuntos maiores de dados populações tendo em vista o estudo de uma amostra desse conjunto Tratase de uma ferramenta importante no teste de hipóteses científicas visto que permite trabalhar os dados por intermédio de determinados procedimentos que incluem sua coleta organi zação e classificação ARANGO 2011 Na estatística inferencial o interesse se trata em utilizar as informações de determinada amostra para encontrar conclusões sobre um grupo maior na qual o pesquisador não tem acesso por isso uma ferramenta utilizada neste tipo de pesquisa é a probabilidade CRESPO 2009 40 A necessidade de constante aplicação da esta tística em diferentes segmentos das áreas bioló gicas e da saúde resultou no surgimento de um campo de análises para atender suas caracterís ticas e especificidades a bioestatística De maneira geral é preciso analisar alguns da dos para entender alguns fenômenos biológicos Em razão disso algumas áreas como a medicina saúde pública começaram a fazer mensurações como estratégia de análise científica Progressiva mente as análises quantitativas passaram a con tribuir para a geração de novos conhecimentos nas áreas biológicas e da saúde Para Martinez 2015 a Bioestatística surgiu como resposta aos desafios das ciências e da saú de Hoje abrange um referencial teórico próprio Descrição da Imagem a imagem é uma fotografia que traz uma pista de corrida de sete raias visíveis temos 6 crianças do sexo mas culino competindo com aproximadamente dez a treze anos de idade da esquerda para a direita na raia sete temos uma criança com cabelos loiros e com o número trezentos e vinte e cinco na camiseta amarela Na raia seis um pouco mais a frente temos uma criança com cabelos loiros e com o número novecentos e vinte e um na camiseta amarela ao seu lado na raia cinco temos uma criança com cabelos aparentemente raspados com camiseta amarela e calça comprida preta Na raia quatro atrás de todos os competidores tem um menino loiro com camiseta azul e calça preta Na raia três um menino de roupa preta com o número novecentos e doze e ao seu lado também ocupando primeira posição na raia dois uma criança com cabelos loiros e camiseta amarela Figura 1 Competição corrida Fonte Pixabay 2018 online gerando uma grande variedade de conceitos mé todos e técnicas de análise fundamentais a áreas como epidemiologia ecologia psicologia saúde pública e medicina fundamentada em evidências Para entender melhor essa realidade no seu dia a dia sem que você perceba a Bioestatística faz par te da nossa realidade vejamos o exemplo a seguir Em uma cidade haverá uma competição esco lar de corrida e você é um professor de Educação Física Cada instituição poderá levar apenas três atletas para serem seus representantes Como há vários alunos ótimos em corrida para saber mais sobre quais inscrever nos jogos municipais você decide fazer uma pesquisa A Figura 1 traz uma imagem dos alunos com petindo em uma corrida UNICESUMAR UNIDADE 2 41 Descrição da Imagem na imagem temos uma seta da esquerda para a direita no fundo e três retângulos com cantos arredondados na leitura da esquerda para direita temos Primeiro Planejamento da pesquisa com objetivo realizar a prova com percurso igual da competição Segundo Coleta de dados com base em observações anotações dos dados Terceiro Tabulação dos dados e tomada de decisões com base na coleta de dados Figura 2 Resumo da pesquisa Fonte a autora 1ª Planejamento da pesquisa com objetivo realizar a prova com perversos igual da competição 2ª Coleta de dados com base em observações anotações dos dados 3ª Tabulação dos dados e tomada de decisões com base na coleta de dados O teste se trata de uma corrida com percurso igual da competição na qual ao longo de sua realização você vai anotando os valores de tempo e resultados de cada atleta a fim de comparar e descobrir quais são os três menores tempos Nessa situação a Bioestatística esteve presente em quais momentos Você consegue identificar É bem simples no momento que você planejou a pesquisa e coletou os dados o tempo do percurso e tempo de corrida extraiu informações baseado em sua pesquisa e tomou a decisão de selecionar os melhores atletas com base na coleta de dados Resumindo na Figura 2 temos Podemos observar que depois de definirmos o objeto de pesquisa bem como a organização do planejamento temos a coleta de dados que serão elementos muito importantes na pesqui sa se tratando das informações que se quer obter de determinada amostra ou situação TRIOLA 2014 Os dados são as informações que obtemos a partir de uma unidade experimental ou seja de uma observação podendo ser numéricas ou não Observe a afirmação O homem tem 51 anos e é obeso quais dados nós temos Bem simples que o homem tem 51 anos ou seja a idade E que ele é obeso ou seja está acima do peso De uma forma sucinta os dados são ob servações obtidas de um fenômeno ou resultado de uma medição como gênero estatura idade circunferência de cintura Assim é importante salientar que a Bioestatística precisa estar presente desde o momento de planeja mento da pesquisa até a fase de conclusão sendo que um dos maiores erros é pensar que a Bioestatística está presente apenas na coleta de dados O papel da Bioestatística vai além da realiza ção de cálculos e resultados para CallegariJacques 2003 está presente no planejamento o qual orienta as situações experimentais na quantidade de indiví duos a serem examinados Na análise de dados que traz as técnicas a serem utilizadas e resumos das in formações coletadas Na elaboração das conclusões De uma maneira geral não existem certezas sobre a correção das conclusões científicas entretanto os métodos que estudamos e aprendemos com a Bioestatística nos permitem determinar a margem de erro associada às conclusões com base no conhe cimento da variabilidade observada nos resultados 42 Como é possível perceber a aplicação destes conhecimentos acontece em várias fases por isso é importante conhecer o que será feito e quais as variáveis que serão analisadas para evitar ou diminuir erros a fim de obter sucesso nas pesquisas A Figura 3 traz um resumo destas informações Qual é o problema Do que se trata da pesquisa Qual a hipótese Qual delineamento Quais variáveis Qual tamanho da amostra Quais métodos a serem utilizados Quais testes estatísticos a serem feitos RESULTADOCONCLUSÃO Descrição da Imagem na imagem temos uma sequência das etapas fazendo a leitu ra de cima para baixo temos a ordem Qual é o problema Do que se trata a pesquisa Qual a hipótese Qual delineamento Quais variáveis Qual tamanho da amostra Quais métodos a serem utilizados Quais testes es tatísticos a serem feitos RESULTADOCON CLUSÃO em letras maiúsculas Figura 3 Resumo Fonte a autora Dessa forma é importante frisar que o planejamento da pesquisa é fundamental para que as eta pas sejam corretamente seguidas e as decisões e conclusões sejam tomadas de maneira correta evitando erros e trabalho No planejamento inicial de uma pesquisa na área de saúde é importante detalhar tudo o que será executado na pesquisa ou seja o que vai ser feito como será feito Aqui é definido o que realmente quer se pesquisar isto é o problema de pesquisa UNICESUMAR UNIDADE 2 43 Outro item muito importante a ser discutido são as escalas de medida e as variáveis sendo essen ciais entender sua diferença para trabalhar com os dados com mais tranquilidade Anteriormente no decorrer da nossa disci plina já informamos que populações e amostras são compostas por variáveis que por sua vez são características que podem ser medidas mensu radas ou observáveis de pessoas ou coisas que assumem diferentes valores Também dissemos que uma vez que as me didas são executadas e registradas o resultado é chamado de dado Mas o que significa medir Significa atribuirmos números letras palavras ou outro símbolo a pessoas ou a coisas de modo a transmitir informações sobre as características que são medidas Por exemplo podemos atribuir o número 100 a uma pessoa com o intuito de re presentar seu nível de colesterol total ou um F ou M para representar seu gênero Muitas vezes não reconhecemos o fato de que as medidas tomadas sobre variáveis podem trazer diferentes informações dependendo do tipo da escala utilizada no processo de medição Significa que as medidas que trazem números 1 2 e 3 em uma escala podem transmitir uma quantidade de informação diferente sobre a variável daquela que os mesmos números obtidos pelo uso de uma es cala diferente transmitiriam Isso por sua vez tem implicações no tratamento que terão esses dados O processo de medição pode ser concebido como se existisse em quatro níveis diferentes o qual podemos chamar de escala nominal ordinal intervalar intervalo igual e de razões ARAN GO 2011 Vamos conhecer essas escalas A escala nominal tem duas características principais traz classificações de pessoas ou de coisas baseado em uma avaliação qualitativa da característica a ser considerada e segundo nenhu ma informação referente à quantidade ou valor Descrição da Imagem a figura é uma fotografia onde há uma montagem ilustrativa em que mostra oito gotas de cor vermelha se remetendo a sangue em forma circular em forma de ilustra ção No centro temos o nome O positivo fazendo a leitura em sentido horário temos B positivo O negativo A negativo AB positivo B negativo A positivo e AB negativo Atrás do desenho temos uma foto de um homem da cintura pra cima que não mostra sua cabeça ele está vestido de camiseta azul típica de médicos tem estetoscópio em seu pescoço e peito sua mão direita está na altura dos seus ombros para frente onde segura uma caneta que está atrás da gota de sangue A positivo Figura 4 Tipos de Sangue é passada por seu uso Como por exemplo uma escala nominal é utilizada para atribuir as designa ções dos tipos sanguíneos A B AB ou O a pessoas com base em critérios hematológicos Figura 4 Observe que essas designações simplesmente classificam as pessoas em uma das quatro cate gorias de tipo sanguíneo Assim todas as pessoas com o mesmo tipo sanguíneo recebem a mes ma designação enquanto aquelas com outros tipos sanguíneos recebem outras designações Importante salientar que não existem conceitos de maior ou menor implicados nessas classi ficações Isso significa que as medidas de nível nominais não permitem comparações de pessoas ou coisas com base em mais ou menos mas sim com base em semelhante e divergente 44 Designações produzidas por escalas numéri cas por natureza mas não devem ser tratadas como tais Ao realizar uma pesquisa por telefone ou por email por exemplo as famílias podem ser categorizadas por código de área para fins de amostragem Nesse caso os códigos de área seriam 11 ou 21 simplesmente indicadores do local geográfico das famílias Certamente não faria sentido afirmar que os códigos de área 11 tem mais código de área do que as com 21 De modo semelhante operações aritméticas sobre tais números por exemplo cálculo de um código de área médio não teriam resultado significativo No entanto podemos contar o número de famí lias que encontram em cada categoria Assim como a escala nominal a escala or dinal classifica pessoas ou coisas com base nas características a serem avaliadas Contudo dife rentemente da escala nominal as classificações produzidas por essa escala incorporam os atribu tos muito importantes maior que e menor que PARENTI SILVA SILVEIRA 2017 Por exemplo supondo que um estudo vai ana lisar a dor de pacientes Estes pacientes devem analisar a dor percebida como nenhuma leve moderada ou forte Esse esquema categoriza os pacientes em uma das quatro categorias que são ordenadas em termos de intensidade de dor Pode mos entender que a categoria dor forte representa mais dor quando comparada à dor moderada e assim sucessivamente Diante disso podemos di zer que a escala ordinal oferece mais informações sobre a características a ser medida do que a escala nominal Aqui na escala ordinal também podemos categorizar patologias em estágios 1 2 3 e 4 Observe que embora esse sistema possa orde nar categorias em termos de mais ou menos da característica a ser medida ele não permite uma indicação em termos de o quanto mais ou menos A dor forte representa mais dor do que moderada certo Mas quanto a mais Um paciente que tenha passado pela triagem para uma categoria pode precisar de mais cuidado do que um paciente que passou por outra categoria mas quanto mais Os dados ordinais são comuns na pesquisa relacionada à área da saúde mas tradicionalmente podem trazer dificuldades analíticas Uma solu ção é tratar estes dados estatisticamente como se estivessem em uma escala nominal Embora em um sentido correto essa prática normalmente desperdiça informações e não é tão satisfatória Já a escala intervalar acrescenta os atributos de o quanto mais e o quanto menos àqueles da escala ordinal Embora existam vários exemplos de escalas intervalares sua discussão é complexa Um exemplo clássico seria o de um termômetro em Fahrenheit Figura 5 Descrição da Imagem a imagem traz um termômetro ilus trado que tem cor de fundo branca que traz a medição em mercúrio na cor vermelha Temos na imagem as temperaturas em ºC Celsius e Fº fahrenheit no lado direito do bulbo do termômetro temos a marcação em ºF fahrenheit de vinte em vinte iniciando em trinta no lado esquerdo do bulbo em ºC Celsius com a marcação de vinte em vinte Figura 5 Termômetro de mercúrio UNICESUMAR UNIDADE 2 45 A temperatura quanto obtida a partir de um termômetro de Fahrenheit é medida em unidades iguais o que permite a quantificação das diferenças Uma leitura de 70 representa cinco graus a mais de temperatura do que uma leitura de 65 O mesmo acontece com leituras de 100 e 95 Assim essa escala não permite comparações entre os tipos maior que e menor que mas também indica o quanto mais ou quanto menos uma leitura representa quando comparada à outra leitura Uma deficiência da escala intervalar é sua falta de um ponto zero verdadeiro ou seja o ponto zero nessa escala é uma designação arbitrária que significa que não representa a audiência da carac terística a ser medida Assim é possível ter uma temperatura zero em um determinado dia e uma leitura de menos dez no dia seguinte A leitura zero não significa que não houve temperatura mas que esse foi simplesmente outro ponto na escala Segue que essa escala não permite a formação de razões significativas Não se pode afirmar que uma leitura de 80 graus representa o dobro daquela de uma temperatura de 40 graus Quando falamos de dados temos dados discretos ou contínuos Uma variável contínua é aquela que pelo menos um valor pode assumir qualquer valor em uma escala específica Por exemplo uma pessoa pode pesar 80 quilos enquanto outra pessoa pesa 81 quilos Mas é possível encontrar um peso entre 80 e 805 quilos o que seria 8025 quilos Teoricamente esse processo poderia prosseguir continuamente embora por fim veríamos que não há uma balança sensível o suficiente para fazer as distinções necessárias O peso então é um exemplo de uma variável contínua Uma variável discreta é aquela que é passível de contagem e que não é continua Por exemplo o número de pacientes em um hospital pode ser 10 20 30 40 50 e assim sucessivamente que não pode ser 1025 pessoas Em termos simples as variáveis discretas existem em unidades discretas e não em uma série contínua Variáveis discretas podem assumir apenas um de dois valores por exemplo masculino ou feminino vivo ou morto positivo ou negativo são consideradas variáveis dicotômicas Alguns métodos dentro da estatística são projetados especialmente para serem usados com dados dicotômicos Podemos argumentar que todos os dados são discretos pois todos os métodos de medida são limitados por seu nível de precisão o que produz dados em unidades discretas e não uma série contínua Seja como for os dados obtidos de variáveis contínuas normalmente são considerados e tratados como contínuos enquanto os dados de variáveis discretas são tratados como discretos Às vezes os pesquisadores podem medir uma variável contínua mas intencionalmente registram suas descobertas como dados discretos Isso aconteceria por exemplo se as pressões sanguíneas fossem registradas como se estivessem ou não na faixa normal Já estudamos que a estatística descritiva traz ferramentas destinadas a resumir as informações contidas em dados destacando aspectos mais importantes Assim antes de analisar nossos dados é muito importante que se faça uma completa descrição de suas principais características para assim decidirmos com maior propriedade quais serão as técnicas mais adequadas para o tratamento estatístico Uma variável é uma característica de interesse que pode assumir diferentes valores ou classificações para diferentes sujeitos organismos ou objetos selecionados para nosso estudo Em uma análise sobre os fatores de risco para as doenças cardiovasculares as variáveis de interesse podem ser a idade em ano a pressão sistólica em mmHg o peso em kg a prática de exercícios 46 Uma dica muito importante para as variáveis Variável Qualitativa vem de quali lembrese de qualidades atributos Imagine a pergunta você tem plano de saúde A possível resposta seria Sim ou Não ou imagine a situação avalie o atendimento hospitalar em péssimo ruim bom ótimo excelente Variável Quantitativa vem de quanti então conseguimos quantificar contar medir mensurar colocar em alguma escala numérica Imagine a situação quantos anos você tem Quantos filhos você tem Qual seu peso Fica a dica físicos dentre os indivíduos classificados como praticantes de exercícios ou não diabetes presente ou ausente Em uma investigação sobre a internação de pacientes com tuberculose as variáveis de interesse podem ser o próprio tempo de internação em dias o motivo podem ser diversas causas e a condição de saída alta médica a pedido óbito abandono transferência ou outros tipos Em um estudo sobre a qualidade de vida de idosos as variáveis podem ser a dificuldade de locomoção pre sente ou ausente as dificuldades visuais presentes ou ausentes o número de remédios consumidos dificuldades em dormir presente ou ausente e número de filhos Nestes exemplos observamos que as variáveis são sempre escolhidas de acordo com o objetivo da investigação a ser realizada Observe que algumas variáveis são numéricas isto é seus possíveis resultados expressam quanti ficações como a idade a pressão sistólica o peso e número de filhos Já outras variáveis nos trazem classificações ou atributos ou qualidades dos indivíduos como por exemplo a prática de exercícios físicos motivo da internação e dificuldade de locomoção Essa classificação das variáveis conforme sua natureza é muito importante dado que há várias ferramentas voltadas às variáveis não numéricas Portanto quando pensamos em que ferramenta utilizar para o tratamento de nossos dados o primeiro passo se trata em entender a natureza de nossas variáveis de interesse Dessa maneira segundo sua natureza as variáveis podem ser classificadas como quantitativas e qua litativas As variáveis numéricas expressam grandezas matemáticas e são chamadas quantitativas ao passo que as variáveis que descrevem classificações atributos ou qualidades são chamadas qualitativas ou categóricas PARENTI SILVA SILVEIRA 2017 As variáveis quantitativas são classificadas como discretas ou contínuas Variáveis quantitativas discretas seus possíveis valores pertencem a um conjunto finito ou con tável Geralmente expressa números inteiros resultantes de um processo de contagem Por exemplo número de filhos número de residentes em uma casa Figura 6 tempo de internação em dias e o número de pontos dolorosos de pacientes com fibromialgia UNICESUMAR UNIDADE 2 47 Variáveis quantitativas contínuas são as variáveis que assumem qualquer valor em uma escala contínua na reta final Para essas variáveis valores não inteiros fazem sentido Seus resultados são oriundos de uma mediçãomensuração Por exemplo peso em kg altura em cm e os níveis séricos de colesterol em mgml Descrição da Imagem a ima gem é uma fotografia onde te mos dois adultos sentados em um sofá com uma criança bebê no colo O homem tem cabelos curtos e pretos e está olhando para mulher a mulher tem ca belos pretos e lisos o bebê está olhando para frente e está no colo do homem Descrição da Imagem a imagem é uma foto grafia onde temos dois pés descalços de uma pessoa em uma balança que se utiliza em casas de cor branca e onde a pessoa está com os pés a cor é preta com o marcador mostrando cinquenta e cinco kg aproximadamente Figura 6 Família contagem Figura 7 Pessoa se pesando em uma balança Um truque utilizado para classificarmos uma variável quantitativa como discreta ou contínua que funciona na maioria das vezes é perguntar se para obtermos os valores da variável estamos contando ou medindo exemplos Nós medimos ou contamos o número de casos de dengue em uma localidade Claro que con tamos então a variável é quantitativa discreta Nós medimos ou contamos os níveis séricos de triglicérides de indivíduos hipertensos Claro que a medimos então a variável é quantitativa contínua 48 Se fizer sentido que estamos contando possivelmente a variável é quantitativa discreta e se medirmos possivelmente a variável é quantitativa contínua As variáveis qualitativas são classificadas como ordinais ou nominais Variáveis qualitativas ordinais assumem classificações atributos ou qualidades que podem ser descritas em uma ordem natural Por exemplo o nível de escolaridade sem escolaridade ensino fundamental ensino médio ou ensino superior classe econômica A B C D ou E e a gravidade de uma doença leve moderada ou alta Variáveis qualitativas nominais não há uma ordem natural para as classificações atributos ou qualidades que essas variáveis assumem Por exemplo o sexo masculino ou feminino o estado civil solteiro casado separado divorciado ou viúvo o diabetes presente ou ausente covid positivo ou negativo Figura 8 Descrição da Imagem a ima gem é uma fotografia onde mostra um teste de covid escri to na cor rosa escuro a palavra COVID19 na frente temos duas letras C e T e temos uma mão de uma pessoa segurando esse tubo a pessoa está com uma luva de cor azul claro É importante frisar que às vezes uma variável originalmente quantitativa pode ser tratada como qualitativa Por exemplo a idade em anos se trata de uma variável quantitativa discreta mas se clas sificarmos em faixa etárias de 0 a 5 anos 6 a 10 anos 11 a 15 anos entre outros teremos uma variável qualitativa ordinal Vamos considerar por exemplo um banco de dados obtidos de uma pesquisa qualitativa com 40 mulheres que tiveram filhos nas quais as variáveis interessadas são Idade anos completos Estado civil casada solteira viúva união instável divorciada Tabagismo sim se fumante não se não fumante Idade do primeiro filho Parto em números Peso em quilos Altura em metros Estado de saúde bom ruim regular Figura 8 Teste de covid UNICESUMAR UNIDADE 2 49 Quadro 1 Variáveis a serem pesquisadas Nº Idade Estado Civil Tabagista Idade do 1º Filho Partos Peso Altura Estado de Saúde 1 51 Casada Não 23 2 745 159 Bom 2 48 Casada Não 20 2 533 153 Bom 3 57 Casada Não 19 1 640 163 Bom 4 48 Casada Não 20 2 686 153 Regular 5 49 Casada Não 15 2 779 153 Bom 6 47 Casada Sim 15 3 599 164 Bom 7 49 Casada Não 19 2 640 166 Bom 8 52 Casada Não 30 3 705 164 Regular 9 45 Solteira Não 20 1 721 153 Regular 10 64 Viúva Não 31 3 156 155 Bom 11 55 Casada Sim 19 2 668 160 Regular 12 45 Viúva Sim 21 1 550 156 Ruim 13 51 Divorciada Sim 20 1 703 160 Ruim 14 59 Casada Não 20 2 806 155 Ruim 15 56 Casada Não 23 3 745 170 Bom 16 49 Divorciada Não 19 2 600 150 Bom 17 52 Casada Não 18 2 618 157 Bom 18 64 Viúva Sim 17 4 599 157 Bom 19 47 Casada Não 14 3 815 175 Bom 20 50 Casada Não 33 3 534 159 Regular 21 64 Casada Não 34 5 845 164 Regular 22 52 Divorciada Não 30 3 716 160 Regular 23 56 Divorciada Não 26 2 718 154 Regular 24 59 Casada Não 25 1 689 154 Bom 25 48 União Instável Sim 22 3 1185 160 Ruim 26 51 Casada Não 23 2 667 153 Bom 27 51 Viúva Não 22 2 705 156 Bom 28 63 Casada Não 25 4 725 156 Regular 29 58 Casada Não 26 3 799 153 Ruim 30 52 Casada Não 21 2 479 153 Bom 31 49 Casada Não 14 2 546 158 Bom 50 Você sabia que é essencial conhecermos as variáveis Sabia que é importante conhecer suas diferenças e características pois é fundamental em nossos estudos na área de Bioestatística Nossa roda de conversa vai trazer aplicações e a importância das variáveis na Bioestatística Você saberia identificar a natureza de cada uma dessas variáveis A idade da mulher a idade do pri meiro filho são variáveis quantitativas discretas porque estamos contando o resultado é numérico As variáveis peso e altura são quantitativas contínuas porque foram medidas O estado civil e o tabagismo são variáveis qualitativas nominais porque são características únicas e não conseguimos classificar Já o estado civil é uma variável qualitativa ordinal porque tratase de um atributo e conseguimos classificar em uma ordem hierárquica Você pode perceber a importância de identificarmos e avaliarmos as variáveis que vamos analisar Fonte a autora 32 58 União Instável Não 18 1 728 157 Ruim 33 50 Casada Não 19 2 896 154 Bom 34 53 Divorciada Sim 20 2 685 157 Bom 35 54 União Instável Não 21 3 735 153 Bom 36 65 Viúva Não 33 3 736 157 Bom 37 57 Viúva Não 32 2 697 161 Bom 38 58 Casada Não 30 3 643 151 Regular 39 54 Casada Não 19 2 564 164 Bom 40 42 Casada Não 20 1 661 171 Bom UNICESUMAR UNIDADE 2 51 Você sabia que profissionais da saúde também fazem pesquisas e com isso precisam de variáveis E que se não souberem classificar e categorizar essas variáveis os demais estudos podem ser analisados de maneira incorreta O artigo de José Fausto de Morais publicado na Revista Estima em 2003 traz um resumo sobre conceitos fundamentais em estatística e traz que as varáveis são aspectos que são observados em um fenômeno ou seja é uma característica mensurável ou descritível dos objetos populacionais que em uma pesquisa do tipo quantitativa o objetivo será mensurar medir a variável analisada e em uma pesquisa do tipo quantitativa o objetivo será descrevêla Características como sexo pressão arterial altura entre outras são exemplos de variáveis Saiba mais acessando a seguir É muito importante que profissionais da área de saúde trabalhem na construção de pesquisas e assim a Bioestatística traz inúmeras ferramentas que servirão de apoio para esses profissionais Uma das aplicações de Bioestatística são a análise e estudos das variáveis em que precisamos classificar ou categorizar a variável ou as variáveis que iremos estudar Nesse momento estudamos as variá veis qualitativas nominais qualitativas ordinais quantitativas discretas e quan titativas contínuas e que entender sua diferença e aplicação se faz fundamental para profissionais de saúde 52 Para entender melhor as variáveis crie um mapa mental com as variáveis qualitativa nominal qual itativa ordinal quantitativa contínua e quantitativa discreta e coloque palavraschave para lembrar desse conceito tão importante estudado em nossa disciplina httpswwwgoconqrcom Quantitativa Discreta Números Inteiros Contagem Quantitativa Contínua MediçõesMensurações Qualquer valor em um intervalo Qualitativa Ordinal Atributos Qualitativa Nominal Atributos Não coloca em ordem hierárquica Variáveis Coloca em ordem hierárquica 53 1 As variáveis são referentes aos dados obtidos a partir de um conjunto Temos variáveis que são quantitativas e qualitativas que podem ser subdivididas em outros grupos Diante desse contexto uma variável que trata de características de indivíduos sem representar valores quantitativos se trata de uma variável a Qualitativa b Quantitativa c Intervalar d Discreta e Contínua 2 Uma variável quantitativa se refere a variáveis na qual estamos medindo contando ou mensu rando algo que nos interessa e se faz importante em estudos que envolvem a Bioestatística Diante disso uma variável que é mensurável ou seja pode ser expressa numericamente como peso altura volume temperatura idade se trata de uma variável a Qualitativa b Quantitativa c Intervalar d Discreta e Contínua 3 Uma variável quantitativa é aquela que cujos os valores dos resultados obtidos em uma pes quisa são expressos em números Diante disso temos a seguinte situação uma variável que pode admitir qualquer valor dentro de um intervalo máximo e mínimo e ainda pode apre sentar valores decimais como por exemplo uma corrida como a maratona o tempo que o atleta vai realizar essa prova se trata de uma variável a Qualitativa nominal b Qualitativa ordinal c Quantitativa discreta d Quantitativa contínua e Correlação linear 54 4 Uma variável pode trazer uma característica que pode ser medida mensurada ou monitorada Diante disso supondo que um profissional da área de saúde pretende contar o número de pacien tes que foram atendidos em uma sextafeira por um plantonista da área de enfermagem Dessa forma esse profissional vai utilizar técnicas que aprendeu na disciplina de Bioestatística para tal monitoramento Sendo assim a variável número de pacientes atendidos se trata de uma variável a Qualitativa nominal b Qualitativa ordinal c Quantitativa discreta d Quantitativa contínua e Correlação linear 5 Muitas vezes ao estudarmos as variáveis precisamos entender sua origem e como vamos tabular os dados a partir das variáveis que estamos analisando Em pesquisas na área da saúde muitas vezes precisamos fazer perguntas nas quais as respostas serão particulares de um paciente e também não conseguimos ordenar entre as categorias e traz características únicas de uma pessoa como por exemplo se perguntáramos a um paciente se ele é tabagista ou não a resposta seria sim ou não se trata de uma variável a Qualitativa nominal b Qualitativa ordinal c Quantitativa discreta d Quantitativa contínua e Correlação linear 6 Em Bioestatística quando estudamos as variáveis precisamos entender se ela se é qualitativa ou quantitativa E independentemente disso precisamos entender ao que ela se refere para darmos continuidade às etapas de apresentação de dados em uma pesquisa Diante desse contexto supondo que temos uma variável que conseguimos ordenação entre as categorias como por exemplo o estágio de uma doença que pode ser classificada como inicial interme diário ou terminal se trata de uma variável a Qualitativa nominal b Qualitativa ordinal c Quantitativa discreta d Quantitativa contínua e Correlação linear 3 Olá alunoa esta unidade será fundamental para sua futura atua ção profissional na área da Saúde Aqui aprenderá a construir ta belas bem como compreenderá suas regras Além disso aprenderá a elaborar gráficos e fará suas leitura e interpretação Tabelas e Gráficos Me Renata Cristina de Souza Chatalovv 56 Para começarmos a nossa jornada nesta unidade compartilharei uma experiência profissional para que possamos problematizar e consequentemen te refletir A primeira vez que participei de uma pesquisa de campo foi para fazer um diagnóstico para elaboração de um Plano de Gerenciamento de Resíduos Sólidos PGRS em uma empresa de revenda de peças para automóveis Para aproveitar ao máximo o tempo na empresa e a visita in loco elaborei um check list bem simples que trazia infor mações sobre tipo de resíduo quantidade gerada kgmês e como estava sendo feita a destinação final deste resíduo neste momento Depois de fazer a visita coletar os dados foi preciso trabalhar nesses dados afinal não pode ria entregar à empresa o check list em que fiz a coleta de dados Assim a partir dos dados coleta dos elaborei uma tabela bem organizada dentro das normas da ABNT e também fiz um gráfico apontando o resíduo que era gerado em maior quantidade assim poderia indicar o que meu cliente poderia fazer para cumprir a legislação e minimizar os custos que ele tinha com a destina ção final de resíduos Agora que contei uma experiência vivencia da por mim nesta situação apresentada como você acredita que eu deveria ter trabalhado com dados a partir de coletas Como eu deveria ter construído uma tabela E os gráficos Assim os gráficos e as tabelas são as principais formas de apresentação dos resultados de uma pesquisa Conhecer as regras e as normas espe cíficas que regem a construção de tabelas além de aprender o passo a passo para sua construção é importante e imprescindível para a compreen são e também para orbitarmos neste universo estatístico e bioestatístico É importante também compreendermos corretamente como construir e interpretar gráficos Podemos perceber que a Bioestatística pode ajudar com as regras e as eta pas para a construção de uma tabela ou um gráfi co Sabemos que muitos alunos têm a dificuldade de lidar com tabelas e gráficos Para isso convido você a fazer a leitura do artigo intitulado Análise e interpretação de tabe las e gráficos estatísticos A fim de utilizar dados interdisciplinares Nesse artigo você verá o ensi no e a aprendizagem da Estatística bem como a utilização de procedimentos e conceitos Acesse o qrcode a seguir UNICESUMAR UNIDADE 3 57 Como apresentamos na Unidade 1 os dados sobre a dengue daremos continuidade no mesmo exemplo tudo bem Sabemos que esta nossa situação é hipotética e você graduando a na área da Saúde que está atuando em sala de aula quer fazer um experimento a respeito dos casos de dengue do seu bairro Desta forma faça uma pesquisa em forma de formulário com dez pessoas que podem ser membros de sua família ou mesmo colegas de trabalho contendo a seguinte pergunta Você já teve dengue com isso as possíveis respostas do seu formulário serão Sim ou Não Organize estes dados com a quantidade de pessoas que responderam sim e a quantidade de pessoas que responderam não Em seguida construa uma tabela ou um gráfico mediante os resultados desta pesquisa e ao fazêlo você já estará utilizando mais uma técnica apresentada pela bioestatística Diante disso convido você a fazer suas anotações em um Diário de Bordo a fim de anotar suas primeiras impressões até o momento Escreva os resultados de sua pesquisa depois de fazer o gráfico ou a tabela reflita sobre como você pode trabalhar essa questão em sala de aula ou em outra ocupação dentro do seu segmento de trabalho 58 Conheça as normas para apresentação dos dados em tabelas bem como definições terminologia e simbologia São elas IBGE Normas de apresentação tabular e NBR 147242011 Informação e documentação Trabalhos acadêmicos Apresentação Em nosso encontro anterior estudamos a im portância da pesquisa e como a Bioestatística podenos auxiliar no planejamento na coleta de dados nas técnicas de amostragem Mas e depois o que fazemos com os dados Eles podem ser apresentados sob forma de tabelas e gráficos Vamos começar pelas tabelas Na construção de tabelas os dados são apresentados em colunas verticais e linhas horizontais con forme a classificação dos resultados da pesquisa Algumas orientações preliminares são as seguintes ARANGO 2011 p 31 1 Para construção de uma tabela é importante que ela seja simples clara e objetiva Assim é apropriado que grandes volumes de informação sejam descritos em várias tabelas ao invés de serem apresentados em uma única tabela 2 Uma tabela precisa ser autoexplicativa ou seja sua compreensão não deve ser vinculada do texto Dessa forma nenhuma casa da tabela deve ficar em branco sempre apresentando um símbolo ou número caso houver duas ou mais tabelas em um texto deverão receber um número de identificação que será referido no texto 3 As colunas externas de uma tabela não devem ser fechadas 4 Na parte superior e inferior as tabelas devem ser fechadas por linhas horizontais 5 A utilização de linhas verticais para separação de colunas no corpo da tabela é opcional 6 Ao fazer arredondamentos de números é importante que seja mantida uniformi dade quanto ao número de casas decimais 7 Os totais e os subtotais devem ser destacados como por exemplo em negrito 8 A tabela deve ser maior no sentido vertical que no horizontal Contudo se uma tabela apresentar muitas linhas e poucas colunas estreita demais convém sepa rála em uma maior quantidade de colunas Neste caso as colunas deverão ser separadas por linhas duplas Uma apresentação tabular de dados é a re presentação das informações por intermédio de uma tabela Uma tabela é um meio bastante efi ciente de mostrar dados levantados facilitando a sua compreensão e interpretação Além disso auxilia o entendimento global e o relacionamento entre as variáveis representadas UNICESUMAR UNIDADE 3 59 Sendo assim uma tabela pode ser dividida hierarquicamente em dois componentes chamados prin cipais e secundários Os componentes principais são ARANGO 2011 p 32 1 Corpo referente ao conjunto das informações dos dados que foram coletados e que aparecem no decorrer da tabela no sentido horizontal e vertical 2 Coluna indicadora é a divisão em sentido vertical onde aparece a designação da natureza do conteúdo da linha 3 Cabeçalho indica a natureza do conteúdo de cada coluna 4 Casa referese as divisões que aparecem no corpo da tabela Segundo Arango 2011 p 32 as partes secundárias compreendem 1 Título geralmente apresentado na parte superior da tabela devendo ser sempre o mais claro e completo possível Para isso é importante que o título responda as perguntas O quê Quando Onde relativas ao fato estudado 2 Rodapé é um espaço na parte inferior da tabela utilizado para colocar informações necessá rias referentes aos dados Geralmente no rodapé são colocadas as informações sobre a fonte origem dos dados eou informações complementares que podem auxiliar na leitura na tabela para que a mesma não fique carregada de informações 3 Notas também devem ser colocadas no rodapé depois da fonte de forma sintética Normal mente as notas têm caráter geral referindose à totalidade da tabela Devem ser enumeradas em algarismos romanos quando existirem duas ou mais de duas as vezes o asterisco é utilizado 4 Chamadas as chamadas têm caráter particular referindose a um item específico da tabela São enumeradas em algarismos arábicos entre parênteses podem também ser utilizados símbolos gráficos Depois de compreendidas as partes secundárias observaremos a simbologia comumente utilizada em tabelas estatísticas como mostra o exemplo do Quadro 1 e seus significados Símbolo Significado Função Hífen Quando o valor numérico é nulo Reticências Quando não dispõe de dado Interrogação Quando há dúvida sobre a exatidão do valor 0 00 ou 000 Zero Quando o valor for menor que 05 Parágrafo Quando o dado retifica informação anteriormente publicada X Letra x Quando o dado for omitido para evitar identificação Quadro 1 Símbolos utilizados em tabelas estatísticas Fonte adaptado de Arango 2011 60 E na tabela quanto aos números é importante observar que 1 Todo número inteiro constituído de mais de três algarismos deve ser agrupado de três em três da direita para a esquerda separando cada grupo por um ponto p ex 56342901 2 Exceto I Algarismos que representam o ano p ex 2010 II Números de telefone p ex 32222222 III Placas de veículos p ex AAA 2222 3 A parte decimal de um número deverá ser separada da parte inteira pela vírgula p ex 056 4 A unidade de medida não leva o s do plural nem o ponto final como abreviação p ex cm m kg etc 5 Os símbolos de medida aparecem depois do número sem espaço entre eles p ex 42m 3h Agora que você já viu todos os elementos que compõem uma tabela que tal vermos um exemplo Já estudamos que uma tabela tem como objetivo apresentar os dados agrupados de maneira que uma pessoa interessada pode visualizar e compreender o que querem dizer aqueles dados Você conhecerá agora os principais tipos de tabelas que podem ser a Simples b Dupla entrada c Distribuição de frequência Uma tabela simples é aquela em que contém a variável que estamos estudando com sua respectiva con tagem ou seja com sua frequência A Tabela 1 apresenta uma tabela simples com seus elementos básicos Bairro Número de casos Centro 12 Zona 01 2 Zona 02 3 Zona 03 5 Zona 04 1 Total 23 Topo Título Coluna Linhas Casa ou célula Corpo Rodapé Tabela 1 Casos de dengue nos bairros de uma cidade no mês de fevereiro de 2020 Fonte o autor UNICESUMAR UNIDADE 3 61 Você sabe qual é a diferença entre Tabela e Quadro Um quadro geralmente traz informações qualitativas podendo trazer informações quantitativas em alguns casos e é fechado nas bordas laterais enquanto uma tabela traz informações quantitativas referentes a contagens a frequências e as bordas laterais são abertas Como podemos observar no exemplo da Tabela 1 há todos os elementos básicos apresentados Além disso uma tabela simples pode ser temporal geográfica ou específica categórica Uma tabela é considerada temporal quando as observações da variável ocorrem de acordo com tempo A Tabela 2 traz um exemplo de série temporal ou histórica Ano Número de casos de dengue 2010 20 2011 30 2012 45 2013 25 2014 50 Total 170 Tabela 2 Casos de dengue no decorrer dos anos em uma cidade Fonte o autor Uma tabela simples também pode ser geográfica quando a variável analisada é referente ao local ou território Um exemplo de série geográfica pode ser observado na Tabela 3 Cidade Número de alunos matriculados Maringá 500 Londrina 450 Apucarana 300 Ponta Grossa 400 Curitiba 650 Total 2300 Tabela 3 Alunos matriculados em um curso de Ciências Biológicas no estado do Paraná no ano de 2010 Fonte o autor 62 Disciplina Número de alunos matriculados Economia 150 Administração 380 Ciências Biológicas 275 Agronomia 250 Engenharia Civil 140 Total 1195 Tabela 4 Número de alunos de uma instituição de ensino superior EAD no ano de 2015 Fonte o autor Uma tabela simples também pode ser específica ou categórica quando a variável analisada é referente a categorias específicas Um exemplo de série geográfica pode ser analisado na Tabela 4 Uma tabela também pode ser de dupla entrada isso significa que temos a necessidade de apresentar em uma única tabela mais dados estudados em uma variável para isso é preciso fazer uma junção de duas ou mais séries CRESPO 2009 Ao fazer esta junção dos dados para serem apresentados em uma única tabela teremos duas ordens de classificação uma vertical na coluna e uma horizontal nas linhas Para apresentar uma tabela de dupla entrada temos a Tabela 5 que trata do número de matrículas da Educação Básica do ano de 2019 e os dados estão apresentados dupla entrada a seguir UNICESUMAR UNIDADE 3 63 Etapa de Ensino Região Educação Infantil Ensino Fundamental Ensino Médio Educação Profissional Técnica de Nível Médio Educação Profissional Formação Inicial Continuada FIC Educação de Jovens e Adultos EJA Educação Especial Norte 690631 3015573 781394 124007 2651 346815 117487 Nordeste 2349305 7889261 2112466 554150 14414 1338224 352573 Sudeste 3919235 10349288 2992471 786331 8617 985163 449539 Sul 1347509 3550498 986056 317365 12069 378387 232504 CentroOeste 666098 2119110 593504 93121 2024 225079 98864 Brasil 8972778 26923730 7465891 1874974 39775 3273668 1250967 Tabela 5 Número de Matrículas da Educação Básica por Etapa de Ensino segundo a Região Geográfica a Unidade da Federação e o Município 2019 Fonte adaptada de Inep 2020 online VIRAR PÁGINA PARA VISUALIZAR UNICESUMAR Na Tabela 5 podemos observar que a região coluna é referente às regiões no Brasil já as etapas de ensino Educação Infantil Ensino Fundamental Ensino Médio Ensino Profissional Educação de Jovens e Adultos e Educação Especial são analisados também nas colunas e linhas Temos então um exemplo de tabela com a dupla entrada ou seja mais que uma variável sendo estudada na qual podemos analisar as regiões brasileiras geográficas e etapas de ensino categorias Lembrese de que em uma tabela de dupla entrada cada uma das respostas combinadas fica agregada em uma única célula Agora que você já conhece as tabelas simples bem como os tipos de série e a dupla entrada que tal aprendermos a construir uma tabela do zero Mas antes precisamos relembrar alguns conceitos matemáticos fundamentais aqui na Bioestatística pois os cálculos das frequências precisam de duas grandezas razão e proporção Definir razão pode se tornar uma tarefa inglória se formos atrás de todos os significados para este termo ARANGO 2011 Aqui trataremos da parte que aplicaremos na disciplina de Bioestatística vejamos alguns exemplos Supondo que um corpo tem seis metros de comprimento e outro corpo três metros ao dividirmos o comprimento de um pelo outro teremos 632 Ainda podemos afirmar que o corpo é duas vezes o tamanho do menor ou ainda que tem a metade do comprimento do maior e esta divisão chamamos de razão A razão 12 pode ser representada como 12 o que significa que cada metro do corpo menor corresponde a 2 metros do corpo maior Outro exemplo dos 1200 pacientes que procuram a emergência hospitalar na última semana 240 eram idosos A razão de idosos que procuraram a emergência esta semana foi de 2401200240240120024015 Isto é a cada cinco pacientes um deles era idoso Segundo Parenti 2017 p 49 Os conceitos de razão e proporção estão relacionados entre si Assim a razão entre o quociente divisão entre dois números e a proporção é a igualdade entre duas razões As proporções são aplicadas em situações em que as informações devem ser comparadas e são calculadas pelo uso de regra de três simples UNIDADE 3 65 Para entender melhor a proporção vejamos o exemplo a seguir para produzir 600 pães no re feitório de um hospital são utilizados 100 kg de farinha Sendo assim quantos pães podem ser feitos com 25 kg de farinha 600 100 25 100 600 25 100 1500 1500 100 150 x x x x x Assim podemos dizer que é possível produzir 150 pães com 25 kg de farinha Agora que já relembramos os conceitos mate máticos necessários para construir uma tabela de frequências você aprenderá passo a passo como elaborar Vamos lá Primeiramente trabalharemos com a organi zação dos dados você organiza dados numéricos criando disposições ordenadas ou distribuídas Para preparar seus dados coletados com o intuito de organizálos inicialmente decidiremos se pre cisaremos analisar suas variáveis numéricas com base em grupos que sejam criados pelos valores de uma segunda variável categórica Esta decisão afetará o modo como você prepara os dados De acordo com Levine Stephan e Szabat 2016 caso decida analisar suas variáveis nu méricas em grupos que sejam definidos pelos valores de uma segunda variável categórica você deve então decidir se utilizará um for mato empilhado ou não empilhado Em um formato empilhado todos os valores de uma variável numérica aparecem em uma única coluna enquanto uma segunda coluna em se parado contém os valores categorizados que identificadas a qual subgrupo pertence cada um dos valores numéricos Em um formato não empilhado os valores de uma variável numé rica são divididos por subgrupos e colocados em colunas separadas Vamos ao exemplo supondo que você pre tende comparar os custos em restaurantes loca lizados na cidade com os custos em restaurantes localizados em bairros Para preparar esses da dos de forma não empilhada poderia ser criada uma coluna para a variável custo com alimen tação e outra coluna para a variável localização uma variável categórica com os valores de cidade e bairros Observe o custo de 20 refeições no Quadro 2 a seguir Custos de Refeições em Restaurantes no Centro da Cidade em R 25 21 35 50 60 50 50 50 40 60 70 50 25 29 33 35 35 35 50 50 Custos de Refeições em Restaurantes em bairros da Cidade em R 35 20 20 20 25 25 30 40 40 30 25 25 20 35 35 25 20 20 40 35 Quadro 2 Disposição de dados não empilhados Fonte o autor 66 Você pode observar que desta forma fica um pouco mais complexo trabalharmos com os dados Este modelo de não empilhados foi apresentado para que você tenha ciência de como trabalhar com os da dos Mas se observarmos esses dados fica difícil tomarmos conclusões acerca dos custos das refeições como qual valor em R que mais aparece mais se repete certo Nem qual percentual deste valor pago dentre estas 20 refeições Podemos facilitar a análise dos nossos dados quando trabalhamos com a disposição de dados ordenados ou seja quando colocamos os dados em rol Segundo Levine Stephan e Szabat 2016 uma disposição ordenada organiza os valores de uma va riável em ordem de classificação partindo do menor valor para o maior ou seja organizamos os dados em uma lista crescente Uma disposição ordenada pode ajudar a obter mais entendimento entre a amplitude dos valores em seus dados e é particularmente útil quando você tem mais do que um valor se repetindo Veja no Quadro 3 os mesmos dados apresentados anteriormente de maneira ordenada Custos de Refeições em Restaurantes no Centro da Cidade em R 21 25 33 35 35 50 50 50 50 60 25 29 35 35 40 50 50 50 60 70 Custos de Refeições em Restaurantes em bairros da Cidade em R 20 20 20 25 25 25 30 35 35 40 20 20 20 25 25 30 35 35 40 40 Quadro 3 Disposição de dados não empilhados em rol Fonte o autor Analise no Quadro 3 que fica bem mais fácil trabalhar com os dados seguindo uma ordem crescente ou seja do menor valor para o maior valor Outro exemplo clássico de rol que certamente você já viu em sala de aula é a lista de presença dos seus alunos Os nomes estão em ordem alfabética ou seja em um rol assim fica mais fácil para localizar algum aluno porque os dados estão organizados Além disso o rol é um passo importante para construção de tabelas de fre quências Mas o que são tabelas de frequências Tratase de uma distribuição de modo tabular os valores de uma variável numérica em um conjunto de classes linhas numericamente ordenadas Podemos ter uma distribuição de frequências com intervalo de classes e sem intervalo de classes UNICESUMAR UNIDADE 3 67 Primeiro você aprenderá a construir uma distribuição de frequências sem intervalo de classes utili zando a contagem de uma variável qualitativa nominal Vejamos a situação a seguir em professor do curso de Enfermagem aplicou um questionário para entender qualis disciplinas os alunos tinham como preferência em uma turma Para isso selecionou uma turma com 40 alunos e fez a seguinte pergunta Qual disciplina você mais gosta neste ano Dentre as opções dadas aos alunos eles tiveram Anatomia Humana Biologia celular e molecular Parasitologia Bioestatística Os votos dos 40 alunos podem ser verificados a seguir Quadro 4 Fonte o autor Quadro 4 Votos dos 40 alunos de uma turma sobre a preferência de disciplinas brutos Dados Brutos Anatomia Humana Anatomia Humana Bioestatística Biologia celular e molecular Bioestatística Parasitologia Bioestatística Bioestatística Parasitologia Parasitologia Parasitologia Parasitologia Biologia celular e molecular Biologia celular e molecular Biologia celular e molecular Biologia celular e molecular Anatomia Humana Parasitologia Anatomia Humana Biologia celular e molecular Anatomia Humana Anatomia Humana Anatomia Humana Biologia celular e molecular Bioestatística Parasitologia Bioestatística Biologia celular e molecular Parasitologia Parasitologia Parasitologia Biologia celular e molecular Parasitologia Parasitologia Parasitologia Parasitologia Parasitologia Parasitologia Parasitologia Parasitologia Para facilitar a construção da nossa tabela faremos um rol utilizando as disciplinas com ordem alfa bética Quadro 5 68 Dados em rol Anatomia Humana Bioestatística Biologia celular e molecular Parasitologia Anatomia Humana Bioestatística Biologia celular e molecular Parasitologia Anatomia Humana Bioestatística Parasitologia Parasitologia Anatomia Humana Biologia celular e molecular Parasitologia Parasitologia Anatomia Humana Biologia celular e molecular Parasitologia Parasitologia Anatomia Humana Biologia celular e molecular Parasitologia Parasitologia Anatomia Humana Biologia celular e molecular Parasitologia Parasitologia Bioestatística Biologia celular e molecular Parasitologia Parasitologia Bioestatística Biologia celular e molecular Parasitologia Parasitologia Bioestatística Biologia celular e molecular Parasitologia Parasitologia Disciplina Contagem Frequência Fi Anatomia Humana III III I 7 Bioestatística III III 6 Biologia Celular e Molecular III III III 9 Parasitologia III III III III III III 18 Total 40 Fonte o autor Fonte o autor Quadro 5 Votos dos 40 alunos de uma turma sobre a preferência de disciplinas em rol Tabela 6 Distribuição de frequências referentes à preferência de 40 alunos de uma turma do curso de Enfermagem Agora que temos os dados em rol construiremos a tabela de frequências Fi que se trata de agrupar os dados em uma tabela contando quantas vezes cada variável nesse caso cada disciplina se repetiu isso é o que chamamos de frequência Para isso organizamos a tabela utilizando a ordem alfabética contendo todos os elementos título cabeçalho linhas entre outros Utilizando os dados em rol construiremos uma tabela de frequências com a preferência de 40 alunos de uma turma do curso de Enfermagem Tabela 6 UNICESUMAR UNIDADE 3 Como você pode observar inserimos a coluna contagem somente para você entender como funciona a distribuição de frequência geralmente ela não aparece mas como é a primeira vez que você está construindo essa tabela elaboramos essa coluna para melhor entendimento Observe que na disciplina Anatomia Humana a repetição ou seja a contagem foi de sete alunos portanto a frequência desta classe desta linha é igual a sete Já na segunda classe ou seja segunda linha temos a disciplina Bioestatística com votos de seis alunos portanto a frequência para esta disciplina é igual a seis Enquanto na terceira classe a contagem para disciplina de Biologia Celular e Molecular é igual a nove sendo assim na coluna frequência inserimos a informação que é igual a nove Por fim na última classe com a disciplina Parasitologia teve a preferência de 18 alunos Uma classe em uma distribuição de frequência corresponde ao número de linhas desta tabela exceto cabeçalho e total Podemos entretanto reconstruir esta tabela inserindo algumas colunas complementares que são importantes em uma distribuição de frequência tais como a Frequência Relativa Fr corresponde à proporção entre a frequência da classe pelo total de números observados e a equação a seguir apresentanos como calcular a frequência relativa Fr Fin 100 Em que Fr Frequência relativa em percentual Fi Frequência da classe n número total de elementos ou somatória das frequências correspondente ao total b Frequência Acumulada Fac referente à frequência de todos os valores inferiores ao limite superior da classe ou seja repetese a primeira frequência em seguida vamos somando com as posteriores c Frequência Relativa Acumulada Frac tratase de uma classe em que a frequência acumulada da classe dividindo pelo total da distribuição ou seja pelo total A equação referente à frequência acumulada pode ser observada a seguir Frac Facn 100 Em que Frac Frequência relativa acumulada em percentual Fi Frequência acumulada da classe n número total de elementos ou somatória das frequências correspondente ao total Agora você aprenderá a construir a tabela de distribuição de frequências com estas colunas complementares Tabela 7 Vamos lá Tabela 7 Distribuição de frequências referentes a preferência de 40 alunos de uma turma do curso de Enfermagem Disciplina Frequência Fi Fr Fac Frac Anatomia Humana 7 740 100 175 7 740 100 175 Bioestatística 6 640 100 15 76 13 1340 100 325 Biologia Celular e Molecular 9 940 100 225 139 22 2240 100 55 Parasitologia 18 1840 100 45 2218 40 4040 100 100 Total 40 100 Fonte o autor Como você pode observar apresentamos as colunas Fr Fac e Frac com todas as fórmulas e resoluções Na coluna Fr utilizamos a equação a seguir Fr Fin 100 Em seguida substituímos cada valor da frequência dividimos pelo total que neste caso é igual a 40 e temos que a proporção de alunos que preferem a disciplina Anatomia Humana é de 175 Essa coluna também serve para situações em que queremos saber a proporção em percentual por exemplo qual o percentual de alunos que preferem a disciplina de Biologia Celular e Molecular Simplesmente basta olhar na coluna FR e responder que 225 dos alunos preferem a disciplina Biologia Celular e Molecular Neste momento você pode estar se questionando quando UNIDADE 3 71 Como você pode perceber não precisamos apresentar todos os cálculos nas colunas complementares da tabela de distribuição de frequências Neste vídeo apresentarei o passo a passo da construção das colunas complementares bem como reescreverei essa tabela sem cálculos Acesse o vídeo e fique por dentro desse conteúdo Fonte o autor Tabela 8 Distribuição de frequências referentes a preferência de 40 alunos de uma turma do curso de Enfermagem sem os cálculos Disciplina Frequência Fi Fr Fac Frac Anatomia Humana 7 175 7 175 Bioestatística 6 15 13 325 Biologia Celular e Molecular 9 225 22 55 Parasitologia 18 45 40 100 Total 40 100 construirá tabelas de frequências e se é preciso apresentar todos os cálculos nesta tabela A resposta é não necessariamente No exemplo apresentado fizemos a resolução completa apresentando os cálculos em cada uma das classes para que você possa visualizar a equação correspondente bem como a substituição dos valores para compor a tabela Na maioria das vezes quando elaboramos estas tabelas normalmente não apresentamos os cálculos Agora você verá a mesma tabela sem apresentar os cálculos Tabela 8 Além disso temos como ir tirando prova real para verificar se os cálculos apresentados estão corretos Observe a seguir a Na linha Total observe que a somatória das frequências deve ser igual ao número de elemen tos coletados ou seja para este caso foram entrevistados 40 alunos do curso de Enfermagem então a somatória deve ser igual a 40 b Na coluna FR analise que a somatória das frequências relativas em percentual a somatória deve ser igual a 100 correspondente a 100 por cento Caso sua somatória dê por exemplo 98 é necessário conferir os cálculos anteriores 72 Em uma tabela de distribuição de frequências você sabia que podemos tirar a prova real dos cálculos nas colunas complementares Sim isso é possível e para entender como fazer essa prova real convido você a acessar este vídeo e fazer comigo o passo a passo Você verá que não terá erro Fique por dentro deste plus aqui em nossa disciplina c Na coluna Frequência Acumulada Fac aqui somamos as frequências das classes com as frequências posteriores certo Mas a prova real tratase do último valor encontrado na colu na FAC ser igual ao total de elementos analisados ou seja o valor dever ser igual ao total da somatória da coluna frequência d Na coluna Frequência Relativa Acumulada FRAC o último valor correspondente à variável analisada deve ser igual a 100 Não se esqueça o coração da sua tabela é a coluna frequência por isso é importante estes valores serem distribuídos de maneira correta Coletar dados 1º passo 2º passo Colocar os dados em rol ordem crescente 3º passo Construir a tabela e contar as frequências repetições 4º passo Construir as colunas Fr FAC e FRAC 5º passo Como garantia confra seus dados principalmente a coluna frequência Descrição da Imagem na figu ra temos a sequência dos pas sos para a construção de uma distribuição de frequências sem intervalo de classes temos 1º passo coletar os dados 2º pas so colocar os dados em rol 3º passo construir a tabela e con tar as repetições 4º passo fazer as colunas frequência relativa FR frequência acumulada FAC e frequência relativa acumulada FRAC e o passo 5 conferir os dados Figura 1 Passo a passo para construção de uma tabela de fre quências simples sem intervalo de classes Fonte o autor UNICESUMAR UNIDADE 3 73 Até agora vimos como trabalhar com uma dis tribuição de frequências sem intervalo de classes mas com uma variável quantitativa discreta Ve jamos um exemplo supondo que um diretor de uma escola anotou durante 30 dias o número de atendimento aos pais e obteve o seguinte resultado Dados Brutos 3 3 2 4 5 2 2 2 4 4 2 3 3 5 2 4 2 3 2 3 1 2 3 2 2 3 4 2 3 2 1º passo colocaremos os dados em rol Dados em Rol 2 2 2 3 4 2 2 2 3 4 2 2 3 3 4 2 2 3 3 4 2 2 3 3 5 2 2 3 4 5 2º passo Construir a tabela distribuir as frequências Tabela 9 Distribuição de frequências referentes ao atendimento do diretor de uma escola durante 30 dias consecutivos Atendimentos Número de dias Fi FR FAC FRAC 2 14 1430 100 467 14 1430 100 467 3 9 930 100 30 149 23 2330 100 767 4 5 530 100 167 235 28 2830 100 933 5 2 230 100 66 282 30 3030 100 100 Total 30 100 Fonte o autor 3º passo construir as colunas complementares já realizado na própria tabela Agora é só conferir mais uma vez a tabela e verificar se está tudo de acordo As tabelas têm a função de condensar informações em alguns casos o número de dados é tão grande que dificulta a análise para estes casos são utilizadas tabelas com dados agrupados em intervalos de classes Imagine a seguinte a situação você já atuando como professor de cursos de Saúde aplica uma prova a seus alunos Para entender o desempenho dos seus alunos nesta avaliação você pode fazer uma lista com as notas dos seus alunose colocálas ordenadas A seguir temos as notas dos alunos desta turma dados brutos 30 30 60 90 100 30 95 85 65 65 30 50 70 70 70 40 70 60 65 80 90 45 95 80 85 60 70 100 75 85 UNIDADE 3 75 Fonte o autor Tabela 10 Distribuição de frequências referente às notas de seus alunos sem intervalo de classes 30 50 65 75 90 30 60 70 80 90 30 60 70 80 95 30 60 70 85 95 40 65 70 85 100 45 65 70 85 100 Agora colocaremos os dados em rol observe a seguir Agora construiremos a tabela de distribuição de frequências sem intervalo de classes Tabela 10 Notas Número de alunos 30 4 40 1 45 1 50 1 60 3 65 3 70 5 75 1 80 2 85 3 90 2 95 2 100 2 Total 30 Você pode observar que temos uma tabela com mais de dez classes ou seja mais do que dez linhas exceto cabeçalho e total Agora imagina quando formos inserir as colunas complementares quantos números terá nossa tabela Para melhorar essa tabela podemos construir uma distribuição de frequências com intervalo de classes para condensar melhor as informações da tabela Ao elaborar uma distribuição de frequências com intervalo de classes precisamos seguir os passos 1º passo colocar os dados em rol 2º passo determinar a amplitude total que se trata da diferença entre o maior valor do conjunto de dados pelo menor valor do conjunto de dados resolvido pela equação AT Xmáx Xmín Em que AT Amplitude Total Xmáx Maior valor do conjunto de dados Xmín menor valor do conjunto de dados 3º passo determinar o número de classes Para uma distribuição de frequências com intervalo de classes os números de linhas são definidos pela equação a seguir k n Em que K número de classes n número total de elementos Obs é muito importante que o número de classes seja arredondado 4º passo determinar a amplitude do intervalo ou seja a distância entre o limite inferior da classe e o limite superior da classe dado pela equação h ATk Em que h Amplitude do intervalo AT Amplitude total k número de classes UNIDADE 3 77 O arredondamento de dados é importante em uma distribuição de fre quências com intervalo de classes principalmente no item número de classes Para relembrar como se faz o arredondamento de dados assista ao vídeo a seguir 5º passo construa a tabela faça as colunas complementares distribuindo corretamente as frequências A seguir temos um resumo dos passos que devem ser seguidos para construir uma distribuição de frequências com intervalo de classes Figura 2 Colocar os dados em Rol 1º passo 2º passo Calcular Amplitude Total AT XmáxXmín 3º passo Calcular nº de classes n 4º passo Calcular amplitude do intervalo h ATk 5º passo Construir a tabela de frequências respeitando o intervalo encontrado respeitando os limites inferior e superior Descrição da Imagem na figura temos uma sequência dos pas sos para a construção de uma distribuição de frequências com intervalo de classes 1º passo rol 2º passo cálculo da AT 3º passo cálculo do número de classes linhas 4º passo cálcu lo da amplitude do intervalo e o passo 5 construção da tabela respeitando o intervalo de clas ses entre os limites Figura 2 Passo a passo para cons trução de uma tabela de frequên cias com intervalo de classes Fonte o autor Para entender melhor a construção de uma distribuição de frequências com intervalo de classes observe os dados a seguir que são referentes às notas de alunos do curso de Ciências Biológicas 1º passo colocar os dados em rol ordenado crescente 30 50 65 75 90 30 60 70 80 90 30 60 70 80 95 30 60 70 85 95 40 65 70 85 100 45 65 70 85 100 2º passo agora determinaremos a Amplitude do Intervalo AT Xmáx Xmín AT 100 30 70 30 50 65 75 90 30 60 70 80 90 30 60 70 80 95 30 60 70 85 95 40 65 70 85 100 45 65 70 85 100 UNIDADE 3 79 3º passo em seguida determinaremos o número de classes k k n k k arredondando 30 5 47 5 4º passo agora resolveremos a amplitude do intervalo utilizando a equação a seguir h AT k h h 7 5 1 4 Sabemos até o momento que nossa tabela terá 5 linhas classes Intervalo será de 14 em 14 entre limites Antes de construir nossa tabela de frequências precisamos entender o que são limites inferiores e superiores Temos quatro maneiras de utilizar os limites inferiores e superiores 1 Nesta primeira notação incluímos o limite inferior e excluímos o limite superior 2 Nesta notação excluímos o limite inferior e incluímos o limite superior 3 Nesta notação excluímos ambos os limites 4 Nesta notação incluímos ambos os limites Qual delas usar Utilizaremos a primeira notação que inclui limite inferior e exclui limite superior mas em alguns casos somente na última classe teremos que usar a quarta notação que inclui ambos os limites isso pode ocorrer para que o maior valor do conjunto de dados seja contado Como já temos todas as informações construiremos nossa tabela Tabela 11 Tabela 11 Distribuição de frequências referente às notas de seus alunos com intervalo de classes Notas Número de alunos fi FR FAC FRAC Ponto médio Xi 30 44 5 530100 167 5 5 530100 167 30 44 2 37 44 58 2 230100 66 52 7 730100 233 44 58 2 51 58 72 11 1130100 367 711 18 1130100 367 58 72 2 65 72 86 6 630100 20 186 24 2430100 80 72 86 2 79 86 100 6 630100 20 246 30 3030100 100 86 100 2 93 Fonte o autor Total 30 100 Agora temos a tabela resolvida observe que na última classe tivemos que utilizar a notação que inclui limite inferior e inclui limite superior isso foi feito para que a nota 100 fosse incluída na contagem Observe nesta tabela que há uma coluna complementar a mais a coluna ponto médio que é determinado pela equação Xi Li Ls 2 Em que Xi Ponto médio Li Limite inferir do intervalo de classe independentemente da notação Ls Limite superior do intervalo de classe independentemente da notação É importante ficar atento porque só existe ponto médio em uma distribuição de frequências com intervalo de classes O ponto médio será importante em nossa próxima unidade no cálculo da média Outra maneira de apresentar os dados provenientes de uma pesquisa são os gráficos Figura 3 Um gráfico tem por objetivo apresentar uma ideia visual do comportamento de um conjunto de valores tem a vantagem de facilitar a compreensão de determinada situação que queira ser descrita permitindo a interpretação rápida de suas principais características ARANGO 2011 Você sabia que tabelas e gráficos são fundamentais para a organização dos dados na Bioestatística com seu uso e aplicação a interpretação de dados obtidos por meio de pesquisa se tornam mais eficientes Saiba que os gráficos podem facilitar a análise de dados trazendo mais praticidade visualização principalmente quando temos dados não discretos ou seja quando não são relativamente grandes Em nossa roda de conversa traremos uma explicação sobre aplicabilidade e simplicidade dos gráficos É importante frisar que um gráfico não traz tantas informações quanto a uma tabela E você vai se perguntar usarei gráfico ou tabelas em minhas pesquisas A resposta é fica a critério do pesquisador ou seja a pessoa que está fazendo a pesquisa pode utilizar gráficos ou tabelas ou fazer uma mesclagem entre eles Os gráficos estão sempre presentes em trabalhos científicos artigos congressos seminários simpósios em que é preciso comunicar um grande volume de informações com tempo limitado de forma compreensível e agradável Temos vários modelos de gráficos que veremos a seguir a Gráfico de colunas quando temos as categorias apresentadas no eixo horizontal e a frequência no eixo vertical BARBETTA 2014 Para construção do gráfico de colunas utilizaremos os dados referentes às matrículas na Educação Infantil retirados do INEP 2019 A Figura 3 82 Como você pode observar na horizontal temos as regiões do país e na vertical temos o número de matrículas na Educação Básica Caso você queira saber o número de matriculados na região Norte por exemplo basta olhar na região Norte e verificar que há pouco mais do que 500000 matrículas no ano de 2019 b Gráfico de barras em que cada variável é representada por uma barra de comprimento proporcional à sua ocorrência BARBETTA 2014 Temos as barras na vertical na Figura 4 Descrição da Imagem a figura traz um gráfico de colunas em que as barras estão na direção horizontal de baixo para cima aparece primeiro a região Norte em que temos 690631 alunos seguida da região Nordeste com 2349305 alunos segui da da região Sudeste com 3919235 após a região Sul com 1347509 alunos e por fim a região CentroOeste com 666098 alunos Descrição da Imagem a figura traz um gráfico de colunas em que as barras estão na direção vertical primeiro com a região Norte em que temos 690631 alunos seguida da região Nordeste com 2349305 alunos seguida da região Sudeste com 3919235 após com a região Sul 1347509 alunos e por fim a região CentroOeste com 666098 alunos Figura 3 Gráfico de Colunas Fonte adaptada de Inep 2020 Figura 4 Gráfico de Barras Fonte adaptada de Inep 2020 UNICESUMAR UNIDADE 3 83 Descrição da Imagem a figura traz um gráfico de linhas com os meses de janeiro a dezembro apresentando a evolução do índice pluviométrico no período Figura 5 Gráfico de linhas Fonte o autor c Gráfico de linhas são gráficos bem interessantes no uso de séries temporais ou seja a variável predominante é o fator tempo cronológico esse tipo de gráfico mostra informações da série estudada em pontos e que são marcados por segmentos de linha reta A Figura 5 apresentanos um gráfico de linhas Na Figura 5 com o gráfico de linhas você pode observar que o aumento no índice pluviométrico é apresentado mês a mês tempo e para interpretar esse gráfico basta visualizar que podemos concluir que o mês de julho foi que apresentou maior quantidade de chuvas d Gráfico de setores também conhecido como gráfico de pizza é um gráfico circular em que os valores são representados proporcionais às respectivas frequências Para a construção deste gráfico utilizaremos os dados referentes às preferências de alunos de uma turma do curso de Ciências Biológicas Figura 6 Descrição da Imagem a figura traz um gráfico em formato de pizza circular sen do que a proporção maior está com 45 na disciplina Zoologia I seguida de 23 na disciplina Biologia Celular e Molecular se guida da disciplina Bioestatística com 15 e por fim a disciplina Anatomia com 7 Figura 6 Gráfico de setores Fonte o autor 84 Descrição da Imagem a figura representa um histograma em que temos gráficos na vertical juntos ou seja sem espaço entre as barras iniciando com cinco alunos com notas maiores ou iguais a 30 e menores do que 44 dois alunos com notas maiores ou iguais a 44 e menores do que 58 onze alunos com notas maiores ou iguais a 58 e menores que 72 seis alunos com notas maiores ou iguais a 72 e menores do que 86 e seis alunos com notas maiores ou iguais a 86 e menores ou iguais a 100 Figura 7 Histograma Fonte o autor Neste tipo de gráfico podemos verificar a proporção dentre as disciplinas que os alunos escolheram como preferidas Fica nítida a preferência pela disciplina Zoologia I seguida da disciplina Biologia Celular e Mo lecular sendo a menos preferida a disciplina Anatomia Humana para esta turma mencionada no exemplo e Histograma é a representação gráfica de uma distribuição de frequências pode ser construído a partir de uma distribuição de frequências sem intervalo de classes ou com intervalo de classes Aqui cada retângulo justaposto representa uma classe Figura 7 Na Figura 7 que representa um histograma para interpretação você deve olhar as notas bem como a quantidade de alunos observe que no primeiro retângulo temos cinco alunos com notas maiores ou iguais a 30 e menores do que 44 e assim sucessivamente Você pode também construir todos os seus gráficos em suas pesquisas com o auxílio do Microsoft Excel basta inserir todos os dados selecionar e escolher o modelo que melhor represente os dados com que está trabalhando Dessa maneira fica a critério do pesquisador a utilização de tabelas e gráficos para apresentar os resultados de uma pesquisa podendo seu uso ser intercalado UNICESUMAR UNIDADE 3 85 Você sabia que como futuro da saúde faz parte do exercício de cidadania e profissional a consulta de dados básicos para articulação conscientização e tomada de decisão Para tanto uma sugestão seria iniciarmos consultando a sinopse Estatística da Educação Básica Esta sinopse tratase de dados relacionados à matrícula de acadêmicos ao estabelecimento às regiões ao rendimento escolar para as diferentes modalidades de ensino brasileiras Ensino Regular Educação Infantil e Ensino Fundamental e Médio Educação Especial e Educação de Jovens e Adultos Você pode consultar os dados dessa sinopse que serão apresentados detalhadamente por cidade estado e região e trabalhar com eles os apresentando em tabelas mais reduzidas Esses dados podem ser consultados no Qr Code a seguir Você percebeu o quanto a construção de tabelas e gráficos pode ser significativa e aplicada na sua profissão Existem muitas possibilidades Você pode trabalhar com pesquisa e apresentar os resultados em tabelas e gráficos com dados disponíveis no próprio INEP sobre a Educação Básica ou até mesmo coletar dados de seus alunos e pacientes construir tabelas e gráficos para entender o comportamento de sua turma em alguns quesitos dê preferência por disciplinas notas frequências evasões entre outros Veja que tudo isso está relacionado e que a Bioestatística está presente em sua na vida diária Vimos em nossos estudos como as técnicas de estatística são fundamentais para tomada de de cisões e que para organizar uma tabela precisamos seguir algumas normas específicas que foram apresentadas no decorrer dessa unidade Além disso os gráficos também podem ser utilizados para visualizar o resultado de uma pesquisa Assim ao tabular os resultados da pesquisa propostos no início de nosso estudo mais especificamente na experimentação em que colocamos uma situação hipotética que realizará um experimento para saber se as pessoas de um bairro ou membros da família tiveram dengue Aqui na ação após toda coleta de dados a partir de um formulário elaborado por você certa mente terá resultados a serem tabulados É isso mesmo com todas as técnicas estudadas você poderá criar tabelas de frequências colunas complementares para melhorar os resultados obtidos e a partir de então tomar decisões Supondo que suas respostas sejam que dentro de um grupo de dez pessoas oito responderam que já tiveram dengue ou seja 80 dos entrevistados como profissional da área da Saúde o que você pode propor Com base nesse estudo pode propor palestras para sensibilização da população um dia D de combate ao foco de dengue orientar disseminar informações acerca dos cuidados que devemos ter com a dengue Aqui você pode perceber que usamos uma técnica estatística e a partir de então foram feitas ações de melhoria no combate a dengue 86 1 Caroa estudante a utilização de tabelas e gráficos são a forma de apresentar resultados oriundos de uma pesquisa como vimos em nossa unidade existem normas específicas para sua elaboração e confecção A partir desta conceitualização desenvolva um Mapa Mental que aborde os conceitos com que trabalhamos nesta unidade Tabelas e Gráficos Procure colocar as informações pertinentes sobre cada uma das relações apresentadas na área da Saúde Gráfico Colunas Barras Setores Linhas Histograma Tabelas Rol Distribuição de frequências Sem intervalo de classes Com intervalo de classes ABNT IBGE Normas de Tabelas 4 Olá alunoa esta unidade será fundamental para sua aprendiza gem e para sua futura profissão Por meio dela você terá oportuni dade de entender como ocorre a análise dos dados oriundos de uma pesquisa para que possa analisar situações quanto à frequência à incidência às ocorrências entre outras variáveis imprescindíveis para futura atuação profissional Você aprenderá nesta unidade a trabalhar com as medidas de posição separatrizes e variabilidade Medidas de Posição e Dispersão Me Renata Cristina de Souza Chatalovv 88 Para que possamos continuar nossas reflexões vamos nos apropriar dos conceitos e resgataremos os exemplos e a trajetória das unidades anterio res Neste momento de sua leitura você prova velmente deve estar se perguntando agora que já coletei os dados organizei em tabelas qual a próxima etapa O que posso fazer com eles Por que estou aprendendo tudo isso Em que será útil no meu dia a dia Para que possamos problema tizar e refletir compartilharei outra história que foi muito relevante em minha trajetória Vou nos transportar para a primeira vez em que entrei em uma escola como professora da disciplina Esta tística Naquele momento eu tinha várias expec tativas quanto à minha atuação como docente Aquele ambiente inspirava o conhecimento e o meu desejo de ensinar No entanto já em sala de aula quando fiz a primeira explicaçãoapresen tação a respeito do que se tratava a disciplina de cálculo explicitei que também trabalharíamos com a interpretação de dados e informações e notei que isso foi uma surpresa para os estudantes daquela turma Na aula seguinte fiz uma revisão de conteúdos de Matemática Básica como fra ção multiplicação e expressão numérica quando percebi a necessidade de mais aulas relembrando este conteúdo com meus alunos Então para ter um parâmetro de como estava a turma fiz um teste sem valer nota mas para ter um diagnóstico real de como poderia trabalhar Depois que fiz as correções dos testes calculei a média a variância e o desvio padrão daquela turma e entendi que havia muita dispersão ou seja parte da turma necessitava de uma atenção especial em cálculos básicos de matemática outra parte era interme diária e outra parte tinha gabaritado o teste Com essa turma heterogênea era preciso cuidado e atenção e isso me desafiava nesta primeira ex periência como professora Com este relato de minha história desejo que nesta unidade você se atente aos conteúdos que desbravaremos e compreender juntos que tratam de formas de se calcular as medidas de posição e dispersão e sobre como perceber o quanto estas são importantes em nossa tomada de decisões Você percebeu que como professora da dis ciplina Estatística utilizei medidas de dispersão para mensurar o conhecimento prévio da turma em Matemática Básica e com base nos resulta dos fui traçando um planejamento pedagógico pensando na melhor maneira do aprendizado da minha turma Agora que entendemos que a estatística pode nos ajudar a construir elementos para tomada de decisões você também pode se apropriar destes preceitos para a tomada de deci são em sua trajetória profissional e verá que essas medidas ajudarão você a interpretar os resultados de que precisa em um conjunto de dados Portanto peço que faça a leitura do artigo intitulado Medidas de dispersão os valores estão próximos entre si ou variam muito Nesse artigo você terá uma explicação das medidas de dis persão e o que os resultados apresentam entre si Acesse o qrcode UNICESUMAR UNIDADE 4 89 Depois da leitura do artigo anterior vamos pôr a mão na massa Trabalharemos agora com dados coletados em uma turma Sugiro que levante as notas dos seus colegas de turma no primeiro no segundo no terceiro e no quarto módulo Em seguida determine a média para cada alunoa e analise o desempenho de sua turma Construa esta organização e faça esta análise e você já estará utilizando mais uma técnica apresentada pela Bioestatística Caso prefira pode extrapolar este contexto de nosso exemplo para outras áreas da sua vida como com as contas de luz água ou internet ao longo do último ano Sendo assim provoco você a fazer uma autoanálise sobre a sua aprendizagem de tudo que foi ex plicado até agora pois este processo mostrará que estas medidas o ajudarão a interpretar os resultados de que precisa em um conjunto de dados O que você encontrou até aqui Todas estas informações auxiliarão você Diante disso convido você acadêmico a fazer suas anotações em um Diário de Bordo Construa uma tabela à mão com esses dados a fim de anotar suas primeiras impressões até o momento 90 Cada uma dessas medidas envolve fórmulas e aplicações diferentes tornando a Bioestatística ainda mais fascinante As medidas de tendência central só podem ser calculadas para variáveis quantita tivas PARENTI SILVA SILVEIRA 2017 p 116 Média Mediana Moda Neste momento caroa estudante estudaremos as medidas de posição as separatrizes e a dispersão As medidas de tendência central possibilitam representar um conjunto de dados com apenas um número MARTINEZ 2015 As medidas de posição mais utilizadas e as que estudaremos são a média a moda e a mediana Descrição da Imagem a figura apresenta as três medidas de tendência central ou podemos dizer as medidas de posição mais utilizadas média mediana e moda Figura 1 Medidas de tendência central ou medidas de posição Fonte o autor A medida de posição média é a medida de tendência central mais conhecida e mais importante para um conjunto de valores Tenho certeza de que você já a utilizou no seu dia a dia pois é bem simples de ser calculada Para o cálculo da média basta somar todos os valores e em seguida dividir pelo total de elementos A média amostral é representada por um x com uma barra em cima X e a média populacional pela letra grega μ lêse mi Mesmo sendo representadas de maneira diferente a forma de calcular é a mesma UNICESUMAR Para calcularmos a média quando temos dados desagrupados ou seja sem estarem em tabelas podendo ser brutos ou em rol é dada por a Média Populacional μ ΣXi N Em que μ Média Populacional Σ Somatória Xi Valor de cada elemento N Total da População b Média Amostral X ΣXi n Em que X Média Amostral Σ Somatória Xi Valor de cada elemento n Total da Amostra Como você pode observar o cálculo da média é o mesmo tanto para a população quanto para a amostra Aposto que neste momento você está se questionando mas como funciona na prática Sempre que não for mencionado que os dados são populacionais você pode considerar uma amostra e isso acontece porque geralmente o trabalho com amostras tem um custo e um tempo menor do que o trabalho com população Você pode observar que na área da Saúde o uso de amostras é recorrente Para compreender melhor o que eu desejo explicar para você aqui o cálculo da média vejamos um exemplo As idades em anos de oito pessoas que estão apresentadas a seguir 38 40 49 67 33 57 54 e 64 A média amostral denotada por x lêse xis barra é dada por X ΣXi n x1 x2 x3 xn n Assim X 38 40 49 67 33 57 54 64 8 X 402 8 5025 Você pode observar que a média é apresentada na mesma unidade de medida da variável analisada E como interpretamos uma média de 5025 anos Em primeiro lugar tendo a média como uma medida de tendência central podemos afirmar que as idades das oito pessoas de nossa amostra estão em torno de 5025 anos A Figura 2 ajudanos a visualizar a média e os dados apresentados UNICESUMAR Média 50 25 anos Figura 2 Apresentação dos dados e da média Fonte o autor Descrição da Imagem a imagem apresenta uma reta com os valores de dois em dois iniciando em 30 32 34 36 e terminando em 68 a média está representada na reta no valor de 50 25 anos os valores estão apresentados na dispersão e marcados pontos em 3338 40 49 54 57 64 e 67 Dessa forma lembrese de que a média é uma medidaresumo isto é ela visa sintetizar em um único valor todas as nossas observações amostrais Em outras palavras afirmarmos que a idade de 5025 anos é um valor que tem por intuito representar as idades de todas as oito pessoas analisadas No entanto você pode observar que a média é um resumo incompleto de nosso conjunto de dados uma vez que ela não informa o tamanho da dispersão de nossos dados a seu redor Observe que com a média de 50 25 anos temos pessoas com 33 anos com 48 e com 67 Para explicar toda esta dispersão existe o desvio padrão que discutiremos um pouco mais à frente Supondo que agora temos uma amostra composta por oito mulheres e a variável que nos interessa é o número de filhos para isso temos 1 1 1 2 2 3 3 e 4 A variável analisada é de natureza quantitativa discreta A média amostral é X ΣXi n 11122334 8 X 17 8 X 2125 Se o número de filhos é uma variável discreta e não temos casas decimais seria possível ter uma média de 2125 filhos Ainda que a variável estudada não admita casas decimais a sua média pode sim ter ter casas decimais Entretanto neste exemplo apresentado basta uma casa decimal para a média aí podemos utilizar a regra de arredondamento e dizer que as famílias têm em média 21 filhos Também podemos ter interesse em calcular a média em dados qualitativos apresentados em tabelas Vejamos o exemplo na Tabela 1 a seguir Tabela 1 Média das estaturas em cm de 30 adolescentes conforme a classificação de seus pesos Grupo Frequência Fi Média da Estatura cm Portadores de sobrepeso 6 1455 Portadores de obesidade 14 1488 Portadores de peso adequado 10 1493 Fonte o autor Para calcular a média neste caso trabalharemos com a média ponderada dada pela equação X ΣXi fi n Em que X média Xi cada um dos valores ou ponto médio n número total de elementos ou somatória das frequências fi Frequência Temos X ΣXi fi n 61455 141488 101493 30 X 873 208332 1493 30 X 444932 30 X 14831 Em vez de calcular dessa maneira para facilitar você pode dentro da sua tabela criar uma coluna complementar e chamála de xifi colocar os resultados em cada classe da multiplicação da frequência pelo valor da variável e depois somar com o total na Tabela 2 Vejamos a seguir Tabela 2 Média das estaturas em cm de 30 adolescentes conforme a classificação de seus pesos com coluna complementar Grupo Frequência Fi Média da Estatura cm FiXi Portadores de sobrepeso 6 1455 6145 5 873 Portadores de obesidade 14 1488 14148 5 2083 2 Portadores de peso adequado 10 1493 10149 3 1493 Total 30 44492 Fonte o autor Observação No caso da tabela acima a coluna complementar xifi foi apresentada como FiXi devido a coluna Frequência ser apresentada como primeira coluna O que não interfere na resolução do exercício Agora com o resultado da somatória das frequências pela variável utilizamos a mesma equação Veja como fica X barra Σ Xi fi n X barra 444932 30 X barra 14831 Você também poderá encontrar situações no seu cotidiano já atuando como profissional em que você precisará calcular a média de idade de seus pacientes ou ainda calcular médias de seus alunos utilizando os dados quantitativos Vejamos um exemplo hipotético em que analisaremos as notas de uma turma do curso de Biomedicina na Tabela 3 a seguir Tabela 3 Notas de 30 alunos do Curso de Biomedicina Nota Número de alunos 70 8 80 12 90 6 100 4 Total 30 Fonte o autor Para que o professor saiba a média em questão ele realizará uma análise simples multiplicará a nota variável que está sendo estudada pelo número de alunos em seguida dividirá pelo total da turma que neste caso é de 30 alunos Utilizando a equação da média temos X barra Σ Xi fi n X barra 78 812 96 104 30 X barra 56 96 54 40 30 X barra 246 30 X barra 82 Outra opção para calcular como vimos anteriormente é criar a coluna complementar ficando desta forma na Tabela 4 Tabela 4 Notas de 30 alunos do Curso de Biomedicina Nota Número de alunos xifi 70 8 56 80 12 96 90 6 54 100 4 40 Total 30 246 Fonte o autor Resolvendo a média temos X barra Σ Xi fi n X barra 246 30 X barra 82 E se tivermos uma tabela de frequências com intervalo de classes como calculamos a média Utilizaremos a mesma equação mas precisaremos calcular o ponto médio Vejamos um exemplo as notas dos alunos do curso de Biomedicina estão apresentadas na Tabela 5 a seguir Tabela 5 Distribuição de frequências referente às notas de alunos do Curso de Biomedicina com intervalo de classes Notas Número de alunos Fi 30 44 5 44 58 2 58 72 11 72 86 6 86 100 6 Total 30 Fonte o autor Na Tabela 6 temos as notas dos alunos do curso para calcularmos a média A fim de facilitar inseriremos uma coluna complementar determinaremos o ponto médio primeiro utilizando a equação a seguir Xi Li Ls 2 Em que Xi Ponto médio Li Limite inferior do intervalo de classe independente da notação Ls Limite superior do intervalo de classe independente da notação Agora com a coluna complementar na tabela determinaremos o ponto médio de cada classe na Tabela 6 Tabela 6 Distribuição de frequências referente às notas de alunos do Curso de Biomedicina com intervalo de classes Notas Número de alunos Fi Ponto médio xi 30 44 5 30 44 2 37 44 58 2 4 4 58 2 51 58 72 11 5 8 7 2 2 65 72 86 6 7 2 8 6 2 79 86 100 6 8 6 10 0 2 9 3 Total 30 Fonte o autor Agora que temos o ponto médio basta inserir uma coluna complementar xi fi ou no caso abaixo Fi Xi e utilizar a equação da media que já trabalhamos anteriormente Reescrevendo na Tabela 7 temos Tabela 7 Distribuição de frequências referente às notas de alunos do Curso de Biomedicina com intervalo de classes Notas Número de alunos Fi Ponto médio xi FiXi 30 44 5 30 4 4 2 37 537 185 44 58 2 44 58 2 51 251 102 58 72 11 58 72 2 65 1165 715 72 86 6 72 86 2 79 679 474 86 100 6 86 100 2 93 693 558 Total 30 2034 Fonte o autor Determinando a média temos X Xi fi n X 2034 30 X 678 A média da turma é 678 arredondando temos que a média da turma de Biomedicina é de 68 A medida de tendência central mais conhecida e mais utilizada é a média mas não é sempre que ela é a mais apropriada para representar os dados às vezes a mediana é mais adequada para representar um conjunto de dados Isso ocorre sempre que a variabilidade dos dados for alta pois a média é afetada por valores extremos e a mediana não ela apenas leva em consideração os valores centrais Fonte Parenti Silva e Silveira 2017 p 120 98 É importante não confundir moda com maioria A moda é a observação mais frequente mas isso não implica necessariamente que a moda corresponde à maioria das observações E Z Martines Outra medida de posição importante é a moda Você deve ter ouvido falar da expressão música que está na moda roupa que está na moda isso significa que tem muita frequência muitas pessoas ouvindo a mesma música muitas pessoas usando mesmo estilo de roupa Aqui na Bioestatística esse conceito é bem válido Assim para Martinez 2015 a moda é a observação que ocorre com maior frequência no conjunto de dados ou seja o valor que mais se repete Imagine que em uma loja de calçados femininos foram vendidos 20 pares de sapatos em um único dia Os pares tinham estas numerações 34 37 34 36 36 35 36 37 33 36 36 36 36 36 39 36 35 34 36 36 30 25 19 18 18 18 18 18 18 18 19 20 23 25 27 24 22 22 18 18 Em outro exemplo suponha que em uma turma de 1º ano de Nutrição as idades dos 20 alunos em anos completos são UNICESUMAR UNIDADE 4 99 Podemos descrever adequadamente as idades destes alunos dizendo que a idade mais frequente ou moda é 18 anos No entanto em alguns casos a moda pode não ser a medida mais apropriada para caracterizar os dados Como os valores a seguir são os níveis séricos de triglicérides em mgdl em uma amostra de sete pacientes 189 72 109 140 140 140 135 A moda neste exemplo seria 140 mgdl sendo o valor mais frequente Mas será que a moda é a medida de posição que melhor caracteriza esses dados Talvez a média ou a mediana que veremos a seguir sejam mais úteis para esta finalidade Em algumas situações a moda pode não ser única Por exemplo o tempo de aleitamento materno em meses de 8 crianças usuárias de um serviço de saúde 1 2 3 3 4 6 6 Neste exemplo temos dois valores mais frequentes 3 e 6 meses Podemos dizer que se trata de uma série bimodal ou seja dois valores de moda Novamente a média ou a mediana podem ser mais úteis para descrever os dados desse exemplo Podemos não ter moda em um conjunto de dados caso nenhum número se repita mais vezes do que outro Quando isso acontece chamamos a dis tribuição de amodal Se tivermos mais do que duas modas teremos uma distribuição multimodal PARENTI SILVA SILVEIRA 2017 Em alguns casos podemos ter interesse em saber a moda mas os dados estão apresentados em tabela como fazer Bem simples basta olharmos os dados e a coluna frequência assim vamos encontrar a classe modal para então sabermos a moda Observe os dados a seguir na Tabela 8 Tabela 8 Notas de alunos do Curso de Nutrição Fonte o autor Nota Número de alunos 70 8 80 12 90 6 100 4 Total 30 Classe modal Para determinar a moda em tabelas primeiramente procuraremos a classe modal Para isso basta observar na coluna que tem a maior frequência Em nosso exemplo a segunda classe tem doze alunos que corresponde ao valor que aparece com mais frequência portanto esta é a classe modal Em tabelas de frequências também podemos ter mais do que uma moda Analise a seguir na Tabela 9 Determine a moda Para calcular a moda procuraremos na tabela na coluna frequências a maior frequência para indicar a classe modal Podemos observar que a moda está na terceira classe da tabela mas qual a moda Determinaremos a seguir Mo Li hFi Fi1 Fi Fi1 Fi Fi1 Mo 58 1411 2 11 2 11 6 Mo 58 149 9 5 Mo 58 126 14 Mo 58 09 Mo 67 Encontramos que a nota que representa a moda é igual a 67 mas os dados não foram dados em rol com esta equação encontramos o valor mais aproximado observem que este valor está dentro dos valores estabelecidos nos limites inferiores e superiores Para Parenti Silva e Silveira 2017 a mediana é definida como sendo o valor central da distribuição dos dados ordenados e este divide a distribuição ao meio sendo que metade dos valores será menor ou igual à mediana e a outra metade será maior ou igual à mediana Até o momento quando calculávamos a média e a moda fazíamos diretamente sem ter que colocar os dados em rol mas para calcular a mediana obrigatoriamente devemos colocar os dados em rol Supondo que temos as idades de cinco alunos do curso de Nutrição que são dadas a seguir 25 22 18 23 24 Encontre a mediana entre as idades dos alunos Sabemos que a mediana divide o conjunto de dados em duas partes iguais não seria correto fazer simplesmente assim 25 22 18 23 24 Mediana Dessa forma está errado pois a idade de 18 anos não é o que divide o conjunto de dados em rol pois na mediana estes dados devem ser ordenados portanto 18 22 23 24 25 Mediana Agora temos a mediana que é igual à idade de 23 anos Vejamos outro exemplo idades em anos de sete pessoas estão apresentadas a seguir 38 40 49 67 33 57 54 Primeiro passo colocar os dados em rol 33 38 40 49 54 57 67 Encontrando a mediana temos 33 38 40 49 54 57 67 Mediana igual a 49 Agora representaremos na Figura 3 para que você consiga analisar os valores antes e depois da mediana UNICESUMAR Tabela 9 Notas de alunos do Curso de Nutrição Nota Número de alunos 70 4 80 10 90 6 100 10 Total 30 Fonte o autor Neste caso as notas que aparecem com maior frequência são 8 e 10 temos uma série bimodal ou seja com duas modas E quando temos dados em tabelas de frequências com intervalo de classes como fica Primeiro passo é localizar a classe modal ou seja a classe que tem a maior frequência e em seguida utilizar a equação a seguir Mo Li hFi Fi1 Fi Fi1 Fi Fi1 Em que Mo Moda Li Limite da classe inferior na classe modal h Amplitude do intervalo distância entre Li e Ls Fi Frequência da classe Fi1 Frequência da classe anterior Fi1 Frequência da classe posterior Para entender melhor vejamos o exemplo na Tabela 10 Tabela 10 Distribuição de frequências referente às notas de alunos do Curso de Nutrição com intervalo de classes Notas Número de alunos Fi 30 44 5 44 58 2 58 72 11 72 86 6 86 100 6 Total 30 Fonte o autor Classe modal Classe modal Mediana 49 Figura 3 Representação na mediana Fonte o autor Descrição da Imagem a figura apresenta uma representação da mediana onde se encontra uma reta com os valores de dois em dois iniciando em 30 32 34 36 e terminando em 68 a mediana está representada no valor de 49 os valores estão apresentados na dispersão e marcados pontos em 33 38 40 49 54 57 64 e 67 Se substituirmos a maior idade de 67 para 75 anos o que aconteceria com a mediana Seu valor se modificaria O número do meio continuaria sendo 49 anos Esta é uma característica importante da mediana ela não é sensível a valores atípicos de nosso conjunto de dados e entendemos por valor atípico um número bastante grande ou pequeno em relação aos demais No cálculo da mediana temos duas situações quando temos o conjunto de dados com números pares e ímpares Quando tivermos um número ímpar de elementos a mediana será exatamente o valor central Também pode ser calculado pela equação a seguir p n 1 2 Em que p posição do elemento que está à mediana n número de elementos Por exemplo Notas de sete alunos do curso de Nutrição 70 60 50 55 90 80 90 Colocando os dados em rol 50 55 60 70 80 90 90 Utilizando a equação temos p n 1 2 p 7 1 2 p 8 2 p 4 O p encontrado igual a 4 não é a mediana mas sim o valor que ocupa a posição mediana ou seja com os dados em rol a mediana ocupa a 4ª posição 50 55 60 70 80 90 90 1ª 2ª 3ª 4ª 5ª 6ª 7ª Podemos visualizar que a mediana é a nota 70 que ocupa a 4ª posição Quando tivermos um número par de elementos a mediana será uma média simples entre os elementos que ocupam a posição central o valor central Pode ser calculado por p1 n 2 p2 n 2 1 Em que p posição do elemento que está à mediana n número de elementos Por exemplo Notas de oito alunos do curso de Nutrição 70 60 50 55 90 80 90 75 Colocando os dados em rol 50 55 60 70 75 80 90 90 Utilizando a equação temos p1 n 2 p1 8 2 4ª posição p2 n 2 1 p2 8 2 1 5ª posição Temos 50 55 60 70 75 80 90 90 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª Agora tiraremos uma média simples entre o elemento que está na quarta e na quinta posição Md 70 75 2 Md 145 2 Md 725 Muitas vezes podemos ter o interesse em calcular a mediana em dados agrupados em tabelas para isso precisaremos que nossa Tabela 11 tenha a coluna frequência acumulada FAC Tabela 11 Notas de 30 alunos do Curso de Nutrição Nota Número de alunos FAC 70 8 8 80 12 20 90 6 26 100 4 30 Total 30 Fonte o autor Para encontrar a mediana como os dados já se encontram agrupados em uma tabela de frequências por meio da coluna frequência acumulada vamos localizar o elemento que ocupa a posição mediana como nosso conjunto de dados é par temos p1 n 2 p2 n 2 1 p1 30 2 15ª posição p2 30 2 1 16ª posição Agora com na coluna FAC vamos localizar os elementos que ocupam a 15ª e a 16ª posição Veja na tabela 12 a seguir Tabela 12 Notas de 30 alunos do Curso de Nutrição Nota Número de alunos FAC 70 8 8 Classe Mediana 80 12 20 90 6 26 100 4 30 Total 30 Fonte o autor Para este caso o elemento que ocupa a 15ª e 16ª posição está na segunda classe é a nota 80 portanto a nota mediana desta turma é 80 E se tivesse uma nota em uma classe e outra na classe posterior Simples bastaria tirar a média simples entre as duas notas Também podemos ter interesse em calcular a mediana em uma distribuição de frequências com intervalo de classes Para determinar a mediana utilizamos a seguinte equação Md Li hn2 Fac1 Fi Em que Md Mediana Li Limite da classe inferior na classe mediana h Amplitude do intervalo distância entre Li e Ls n número de elementos Fi Frequência da classe Fac1 Frequência acumulada da classe anterior Agora entenderá como calcular a mediana em dados agrupados em uma distribuição de frequências com intervalo de classes Observe na Tabela 13 a seguir Tabela 13 Distribuição de frequências referente às notas de alunos do Curso de Nutrição com intervalo de classes Nota Número de alunos Fi FAC 30 44 5 5 44 58 2 7 58 72 11 18 72 86 6 24 86 100 6 30 Total 30 Fonte o autor Para resolvermos temos primeiro que encontrar a posição mediana na coluna FAC Como nosso conjunto de dados é par temos p1 n2 p1 302 15ª posição p2 n2 1 p2 302 1 16ª posição Podemos observar na tabela que os dados estão na 3ª classe Trabalharemos com estes dados e substituiremos na equação da mediana Md Li hn2 Fac1 Fi Md 58 14302 72 Md 58 1415 711 Md 58 14811 Md 58 11211 Md 58 102 Md 682 Temos que a nota mediana da turma é igual a 68 Compilaremos tudo que aprendemos em uma aplicação Em uma maternidade a enfermeira está anotando os pesos dos recémnascidos na manhã de um domingo quando cinco bebês nasceram Os dados são em kg 3850 4210 3950 4300 3850 Vamos calcular as medidas de tendência central para estes dados a Média X Σ Xi n X 3850 4210 3950 4300 3850 X 2016 5 X 4032 Em média os bebês daquela manhã de domingo pesavam 4032 kg b Moda valor que mais se repete portanto é 3850 kg Assim O valor mais frequente para o peso dos recémnascidos naquela maternidade é de 3850 kg c Mediana colocar os dados em rol 3850 3850 3950 4210 4300 p n 12 p 5 12 p 6 2 p 3 A mediana será o terceiro elemento do conjunto de dados ordenados Portanto 3950 Assim metade das crianças nascidas na maternidade pesava menos de 3950 kg e a outra metade pesava mais do que 3950 kg A medida de tendência central mais conhecida e mais utilizada é a média mas não é sempre que ela é a mais apropriada para representar os dados às vezes a mediana é mais adequada para representar um conjunto de dados Isso ocorre sempre que a variabilidade dos dados for alta pois a média é afetada por valores extremos e a mediana não ela apenas leva em consideração os valores centrais Fonte Parenti Silva e Silveira 2017 Outras medidas que você pode utilizar são as separatrizes que dividirão as séries em partes iguais e as principais são mediana que já estudamos quartis decis e percentis Os quartis dividem uma série de dados em quatro partes iguais assim temos 1º quartil 2º quartil e 3º quartil CRESPO 2009 Esta representação encontrase na Figura 4 a seguir 108 Assim como pode observar na Figura 5 segundo Crespo 2009 temos os três quartis Descrição da Imagem a figura traz a representação dos quartis onde se encontram Três Quartis De cima para baixo vem o primeiro Quartil Q1 que apresenta 25 dos dados menores e 75 maiores logo abaixo vem o segundo Quartil Q2 onde temos 50 dos dados menores e 50 maiores é a medida que coincide com a mediana e no último e terceiro Quartil Q3 temos 75 dos dados menores e 25 maiores Figura 4 Representação dos quartis Fonte o autor Descrição da Imagem a figu ra apresenta os Três Quartis De cima para baixo vem o pri meiro Quartil Q1 que apre senta 25 dos dados menores e 75 maiores logo abaixo vem o segundo Quartil Q2 onde temos 50 dos dados menores e 50 maiores é a medida que coincide com a mediana e no último e ter ceiro Quartil Q3 temos 75 dos dados menores e 25 maiores Figura 5 Três Quartis Fonte Crespo 2009 Primeiro Quartil Q1 temos 25 dos dados menores e 75 maiores Segundo Quartil Q2 temos 50 dos dados menores e 50 maiores é a medida que coincide com a mediana Terceiro Quartil Q3 temos 75 dos dados menores e 25 maiores Para calcular é bem simples basta organizar a série de dados em rol e utilizar as equações a seguir 1º Quartil Q1 2º Quartil Q2 3º Quartil Q3 Por exemplo calcularemos Q1 Q2 e Q3 para um grupo que tem idades de oito pessoas 38 40 49 67 33 57 54 e 64 UNICESUMAR Primeiro passo colocar os dados em rol 33 38 40 49 54 57 64 67 a 1º Quartil Q1 P 025n1 P 0258 1 P 0259 P 225 Neste caso o Q1 será uma média simples entre 2º e 3º elemento Q1 38 40 2 Q1 78 2 Q1 39 b 2º Quartil Q2 P 050n1 P 0508 1 P 0509 P 45 Neste caso o Q2 será uma média simples entre 4º e 5º elemento Q2 49 54 2 Q1 103 2 Q1 515 c 3º Quartil Q3 P 075n1 P 0758 1 P 0759 P 675 Neste caso o Q3 será uma média simples entre 6º e 7º elemento Q3 57 64 2 Q1 121 2 Q1 605 Outra medida separatriz é o decil Este divide uma série em dez partes iguais CRESPO 2009 As equações para calcular estão apresentadas a seguir 1º Decil D1 P 010n 1 2º Decil Q2 P 020n 1 3º Decil Q3 P 030n 1 4º Decil Q4 P 040n 1 5º Decil Q5 P 050n 1 6º Decil Q6 P 060n 1 7º Decil Q7 P 070n 1 8º Decil Q8 P 080n 1 9º Decil Q9 P 090n 1 Por exemplo calcular D3 e D4 e para um grupo que tem idades de oito pessoas 38 40 49 67 33 57 54 e 64 Primeiro passo colocar os dados em rol 33 38 40 49 54 57 64 67 3º Decil D3 P 030n 1 P 030n 1 P 0308 1 P 0309 P 27 O 3º decil será o elemento que ocupa a posição 27 arredondando para 3º assim nosso terceiro decil é igual a 40 4º Quartil Q4 P 040n 1 P 0408 1 P 0409 P 36 112 Não podemos interpretar as medidas de tendência central isoladamente Para verificar se as medidas de variabilidade representam bem os dados precisamos calcular e analisar as medidas de variabilidade E Z Martinez Além das medidas separatrizes temos as medidas de dispersão que são importantes no processo decisório Com as medidas de dispersão e variabilidade é possível entender a homogeneidade ou a heterogeneidade dos dados PARENTI SILVA SILVEIRA 2017 As medidas de dispersão são avaliadas em conjunto com as medidas de tendência central Com as medidas de dispersão podemos analisar como os dados estão se comportando em torno da média da moda e da mediana É importante salientar que apesar de dois conjuntos de dados terem a mesma média eles podem não ter o mesmo compor tamento e a mesma variabilidade para isso é importante analisar os dados e fazer estas comparações para entender o comportamento dos dados Vejamos outro exemplo Seja a estatura em cm observada em duas amostras de adolescentes saudáveis denotaremos essas amostras por A e B As estaturas dos adolescentes da amostra A são 149 156 157 158 159 160 161 164 Ao calcular a média da amostra A e B ambas são 158 cm As medianas de ambas as amostras A e B são iguais a 1585 Assim as amostras A e B possuem médias e medianas idênticas Mas o fato de as amostras A e B possuírem medidas de posição iguais média e mediana permitenos afirmar que adolescentes das amostras A e B são semelhantes em relação à estatura Vejamos a Figura 6 que apre senta o grupo A e B UNICESUMAR O 4º decil será o elemento que ocupa a posição 36 arredondando para 4º assim nosso quarto decil é igual a 49 Como percentil temos como definição os noventa e nove valores que separarão uma série de dados em cem partes iguais CRESPO 2009 Pode ser calculado por meio das equações a seguir 5º Percentil P5 P 005n 1 25º Percentil P25 P 025n 1 50º Percentil P50 P 050n 1 75º Percentil P75 P 075n 1 90º Percentil P90 P 090n 1 Por exemplo calcular P50 e P75 e para um grupo que tem idades de oito pessoas 38 40 49 67 33 57 54 e 64 Primeiro passo colocar os dados em rol 33 38 40 49 54 57 64 67 50º Percentil P50 P 050n 1 P 0508 1 P 0509 P 45 Portanto o P50 é igual ao elemento que está na 45ª posição portanto uma média simples entre 49 e 54 49 54 2 103 2 51 5 75º Percentil P75 P 075n 1 P 075n 1 P 0758 1 P 0759 P 675 Portanto o P75 é igual ao elemento que está na 675ª posição portanto uma média simples entre 57 e 64 57 64 2 121 2 60 5 Por exemplo temos oito pessoas cujas idades são apresentadas a seguir 38 40 49 67 33 57 54 e 64 A pessoa mais velha tem 64 anos e a mais nova 33 anos A amplitude amostral é portanto AT Xmáx Xmín AT 64 33 AT 31 Podemos interpretar a AT como sendo a maior diferença que é possível encontrar entre duas quaisquer observações de nossa amostra MARTINEZ 2015 Assim a AT deve ser utilizada com certa cautela para descrever a amplitude de nossos dados dado que ela é fortemente influenciada por valores atípicos sendo não recomendado seu uso sozinha para interpretação de variabilidade dos dados Outra medida de dispersão é a variância calculada com todos os dados da série e comparada cada um deles com a média A variância mede a distância de cada um dos valores em relação à média MARTINEZ 2015 Por uma questão matemática precisamos elevar ao quadrado cada uma dessas distâncias para podermos eliminar o sinal Depois disso fazemos a média dos quadrados destas diferenças Lembrese de que não teremos variância negativa certo Caso a variância esteja sendo calculada para os dados de uma população representaremos este valor pela letra grega sigma ao quadrado σ² Em vez de dividirmos por n1 dividimos o somatório por N sendo que n é o número de elementos da amostra e N é o número de elementos da população A variância populacional e amostral é calculada por a Variância Populacional σ² Xi μ² N Em que σ² Variância Populacional Xi Cada valorelemento μ média populacional N Número de elementos Somatória b Variância Amostral S² Xi X² n 1 Em que S² Variância Amostral Xi Cada valorelemento X média amostral n 1 Número de elementos menos 1 Somatória Como você pode observar a única diferença na prática do cálculo da variância populacional e amostral é que na variância amostral tiraremos um elemento na hora de fazer a divisão É válido lembrar que na maioria das situações utilizamos amostras por questão de custo da forma de coletar entre outros Entenderá na prática Temos oito pessoas cujas idades são apresentadas a seguir 38 40 49 67 33 57 54 e 64 Determinaremos a variância amostral Lembrando que precisaremos da média para calcular a variância a A média amostral X Xi n X 38 40 49 67 33 57 54 64 8 X 402 8 5025 Agora que relembramos a média calcularemos a variância amostral substituindo os valores na equação S² Xi X² n 1 S² 38 5025² 40 5025² 49 5025² 67 5025² 33 5025² 57 5025² 54 5025² 64 5025² 8 1 S² 1225² 1025² 125² 1675² 1725² 675² 375² 1375² 7 S² 15006 10506 156 28056 29756 4556 1406 18906 7 S² 108348 7 S² 15478 Figura 6 Grupo A e B Fonte o autor Descrição da Imagem a figura faz a representação do Grupo A e B Nestas duas imagens apresentase o grupo A com valores distribuídos na reta em 149 156 157 158 159 160 161 164 e a média representando 158 no grupo A a figura apresenta os pontos dados mais próximos da média já o grupo B com valores distribuídos na reta em 132 138 152 157 160 171 176 178 no grupo B a figura traz os pontos mais distantes ou seja mais dispersos da média que é igual a 158 Na Figura 6 podemos observar as dispersões destas observações Percebemos que embora as medidas de locação sejam iguais as amostras têm diferença quanto à dispersão dos dados Na amostra A as observações possuem uma dispersão menor em relação à média de 158 cm já na amostra B as observações encontramse mais dispersas em relação a mesma média amostral Se dissermos somente que a média das estaturas é de 158 cm estaremos dizendo que nossas observações amostrais flutuam em torno de 158 cm mas não temos informação do tamanho da dispersão dos dados em relação a essa média Com isso podemos evidenciar que as medidas de posição média moda e mediana muitas vezes dão um resumo incompleto do comportamento de nossos dados uma vez que elas não nos dizem nada a respeito da dispersão dos dados Assim tornase tão importante a apresentação de medidas de variabilidade dos dados Vamos conhecer estas medidas de dispersão Iniciamos pela Amplitude total de acordo com Martinez 2015 a amplitude é dada pela distância entre o maior valor do conjunto de dados pelo menor valor do conjunto de dados Assim a amplitude total só leva em consideração os extremos não chega a comparar os valores da distribuição com a média destes dados É calculada pela equação a seguir AT Xmáx Xmín Em que AT Amplitude total Xmáx Maior valor do conjunto de dados Xmín Menor valor do conjunto de dados Como você pode observar a variância calcula a soma dos quadrados das distâncias em relação à média Como elevamos todos os termos ao quadrado a nossa unidade de medida também fica alterada Se por exemplo estivermos calculando a variância da altura de alunos do curso de Ciências Biológicas e a medida está em cm todos os elementos determinados estarão em cm2 Sendo assim nós não podemos comparar a variância diretamente com a média ou com outras medidas pois precisaremos extrair a raiz da variância e a isso denominamos desvio padrão Como desvio padrão é a raiz quadrada da variância calculamos pela equação a seguir a Desvio padrão populacional σ σ² Em que σ desvio padrão Populacional σ² variância populacional b Desvio padrão amostral S S² Em que S desvio padrão amostral S² variância amostral Determinando o desvio padrão do exercício anterior temos S S² S 15478 S 1244 A variabilidade entre as idades do grupo analisado é de 1244 anos Se quisermos comparar a variabilidade de duas ou mais amostras ou populações para Parenti Silva e Silveira 2017 podemos fazer esta comparação somente com o uso do desvio padrão Mas podemos comparar utilizando o coeficiente de variação que nos dará em percentual a variabilidade dos dados determinado por a Coeficiente de variação populacional CV σ μ100 Em que CV Coeficiente de variação σ desvio padrão populacional μ média populacional b Coeficiente de variação amostral CV S X100 CV Coeficiente de variação S desvio padrão amostral X média amostral Determinando o CV amostral do exercício anterior temos CV S X100 CV 1244 5025100 CV 02475100 CV 2475 Quando utilizado o coeficiente de variação sempre que quisermos descobrir qual grupo de dados é mais homogêneo ou seja que tem menor variabilidade em torno da média optaremos pelo grupo que tiver o menor percentual do coeficiente de variação pois se o CV for muito elevado pode ser que a média não seja melhor medida para representar os dados devido à variabilidade em torno dela MARTINEZ 2015 Supondo que no curso de Ciências Biológicas a média da turma A na disciplina de Bioestatística é 65 e o desvio padrão 12 e na turma B a média é de 68 e o desvio padrão é de 20 qual das duas turmas tem menor variabilidade dos dados Determine por meio do Coeficiente de variação Para resolução basta observar que já temos a média calculada e o desvio padrão também é simplesmente calcularmos o CV Para turma A temos CV S X100 CV 12 65100 CV 01846100 CV 1846 Já para turma B temos CV S X100 CV 20 68100 CV 02941100 CV 2941 Portanto a turma que tem uma variabilidade menor é a turma A em que o CV foi de 1846 118 OLHAR CONCEITUAL Observe um resumo dos cinco passos para o Cálculo do Coeficiente de Variação Seguindo este passo a passo temos o exemplo na Figura 7 Figura 7 Passos para cálculo do coeficiente de variação Fonte o autor Descrição da Imagem na figura apresentamse os cinco passos para cálculo do coeficiente de variação Apresentamos uma sequência desses passos No primeiro passo temos o cálculo da média no segundo passo a determinação do cálculo da variância o terceiro passo o cálculo do desvio padrão no quarto passo temos o cálculo do coeficiente de variação e no quinto passo interpretamos o resultado conjunto de dados homogêneos ou heterogêneos 1 Calcular a média 2 Determinar a variância 3 Calcular desvio padrão 4 Calcular coefciente de variação 5 Interpretar conjunto de dados homogêneos ou heterogêneos UNICESUMAR Também podemos ter interesse em calcular variância desvio padrão em dados que aparecem em tabelas de frequências Vejamos a seguir a Cálculo das medidas de variabilidade em tabelas de frequências sem intervalo de classes as notas de 30 alunos do curso de Ciências Biológicas estão apresentadas na distribuição de frequências a seguir Tabela 14 Notas de 30 alunos do Curso de Ciências Biológicas Nota Número de alunos 70 8 80 12 90 6 100 4 Total 30 Fonte o autor O primeiro passo é sabermos a média antes de calcular a variância amostral para isso temos X Σ Xi fi n X 78 812 96 104 30 X 56 96 54 40 30 X 246 30 X 82 Agora que já sabemos a média utilizaremos a equação a seguir S² Σ Xi X² fi n 1 Em que S² Variância Amostral Xi Cada valorelemento X média amostral n 1 Número de elementos menos 1 Σ Somatória Fi frequência Para facilitar nosso cálculo abriremos uma coluna a mais em nossa distribuição de frequência e inseriremos o numerador da equação da variância conforme Tabela 15 Tabela 15 Notas de 30 alunos do Curso de Ciências Biológicas Nota Número de alunos Xᵢ X²fi 70 8 70 82² 8 1152 80 12 80 82² 12 048 90 6 90 82² 6 384 100 4 100 82² 4 1296 Total 30 283 Fonte o autor Com os dados da somatória de Xi X2 fi substituiremos na equação S² Xᵢ X²fin1 Agora que temos o resultado e substituindo o valor 283 encontrado na tabela por meio da coluna Xi X2fi temos S² 283301 S² 28329 S² 09759 Com o resultado da variância conseguimos calcular o desvio padrão S S² S 09759 S 09878 Podemos calcular o coeficiente de variação CV SX 100 CV 0987882 100 CV 01205 100 CV 1205 b Cálculo das medidas de variabilidade em tabelas de frequências com intervalo de classes As notas dos alunos de uma turma de Ciências Biológicas estão apresentadas na tabela a seguir Determine o CV Tabela 16 Distribuição de frequências referente às notas de alunos do Curso de Ciências Biológicas com intervalo de classes Notas Número de alunos Fi Ponto médio xi 30 44 5 30 44 2 37 44 58 2 44 58 2 51 58 72 11 58 72 2 65 72 86 6 72 86 2 79 86 100 6 86 100 2 93 Total 30 Fonte o autor Para isso calcularemos na sequência 1 Média amostral 2 Variância amostral 3 Desvio padrão amoral 4 Coeficiente de variação Iniciaremos calculando a variância amostral Assim para o seu cálculo a equação utilizada para tabelas sem ou com intervalo de classes é a mesma que acabamos de ver A única diferença na prática é que em uma distribuição de frequências com intervalo de classes nosso Xi será o ponto médio e não simplesmente a variável estudada Lembrese de que o ponto médio é fundamental para se calcular a média desse tipo de distribuição de frequência Calculando a média amostral temos Tabela 17 Distribuição de frequências referente às notas de alunos do Curso de Ciências Biológicas com intervalo de classes Notas Número de alunos Fi Ponto médio xi FiXi 30 44 5 30 44 2 37 537 185 44 58 2 44 58 2 51 251 102 58 72 11 58 72 2 65 1165 715 72 86 6 72 86 2 79 679 474 86 100 6 86 100 2 93 693 558 Total 30 2034 Fonte o autor Determinando a média temos X Xᵢfi n X 2034 30 X 678 Arredondando temos que a média da turma de Ciências Biológicas é de 68 Com o resultado da média vamos reescrever a tabela para determinar a variância amostral para utilizar a equação a seguir S² Xᵢ X²fi n1 Com a tabela ajustada temos Tabela 18 Distribuição de frequências referente às notas de alunos do curso de Ciências Biológicas com intervalo de classes Notas Número de alunos Fi Ponto médio xi Xi X²fi 30 44 5 37 37 68²5 4805 44 58 2 51 51 68²2 578 58 72 11 65 65 68²11 099 72 86 6 79 79 68²6 726 86 100 6 93 93 68²6 375 Total 30 9958 Fonte o autor Agora que calculamos a variância na tabela é só substituir na equação S² ΣXi X²fi n 1 Substituindo na equação pelos valores encontrados na Tabela 18 temos S² 9958 30 1 S² 9958 29 S² 3434 Logo após determinaremos o desvio padrão S S² S 3434 S 586 Agora com o desvio padrão podemos calcular o CV CV S X 100 CV 586 68 100 CV 08671 100 CV 8671 124 Você sabia que um profissional da Saúde também pode ser um pesqui sador Pode pesquisar na área de meio ambiente saúde laboratorial e é vasto o campo para esse profissional Nossa Roda de Conversa trará como as medidas de posição e dispersão podem ajudar na interpreta ção de resultados em uma pesquisa Assista e replique em sala de aula Vamos lá No caso desta turma com um coeficiente de variação de 8671 podemos concluir que há uma dis persão muito grande das notas e que a média pode não ser a medida ideal para interpretar estes dados Mas quando olhamos para os dados com mais cautela temos alunos que tiraram 30 40 50 10 E o que isso quer dizer Como conclusão temos que essa turma apresenta uma grande dispersão no quesito nota porque o resultado encontrado de 8671 é superior a 50 Isso quer dizer que existem alunos que estão indo bem na disciplina mas também existem alunos que não estão aprendendo Assim podemos refletir com tanta dispersão o que posso melhorar para que todos tenham um aprendizado As medidas de dispersão podem ajudar neste caminho Agora que temos os dados em mãos podemos trabalhar para melhorar a maneira de ensinar nesta turma Caroa estudante finalizamos esta unidade com preendendo o processo pelo qual as medidas de posição as separatrizes e a dispersão podem ajudar a trabalhar melhor com os dados e auxiliar no pro cesso decisório Como profissionais da saúde temos que ter a consciência da importância da Bioestatís tica pois como vimos ela traz a preocupação de entender como os dados podem trazer indicativos para um professor em sala de aula A partir das medidas de posição você conseguirá trabalhar com seus dados entendendo o comporta mento dos mesmos e com as medidas de dispersão como você percebeu conseguimos entender se a mé dia é representativa ou não para o conjunto de da dos Dentro da Bioestatística você poderá observar os resultados de sua pesquisa sendo uma ferramenta essencial para a tomada de decisões e que estará presente no seu futuro profissional UNICESUMAR 125 1 Um profissional da área da saúde que atua em um laboratório fará uma compra de um com ponente específico de para uma análise laboratorial para isso fez uma pesquisa com dois fornecedores diferentes Para comparar o nível de impurezas presentes nas compras feitas aos dois fornecedores o profissional solicitou a medição de porcentagem de impurezas presentes em cada um dos grupos obtendo o que segue resultado Fornecedor A 18 25 15 12 10 Fornecedor B 16 25 12 23 15 Para saber qual dos fornecedores traz mais impurezas o profissional utilizou uma medida que estudou na disciplina de Bioestatística o coeficiente de variação Os resultados do CV foram 37 para o fornecedor A e 30 para o fornecedor B Mediante os resultados obtidos analise as afirmativas a seguir I O fornecedor A apresenta uma maior dispersão por isso terá a preferência de compra pelo profissional II O fornecedor B apresenta uma menor dispersão de impureza por isso é mais uniforme às impurezas III Por meio do coeficiente de variação conseguimos medir qual dos fornecedores traz uma menor impureza e isso pode influenciar na aquisição do material É correto o que se afirma em a I apenas b I e II apenas c I e III apenas d II e III apenas e I II e III 126 Considerando esta informação a mediana é igual a a 12 b 32 c 49 d 55 e 67 3 Um Biólogo fez pesquisa em site de uma revista e perguntou sobre as áreas da biologia de que os profissionais mais gostavam Os participantes eram internautas e responderam vo luntariamente a pergunta As respostas estão apresentadas na Tabela a seguir Áreas Número de respostas Educação Ambiental 24 Anatomia 23 Botânica 10 Fisiologia 7 Bioquímica 36 Total 100 Tabela 2 Áreas da Biologia Fonte o autor Tempo dias Nº de análises Fi Fac 4 6 20 20 6 8 3 23 8 10 7 30 Total 30 Tabela 1 Duração de análises de água Fonte o autor 2 A tabela a seguir apresenta o tempo de duração em dias para se realizar análises de água Os laboratórios estão credenciados em uma cidade no estado do Paraná 127 Com base nesta pesquisa a área da Biologia que representa a moda é a Educação Ambiental b Anatomia c Botânica d Fisiologia e Bioquímica Notas Frequência Fi 4 1 5 1 6 3 8 12 9 3 Total 20 Tabela 3 Nota dos 20 estudantes na disciplina de Estatística Fonte o autor 4 As notas obtidas por 20 alunos do curso de Ciências Biológicas na disciplina de Bioestatística estão apresentadas na Tabela a seguir Diante destas informações a média dessa turma foi igual a a 59 b 67 c 75 d 79 e 83 128 Grau de satisfação dos moradores Frequência Fi Muito insatisfeito 12 Insatisfeito 45 Satisfeito 173 Bastante Satisfeito 170 Total 400 Tabela 4 Satisfação dos moradores junto ao projeto Fonte o autor A classe modal da pesquisa de moradores consiste na a Primeira classe b Segunda classe c Terceira classe d Quarta classe e O conjunto de dados é amodal 5 Depois de realizar as coletas de dados as ações preventivas foram feitas e para finalizar seu relatório o professor fez uma pesquisa com 400 moradores de um bairro com o objetivo de saber o grau de satisfação dos moradores com o resultado do trabalho dele e de seus alunos Os resultados estão apresentados na tabela a seguir 5 Olá alunoa esta unidade é bem importante para nossa disciplina de Bioestatística as probabilidades Por meio dela você terá opor tunidade de entender como as probabilidades podem ajudar em ex perimentos em resultados e em possíveis situações que envolvam as incertezas Aprenderá também a trabalhar com conceitos de probabilidades suas propriedades as distribuições de probabili dades discretas e as contínuas Probabilidades Me Renata Cristina de Souza Chatalovv 130 Ao iniciar a leitura deste material você pode já se perguntar por que estudar probabilidades Relembrarei experimentos simples como o lançamento de dados Quando se estuda epi demiologia como se faz todas aquelas proje ções Sem contar os possíveis cenários frente à eficácia de vacinas contra o Corona vírus Esse cenário incerto tem a ver com a teoria das probabilidades A teoria das probabilidades ajudará você a entender o comportamento de fenômenos como trabalhar com experimentos e como identificar uma variável aleatória bem como entender teoricamente como funcionam as distribuições de probabilidades E quando você estudar as situações problemas verá que faz parte do seu dia a dia Assim convido você a fazer a leitura do artigo intitulado Probabilidade de queimadas e incêndios florestais nas áreas protegidas da América do Sul ANDERSON et al 2020 Esse artigo traz um relatório que identifica áreas prioritárias com alta probabilidade de ameaça de queimadas e incêndios florestais durante o período de agosto a outubro de 2020 a fim de apoiar as tomadas de decisão e as estratégias de planejamento para mitigar o risco e os impactos destes eventos que podem influenciar a área da saúde da população ao entorno Acesse o qrcode UNICESUMAR UNIDADE 5 131 Depois da leitura e do entendimento do artigo faça um levantamento mais aprofundado de repor tagens e artigos que tragam situações envolvendo probabilidades estudos epidemiológicos Faça um compilado e comece a identificar que as probabilidades ajudarão na interpretação e nos entendimentos em eventos envolvendo incertezas Diante disso convido você acadêmico da área da saúde a fazer suas anotações no Diário de Bordo escreva os resultados de sua pesquisa anote suas primeiras impressões até o momento Este espaço é seu 132 Várias situações do nosso dia a dia são determina das pelo acaso em que podemos configurar situa ções que podem ser acontecimentos qualificados como sorte ou azar Supondo que você tem uma prova de Bioestatística marcada para amanhã você estudou e está preparado Então chega para fazer a prova e se depara com duas situações a prova acontecerá normalmente situação favo rável ou a prova não acontecerá por um moti vo qualquer situação não favorável Neste caso duas características são comuns a essas situações mencionadas Primeira qualquer uma delas pode acon tecer ou não assim não pode ser previsto com certeza Segunda pode acontecer certo número de vezes ou seja pode acontecer um número x de vezes ao longo do tempo Dessa maneira situações de incerteza as quais embora não se saiba o que efetivamente ocor rerá podese listar quais são os resultados possí veis por exemplo o nascimento de um bebê ele pode ser um menino ou uma menina Também temos uma ideia razoável da frequência repeti ção com que cada resultado acontece ou seja os nascimentos do sexo masculino e feminino são quase igualmente frequentes na espécie humana MARTINEZ 2015 Essas situações são chama das de ensaio probabilístico ou ensaio aleatório Assim quando fazemos um experimento reali zamos sob determinada condição com o objetivo de analisar os resultados Os experimentos podem ser classificados em UNICESUMAR UNIDADE 5 133 Experimentos determinísticos tratase de experimentos que quando são repeti dos sob as mesmas condições trazem os mesmos resultados CRESPO 2009 Por exemplo ao misturar água e óleo a água fi cará embaixo e o óleo em cima Figura 1 Descrição da Imagem a figura apresenta um copo de vidro com água na parte inferior e óleo na parte superior em que água e óleo não se misturam Descrição da Imagem a figura apresenta cinco dados para representar o experimento não determinístico O primeiro dado está com a face seis para cima o segundo com a face quatro o terceiro inclinado em que conseguimos ver as faces um e dois o quarto dado com a face dois para cima e o que está ainda sob a mão com a face seis para cima Figura 1 Água e óleo Figura 2 Dados Experimentos não determinísticos ou aleatórios tratase de experimentos que podem trazer resultados diferentes quando fazemos as mesmas repetições CRESPO 2009 por exemplo lançando um dado para cima ao cair sob a superfície os resul tados possíveis serão 1 2 3 4 5 ou 6 mas só sabemos os resultados após lançarmos o dado e visualizarmos qual número apa receu Figura 2 Como você pode observar no experimento determinístico temos o mesmo resultado nas condições na qual ele é realizado Enquanto nos experimentos não determinísticos ou aleatórios temos a incerteza dos resultados Assim a teoria das probabilidades é voltada ao estudo desses experimentos Para entendermos o cálculo das probabilidades precisamos conhecer algumas definições importantes a saber 134 a Espaço amostral referese a todos os resultados possíveis de um experimento é representado por Ω Por exemplo lançamento de uma moeda o espaço amostral é dado por Ω cara coroa Isto é igual a dois possíveis resultados Enquanto o exemplo lançamento de um dado o espaço amostral é dado por Ω 1 2 3 4 5 6 Isto é igual a seis possíveis resultados Já no experimento lançamento de dois dados o espaço amostral é dado por Ω 11 12 13 14 15 16 21 22 23 24 25 26 31 32 33 34 35 36 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66 Ω 36 Isto é igual a 36 possíveis resultados Uma observação importante a fazer é que se você pesquisar outras obras alguns autores denotam o espaço amostral pela letra S maiúscula b Evento supondo que temos uma moeda e a lançaremos no ar observaremos a face que ficará para cima Não temos certeza do resultado mas sabemos o possível cara ou coroa Assim evento é definido como sendo um resultado ou um subconjunto de um experimento e é representado por letras maiúsculas A cara B coroa c Evento Impossível ao lançarmos um dado sabemos que o resultado não será a face 7 por tanto chamamos de evento impossível representado pelo subconjunto vazio denotado por Ø A probabilidade é uma medida da chance de um evento ocorrer Se denotarmos um evento por A denotaremos por PA a probabilidade de A ocorrer Segundo Martinez 2015 p 130 Por volta do ano de 1930 Andrei Nikolaevich Kolmogorov 19031987 estabeleceu três regras bastante formais que definem a probabilidade Essas regras são conhecidas como os axiomas de Kolmogorov UNICESUMAR Vejamos um exemplo determine a probabilidade de lançar um dado e o resultado ser o número 2 Para facilitar nossa resolução e como uma dica primeiro interpretaremos no exercício qual o espaço amostral Neste caso como espaço amostral que significa todos os resultados possíveis de um experimento temos Ω 1 2 3 4 5 6 São seis possíveis resultados no lançamento de um dado e este valor ficará em nosso denominador na equação Para interpretar a probabilidade de A isto é o número de possibilidades em que ocorre o evento A ou seja o evento que estamos desejando saber voltamos à pergunta inicial resultado ser o número 2 Quantas ocorrências vezes o número 2 aparece no lançamento de um dado Apenas uma Agora voltando à equação temos PA 16 Em que Evento A 1 vez Ω 6 resultados possíveis Também podemos escrever as probabilidades em percentual para isso basta dividir o numerador pelo denominador e o resultado obtido multiplicar por cem Podemos observar esta resolução a seguir 1 6 01667 01667 100 1667 Nas probabilidades também temos eventos que podem ocorrer conjuntamente então usamos a regra da adição A união entre os eventos A e B pertencentes a um mesmo espaço amostral Ω referese a todos os resultados que pertencem a A ou B É denotada por Aqui na regra da adição temos a união entre A e B assim a palavra que identificaremos a ocorrência desse tipo de evento nas probabilidades é a palavra ou Vejamos um exemplo Qual a probabilidade de lançarmos um dado e sair a face 1 ou 2 Observe que a palavra ou referese a um evento de adição No entanto temos dois tipos de eventos a saber a Eventos Mutuamente Excludentes ou Eventos Mutuamente Excludentes neste caso são eventos que não ocorrem em conjunto ou seja a ocorrência de A ou B não há como ocorrer A e B ao mesmo tempo Isso é dado pela equação PA B PA PB Dessa forma as regras das probabilidades são a Uma probabilidade é sempre maior ou igual a zero b Uma probabilidade é sempre menor ou igual a 1 Assim de a e b temos 0 PA 1 c A probabilidade associada a um evento impossível é sempre zero mencionada anteriormente d A probabilidade de um evento não ocorrer é 1 menos a probabilidade de ele ocorrer Se por exemplo a probabilidade de chuva no próximo sábado for igual a 08 a probabilidade de não chover no próximo sábado é de 02 Lembrando que a não ocorrência do evento A é denotada por AC o complemento de A podemos então escrever PAC 1 PA Em que AC Evento complementar PA Probabilidade de A Assim para Arango 2011 o conceito de probabilidade está relacionado a eventos futuros ou que ainda não tenham ocorrido De uma forma geral a característica comum em relação ao futuro é a incerteza de maneira que a probabilidade pode ser entendida também como uma medida de incerteza em relação ao evento Agora que definimos as probabilidades podemos ter uma ideia de avaliação ou medição das possibilidades de determinado acontecimento Existem duas formas pelas quais estas avaliações podem ser feitas 1 Pela observação e conhecimento completo dos fatores que influenciam o fato ou evento aqui implica definir todos os fatores que poderiam afetar o resultado esta forma está relacionada a situações particulares como os jogos 2 Pela observação do comportamento passado do evento e das circunstâncias nas quais ocorreu aqui tratase de trabalhar com o conceito de frequência relativa Fr na qual essa probabilidade está relacionada à verdadeira ocorrência de um fenômeno aqui pode ser aplicada aos problemas do mundo real especificamente as áreas da medicina ciências biológicas entre outras A definição clássica de probabilidade utilizando uma equação é PA número de possibilidades de ocorrência do evento A espaço amostral Ω Em que Ω todos os resultados possíveis espaço amostral Em que PA B Probabilidade de A união B soma PA Probabilidade de ocorrer o evento A PB Probabilidade de ocorrer o evento B Podemos observar esta união na Figura 3 A B A Figura 3 apresentanos dois conjuntos A e B em que não há interseção ou seja não temos elementos em comum É assim que temos um evento não mutuamente excludente Veja por exemplo Qual a probabilidade de ao lançarmos um dado sair a face 1 ou 2 Para resolução temos PA B PA PB PA B 16 16 26 É bem simples trabalhar com a soma de frações que tem o mesmo denominador basta repetir o denominador e somar o numerador Para entender melhor observe a Figura 4 1 2 Na Figura 4 o evento A é igual a 1 enquanto o evento B é igual a 2 Quando lançamos um dado é possível sair a face 1 e 2 ao mesmo tempo Não por isso esse evento é mutuamente excludente quando um evento ocorrer não há chances de o outro ocorrer também b Eventos Não Mutuamente Excludentes ou Eventos Não Mutuamente Excludentes nesse caso são eventos que ocorrem em conjunto ou seja há a ocorrência de A ou B aqui temos a interseção entre os eventos A e B pertencentes a um mesmo espaço amostral Ω que se refere a todos os resultados que pertencem simultaneamente a A e B O que muda nesse tipo de evento Continuase a regra da adição sendo a palavra ou que nos identifica nas situações mas temos um momento que A e B ocorrem ao mesmo tempo sendo representadas pela equação PA B PA PB PA B Em que PA B Probabilidade de A união B soma PA Probabilidade de ocorrer o evento A PB Probabilidade de ocorrer o evento B PA B interseção entre A e B momento que ocorrem ao mesmo tempo Podemos observar esse tipo de evento na Figura 5 A PA B B Por exemplo se temos um baralho com 52 cartas qual a probabilidade de sair um às ou uma carta de ouros Para resolução vamos chamar de evento A sair um às e evento B uma carta de ouros Já podemos observar no nosso enunciado que já nos foi dado o espaço amostral ou seja todos os possíveis resultados que é o baralho de 52 cartas UNIDADE 5 139 a evento A sair um ÁS em um baralho comum temos quatro ases 01 de ouro 01 de copas 01 de espadas e 01 de paus Figura 6 Descrição da Imagem a figura apresenta uma mão segurando os 4 Ases de um baralho da direita para esquerda Ás de copas Ás de paus Ás de ouro e Ás de espadas Figura 6 Ases de um baralho b B uma carta de ouros em um baralho comum temos 13 cartas de ouros Figura 7 Descrição da Imagem a figura apresenta uma mão segurando as 13 cartas de ouros sendo da direita para esquer da reis dama valete 10 9 8 7 6 5 4 3 2 e o Ás Figura 7 Cartas de ouros em um baralho comum Agora podemos observar que os eventos A e B tem um elemento em comum ou seja aparece tanto no evento A quanto no evento B que é a carta Ás Assim temos um exemplo de inserção Resolvendo o exercício temos PA B PA PB PA B PA B 452 1352 152 1652 Para a resolução somarsubtrair duas ou mais frações com o mesmo denominador basta repetir o denominador e somarsubtrair o numerador Nesse caso fazemos a operação soma ou subtração apenas no numerador Também podemos escrever o resultado em percentual para isso 1652 16 52 03077 03077100 3077 Você sabia que podemos apresentar os resultados obtidos das probabilidades de três maneiras Veja a seguir Valor fracionário quando fazemos um cálculo de probabilidade e o resultado obtido é uma fração por exemplo 25 sendo numerador na parte de cima e denominador da parte inferior da fração Valor numérico quando temos uma fração e em seguida fazemos a divisão desta fração ou seja dividimos o numerador pelo denominador por exemplo 25 2 5 04 Valor percentual depois que fazemos a divisão do numerador pelo denominador obtemos o valor numérico certo Com o resultado do valor numérico multiplicamos por 100 e temos o resultado em percentual por exemplo 040 100 40 Também temos a probabilidade condicional que se trata da probabilidade de ocorrência de um evento B que interfere na probabilidade de ocorrência de um evento A então dizemos que a probabilidade de A está condicionada à probabilidade de B e representamos por PAB Lêse probabilidade de A dado B AB significa a ocorrência do evento A sabendo que o evento B já ocorreu ou que a ocorrência de B esteja garantida os eventos A e B são dependentes É determinado pela equação a seguir PAB PA B PB Em que PA B Probabilidade de A dado B PA B Interseção entre A e B elemento que ocorre simultaneamente entre A e B PB Probabilidade de B Para se calcular uma probabilidade condicional no denominador se coloca o total de possíveis respostas da condição e no denominador coloque a quantidade de possíveis respostas favoráveis eventos dentro da condição Tatiana Marques da Silva Parenti Juliane Silveira Freire da Silva Jamur Silveira Por exemplo em uma comunidade 25 dos adultos são hipertensos 35 são diabéticos e 10 são hipertensos e diabéticos Se selecionarmos aleatoriamente um adulto desta comunidade a probabilidade de ele ser hipertenso é de 025 Por outro lado se partimos do conhecimento de que a pessoa selecionada é portadora de diabetes qual a probabilidade de ela ser hipertensa Esta pergunta referese a uma probabilidade condicional denotada por PA B Lêse o símbolo como dado que Dessa forma PA B referese à probabilidade de ocorrer o evento A dado que o evento B ocorreu ou seja entre o espaço amostral de B portadora de diabetes queremos encontrar o evento A probabilidade de também ser hipertensa Resolvendo o exercício temos PA B PA B PB PA B 010035 02857 Diagrama de Venn é uma forma de representar graficamente um conjunto para isso utilizamos uma linha fechada que não possui autointerseção e representamos os elementos do conjunto no interior dessa linha Podemos observar no Diagrama de Venn Figura 8 que sombreámos a região associada ao evento B considerando que partimos do conhecimento de que esse evento ocorreu A região sombreada na Figura 8 diabéticos e interseção corresponde a 35 dos adultos de toda a comunidade e consideramos que a pessoa selecionada é pertencente a esta parcela Entre esses 35 sabemos que 10 são hipertensos também Portanto a probabilidade de selecionarmos um indivíduo hipertenso entre aqueles que portam diabetes é 010 035 02857 Até agora estudamos as probabilidades clássicas eventos eventos mutuamente exclusivos não mutuamente exclusivos Podem acontecer algumas situações de termos tabelas e desejarmos encontrar as probabilidades Veja outro exemplo um professor do departamento de biológicas e da saúde fez uma pesquisa com uma turma de alunos para entender com qual disciplina eles tinham mais afinidades Os resultados podem ser observados na Tabela 1 a seguir Tabela 1 Disciplinas que os acadêmicos têm mais afinidade Disciplina Quantidade de Alunos Anatomia Humana 15 Fisiologia Humana 5 Ecologia 20 Biologia Celular e Molecular 15 Zoologia 10 Total 65 Fonte o autor De acordo com a Tabela 1 determinaremos as probabilidades a seguir Qual a probabilidade de selecionar um aluno aleatoriamente e a disciplina com que ele tem mais afinidade seja Ecologia Para a resolução é bem simples primeiro podemos observar que o espaço amostral Ω referese ao total de alunos que participaram da pesquisa ou seja todos os alunos da turma todos os resultados possíveis Agora observaremos na tabela a classe linha que se refere à Ecologia que é igual a 20 e usamos a equação a seguir PA número de possibilidades de ocorrência do evento A espaço amostral Ω PA 2065 03077 Qual a probabilidade de selecionar um aluno aleatoriamente e a disciplina com que ele tem mais afinidade seja Zoologia PA número de possibilidades de ocorrência do evento A espaço amostral Ω PA 1065 01538 É importante que você observe que em uma tabela simples de frequência utilizamos a equação da probabilidade clássica para resolução Dentro de tabelas também podemos ter outros tipos de probabilidades a serem encontradas Continuamos com exemplos para que você entenda melhor Uma instituição de ensino superior fez um levantamento de seus alunos matriculados em seus cursos os resultados estão apresentados a seguir Tabela 2 Tabela 2 Disciplinas que os acadêmicos têm mais afinidade Cursos Sexo Masculino Sexo Femino Total Administração 15 20 35 Ciências Biológicas 20 25 45 Gestão Ambiental 10 15 25 Total 45 60 105 Fonte o autor Com base nos dados apresentados determine as probabilidades Qual a probabilidade de selecionar aleatoriamente um aluno e ele cursar Ciências Biológicas PA número de possibilidades de ocorrência do evento A espaço amostral Ω PA 45105 04286 Qual a probabilidade de selecionar aleatoriamente um aluno e este cursar Ciências Biológicas ou ser do sexo masculino Para a resolução neste caso você pode observar que apareceu a palavra ou e quando temos essa palavra remetenos à adição de um evento É isso mesmo somaremos as probabilidades de um aluno de Ciências Biológicas ou ser do sexo masculino mas observe a marcação na Tabela 3 e veja que temos um elemento em comum Tabela 3 Disciplinas que os acadêmicos têm mais afinidade Cursos Sexo Masculino Sexo Femino Total Administração 15 20 35 Ciências Biológicas 20 25 45 Gestão Ambiental 10 15 25 Total 45 60 105 Fonte o autor Ao analisar a Tabela 3 podemos observar que existe um elemento comum ou seja um acadêmico que cursa Ciências Biológicas e é do sexo masculino ao mesmo tempo esse elemento é a interseção que ocorre simultaneamente Como temos a interseção a soma destes eventos será calculada por PA B PA PB PA B Em que PA aluno que cursa Ciências Biológicas PB aluno que é do sexo masculino PA B aluno que cursa Ciências Biológicas e é do sexo masculino ao mesmo tempo Substituindo na equação temos PA B PA PB PA B PA B 45105 45105 20105 70105 70105 06667 Dado que o aluno é do sexo masculino qual a probabilidade de cursar Ciências Biológicas Para a resolução quando temos dado que isso significa que estamos trabalhando com a probabilidade condicional ou seja antes da resolução estamos dando uma condição para a resolução Neste caso ao falarmos dado que é o aluno é do sexo masculino estamos reduzindo o espaço amostral de 105 para 45 porque não nos interessa mais o espaço amostral total nem as alunas do sexo feminino Observe as marcações na Tabela 4 Tabela 4 Disciplinas com que os acadêmicos têm mais afinidade Cursos Sexo Masculino Sexo Feminino Total Administração 15 20 35 Ciências Biológicas 20 25 45 Gestão Ambiental 10 15 25 Total 45 60 105 Fonte o autor Para resolução utilizaremos a equação a seguir PAB PA BPB Em que PA B Aluno que é do sexo masculino e cursa Ciências Biológicas PB Espaço amostral reduzido Substituindo na equação temos PAB PA BPB PAB 2045 04444 Um detalhe importante quando tivermos tabela de dupla entrada estas que foram apresentadas para resolução deste exercício teremos elementos em comum ou seja teremos interseção Outro evento que pode acontecer aqui nas probabilidades é a independência Um evento independente é definido por Arengo 2011 como Se A e B são eventos tais que a ocorrência de um não torna o outro mais provável ou menos provável dizse que esses eventos são independentes entre si p 112 Dois eventos são independentes quando a ocorrência ou a não ocorrência de um evento não afeta a probabilidade de ocorrer outro evento Isso quer dizer que a ocorrência de um evento não interfere na ocorrência de outro sendo PAB PB ou PBA PA Se A e B são eventos independentes a probabilidade de ocorrência de A e B será PA B PAPB Exemplo no lançamento de dois dados qual a probabilidade de sair 1 no primeiro dado e 3 no segundo dado Observe que temos a palavra e que nos remete à independência e também ao analisarmos o evento veja que o resultado que sair no primeiro dado não vai interferir no resultado do segundo dado Para resolução temos PA B PAPB PA B 16 16 136 0028 Para resolver a multiplicação entre frações basta multiplicar o numerador pelo numerador e denominador vezes denominador Observe que o espaço amostra ou seja o total de bolas na urna não altera a probabilidade da próxima retirada permanece o mesmo Outro exemplo utilizando a independência entre eventos seria a seguinte situação um estudante do curso de Ciências Biológicas tem a probabilidade de reprovação de 65 na disciplina Anatomia Humana e 50 de chances de reprovação na disciplina Biologia Celular e Molecular Qual a probabilidade deste estudante reprovar em ambas as disciplinas Veja que para resolução a palavra que nos remete à independência é ambas e ao analisarmos a situação deste aluno a disciplina de Anatomia Humana interfere no rendimento da disciplina de Biologia Celular e Molecular Portanto não uma disciplina não altera o desempenho da outra disciplina por isso esse evento é considerado independente Para resolução temos PA B PAPB Para utilizarmos a equação transformaremos os valores que foram dados em percentuais em valor numérico para isso temos 65 100 065 50 100 050 Agora substituindo na equação temos PA B 065050 0325 Dois eventos são dependentes quando a ocorrência ou a não ocorrência de um evento afeta a probabilidade de ocorrência do outro evento Aqui continuamos com a multiplicação a palavra e também São determinados por PAeB PBPA B ou PAPB A Os eventos independentes e dependentes são chamados de com e sem reposição respectivamente a reposição ou não é muito importante na interpretação da probabilidade temos Com reposição referese ao retorno do evento sorteado ao seu conjunto de origem com isso não temos alteração na probabilidade do evento seguinte Por exemplo uma urna tem 20 bolas brancas 10 bolas pretas e 10 bolas azuis Selecionando aleatoriamente duas bolas ao acaso com reposição qual a probabilidade de a primeira bola ser branca e a segunda ser preta PA B PAPB PA Primeira bola ser branca PB Segunda bola ser preta Ω Total de bolas na urna Temos PA B PAPB PA B 2040 1040 2001600 0125 Sem reposição referese ao não retorno do evento sorteado ou do seu conjunto de origem ou seja teremos alteração na probabilidade do evento seguinte Por exemplo uma urna tem 20 bolas brancas 10 bolas pretas e 10 bolas azuis Selecionando aleatoriamente duas bolas ao acaso com reposição qual a probabilidade de a primeira bola ser branca e a segunda ser preta PA B PAPB PA Primeira bola ser branca PB Segunda bola ser preta Ω Total de bolas na urna Temos PA B PAPB PA B 2040 1039 2001560 01282 Resumindo temos como regras básicas de probabilidades PA ou B para eventos não mutuamente excludentes PA B PA PB PA B Para eventos mutuamente excludentes PA B PA PB Para eventos independentes PA B PAPB Para eventos dependentes PAeB PBPA B ou PAPB A Também existem experimentos cujos resultados refletidos em uma variável aleatória seguem um comportamento previsível em relação às suas probabilidades de ocorrência e portanto podem ser modelados por uma equação específica A variável aleatória discreta é referente à contagem e uma variável aleatória contínua é referente a mensurações Dentre as principais distribuições discretas destacamse a Distribuição de Bernoulli Distribuição Binomial e Distribuição de Poisson Segundo Martinez 2015 a Distribuição de Bernoulli é um experimento aleatório em que os resultados são sempre classificados em apenas duas categorias como Um adulto de determinado grupo selecionado aleatoriamente se observarmos se ele é ou não portador de uma dada doença Se observarmos uma pessoa escolhida ao acaso se foi exposta ou não a um fator de risco para determinada doença Uma pessoa faz um teste para doença na qual o resultado é positivo ou negativo Ao selecionar uma pessoa verificarmos se ela é fumante ou não fumante Ao plantarmos uma semente de uma determinada espécie ela pode germinar ou não germinar Os resultados de uma Distribuição de Bernoulli são apresentados de maneira que a variável aleatória denotada por X que assume sempre valores 0 e 1 Resumindo nessa distribuição de probabilidades a variável aleatória assume apenas dois resultados possíveis sucesso evento acontece ou fracasso evento não acontece Por exemplo se selecionarmos aleatoriamente um adulto de determinada população ao verificar se ele é portador ou não portador de uma dada doença podemos atribuir valor 1 para variável portador da doença e zero caso seja não portador da doença Nosso espaço amostral é Ω portador da doença não portador da doença Denotaremos por p a probabilidade de o indivíduo escolhido ser portador da doença Temos então PX 1 p PX 0 1 p Em que P probabilidade de sucesso de o evento ocorrer Assim a probabilidade de um evento não ocorrer é 1 menos a probabilidade de ele ocorrer Consideraremos que a probabilidade de X assumir um valor que não é 0 ou 1 é igual a zero dado que esse evento seria de ocorrência impossível Assim podemos escrever de modo genérico a expressão PX x pˣ1 p¹ ᵖ se x é igual a 0 ou 1 PX x 0 caso contrário Para entendermos esta expressão lembramos que todo número real elevado a zero é igual a 1 e todo número real elevado a 1 é igual a ele próprio Uma variável aleatória X com estas características é chamada variável aleatória de Bernoulli Vejamos supondo que a taxa de prevalência de uma doença em determinada população é de 1 caso em cada 100 habitantes dessa forma ao selecionarmos aleatoriamente um habitante dessa população a probabilidade de esse indivíduo ser portador da doença é p 001 Ao atribuírmos à variável X o valor 1 se o indivíduo selecionado é portador da doença e 0 caso contrário temos PXxpx1p1p Considerando 0 zero a probabilidade de esta pessoa não ser portadora da doença substituindo na equação temos PX0p01p10 00100991 1099099 Agora considerando 1 um a probabilidade de esta pessoa ser portadora da doença substituindo na equação temos PXxpx1p1p PX1p11p11 00110990 0011001 Este conceito desta distribuição é bem útil para compreendermos a distribuição binomial bem aplicada em pesquisas da área de saúde Outra distribuição de probabilidade discreta e muito importante é a Distribuição Binomial Um experimento binomial é aquele que se refere em uma sequência de n ensaios idênticos e independentes Cada tentativa pode resultar em apenas dois resultados possíveis sucesso e fracasso e a probabilidade de sucesso é constante de uma tentativa para outra Em outras palavras o que pode ser um experimento binomial Uma planta germinar ou não lançar uma moeda com o resultado cara ou coroa uma cidade ter coleta seletiva ou não ter coleta seletiva entre outros Designando por X o número total de sucessos em n tentativas com probabilidade p de sucesso sendo 0 p 1 os possíveis valores de X são 0 1 2 n Os pares x px em que px PXx constituem a distribuição binomial de modo que PXkbinomnk pk qnk binomnk frac nknk PXk binomnk fracnknk pk qnk k número de sucessos n número de elementos da amostra p probabilidade de sucesso q probabilidade de fracasso Uma distribuição Binomial tem as seguintes regras 1 O experimento tem um número fixo de tentativas 2 As tentativas devem ser independentes ou seja o resultado de cada tentativa não afetará as probabilidades em outras tentativas 3 As tentativas são classificadas em sucesso e fracasso 4 A probabilidade de sucesso permanece constante em todas as tentativas Tal como determine a probabilidade de dois meninos entre cinco crianças se a probabilidade de um menino é 051 em cada nascimento e os sexos das crianças sucessivas são considerados variáveis aleatórias independentes Na Distribuição Binomial é importante entender bem o enunciado pois nem sempre o sucesso será algo positivo O sucesso p é dado pelo que estamos interessados em estudar por exemplo neste exercício serão as vidrarias defeituosas 5 dadas no enunciado por isso a interpretação é fundamental Para resolução deste exercício utilizaremos a distribuição Binomial Sendo n 5 crianças p 051 k 2 q1p q1051049 Seja X número de meninos de cada cinco nascimentos Substituindo na equação temos PXk binomnk frac nknk pk qnk PX2 binom52 frac5252 0512 04952 PX2 binom52 frac5432121321 0512 0493 frac12012 02601 01176 100260101176 03058 Um processo industrial que fabrica vidrarias laboratoriais opera com uma média de 5 vidrarias defeituosas Com base em dez vidrarias determine as probabilidades de uma amostra apresentar Nenhuma vidraria com defeito Para resolução quando falamos em nenhuma vidraria consideraremos zero defeito Utilizando a equação temos PXk binomnk fracnknk pk qnk Em que n 10 k 0 p 005 defeituosas q 095 vidrarias boas PXk binomnk fracnknk pk qnk PX0 binom100 frac100100 0050 095100 frac10987654321010 0050 09510 frac36288003628800 1 05987 1105987 05987 Três vidrarias com defeito PXk binomnk fracnknk pk qnk PX3 binom103 frac103103 0053 095103 frac109876543213217654321 0053 0957 frac362880030240 0000125 06983 120 0000125 06983 0010 Pelo menos 9 vidrarias com defeito Nesse caso para a resolução quando temos pelo menos significa 9 vidrarias mais uma Portanto temos PX 9 PX 9 PX 10 Assim calcularemos considerando X 9 e X10 Utilizando a equação PX k n k n k n k pk qnk Substituindo a equação PX k n k n k n k pk qnk PX 9 10 9 10 9 10 9 0059 095109 10987654321 9876543211 0059 0 951 3628800 362880 00000000001953 095 1000000000001953 095 185x1011 Agora faremos a mesma coisa mas consideraremos x10 substituindo temos PX 10 10 10 10 10 10 10 00510 0951010 10987654321 109876543210 00510 0 950 3628800 3628800 976x1014 1 1976x1014 1 976x1014 Agora vamos somar PX 9 PX 9 PX 10 PX 9 185x1011 976x1014 PX 9 186x1011 No Máximo 2 vidrarias com defeito PX 2 PX 0 PX 1 PX 2 PX k n k n k n k pk qnk PX 0 10 0 10 0 10 0 0050 095100 10987654321 0 10 0050 09510 3628800 3628800 105987 1105987 05987 Agora substituiremos 1 na equação assim temos PX k n k n k n k pk qnk PX 1 10 1 10 1 10 1 0051 095101 10987654321 987654321 0051 0 959 3628800 362880 005 0 6302 10005 06302 03151 Agora substituiremos 2 na equação assim temos PX k n k n k n k pk qnk PX 2 10 2 10 2 10 2 0052 095102 10987654321 2187654321 0052 0958 3628800 80640 000025 06634 45000025 06634 00746 Somando os valores encontrados temos PX 2 PX 0 PX 1 PX 2 PX 2 05987 03151 00746 0987 A média a variância e o desvio padrão de uma distribuição binomial são dados por a média EX np Em que EX esperança X média n número de elementos p probabilidade de sucesso b Variância VarX npq Em que VarX Variância n número de elementos p probabilidade de sucesso q probabilidade de fracasso c Desvio Padrão σX npq Em que σX Desvio Padrão n número de elementos p probabilidade de sucesso q probabilidade de fracasso Para este exercício resolvendo a média a variância e o desvio padrão temos EX 10005 05 VarX 10005095 0475 σX 10005095 06892 Outra distribuição de Probabilidade importante na bioestatística é a Distribuição de Poisson UNIDADE 5 159 Quando falamos em distribuição de probabilidades ontínuas a principal e mais utilizada é a Distribuição Normal Os primeiros desenvolvimentos for mais da função que representa a curva normal são de autoria do matemático francês Abraham de Moivre 1667 1754 que demonstrou que a distri buição binomial se aproxima de uma curva normal quando o número de ensaios é suficientemente grande Esse resultado foi posteriormente estendido pelo matemático e astrônomo francês PierreSimon Laplace 17491827 No início do século XIX o matemático alemão Johann Carl Friedrich Gauss 17771855 utilizou a curva normal em análises estatísticas de dados de astronomia Esses desenvolvimentos tornaramse tão importantes que em muitas ocasiões a curva normal é cha mada de curva de Gauss ou gaussiana MARTINEZ 2015 p 146 Esta curva de Gauss também conhecida como curva nor mal tem o formato de um sino Figura 9 e os desvios se distribuem em torno do valor médio PARENTI SILVA SILVEIRA 2017 A curva de Gauss tem as seguintes par ticularidades a A área total abaixo da curva normal soma1 ou seja 100 b A curva é simétrica em torno da média isto é antes da média temos 50 das possibilidades e depois do valor médio temos a outra metade das possibilidades c No caso da curva normal a média a moda e a me diana são coincidentes d Os parâmetros da curva normal são a média μ e o desvio padrão σ PierreSimon Laplace 17491827 Abraham de Moivre 16671754 Johann Carl Friedrich Gauss 17771855 160 Teoricamente a curva normal estendese de a À medida que x se aproxima de ou de fx aproximase do eixo do gráfico mas nunca o toca PARENTI SILVA SILVEIRA 2017 Como na natureza as variáveis que estudamos podem assumir qualquer média e qualquer des vio padrão portanto temos a utilização da curva normal padrão que assume média igual a zero e desvio padrão igual a um e que segue as demais características de qualquer distribuição normal Uma distribuição normal é obtida por meio de integrais mas aqui nosso objetivo não é apresentar essas integrais a você pois já existe uma tabela com todas elas calculadas certo Vamos entender como utilizar essa Tabela padronizada A partir dessas integrais obtidas numericamente e utilizando a curva normal padronizada po demos obter as probabilidades por meio de tabelas prontas que mostram a área sob a curva normal correspondente Aqui em nossa disciplina utilizaremos a tabela de Distribuição Normal Reduzida que é apresentada a seguir Descrição da Imagem a figura é apre sentada em forma de sino na qual essa curva não toca o eixo sendo dividida em sua metade com pontilhados em indicam a média Figura 9 Curva de Gauss Fonte o autor UNICESUMAR UNIDADE 5 161 Tabela 5 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 21 04821 04826 04830 04834 04838 04842 04846 04850 04854 04857 22 04861 04864 04868 04871 04875 04878 04881 04884 04887 04890 23 04893 04896 04898 04901 04904 04906 04909 04911 04913 04916 24 04918 04920 04922 04925 04927 04929 04931 04932 04934 04936 25 04938 04940 04941 04943 04945 04946 04948 04949 04951 04952 26 04953 04955 04956 04957 04959 04960 04961 04962 04963 04964 27 04965 04966 04967 04968 04969 04970 04971 04972 04973 04974 28 04974 04975 04976 04977 04977 04978 04979 04979 04980 04981 29 04981 04982 04982 04983 04984 04984 04985 04985 04986 04986 30 04987 04987 04987 04988 04988 04989 04989 04989 04990 04990 31 04990 04991 04991 04991 04992 04992 04992 04992 04993 04993 32 04993 04993 04994 04994 04994 04994 04994 04995 04995 04995 33 04995 04995 04995 04996 04996 04996 04996 04996 04996 04997 34 04997 04997 04997 04997 04997 04997 04997 04997 04997 04998 35 04998 04998 04998 04998 04998 04998 04998 04998 04998 04998 36 04998 04998 04999 04999 04999 04999 04999 04999 04999 04999 37 04999 04999 04999 04999 04999 04999 04999 04999 04999 04999 38 04999 04999 04999 04999 04999 04999 04999 04999 04999 04999 39 05000 05000 05000 05000 05000 05000 05000 05000 05000 05000 162 Vale ressaltar que tabelas com diferentes integrais calculadas podem ser encontradas A tabela apre sentada fornece sempre a seguinte área sob a curva Figura 10 Como então funciona esta tabela Entenderemos agora o passo a passo da sua utilização Para usar essa tabela precisaremos padronizar os dados Sendo Z uma variável com distribuição normal determine a P 0 Z 144 Aqui nossa área interessada é 144 Desenhando na curva de Gauss temos Figura 11 Descrição da Imagem na figura apre sentada em forma de sino há uma curva que não toca o eixo e uma área destacada na cor cinza Descrição da Imagem a figura repre senta uma curva de Gauss em forma to de sino Temos a área destacada no gráfico entre 0 e 144 Figura 10 Distribuição Normal reduzida Fonte o autor Figura 11 Curva de Gauss Fonte o autor Valor a ser procurado na tabela Z 0 144 Agora que sabemos a área a ser encontrada vamos até a Tabela de Distribuição Normal reduzida e encontramos a área da seguinte maneira Tabela 6 UNICESUMAR UNIDADE 5 163 Descrição da Imagem a figura repre senta uma curva de Gauss em forma to de sino Temos a área destacada no gráfico entre 085 e 0 Figura 12 Curva de Gauss Fonte o autor Tabela 6 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 Portanto a área correspondente a 144 na tabela Z é igual a 04251 ou 4251 b P 085 Z 0 Neste caso o sinal negativo muda apenas o eixo em que desejamos encontrar a área observe na figura a seguir 085 0 164 Para encontrar a área basta procurar 085 na Tabela 7 Tabela 7 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 Portanto a área correspondente a 085 na tabela Z é igual a 03023 ou 3023 c P 148 Z 205 Neste caso temos interesse em encontrar a probabilidade entre 148 iniciando no eixo negativo e 205 finalizando no eixo positivo Para isso encontraremos duas áreas na Tabela 148 e 205 em seguida somar Observe como fica na Figura 13 148 205 Descrição da Imagem a figura repre senta uma curva de Gauss em forma to de sino Temos a área destacada no gráfico entre 148 e 205 Figura 13 Curva de Gauss Fonte o autor UNICESUMAR UNIDADE 5 165 Tabela 8 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 Para encontrar a área basta procurar 148 e 205 na Tabela 8 Portanto a área correspondente a 148 é igual a 04306 e a área correspondente a 205 é igual a 04798 Agora basta somar estes valores 0 4306 0 4798 09104 A probabilidade é de 09104 ou 9104 d P 108 Neste caso temos interesse em encontrar a probabilidade de valores maiores que 108 Assim ao en contrarmos na Tabela 108 teremos o valor da área entre 0 e 108 certo Isso mesmo mas desejamos encontrar valores acima de 108 então como fazer É bem simples buscamos na tabela a área corres pondente a 108 em seguida fazemos a subtração do valor encontrado por 05 50 pois sabemos que a metade da curva corresponde a 50 Observe na Figura 14 a área que desejamos 166 Agora vamos à tabela Z Tabela 9 buscar a área correspondente a 108 108 Desejamos essa área Descrição da Imagem a figura representa uma curva de Gauss em formato de sino Temos a área destacada no gráfico que está com valores maiores que 108 sendo destacada em cinza essa área Figura 14 Curva de Gauss Fonte o autor Tabela 9 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 Assim a área correspondente a 108 é igual a 03599 Mas a área que nos interessa é a área correspon dente a valores maiores do que 108 neste caso fazemos a subtração de 05 equivale à metade do gráfico pela área encontrada sendo 05 03599 01401 UNICESUMAR UNIDADE 5 169 Descrição da Imagem a figura re presenta uma curva de Gauss em formato de sino Temos a área desta cada no gráfico está entre 2 a 4 sen do destacada em cinza essa área Nesta figura a área está padronizada para uso da Tabela de Distribuição Normal Reduzida Figura 16 Curva de Gauss Fonte o autor 3º passo para resolução Desenhando na Figura 16 com a área que desejamos encontrar 0 2 4 4º passo para resolução Buscar os valores na Tabela Veja na Tabela 10 a seguir Tabela 10 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 170 Você sabia que a área de Saúde está relacionada à Epidemiologia E que a área de Epidemiologia traz a Teoria das Probabilidades Nossa Roda de Conversa mostrará como essa teoria pode ser importante no estudo de epidemiologia A área correspondente a 20 é igual a 04772 Já os valores superiores a 39 na Tabela Z reduzida são iguais a 05 reduzimos a apresentação da tabela Agora que sabemos os valores voltamos a observar o gráfico Figura 17 0 04772 05 Descrição da Imagem a figura re presenta uma curva de Gauss em formato de sino Temos a área des tacada no gráfico está entre 04772 a 05 sendo destacada em cinza essa área Nesta área já tiramos os valores da tabela e apresentamos na figura Figura 17 Curva de Gauss Fonte o autor 4º passo para resolução Aqui como temos duas áreas faremos a subtração de 05 0 4772 00228 Portanto a probabilidade de encontrar um indivíduo com CT entre 220 mgdl e 240 mgdl é igual a 00228 ou 228 UNICESUMAR UNIDADE 5 171 Você pôde perceber que a teoria das probabilida des as distribuições discretas de probabilidade e a distribuição contínua de probabilidades podem ajudálo a entender como é o comportamento de uma população quais tendências além de compreender a área da genética da epidemiolo gia e estas questões serão comuns quando você iniciar sua jornada como profissional da área da saúde Dados na área de epidemiologia como os cenários que podemos encontrar nesta pandemia do Corona vírus os prováveis comportamentos do vírus o percentual de pessoas vacinadas para garantir a imunidade e minimizar os impactos globais da doença todos estes estudos as teorias e os testes estão embasados nas probabilidades Você sabia que a área da saúde também contempla a genética Convido a fazer a leitura do artigo a seguir para entender melhor essas questões Acesse o qrcode 172 1 Quando falamos em uma distribuição de probabilidades contínua estamos nos referimos a mensurações Tratase de uma distribuição que é simétrica seus dados são em torno da média em que moda média e mediana coincidem Seu gráfico pode ser achatado ou um pouco mais estreito dependendo da variabilidade dos dados além de ter forma de sino A distribuição de probabilidades que estamos apresentando denominase a Regra da adição b Distribuição de Bernoulli c Distribuição Binominal d Distribuição Normal e Probabilidade Condicional 2 Uma urna contém 10 bolas vermelhas e 20 bolas azuis Ao retiramos duas bolas consecutivas com reposição a probabilidade de a primeira bola ser vermelha e a segunda bola ser azul é de a 1025 b 2222 c 3575 d 4423 e 50 3 Supondo que temos o seguinte experimento lançaremos três dados simultaneamente a probabilidade de sair a face 1 no primeiro dado 2 no segundo dado e 3 no terceiro dado é de a 03578 b 04629 c 07598 d 1 e 2 4 Em uma cidade na população de idosos usuários de unidades de atenção primária à saúde de um município o número médio de medicamentos em uso é 47 Se selecionarmos ao acaso um idoso dessa população a probabilidade de ele não utilizar nenhum medicamento é de a 05025 b 07575 c 09095 d 1 e 2 173 5 Supondo que você fará uma visita a um museu de animais e lá vê em uma caixa 12 aranhas e entre estas 8 são fêmeas A probabilidade de se retirar uma aranha macho para um expe rimento é de a 1333 b 20 c 3333 d 50 e 6667 6 Nesta unidade vamos trabalhar com a correlação e regressão linear em que duas variáveis são analisadas X e Y na qual podemos ve rificar se existe uma relação entre elas correlação e fazer o ajuste da reta regressão estimando valores Tratase de um estudo muito importante na sua formação pois muitas vezes em pesquisas envolvendo a área da saúde pode ser do interesse do profissional avaliar se existe uma relação entre essas variáveis como por exemplo a relação peso e altura horas de estudo e desempenho alimentação saudável e incidência de doenças entre outras tudo isso é estudado pela análise de corre lação e regressão linear Correlação e Regressão Linear Me Renata Cristina de Souza Chatalovv 176 A correlação linear se trata do estudo de duas variáveis X e Y com o objetivo de mensurar o grau de relacionamento entre estas variáveis enquanto a regressão linear tem como resultado uma equação matemática que descreve o relacionamento entre estas variáveis Mas o que esse estudo tem a ver com Bioestatística Podemos observar como futuros profissionais da área de saúde já parou para pensar se existe uma relação entre aleitamento e estado de saúde materno Se existe uma relação entre peso e altura Será que a correlação seria uma medida importante Ao iniciar a leitura deste material você já pode estar se perguntando para que serve a correlação e regressão linear Como utilizar na área da saúde Em uma pesquisa clínica pode ser fundamental que o pesquisador investigue se os valores de duas ou mais variáveis quantitativas se modificam de forma conjunta em um mesmo sujeito ou objeto de estudo Ou seja quando o valor de uma variável aumenta o valor de outra tende a aumentar ou inver samente reduzase progressivamente Há uma série de testes estatísticos que exploram a intensidade e o sentido desse comportamento mútuo entre variáveis os chamados testes de correlação O primeiro passo é analisar a correlação por meio do gráfico de dispersão para observar se existe algum tipo de relação se a relação é ascendente ou decrescente para então calcular o coeficiente de Pearson e ajustar a reta de regressão para estimar valores de um Y a partir de um X conhecidos Em algum momento de sua vida acadêmica você provavelmente tentou relacionar duas discipli nas certo Se existe uma relação entre a disciplina de química e física por exemplo Vamos fazer esse experimento Selecione 5 pessoas de uma mesma classe e pegue as notas de duas disciplinas e anote O importante é você pegar as pessoas que cursam na mesma sala e as mesmas disciplinas Coloque em uma tabela os dados em seguida plote em um gráfico colocando uma disciplina como X na horizontal e outra como Y na vertical quando as disciplinas se cruzarem faça uma bolinha isso tudo é a dispersão que vamos analisar Depois que plotar todos os dados observe se as bolinhas estão próximas se estiverem próximas você experimentou nosso conteúdo antes mesmo de estudálo olha só Se as bolinhas estiverem distantes e não formarem nenhuma reta fique tranquilo você também experimentou nosso conteúdo só que a relação encontrada não foi linear Aqui vou colocar um exemplo para te orientar vamos lá Perguntei a nota das disciplinas de física e química para 5 pessoas as notas que me passaram foram as seguintes e eu abri uma planilha e coloquei os dados apresentoos na tabela a seguir Tabela 1 Notas de alunos Fonte a autora Pessoa Nota em Física Nota em Química Ana 4 5 Alice 3 6 João 8 8 Glauber 6 6 Paula 5 7 UNICESUMAR UNIDADE 6 177 Agora que temos as notas basta plotar no gráfico da seguinte forma vamos inserir as notas de Física no eixo horizontal e nota em Química no eixo vertical e com uma bolinha veremos a dispersão Conseguiu fazer o experimento que propomos para você É importante ao realizar o experimen to ao construir seu gráfico de dispersão observar se ele é crescente ou decrescente analise também se as bolinhas estão próximas umas das outras se isso acontecer significa que você encontrou uma correlação entre as variáveis Anote suas impressões registre as notas que encontrou e as disciplinas que relacionou e escreva se você pensa que existe uma relação entre elas 178 Agora vamos avaliar se existe uma associação entre duas variáveis x e y com características quantitativas que é objetivo de inúmeros estudos na área da saúde No desenvolvimento de traba lhos científicos também é comum o interesse em investigar a existência entre as variáveis envolvidas com o intuito de saber o quanto altera ções em resultados de uma variável podem estar associadas a trans formações de resultados de outras variáveis MATTOS KONRATH AZAMBUJA 2017 Como exemplos de aplicação de bioestatística temos um profissional da área biomédica pode ter interesse se há relação entre a quan tidade de chumbo em medida na água e volume de efluentes despejados em certo rio um profissional da área da saúde pode querer saber se existe relação entre a pressão arterial e idade das pessoas um professor pode querer saber a relação entre peso e altura a presença de algum inseto e doença na planta o tempo de estudo e nota na prova velocidade do vento em um parque eólico e a geração de corrente entre outros Neste tipo de investigação podemos usar técnicas de análise de correlação e regressão Quando temos a necessidade de analisar a relação entre duas variáveis chamamos de correlação Já na regressão o relacionamento destas variáveis é descrito por meio de uma expressão matemática O termo inicialmente corelação foi proposto por Galton em 1888 apud SCHULTZ SCHULTZ 1992 Essa propriedade foi observada e analisada em medidas antropométricas analisadas da seguinte maneira Dois órgãos são ditos correlacionados quando a variação de um deles é geralmente acompanhada pela variação do outro e na mesma direção enquanto a proximidade da relação difere em diferentes pares de órgãos GALTON 1889 p 238 Dessa maneira o termo correlação significa a relação nos dois sentidos e é utilizado em bioestatística para analisar a força que mantém unidos dois conjuntos de valores A constatação de existência e do grau de relação entre as variáveis é parte do estudo da correlação Entretanto essas técnicas analisam somente a possibilidade de uma associação numérica entre os dados não implica em uma relação de causa e efeito MATTOS KONRATH AZAMBUJA 2017 UNICESUMAR UNIDADE 6 179 Para analisar a existência de uma correlação en tre duas variáveis ou até mesmo para verificar se ela pode ser linear ou não para verificar sua intensidade e em qual sentido podemos sim plesmente recorrer a uma representação gráfica bem simples os pares de observações X e Y podem ser plotados em um diagrama cartesia no que chamamos de diagrama de dispersão que se trata de um gráfico onde são represen tados os pares Xi Yi de duas variáveis sendo i 1 2 n onde n representa a quantidade de pares observados O gráfico de dispersão na maioria das vezes nos dá uma ideia de como é a relação entre as variáveis X e Y As informações na Tabela 2 a seguir se re ferem à idade de 10 pessoas e o tempo que per manecem na frente do computador diariamente Indivíduo Idade em anos X Tempo de permanência em minutos Y 1 32 290 2 44 150 3 26 340 4 44 100 5 40 130 6 36 180 7 28 290 8 40 200 9 34 220 10 20 380 Tabela 2 Idade e tempo de permanência diária na frente de um computador Fonte a autora Com os dados apresentados nessa tabela vamos plotar as variáveis no gráfico de dispersão a seguir Figura 1 180 Figura 1 Diagrama de dispersão da idade em anos X e o tempo de permanência em minutos Y na frente do computador Fonte a autora Descrição da Imagem a figura representa um gráfico de dispersão no eixo X horizontal temos as idades em anos plotadas de cinco em cinco anos iniciando de zero até cinquenta No eixo Y vertical temos o tempo de permanência em minutos na frente do computador plotados de cinquenta em cinquenta iniciando em zero indo até quatrocentos As bolinhas que representam a dispersão estão na coloração azul na qual se visualiza que à medida que idade aumenta reduz o tempo de permanência na frente do computador Ao observar o gráfico representado na Figura 1 podemos perceber que quanto menor a idade maior é o tempo de permanência na frente do computador e à medida que as pessoas ficam mais velhas reduz o tempo de permanência o gráfico indica uma relação linear e uma existência de relação negativa entre as variáveis O gráfico de dispersão intenciona mostrar se existe uma correlação entre as duas variáveis X e Y e o sentido desse relacionamento se é linear ou não linear Embora esse diagrama nos mostre uma ideia do relacionamento entre as variáveis X e Y é importante mensurar sua intensidade o que pode ser feito pelo coeficiente de correlação linear UNICESUMAR UNIDADE 6 181 Tabela 3 Relação entre as horas de estudo e nota na disciplina de Bioestatística Fonte a autora Ao observar a Tabela 3 e se fosse perguntado a você neste momento existe uma relação entre as horas de estudo e a nota da prova Analisando os dados sem nenhum tratamento você ia conseguir responder com facilidade Com certeza não iria conseguir mas por quê Fica difícil concluir algo so mente observando a tabela pois temos grande variação nos dados Por isso o primeiro passo é tentar organizar esses dados em um gráfico para visualizar melhor a relação entre as variáveis X e Y Para analisarmos se há correlação entre as variáveis X e Y é importante fazer o gráfico de dispersão como já aprendemos anteriormente Vemos que cada ponto do gráfico corresponde a um aluno e é marcado segundo seu valor para X e para Y Figura 2 Acadêmico Horas de Estudo x Nota em Bioestatística y A 8 10 B 8 8 C 6 4 D 5 8 E 4 6 F 7 9 G 5 7 H 1 2 Para entendermos melhor o gráfico de dispersão e a correlação linear temos um exemplo um pro fessor do curso de Enfermagem deseja saber se existe correlação entre o tempo dedicado em horas ao estudo e o desempenho dos alunos na disciplina de Bioestatística Para saber se existe essa relação o professor selecionou oito alunos aleatoriamente e fez a anotação dos dados Podemos observar o número de horas x e nota obtida na prova de Bioestatística y para cada alunoa 182 Descrição da Ima gem na figura ob servada temos um gráfico de dispersão em que o eixo X está na horizontal re presentando as horas de estudo dos alunos de duas em duas ho ras de zero até dez e no eixo Y que está na vertical temos as notas distribuídas dos oitos alunos que vai de zero a dez Figura 2 Gráfico de dispersão sobre a relação entre horas de estudo X e nota na disciplina de bioestatística y Fonte a autora Analisando a Figura 2 podemos observar que os alunos que se dedicaram estudando por mais horas tiveram um desempenho melhor e os que dedicaram menos horas ao estudo vieram a ter um desem penho pior na prova Entretanto podemos observar que temos algumas exceções como por exemplo o aluno C que dedicou 6 horas de estudo e sua nota foi 4 Isso significa que embora pareça existir uma correlação entre essas duas variáveis ela não é perfeita Para sabermos com mais precisão existe outra maneira que é avaliar a correlação e usar um coe ficiente que tem a vantagem de ser um valor numérico O coeficiente de correlação produtomomento r é uma medida da intensidade de associação existente entre duas variáveis quantitativas e sua fórmula de cálculo foi proposta por Karl Pearson em 1896 Por essa razão é também denominado coefi ciente de correlação de Pearson Por ter sido o primeiro a ser proposto vários outros foram criados depois muitas vezes r recebe simplesmente nome de coeficiente de correlação MARTINEZ 2015 p 85 O coeficiente de correlação pode variar entre 1 e 1 Quando temos valores negativos de r temos cor relação do tipo inversa ou seja à medida que X aumenta Y diminui Já quando temos valores positivos para r ocorrem quando a correlação é direta ou seja X e Y variam no mesmo sentido Por exemplo temos que as taxas sanguíneas de insulina e glicose apresentam correlação negativa enquanto a taxa do hormônio glucagônio tem correlação positiva com a glicemia MARTINEZ 2015 É importante salientar que quando temos uma correlação linear negativa não significa que é uma correlação ruim apenas o sentido do gráfico será decrescente O valor máximo tanto r 1 como r 1 é obtido quando todos os pontos do diagrama estão em uma linha reta inclinada Quando temos uma correlação linear igual a r 1 significa que temos uma correlação linear perfeita e positiva como você pode observar na Figura 3 UNICESUMAR UNIDADE 6 183 Figura 3 Correlação quando r 1 Fonte a autora Descrição da Imagem a figura é um gráfico de dispersão em que o eixo X está na horizontal que está de dois em dois de zero até dez e o eixo Y está na vertical que vai de zero a dez Ao observar a dispersão podese visualizar uma reta no sentido crescente porque r 1 Quando temos uma correlação linear igual r 1 significa que temos uma correlação linear perfeita e negativa como você pode observar na Figura 4 Nesse caso o r encontrado foi igual a 1 Descrição da Imagem na figura te mos um gráfico de dispersão em que o eixo X está na horizontal que está de dois em dois de zero até dez e o eixo Y está na vertical que vai de zero a dez Ao observar a dispersão po dese visualizar uma reta no sentido decrescente à medida que X cresce Y decresce pois r 1 Figura 4 Correlação quando r 1 Fonte a autora 184 Existem casos em que não existe correlação linear entre X e Y assim os pontos se distribuem de maneira que não temos uma relação podendo ser em formato de nuvens circulares ou formatos não definidos não tendo uma tendência crescente ou decrescente Figura 5 Figura 5 Correlação quando r 009 Fonte a autora Descrição da Imagem a figura é um gráfico de dispersão em que o eixo X está na horizontal que vai de zero a cinco e o eixo Y está na vertical que está de dois em dois de zero até doze Ao observar a disper são podemos observar que a figura não tem uma reta crescente nem decrescente pois o r é igual a 009 As associações X e Y de grau intermediário r entre 0 e 1 apresentamse como nuvens inclinadas de forma elíptica como podemos observar na Figura 6 Descrição da Ima gem a figura é um gráfico de dispersão em que o eixo X está na horizontal que está de dois em dois de zero até dez e o eixo Y está na vertical que está de dois em dois de zero até doze Ao observar a dispersão temos que os dados estão dispersos mas tem uma tendência crescente pois o r é igual a 065 Figura 6 Correlação quando r 065 Fonte a autora Mas o que significa esses valores de r Significa que à medida que o valor X cresce o valor de Y também cresce podemos visualizar essa tendência no gráfico UNICESUMAR UNIDADE 6 185 Outro exemplo a Figura 7 traz uma correlação igual a r 055 Figura 7 Correlação quando r 055 Fonte a autora Descrição da Imagem a figura apresenta um gráfico de dispersão em que o eixo X está na horizontal que está de dois em dois de zero até dez e o eixo Y está na vertical que está de dois em dois de 0 até doze Ao observar a dispersão temos que os dados estão dispersos mas têm uma leve tendência crescente pois o r é igual a 055 O que significa porém o valor 055 encontrado Então o coe ficiente de correlação nunca será maior que 1 e nem menor que 1 Dessa maneira os valores de r iguais a zero evidenciam que não há associação entre as variáveis X e Y Quando há valores próximos a zero sejam eles negativos ou positivos indicam uma correlação muito fraca entre as variáveis Já os valores de r próximos a 1 ou a 1 indicam associações fortes entre X e Y Portanto o valor r 055 indica uma correlação fraca ou forte Apesar de uma boa resposta a essa pergunta subjetiva para nos embasar temos alguns autores livros textos artigos científicos para nos ajudar a interpretar a magnitude de um coeficiente de correlação Segundo Zou Tuncali e Silverman 2003 a proposta para interpretação do coeficiente de correlação linear r pode ser observada na Tabela 4 186 Quando a correlação é linear a medição é feita pelo coeficiente de correlação linear de Pearson representado pela letra r quando for determinado a partir de uma amostra Esse coeficiente será uma estimativa do coeficiente de população p Esse coeficiente poderá variar entre 1 e 1 A correlação será tanto mais forte quanto mais pró ximo o coeficiente estiver desses valores e será tanto mais fraca quanto estiver próxima de zero podendo ser interpretada da seguinte maneira a Correlação linear positiva quando os valores crescentes de x estiverem associados a valores crescentes de y b Correlação nula r 0 quando não houver correlação linear c Correlação linear negativa quando os valores crescentes da variável x estiverem associados a valores decrescentes de y Tabela 4 Interpretação do coeficiente de correlação linear Valor do coeficiente de correlação linear r Direção e força da associação 10 Perfeita e negativa 08 Forte e negativa 05 Moderada e negativa 02 Fraca e negativa 0 Ausência de associativa 02 Fraca e positiva 05 Moderada e positiva 08 Forte e positiva 10 Perfeita e positiva Fonte adaptada de Zou Tuncali e Silverman 2003 Zou Tuncali e Silverman 2003 interpretam o sinal do coeficiente de correlação como a direção da associação Os coeficientes de correlação linear que são maiores do que zero apresentam correlações positivas quanto maior X maior Y e coeficientes menores que zero indicam correlações negativas quanto maior X menor Y Já a correlação igual a zero indica que não existe uma correlação linear É importante salientar que a interpretação de r pode variar de acordo com a experiência de autores principalmente as intermediárias 08 05 02 03 e outros o que não muda é que 1 e 1 são cor relações perfeitas e zero não há correlação linear UNICESUMAR 188 Agora que temos a equação que determina o coeficiente de Pearson vimos que se trata de uma equação bem complexa mas fique tranquiloa vamos resolver juntos o passo a passo Vejamos um exemplo um professor do curso de Enfermagem deseja saber se existe correlação entre o tempo dedicado ao estudo e o desempenho dos alunos na disciplina de Bioestatística Assim ele selecionou oito alunos em que podemos observar o número de horas X e nota obtida na prova de Bioestatística Y para cada aluno Tabela 5 Relação entre as horas de estudo e nota na disciplina de Bioestatística Acadêmico Horas de Estudo x Nota em Bioestatística y A 8 10 B 8 8 C 6 4 D 5 8 E 4 6 F 7 9 G 5 7 H 1 2 Fonte a autora Para filitar nosso cálculo você deve ter percebido que vamos precisar elevar todos os valores de X ao quadrado todos os valores de Y ao qadrado e somar tudo isso então vamos reescrever a tabela com essas colunas Observe a seguir Tabela 6 Tabela 6 Relação entre as horas de estudo e nota na disciplina de Bioestatística Acadêmico Horas de Estudo x Nota em Bioestatística y x2 y2 xy A 8 10 64 100 80 B 8 8 64 64 64 C 6 4 36 16 24 D 5 8 25 64 40 E 4 6 16 36 24 F 7 9 49 81 63 G 5 7 25 49 35 H 1 2 1 4 2 TOTAL 44 54 280 414 332 Fonte a autora UNICESUMAR 190 Você achou complicado utilizar essa equação Vamos te ajudar com uma maneira simples que você consegue tirar a prova real utilizando o Microsoft Excel mas lembrese agora você está em processo de aprendizagem e ao fazer cálculos passo a passo da forma algébrica você exercitará seu raciocínio lógico o que vai te ajudar a interpretar os dados e a tomar decisões Utilizando o Microsoft Excel basta reescrever a tabela na planilha vá em inserir função Estatísti ca Correl Irá abrir para você a função correl em seguida no item matriz um selecione todas as notas da variável X sem cabeçalho e total clique em matriz 2 e selecione todas as notas da variável Y sem cabeçalho e total Ok Quando falamos em relações lineares entre as variáveis X e Y significa que quando utilizamos o coeficiente de correlação de Pearson estamos nos referindo a uma situação em que uma variável é diretamente ou inversamente proporcional à outra CRESPO 2009 Vimos no nosso exemplo que quanto às horas dedicadas a estudos têm uma relação forte com a nota da disciplina de Bioestatística Portanto é de fundamental importância construir um gráfico de dispersão entre as variáveis antes de calcularmos o coeficiente de correlação que já fizemos anteriormente na Figura 2 e então obser varmos se é realmente adequado utilizarmos essa medida de associação Figura 9 Gráfico de dispersão sobre a relação entre horas de estudo X e nota na disciplina de Bioestatística Y Fonte a autora Descrição da Imagem a figura apresenta um gráfico de dispersão em que o eixo X está na horizontal representando as horas de estudo dos alunos que está de duas em duas horas de zero até doze e no eixo Y que está na vertical temos as notas distribuídas dos oitos alunos que está de zero até dez UNICESUMAR UNIDADE 6 191 Também podemos ter situações que temos valores atípicos ou seja que podemos chamar de fora da linearidade O que fazemos com esses valores podemos excluir ajustar A resposta a essa pergunta não é simples Em nenhuma situação podemos eliminar observações de nosso banco de dados com o propósito de deixar os resultados mais interessantes ou de destacar possíveis associações entre as variáveis que valorizariam nosso estudo principalmente na área biológica e da saúde que podem trazer dados que podem orientar o direcionamento de uma pesquisa além de não ser uma conduta ética por parte do pesquisador Para isso é importante que você vá novamente aos dados coletados faça comparação com os dados da pesquisa de campo verifique os questionários prontuários a fonte original dos dados para então verificar a possibilidade de erros de digitação ou anotação Ainda que não fosse esse o erro encontrado não é correto eliminálo arbitrariamente É de suma importância buscar outras informações sobre aquele dado para que possa entender se realmente ele pertence àquela popu lação de interesse do estudo Se a dispersão que é apresenta no gráfico permite visualizar uma reta imaginária passando pe los pontos entendemos que há a sugestão de uma relação linear ainda que essa reta tenha uma inclinação pequena Um erro comum entre as pessoas que estão aprendendo bioestatística é pensar que o coeficiente de correlação serve para testar se há uma relação linear entre as variáveis X e Y Quando usamos o coeficiente de correlação já partimos do princípio de que a possível relação entre as variáveis se dá de forma linear por isso a importância do gráfico de dispersão assim o coeficiente de Pearson serve para medir o tamanho dessa associação linear e não para verificar se há linearidade na relação entre X e Y Depois que calculamos a correlação linear podemos ter o interesse em determinar a Regressão Linear A análise de regressão explicita em uma equação matemática a forma da relação entre uma variável chamada dependente e uma ou mais variáveis chamadas independentes ou seja quando temos o interesse no estudo da regressão aplicase aquelas situações em que há razões para supor uma relação de causaefeito entre duas variáveis quantitativas e se deseja expressar matematicamente essa relação O termo regressão devese a Francis Galton que publicou em 1886 um artigo no qual tentou explicar por que pais de alta estatura tinham filhos com estatura em média mais baixa do que a deles e pais de baixa estatura tinham filhos em média mais altos Esse fenômeno foi chamado de regressão à média termo que apesar de inadequado para expressar a dependência entre duas variáveis quantitativas acabou sendo incorporado pelo uso à linguagem estatística MARTINEZ 2015 p 103 196 Podemos observar que como o valor de r encontrado anteriormente foi igual a 080 e o valor de bx é positivo nossa reta ajustada tem sentido crescente Caso nosso valor de r fosse negativo nossa reta ajustada teria o sentido decrescente Resumindo para fazer essa análise de correlação e regressão linear de duas variáveis X e Y podemos seguir os passos a seguir Faça o gráfco de dispersão para isso faça a plotagem de X e Y em um gráfco e observe se exixte alguma relação Caso exista siga para o passo 2 Calcule o coefciente de Pearson Utilize a equação r Para facilitar coloque os dados em uma tabela com colunas complementares e faça os cálculos Substitua valores na equação de r Após analisar os resultados faça equação da reta e encontre a regressão linear A partir daqui você pode encontrar Y estimado para X conhecido 1 Passo 2 Passo 3 Passo Figura 11 Passo a passo com o resumo do cálculo da correlação e regressão linear Fonte a autora Descrição da Imagem na imagem temos os três passos sendo lidos no sentido horizontal temse Primeiro Passo faça o gráfico de dispersão para isso faça a plotagem de X e Y em um gráfico e observe se existe alguma relação caso exista siga para o passo dois Na segunda parte temos Segundo Passo calcule o coeficiente de Pearson utilize a equação r para facilitar coloque os dados em uma tabela com colunas complementares e faça os cálculos substitua valores na equação de r Na terceira parte temse Ter ceiro Passo após analisar os resultados faça a equação da reta e encontre a regressão linear A partir daqui você pode encontrar Y estimado para X conhecido Como você pôde observar basta seguir os três passos para ter a correlação e regressão linear só não esqueça que matematicamente você precisará lembrar de expressões numéricas para resolver Mas por quê Será preciso resolver uma expressão numérica com parênteses elevar valores ao quadrado e multiplicar para isso tenha muita atenção O mais importante é entender a importância deste assunto para a área de saúde bem como suas aplicações UNICESUMAR UNIDADE 6 197 Neste podcast vamos conversar um pouco sobre correlação e regressão linear Você parou para pensar qual a importância da Bioestatística na formação de um profissional de Saúde Vimos que a pandemia mudou totalmente nossas vidas e isso não é nada diferente para o profissional de saúde que além de entender bem de sua área nos conteúdos específicos esse profissional precisou aprender a lidar com situações que envolvessem números tomada de decisões e precisou acompanhar também dados numéricos gráficos todas as questões que envolvem a Bioestatística Vamos falar isso nessa nossa Roda de Conversa vem com a gente Título Bioestatística para os cursos de graduação da saúde Autor Edson Z Martinez Editora Blucher Sinopse esse livro traz conceitos básicos e importantes voltados à Bioesta tística fundamentais para a compreensão das ferramentas de descrição de dados e análises voltadas a área da saúde Traz questões voltadas à parte descritiva da bioestatística além de testes de correlação e regressão linear Você pode analisar o artigo a seguir Estudo da correlação entre aleita mento e estado de saúde materno que fala sobre a eficácia do aleita mento materno e o estado de saúde de 88 mães na região sul do Brasil vale a pena a leitura O ano de 2020 trouxe uma situação de pandemia que profissionais da área de saúde precisaram lidar com gráficos com situações prováveis de acontecer acompanhar os dados epidemiológicos e entender Assim fazse importante que profissionais de saúde tenham formação sólida nos conceitos de Bioes tatística e isso será ainda mais crucial em breve Nesse momento estudamos a correlação e a regressão linear e vimos que podemos estimar valores de Y a partir de um X conhecido e que isso pode ser de interesse em pesquisa na área de saúde 198 Faça um mapa com os resumos do que viu até aqui com as palavraschave é uma forma de se autoavaliar Reta de Regressão Correlação e Regressão Linear Cálculo do Coeficiente de Pearson Gráfico de dispersão Correlação Negativa Correlação Positiva r negativo r positivo Forte ou Fraca Forte ou Fraca 199 1 Uma professora que está trabalhando a disciplina de Bioestatística no curso de Enfermagem quer entender se existe uma relação entre as disciplinas de Anatomia e Fisiologia Para enten der o desempenho dos alunos a professora pegou as notas de oito alunos e fez um gráfico de dispersão para analisar a disciplina Podemos observar esse gráfico a seguir Figura 1 Relação entre as disciplinas de Anatomia e Fisiologia no curso de Enfermagem Fonte a autora Descrição da Imagem temos a nota de anatomia no eixo X horizontal que está de dois em dois de dois a dez e fisiologia no eixo Y vertical que está de zero a dez na qual podemos observar uma reta crescente entre os pontos de correlação Diante do exposto analise as afirmativas a seguir I Ao plotar o gráfico de dispersão podemos dizer que existe uma relação entre as disciplinas de Anatomia e Fisiologia para essa turma II Ao plotar o gráfico de dispersão podemos afirmar que a relação existente é negativa III À medida que as notas de Anatomia caem as notas de Fisiologia aumentam IV A relação entre as disciplinas de Anatomia e Fisiologia é positiva É correto o que se afirma em a I e II apenas b II e III apenas c I e IV apenas d I II e III apenas e II III e IV apenas 200 2 Um professor da disciplina de Bioestatística fez uma pesquisa com os seus alunos para veri ficar se existe a relação entre a altura e o peso dos seus alunos com o objetivo de fazer um experimento em sala de aula para que os alunos entendam o cálculo de correlação e regres são linear Para isso o professor fez uma entrevista com 30 alunos fez a coleta de dados inseriu em uma planilha e ao analisar a correlação linear por meio do cálculo do coeficiente de Pearson chegou ao valor de r 088 Com base neste resultado podemos concluir que a Existe uma relação forte e positiva entre a altura e o peso uma vez que o coeficiente de correlação de Pearson apresentou um valor muito próximo de 1 b Não existe uma relação forte entre altura e o peso uma vez que o coeficiente de correlação de Pearson apresentou um valor muito próximo de 1 c Existe uma fraca relação entre altura e o peso uma vez que o coeficiente de correlação de Pearson apresentou um valor muito próximo de 1 d Não existe uma relação entre altura e o peso uma vez que o coeficiente de correlação de Pearson deveria apresentar valores mais próximos de zero para ser considerada uma relação forte e Para que exista uma relação forte entre altura e o peso o coeficiente de Pearson encon trado deveria ser entre 01 a 025 3 Um experimento em que foram analisadas duas variáveis a correlação linear de Pearson é igual a 080 Como a relação é forte a equação da reta foi estimada em Y 043x 51 Com base nestas informações se o valor de X for igual a 6 o valor de Y será igual a assinale a alternativa correta a 725 b 768 c 795 d 825 e 925 201 Tabela 1 Gastos em R com propaganda e aumento em vendas Meses Custo em R Vendas Janeiro R 500000 R 1200000 Fevereiro R 650000 R 1400000 Março R 700000 R 1800000 Abril R 850000 R 2500000 Fonte a autora Dado que a correlação encontrada foi de r 099 a seguir avalie as situações propostas e assinale V para Verdadeiro e F para Falso I Não existe uma correlação linear entre o investimento em propaganda e o aumento das vendas II Caso seja traçado um gráfico de dispersão entre os custo e aumento nas vendas vamos observar um gráfico crescente e positivo III Podemos observar o aumento das vendas com uma relação nos gastos que a empresa fez com propaganda As afirmações I II e III são respectivamente a F V V b F F F c V V V d V V F e V F V 4 Uma empresa que fabrica rações está lançando um novo produto no mercado está inves tindo em propaganda e quer analisar como está a relação entre o custo x e as vendas y O economista da empresa coletou os seguintes valores gastos com propaganda e volume de vendas de um período de quatro meses 7 Nesta unidade vamos trabalhar com a inferência estatística que se trata de trabalharmos com amostra e com base no estudo das amostras poder fazer conclusões acerca da população A Bioesta tística traz oportunidades como sendo uma ferramenta para pro fissionais da área da saúde por exemplo nas pesquisas clínicas Uma pesquisa clínica na maioria das vezes foi feita por meio de inferência estatística sobre a população com base em informações obtidas a partir de amostras Um exemplo simples disso é uma análise de sangue de rotina Com base no resultado obtido de uma amostra de sangue conseguimos fazer inferência para o corpo hu mano se a pessoa tem determinada patologia ou não e tudo isso é objeto da Bioestatística Inferência Estatística Me Renata Cristina de Souza Chatalovv 204 Você sabia que podemos fazer pesquisas utilizando amostras e fazendo projeções para populações Você sabia que o perfil de saúde ou perfil epidemiológico de uma população é um estudo realizado para identificar o quadro geral de saúde de uma população específica Que os testes estatísticos nos permi tem verificar as hipóteses se são verdadeiras ou não a respeito da população com um erro associado Em um estudo epidemiológico o pesquisador fará uma coleta de dados com uma amostra repre sentativa da população e isso pode ser feito pelo cálculo de tamanho da amostra e podem ser aplicados testes com intervalos de confiança para se fazer uma análise daquela amostra e fazer projeções para a população Para isso é importante que a coleta da amostra seja representativa para que o resultado realmente traga informações acerca da população precisando evitar a extrapolação que é um processo de obter os valores fora de um intervalo mediante o conhecimento de seu comportamento dentro desse intervalo a partir de um modelo e isso pode ser feito por meio de testes de hipóteses Você já viu algumas afirmativas como por exemplo a estatura média do brasileiro é de 165 m E se não for Você já testou essa hipótese afirmativa Faça um experimento pergunte a cinco pessoas na rua no seu trabalho algum vizinho qual é a temperatura média do corpo humano Anote estes valores Aqui você já pode perceber que a Bioestatística vai além de trazer números e organizações de tabela e gráficos você vai perceber que ela faz parte da pesquisa e te ajuda a tirar conclusões Voltando ao nosso experimento agora que você já anotou qual a temperatura média do corpo humano Se temos uma pesquisa com 106 pessoas encontrando uma temperatura média de 368ºC e o desvio padrão de 035ºC podemos realmente acreditar que a temperatura média do corpo humano é igual a que você encontrou em sua pesquisa Ou não UNICESUMAR UNIDADE 7 207 Outro conceito importante que precisamos estudar aqui na inferência estatística é o parâmetro Parâmetro é essencial para entendermos a inferência estatística Tratase de valor calculado a partir de uma população ou seja usando todos os elementos MARTINEZ 2015 Por exemplo um professor de Farmácia quer estudar a altura em cm das crianças que estão cursando a 1ª série em um determinado município A população inclui todas as crianças deste município A média da altura encontrada em cm que é calculada a partir da análise do peso de todas as crianças da população é um parâmetro Pedimos que tome cuidado para não confundir o parâmetro com variável O parâmetro como já vimos é uma característica numérica de uma população já uma variável é uma característica dos indivíduos que estamos pesquisando Segundo Parenti Silva e Silveira 2017 o parâmetro é um número fixo já os valores de uma variável são passíveis de variação de um indivíduo a outro Por exemplo dentre os alunos estudados a idade prato preferido são va riáveis já a média da altura de todos os alunos de uma determinada cidade é um parâmetro Nem sempre na prática vamos conseguir trabalhar com parâmetros vamos acabar trabalhando com amostra Assim a média amostral que é resultante de uma amostra de tamanho n é uma estimativa da média populacional Dessa maneira as estimativas são quantidades calculadas da amostra com a finalidade de representar um parâmetro de interesse MARTINEZ 2015 As diferenças entre uma média populacional parâmetro e a média amostral estimativa são denotadas por a média populacional representada pela letra grega µ b média amostral representada por xis barra X 208 Quando conduzimos uma pesquisa com base em uma amostra de n indivíduos podemos calcular o valor de x com base nas observações amostrais Mas obviamente não pode mos calcular o valor de n dado que não temos à nossa disposição todos os elementos da população Assim entendemos que o parâmetro é um número fixo mas geralmente não conhecemos seu valor MARTINEZ 2015 p 166 Assim as principais ferramentas da inferência estatística são os intervalos de confiança e os testes de hipóteses Podemos utilizar da seguinte forma a Intervalos de confiança utilizamos quando o objetivo do estudo é voltado à estimação de um parâmetro b Testes de hipóteses utilizados quando o objetivo do estudo envolve hipóteses sobre um parâmetro de interesse O intervalo de confiança para a média λ de uma população é construído em torno da estimativa pontual X Uma estimativa pode ser por ponto ou por intervalo A estimativa por ponto é um valor obtido a partir de cálculos efetuados com os dados de uma amostra pesquisada como por exemplo a média aritmética Ou seja a média aritmética é um estimador pontual e o seu valor é uma estimativa Uma estimativa por intervalor para determinado parâmetro é uma faixa de valores possíveis e aceitos como verdadeiros dentro da qual se estima que se encontre tal parâmetro Essa faixa de valores chamamos de intervalo de confiança IC É possível que o valor do parâmetro em análise não se encontre dentro do intervalo de confiança ou seja ao se determinar o tamanho de um intervalo de confiança deveremos associar a ele um percentual que exprima qual é a confiança de que o valor do parâmetro está no seu interior A esse percentual damos o nome de nível de confiança e costuma ser um número próximo a 10 Por exemplo 95 ou 96 ou algo próximo destes valores Mas como determinamos um intervalo de confiança Para construir esse intervalo fixamos uma probabilidade 1 α de que o intervalo construído contenha o parâmetro populacional Desta forma α será a probabilidade de que o intervalo obtido não contenha o valor do parâmetro isto é α será a probabilidade de erro Sabendose que a média da amostra apresenta uma distribuição normal média e desvio padrão se a população de onde for extraída a amostra for normal ou se a amostra for superior a 30 e retirada de qualquer po pulação de média e de desvio padrão σ podemos então utilizar a curva normal para estabelecer os limites para o intervalo de confiança BARBETTA 2014 Para entendermos melhor o intervalo de confiança temos que entender que a margem de erro é a sua peçachave ou seja no meio do intervalo de confiança é que fica a média amostral Observe na equação a seguir µ σ n µ UNICESUMAR UNIDADE 7 211 Uma dica muito importante valores de Zcrítico para o grau de confiança a 90 1645 b 95 196 c 99 2575 Esses valores já foram retirados da Tabela Z e são os mais utilizados Fica a dica Fonte Crespo 2009 p 218 Encontramos o valor de 196 Você poderá encontrar qualquer valor utilizando somente a Tabela Z 2º passo agora vamos até a Tabela Z e encontrar o valor referente a 04750 só que desta vez nós procuramos os valores e vamos achar Z veja a seguir Tabela 2 Tabela de distribuição Normal Reduzida Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 UNIDADE 7 213 Tabela 3 Tabela de distribuição Normal Reduzida Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 21 04821 04826 04830 04834 04838 04842 04846 04850 04854 04857 22 04864 04864 04868 04871 04875 04878 04881 04884 04887 04890 Fonte Crespo 2009 p 218 Procuramos o valor na tabela e qual o valor de Z para este valor de área da curva e encontramos 224 Vamos utilizar como Zc 224 substituindo na equação temos 2 24 2 81 2 24 2 9 2 24 0 0 22 0 4977 Zc n σ UNIDADE 7 215 Assim como a distribuição normal a distribuição T de Student também é tabelada Para utilizar é preciso entender o grau de liberdade porque ele varia de acordo com a amostra O grau de liberda de encontramos na coluna gl Entramos com α ou α2 dependendo do teste O α analisamos nas co lunas probabilidade unicaudal de t de Student Importante frisar que assim como as tabelas de distribuição normal temos vários tipos de tabela e geralmente elas vêm com uma figura na sua parte superior caso você procure pela internet ou em livros didáticos da área de Bioestatística e essa figura é muito importante porque ela vai ajudar entender o que esse valor dentro da tabela significa Nossa tabela é unicaudal delimita em uma única cauda a área α delimitando essa re gião Mas se queremos encontrar um intervalo de confiança precisamos ter essa região α distribuída nas duas caudas Então temos que ter outra região α2 portanto para usar essa tabela vamos entrar com valor α2 porque somando o valor das duas caudas tenho o valor que o exercício me pede Tabela 4 Distribuição t de Student Probabilidade unicaudal de t de Student gl 1 1000 1886 1943 1895 1860 1833 1812 1796 1782 1771 1761 1753 1746 1740 1734 1729 1725 1721 1717 1714 1711 1708 1706 1703 1701 1699 1690 1697 1684 1684 1676 1645 1638 1533 1476 1440 1415 1397 1383 1372 1363 1356 1350 1345 1341 1337 1333 1330 1328 1325 1321 1319 1318 1316 1315 1314 1313 1311 1310 1306 1303 1301 1299 1282 1323 3078 6314 4303 3182 2776 2571 2447 2365 2306 2262 2228 2201 2179 2160 2145 2131 2120 2110 2101 2093 2086 2080 2074 2069 2064 2060 2056 2052 2048 2045 2042 2030 2021 2014 2009 1960 1271 3182 6366 1273 3183 2233 1021 7173 5894 5208 4785 4501 4297 4144 4025 3930 3852 3787 3733 3686 3646 3610 3579 3552 3527 3505 3485 3467 3450 3435 3421 3408 3396 3385 3340 3307 3281 3261 3090 1409 7453 5598 4773 4317 4029 3833 3690 3581 3497 3428 3372 3326 3286 3252 3222 3197 3174 3153 3135 3119 3104 3091 3078 3067 3057 3047 3038 3030 2996 2971 2952 2937 2807 9923 5841 4604 4032 3707 3499 3355 3250 3169 3106 3055 3012 2977 2947 2921 2898 2878 2861 2845 2831 2819 2807 2797 2787 2779 2771 2763 2756 2750 2724 2704 2690 2678 2576 6965 4541 3747 3365 3143 2998 2896 2821 2764 2718 2681 2650 2624 2602 2583 2567 2552 2539 2528 2518 2508 2500 2492 2485 2479 2473 2467 2462 2457 2438 2423 2412 2403 2326 2920 2353 2132 2015 0816 0765 0741 0727 0718 0711 0706 0703 0700 0695 0694 0692 0691 0690 0689 0688 0688 0687 0686 0686 0685 0685 0684 0684 0684 0683 0683 0683 0682 0681 0680 0679 0674 0697 025 010 005 0025 001 0005 00025 0001 00005 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 z 6366 3160 1292 8610 6869 5959 5408 5041 4781 4587 4437 4318 4221 4140 4073 4015 3965 3922 3883 3850 3819 3792 3768 3745 3725 3707 3689 3674 3660 3646 3591 3551 3520 3496 3291 Área indicada t valor tabelado α Nota A coluna em destaque é a mais usada Fonte Barbetta 2014 p 230 216 Figura 3 Representação do teste bicaudal para Tabela t Student Fonte a autora Figura 4 Representação para Tabela t Student Fonte a autora A soma das caudas da curva é igual ao valor de p ou seja o nível de significância α corresponde ao valor 1 p Podemos observar as características desta distribuição na Figura a seguir α2 α2 Intervalo de confiança Descrição da Imagem a figura apresenta em seu topo central a inscrição Intervalo de confiança acompanhada logo abaixo de uma curva em formato de sino dividida em duas partes iguais e as pontas do eixo estão pintadas destacandose pela cor cinza com duas setas destacando esses eixos Em ambos os eixos está escrito α2 Descrição da Imagem a figura apresenta uma curva em formato de sino dividida em duas partes iguais e as pontas do eixo es tão pintadas destacandose pela cor cinza com duas setas destacando esses eixos representando 25 em cada eixo O eixo do meio é igual a 95 25 25 95 Para entender melhor vejamos um exemplo Uma amostra de dez pessoas com as idades 9 8 12 7 9 6 11 6 10 e 9 tem em média 87 e um desvio padrão 2 e foi extraída de uma população Normal Construa um intervalo de confiança para média ao nível de 95 Para resolver nosso exercício temos que encontrar nosso tcrítico assim temos 95 é nosso intervalo de confiança Como nossa área interessada para trabalhar com essa tabela são as caudas vamos ter que encontrar esse valor Se a área é 95 temos 1 α 1 095 005 Será esse 005 que vamos procurar na Tabela t de Student Para entender como são distribuídos o intervalo e o α a figura a seguir traz essa representação para termos os 100 faltam 5 certo São esses 5 que são divididos nas caudas UNICESUMAR UNIDADE 7 217 Como você pode perceber os 95 é o que temos no nosso exercício e os 5 foram divididos nas duas áreas do gráfico representando 25 em cada cauda No entanto para utilizar a tabela t Student 25 que corresponde a cada cauda e que está apresen tado na própria tabela a figura com a área indicada Apenas mais um detalhe antes de ir à tabela é importante que você entenda que o grau de liberdade é igual a n 1 portanto temos 10 elementos para o grau de liberdade teremos 101 9 Assim vamos buscar 9 no que diz respeito ao grau de liberdade Vamos procurar linha 9 e coluna 25 na tabela vamos procurar α 0025 Vejamos a seguir Área indicada t valor tabelado α Área na cauda superior gl 1 1000 1886 1943 1895 1860 1833 1812 1796 1782 1771 1761 1753 1746 1740 1734 1729 1725 1721 1717 1714 1711 1708 1706 1703 1701 1699 1690 1697 1684 1684 1676 1645 1638 1533 1476 1440 1415 1397 1383 1372 1363 1356 1350 1345 1341 1337 1333 1330 1328 1325 1321 1319 1318 1316 1315 1314 1313 1311 1310 1306 1303 1301 1299 1282 1323 3078 6314 4303 3182 2776 2571 2447 2365 2306 2262 2228 2201 2179 2160 2145 2131 2120 2110 2101 2093 2086 2080 2074 2069 2064 2060 2056 2052 2048 2045 2042 2030 2021 2014 2009 1960 1271 3182 6366 1273 3183 2233 1021 7173 5894 5208 4785 4501 4297 4144 4025 3930 3852 3787 3733 3686 3646 3610 3579 3552 3527 3505 3485 3467 3450 3435 3421 3408 3396 3385 3340 3307 3281 3261 3090 1409 7453 5598 4773 4317 4029 3833 3690 3581 3497 3428 3372 3326 3286 3252 3222 3197 3174 3153 3135 3119 3104 3091 3078 3067 3057 3047 3038 3030 2996 2971 2952 2937 2807 9925 5841 4604 4032 3707 3499 3355 3250 3169 3106 3055 3012 2977 2947 2921 2898 2878 2861 2845 2831 2819 2807 2797 2787 2779 2771 2763 2756 2750 2724 2704 2690 2678 2576 6965 4541 3747 3365 3143 2998 2896 2821 2764 2718 2681 2650 2624 2602 2583 2567 2552 2539 2528 2518 2508 2500 2492 2485 2479 2473 2467 2462 2457 2438 2423 2412 2403 2326 2920 2353 2132 2015 0816 0765 0741 0727 0718 0711 0706 0703 0700 0695 0694 0692 0691 0690 0689 0688 0688 0687 0686 0686 0685 0685 0684 0684 0684 0683 0683 0683 0682 0681 0680 0679 0674 0697 025 010 005 0025 001 0005 00025 0001 00005 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 z 6366 3160 1292 8610 6869 5959 5408 5041 4781 4587 4437 4318 4221 4140 4073 4015 3965 3922 3883 3850 3819 3792 3768 3745 3725 3707 3689 3674 3660 3646 3591 3551 3520 3496 3291 Tabela 5 Distribuição t de Student Nota A coluna em destaque é a mais usada Fonte Barbetta 2014 p 230 Assim o valor encontrado é igual a 2262 Agora que temos o valor de tc vamos resolver nosso exercício Resolvendo nosso exercício voltando à equação temos 220 Teste bilateral A região crítica está nas duas regiões extremas caudas sob a curva Figura 5 Figura 5 Teste bilateral Fonte a autora Existem dois tipos possíveis de erros quando fa zemos um teste estatístico para aceitar ou rejeitar H0 Nós podemos rejeitar a hipótese H0 quando ela é verdadeira ou aceitar H0 quando ela é falsa MARTINEZ 2015 a saber O erro do tipo 1 quando rejeitamos H0 mesmo ela sendo verdadeira O erro do tipo 2 quando aceitamos H0 sendo H0 falsa O erro do tipo 1 é o mais prejudicial por isso é importante que seja evitado O limite superior de erro que admitimos cometer no tipo 1 é um percentual a que denominamos nível de signi ficância e que representamos pela letra grega α Exemplo α 5 Dentro do teste de hipóteses temos as regiões de aceitação e rejeição a saber Região de Aceitação RA é a região na qual se aceita a hipótese nula H0 Região de Rejeição RR é a região de rejeição da hipótese nula H0 sen do complementar à região de aceitação É também chamada de Região Crítica RC Como tipos de testes de hipóteses temos Bila teral Unilateral à Esquerda Unilateral à Direita sendo a região crítica ou região de rejeição que corresponde aos valores da estatística de teste que nos levam a rejeitar a hipótese nula Dependendo da afirmativa em teste a região crítica poderia estar nas duas caudas extremas poderia estar na cauda esquerda ou poderia es tar na cauda direita fz RA RR RR Zα2 Zα2 0 Descrição da Imagem a figura apresenta uma curva em for mato de sino Gauss dividida em duas partes iguais sendo a RA Região de Aceitação no centro do eixo e nas pontas deste temos duas extremidades como RR Região de Rejeição Na zona de RR do lado esquerdo da figura que representa a parte negativa está escrito α2 no lado direito da figura na outra extremidade no lado positivo está escrito α2 Teste unilateral à direita A região crítica está na região extrema cauda direita sob a curva Figura 6 Figura 6 Teste unilateral à direita Fonte a autora fz RA RR Zα 0 Descrição da Imagem a figura apresenta uma curva em formato de sino Gauss dividida em duas partes iguais sendo a RA Re gião de Aceitação na região direita dividida com um traço e sua extremidade direita temos a RR Região de Rejeição Na zona de RR do lado direito da figura no lado positivo está escrito α2 UNICESUMAR UNIDADE 7 221 Depois de apresentarmos os conceitos funda mentais dentro de um teste de hipótese você verá que não é um teste complicado a seguir vamos apresentar o roteiro para realização de um teste de hipóteses 1º passo Estabelecer a hipótese nula H0 2º passo Estabelecer a hipótese alternativa H1 3º passo Fixar o nível de significância α na qual definimos o nível de confiança para um intervalo de confiança como a probabilidade 1 α Escolhas comuns para α são 005 001 e 010 com 005 sendo a mais comum Os valores críticos de z relativos aos níveis de sig nificância usados com maior frequência podem ser observados a seguir valores já retirados da Tabela Z de distribuição normal reduzida Teste unilateral à esquerda A região crítica está na região extrema cauda esquerda sob a curva Figura 7 Figura 7 Teste unilateral à esquerda Fonte a autora Descrição da Imagem a figura apresenta uma curva em formato de sino Gauss dividida em duas partes iguais sendo a RA Região de Aceitação na região direita dividida com um traço e sua extremidade esquerda temos a RR Região de Rejeição Na zona de RR do lado esquerdo da figura que representa a parte negativa está escrito α2 fz RA RR Zα 0 Nível de significância α 010 005 001 Valores críticos de z para testes unilaterais 128 1645 233 Valores críticos de z para testes bilaterais 164 196 258 4º passo Determinar a região de rejeição da hipótese nula 5º passo Extrair a amostra e calcular o valor da estatística correspondente 6º passo Rejeitar ou aceitar H0 conforme o valor da estatística amostral cair em RR ou RA Vejamos um exemplo para entender melhor o teste de hipóteses Um professor de biomedicina fez uma pes quisa com um componente que será utilizado em laboratório que tem uma vida média de 50 meses e um desvio padrão de 50 meses Ao retirar uma amostra de 36 componentes que foram obtidas a partir dessa população per cebeu que o componente tem média 48 meses de vida Assim utilizando o teste de hipóteses podemos afirmar que a média desta população é diferente de 50 Considere o nível de 5 para resolução Nesse caso queremos obter o teste de hipóte ses com uma média diferente de 50 certo Então vamos utilizar o teste bilateral Resolvendo o exer cício passo a passo temos UNIDADE 7 223 Figura 9 Resumo do teste de hipóteses Fonte a autora Escreva a hipótese nula H0 e a hipótese alternativa H1 Para H0 você deve usar os símbolos ou Para H1 use ou Calcule o valor obsrvado Z obsevado t observado Aqui vamos usar tabela Z distribuição normal Aplique a fórmula Faça um gráfco de distribuição De acordo com a hipótese alternativa marque a região crítica do teste Lembrese Teste bilateral H1 possui símbolo Teste unilateral à esquerda H1 possui símbolo Teste unilateral à direita H1 possui símbolo 1 Passo 2 Passo 3 Passo Obtenha o valor do crítico de acordo com o nível de signifcância e com a região crítica utilizando a distribuição correspondente Marque o valor observado no gráfco Conclua o teste se o valor observado pertence a região de rejeição rejeite H0 aceite H1 se o valor observado não pertence a região de rejeição rejeite H1 4 Passo 5 Passo 6 Passo Descrição da Imagem a figura traz os sete passos do teste de hipóteses fazendo a leitura da esquerda para direita 1º passo Escreva a hipótese nula H0 e a hipótese alternativa H1 Para H0 você deve usar os símbolos ou Para H1 use ou 2º passo Faça um gráfico de distribuição De acordo com a hipótese alternativa marque a região crítica do teste Lembrese Teste bilateral H1 possui símbolo Teste unilateral à esquerda H1 possui símbolo Teste unilateral à direita H1 possui símbolo 3º passo Faça um gráfico de distribuição De acordo com a hipótese alternativa marque a região crítica do teste Lembrese Teste bilateral H1 possui símbolo Teste unilateral à esquerda H1 possui símbolo Teste unilateral à direita H1 possui símbolo 5º passo Marque o valor observado no gráfico 6º passo Conclua o teste se o valor observado pertence à região de rejeição rejeite H0 aceite H1 se o valor observado não pertence à região de rejeição rejeite H1 Para entendermos melhor vamos fazer um resumo do passo a passo do teste de hipóteses 224 Vejamos mais exemplo Supondo que a média salarial de diretores de uma clínica é menor que a de seu concorrente que é R 4500000 Uma amostra aleatória de 30 diretores de unidades da clínica é de R 4350000 Sabese que pesquisas anteriores mostraram que o desvio padrão dos salários é de R 520000 Teste a afirmação dos funcionários ao nível de significância de 5 Fazendo o passo a passo temos 1º passo Estabelecer a hipótese nula H0 H0 µ 45000 2º passo Estabelecer a hipótese alternativa H1 H1 45000 Lembrese para hipótese nula os símbolos que você poderá usar são Para H0 você deve usar os símbolos ou Para H1 use ou 3º passo No exercício foi dado 5 portanto o nível de significância α 005 4º passo Determinar a região de rejeição da hipótese nula H1 45000 vamos utilizar o teste unilateral à esquerda porque vamos testar a hipótese como valores menores do que 45000 que está no enunciado na qual podemos observar a Figura 10 Descrição da Imagem a figura apresenta uma curva em formato de sino Gauss dividida em duas partes iguais sendo a RA Região de Aceitação na região direita dividida com um traço e sua extremidade esquerda temos a RR Região de Rejeição Na zona de RR do lado esquerdo da figura que representa a parte negativa está escrito α2 Figura 10 Teste unilateral à esquerda Fonte a autora fz RA RR Zα 0 UNICESUMAR 226 Para saber o valor de Z vamos buscar na tabela de distribuição normal reduzida 04500 Para isso temos Tabela 6 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Ao observar na Tabela Z não temos o valor de 04500 exato temos dois valores que se aproximam 04495 e 04505 diante disso tiramos uma média entre os valores de z encontrados 164 e 165 temos portanto 1645 Agora que temos o valor de zcaculado e ztabelado vamos colocálo no gráfico para visualizar se vamos aceitar ou rejeitar H0 Figura 12 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 21 04821 04826 04830 04834 04838 04842 04846 04850 04854 04857 22 04864 04864 04868 04871 04875 04878 04881 04884 04887 04890 UNICESUMAR UNIDADE 7 227 Você sabia que a inferência estatística utiliza métodos estatístico em dados amostrais e em seguida tira conclusões sobre população inte ressada A partir de teste de hipóteses podemos fazer estes testes em outras palavras a inferência estatística busca inferir caracterís ticas de uma população interesse por meio de uma amostra Nossa roda de conversa vai trazer aplicações e a importância da inferência estatística na área de saúde 1645 RR 158 Descrição da Imagem a figura apresenta uma curva em formato de sino Gauss dividida em duas partes iguais sendo a RA Região de Aceitação na região direita dividida com um traço em sua extremidade esquerda temos a RR Região de Rejeição Na RR temos o valor de 1645 na RA temos 158 Figura 12 Teste unilateral à esquerda Fonte a autora Ao observar a Figura 11 o valor para rejeição ou valor crítico é o valor de ztabelado portanto 1645 E o valor de z calculado 158 está na re gião de aceitação Podemos observar que está fora da região crítica o valor calculado Então vamos aceitar H0 e rejeitar H1 6º passo Rejeitar ou aceitar H0 conforme o valor da estatística amostral cair em RR ou RA Então vamos aceitar H0 e rejeitar H1 Nesse exer cício temos Ao nível de 5 não há evidências que os sa lários médios dos funcionários sejam inferiores ao dos correntes 228 Você sabia que profissionais da saúde também fazem pesquisas e com isso precisam de ferramentas estatísticas E que o uso inadequado de es tatística pode trazer muitos erros de interpretação de artigos científicos Saiba mais fazendo a leitura do artigo com a autoria de Célio F de Sousa Rodrigues Fernando José Camello de Lima e Fabiano Timbó Barbosa intitulado de Importância do uso adequado da estatística básica em pesquisas clínicas que teve como objetivo trazer um artigo de revisão bibliográfica para alertar autores e leitores sobre a importância do relato adequado e uso de ferramentas da estatística no qrcode a seguir É muito importante que profissionais da área de saúde façam pesquisas e para isso a Bioes tatística traz muitas formas de servir como ferramenta para estas pesquisas por isso fazse importante o conhecimento a leitura e aplicação nesta área tão importante para formação destes profissionais Nesse momento estudamos os testes de hi póteses e vimos como aceitar ou rejeitar uma hipótese nula ou alternativa e isso pode ser interessante para área da saúde UNICESUMAR 229 No mapa mental a seguir faça um esquema sobre o teste de hipóteses destacando o seu passo a passo Fazer desenho Teste de Hipóteses Entender o tipo de teste Criar Hipóteses Hipótese Nula Aceitar ou rejeitar Hipótese Alternativa Aceitar ou rejeitar Consulta a tabela Z 230 1 Para calcular o valor crítico de α2 devese ver o nível de confiança que por exemplo é de 95 ou seja 095 Agora dividimos o valor por 2 para obter 0475 Agora precisamos consultar a Tabela Z para ver a área correspondente o valor encontrado foi de 196 A tabela utilizada neste exemplo foi a a Distribuição Normal b Distribuição Binomial c Distribuição t de Student d Correlação Linear e Regressão Linear 2 A associação Brasileira de Química analisou que em média 62 dos medicamentos são des cartados incorretamente acarretando poluição no solo e na água Considerando um nível de significância de 6 teste a hipótese H0 µ 63 e H1 µ 63 Sabendose que o valor de zcalculado é igual a 125 e o valor de ztabelado é igual a 155 podese concluir que a Como zcaclulado é menor de 155 ele está na zona de aceitação b Como zcaclulado é maior de 155 ele está na zona de aceitação c Como zcaclulado é menor ou igual a 155 ele está na zona de aceitação d Como zcaclulado é maior de 155 ele está na zona de rejeição e Como zcaclulado é menor de 125 ele está na zona de aceitação 3 Um professor fez um experimento com uma amostra de 100 peças com um tempo médio de vida de 5012 minutos e desvio padrão igual a 4 O intervalo de confiança para média popula cional com 95 de confiança é igual a a 5012 0998 IC b IC 5012 1775 c 5012 375 IC d 5012 499 IC e 5012 0784 IC 231 4 Sabemos que um intervalo de confiança é um parâmetro de interesse em uma população o qual podemos determinar a partir de amostras conhecidas Se temos uma amostra igual a 12 vamos determinar o intervalo de confiança utilizando a Distribuição Normal b Distribuição Binomial c Distribuição t de Student d Correlação Linear e Regressão Linear 8 Nesta unidade vamos trabalhar com testes Primeiro vamos estudar o teste quiquadrado que é utilizado para dados categóricos em que se trabalha para avaliar a diferença de dois dados categóricos entre si veremos como calcular passo a passo Também vamos estudar o teste de kappa que é um teste que será utilizado para analisar a concordância entre dois ou mais juízes quando fazem uma avaliação nominal ou ordinal bem aplicado na área de saúde para diagnósticos Testes Me Renata Cristina de Souza Chatalovv 234 Alguma vez em uma pesquisa você já teve que fazer uma análise de concordância com outros avalia dores de um trabalho com relação à variável dependente que você estava analisando Você sabe o que é um teste de concordância para variáveis qualitativas Geralmente as análises de concordância são feitas nas etapas de calibração dos avaliadores em uma pesquisa sempre feito no início de um trabalho quando temos vários examinadores por exemplo quando temos por exemplo novecentos pacientes dificilmente é feito por um único avaliador assim os avaliadores passam por etapas de treinamento em que eles calibram os parâmetros que vão ser utilizados para diagnóstico de um paciente Depois de treinados são feitas as análises de concordância Imagine que temos um grupo com 900 pacientes o avaliador A examina 300 pacientes o avaliador B 300 pacientes e o avaliador C 300 pacientes e os três são pessoas diferentes avaliando pacientes diferentes e em locais diferentes no entanto se eles estiverem calibrados na prática é como se fossem uma única pessoa avaliando os 900 pacientes e para que na prática não haja grandes discrepâncias entre eles ou influências individuais no diagnóstico do paciente e por isso é importante eles concordarem por isso é feito no início de uma pesquisa Experimente fazer o diagnóstico acerca de uma situação com um ou dois colegas Aqui você já pode perceber que a Bioestatística vai além de trazer números podemos trabalhar na organização de dados categóricos e que podem ser úteis na área de saúde Voltando ao nosso experimento agora que você já trabalhou com o grupo de 900 pacientes será que os avaliadores estão calibrados Será que vão concordar Vão ter a mesma opinião ou parecida UNICESUMAR UNIDADE 8 235 Um teste que utiliza a distribuição quiqua drado como estrutura probabilística e por esta razão são denominados testes quiquadrado é usado para variáveis discretas ou seja categóri cas provenientes de uma população como por exemplo mortalidade ou achados patológicos entre outros MARTINEZ 2015 O valor de quiquadrado é um estimador da discrepância entre frequências esperadas e obser vadas estabelecendo se as diferenças encontradas se devem ou não à casualidade VIEIRA 2011 A classificação de observações em geral de variáveis qualitativas de acordo com dois crité rios é referida como tabela de contingência assim primeiramente vamos estudar o teste quiqua drado em tabelas de contingência Para enten der vejamos a situação a seguir Sejam duas variáveis qualitativas que pode mos chamar de A e B O teste quiquadrado tem como objetivo testar as hipóteses H0 A e B são independentes não há asso ciação entre A e B Ha A e B não são independentes há algum tipo de associação entre A e B programa de atividades físicas tendem a apresen tar frequências diferentes de queixas de zumbido MARTINEZ 2015 É importante salientar que associação não significa casualidade se rejeitarmos a hipótese nula não estamos dizendo que há evidências de que o programa de atividade física provoca ou previne zumbidos Não estamos estabelecendo relações de causa e efeito somente estamos verificando se há uma frequência maior ou menor de queixas de zumbidos em quem participa ou não do programa de atividades físicas MARTINEZ 2015 Assim o teste quiquadrado de associação tem esse nome porque se baseia em uma re gra de decisão em uma quantidade obtida de nossos dados é um suposto resultado de uma distribuição quiquadrado quando a hipótese nula é verdadeira VIEIRA 2011 Qui significa a letra χ do alfabeto grego sendo que nossas variáveis de interesse são qualitativas A distribuição Quiquadrado para Martinez 2015 e Vieira 2011 acreditase que tenha sido apresentada pela primeira pelo matemático ale mão Friedrich Robert Helmert 18431917 Por volta de 1900 o estatístico britânico Karl Pearson 18571936 estudou as propriedades desta dis tribuição de probabilidades e propôs seu uso em testes de associação entre variáveis qualitativas Sendo X uma variável aleatória que segue uma distribuição norma padrão com média 0 zero e desvio padrão igual a 1 Ao elevarmos X ao qua drado dizemos que X2 segue uma distribuição quiquadrado com 1 grau de liberdade Enquanto uma variável segue uma distribuição normal pode assumir valores negativos e positivos uma variável que segue distribuição quiquadrado com 1 grau de liberdade assume apenas valores maiores que zero conforme a figura a seguir Figura 1 Supondo que temos interesse em estudar sobre a queixa de zumbidos em idosos presente ou ausente se está associado a algum programa de atividade física se participou ou não A hipótese nula estabelece que não há associação entre as duas variáveis de modo que a participação ou não do idoso no programa de atividade física não tem nenhuma relação com as queixas de zumbido Enquanto a hipótese alternativa estabelece que idosos que participaram e não participaram do 236 Se X1 X2 X3 Xm são variáveis independentes entre si que seguem uma distribuição normal padrão temos que a soma entre elas segue uma distribuição quiquadrado Para entender o teste quiquadrado vamos descrever que as variáveis qualitativas de interesse são binárias Denominamos de binárias as variáveis qualitativas que assumem apenas duas possíveis classificações como por exemplo portador de doença sim ou não fumante sim ou não pratica atividade física sim ou não Primeiramente vamos organizar a tabela de dados que chamamos de tabela de contingência ou tabela 2 x 2 Podemos observar na Tabela 1 a seguir 3 2 1 0 1 2 3 4 0 2 15 1 05 0 1 2 3 4 5 x2 segue uma distribuição quiquadrado com grau de liberdade Descrição da Imagem fazendo a leitura da esquerda para a direita a distribuição normal apresenta uma curva de Gauss em forma de um sino iniciando em menos quatro menos três menos dois menos um zero um dois três quatro sendo que no valor de zero a curva está dividida com uma reta no valor zero Em seguida temse uma seta apontando para frente aí temse uma curva em que os valores de x horizontal vão de zero a cinco no eixo y vertical zero zero vírgula cinco um um e meio e dois Tem uma curva de crescente que inicia leitura em valores de x horizontal e y vertical x 0 e y 18 x 1 e y 025 x 2 e y 020 x 3 e y 015 x 4 e y 010 x 0 e y 01 Figura 1 Relação entre a distribuição normal padrão e uma distribuição quiquadrado com 1 grau de liberdade Fonte adaptada de Martinez 2015 Se as quantidades a b c e d que aparecem na Tabela 1 se referem a frequências absolutas tais que n a b c d assim temos a indivíduos classificados simultaneamente na categoria 1 da variável A e na categoria 1 da variável B b indivíduos classificados simultaneamente na categoria 2 variável A e na categoria 1 da variável B c indivíduos classificados simultaneamente na categoria 2 da variável A e na categoria 2 da variável B MARTINEZ 2015 Tabela 1 Tabela de contingência ou 2 x 2 Variável A Variável B categoria 1 categoria 2 Total categoria 1 a b a b categoria 2 c d c d Total a c b d n a b c d Fonte adaptada de Martinez 2015 p 252 UNICESUMAR 244 Para entender melhor o que é neoplasia intraepitelial diagnóstico e tra tamento que utilizamos no nosso exemplo aplicando o teste de kappa entre dois avaliadores leia o artigo a seguir Os resultados estão apresentados na Tabela 8 a seguir dados fictícios Observador 2 Observador 1 Total Sem lesão NIC 1 NIC 2 NIC 3 Sem lesão 19 10 2 1 32 NIC 1 6 54 2 0 62 NIC 2 2 9 15 1 27 NIC 3 0 1 6 10 17 Total 27 74 25 12 138 Observador 2 Observador 1 Total Sem lesão NIC 1 NIC 2 NIC 3 Sem lesão 19 10 2 1 32 NIC 1 6 54 2 0 62 NIC 2 2 9 15 1 27 NIC 3 0 1 6 10 17 Total 27 74 25 12 138 Tabela 8 Resultados da pesquisa Tabela 9 Resultados da pesquisa com os destaques em comum entre observador 1 e 2 Fonte a autora Fonte a autora Assim cada um classificou as lâminas de acordo com as classificações já denominadas De acordo com esses resultados podemos observar destacados na Tabela 9 os resultados em comum entre os dois observadores UNICESUMAR 250 O coeficiente de kappa mede o grau de con cordância além do esperado Então tendo que a concordância já é de 50 o kappa para ser significativo precisa passar desse 50 Se acer tamos 50 48 ou 42 por exemplo significa que não estamos acertando nada além do chute Nesse caso o coeficiente vai ter o valor de zero Assim o kappa varia de zero quando não há uma concordância além da esperada ou 1 quando há 0 50 100 1 0 Descrição da Imagem na imagem temos uma reta na horizontal que está dividida em duas partes sendo um traçado acima mais forte de cor preta entre zero por cento 0 a cinquenta por cento 50 depois de cinquenta por cento 50 a cem por cento 100 Abaixo da reta no cinquenta por cento 50 temos o número zero e abaixo do cem por cento 100 o número um 1 Figura 3 Representação do percentual Fonte a autora Dessa forma o teste de kappa vai estimar a concordância além da casualidade na qual poderíamos fazer um questionamento qual a probabilidade em acertamos o diagnóstico ao definir a presença de cárie em um indivíduo Assim temos duas chances com cárie ou sem cárie Figura 4 Descrição da Imagem na imagem que é uma ilustra ção temos quatro dentes o segundo dente está com um desenho significando uma expressão triste no topo do dente ao lado di reito temos uma crosta de cor marrom claro e acima desta crosta temos o ins trumento de um dentista Figura 4 Dentes com e sem cárie determinado dente Nessa situação apresentada temos apenas duas possibilidades ou o dente está cariado ou não tem cárie Se não examinarmos a radiografia e chutar temos 50 de chances em acertar porque só temos duas opções Figura 3 uma concordância perfeita quando no caso exa minamos um conjunto de dentes por exemplo dez dentes e acertamos o diagnóstico de todos os dez dentes examinados Para fazer a estatística kappa e para o teste de kappa podemos utilizar um site que irá determi nar esse kappa httpvassarstatsnet Para fazer o teste de kappa utilizando esse site online você pode seguir os passos UNICESUMAR 252 Agora que você abriu o site você vai clicar em select the number of categories e clicar em 2 por exemplo vai rolar a barra de rolagem e terá uma tabela semelhante a que está apresentada a seguir No exemplo da cárie supondo que queremos fazer uma análise de concordância do diagnóstico de cárie na qual examinamos dentes diretamente e examinamos radiografia queremos saber se o meu diagnóstico de cárie é diferente se examinamos a radiografia em relação ao exame clínico diretamente Figura 6 Fonte adaptado de Vassarstats 2023 online B Totals A 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 Totals Quadro 1 Ilustração do teste de kappa Resert Calculate Descrição da Imagem na imagem temos o raio x da boca de uma pessoa onde é possível observar os den tes a imagem é toda de cor es cura como um raio x de qual quer parte do corpo Figura 6 Raio x de dentes UNICESUMAR UNIDADE 8 253 Para ilustrar melhor e como vamos entrar com os dados para fazer o teste de kappa vamos supor que examinamos 31 dentes diretamente ou seja no exame clínico foram examinados 31 dentes Destes 31 dentes no exame clínico 16 foram sim para cárie e 15 não para cárie E quando fizemos o exame radiológico dissemos que 15 tem cárie e 16 não tem cárie Agora vamos lançar esses valores no site para calcular o teste de kappa para isso vamos escrever onde inserimos os dados clínicos e radiológicos sendo que a entrada do exame radiológico será no A e clínico será no B Agora você vai repetir os passos entrar no site e abrir a parte que diz sobre KAPPA AS MEASURE OF CONCORDANCE IN CATEGORICAL SORTING que vamos inserir os dados para simular os dados inseridos vamos escrever no Quadro 2 a seguir Agora que você abriu o site você vai clicar em select the number of categories e clicar em 2 por exemplo vai rolar a barra de rolagem e terá uma tabela semelhante a que está apresentada a seguir Isso significa que ao analisarmos o exame clínico observação na consulta odontológica resumida mente temos Exame de 31 dentes 16 tem cáries 15 não tem cáries B EXAME CLÍNICO Totals A Radiológico SIM NÃO 3 4 5 6 7 8 SIM 10 5 NÃO 6 10 3 4 5 6 7 8 Totals Quadro 2 Ilustração do teste de kappa Fonte adaptado de Vassarstats 2023 online Resert Calculate 254 Ao observar no exame radiológico temos Exame de 31 dentes 15 tem cáries 16 não tem cáries Mas vejam que o meu diagnóstico clínico concorda com meu exame radiológico nas situações que Digo sim há cárie pelo diagnóstico clínico e sim há cárie pelo diagnóstico radiológico Digo não há cárie pelo diagnóstico clínico e não há cárie pelo diagnóstico radiológico Ao observamos no Quadro 3 temos que analisar quando há concordância Quadro 3 Ilustração do teste de kappa Fonte adaptado de Vassarstats 2023 online Resert Calculate B EXAME CLÍNICO Totals A Radiológico SIM NÃO 3 4 5 6 7 8 SIM 10 5 15 NÃO 6 10 16 3 4 5 6 7 8 Totals 16 15 31 Portanto temos Em 20 situações sim de um total de 31 dentes analisados na equação temos 20 31 UNICESUMAR UNIDADE 8 255 Você sabia que um teste quiquadrado basicamente é comparar propor ções isto é analisa possíveis divergências entre frequências observadas e encontradas em determinadas situações Sabia que se é um teste objetiva a encontrar um valor da dispersão para duas variáveis categóricas nominais e avaliar a associação existente entre variáveis qualitativas Nossa roda de conversa vai trazer mais um pouco sobre o teste quiquadrado e suas aplicações na área de saúde Ou em um acaso acertaríamos algo entre 15 16 concordâncias Estamos tendo 20 concordâncias sim há cáries tanto no exame clínico quanto no exame radiológico mas será que 20 é tão diferente em acertar 15 16 Ou não há uma concordância além da esperada estatisticamente porque vejam de 31 dentes analisados total acertamos 20 pares concordantes mas também houve 11 pares discordantes Agora que os dados foram lançados no software vamos rodar a estatística kappa para isso basta clicar no botão CALCULATE Dessa forma podemos entender que ao fazer a leitura no teste temos quatro colunas na primeira coluna temos observed kappa significa kappa observado com um resultado de 02911 Agora vamos fazer a leitura pelo Método 1 Estimativa de Cohen 1960 como erro padrão temos 01717 Com intervalo de confiança no limite inferior o valor é igual a zero e no limite superior 06276 Pelo Método 2 Estimativa complexa descrita em Fleiss e Cohen 1969 o erro padrão é 01714 limite inferior de 95 do intervalo de confiança 0 e limite superior 0627 Abaixo temos 09356 Kappa ponderado dadas as frequências observadas 03111 observado como proporção do máximo possível Interpretando o resultado após rodar o software temos kappa observado igual a 02911 não é igual zero caso fosse igual a zero significaria que não tenho nenhuma concordância além da esperada Importante examinar o intervalo de confiança que no caso é de 95 O intervalo de confiança temos um limite inferior de zero e limite superior de 06276 significa que se repetir umas cem vezes o teste noventa e cinco vezes o kappa vai dar entre 0 a 06276 Observe que o zero que seria a ausência da concordância além da esperada está incluído no meu intervalo de confiança portanto apesar desse valor vamos concluir que essa concordância de ela não é maior do que a concordância por mero acaso ou por chute Então não há uma boa concordância entre o exame clínico e o exame radiológico por essas avaliações Existem n testes na área de saúde basta você ter um objetivo a ser estudado e entender as variávelis a serem estudadas 20 31 256 Você sabia que o teste Chi Quadrado de Pearson é um teste de hipóteses estatístico utilizado para comparar duas variáveis categóricas também conhecido como apenas Qui Quadrado Muito utilizado para realizar comparações entre tratamentos de tabelas 22 ou maiores Saiba mais sobre esse assunto acessando a seguir É muito importante que profissionais da área de saúde entendam sobre variáveis e como vão condu zir e validar suas propostas para isso a Bioestatística traz muitas formas de servir como ferramenta para estas pesquisas e os testes quiquadrado e teste de kappa são aplicações importantes na área da saúde UNICESUMAR 257 1 Das observações das variáveis categóricas surgem dados categóricos que servem para iden tificar categorias que podem ser subdivididas em variáveis qualitativas ou quantitativas sendo que as qualitativas podem ser nominais ou ordinais O teste quiquadrado é um teste não paramétrico usado para identificar um valor de dispersão entre os resultados esperados Diante desse contexto explique as possíveis hipóteses desse teste 2 Na área da saúde existem vários testes a serem aplicados sendo um deles o teste de kap pa Sendo assim o teste de Kappa é utilizado na etapa de calibração entre avaliadores de uma pesquisa e serve para avaliar a concordância entre eles avaliadores quando a variável dependente é qualitativa nominal ou qualitativa ordinal Com base nessa informação como interpretar o coeficiente de concordância de Kappa 3 O teste quiquadrado podese usar tabelas de contingência para verificar melhor a estatística apresentada tendo o teste de aderência e independência Diante desse contexto explique o que significa o teste de aderência 9 Nesta unidade vamos trabalhar com Informática aplicada à Bioestatística Aqui vamos trabalhar com o Excel por ser um programa acessível a todos vamos iniciar nossos estudos conhe cendo as planilhas buscando funções em suplementos e vamos trabalhar passo a passo em funções da estatística descritiva e na construção de gráficos Também vamos ver que podemos utilizar o Excel nas probabili dades em testes de hipóteses testes com a tabela t de student e teste quiquadrado Informática aplicada à Bioestatística Me Renata Cristina de Souza Chatalov 260 Alguma vez em uma pesquisa você já teve que tabular dados referentes a suas pesquisas Você já fez algum tipo de cálculo e ficou na dúvida se realmente era aquele valor Você já pensou que pode ser possível tirar uma prova real dos dados que está trabalhando Geralmente a tabulação de dados provenien tes de pesquisas inclusive na área da saúde é feita por meio de softwares específicos mas co mumente as pessoas utilizam o Excel porque já vem no pacote da Microsoft podemos trabalhar com gráficos tabelas cálculos simples e mais avançados e é um programa acessível Imagine que um professor de cursos na área de saúde quer saber a média de sua turma quer comparar com outros cursos para isso precisa calcular média moda mediana variância des vio padrão Supondo que cada turma tem 40 alu nos e esse professor tem 10 turmas Totalmente inviável fazer o cálculo algebricamente porque tomaria muito tempo Com isso esse professor pode utilizar calculadoras específicas ou o Excel assim rapidamente ele pode ter os dados e fazer as comparações utilizando equações e funções bem simples Faça igual a esse professor colete as notas de 10 colegas da mesma disciplina insira esses dados no Excel e calcule essas medidas Você verá que é bem prático o uso do Excel Aqui você já pode perceber que softwares espe cíficos podem ajudar nos cálculos e na tomada de decisões e que não seria diferente na área de saúde nem na disciplina de Bioestatística Esses progra mas vão além de trazer números vão nos ajudar a ganhar tempo e a tabular resultados de pesquisas UNICESUMAR UNIDADE 9 261 Agora que já entendemos de maneira algébrica a Bioestatística voltada a aplicações na área de saúde podemos muitas vezes utilizar a informática para facilitar nossos cálculos mas é importante frisar que precisamos ter senso na análise dos dados por isso a Bioestatística é uma ferramenta que profissionais de saúde podem utilizar para gestão e tomada de decisões Dessa forma sabese que os programas estatísticos facilitam a análise de grandes conjuntos de dados e podem nos trazer análises complexas dos dados Temos inúmeros programas estatísticos de armazenagem de dados O programa Microsoft Excel foi desenvolvido para armazenar e administrar dados Além disso ele possui um conjunto de funções e rotinas para a realização de cálculos gráficos e estatística básica que podem ser aplicáveis à área de Bioestatística que podemos trabalhar com variáveis envolvendo cases e situações na área da saúde Primeiro vamos conhecer o Excel Temos a planilha do Excel que tem vários componentes facilmen te identificáveis em que cada célula selecionada fica realçada em negrito Essa célula é identificada por uma coluna letra e uma linha número que estão em negrito Cada planilha do Excel tem 1048576 linhas e 16384 colunas Excel 2013 a 2017 Podemos observar a configuração da planilha na Figura 1 Descrição da Imagem temos uma planilha quadriculada em que a célula marcada é coluna A linha 1 portanto A1 As colunas vão de A ao P e as linhas de 1 ao 27 Figura 1 Planilha do Excel Fonte a autora 262 Temos que a letra e o número correspondente à célula estão escritos à esquerda acima da planilha e a descrição do conteúdo da planilha fica logo ao lado Na parte inferior da pasta de trabalho está a planilha selecionada e a barra de navegação da planilha No Excel temos também a barra de Menus que pode ser personalizada pelos usuários e nesse programa podemos inserir três tipos de dados fórmulas textos e números Para editar a planilha temos algumas ferramentas de edição comuns aos aplicativos da Microsoft como copiar ctrl c e colar ctrl v que funcionam bem aqui Além disso o Excel possui várias peculiaridades que facilitam a manipulação dos dados como o colar especial Essa função pode ser encontrada no início ou clicando com o botão direito do mouse ao acionar a função aparecerá a caixa de diálogo conforme Figura 2 Descrição da Imagem temos duas colunas com botão em branco para ser clicado temos de colar especial de cima para baixo fazen do a leitura as palavras o tópico colar tudo fórmulas valores formatos comentários e anotações validação na segunda coluna à direita da opção colar temos todos usando tema da origem tudo exceto bordas larguras da coluna fórmulas e formatos de número valores e formatos de número todos os formatos condicionais de mesclagem Abaixo na coluna operação temos de cima para baixo nenhuma adição subtração multiplicação e divisão Abaixo temos ignorar em branco e transpor abaixo tem um botão colar vínculo botão OK e botão cancelar Figura 2 Colar especial Microsoft Excel Fonte a autora Temos também o menu Inserir com várias opções como gráficos imagens objetos símbolos entre outros Com o botão direito do mouse você pode inserir colunas ou células de acordo com o que foi selecionado A seta do mouse no Excel tem a forma de mais que muda de forma quando está no canto inferior esquerdo da região selecionada possibilitando copiar ou inserir mais dados UNICESUMAR UNIDADE 9 263 A barra de fórmulas além de exibir o conteúdo da célula permite inserir fórmulas e funções Para inserir fórmulas e funções devese colocar inicialmente o sinal de igual É de suma importância para cálculos podemos visualizar na Figura 3 Descrição da Imagem temos um print do Excel com a barra selecionada pela cor vermelha Na barra que está selecionada fazendo a leitura da esquerda para a direita temos um x seguido de outro símbolo e de fx sendo lá que será inserida a fórmula Figura 3 Barra de fórmulas no Excel Fonte a autora Para as equações em geral temos algumas funções que o próprio disponibiliza ao usuário Elas podem ser aplicadas a um conjunto de dados ou a apenas uma célula O acesso à caixa de diálogo das funções é feito clicando na barra de fórmulas ou seja basta clicar em fx que abrirá as funções que pode ser visualizado na Figura 4 Descrição da Imagem na figura podemos ver a opção inserir função de cima para baixo procure por uma fun ção abaixo ou selecione uma categoria e está escrito mais recentemente usada abaixo selecione uma função lendo de cima para baixo temos aleatório correl invt med fa torial distrbinom soma Abai xo à direita temos as opções Ok e Cancelar Figura 4 Funções Microsoft Excel Fonte a autora 264 Aqui em Bioestatística para facilitar nossos cálculos na opção selecione uma categoria você pode selecionar a opção Estatística que na opção selecione uma função abrirá todas as funções que podem ser utilizadas em Bioestatística em ordem alfabética As estimativas e apresentações descritivas dos dados podem ser plenamente realizadas no Excel por meio das funções equações gráficos e através da caixa de diálogo análise de dados É importante salientar que fórmulas e funções são visualizadas na barra de fórmulas que você já viu na Figura 3 apresentada anteriormente O Excel possui um conjunto de rotinas estatísticas que estão no suplemento análise de dados A instalação deste suplemento varia conforme a versão do Excel Sequência de instalação personalizar barra de ferramentas de acesso rápidomais comandossuplementos ferramentas de análise Figura 5 Descrição da Imagem temos um print da versão mais antiga do Excel que está escrito Personalizar Barra de Ferramentas de Acesso Rápido no outro lado da figura temos Opções do Excel que está selecionado de cor laranja claro a palavra suplementos seguida da seleção em azul Ferramentas de análise VBA gerenciar suplementos do Excel Ir OK Figura 5 Análise de dados Microsoft Excel Fonte a autora Ao buscar a opção análise de dados no menu dados irá abrir as Ferramentas de análise basta sele cionar qual você vai querer e clicar em OK UNICESUMAR UNIDADE 9 265 Em versões mais atuais do Excel o caminho muda um pouco sendo que basta clicar em menu Arquivo em seguida ir até opções clicar em su plementos ferramentas de análise VBA geren ciar suplementos do Excel Ir e OK Para buscar as ferramentas a mesma coisa que outras versões clicar em menu dados e escolher Vejamos um exemplo supondo que temos os dados n controle caso 1 e caso 2 que podem ser observados na Figura 6 Descrição da Imagem na célula A temos o n célula B con trole Célula C caso 1 Célula D caso 2 na célula A7 temos a soma A8 média DP na célula A9 A10 com a mediana Figura 6 Tabela com casos Microsoft Excel Fonte a autora O importante nesse exemplo não são os valores mas sim as fórmulas que podemos utilizar as equações que utilizamos para calcular o con trole por exemplo que estão na coluna B entre as células B2 até B6 Para somar a função a ser utilizada será SO MAXXXX portanto para somar o controle você pode clicar na barra de fórmulas fx e buscar a fun ção soma ou digitar a fórmula SOMAB2B6 e clicar em ENTER Para somar o caso 1 basta digitar a fórmula SOMAC2C6 e clicar em ENTER E para somar o caso 2 basta digitar a fórmula SO MAD2D6 e clicar em ENTER Para o cálculo da média quando estudamos algebricamente consiste na somatória de todos os elementos divididos pelo total aqui no Excel vamos utilizar a função MÉDIAXXXX signi ficando o XX a célula e os dois pontos até Assim para calcular a média do controle temos que usar a função MÉDIAB2B6 e clicar em ENTER Para calcular a média do caso 1 basta digitar a fórmula MÉDIAC2C6 e clicar em ENTER E para somar o caso 2 basta digitar a fórmula MÉDIAD2D6 e clicar em ENTER Para o cálculo do desvio padrão alge bricamente temos que calcular a variância que é o quadrado dos desvios em relação à média depois que encontramos a variância tiramos a raiz quadrada para obter o desvio padrão No Excel basta utilizar a função DESVPADXXXX Portanto para calcular o desvio padrão do controle basta utilizar a função DESVPAD B2B6 e clicar em EN TER Para calcular o desvio padrão do caso 1 basta digitar a fórmula DESVPAD C2C6 e clicar em ENTER E para determinar o des vio padrão do caso 2 basta digitar a fórmula DESVPAD D2D6 e clicar em ENTER Para calcular a mediana algebricamente primeiro você coloca obrigatoriamente os elementos em rol ou seja em ordem normal mente crescente Aqui no Excel não precisa mos colocar em rol basta usar a função ME DXXXX Assim para calcular a mediana do caso 1 basta digitar a fórmula MED C2C6 e clicar em ENTER E para determinar a me diana do caso 2 basta digitar a fórmula ME DD2D6 e clicar em ENTER 266 Resumindo temos Para somar utilize a função SOMAXXXX Para calcular a média utilize a função MÉDIAXXXX Para calcular a mediana utilize a função MEDXXXX Para calcular o desvio padrão utilize a função DESVPADXXXX Descrição da Imagem na tela temos a tabela de n lendo de cima para baixo 1 2 3 4 5 abaixo está escrito em negrito a palavra soma na célula A7 na célula A8 em negrito a palavra média célula A9 DP célula A10 mediana em negrito Na coluna B está escrito Controle fazendo a leitura de cima para baixo temos 128795 Na célula B7 41 em negrito célula B8 82 célula B9 258844 e célula B10 8 Na coluna C está escrito caso 1 fazendo a leitura de cima para baixo dos valores temos 47123 Na célula C7 está escrito 17 em negrito na célula C8 34 célula C9 230217e célula C10 3 Na coluna D temos fazendo a leitura de cima para baixo 27918 Na célula D7 27 em negrito célula D8 54 célula D9 364692 e D10 7 Tem uma tela na frente escrita estatística descritiva aberta está escrito intervalo de entrada com as células A1D6 e flecha para cima agrupado por com opção selecionada colunas no item opções de saída está selecionada nova planilha abaixo está selecionada a opção resumo estatístico Figura 7 Estatística de dados Microsoft Excel Fonte a autora Você também pode querer obter toda a estatística descritiva destes dados para isso vamos precisar ir até o Menu Dados ir até análise de dados mas para isso antes é preciso que você busque na opção suplementos Ferramentas de Análise VBA se não fez isso não vai conseguir já explicamos ante riormente como busca essa função Em seguida escolha a opção análise de dados depois clique em estatística descritiva vai abrir para você a tela que podemos observar na Figura 7 UNICESUMAR UNIDADE 9 267 Para buscar os dados basta selecionar as células que você quer o resumo estatístico agrupar por colunas pedir opção nova planilha e selecionar a opção resumo estatístico e clicar em OK As opções específicas desta caixa de diálogo são Resumo estatístico vai gerar um campo para cada uma das seguintes estatísticas na tabela de saída média erro padrão da média mediana modo desvio padrão va riância curtose distorção intervalo míni mo máximo soma contagem maior n menor n e nível de confiança Nível de confiança da média insere o nível de confiança a ser utilizado Enésimo maior mostrará o maior número dentro da ordem selecionada 1 máximo 2 2º maior Caso você queira também saber do erro padrão ele está determinado a partir da função estatística descritiva explicada O Excel também pode ser útil aqui na Bioesta tística e em sua vida profissional na criação de gráficos que pode ser feita pelo menu Inserir e escolher a opção de gráficos Por exemplo em um pronto atendimento du rante cinco dias da semana foram feitos os aten dimentos que podem ser observados na Tabela 1 Tabela 1 Atendimentos em pronto atendimento Dia da semana Atendimentos Segunda 10 Terça 15 Quarta 28 Quinta 14 Sexta 11 Fonte a autora 268 Descrição da Imagem o gráfico tem colunas de cor azul claro na opção vertical sendo apresentados os dias da semana o número de aten dimentos sendo segunda 10 terça 15 quarta 28 quinta 14 e sexta 11 Na vertical à es querda os números vão de zero a trinta de baixo para cima de cinco em cinco Na horizontal abaixo temos os dias da semana segunda ter ça quarta quinta e sexta da esquerda para direita Figura 8 Gráfico de colunas Fonte a autora Com esses dados vamos construir um gráfico de colunas no Excel Para isso basta selecionar os dados na planilha menu inserir e em seguida escolher a opção colunas Figura 8 Você também pode fazer com os mesmos dados um gráfico de barras Para isso basta selecionar os dados na planilha menu inserir e em seguida escolher a opção barras Figura 9 Descrição da Imagem o gráfico tem barras de cor azul claro na opção horizontal sendo apre sentados os dias da semana o número de atendimentos sendo segunda 10 terça 15 quarta 28 quinta 14 e sexta 11 Na vertical à esquerda temos os dias da semana se gunda terça quarta quinta e sexta de cima para baixo Na horizon tal abaixo os números vão de zero a trinta da esquerda para direita de cinco em cinco Figura 9 Gráfico de barras Fonte a autora UNICESUMAR UNIDADE 9 269 O Microsoft Excel é útil para cálculos para gráficos e para tirar prova real de cálculos que fazemos algebricamente Tabela 2 Atendimentos em pronto atendimento Fonte a autora Nível da dor Frequência Fi 1 30 2 36 3 10 4 60 5 24 Total 160 Outros gráficos podem ser construídos no Excel também basta eles atenderem e apresentarem os dados referentes a sua pesquisa No Excel também podemos ter o cálculo de porcentagens que podem ser obtidas por meio de tabelas ou histogramas Para o cálculo de porcentagens simples e acumulada primeiro calcule a soma dos dados utilizando a função SOMAB2B7 Depois calcule a porcentagem usando a fórmula B2B7100 não esque cendo de fixar a célula do total O total da é cem Para exemplificar temos supondo que foram coletados dados do pronto atendimento de um Hospital referentes ao nível de dor em uma escala de 1 a 5 de mulheres adultas com enxaqueca Os dados estão apresentados na Tabela 2 a seguir UNIDADE 9 273 Para usar essa função no X você irá inserir as tentativas ou seja a ocorrência No caso será igual a 1 Na média como foi dada no exercício é igual a 254 e no cumulativo irá escrever FALSO e clicar em OK Por outro lado se quisermos saber qual é a probabilidade de encontrarmos um habitante ou menos o argumento cumulativo seria VERDADEIRO Utilizando o mesmo exemplo só que escrevendo VERDADEIRO para saber a probabilidade de encontrar um habitante ou menos seria igual a 27 Outra distribuição de probabilidades importante é a distribuição normal As funções distnorm distnormp invnorm e invnormp facilitam os cálculos com a distribuição normal Já a função distnormx médiadesvpadrão cumulativo fornece a distribuição cumulativa normal para a média de desvio padrão dados em valor de área Esta função possui quatro argumentos X valor da variável aleatória para a qual será determinada a densidade Média media da distribuição normal Desvpadrão desvio padrão da distribuição normal Cumulativo colocando a palavra falso obterá o valor de densidade Se colocar verdadeiro terá a área ou probabilidade cumulativa A Figura 12 nos mostra os argumentos da função DISTNORMN Descrição da Imagem temos um print dos argumentos da função em que temos escrito acima DISTNORMN abaixo centralizado temos X e um espaço para inserir o valor seta para cima abaixo temos média e um espaço para inserir o valor seta para cima abaixo Desvpadrão e um espaço para inserir o valor seta para cima abaixo Cumulativo e um espaço para inserir o valor seta para cima mais abaixo temos o botão de Ok e cancelar Figura 12 Argumentos da função DISTNORM Microsoft Excel Fonte a autora UNIDADE 9 275 Tabela 3 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 276 Ou seja a área encontrada é igual a 03413 ou 3413 Vamos inserir no Excel na função DISTNORMN X 170 Média 165 Desvio Padrão 5 Cumulativo VERDADEIRO Descrição da Imagem temos um print dos valores inseridos nos argumentos da função em que temos escrito acima DISTNORMN abaixo centralizado temos X e o valor inserido foi 170 seta para cima abaixo temos média e o valor inserido foi 165 seta para cima abaixo Desvpadrão e o valor inserido foi igual a 5 seta para cima abaixo Cumulativo e está escrito VERDADEIRO seta para cima mais abaixo temos o botão de Ok e cancelar Figura 13 Argumentos da função DISTNORMN Microsoft Excel Fonte a autora É importante frisar que o Excel soma a curva inteira sendo o correto diminuir por 05 Assim temos 0841345 05 03413 Para determinar a probabilidade para intervalos de z usase de preferência a função DISTNORMP onde você insere o valor de z e a função calcula a probabilidade ou a área Por exemplo Podemos observar os valores inseridos nos argumentos da função na Figura 13 Z 0 p05 função DISTNORMPN0VERDADEIRO Z 1 p08413 função DISTNORMPN1VERDADEIRO Z 165 p09505 função DISTNORMPN165VERDADEIRO Z 196 p09750 função DISTNORMPN196VERDADEIRO UNICESUMAR 280 Agora vamos abrir a planilha para calcular Figura 17 Descrição da Imagem temos a planilha com os dados do exercício apresentados anteriormente como dados das amostras Na coluna A iniciando por A2 fazendo a leitura de cima para baixo temos 59 56 46 61 57 65 49 60 66 e 59 Na coluna B temos os dados iniciando e dando continuidade iniciando na célula B2 fazendo a leitura de cima para baixo temos 69 56 64 60 59 66 58 59 51 e 53 Na coluna D temos os títulos e os valores média populacional 65 célula E5 Média amostral 5865 célula E6 DP populacional 10 célula E7 alfa 5100 igual a 005 célula E8 n valor de 20 célula E9 Célula D13 Z calculado 2839806331 célula E13 Célula D14 Zcrit valor de 1959963985 célula E14 Célula D15 p valor de 0004514093 célula E15 Rejeitar H0 nas células D16 e E16 Figura 17 Planilha com exercício Microsoft Excel Fonte a autora Mas como chegamos a esses valores Para calcular Zcalculado utilizamos a função no Excel Primeiro usamos a função testez na qual inserimos os dados Figura 18 UNICESUMAR UNIDADE 9 281 Descrição da Imagem TESTEZ matriz está inserido A2B11 seta para cima próxima linha X E5 que corresponde a 65 seta para cima sigma igual a E7 que corresponde a 10 botão de OK Figura 18 Argumentos da função TesteZ Microsoft Excel Fonte a autora Explicando os valores que foram inseridos na função temos TESTEZA2B11E5E7 Sendo que A2B11 igual aos dados da amostra correspondente aos 20 valores E5 corresponde ao valor de X que no caso é a média populacional igual a 65 Sigma corresponde ao desvio padrão populacional que está na célula E7 e corresponde a 10 É importante frisar que a função TESTEZA2B11E5E7 resulta no valor de p0997742953 Entre tanto esse valor é o complementar já que a média de campo é bem menor do que a média populacional 10997742953 0000257 Para obter o zcalculado utilizamos a função INVNORMP mas no caso vamos utilizar dessa maneira INVNORMPNF13 Sendo que Na célula F13 temos o valor da função A2B11E5E7 O valor encontrado de Z calculado é igual a 28398 UNIDADE 9 283 23 43 22 23 40 39 26 37 42 26 39 37 30 44 39 A média encontrada destas 15 tilápias foi igual a 34 cm e o desvio padrão de 8 cm Construa um in tervalo de confiança para média ao nível de 95 Para resolver nosso exercício temos que encontrar nosso tcrítico assim temos MARTINEZ 2015 95 é nosso intervalo de confiança Como nossa área interessada para trabalhar com essa tabela são as caudas vamos ter que encontrar esse valor Se a área é 95 temos 1 α 1 095 005 Será esse 005 que vamos procurar na Tabela t de Student Descrição da Imagem a figura apresenta uma curva em formato de sino dividida em duas partes iguais e as pontas do eixo estão pintadas destacandose pela cor cinza com duas setas destacando esses eixos representando 25 em cada eixo O eixo do meio é igual a 95 Figura 19 Representação para Tabela t student Fonte a autora Para visualizar como são distribuídos o intervalo e o α a figura a seguir traz essa representação para termos os 100 faltam 5 certo São esses 5 que são divididos nas caudas Figura 19 Como você pode perceber os 95 é o que temos no nosso exercício e os 5 foram divididas nas duas áreas do gráfico representando 25 em cada cauda Vamos procurar linha 9 e coluna 25 na tabela vamos procurar α 0025 Vejamos a seguir Vejamos um exemplo para um jantar Marcela encontrou várias tilápias para comprar e pegou uma amostra com 15 tilápias as medidas foram as seguintes em cm 284 Nota A coluna em destaque é a mais usada Fonte Barbetta 2019 p 230 Tabela 4 Distribuição t de Student gl Área na cauda superior 025 010 005 0025 001 0005 00025 0001 00005 1 1000 3078 6314 1271 3182 6366 1273 3183 6366 2 0816 1886 2920 4303 6965 9925 1409 2233 3160 3 0765 1638 2353 3182 4541 5841 7453 1021 1292 4 0741 1533 2132 2776 3747 4604 5598 7173 8610 5 0727 1476 2015 2571 3365 4032 4773 5894 6869 6 0718 1440 1943 2447 3143 3707 4317 5208 5959 7 0711 1415 1895 2365 2998 3499 4029 4785 5408 8 0706 1397 1860 2306 2896 3355 3833 4501 5041 9 0703 1383 1833 2262 2821 3250 3690 4297 4781 10 0700 1372 1812 2228 2764 3169 3581 4144 4587 11 0697 1363 1796 2201 2718 3106 3497 4025 4437 12 0695 1356 1782 2179 2681 3055 3428 3930 4318 13 0694 1350 1771 2160 2650 3012 3372 3852 4221 14 0692 1345 1761 2145 2624 2977 3326 3787 4140 15 0691 1341 1753 2131 2602 2947 3286 3733 4073 16 0690 1337 1746 2120 2583 2921 3252 3686 4015 17 0689 1333 1740 2110 2567 2898 3222 3646 3965 18 0688 1330 1734 2101 2552 2878 3197 3610 3922 19 0688 1328 1729 2093 2539 2861 3174 3579 3883 20 0687 1325 1725 2086 2528 2845 3153 3552 3850 21 0686 1323 1721 2080 2518 2831 3135 3527 3819 22 0686 1321 1717 2074 2508 2819 3119 3505 3792 23 0685 1319 1714 2069 2500 2807 3104 3485 3768 24 0685 1318 1711 2064 2492 2797 3091 3467 3745 25 0684 1316 1708 2060 2485 2787 3078 3450 3725 26 0684 1315 1706 2056 2479 2779 3067 3435 3707 27 0684 1314 1703 2052 2473 2771 3057 3421 3689 28 0683 1313 1701 2048 2467 2763 3047 3408 3674 29 0683 1311 1699 2045 2462 2756 3038 3396 3660 30 0683 1310 1697 2042 2457 2750 3030 3385 3646 35 0682 1306 1690 2030 2438 2724 2996 3340 3591 40 0681 1303 1684 2021 2423 2704 2971 3307 3551 45 0680 1301 1679 2014 2412 2690 2952 3281 3520 50 0679 1299 1676 2009 2403 2678 2937 3261 3496 z 0674 1282 1645 1960 2326 2576 2807 3090 3291 UNICESUMAR 286 Para usar a função basta inserir na Probabilidade o valor correspondente ao nível de confiança que é 1 menos o intervalo de confiança no caso 195 5 portanto igual a 5 ou célula correspondente Já no item graus de liberdade significa o número de elementos da amostra menos 1 nesse caso 151 14 Para achar o intervalo basta pegar o valor de t multiplicar por desvio padrão dividido pela raiz quadrada de observações no Excel fica B7B2RAIZB3 por exemplo Já o teste Quiquadrado testa a relação entre duas variáveis qualitativas O Excel possui três funções relativas ao Quiquadrado a Função TESTEQUI calcula a probabilidade unicaudal da distribuição Quiquadrado p a partir dos valores observados e esperados TESTEQUIintervalorealintervaloesperado b A funcao distQui calcula a probabilidade a partir do valor de Quiquadrado Exige o grau de liberdade também DISTQUIxgrausliberdade Onde x é o valor no qual a distribuição será avaliada grausliberdade e o número de graus de liberdade c A funcao invQui calcula o valor de Quiquadrado a partir de p INVQUIprobabilidadegrausliberdade Vejamos um exemplo supondo que um profissional está analisando os tipos de sementes e os resul tados estão apresentados na tabela a seguir Sabese que o nível de significância é igual a 5 Construa o teste quiquadrado Tabela 5 Tipos de sementes Tipos Fo Fe Lisa e amarela 345 31275 Rugosa e amarela 86 10425 Lisa e verde 96 10425 Rugosa e verde 29 3475 total 556 556 Para o excel primeiro passo é estabelecer H0 sendo a H0 Esperado H1 Esperado b Nível de significância α005 Fonte a autora UNICESUMAR 288 Descrição da Imagem argumentos da função TESTEQUIQUA Abaixo temos Intervaloreal na frente B2B5 seta para cima abaixo Intervaloesperado na frente C2C5 seta para cima botão de Ok e Cancelar Figura 22 TesteQuiQuadrado Microsoft Excel Fonte a autora Essa função TESTEQUIQUAB2B5C2C5 significa que primeiro colocamos o intervalo real ou seja os valores que foram feitos os testes das sementes na coluna frequência observada no intervalo esperado inserimos os valores da frequência esperada Agora que temos o valor de p0043503617 vamos determinar o valor de quiquadrado calculado X2 calc na planilha para isso vamos utilizar a função INVQUIQUACDB10B9 Na qual o valor correspondente à célula B10 significa o valor de p encontrado anteriormente e B9 significa os graus de liberdade que neste caso é igual a 3 o valor encontrado de quiquadrado calculado é igual a 81247 Precisamos encontrar o valor de quiquadrado crítico na planilha X2 crit para isso utilizamos a função INVQUIQUACDB8B9 Significa que inserimos em B8 o valor correspondente ao nível de significância que neste caso é igual a 005 e B9 igual ao grau de liberdade que neste caso é igual a 3 Agora precisamos saber se vamos aceitar ou rejeitar o teste para isso utilizamos a função SE SEB11B12Rejeita H0Não Rejeita H0 isso significa que se o valor de quiquadrado calculado B11 for maior do que o valor de quiquadrado crítico B12 rejeita H0 Existem vários programas que podem ser utilizados em Bioestatística para ajudar nos cálculos aqui utilizamos o Excel por ser o mais comum Vale a pena você pesquisar e buscar outras formas para estudar UNICESUMAR UNIDADE 9 289 Você sabia que existem outros programas além do Excel que podem ajudar com os cálculos da Bioestatística E eles facilitam nossa vida pois muitas vezes não precisamos calcular equações imensas e quando chegar no final errar o cálculo Mas lembrese Bioestatística vai além de cálculos ajudanos na pesquisa na coleta de amostras na tabulação de dados na construção de gráficos mas principalmente ajudanos na tomada de decisões Nem sempre o cálculo é um problema é preciso interpretar na Bioestatística então quando você for pesquisar preste bem atenção nos dados na forma como vai fazer sua coleta como vai escolher um programa para tabular os dados ou se vai usar uma calculadora Nossa roda de conversa vai trazer mais um pouco sobre alguns progra mas que podem ser utilizados na Bioestatística mas que não podemos esquecer da interpretação Existem vários softwares que podem ser utilizados na análise de dados e na Bioestatística não seria diferente Existem softwares para pesquisas qualitativas e quantitativas Saiba mais sobre esse assunto acessando ao link a seguir É muito importante que profissionais da área de saúde entendam sobre programas simples que possam ser aplicados para facilitar o cotidiano assim o Excel poderá te ajudar em pesquisas e em tomada de decisões 290 Na nossa avaliação vamos fazer um mapa mental sobre o que aprendemos com o uso do Excel aplicado à Bioestatística 292 UNIDADE 1 ARANGO H G Bioestatística teórica e computacional com banco de dados reais em disco 3 ed Rio de Janeiro Guanabara Koogan 2011 BARBETTA P A Estatística aplicada às Ciências Sociais 9 ed Florianópolis UFSC 2014 BRASIL Resolução n 0188 13 de junho de 1988 O Conselho Nacional de Saúde no uso da com petência que lhe é outorgada pelo Decreto n 93933 de 14 de janeiro de 1987 RESOLVE aprovar as normas de pesquisa em saúde Brasília CNN 1987 Disponível em httpswww invitarecombrarq legislacaoconepcnsmsResoluo01de1988REVOGADACNSMSpdf Acesso em 14 maio 2021 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 CRFESP Homeopatia Departamento de Apoio Técnico e Educação Permanente Comissão Assessora de Homeopatia HomeopatiaCRFESP 3 ed São Paulo CRFESP 2019 GLANTZ S A Princípios de bioestatística Traduçã o de Fernanda Thiesen Brum Marcos Bergmann Carlucci Revisão Técnica Leandro da Silva Duarte Luciana Neves Nunes 7 ed Porto Alegre AMGH 2014 HOGG R V Statistical Education improvements are badly needed The American Statistician v 45 n 4 1991 Disponível em httpsamstattandfonlinecomdoi abs10108000031305199110475832 journalCodeutas2 0WqRK7ujwbIU Acesso em 14 maio 2021 IBGE Notas Técnicas Rio de Janeiro IBGE 1983 Disponível em httpswwwibgegovbrappssnig v1notasmetodologicashtmlloc0 Acesso em 14 maio 2021 PARENTI T M S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 PEREIRA M G Epidemiologia teoria e prática 7 ed Rio de Janeiro Guanabara Koogan 2003 RODRIGUES C F S LIMA F J C de BARBOSA F T Importância do uso adequado da estatística básica nas pesquisas clínicas Rev Bras Anestesiol 2017 v 67 n 6 p 619625 Disponível em httpwww scielobrscielophpscriptsciarttextpidS003470942017000600619lng ennrmiso Acesso em 14 maio 2021 UNIDADE 2 ARANGO H G Bioestatística teórica e computacional com banco de dados reais em disco 3 ed reimpr Rio de Janeiro Guanabara Koogan 2011 CALLEGARIJACQUES S M Bioestatística Princípios e Aplicações Porto Alegre Artmed 2003 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blucher 2015 293 PARENTI T M da S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 PIXABAY Sem título 2018 1 fotografia Disponível em httpspixabaycomptphotoscompeti c3a7c3a3odepistaedecampo3480185 Acesso em 14 abr 2023 TRIOLA M F Introdução à Estatística 11 ed Rio de Janeiro LTC 2014 UNIDADE 3 ABNT NBR 147242011 Informação e documentação Trabalhos acadêmicos Apresentação Rio de Janeiro ABNT 2011 ARANGO H G Bioestatística teórica e computacional com banco de dados reais em disco 3 ed Reimpr Rio de Janeiro Guanabara Koogan 2011 BARBETTA P A Estatística aplicada às Ciências Sociais 9 ed Florianópolis UFSC 2014 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 IBGE Normas de apresentação tabular 3 ed Rio de Janeiro IBGE 1993 INEP Sinopse Estatística da Educação Básica 2019 Brasília Inep 2020 Disponível em httpportal inepgovbrsinopsesestatisticasdaeducacaobasica Acesso em 17 maio 2021 LEVINE D M STEPHAN D F SZABAT K A Estatística Teoria e Aplicações Usando Microsoft Excel em Português 7 ed Rio de Janeiro LTC 2016 PARENTI T M S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 UNIDADE 4 BASTOS J L D DUQUIA R P Medidas de dispersão os valores estão próximos entre si ou variam mui to Notas de Epidemiologia e Estatística Scientia Medica Porto Alegre v 17 n 1 p 4044 janmar 2007 Disponível em httpswebcachegoogleusercontentcomsearchqcachepxyqpAQBmGYJhttps revistaseletronicaspucrsbrojsindexphpscientiamedicaarticledownload16501845cd2hlp tBRctclnkglbr Acesso em 17 maio 2021 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 INEP Sinopse Estatística da Educação Básica 2019 Brasília Inep 2020 Disponível em httpportal inepgovbrsinopsesestatisticasdaeducacaobasica Acesso em 18 maio 2021 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blücher 2015 Disponível em httpsptslidesharenetbookcadastro9788521209027 Acesso em 18 maio 2021 294 PARENTI T M S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 RODRIGUES C F S LIMA F J C de BARBOSA F T Importância do uso adequado da estatística básica nas pesquisas clínicas Artigo de Revisão Revista Brasileira de Anestesiologia n 67 v 6 p 619625 2017 Disponível em httpswwwscielobrpdfrbav67n6pt00347094rba67060619pdf Acesso em 18 maio 2021 UNIDADE 5 ANDERSON L O et al Identification of priority areas for reducing the likelihood of burning and forest fires in South America August to October 2020 16 p São José dos Campos SEICemaden 2020 ARANGO H G Bioestatística teórica e computacional com banco de dados reais em disco 3 ed Reimpr Rio de Janeiro Guanabara Koogan 2011 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blü cher 2015 Disponível em httpsptslidesharenetbookcadastro9788521209027 Acesso em 19 maio 2021 PARENTI T M S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 WIKIMEDIA COMMONS Simeon Poisson 2006 1 figura Disponível em httpscommonswikimedia orgwikiFileSimeonPoissonjpg Acesso em 20 maio 2021 UNIDADE 6 BARBETTA P A Estatística Aplicada a Ciências Sociais Aplicadas 9 ed Florianópolis Edufsc 2019 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 GALTON F Natural inheritance London Macmillan Co 1889 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blucher 2015 MATTOS V L D de KONRATH A C AZAMBUJA A M V de Introdução à Estatística Aplicação em Ciências Exatas Rio de Janeiro LTC 2017 SCHULTZ D P SCHULTZ S E História da Psicologia moderna 16 ed São Paulo Cultrix 1992 ZOU K H TUNCALI K SILVERMAN S G Correlation and simple linear regression Radiology v 227 n 3 p 617222 2003 Disponível em httpdxdoiorg101148radiol2273011499 Acesso em 24 fev 2023 295 UNIDADE 7 BARBETTA P A Estatística aplicada às Ciências Sociais 9 ed Florianópolis Ed da UFSC 2014 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blucher 2015 PARENTI T M da S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 UNIDADE 8 LANDIS J R KOCH G G The Measurement of Observer Agreement for Categorical Data Biometrics v 33 n 1 p 159174 mar 1997 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blucher 2015 VASSARSTATS Sem título 2023 Disponível em httpvassarstatsnet Acesso em 17 abr 2023 VIEIRA S Introdução à bioestatística Rio de Janeiro Elsevier 2011 UNIDADE 9 BARBETTA P A Estatística Aplicada a Ciências Sociais Aplicadas 9 ed Florianópolis Edufsc 2019 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 GONÇALVES B B da S Softwares de apoio à pesquisa científica levantamento e análise de características Trabalho de conclusão de curso Bacharel em Tecnologias da Informação e Comuni cação Universidade Federal de Santa Catarina Araranguá SC julho de 2016 Disponível em httpsre positorioufscbrbitstreamhandle123456789165459SOFTWARES20DE20APOIO20C38020 PESQUISA20CIENTC38DFICApdfsequence1 Acesso em 12 fev 2023 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blucher 2015 VIEIRA S Introdução à bioestatística Rio de Janeiro Elsevier 2011 296 UNIDADE 1 Esta atividade busca um aprofundamento pessoal ao possibilitar ao estudante reflexões sobre as técnicas de estatística e amostragem buscando o autoconhecimento Para isso deverá res ponder aos questionamentos relacionados a cada campo e refletir sobre sua maneira de pensar e agir quanto ao tema proposto O estudante deverá responder as questões do Mapa da Empatia conforme for se autoavaliando UNIDADE 2 1 A A variável é qualitativa porque não traz valores numéricos referindose às características 2 B A variável é quantitativa porque ela pode ser medida e seu resultado é apresentado numericamente 3 D Tratase de uma variável quantitativa contínua porque o tempo é resultante de uma medição ou seja uma mensuração 4 C Tratase de uma variável quantitativa discreta porque o número de pacientes é resultante de uma contagem do número de pessoas 5 A Tratase de uma variável qualitativa nominal porque não conseguimos categorizar e nem ordenar as variáveis 6 B Tratase de uma variável qualitativa ordinal porque conseguimos categorizar e ordenar a variável em inicial intermediário e terminal UNIDADE 3 Nesta atividade o estudante deverá conceituar sobre as palavraschaves utilizando o instrumento já produzido e disponível gratuitamente pelo wwwgoconqrcom para realizar esta atividade ou manualmente O estudante deverá realizar dois mapas mentais semelhante a estes dois a seguir Tabelas Rol Distribuição de frequências Sem intervalo de classes Com intervalo de classes ABNT IBGE Normas de Tabelas Tabelas que são construidas só com a contagem apenas Listas ordenadas Tabelas que tem que ser calcu lado intervalo de classes antes de sua contrução e distribuição de frequências Normas que vão reger as tabelas como título corpo rodapé além de ter as bordas laterais abertas Normas que vão reger na construção das tabelas desde 1993
3
Bioestatística
UNICESUMAR
17
Bioestatística
UNICESUMAR
2
Bioestatística
UNICESUMAR
1
Bioestatística
UNICESUMAR
1
Bioestatística
UNICESUMAR
6
Bioestatística
UNICESUMAR
13
Bioestatística
UNICESUMAR
4
Bioestatística
UNICESUMAR
1
Bioestatística
UNICESUMAR
6
Bioestatística
UNICESUMAR
Texto de pré-visualização
PROFESSORA Me Renata Cristina de Souza Chatalov Bioestatística ACESSE AQUI O SEU LIVRO NA VERSÃO DIGITAL NEAD Núcleo de Educação a Distância Av Guedner 1610 Bloco 4 Jd Aclimação Cep 87050900 Maringá Paraná wwwunicesumaredubr 0800 600 6360 PRODUÇÃO DE MATERIAIS Coordenador de Conteúdo Renato Castro da Silva Designer Educacional Amanda Peçanha dos Santos Curadoria Cleber Lisboa e Elziane Vieira Alencar Revisão Textual Erica Fernanda Ortega Editoração Caroline Casarotto Andujar Ilustração Bruno Cesar Pardinho Figueiredo Eduardo Aparecido Alves e Geison Ferreira da Silva Realidade Aumentada Maicon Douglas Curriel Fotos Shutterstock Pró Reitoria de Ensino EAD Unicesumar Diretoria de Design Educacional Universidade Cesumar UniCesumar U58 FICHA CATALOGRÁFICA Impresso por Bibliotecária Leila Regina do Nascimento CRB 91722 Núcleo de Educação a Distância Ficha catalográfica elaborada de acordo com os dados fornecidos peloa autora Bioestatística Renata Cristina de Souza Chatalov Indaial SC Arqué 2023 300 p il ISBN papel 9788545925446 ISBN digital 9788545925453 Graduação EaD 1 Bioestatística 2 Dados 3 Saúde 4 Renata Cristina de Souza Chatalov I Título CDD 570727 AVALIE ESTE LIVRO CRIAR MOMENTOS DE APRENDIZAGENS INESQUECÍVEIS É O NOSSO OBJETIVO E POR ISSO GOSTARÍAMOS DE SABER COMO FOI SUA EXPERIÊNCIA Conta para nós leva menos de 2 minutos Vamos lá DIGITE O CÓDIGO 025XXXXX RESPONDA A PESQUISA ACESSE O QRCODE Me Renata Cristina de Souza Chatalov Olá meu nome é Renata Cristina de Souza Chatalov Eu adoro viajar estudar e bater um bom papo Gosto de espumante e de comida italiana principalmente risoto Sempre que tem um feriado emendado eu me organizo com meu marido para viajarmos e conhecer novos lugares Iniciei a minha trajetória como professora em 2012 nos cursos de Engenharia Civil e Engenharia Elétrica nos quais ministrava a disciplina de Estatística No final de 2012 iniciei as minhas atividades na educação a distância Tenho experiência com a disciplina Estatística há mais de 10 anos e vasta experiência na escrita de materiais dessa área Também trabalhei em cursos da área de saúde ministrando a disciplina de Bioestatística Espero que você goste de Bioestatística assim como eu aprendi a gostar Já fiz alguns experimentos para melhorar a didática durante o ensino dessa disciplina como plantar um grão de feijão no algodão e fazer sorteios com bolinhas coloridas tudo isso trouxe muitos resultados positivos no processo de aprendizagem Além da área de Bioestatística gosto muito do tratamento de efluen tes e resíduos sólidos Espero que com a minha experiência e com a sua vivência na área de saúde tenhamos uma forte conexão e possamos trocar muitos aprendizados Um abraço Renata Lattes httplattescnpqbr7312835687328748 Aqui você pode conhecer um pouco mais sobre mim além das informações do meu currículo Quando identificar o ícone de QRCODE utilize o aplicativo Unicesumar Experience para ter acesso aos conteúdos online O download do aplicativo está disponível nas plataformas Google Play App Store Ao longo do livro você será convidadoa a refletir questionar e transformar Aproveite este momento PENSANDO JUNTOS EU INDICO Enquanto estuda você pode acessar conteúdos online que ampliaram a discussão sobre os assuntos de maneira interativa usando a tecnologia a seu favor Sempre que encontrar esse ícone esteja conectado à internet e inicie o aplicativo Unicesumar Experience Aproxime seu dispositivo móvel da página indicada e veja os recursos em Realidade Aumentada Explore as ferramentas do App para saber das possibilidades de interação de cada objeto REALIDADE AUMENTADA Uma dose extra de conhecimento é sempre bemvinda Posicionando seu leitor de QRCode sobre o código você terá acesso aos vídeos que complementam o assunto discutido PÍLULA DE APRENDIZAGEM Professores especialistas e convidados ampliando as discussões sobre os temas RODA DE CONVERSA EXPLORANDO IDEIAS Com este elemento você terá a oportunidade de explorar termos e palavraschave do assunto discutido de forma mais objetiva BIOESTATÍSTICA Você sabia que é importante que profissionais da área de saúde entendam de Bioestatística Sabia que para exercer sua profissão você vai precisar lidar com dados Aprender a fazer tabelas leitura de gráficos e fazer testes Que para elaboração de projetos em sua área de atuação a bioestatística lhe auxiliará a ordenar e organizar os dados As técnicas estatísticas utilizadas te ajudarão a buscar aplicações na área de saúde o que é essencial para a problematização o planejamento a coleta de dados e a análise crítica Além disso será uma ferramenta de auxílio na tomada de decisão Na disciplina Bioestatística muitas vezes você trabalhará com a análise de dados certo Para isso é importante que você entenda como tratar os dados provenientes de uma pesquisa Diante disso sugerimos que você faça uma pesquisa no site do IBGE e veja quais são as regras para construir um quadro e uma tabela Depois faça uma análise dos dados populacionais e do painel de indicadores voltado à saúde e ao saneamento no Brasil Você também pode fazer uma pesquisa no site da Fiocruz e avaliar o perfil epidemiológico do Brasil tudo isso foi possível porque teve algo por trás da pesquisa aí você pode perceber a importância de entender a Bioestatística É importante que você entenda que para trabalharmos com dados é preciso ter segurança na hora da coleta de dados que pode ser in loco ou por pesquisas bibliográficas voltadas à área de saúde Teremos a oportunidade de conhecer a origem da Bioestatística sua definição e importância Além disso constataremos que as técnicas estatísticas são essenciais para uma pesquisa e saberemos o modo de execução de uma coleta de dados utilizando as principais técnicas de amostragem Também aprenderemos a construir tabelas e compreenderemos as suas regras Não só mas saberemos como se dá a elaboração de gráficos e faremos a sua leitura e interpretação É fundamental entendermos como ocorre a análise dos dados oriundos de uma pesquisa para que possamos analisar as situações quanto à frequência à incidência e às ocorrências por exemplo Trabalhar com as medidas de posição as separatrizes e a variabilidade e entender como as probabilidades podem ajudar em experimen tos em resultados e em possíveis situações que envolvem as incertezas são imprescindíveis para a sua futura atuação profissional Finalizaremos o nosso estudo com um assunto muito importante para a sua formação a inferência estatística que visa por meio de testes analisar uma amostra e fazer projeções para a população Na prática todo o conhecimento a ser obtido trará a você futuroa profissional de saúde um diferencial pois você perceberá que em seu campo profissional certamente utilizará a Bioestatística de várias maneiras Alguns exemplos incluem o teste de uma hipótese o teste de kappa a análise de condições determinantes da saúde da população o incentivo aos alunos em experimentos científicos por meio das técnicas provenientes de bioestatística e a análise de fenômenos climáticos em aplicações em vários campos da área de saúde Assim como você pode ter observado a Bioestatística é fundamental na formação de profissionais na área de saúde Você já conhecia toda essa importância Já tinha alguma ideia de suas aplicações Você pode constatar que sem a análise e o trabalho com os dados é apenas uma pessoa com opinião Portanto mergulharemos juntos no universo da Bioestatística para que você seja uma profissional dife renciadoa Vamos lá 1 2 4 3 5 6 9 VISÃO GERAL E PRINCÍPIOS DA BIOESTATÍSTICA 37 VARIÁVEIS ALEATÓRIAS DISCRETAS E VARIÁVEIS ALEATÓRIAS CONTÍNUAS 55 TABELAS E GRÁFICOS 87 MEDIDAS DE POSIÇÃO E DISPERSÃO 129 PROBABILIDADES 175 CORRELAÇÃO E REGRESSÃO LINEAR 7 8 9 203 INFERÊNCIA ESTATÍSTICA 233 TESTES 259 INFORMÁTICA APLICADA À BIOESTATÍSTICA 1 Olá alunoa esta unidade será essencial para sua trajetória profis sional na área da saúde Por meio dela você terá oportunidade de conhecer a origem da Bioestatística sua definição sua importância bem como entender que as técnicas estatísticas são essenciais para uma pesquisa além disso você compreenderá como fazer uma coleta de dados utilizando as principais técnicas de amostragem Vamos lá Visão Geral e Princípios da Bioestatística Me Renata Cristina de Souza Chatalovv 10 Ao iniciar a leitura deste material você deve estar se perguntando por que eu futuroa profissional da saúde preciso da Bioestatística Qual a sua importância Como ela pode influenciar minha vida Será que realmente utilizarei a Bioestatística no meu dia a dia como profissional da saúde Para que possamos compreender utilizare mos um exemplo bem amplo e possível para to dos os profissionais da saúde Imagine que você estará atuando em sala de aula como docente de disciplinas comuns à formação das futuras gerações de profissionais da saúde é provoca do por seus alunos a realizar um experimento Isso mesmo um experimento no qual os alunos coloquem em prática o que estão aprendendo Você tem uma ideia bem interessante propon do aos seus alunos vamos fazer uma pesquisa de campo Rapidamente os alunos ficam todos animados com a possibilidade de fazer uma pes quisa de campo Assim você como professor da disciplina inicia uma provocação com a sua tur ma fazendo as seguintes perguntas Qual será o problema de pesquisa Quais serão os objetivos desta pesquisa Porque faremos essa pesquisa O que faremos com os resultados disso tudo Qual o tema Qual a relevância desse tema Quanto custará Aonde vamos Diante de tantas perguntas as respostas que devem ser apresentadas pelos estudantes parecem simples contudo para que a sua provocação seja efetiva e a reflexões dos discentes sejam significa tivas para a aprendizagem deles será necessário que os estudantes alcancem tais respostas com base em um planejamento Logo antes de realizar o experimento com seus alunos ter um planeja mento de pesquisa e um método como será feita a pesquisa fazemse necessários Mas como a bioestatística pode me ajudar com essa questão Para isso convido você a fazer a leitura do artigo intitulado Qual a importância da Bioesta tística e da Epidemiologia na área da saúde a fim de conhecer um dos exemplos para a aplicação da Bioestatística Nesse artigo você verá que a Bioestatística está presente em diversas áreas denossa vida entre elas a Epidemiologia Nessa leitura é evidenciada a relação da Bioestatística e da Epidemiologia em aspectos como quanti ficação e análise dos eventos em saúde Acesse o Qrcode a seguir UNICESUMAR UNIDADE 1 11 Sabemos que a dengue ainda é uma epidemia em várias regiões do mundo Sendo assim considere que você já é um profissional da saúde e está atuando na Secretaria de Saúde de seu município e deseja realizar um experimento a respeito dos casos de dengue em um dos bairros do município Porém o bairro em questão possui 35 mil pessoas segundo dados da prefeitura Você tem o prazo de uma semana para fazer a pesquisa e dispõem de pouca mão de obra e poucos recursos financeiros Neste contexto você se questiona como será possível fazer essa pesquisa É aí que a Bioestatística pode ajudar Utilizando técnicas de estatística como a amostragem na qual você poderá selecionar algumas pessoas que farão parte da sua amostra mas que seja representativa para toda população do bairro Considere esta situação hipotética apresentada e para que possamos nos ambientar com tal prática que tal nos apropriarmos de uma das aplicações da Bioestatística e colocarmos a mão na massa Vamos lá Faça uma pesquisa com os membros de sua família perguntando se eles têm tomado cuidado com ações preventivas contra dengue Diante de tudo isso que discutimos até o momento faça suas anotações em um Diário de Bordo Aqui neste espaço você pode anotar suas primeiras impressões até o momento Escreva os resultados de sua pesquisa com seus familiares anotando também as dificuldades para realizar a pesquisa e os pontos a melhorar Faça esta reflexão 12 No futuro o pensamento estatístico será tão necessário para a cidadania eficiente como saber ler e escrever H G Wells Até o momento estudamos que o futuro profissional da saúde usará a Bioestatística na prática e que ela é fundamental para sua formação Mas o que ela significa Como podemos conceituála A Bioestatística é um ramo da estatística que traz aplicações no campo da Saúde sendo fundamental para problematização planejamento coleta de dados crítica e sumarização dos dados avaliação aná lise e interpretação de todos os dados que resultam nas pesquisas de campo RODRIGUES LIMA BARBOSA 2017 Conhecer a Bioestatística é essencial para as áreas da Epidemiologia à Ecologia à Psicologia Social e à Medicina baseada em evidência Se a Bioestatística porém deriva da própria Estatística como definir Estatística Para Parenti Silva e Silveira 2017 p 13 Estatística é a ciência por meio da qual se faz inferências sobre um fenômeno aleatório específico com base em uma amostra relativamente limitada A área de estatística tem duas subáreas estatística matemática e estatística aplicada A estatística matemática se preocupa com o desenvolvimento de novos métodos de inferência estatística e requer conhecimento detalhado de matemática complexa para a sua execução A estatística apli cada envolve a aplicação dos métodos de estatística matemática em assuntos específicos como economia psicologia e saúde pública Desde a Antiguidade a estatística está presente na vida do homem Ela é utilizada como fonte de da dos que por sua vez são dados ou teorias utilizadas para explicar uma informação de alguma coisa Para Parenti 2018 p 14 É a ciência que tem por objetivo orientar a coleta o resumo a apresentação a análise e a interpretação de dados Apesar de estarmos habituados à análise de informações popula cionais principalmente quando tratamos de censos demográficos ela também pode ser usada como fonte em outras ciências e no nosso caso especialmente nas ciências ligadas à vida e aos seres vivos Podemos observar que a estatística está voltada para problematização de estudos coleta de dados tabulação apresentação e análise de dados UNICESUMAR UNIDADE 1 13 Depois que vimos o que significa a estatística e como ela pode ser útil em nossa vida com um valor importante para todos nós conheceremos suas duas vertentes A estatística pode ser di vidida em estatística descritiva e inferencial A estatística descritiva segundo Arango 2011 é a parte da estatística que é encarregada do levantamento organização classificação e des crição dos dados em tabelas gráficos ou outros recursos visuais além do cálculo de parâme tros representativos desses dados Enquanto a estatística inferencial trata do ramo da esta tística que tem por intuito fazer afirmações a partir de dados observados ou seja fazer projeções para uma população com dados ba seados em amostras Assim mais do que dados a estatística dános oportunidade de olhar as informações coletadas fazer análise de modo crítico e pode ser utilizada dentro da área da Saúde em vários contextos tais como levantamento de dados diagnósticos con tagem de ocorrências análise de dados pandêmi cos comprovação da utilização de medicamentos entre outros PARENTI 2018 No nível da iniciação a estatística não deve ser apresentada como um ramo da Matemáti ca A boa estatística não deve ser identificada com rigor ou pureza matemáticos mas ser mais estreitamente relacionada com pensamento cuidadoso Em particular os alunos devem apreciar como a Estatística é associada com o método científico observamos a natureza e formulamos questões cogitamos dados que lançam luz sobre essas questões analisamos os dados e comparamos os resultados com o que tínhamos pensado previamente levanta mos novas questões e assim sucessivamente HOGG 2001 p 342 Geralmente um profissional da Estatística deve ter bons conhecimentos matemáticos além de in terpretação para criação de novos métodos esta tísticos Por outro lado Hogg 2001 apresentanos que a eficácia no ensino de estatística para acadê micos de áreas não exatas daráse conforme forem relacionados os conteúdos com as habilidades e as competências em questão bem como a utilização de exemplos voltados à área de formação Sendo assim a Bioestatística é uma ramificação da estatística aplicada que utiliza métodos estatísti cos para problemas biológicos e médicos Eviden temente estas áreas da estatística se sobrepõem de alguma maneira Em alguns casos por exem plo em razão de uma aplicação da Bioestatística os métodos padrão não se aplicam e devem ser modificados Nessas situações os bioestatísticos empenhamse para desenvolver novos métodos Na área da Saúde não é diferente nestas áreas cabe aos pesquisadores a avaliação dos dados a interpretação de resultados e a análise das conclu sões com aplicações por exemplo em atividades desenvolvidas em determinado ambiente Além disso em tais áreas a Bioestatística oferece a possi bilidade de análise e interpretação de informações sobre medicamentos equipamentos avaliação de protocolos e artigos científicos GLANTZ 2014 Uma boa maneira de aprender a Bioesta tística e seu papel no processo de pesquisa é seguir o fluxo de uma pesquisa desde o início do estágio de planejamento até a conclusão momento em que geralmente a pesquisa com os resultados alcançados é publicada Assim a questão está em como direcionar o aprendizado da estatística de maneira que o pro fissional da área da saúde possa utilizar estes con ceitos Para isso é importante que você conheça todas as etapas do método científico 14 OLHAR CONCEITUAL Uma Variável corresponde ao que estamos estudando ela pode ser dividida em qualitativa e quantitativa Uma variável qualitativa nominal é referente a um atributo enquanto uma variável qualitativa ordinal referese a uma ordem hierarquia Por sua vez uma variável quantitativa contínua referese a medições e uma variável quantitativa discreta trata de contagem Variável Qualitativa Quantitativa Nominal Característica única Ordinal Hierarquia Discreta Contagem Contínua Medições Figura 1 Variável qualitativa x Variável quantitativa Fonte o autor O método científico é um conjunto de estratégias ferramentas e ideias resultantes da experiência humana e consequentes do acúmulo de saberes que estruturadas e sistematizadas possibilitam alcançar um objetivo que é responder a uma pergunta afinal toda pesquisa científica é baseada em uma pergunta Fonte Parenti Silva e Silveira 2017 p 25 A seguir veremos alguns exemplos da utilização do método científico com perguntas tais como Qual é a incidência de dengue na cidade de São Paulo Quantos casos da covid19 ocorreram na cidade de Curitiba Se uma pessoa consumir alimentos transgênicos ela poderá elevar o risco de doenças gástricas Descrição da Imagem a Figura 1 apresenta um fluxograma da Variável Ela está dividida em duas variáreis a qualitativa e a quantitativa A variável qualitativa está dividida em nominal e ordinal Para a variável qualitativa nominal temos uma característica única e na variável qualitativa ordinal a hierarquia Já a variável quantitativa discreta tratase de contagem e para a variável quantitativa contínua as medições UNICESUMAR UNIDADE 1 15 Assim o método científico nos traz maneiras para respon dermos as perguntas que estão presentes em nossos estu dos e a estatística está presente em seus passos que são a Fazer observações nesta etapa da pesquisa é preciso olhar a todas as variáveis ao redor do pesquisador fazer anotações investigação defi nir o algo de sua pesquisa delimitar sua pesquisa b Definir uma questão nesta etapa do método cien tífico o pesquisador especificará o que quer saber em relação ao que está sendo estudado É impor tante que a questão em si seja tangível c Formular uma hipótese nesta etapa o pesquisa dor irá fundamentar seu conhecimento prévio para explicar o fenômeno observado direcionando para um parâmetro a ser estudado Nesta etapa o pes quisador pode utilizar alguns testes estatísticos tais como testes de hipóteses d Coletar dados depois que são definidos e delimi tados todos os critérios da pesquisa será definido como serão coletados os dados e nesta etapa a estatística ajudará o pesquisador pois na prática muitas vezes ele utilizará amostras e a estatística traz as maneiras de como fazer essas coletas e Analisar os dados nesta fase depois de coletar os dados é preciso analisar os dados coletados fazer a tabulação para apresentação em tabelas e gráficos f Conclusões depois de passar por todas as etapas anteriores o pesquisador faz sua conclusão do seu estudo é importante observar que a estatís tica é uma ferramenta que ajudará na tomada de decisões Podemos observar com mais detalhes a seguir na Figura 2 01 Fazer observações O pesquisador motivado pela pesquisa e interessado em conhecer melhor o mundo em que vive Faz a observação dos fatos fenômenos comportamentos e atividades e percebe que muitas coisas já são conhecidas e outras ainda não Além disso define o objeto de investigação que é o alvo da sua pesquisa o que ele deseja investigar de fato Caso o objeto de estudo seja passível de mensurações o pesquisador começa a perceber que a estatística vai ser bastante útil em seu processo de construção de conhecimento Exemplo Diante dos tempos atuais um pesquisador quer saber a dinâmica do novo Corona vírus em uma cidade para isso o pesquisador deve compreender esse vírus a partir de quanticações de novos casos da doença número de internações hospitalares número de óbitos quanto foi gasto para controlar e prevenir 02 Definir uma questão O pesquisador especificará o que quer saber em relação ao que está sendo estudado O pesquisador define pontualmente sua pergunta de estudo e precisa ser bem objetiva estabelecendo quem serão os sujeitos da pesquisa e se haverá comparações entre grupos Tratase de uma etapa essencial para que se possa escolher como será utilizada a estatística de análise de dados que se será baseada principalmente na pergunta formulada e no desenho estabelecido 03 Formular uma hipótese O pesquisador fundamentará seu conhecimento prévio para imaginar o que poderia explicar o fenômeno observado isto é o que poderia responder àquela questão que já foi definida anteriormente Caso essa hipótese seja direcionada a um parâmetro aqui os testes estatísticos poderão ajudar o pesquisador 04 Coletar dados Depois de definidos todos os critérios que delimitarão a população o pesquisador deverá estabelecer como será feita a coleta de dados e tem à disposição técnicas baseadas na estatística de amostragem para que possam auxiliar o pesquisador selecionar a amostra que representará essa população 05 Fazer observações O pesquisador avalia os dados coletados na pesquisa podendo extrapolar dados amostrais Podem ser apresentados sob forma de tabelas e gráficos e técnicas estatísticas 06 Conclusões A partir das informações obtidas o pesquisador pode fazer comparações com estudos prévios fazendo reflexões sobre o estudo realizado por ele Essas técnicas estatísticas podem orientar os pesquisadores nas tomadas de decisões Figura 2 Etapas para a construção de uma pesquisa científica Fonte o autor UNIDADE 1 17 Descrição da Imagem a Figura 2 apresenta as etapas para a construção de uma pesquisa científica Apresentamos a fase 1 Fazer obser vações Nesta fase o pesquisador é motivado pela pesquisa e interessado em conhecer melhor o mundo em que vive Faz a observação dos fatos fenômenos comportamentos e atividades e percebe que muitas coisas já são conhecidas e outras ainda não Além disso define o objeto de investigação que é o alvo da sua pesquisa o que ele deseja investigar de fato Caso o objeto de estudo seja passível de men surações o pesquisador começa a perceber que a estatística vai ser bastante útil em seu processo de construção de conhecimento Por exemplo diante dos tempos atuais um pesquisador quer saber a dinâmica do novo Corona vírus em uma cidade para isso o pesquisador deve compreender esse vírus a partir de quantificações de novos casos da doença número de internações hospitalares número de óbitos quanto foi gasto para controlar e prevenir Na fase 2 apresentamos como definir uma questão Nesta etapa o pesquisador especificará o que quer saber em relação ao que está sendo estudado O pesquisador define pontualmente sua pergunta de estudo e precisa ser bem objetiva estabelecendo quem serão os sujeitos da pesquisa e se haverá comparações entre grupos Tratase de uma etapa essencial para que se possa escolher como será utilizada a estatística de análise de dados que se será baseada principalmente na pergunta formulada e no desenho estabelecido A seguir vem a fase 3 Formular uma hipótese Aqui o pesquisador fundamentará seu conhecimento prévio para imaginar o que poderia explicar o fenômeno observado isto é o que poderia responder àquela questão que já foi definida anteriormente Caso essa hipótese seja direcionada a um parâmetro aqui os testes estatísticos poderão ajudar o pesquisador Coleta de dados está na fase 4 Nesta fase depois de definidos todos os critérios que delimitarão a população o pesquisador deverá estabelecer como será feita a coleta de dados e tem à disposição técnicas baseadas na estatística de amostragem para que possam auxiliar o pesquisador selecionar a amostra que representará essa população A penúltima fase a quinta fase é a Análise de dados O pesquisador avalia os dados coletados na pesquisa podendo extrapolar dados amostrais Podem ser apresentados sob forma de tabelas e gráficos e técnicas estatísticas Na última fase que é a 6 temos a Conclusão A partir das informações obtidas o pesquisador pode fazer comparações com estudos prévios fazendo reflexões sobre o estudo realizado por ele Essas técnicas estatísticas podem orientar os pesquisadores nas tomadas de decisões Assim quando a Estatística é apresentada a um aluno de graduação ele poderá perguntar Se a Estatística é essencial às pesquisas ela é im portante para quem quer atuar no meio cien tífico A resposta a este questionamento é sim Em especial quando falamos em construção do conhecimento Na prática é preciso estudar sempre estar atualizado à medida que novos estudos sobretudo da sua área de interesse ou atuação são divulgados Nesse entendimento um profissional que trabalha em sala de aula pode utilizar a pesquisa em sua área de atuação e se basear em conhecimentos estatísticos para fazer uma publicação científica por exemplo Assim a estatística também tem função de auxiliar a pesquisa científica e precisa estar alinhada aos conhecimentos e ao objeto de es tudo como estudar uma dada enfermidade a ação de um medicamento entre outros Dessa maneira a Bioestatística está relacionada aos segmentos de ciências da vida como Ciências Biológicas Enfermagem Ecologia Saúde Pú blica Saúde Coletiva Epidemiologia Genética entre outros Dessa forma um pesquisador ao agrupar as informações de determinado estudo normalmente ele trabalhará com os resultados provenientes de uma coleta de dados como contagens experimentos e outros PARENTI 2018 p 4 Esses dados são chamados de dados primários uma vez que o primeiro a ter acesso aos mesmos é o próprio pesquisador ou a sua equipe Considerase que o pesquisador tenha trabalhado de forma a garantir um nível ade quado de qualidade de dados e que as limita ções dos mesmos sejam conhecidas São usuais no entanto nos estudos os dados secundários provenientes de outras fontes tais como publicações de artigos em periódicos científicos artigos ou comunicações em even tos científicos ou institutos de pesquisa e esta tísticas Como os dados secundários não foram obtidos diretamente pelo pesquisador e sua equipe verificase que a qualidade deles pode estar prejudicada Contudo pelo menos nos exemplos de fontes de dados secundários que foram mencionados esperase que a qualidade seja elevada No caso de periódicos científicos a qualidade está relacionada normalmente ao prestígio da publicação É importante que nesta jornada de construção e consolidação do saber 18 Para que possamos nos habituar à consulta de fontes confiáveis e de prestígio científico o uso de plataformas específicas se faz necessário como é o caso da plataforma Sucupira que possibilita por meio de sua ferramenta de consulta verificar o Qualis do periódico pelo Qr Code Para entendermos melhor a análise estatística dois conceitos são primordiais ao entendimento da aná lise estatística de dados população e amostra Uma população N referese a um conjunto de elementos que têm pelo menos uma característica em comum como todos os acadêmicos dos cursos da área de saúde da UniCesumar Uma população pode ser composta de um número tão grande de elementos que muitas vezes não conseguimos quantificar Nesse caso dizemos que a população é de tamanho infinito Supondo que faremos uma pesquisa para investigar hábitos alimentares dos funcionários de um hospital podemos entender que nossa população que estamos estudando é finita porque teremos o número de pessoas que e de sua trajetória acadêmica você compreenda e internalize que a qualidade das informações presentes nos periódicos e nos artigos são de extrema importância Não é necessário mencionar aqui o cuidado que se deve expressar com pesquisas e informações provenientes de fontes não confiáveis Cabe mencionarmos os impactos e os perigos relacionados com a propagação de infor mações irreais em especial no contexto da saúde Provavelmente você recebeu alguma corrente no WhatsApp no início da pandemia do novo coronavírus contendo alguma informação sem a devida indicação da fonte científica e que parecesse no mínimo duvidosa Acertei Isso aconteceu com grande parte da população e nos faz refletir sobre a problemática envolvida em tal prática Nesse contexto como profissionais da saúde devemos por obrigações éticas pautar nossas de cisões mediante a consulta de pesquisas confiáveis publicadas e divulgadas em periódicos com relevância e robustez científica trabalham neste hospital No entanto se tivermos como objetivo de pesquisa investigar os hábitos alimentares dos indivíduos adultos residentes em uma grande cidade o tamanho populacional pode ser bastante amplo Quando temos um estudo em que usamos toda a população denominamos censo Entretanto em boa parte dos estudos a obtenção de todos os dados de todos os elementos da população pode ser inviável devido às dificuldades de acesso aos indivíduos o tempo para concluir a coleta das informações os custos financeiros e entre outras limitações Nesse caso utilizamse informações provenientes de uma amostra ou seja de uma parte da população UNICESUMAR UNIDADE 1 19 Um Censo referese a um levantamento ou registro estatístico de certa população de acordo com alguns critérios tais como sexo idade religião estado civil e profissão No entanto esse conceito está relacionado com a definição clássica de Censo ou seja a ideia de Censo Demográfico De acordo com a definição de população que foi dada anteriormente que população é um conjunto de elementos com pelo menos uma característica em comum a contagem populacional pode estar relacionada ao número de estabelecimentos industriais rebanhos de animais tamanho de propriedades rurais número de estabelecimentos bancários etc Esses censos são denominados Censo Industrial Censo Agropecuário e Censo Comercial e de Serviços IBGE Assim podemos definir amostra n como sendo um subconjunto finito da população isto é uma parte representativa da população por exemplo se como população temos todos os alunos dos cursos de Saúde da UniCesumar uma amostra seriam os alunos do primeiro ano do curso Uma característica importante da amostra que não podemos esquecer é que ela seja representativa da população da qual foi retirada isto é deve ter características similares às daquela população Uma amostra representativa é uma miniatura da população como podemos observar na Figura 3 No entanto uma amostra que não representa adequadamente a respectiva população é chamada enviesada ou tendenciosa Descrição da Imagem a figura apresenta dois círculos e em cada círculo existem grupos de indivíduos com diferentes características O grupo maior é destinado à representação de uma população e está ao lado esquerdo enquanto o grupo menor que se refere à amostra e se posiciona à direita Há uma seta que sai da população para a amostra representando uma parcela da população contudo nesta amostra observamse ca racterísticas representativas da população Figura 3 Seleção de uma amostra 20 Agora que já sabemos a definição de população e amostra que tal analisar um exemplo para diferenciar na prática estes termos que estudamos Vamos lá Uma médica pediatra quer fazer uma análise estatística do uso de medicamentos homeopáticos por pacientes de um a três anos de idade Ela deseja comparar os efeitos do uso destes medicamentos com os alopáticos Os medica mentos homeopáticos são produzidos de forma diferente dos fitoterápicos através de dinamização Neste tipo de terapia são também utilizados além de princípios ativos de origem vegetal outros de origem animal mineral e sintética Um tratamento homeopático não busca eliminar apenas os sintomas da doença e sim estimular o organismo a se fortalecer Logo o tratamento homeopático é eficaz para curar o doente e não apenas aliviálo Já o tratamento alopático busca por meio de medicamentos de ação química eliminar os sintomas e manifestações da doença por meio do chamado princípio dos contrários Por exemplo uso de laxantes na prisão de ventre Fonte CRFESP 2019 Façamos juntos uma nova reflexão Considere o seguinte cenário hipotético Você objetiva realizar uma pesquisa para avaliar os hábitos relacio nados à saúde dos habitantes adultos de uma cidade de porte médio e para tanto realizou a coleta de dados por meio de entrevistas reali zadas na praça de alimentação de um shopping Center do município em questão É importante considerar que nesse caso hi potético descrito a amostra selecionada ou seja o público presente na praça de alimentação de um shopping pode fazer com a que pesquisa não alcance seu objetivo de verificar os hábitos alimentares de uma população direcionando você a uma conclusão errada sobre tais hábitos E por que isso aconteceu Porque não houve nenhum critério para a seleção desta amostra Uma das formas de se garantir que a amostra seja representativa quanto à população con siste na utilização de técnicas estatísticas com as quais ainda em nosso exemplo hipotético apresentado poderíamos dividir a cidade em setores em bairros e para cada setor seria se lecionado determinado número de habitantes para participarem da pesquisa Dessa maneira você conseguiria uma amostra mais represen tativa da população É preciso observar que por mais cuidados que tenhamos na seleção dos elementos que farão par te da amostra ela jamais será perfeitamente igual à população em todas as suas características visto que ela é uma fatia da totalidade dos indivíduos Entretanto uma estratégia importante para obter mos amostras tão representativas quanto possível consiste em usar os chamados planos probabi lísticos que com base em técnicas estatísticas definem como os indivíduos serão melhor sele cionados para a composição da amostra Para que possamos avançar considere o exemplo presente em nosso elemento Explorando Ideias apre sentado anteriormente Suponha que a médica inicia sua pesquisa definindo a população para estudo todos os seus pacientes que se enquadrem na faixa etária apresentada Depois disso ela selecionará dois tipos de amostras diferentes para oferecer a medicação ao paciente assim terá como amostras UNICESUMAR UNIDADE 1 21 Amostra 1 que será composta pelos pacientes cujos pais optaram por medicamentos ho meopáticos Sistematicamente sua análise terá como indicador o número de vezes em que as crianças apresentaram alguma alteração na saúde no período de um ano bem como o tipo de doença que apresentaram Amostra 2 será composta pelos pacientes cujos pais não utilizam medicamentos homeopáticos nos tratamentos indicados pela pediatra Para dar continuidade em sua pesquisa a médica realiza os registros e as verificações necessárias ao longo de um ano de acordo com a proposta inicial da pesquisa e ao término deste prazo ela poderá por intermédio dos dados obtidos verificar se a sua hipótese inicial foi comprovada ou não Assim os dados poderão ser utilizados em desdobramentos da mesma pesquisa ou provocar a necessidade de uma nova coleta de dados A vantagem deste tipo de análise é que ele oportuniza ao profissional mais segurança na tomada de decisões além de melhores e mais confiáveis argumentos junto aos pacientes e aos clientes e maior sucesso nas abordagens escolhidas Você pode estar se perguntando agora mas e na prática como fica Um ganho para os profissionais da Saúde consiste no conhecimento sobre diferentes experimen tos de uma maneira mais clara e objetiva para obtenção de dados concretos que podem interferir na qualidade do seu trabalho Façamos uma nova reflexão com base em um novo cenário hipotético Considere que um profissional da saúde trabalhe em dois laboratórios que ficam localiza dos em regiões distintas porém em uma mesma cidade No laboratório 1 o profissional atende pacientes de baixa renda que quase não fazem consultas nem exames Já no labo ratório 2 o mesmo profissional atende pacientes que tem uma rotina elevada de consultas e exames Assim note que esse profissional consegue ainda que intrinsicamente analisar como está a frequência na procura de exames em relação aos dois laboratórios e conse quentemente em relação ás duas regiões da mesma cidade Para tanto esse profissional considera que a população será composta pelos pacientes do laboratório 1 e laboratório 2 já a amostra será composta pelos pacientes que procuraram atendimento nos últimos 6 meses Caso queira verificar com detalhamento descrição e por meio da Estatística esse profissional poderá elaborar uma tabela para cada laboratório para agrupar os dados que vão servir de parâmetro Ao finalizar sua pesquisa o profissional poderá analisar e levantar informações que lhe possibilitem concluir com propriedade estatística em qual dos laboratórios será necessário um maior estoque mais colaboradores dentre outras informações voltadas a gestão PARENTI 2018 p 1718 De acordo com Parenti Silva e Silveira 2017 o conceito de variáveis é referente a características individuais do que estamos estudando como unidade ou objeto de estudo como o gênero o peso a estatura Dessa maneira as variáveis representam quaisquer características que possam modificar o resultado da pesquisa Em Bioestatística assim como em Estatística como já mencionado anterior mente que as variáveis estão classificadas em quantitativas e qualitativas Assim as quantitativas são 22 referentes a atributos que podem ser medidos ou mensurados e as qualitativas somente a atributos que não sejam numéricos Retomando estes conceitos dizemos que Variáveis quantitativas referentes a valores numéricos por exemplo peso altura número de espé cies em uma floresta número de nascidos vivos em uma maternidade enfim as variáveis quantitativas se adequam às necessidades da pesquisa e representam valores referentes ao universo pesquisado Podem ser divididas em discretas ou contínuas As variáveis quantitativas discretas são referentes a contagens ou números inteiros como por exemplo número de nascidos vivos em uma maternidade número de óbitos de uma cidade Também podem ser classificadas em contínuas que são referentes a mensurações ou medidas tais como peso de uma pessoa estatura de um indivíduo entre outros Variáveis qualitativas referentes a atributos não mensuráveis como gênero etnia entre ou tros Podem ser divididas em nominais ou ordinais Uma variável é qualitativa nominal quando temos por exemplo uma espécie Já uma variável é qualitativa ordinal quando são referentes a atributos que podem ser classificados de acordo com uma hierarquia como a prestação de um serviço sendo do melhor ao pior As variáveis quantitativas e qualitativas são muito utilizadas em todos os tipos de pesquisas que usam dados estatísticos CRESPO 2009 A seguir vejamos alguns exemplos que podem auxiliar no enten dimento da finalidade e do conceito de cada uma assim como as diferenças entre elas Vamos supor que temos que fazer uma pesquisa que tenha por objetivo analisar a relação entre o hábito de fumar e o desenvolvimento de doenças pulmonares Para essa pesquisa faráse presente uma série de variáveis diferentes com as quais poderemos trabalhar tais como Figura 4 Descrição da Imagem a figura 4 apre senta as análises das variáveis De cima pra baixo Variáveis quantitativas discre tas analisar a relação entre o número de cigarros que são consumidos por dia por cada um dos pacientes com a idade de início do consumo de cigarros e a idade atual Variáveis quantitativas contínuas avaliar o peso dos pacientes bem como o estado de saúde Variáveis qualitati vas nominais fazer uma relação entre o gênero dos investigados ao hábito de fumar Variáveis qualitativas ordinais fa zer um registro quanto o grauestágio da doença pulmonar que os pacientes se encontram classificandoos em inicial intermediário e terminal Figura 4 Análise das variáveis Fonte o autor Variável Quantitativa Discreta Contagem número de cigarros consumidos Variável Quantitativa Contínua Mensuração peso dos pacientes Variável Qualitativa Nominal Característica única gênero dos investigados Variável Qualitativa Ordinal Ordemhierarquia grauestágio da doença UNICESUMAR UNIDADE 1 23 Ao decidir realizar uma pesquisa na área da saúde é imprescindível que o pesquisador conheça as normas estabelecidas pelo Conselho Nacional da Saúde por intermédio da Resolução Nº 0188 de 13 de junho de 1988 Essas normas referemse a questões éticas que envolvem pesquisas com seres humanos em relação à dignidade à adequação aos princípios éticos e científicos à privacidade do indivíduo e aos possíveis riscos que o estudo possa acarretar Fonte Brasil 1988 online Dessa forma é fundamental e muito importante destacar qual será a variável que o pesquisador escolherá para analisar no seu objeto de estudo Parenti Silva e Silveira 2017 trazemnos conceitos de pesquisa experimental que objetivam identificar as relações entre duas variáveis No método experimental devese provocar variações na ocorrência de uma variável e verificar se ela é a causa de algum efeito em outra por exemplo podemos utilizar diferentes medicamentos para determi nada doença e observar os seus resultados Na pesquisa correlacional não tem como provocar mudanças nas variáveis assim o pesquisador observa as alterações e seus efeitos elencando as va riáveis que serão observadas por exemplo avaliar os efeitos das alterações naturais de temperatura em determinado ambiente e nos seres que vivem ali A pesquisa de levantamento tem variáveis não interferentes como uma pesquisa eleitoral que terá como universo a população da cidade do estado ou do país A amostra deve ser composta por número representativo de cada segmento da sociedade por exemplo pessoas que podem votar que farão parte desta amostra Existem ainda outros tipos de pesquisa que atendem às necessidades específicas de cada objeto de estudo e que terão suas características próprias como os estudos de caso e as observações Neste sentido é relevante que o pesquisador tenha em mente Qual é o meu objeto de pes quisa Qual é meu públicoalvo Quais hipó teses desejo comprovar com a minha pesquisa Que tipo de pesquisa se adéqua melhor ao meu objeto de estudo Respondidas estas questões o pesquisador pode pensar em quais metodolo gias poderá usar para sua investigação Com a escolha da metodologia virão as decisões sobre como tratar os dados estatísticos levantados que tipos de questões deverão ser feitas se os dados serão quantitativos ou qualitativos e as sim sucessivamente Como você pôde perceber falamos bastante do conceito de amostra Mas por que esse con ceito é tão importante dentro de uma pesquisa Na prática temos situações em que não se torna viável o uso de uma população e o pesquisa dor precisa utilizar uma amostra Mas quais são essas situações De acordo com Barbetta 2014 as técnicas de amostragem são utiliza das quando temos 24 1 Economia geralmente nas pesquisas é muito mais econômico trabalharmos com amostra ou seja com uma pequena parcela da população do que como um todo Supondo que você precisa fazer uma pesquisa em um bairro que tem 25 mil pessoas imagine o custo para entrevistar todas as pessoas que fazem parte da população deste bairro Fica mais econômico selecionarmos uma amostra ou seja uma parte de moradores do bairro para fazer parte da entrevista do que trabalharmos com 25 mil pessoas 2 Tempo muitas vezes o pesquisador não tem tempo suficiente para estudar toda população por exemplo ele tem por objeto de pesquisa saber se as pessoas em um bairro fazem reciclagem Nesse bairro tem 25 mil pessoas e o pesquisador tem cinco dias para fazer a pesquisa nesse caso ele deverá recorrer a uma técnica de amostragem para dar continuidade à sua pesquisa 3 Confiabilidade e operacionalidade quando o pesquisador precisa reduzir o número de elementos na qual ele poderá dar mais ênfase aos casos individuais estudados Para Barbetta 2014 entretanto existem situações em que as técnicas de amostragens não são viáveis tais como 1 Quando a população pequena nesse caso quando a população é pequena fica melhor estu dar todos os elementos do que uma parte apenas imagine a situação um professor tem quinze alunos em uma turma e quer saber quantos praticam a reciclagem em suas casas Nesse caso por se tratar de uma população pequena vale a pena o professor trabalhar com todos seus quinze alunos do que com uma parte deles apenas 2 Quando a característica é de fácil mensuração este caso ocorre por exemplo quando a po pulação é de fácil acesso e quando não compensa elaborar um plano de amostragem Considere que um professor quer saber dentre os alunos de sua escola quantos são a favor de participar da feira de ciências para isso ele pode entrevistar ou colocar urnas na escola e incentivar a participação de todos na própria escola 3 Necessidade de alta precisão por exemplo o Instituto Brasileiro de Geografia e Estatística IBGE faz o censo demográfico a cada dez anos para conhecer as características da popula ção brasileira Nesse caso a pesquisa é feita com toda população e não com parte da amostra Segundo Arango 2011 um conceito importante que se deve ter em mente quando se trata de le vantamento de dados é o de que o sucesso nas conclusões tiradas acerca da população com base nas informações colhidas de uma ou mais amostras depende da criteriosa seleção destas Dessa forma se os dados forem mal coletados certamente carregarão suas distorções para qualquer análise que se faça deles Toda pesquisa tem suas limitações nos seus resultados decorrentes da metodologia empregada na investigação Para termos sucesso nas conclusões em uma pesquisa é preciso ter a metodologia bem descrita bem como o passo a passo do estudo UNICESUMAR UNIDADE 1 25 Basicamente existem dois tipos de validade validade interna e validade externa A validade interna diz se as conclusões de uma pesquisa são corretas para a amostra estudada Essa validade é prérequisito para a validade externa A validade externa diz se as conclusões de uma pesquisa são aplicáveis à população da qual a amostra se originou ou a outras populações A limitaçã o dos resultados de uma pesquisa científica deve ser discutida à luz dos possíveis erros meto dológicos vieses que constituem ameaças à validade da pesquisa Buscase então um nível de confiança que é possível depositar nos resultados e conclusões a partir de uma análise criteriosa dos possíveis erros e suas causas Chamamos de viés um erro sistemático vício distorçã o e não intencional proveniente de questões metodológicas Existem dois fatores que influenciam no correto levantamento dos dados a representatividade e a fidedignidade A representatividade é um fator associado à forma de amostragem Assim de uma maneira qual quando selecionamos uma amostra buscamos reproduzir as características observáveis da população Este procedimento é conhecido como critério de proporcionalidade e quando ele é considerado dizse que a amostra é representativa da população em questão No entanto para que isto seja possível as características da população devem ser previamente conhecidas Contudo a disponibilidade de in formações prévias sobre a estrutura populacional para um estudo nem sempre é a ideal de forma que normalmente a fonte de informação acaba sendo um outro estudo ou dados estatísticos secundários extraídos de institutos de pesquisa por exemplo Na falta de informações sobre a composição da população em estudo trata se de que a escolha seja a mais isenta possível adotandose algum critério de aleatoriedade escolha ao acaso como um sorteio ARANGO 2011 Todavia quando os dados necessários para o conhecimento dos atributos da população estão disponíveis e são ignorados ou manipulados a amostra resultante seria considerada tendenciosa Conclusões e estimativas efetuadas com base nessa amostra não possuiriam consistência Para entender melhor este conceito vejamos o exemplo imagine um estudo feito por biólogos e biomédicos para verificar a incidência de Escherichia coli em determinado município O exame da água é fundamental para distribuição principalmente quando destinada ao consumo humano Assim parece claro que o estudo deverá ser realizado por amostragem domiciliar da água pois seria inviável testar todos os domicílios Supondo ainda que existem outras informações como a classificação das áreas geográficas rural e urbana por exemplo a localização dos bairros a população dos bairros e a taxa de atendimento com água tratada Podemos observar o resultado com o exemplo de amostragem com as informações no Quadro 1 26 População N Número de Habitantes Taxa de Atendimento com Água Tratada Rural 1000 0 Urbana 9000 89 Bairro A 2000 100 Bairro B 2000 87 Bairro C 5000 80 Com essas informações uma amostra representativa da população de domicílios deveria observar que Todos os locais sejam alcançados pela pesquisa observandose a distribuição geográfica área urbana com seus três bairros e área rural Não sendo possível por simples conveniência efetuar pesquisa somente em domicílios urbanos no bairro A Seja considerada nesse caso a população de cada setor geográfico A amostra deverá ser cons tituída de partes proporcionais idênticas às da população Assim 10 da amostra seriam constituídos por domicílios rurais 20 do bairro A etc Na falta das populações poderiam ser empregados pesos para a constituição da amostra de acordo com o pesquisador Exista total aleatoriedade na escolha dos domicílios Estes aspectos são importantes para evitar caracterizar a amostra como tendenciosa e consequente mente adquirir credibilidade sem espaço para gerar conclusões duvidosas Outro aspecto que deve ser levado em conta no trabalho de levantamento de dados e constituição das amostras é o da fidedignidade dos dados ou das informações relacionada com a precisão dos dados ou com a sua qualidade A falta de precisão pode ser ocasionada por vários motivos De uma maneira geral podemos ter as situações equipamentos que não sejam aferidos corretamente falta de calibração de equipamentos questionário mal elaborado no caso de entrevistas com perguntas tendenciosas e falhas na hora da coleta No primeiro caso o uso de balança mal calibrada réguas com defeito coletor de amostra de água por exemplo inadequado amostras em mau estado de conservação pode causar erros nas medições Existem também alguns exames laboratoriais como os que implicam contagem e estão sujeitos à falha Nesses casos durante o levantamento dos dados da amostra é recomendado para minimizar as falhas utilizar os mesmos aparelhos Já no segundo caso existem informações que carregam grande margem de erro Por exemplo suponha que um questionário contenha a seguinte pergunta Quanto tempo faz desde que você foi ao médico pela última vez Mesmo que a pessoa entrevistada tenha boa vontade em responder e não esteja tencionando falsear a resposta ela pode encontrar dificuldades em realmente precisar o tempo solicitado pela pergunta A razão da resposta do entrevistado poder apresentar uma falha de infor Quadro 1 Exemplo de amostragem com informações Fonte adaptado de Arango 2011 UNICESUMAR UNIDADE 1 27 A definição da amostra de uma pesquisa clínica é dividida em quatro fases Critérios de inclusão quais são as características necessárias para a participação do estudo Por exemplo no estudo de determinada patologia estarão incluídos os pacientes que apre sentam os sintomas há menos de cinco anos Critérios de exclusão quais características podem eliminar os candidatos ao estudo No exem plo estarão excluídos todos os pacientes que apresentam sintomas há mais de cinco anos Escolha da técnica de amostragem o que dependerá dos objetivos a que a pesquisa se propõe Consentimento livre e esclarecido em que o paciente ou sujeito participante da pesquisa afirma conhecer as condições e o seu desejo de contribuir Fonte Pereira 2003 mação é simplesmente o fato de que um conjunto de informações não é devidamente registrado e para obtêlas às vezes não existe alternativa a não ser contar com a memória do entrevistado Outro exemplo de uma questão que poderia suscitar erros seria Já dirigiu embriagado Tratandose de um tema que em boa parte dos casos cria constrangimento ao entrevistado ou ele pode falsear a sua resposta exagerando ou escondendo a verdadeira informação Pelos mais variados motivos desde a precária memória em alguns casos passando pelo medo e a própria fantasia do entrevistado é comum a falta de precisão das respostas Por este motivo os questionários de levantamento de dados devem ser elaborados com extremo cuidado evitando perguntas vagas ou que deem margem a respostas muito subjetivas Naturalmente seus resultados devem ser tomados com grande cautela Agora que já sabemos que a amostragem é importante nas pesquisas e que é utilizada na prática conheceremos algumas técnicas estatísticas de amostragem Já estudamos em nossa disciplina que a população N referese ao universo da pesquisa como sendo um conjunto de elementos que tenha pelo menos uma característica em comum CRESPO 2009 E a amostra n é uma parte da população Por exemplo ao utilizarmos como população todos os pacientes internados em determinado hospital podese definir que serão parte da pesquisa apenas os internados em leitos ímpares ou os que permanecerem internados por mais de dois dias O critério de escolha para a determinação da amostra seguirá as necessidades e os objetivos da pesquisa desde que sejam imparciais não tendenciosos e representativos da população Para isso devese definir a população que se busca e a característica investigada As técnicas de amostragem podem ser divididas em probabilísticas e não probabilísticas A amostra gem probabilística considera que todos os elementos da população tenham a mesma probabilidade diferente de zero de compor a amostra A não probabilística é definida por elementos não aleatórios Uma amostragem probabilística é aquela em que todos os elementos da população tem a mesma chance de compor a amostra podendo ser dividida em 28 Uma ferramenta importante para a realização de seleção de amostras aleatórias são os denominados números aleatórios Estes são números compreendidos em um intervalo cuja probabilidade de serem selecionados é igual como em um sorteio Em programas como o Excel a função geradora de números aleatórios permite definir o intervalo do sorteio e por tipo de número inteiro ou real Para isto utiliza a função ALEATORIO ou ALEATORIOENTRE dependendo da versão No último caso a função é acompanhada de um argumento que permite mudar o intervalo do sorteio Por exemplo ALEATORIOENTRE a b sorteia números entre a e b H G Arango a Amostragem casual simples ou aleatória simples referese a um evento de seleção simples como o caso de um sorteio Para compreendermos por meio de exemplos considere a população o total de pacientes que se consultam em um hospital X Com o objetivo de investigar os tipos de patologias que os pacientes apresentam um sorteio é realizado para direcionar os selecionados a um estudo clínico Ao realizar um sorteio compreendemos que a amostragem foi realizada de forma casual simples ou aleatória simples Vejamos outro exemplo a população de outro estudo é composta por pacientes de um hospital 500 pessoas considere que o pesquisador almeja desenvolver uma pesquisa com 10 desta população ou seja a amostra será composta por 50 pacientes deste hospital Para tanto ele realizará um sorteio simples dos 50 pacientes que comporão a amostra o que caracteriza uma seleção por amostragem casual simples Na Figura 5 podemos observar um exemplo de um sorteio simples de amostragem aleatória No exem plo hipotético temos doze pessoas enumeradas de um a doze considere que deste total obteremos uma amostra composta por quatro pessoas Considere que após um sorteio simples as pessoas selecionadas foram os indivíduos com os números 2 5 8 e 11 Logo estas pessoas passam a compor a amostra Amostragem simples Amostra População Descrição da Imagem a figura representa um sorteio simples no qual temos doze pessoas enu meradas de um a doze Uma seta indica a realização de um sorteio no qual as pessoas sorteadas passam a compor a amostra A nova composição da amostra se dá com os representantes da população enumerados com os números 2 5 8 e 11 Figura 5 Amostragem casual simples sorteio simples UNICESUMAR UNIDADE 1 29 REALIDADE AUMENTADA Para entender melhor como funciona o processo de amostragem sistemática convido você a acessar o QRCODE e experimentar a realidade aumentada b Amostragem sistemática os elementos são escolhidos a partir de um fator que se repete Para que ocorra a população deve estar ordenada de forma aleatória como em uma lista ou fila Por exemplo a partir das fichas de consultas da mesma Unidade Básica de Saúde UBS retirase a 15 depois a 30 a 45 e assim sucessivamente até atingir um número de pacientes desejado que deve ser proporcional ao número da população de pacientes atendidos Ou definese que a pesquisa se dará com os pacientes que estiveram em consulta no mês de maio Para exempli ficar você pode observar a Figura 6 na qual temos treze pessoas em uma fila ordenada Considere que selecionaremos uma amostra composta por cinco pessoas Para tanto podemos utilizar a equação 1 a seguir I N n Em que I intervalo N População n amostra Para isso temos I 13 5 I arredondando 2 6 3 Portanto escolheremos ou sortearemos a pri meira pessoa que comporá a amostra e contará o intervalo de 3 em 3 Supondo que determinamos que a primeira pessoa da fila será a primeira a compor a amostra somaremos mais três a pró xima pessoa será a número 4 depois somare mos mais 3 será a número 7 somamos mais 3 e teremos a pessoa na posição 10 e por último somamos mais 3 e teremos a pessoa na posição 13 Assim a amostra tornase sistemática ou seja foi definido por meio de um sistema antes de se lecionar a amostra que esta será composta pelos indivíduos nas posições 1 4 7 10 e 13 30 Descrição da Imagem na figura temos a amostragem estratifica da na qual temos um grupo de pessoas divididas em dois grupos o primeiro grupo composto doze pessoas e o segundo grupo com posto por nove pessoas Descrição da Imagem na figu ra temos a amostragem Siste mática em que se observa uma imagem composta por 13 pes soas foi calculado anteriormen te que o sistema será de 3 em 3 ou seja sistematizado para a seleção dos indivíduos que estão na posição 1 4 7 10 e 13 que passam a compor a amostra Figura 6 Amostragem Sistemática Figura 7 Amostragem Estratificada d Amostragem por conglomerados o agrupamento se dará por proximidade física indepen dentemente de outras características ou seja por um conglomerado Por exemplo a amostra será composta por um grupo de pacientes do hospital A que moram na mesma rua da unidade Na Figura 8 você pode observar um exemplo de amostragem por conglomerados supondo que há pessoas em locais diferentes e você fez um sorteio com dois locais diferentes sua amostra será composta por essas pessoas nestes locais diferentes c Amostragem estratificada será a amostragem escolhida quando a população estiver estra tificada O tamanho dos estratos deve ser proporcional aos seus tamanhos na população de origem Como a população de um hospital é composta por 500 pessoas divididas em 200 homens e 300 mulheres supondo que o pesquisador deseja 10 de uma amostra assim a amostra será composta por 50 pessoas divididas em 20 homens e 30 mulheres Na Figura 7 temos um modelo de amostragem estratificada em que os grupos foram divididos para em seguida serem selecionados uma amostra UNICESUMAR UNIDADE 1 31 Amostragem Probabilística Amostragem Casual Simples Amostragem Sistemática Amostragem Estratifcada Amostragem por Conglomerados Sorteio Simples Defnição de sistema Subdivisão de grupos Locaiscluster Ex Sortear 5 de uma população de 100 pessoas Ex Amostra composta por 25 casas em um intervalo defnido de 5 em 5 Ex População composta por 1000 pessoas 800 homens e 200 mulheres defnido 10 Portanto 80 homens e 20 mulheres Ex Em uma cidade sortear um bairro dentre todos os conglo merados Descrição da Imagem a fi gura 8 é composta por cinco grupos de três pessoas sen do destacado dois grupos compostos por três pessoas Figura 8 Amostragem por conglomerados Temos um resumo das técnicas de amostragem probabilística com suas divisões bem como suas pala vras chaves e um exemplo Podemos perceber que a amostragem probabilística Figura 9 que se trata daquela amostragem que todos os elementos podem fazer parte da amostra é dividida em amostra gem casual simples sorteio simples amostragem sistemática definição de um sistema amostragem estratificada subdivisão de grupos e amostragem por conglomerados territórios Descrição da Imagem na figura temos um resumo da amostragem probabilística primeiro temos a amostragem casual que é um sorteio simples como Sortear 5 de uma população de 100 pessoas Temos a amostragem sistemática que é a definição de um sistema e como exemplo temos Amostra composta por 25 casas em um intervalo definido de cinco em cinco Temos a amostragem estratificada composta pela subdivisão de grupos e como exemplo temos População composta por 1000 pessoas 800 homens e 200 mulheres definido 10 Portanto 80 homens e 20 mulheres Por fim temos a amostragem por conglomerados que é locaiscluster como exemplo temos em uma cidade sortear um bairro dentre todos os conglomerados Figura 9 Resumo das técnicas de amostragem probabilística Fonte o autor 32 Além disso a amostragem também pode ser não probabilística isso significa que existe uma escolha deliberada dos elementos da amostra e dependendo dos critérios do pesquisador temos Amostragem por acessibilidade ou por Conveniência a seleção se dará a partir de elementos que estejam ao alcance do pesquisador Essa amostragem não tem verdadeiro valor estatístico e serve mais como forma de buscar dados iniciais para a pesquisa como a amostra ser composta por um grupo de dados formado com perguntas feitas a pessoas em um shopping da cidade Na Figura 10 você pode observar que as pessoas participantes da amostra são selecionadas de acordo com os critérios estabelecidos pelo pesquisador Amostragem por julgamento ou intencional neste caso a seleção ocorre a partir do julga mento do pesquisador por exemplo quando se quer fazer uma pesquisa com o intuito de se comprovar que o consumo de carne tem influência sobre a saúde das pessoas Escolhese Porto Alegre RS como base para a coleta da amostragem por se considerar que seja a capital onde mais se consome este alimento no Brasil Amostragem por cotas neste caso oferece mais rigor à coleta sendo que a fixação das cotas deve seguir critérios que caracterizam a amostra como representativa da população No exemplo da carne primeiro é feita uma análise da população de Porto Alegre e depois são definidas as proporções entre homens mulheres as faixas etárias e os estratos sociais Em seguida serão entrevistados um número de pessoas correspondente à proporcionali dade de cada um desses grupos Dessa maneira haverá uma amostragem significativa de toda a população da cidade Temos um resumo das técnicas de amostragem não probabilística Figura 11 com suas divisões bem como suas palavras chaves e um exemplo Podemos perceber que a amostragem por conveniência ou acessibilidade é aquela em que os elementos que comporão a amostra estão de fácil acesso do pesquisador a amostragem por julgamento é aquela em que há interferência ou seja julgamento do pesquisador e na amostragem por cotas as cotas são fixas pelo pesquisador em seguida é feita a coleta de dados que comporão a pesquisa Descrição da Imagem na figura temos a amostragem por conveniência e temos um grupo de 15 pessoas e a pessoa sorteando por conve niência 5 pessoas destacadas na figura Figura 10 Amostragem por conveniência UNICESUMAR UNIDADE 1 33 Descrição da Imagem a Figura 11 apresentanos a amostragem não probabilística iniciando pela Amostragem por conveniência ou acessibilidade que se trata de elementos a partir do alcance do pesquisador Temos por exemplo a aplicação de questionários entrevistas em uma escola para levantarmos dados iniciais Depois a amostragem por julgamento que se trata de julgamento do pesquisador Temos como exemplo um pesquisador supõe que o departamento de Biologia tem mais publicações e ele pesquisa lá a partir disso Por fim a Amostragem por cotas nas quais são fixadas as cotas por exemplo define proporções e cotas para então fazer a coleta de dados Figura 11 Amostragem não probabilística Fonte o autor Amostragem não probabilística Amostragem por conveniência ou acessibilidade Amostragem por julgamento Amostragem por cotas Elementos a partir do alcance do pesquisador Julgamento do pesquisador Fixa cotas Ex Aplicação de questionários entrevistas em uma escola para levantamentos de dados iniciais Ex Defne proporções e cotas para então fazer a coleta de dados Ex Um pesquisador passa a integrar um grupo de pesquisa de um laboratório em específco por compreender que o laboratório tem condições e expertise em sua área de interesse Assim podemos observar que as técnicas de amostragem podem ser muito úteis para os pesquisadores Parenti Silva e Silveira 2014 salientam que é importante que os investimentos em pesquisa possam ser ampliados aproximando a teoria do cotidiano e que o tipo de pesquisa e as ferramentas usadas em geral não requerem alto investimento mas a geração de informações adequadas a respeito de doenças e tratamentos fará a diferença na vida de cada um Dessa forma podemos citar várias linhas de investimentos necessários nos dias de hoje como o aumento da resistência bacteriana a ausência de tratamentos eficazes para doenças endêmicas em países pobres como a dengue as pesquisas em saúde mental entre outros Os diferentes tipos de amostragem podem se mostrar bastante úteis no cotidiano dos profissionais da área biológica e da saúde pois auxilia tanto na administração de consultórios e clínicas quanto na determinação de estratégias de tratamentos medicamentos e outras Dependendo dos objetivos propostos pela pesquisa o desafio é determinar que tipo de amostragem escolher para que os dados obtidos sejam um reflexo real da investigação 34 Você sabia que a Bioestatística e Epidemiologia são dois ramos espe cializados da área da saúde que têm o objetivo de analisar e fazer uma leitura crítica sobre os fenômenos que ocorrem na população Saiba que ambas as áreas contribuem para elencar e selecionar novas tecnologias e soluções inovadoras relacionadas ao processo saúde doença tais como a formulação de novos fármacos diferentes procedimentos cirúrgicos e identificação de fatores de risco para determinadas condições Em nossa roda de conversa traremos uma explicação destes dois ramos que são importantes para área da saúde principalmente na tomada de decisão O artigo Desenho da Amostra da Pesquisa Nacional de Saúde 2013 publica do pela revista científica Epidemiologia Serviços de Saúde no ano de 2015 aborda a questão da importância de um plano amostral uma população alvo e técnicas de amostragem bem como a condução de uma pesquisa O trabalho apresenta a forma como foram elaborados os questionários propostos na pesquisa as técnicas de amostragem e a tabulação dos resultados oriundos da pesquisa Recomendo a leitura para aprofunda mento por meio de um estudo científico dos aspectos que estudamos nesta unidade Boa leitura É possível perceber que as pesquisas geralmente requerem atenção especial dos profissionais da área da saúde tanto para atualização e frequente busca por alternativas e novos procedimentos quanto para alimentar a própria necessidade de busca O médico o enfermeiro o farmacêutico o biólogo enfim todos os profis sionais dessa área devem estar atentos às possibilidades e aos conhecimentos desenvolvidos em pesquisas Você percebeu que a Bioestatística será bem aplicada em seu futuro profissional Ao escolher a área da Saúde verá que para realizar uma pesquisa será necessário entender o conceito de população N e amostra n bem como entender os meios de pesquisa e a técnica de amostragem que será utilizada Como exemplo você pode fazer uma pesquisa com seus alunos em um colégio com o objetivo de saber se eles praticam ou não a reciclagem Mas no momento em que for fazer essa pesquisa se o colégio tem 5000 alunos e você tem um tempo curto para fazêla pode recorrer a uma técnica de amostragem que estudamos aqui nesta unidade na disciplina de Bioestatística e fazer essa pesquisa com uma amostra representativa da população Além disso quando você vai a campo por exemplo fazer uma coleta de água em um rio para verificar a qualidade da água ao retirar essa amostra de água está utilizando uma técnica de amostragem e ao levala ao laboratório para estudar parâmetros físicoquímicos e microbiológicos saindo o resultado ao interpretar você estará fazendo uma projeção da qualidade da água daquele rio então você utilizou a técnica de estatística inferencial UNICESUMAR Olá aluno a chegamos à avaliação e aqui você fará um Mapa de Empatia que consiste em fazer a autoavaliação de uma forma mais divertida de tudo que foi estudado até agora nesta unidade Vamos lá Você se identificará e se perguntará como fará um mapa sobre as técnicas de estatística e amostragem Vejamos você poderá pensar em como estas informações tratadas nesta unidade como as técnicas de estatística poderão ajudar você em uma pesquisa em que se tem as etapas de planejamento coleta de dados agrupamento dos dados tabelas e gráficos análise e avaliação podem ajudar em uma pesquisa científica em sua vida profissional ou até mesmo em sala de aula Também verá como as técnicas de amostragem podem ajudar a trabalhar corretamente com uma amostra que seja representativa da população Então comece escrevendo seu nome sua idade e preencha com comentários tópicos ou perguntas sobre si mesmo dentro do quadro da empatia E no final você verá o tanto de coisas que descobrirá sobre este tema proposto Assim Utilize o Mapa de Empatia para refletir e se expressar nas questões a seguir O que ele PENSA E SENTE Qual a importância da Bioestatística para sua formação O que ele ESCUTA O que você já tinha ouvido falar sobre a Bioestatística Você já tinha ouvido falar em técnicas de amostragem Consegue entender sua importância nas pesquisas O que ele VÊ O que você já viu em relação na prática utilizando técnicas estatísticas O que ele FALA E FAZ O que você achou do conteúdo estudado até o momento faz sentido um futuro profissional da área da saúde estudar técnicas de Estatística Quais são suas aplicações DOR Quais são suas dificuldades Você acha que vem coisas mais difíceis na disciplina Consegue entender como os conceitos e exemplos são essenciais para sua compreensão GANHOS O que você ainda acha que tem que estudar para entender melhor a Bioestatística MAPA MENTAL MEU ESPAÇO 2 Nesta unidade vamos trabalhar com as variáveis que se tratam das características de interesse que são medidas em populações ou amos tras Assim é por meio de conhecimentos obtidos na Bioestatística que vamos conseguir classificar as variáveis que desejamos estudar Uma pesquisa na área de saúde na maioria das vezes pode ter variáveis de interesse como por exemplo peso altura se a pes soa tem algum histórico crítico de doença se tem alguma doença genética Essas variáveis podem ser classificadas em qualitativas e quantitativas e será essa oportunidade de aprendizagem que você terá nesta aula Variáveis Aleatórias Discretas e Variáveis Aleatórias Contínuas Me Renata Cristina de Souza Chatalovv 38 Você sabia que precisamos entender de variáveis para fazer uma pesquisa de qualquer natureza Sabia que é importante diferenciar uma variável qualitativa de uma variável quantitativa Assim temos que classificar essas variáveis e saber bem suas diferenças para que nossas pesquisas não comecem com erros categóricos As variáveis nos estudos de Bioestatística são valores que assumem certas características dentro de uma pesqui sa e podem ser classificadas em qualitativas e quantitativas Uma variável é qualitativa quando temos qualidade ou atributos relacionados ao que vamos estudar e uma va riável é quantitativa quando temos que contar ou medir a variável analisada Você já fez alguma pesquisa e ficou em dúvida se estava classificando a variável estudada corretamente Você sabia que existe diferença em qualitativa e quantitativa E que todas as variáveis analisadas estão relacionadas ao planeja mento e objetivos da pesquisa Faça um experimento pergunte a dez pessoas na rua no seu trabalho em uma unidade de saúde peso idade altura se a pessoa já teve Covid 19 sim ou não como resposta e estado civil solteiro viúvo divorciado união instável Anote estes valores Aqui você já pode perceber que a Bioestatística vai além de fazer testes gráficos e tabelas aqui já pode perceber que ela também está presente na coleta e tabulação dos dados para a pesquisa e lembrese é importante você entender como classificar essas variáveis Agora vamos voltar ao nosso experimento Agora que você já fez as perguntas para as dez pessoas você certamen te está utilizando as variáveis vejamos que peso e altura são medições portanto é uma variável quantitativa contínua A idade é uma medição assim se trata de uma variável quantitativa discreta Já se pessoa teve ou não covid é uma variável qualitativa nominal e o estado civil da pessoa se refere a uma variável quantitativa ordinal Veja que você já está praticando como trabalhar e olhar de maneira in dividual para essas variáveis UNICESUMAR UNIDADE 2 39 Quando realizamos algum tipo de pesquisa observamos que o número de informações originadas da coleta de dados geralmente é bem grande e para nos auxiliar nesse processo de agrupamento e organização dos dados o pesquisador dispõe das estatísticas descritiva e inferencial A estatística descritiva nos traz o resumo e apresentação dos dados sempre buscando facilitar sua interpretação a qual envolve a escolha de um possível modelo que explique o comportamento dos dados para na sequência nos proporcionar a realização de sua inferência sendo que as ferramentas utilizadas na estatística descritiva são tabelas de frequências gráficos cálculo de medidas de tendência central como média moda e mediana cálculo de medidas de dispersão tais como variância desvio padrão e coeficiente de variação A estatística indutiva ou inferencial por sua vez auxilia no encontro de respostas e conclu sões sobre conjuntos maiores de dados populações tendo em vista o estudo de uma amostra desse conjunto Tratase de uma ferramenta importante no teste de hipóteses científicas visto que permite trabalhar os dados por intermédio de determinados procedimentos que incluem sua coleta organi zação e classificação ARANGO 2011 Na estatística inferencial o interesse se trata em utilizar as informações de determinada amostra para encontrar conclusões sobre um grupo maior na qual o pesquisador não tem acesso por isso uma ferramenta utilizada neste tipo de pesquisa é a probabilidade CRESPO 2009 40 A necessidade de constante aplicação da esta tística em diferentes segmentos das áreas bioló gicas e da saúde resultou no surgimento de um campo de análises para atender suas caracterís ticas e especificidades a bioestatística De maneira geral é preciso analisar alguns da dos para entender alguns fenômenos biológicos Em razão disso algumas áreas como a medicina saúde pública começaram a fazer mensurações como estratégia de análise científica Progressiva mente as análises quantitativas passaram a con tribuir para a geração de novos conhecimentos nas áreas biológicas e da saúde Para Martinez 2015 a Bioestatística surgiu como resposta aos desafios das ciências e da saú de Hoje abrange um referencial teórico próprio Descrição da Imagem a imagem é uma fotografia que traz uma pista de corrida de sete raias visíveis temos 6 crianças do sexo mas culino competindo com aproximadamente dez a treze anos de idade da esquerda para a direita na raia sete temos uma criança com cabelos loiros e com o número trezentos e vinte e cinco na camiseta amarela Na raia seis um pouco mais a frente temos uma criança com cabelos loiros e com o número novecentos e vinte e um na camiseta amarela ao seu lado na raia cinco temos uma criança com cabelos aparentemente raspados com camiseta amarela e calça comprida preta Na raia quatro atrás de todos os competidores tem um menino loiro com camiseta azul e calça preta Na raia três um menino de roupa preta com o número novecentos e doze e ao seu lado também ocupando primeira posição na raia dois uma criança com cabelos loiros e camiseta amarela Figura 1 Competição corrida Fonte Pixabay 2018 online gerando uma grande variedade de conceitos mé todos e técnicas de análise fundamentais a áreas como epidemiologia ecologia psicologia saúde pública e medicina fundamentada em evidências Para entender melhor essa realidade no seu dia a dia sem que você perceba a Bioestatística faz par te da nossa realidade vejamos o exemplo a seguir Em uma cidade haverá uma competição esco lar de corrida e você é um professor de Educação Física Cada instituição poderá levar apenas três atletas para serem seus representantes Como há vários alunos ótimos em corrida para saber mais sobre quais inscrever nos jogos municipais você decide fazer uma pesquisa A Figura 1 traz uma imagem dos alunos com petindo em uma corrida UNICESUMAR UNIDADE 2 41 Descrição da Imagem na imagem temos uma seta da esquerda para a direita no fundo e três retângulos com cantos arredondados na leitura da esquerda para direita temos Primeiro Planejamento da pesquisa com objetivo realizar a prova com percurso igual da competição Segundo Coleta de dados com base em observações anotações dos dados Terceiro Tabulação dos dados e tomada de decisões com base na coleta de dados Figura 2 Resumo da pesquisa Fonte a autora 1ª Planejamento da pesquisa com objetivo realizar a prova com perversos igual da competição 2ª Coleta de dados com base em observações anotações dos dados 3ª Tabulação dos dados e tomada de decisões com base na coleta de dados O teste se trata de uma corrida com percurso igual da competição na qual ao longo de sua realização você vai anotando os valores de tempo e resultados de cada atleta a fim de comparar e descobrir quais são os três menores tempos Nessa situação a Bioestatística esteve presente em quais momentos Você consegue identificar É bem simples no momento que você planejou a pesquisa e coletou os dados o tempo do percurso e tempo de corrida extraiu informações baseado em sua pesquisa e tomou a decisão de selecionar os melhores atletas com base na coleta de dados Resumindo na Figura 2 temos Podemos observar que depois de definirmos o objeto de pesquisa bem como a organização do planejamento temos a coleta de dados que serão elementos muito importantes na pesqui sa se tratando das informações que se quer obter de determinada amostra ou situação TRIOLA 2014 Os dados são as informações que obtemos a partir de uma unidade experimental ou seja de uma observação podendo ser numéricas ou não Observe a afirmação O homem tem 51 anos e é obeso quais dados nós temos Bem simples que o homem tem 51 anos ou seja a idade E que ele é obeso ou seja está acima do peso De uma forma sucinta os dados são ob servações obtidas de um fenômeno ou resultado de uma medição como gênero estatura idade circunferência de cintura Assim é importante salientar que a Bioestatística precisa estar presente desde o momento de planeja mento da pesquisa até a fase de conclusão sendo que um dos maiores erros é pensar que a Bioestatística está presente apenas na coleta de dados O papel da Bioestatística vai além da realiza ção de cálculos e resultados para CallegariJacques 2003 está presente no planejamento o qual orienta as situações experimentais na quantidade de indiví duos a serem examinados Na análise de dados que traz as técnicas a serem utilizadas e resumos das in formações coletadas Na elaboração das conclusões De uma maneira geral não existem certezas sobre a correção das conclusões científicas entretanto os métodos que estudamos e aprendemos com a Bioestatística nos permitem determinar a margem de erro associada às conclusões com base no conhe cimento da variabilidade observada nos resultados 42 Como é possível perceber a aplicação destes conhecimentos acontece em várias fases por isso é importante conhecer o que será feito e quais as variáveis que serão analisadas para evitar ou diminuir erros a fim de obter sucesso nas pesquisas A Figura 3 traz um resumo destas informações Qual é o problema Do que se trata da pesquisa Qual a hipótese Qual delineamento Quais variáveis Qual tamanho da amostra Quais métodos a serem utilizados Quais testes estatísticos a serem feitos RESULTADOCONCLUSÃO Descrição da Imagem na imagem temos uma sequência das etapas fazendo a leitu ra de cima para baixo temos a ordem Qual é o problema Do que se trata a pesquisa Qual a hipótese Qual delineamento Quais variáveis Qual tamanho da amostra Quais métodos a serem utilizados Quais testes es tatísticos a serem feitos RESULTADOCON CLUSÃO em letras maiúsculas Figura 3 Resumo Fonte a autora Dessa forma é importante frisar que o planejamento da pesquisa é fundamental para que as eta pas sejam corretamente seguidas e as decisões e conclusões sejam tomadas de maneira correta evitando erros e trabalho No planejamento inicial de uma pesquisa na área de saúde é importante detalhar tudo o que será executado na pesquisa ou seja o que vai ser feito como será feito Aqui é definido o que realmente quer se pesquisar isto é o problema de pesquisa UNICESUMAR UNIDADE 2 43 Outro item muito importante a ser discutido são as escalas de medida e as variáveis sendo essen ciais entender sua diferença para trabalhar com os dados com mais tranquilidade Anteriormente no decorrer da nossa disci plina já informamos que populações e amostras são compostas por variáveis que por sua vez são características que podem ser medidas mensu radas ou observáveis de pessoas ou coisas que assumem diferentes valores Também dissemos que uma vez que as me didas são executadas e registradas o resultado é chamado de dado Mas o que significa medir Significa atribuirmos números letras palavras ou outro símbolo a pessoas ou a coisas de modo a transmitir informações sobre as características que são medidas Por exemplo podemos atribuir o número 100 a uma pessoa com o intuito de re presentar seu nível de colesterol total ou um F ou M para representar seu gênero Muitas vezes não reconhecemos o fato de que as medidas tomadas sobre variáveis podem trazer diferentes informações dependendo do tipo da escala utilizada no processo de medição Significa que as medidas que trazem números 1 2 e 3 em uma escala podem transmitir uma quantidade de informação diferente sobre a variável daquela que os mesmos números obtidos pelo uso de uma es cala diferente transmitiriam Isso por sua vez tem implicações no tratamento que terão esses dados O processo de medição pode ser concebido como se existisse em quatro níveis diferentes o qual podemos chamar de escala nominal ordinal intervalar intervalo igual e de razões ARAN GO 2011 Vamos conhecer essas escalas A escala nominal tem duas características principais traz classificações de pessoas ou de coisas baseado em uma avaliação qualitativa da característica a ser considerada e segundo nenhu ma informação referente à quantidade ou valor Descrição da Imagem a figura é uma fotografia onde há uma montagem ilustrativa em que mostra oito gotas de cor vermelha se remetendo a sangue em forma circular em forma de ilustra ção No centro temos o nome O positivo fazendo a leitura em sentido horário temos B positivo O negativo A negativo AB positivo B negativo A positivo e AB negativo Atrás do desenho temos uma foto de um homem da cintura pra cima que não mostra sua cabeça ele está vestido de camiseta azul típica de médicos tem estetoscópio em seu pescoço e peito sua mão direita está na altura dos seus ombros para frente onde segura uma caneta que está atrás da gota de sangue A positivo Figura 4 Tipos de Sangue é passada por seu uso Como por exemplo uma escala nominal é utilizada para atribuir as designa ções dos tipos sanguíneos A B AB ou O a pessoas com base em critérios hematológicos Figura 4 Observe que essas designações simplesmente classificam as pessoas em uma das quatro cate gorias de tipo sanguíneo Assim todas as pessoas com o mesmo tipo sanguíneo recebem a mes ma designação enquanto aquelas com outros tipos sanguíneos recebem outras designações Importante salientar que não existem conceitos de maior ou menor implicados nessas classi ficações Isso significa que as medidas de nível nominais não permitem comparações de pessoas ou coisas com base em mais ou menos mas sim com base em semelhante e divergente 44 Designações produzidas por escalas numéri cas por natureza mas não devem ser tratadas como tais Ao realizar uma pesquisa por telefone ou por email por exemplo as famílias podem ser categorizadas por código de área para fins de amostragem Nesse caso os códigos de área seriam 11 ou 21 simplesmente indicadores do local geográfico das famílias Certamente não faria sentido afirmar que os códigos de área 11 tem mais código de área do que as com 21 De modo semelhante operações aritméticas sobre tais números por exemplo cálculo de um código de área médio não teriam resultado significativo No entanto podemos contar o número de famí lias que encontram em cada categoria Assim como a escala nominal a escala or dinal classifica pessoas ou coisas com base nas características a serem avaliadas Contudo dife rentemente da escala nominal as classificações produzidas por essa escala incorporam os atribu tos muito importantes maior que e menor que PARENTI SILVA SILVEIRA 2017 Por exemplo supondo que um estudo vai ana lisar a dor de pacientes Estes pacientes devem analisar a dor percebida como nenhuma leve moderada ou forte Esse esquema categoriza os pacientes em uma das quatro categorias que são ordenadas em termos de intensidade de dor Pode mos entender que a categoria dor forte representa mais dor quando comparada à dor moderada e assim sucessivamente Diante disso podemos di zer que a escala ordinal oferece mais informações sobre a características a ser medida do que a escala nominal Aqui na escala ordinal também podemos categorizar patologias em estágios 1 2 3 e 4 Observe que embora esse sistema possa orde nar categorias em termos de mais ou menos da característica a ser medida ele não permite uma indicação em termos de o quanto mais ou menos A dor forte representa mais dor do que moderada certo Mas quanto a mais Um paciente que tenha passado pela triagem para uma categoria pode precisar de mais cuidado do que um paciente que passou por outra categoria mas quanto mais Os dados ordinais são comuns na pesquisa relacionada à área da saúde mas tradicionalmente podem trazer dificuldades analíticas Uma solu ção é tratar estes dados estatisticamente como se estivessem em uma escala nominal Embora em um sentido correto essa prática normalmente desperdiça informações e não é tão satisfatória Já a escala intervalar acrescenta os atributos de o quanto mais e o quanto menos àqueles da escala ordinal Embora existam vários exemplos de escalas intervalares sua discussão é complexa Um exemplo clássico seria o de um termômetro em Fahrenheit Figura 5 Descrição da Imagem a imagem traz um termômetro ilus trado que tem cor de fundo branca que traz a medição em mercúrio na cor vermelha Temos na imagem as temperaturas em ºC Celsius e Fº fahrenheit no lado direito do bulbo do termômetro temos a marcação em ºF fahrenheit de vinte em vinte iniciando em trinta no lado esquerdo do bulbo em ºC Celsius com a marcação de vinte em vinte Figura 5 Termômetro de mercúrio UNICESUMAR UNIDADE 2 45 A temperatura quanto obtida a partir de um termômetro de Fahrenheit é medida em unidades iguais o que permite a quantificação das diferenças Uma leitura de 70 representa cinco graus a mais de temperatura do que uma leitura de 65 O mesmo acontece com leituras de 100 e 95 Assim essa escala não permite comparações entre os tipos maior que e menor que mas também indica o quanto mais ou quanto menos uma leitura representa quando comparada à outra leitura Uma deficiência da escala intervalar é sua falta de um ponto zero verdadeiro ou seja o ponto zero nessa escala é uma designação arbitrária que significa que não representa a audiência da carac terística a ser medida Assim é possível ter uma temperatura zero em um determinado dia e uma leitura de menos dez no dia seguinte A leitura zero não significa que não houve temperatura mas que esse foi simplesmente outro ponto na escala Segue que essa escala não permite a formação de razões significativas Não se pode afirmar que uma leitura de 80 graus representa o dobro daquela de uma temperatura de 40 graus Quando falamos de dados temos dados discretos ou contínuos Uma variável contínua é aquela que pelo menos um valor pode assumir qualquer valor em uma escala específica Por exemplo uma pessoa pode pesar 80 quilos enquanto outra pessoa pesa 81 quilos Mas é possível encontrar um peso entre 80 e 805 quilos o que seria 8025 quilos Teoricamente esse processo poderia prosseguir continuamente embora por fim veríamos que não há uma balança sensível o suficiente para fazer as distinções necessárias O peso então é um exemplo de uma variável contínua Uma variável discreta é aquela que é passível de contagem e que não é continua Por exemplo o número de pacientes em um hospital pode ser 10 20 30 40 50 e assim sucessivamente que não pode ser 1025 pessoas Em termos simples as variáveis discretas existem em unidades discretas e não em uma série contínua Variáveis discretas podem assumir apenas um de dois valores por exemplo masculino ou feminino vivo ou morto positivo ou negativo são consideradas variáveis dicotômicas Alguns métodos dentro da estatística são projetados especialmente para serem usados com dados dicotômicos Podemos argumentar que todos os dados são discretos pois todos os métodos de medida são limitados por seu nível de precisão o que produz dados em unidades discretas e não uma série contínua Seja como for os dados obtidos de variáveis contínuas normalmente são considerados e tratados como contínuos enquanto os dados de variáveis discretas são tratados como discretos Às vezes os pesquisadores podem medir uma variável contínua mas intencionalmente registram suas descobertas como dados discretos Isso aconteceria por exemplo se as pressões sanguíneas fossem registradas como se estivessem ou não na faixa normal Já estudamos que a estatística descritiva traz ferramentas destinadas a resumir as informações contidas em dados destacando aspectos mais importantes Assim antes de analisar nossos dados é muito importante que se faça uma completa descrição de suas principais características para assim decidirmos com maior propriedade quais serão as técnicas mais adequadas para o tratamento estatístico Uma variável é uma característica de interesse que pode assumir diferentes valores ou classificações para diferentes sujeitos organismos ou objetos selecionados para nosso estudo Em uma análise sobre os fatores de risco para as doenças cardiovasculares as variáveis de interesse podem ser a idade em ano a pressão sistólica em mmHg o peso em kg a prática de exercícios 46 Uma dica muito importante para as variáveis Variável Qualitativa vem de quali lembrese de qualidades atributos Imagine a pergunta você tem plano de saúde A possível resposta seria Sim ou Não ou imagine a situação avalie o atendimento hospitalar em péssimo ruim bom ótimo excelente Variável Quantitativa vem de quanti então conseguimos quantificar contar medir mensurar colocar em alguma escala numérica Imagine a situação quantos anos você tem Quantos filhos você tem Qual seu peso Fica a dica físicos dentre os indivíduos classificados como praticantes de exercícios ou não diabetes presente ou ausente Em uma investigação sobre a internação de pacientes com tuberculose as variáveis de interesse podem ser o próprio tempo de internação em dias o motivo podem ser diversas causas e a condição de saída alta médica a pedido óbito abandono transferência ou outros tipos Em um estudo sobre a qualidade de vida de idosos as variáveis podem ser a dificuldade de locomoção pre sente ou ausente as dificuldades visuais presentes ou ausentes o número de remédios consumidos dificuldades em dormir presente ou ausente e número de filhos Nestes exemplos observamos que as variáveis são sempre escolhidas de acordo com o objetivo da investigação a ser realizada Observe que algumas variáveis são numéricas isto é seus possíveis resultados expressam quanti ficações como a idade a pressão sistólica o peso e número de filhos Já outras variáveis nos trazem classificações ou atributos ou qualidades dos indivíduos como por exemplo a prática de exercícios físicos motivo da internação e dificuldade de locomoção Essa classificação das variáveis conforme sua natureza é muito importante dado que há várias ferramentas voltadas às variáveis não numéricas Portanto quando pensamos em que ferramenta utilizar para o tratamento de nossos dados o primeiro passo se trata em entender a natureza de nossas variáveis de interesse Dessa maneira segundo sua natureza as variáveis podem ser classificadas como quantitativas e qua litativas As variáveis numéricas expressam grandezas matemáticas e são chamadas quantitativas ao passo que as variáveis que descrevem classificações atributos ou qualidades são chamadas qualitativas ou categóricas PARENTI SILVA SILVEIRA 2017 As variáveis quantitativas são classificadas como discretas ou contínuas Variáveis quantitativas discretas seus possíveis valores pertencem a um conjunto finito ou con tável Geralmente expressa números inteiros resultantes de um processo de contagem Por exemplo número de filhos número de residentes em uma casa Figura 6 tempo de internação em dias e o número de pontos dolorosos de pacientes com fibromialgia UNICESUMAR UNIDADE 2 47 Variáveis quantitativas contínuas são as variáveis que assumem qualquer valor em uma escala contínua na reta final Para essas variáveis valores não inteiros fazem sentido Seus resultados são oriundos de uma mediçãomensuração Por exemplo peso em kg altura em cm e os níveis séricos de colesterol em mgml Descrição da Imagem a ima gem é uma fotografia onde te mos dois adultos sentados em um sofá com uma criança bebê no colo O homem tem cabelos curtos e pretos e está olhando para mulher a mulher tem ca belos pretos e lisos o bebê está olhando para frente e está no colo do homem Descrição da Imagem a imagem é uma foto grafia onde temos dois pés descalços de uma pessoa em uma balança que se utiliza em casas de cor branca e onde a pessoa está com os pés a cor é preta com o marcador mostrando cinquenta e cinco kg aproximadamente Figura 6 Família contagem Figura 7 Pessoa se pesando em uma balança Um truque utilizado para classificarmos uma variável quantitativa como discreta ou contínua que funciona na maioria das vezes é perguntar se para obtermos os valores da variável estamos contando ou medindo exemplos Nós medimos ou contamos o número de casos de dengue em uma localidade Claro que con tamos então a variável é quantitativa discreta Nós medimos ou contamos os níveis séricos de triglicérides de indivíduos hipertensos Claro que a medimos então a variável é quantitativa contínua 48 Se fizer sentido que estamos contando possivelmente a variável é quantitativa discreta e se medirmos possivelmente a variável é quantitativa contínua As variáveis qualitativas são classificadas como ordinais ou nominais Variáveis qualitativas ordinais assumem classificações atributos ou qualidades que podem ser descritas em uma ordem natural Por exemplo o nível de escolaridade sem escolaridade ensino fundamental ensino médio ou ensino superior classe econômica A B C D ou E e a gravidade de uma doença leve moderada ou alta Variáveis qualitativas nominais não há uma ordem natural para as classificações atributos ou qualidades que essas variáveis assumem Por exemplo o sexo masculino ou feminino o estado civil solteiro casado separado divorciado ou viúvo o diabetes presente ou ausente covid positivo ou negativo Figura 8 Descrição da Imagem a ima gem é uma fotografia onde mostra um teste de covid escri to na cor rosa escuro a palavra COVID19 na frente temos duas letras C e T e temos uma mão de uma pessoa segurando esse tubo a pessoa está com uma luva de cor azul claro É importante frisar que às vezes uma variável originalmente quantitativa pode ser tratada como qualitativa Por exemplo a idade em anos se trata de uma variável quantitativa discreta mas se clas sificarmos em faixa etárias de 0 a 5 anos 6 a 10 anos 11 a 15 anos entre outros teremos uma variável qualitativa ordinal Vamos considerar por exemplo um banco de dados obtidos de uma pesquisa qualitativa com 40 mulheres que tiveram filhos nas quais as variáveis interessadas são Idade anos completos Estado civil casada solteira viúva união instável divorciada Tabagismo sim se fumante não se não fumante Idade do primeiro filho Parto em números Peso em quilos Altura em metros Estado de saúde bom ruim regular Figura 8 Teste de covid UNICESUMAR UNIDADE 2 49 Quadro 1 Variáveis a serem pesquisadas Nº Idade Estado Civil Tabagista Idade do 1º Filho Partos Peso Altura Estado de Saúde 1 51 Casada Não 23 2 745 159 Bom 2 48 Casada Não 20 2 533 153 Bom 3 57 Casada Não 19 1 640 163 Bom 4 48 Casada Não 20 2 686 153 Regular 5 49 Casada Não 15 2 779 153 Bom 6 47 Casada Sim 15 3 599 164 Bom 7 49 Casada Não 19 2 640 166 Bom 8 52 Casada Não 30 3 705 164 Regular 9 45 Solteira Não 20 1 721 153 Regular 10 64 Viúva Não 31 3 156 155 Bom 11 55 Casada Sim 19 2 668 160 Regular 12 45 Viúva Sim 21 1 550 156 Ruim 13 51 Divorciada Sim 20 1 703 160 Ruim 14 59 Casada Não 20 2 806 155 Ruim 15 56 Casada Não 23 3 745 170 Bom 16 49 Divorciada Não 19 2 600 150 Bom 17 52 Casada Não 18 2 618 157 Bom 18 64 Viúva Sim 17 4 599 157 Bom 19 47 Casada Não 14 3 815 175 Bom 20 50 Casada Não 33 3 534 159 Regular 21 64 Casada Não 34 5 845 164 Regular 22 52 Divorciada Não 30 3 716 160 Regular 23 56 Divorciada Não 26 2 718 154 Regular 24 59 Casada Não 25 1 689 154 Bom 25 48 União Instável Sim 22 3 1185 160 Ruim 26 51 Casada Não 23 2 667 153 Bom 27 51 Viúva Não 22 2 705 156 Bom 28 63 Casada Não 25 4 725 156 Regular 29 58 Casada Não 26 3 799 153 Ruim 30 52 Casada Não 21 2 479 153 Bom 31 49 Casada Não 14 2 546 158 Bom 50 Você sabia que é essencial conhecermos as variáveis Sabia que é importante conhecer suas diferenças e características pois é fundamental em nossos estudos na área de Bioestatística Nossa roda de conversa vai trazer aplicações e a importância das variáveis na Bioestatística Você saberia identificar a natureza de cada uma dessas variáveis A idade da mulher a idade do pri meiro filho são variáveis quantitativas discretas porque estamos contando o resultado é numérico As variáveis peso e altura são quantitativas contínuas porque foram medidas O estado civil e o tabagismo são variáveis qualitativas nominais porque são características únicas e não conseguimos classificar Já o estado civil é uma variável qualitativa ordinal porque tratase de um atributo e conseguimos classificar em uma ordem hierárquica Você pode perceber a importância de identificarmos e avaliarmos as variáveis que vamos analisar Fonte a autora 32 58 União Instável Não 18 1 728 157 Ruim 33 50 Casada Não 19 2 896 154 Bom 34 53 Divorciada Sim 20 2 685 157 Bom 35 54 União Instável Não 21 3 735 153 Bom 36 65 Viúva Não 33 3 736 157 Bom 37 57 Viúva Não 32 2 697 161 Bom 38 58 Casada Não 30 3 643 151 Regular 39 54 Casada Não 19 2 564 164 Bom 40 42 Casada Não 20 1 661 171 Bom UNICESUMAR UNIDADE 2 51 Você sabia que profissionais da saúde também fazem pesquisas e com isso precisam de variáveis E que se não souberem classificar e categorizar essas variáveis os demais estudos podem ser analisados de maneira incorreta O artigo de José Fausto de Morais publicado na Revista Estima em 2003 traz um resumo sobre conceitos fundamentais em estatística e traz que as varáveis são aspectos que são observados em um fenômeno ou seja é uma característica mensurável ou descritível dos objetos populacionais que em uma pesquisa do tipo quantitativa o objetivo será mensurar medir a variável analisada e em uma pesquisa do tipo quantitativa o objetivo será descrevêla Características como sexo pressão arterial altura entre outras são exemplos de variáveis Saiba mais acessando a seguir É muito importante que profissionais da área de saúde trabalhem na construção de pesquisas e assim a Bioestatística traz inúmeras ferramentas que servirão de apoio para esses profissionais Uma das aplicações de Bioestatística são a análise e estudos das variáveis em que precisamos classificar ou categorizar a variável ou as variáveis que iremos estudar Nesse momento estudamos as variá veis qualitativas nominais qualitativas ordinais quantitativas discretas e quan titativas contínuas e que entender sua diferença e aplicação se faz fundamental para profissionais de saúde 52 Para entender melhor as variáveis crie um mapa mental com as variáveis qualitativa nominal qual itativa ordinal quantitativa contínua e quantitativa discreta e coloque palavraschave para lembrar desse conceito tão importante estudado em nossa disciplina httpswwwgoconqrcom Quantitativa Discreta Números Inteiros Contagem Quantitativa Contínua MediçõesMensurações Qualquer valor em um intervalo Qualitativa Ordinal Atributos Qualitativa Nominal Atributos Não coloca em ordem hierárquica Variáveis Coloca em ordem hierárquica 53 1 As variáveis são referentes aos dados obtidos a partir de um conjunto Temos variáveis que são quantitativas e qualitativas que podem ser subdivididas em outros grupos Diante desse contexto uma variável que trata de características de indivíduos sem representar valores quantitativos se trata de uma variável a Qualitativa b Quantitativa c Intervalar d Discreta e Contínua 2 Uma variável quantitativa se refere a variáveis na qual estamos medindo contando ou mensu rando algo que nos interessa e se faz importante em estudos que envolvem a Bioestatística Diante disso uma variável que é mensurável ou seja pode ser expressa numericamente como peso altura volume temperatura idade se trata de uma variável a Qualitativa b Quantitativa c Intervalar d Discreta e Contínua 3 Uma variável quantitativa é aquela que cujos os valores dos resultados obtidos em uma pes quisa são expressos em números Diante disso temos a seguinte situação uma variável que pode admitir qualquer valor dentro de um intervalo máximo e mínimo e ainda pode apre sentar valores decimais como por exemplo uma corrida como a maratona o tempo que o atleta vai realizar essa prova se trata de uma variável a Qualitativa nominal b Qualitativa ordinal c Quantitativa discreta d Quantitativa contínua e Correlação linear 54 4 Uma variável pode trazer uma característica que pode ser medida mensurada ou monitorada Diante disso supondo que um profissional da área de saúde pretende contar o número de pacien tes que foram atendidos em uma sextafeira por um plantonista da área de enfermagem Dessa forma esse profissional vai utilizar técnicas que aprendeu na disciplina de Bioestatística para tal monitoramento Sendo assim a variável número de pacientes atendidos se trata de uma variável a Qualitativa nominal b Qualitativa ordinal c Quantitativa discreta d Quantitativa contínua e Correlação linear 5 Muitas vezes ao estudarmos as variáveis precisamos entender sua origem e como vamos tabular os dados a partir das variáveis que estamos analisando Em pesquisas na área da saúde muitas vezes precisamos fazer perguntas nas quais as respostas serão particulares de um paciente e também não conseguimos ordenar entre as categorias e traz características únicas de uma pessoa como por exemplo se perguntáramos a um paciente se ele é tabagista ou não a resposta seria sim ou não se trata de uma variável a Qualitativa nominal b Qualitativa ordinal c Quantitativa discreta d Quantitativa contínua e Correlação linear 6 Em Bioestatística quando estudamos as variáveis precisamos entender se ela se é qualitativa ou quantitativa E independentemente disso precisamos entender ao que ela se refere para darmos continuidade às etapas de apresentação de dados em uma pesquisa Diante desse contexto supondo que temos uma variável que conseguimos ordenação entre as categorias como por exemplo o estágio de uma doença que pode ser classificada como inicial interme diário ou terminal se trata de uma variável a Qualitativa nominal b Qualitativa ordinal c Quantitativa discreta d Quantitativa contínua e Correlação linear 3 Olá alunoa esta unidade será fundamental para sua futura atua ção profissional na área da Saúde Aqui aprenderá a construir ta belas bem como compreenderá suas regras Além disso aprenderá a elaborar gráficos e fará suas leitura e interpretação Tabelas e Gráficos Me Renata Cristina de Souza Chatalovv 56 Para começarmos a nossa jornada nesta unidade compartilharei uma experiência profissional para que possamos problematizar e consequentemen te refletir A primeira vez que participei de uma pesquisa de campo foi para fazer um diagnóstico para elaboração de um Plano de Gerenciamento de Resíduos Sólidos PGRS em uma empresa de revenda de peças para automóveis Para aproveitar ao máximo o tempo na empresa e a visita in loco elaborei um check list bem simples que trazia infor mações sobre tipo de resíduo quantidade gerada kgmês e como estava sendo feita a destinação final deste resíduo neste momento Depois de fazer a visita coletar os dados foi preciso trabalhar nesses dados afinal não pode ria entregar à empresa o check list em que fiz a coleta de dados Assim a partir dos dados coleta dos elaborei uma tabela bem organizada dentro das normas da ABNT e também fiz um gráfico apontando o resíduo que era gerado em maior quantidade assim poderia indicar o que meu cliente poderia fazer para cumprir a legislação e minimizar os custos que ele tinha com a destina ção final de resíduos Agora que contei uma experiência vivencia da por mim nesta situação apresentada como você acredita que eu deveria ter trabalhado com dados a partir de coletas Como eu deveria ter construído uma tabela E os gráficos Assim os gráficos e as tabelas são as principais formas de apresentação dos resultados de uma pesquisa Conhecer as regras e as normas espe cíficas que regem a construção de tabelas além de aprender o passo a passo para sua construção é importante e imprescindível para a compreen são e também para orbitarmos neste universo estatístico e bioestatístico É importante também compreendermos corretamente como construir e interpretar gráficos Podemos perceber que a Bioestatística pode ajudar com as regras e as eta pas para a construção de uma tabela ou um gráfi co Sabemos que muitos alunos têm a dificuldade de lidar com tabelas e gráficos Para isso convido você a fazer a leitura do artigo intitulado Análise e interpretação de tabe las e gráficos estatísticos A fim de utilizar dados interdisciplinares Nesse artigo você verá o ensi no e a aprendizagem da Estatística bem como a utilização de procedimentos e conceitos Acesse o qrcode a seguir UNICESUMAR UNIDADE 3 57 Como apresentamos na Unidade 1 os dados sobre a dengue daremos continuidade no mesmo exemplo tudo bem Sabemos que esta nossa situação é hipotética e você graduando a na área da Saúde que está atuando em sala de aula quer fazer um experimento a respeito dos casos de dengue do seu bairro Desta forma faça uma pesquisa em forma de formulário com dez pessoas que podem ser membros de sua família ou mesmo colegas de trabalho contendo a seguinte pergunta Você já teve dengue com isso as possíveis respostas do seu formulário serão Sim ou Não Organize estes dados com a quantidade de pessoas que responderam sim e a quantidade de pessoas que responderam não Em seguida construa uma tabela ou um gráfico mediante os resultados desta pesquisa e ao fazêlo você já estará utilizando mais uma técnica apresentada pela bioestatística Diante disso convido você a fazer suas anotações em um Diário de Bordo a fim de anotar suas primeiras impressões até o momento Escreva os resultados de sua pesquisa depois de fazer o gráfico ou a tabela reflita sobre como você pode trabalhar essa questão em sala de aula ou em outra ocupação dentro do seu segmento de trabalho 58 Conheça as normas para apresentação dos dados em tabelas bem como definições terminologia e simbologia São elas IBGE Normas de apresentação tabular e NBR 147242011 Informação e documentação Trabalhos acadêmicos Apresentação Em nosso encontro anterior estudamos a im portância da pesquisa e como a Bioestatística podenos auxiliar no planejamento na coleta de dados nas técnicas de amostragem Mas e depois o que fazemos com os dados Eles podem ser apresentados sob forma de tabelas e gráficos Vamos começar pelas tabelas Na construção de tabelas os dados são apresentados em colunas verticais e linhas horizontais con forme a classificação dos resultados da pesquisa Algumas orientações preliminares são as seguintes ARANGO 2011 p 31 1 Para construção de uma tabela é importante que ela seja simples clara e objetiva Assim é apropriado que grandes volumes de informação sejam descritos em várias tabelas ao invés de serem apresentados em uma única tabela 2 Uma tabela precisa ser autoexplicativa ou seja sua compreensão não deve ser vinculada do texto Dessa forma nenhuma casa da tabela deve ficar em branco sempre apresentando um símbolo ou número caso houver duas ou mais tabelas em um texto deverão receber um número de identificação que será referido no texto 3 As colunas externas de uma tabela não devem ser fechadas 4 Na parte superior e inferior as tabelas devem ser fechadas por linhas horizontais 5 A utilização de linhas verticais para separação de colunas no corpo da tabela é opcional 6 Ao fazer arredondamentos de números é importante que seja mantida uniformi dade quanto ao número de casas decimais 7 Os totais e os subtotais devem ser destacados como por exemplo em negrito 8 A tabela deve ser maior no sentido vertical que no horizontal Contudo se uma tabela apresentar muitas linhas e poucas colunas estreita demais convém sepa rála em uma maior quantidade de colunas Neste caso as colunas deverão ser separadas por linhas duplas Uma apresentação tabular de dados é a re presentação das informações por intermédio de uma tabela Uma tabela é um meio bastante efi ciente de mostrar dados levantados facilitando a sua compreensão e interpretação Além disso auxilia o entendimento global e o relacionamento entre as variáveis representadas UNICESUMAR UNIDADE 3 59 Sendo assim uma tabela pode ser dividida hierarquicamente em dois componentes chamados prin cipais e secundários Os componentes principais são ARANGO 2011 p 32 1 Corpo referente ao conjunto das informações dos dados que foram coletados e que aparecem no decorrer da tabela no sentido horizontal e vertical 2 Coluna indicadora é a divisão em sentido vertical onde aparece a designação da natureza do conteúdo da linha 3 Cabeçalho indica a natureza do conteúdo de cada coluna 4 Casa referese as divisões que aparecem no corpo da tabela Segundo Arango 2011 p 32 as partes secundárias compreendem 1 Título geralmente apresentado na parte superior da tabela devendo ser sempre o mais claro e completo possível Para isso é importante que o título responda as perguntas O quê Quando Onde relativas ao fato estudado 2 Rodapé é um espaço na parte inferior da tabela utilizado para colocar informações necessá rias referentes aos dados Geralmente no rodapé são colocadas as informações sobre a fonte origem dos dados eou informações complementares que podem auxiliar na leitura na tabela para que a mesma não fique carregada de informações 3 Notas também devem ser colocadas no rodapé depois da fonte de forma sintética Normal mente as notas têm caráter geral referindose à totalidade da tabela Devem ser enumeradas em algarismos romanos quando existirem duas ou mais de duas as vezes o asterisco é utilizado 4 Chamadas as chamadas têm caráter particular referindose a um item específico da tabela São enumeradas em algarismos arábicos entre parênteses podem também ser utilizados símbolos gráficos Depois de compreendidas as partes secundárias observaremos a simbologia comumente utilizada em tabelas estatísticas como mostra o exemplo do Quadro 1 e seus significados Símbolo Significado Função Hífen Quando o valor numérico é nulo Reticências Quando não dispõe de dado Interrogação Quando há dúvida sobre a exatidão do valor 0 00 ou 000 Zero Quando o valor for menor que 05 Parágrafo Quando o dado retifica informação anteriormente publicada X Letra x Quando o dado for omitido para evitar identificação Quadro 1 Símbolos utilizados em tabelas estatísticas Fonte adaptado de Arango 2011 60 E na tabela quanto aos números é importante observar que 1 Todo número inteiro constituído de mais de três algarismos deve ser agrupado de três em três da direita para a esquerda separando cada grupo por um ponto p ex 56342901 2 Exceto I Algarismos que representam o ano p ex 2010 II Números de telefone p ex 32222222 III Placas de veículos p ex AAA 2222 3 A parte decimal de um número deverá ser separada da parte inteira pela vírgula p ex 056 4 A unidade de medida não leva o s do plural nem o ponto final como abreviação p ex cm m kg etc 5 Os símbolos de medida aparecem depois do número sem espaço entre eles p ex 42m 3h Agora que você já viu todos os elementos que compõem uma tabela que tal vermos um exemplo Já estudamos que uma tabela tem como objetivo apresentar os dados agrupados de maneira que uma pessoa interessada pode visualizar e compreender o que querem dizer aqueles dados Você conhecerá agora os principais tipos de tabelas que podem ser a Simples b Dupla entrada c Distribuição de frequência Uma tabela simples é aquela em que contém a variável que estamos estudando com sua respectiva con tagem ou seja com sua frequência A Tabela 1 apresenta uma tabela simples com seus elementos básicos Bairro Número de casos Centro 12 Zona 01 2 Zona 02 3 Zona 03 5 Zona 04 1 Total 23 Topo Título Coluna Linhas Casa ou célula Corpo Rodapé Tabela 1 Casos de dengue nos bairros de uma cidade no mês de fevereiro de 2020 Fonte o autor UNICESUMAR UNIDADE 3 61 Você sabe qual é a diferença entre Tabela e Quadro Um quadro geralmente traz informações qualitativas podendo trazer informações quantitativas em alguns casos e é fechado nas bordas laterais enquanto uma tabela traz informações quantitativas referentes a contagens a frequências e as bordas laterais são abertas Como podemos observar no exemplo da Tabela 1 há todos os elementos básicos apresentados Além disso uma tabela simples pode ser temporal geográfica ou específica categórica Uma tabela é considerada temporal quando as observações da variável ocorrem de acordo com tempo A Tabela 2 traz um exemplo de série temporal ou histórica Ano Número de casos de dengue 2010 20 2011 30 2012 45 2013 25 2014 50 Total 170 Tabela 2 Casos de dengue no decorrer dos anos em uma cidade Fonte o autor Uma tabela simples também pode ser geográfica quando a variável analisada é referente ao local ou território Um exemplo de série geográfica pode ser observado na Tabela 3 Cidade Número de alunos matriculados Maringá 500 Londrina 450 Apucarana 300 Ponta Grossa 400 Curitiba 650 Total 2300 Tabela 3 Alunos matriculados em um curso de Ciências Biológicas no estado do Paraná no ano de 2010 Fonte o autor 62 Disciplina Número de alunos matriculados Economia 150 Administração 380 Ciências Biológicas 275 Agronomia 250 Engenharia Civil 140 Total 1195 Tabela 4 Número de alunos de uma instituição de ensino superior EAD no ano de 2015 Fonte o autor Uma tabela simples também pode ser específica ou categórica quando a variável analisada é referente a categorias específicas Um exemplo de série geográfica pode ser analisado na Tabela 4 Uma tabela também pode ser de dupla entrada isso significa que temos a necessidade de apresentar em uma única tabela mais dados estudados em uma variável para isso é preciso fazer uma junção de duas ou mais séries CRESPO 2009 Ao fazer esta junção dos dados para serem apresentados em uma única tabela teremos duas ordens de classificação uma vertical na coluna e uma horizontal nas linhas Para apresentar uma tabela de dupla entrada temos a Tabela 5 que trata do número de matrículas da Educação Básica do ano de 2019 e os dados estão apresentados dupla entrada a seguir UNICESUMAR UNIDADE 3 63 Etapa de Ensino Região Educação Infantil Ensino Fundamental Ensino Médio Educação Profissional Técnica de Nível Médio Educação Profissional Formação Inicial Continuada FIC Educação de Jovens e Adultos EJA Educação Especial Norte 690631 3015573 781394 124007 2651 346815 117487 Nordeste 2349305 7889261 2112466 554150 14414 1338224 352573 Sudeste 3919235 10349288 2992471 786331 8617 985163 449539 Sul 1347509 3550498 986056 317365 12069 378387 232504 CentroOeste 666098 2119110 593504 93121 2024 225079 98864 Brasil 8972778 26923730 7465891 1874974 39775 3273668 1250967 Tabela 5 Número de Matrículas da Educação Básica por Etapa de Ensino segundo a Região Geográfica a Unidade da Federação e o Município 2019 Fonte adaptada de Inep 2020 online VIRAR PÁGINA PARA VISUALIZAR UNICESUMAR Na Tabela 5 podemos observar que a região coluna é referente às regiões no Brasil já as etapas de ensino Educação Infantil Ensino Fundamental Ensino Médio Ensino Profissional Educação de Jovens e Adultos e Educação Especial são analisados também nas colunas e linhas Temos então um exemplo de tabela com a dupla entrada ou seja mais que uma variável sendo estudada na qual podemos analisar as regiões brasileiras geográficas e etapas de ensino categorias Lembrese de que em uma tabela de dupla entrada cada uma das respostas combinadas fica agregada em uma única célula Agora que você já conhece as tabelas simples bem como os tipos de série e a dupla entrada que tal aprendermos a construir uma tabela do zero Mas antes precisamos relembrar alguns conceitos matemáticos fundamentais aqui na Bioestatística pois os cálculos das frequências precisam de duas grandezas razão e proporção Definir razão pode se tornar uma tarefa inglória se formos atrás de todos os significados para este termo ARANGO 2011 Aqui trataremos da parte que aplicaremos na disciplina de Bioestatística vejamos alguns exemplos Supondo que um corpo tem seis metros de comprimento e outro corpo três metros ao dividirmos o comprimento de um pelo outro teremos 632 Ainda podemos afirmar que o corpo é duas vezes o tamanho do menor ou ainda que tem a metade do comprimento do maior e esta divisão chamamos de razão A razão 12 pode ser representada como 12 o que significa que cada metro do corpo menor corresponde a 2 metros do corpo maior Outro exemplo dos 1200 pacientes que procuram a emergência hospitalar na última semana 240 eram idosos A razão de idosos que procuraram a emergência esta semana foi de 2401200240240120024015 Isto é a cada cinco pacientes um deles era idoso Segundo Parenti 2017 p 49 Os conceitos de razão e proporção estão relacionados entre si Assim a razão entre o quociente divisão entre dois números e a proporção é a igualdade entre duas razões As proporções são aplicadas em situações em que as informações devem ser comparadas e são calculadas pelo uso de regra de três simples UNIDADE 3 65 Para entender melhor a proporção vejamos o exemplo a seguir para produzir 600 pães no re feitório de um hospital são utilizados 100 kg de farinha Sendo assim quantos pães podem ser feitos com 25 kg de farinha 600 100 25 100 600 25 100 1500 1500 100 150 x x x x x Assim podemos dizer que é possível produzir 150 pães com 25 kg de farinha Agora que já relembramos os conceitos mate máticos necessários para construir uma tabela de frequências você aprenderá passo a passo como elaborar Vamos lá Primeiramente trabalharemos com a organi zação dos dados você organiza dados numéricos criando disposições ordenadas ou distribuídas Para preparar seus dados coletados com o intuito de organizálos inicialmente decidiremos se pre cisaremos analisar suas variáveis numéricas com base em grupos que sejam criados pelos valores de uma segunda variável categórica Esta decisão afetará o modo como você prepara os dados De acordo com Levine Stephan e Szabat 2016 caso decida analisar suas variáveis nu méricas em grupos que sejam definidos pelos valores de uma segunda variável categórica você deve então decidir se utilizará um for mato empilhado ou não empilhado Em um formato empilhado todos os valores de uma variável numérica aparecem em uma única coluna enquanto uma segunda coluna em se parado contém os valores categorizados que identificadas a qual subgrupo pertence cada um dos valores numéricos Em um formato não empilhado os valores de uma variável numé rica são divididos por subgrupos e colocados em colunas separadas Vamos ao exemplo supondo que você pre tende comparar os custos em restaurantes loca lizados na cidade com os custos em restaurantes localizados em bairros Para preparar esses da dos de forma não empilhada poderia ser criada uma coluna para a variável custo com alimen tação e outra coluna para a variável localização uma variável categórica com os valores de cidade e bairros Observe o custo de 20 refeições no Quadro 2 a seguir Custos de Refeições em Restaurantes no Centro da Cidade em R 25 21 35 50 60 50 50 50 40 60 70 50 25 29 33 35 35 35 50 50 Custos de Refeições em Restaurantes em bairros da Cidade em R 35 20 20 20 25 25 30 40 40 30 25 25 20 35 35 25 20 20 40 35 Quadro 2 Disposição de dados não empilhados Fonte o autor 66 Você pode observar que desta forma fica um pouco mais complexo trabalharmos com os dados Este modelo de não empilhados foi apresentado para que você tenha ciência de como trabalhar com os da dos Mas se observarmos esses dados fica difícil tomarmos conclusões acerca dos custos das refeições como qual valor em R que mais aparece mais se repete certo Nem qual percentual deste valor pago dentre estas 20 refeições Podemos facilitar a análise dos nossos dados quando trabalhamos com a disposição de dados ordenados ou seja quando colocamos os dados em rol Segundo Levine Stephan e Szabat 2016 uma disposição ordenada organiza os valores de uma va riável em ordem de classificação partindo do menor valor para o maior ou seja organizamos os dados em uma lista crescente Uma disposição ordenada pode ajudar a obter mais entendimento entre a amplitude dos valores em seus dados e é particularmente útil quando você tem mais do que um valor se repetindo Veja no Quadro 3 os mesmos dados apresentados anteriormente de maneira ordenada Custos de Refeições em Restaurantes no Centro da Cidade em R 21 25 33 35 35 50 50 50 50 60 25 29 35 35 40 50 50 50 60 70 Custos de Refeições em Restaurantes em bairros da Cidade em R 20 20 20 25 25 25 30 35 35 40 20 20 20 25 25 30 35 35 40 40 Quadro 3 Disposição de dados não empilhados em rol Fonte o autor Analise no Quadro 3 que fica bem mais fácil trabalhar com os dados seguindo uma ordem crescente ou seja do menor valor para o maior valor Outro exemplo clássico de rol que certamente você já viu em sala de aula é a lista de presença dos seus alunos Os nomes estão em ordem alfabética ou seja em um rol assim fica mais fácil para localizar algum aluno porque os dados estão organizados Além disso o rol é um passo importante para construção de tabelas de fre quências Mas o que são tabelas de frequências Tratase de uma distribuição de modo tabular os valores de uma variável numérica em um conjunto de classes linhas numericamente ordenadas Podemos ter uma distribuição de frequências com intervalo de classes e sem intervalo de classes UNICESUMAR UNIDADE 3 67 Primeiro você aprenderá a construir uma distribuição de frequências sem intervalo de classes utili zando a contagem de uma variável qualitativa nominal Vejamos a situação a seguir em professor do curso de Enfermagem aplicou um questionário para entender qualis disciplinas os alunos tinham como preferência em uma turma Para isso selecionou uma turma com 40 alunos e fez a seguinte pergunta Qual disciplina você mais gosta neste ano Dentre as opções dadas aos alunos eles tiveram Anatomia Humana Biologia celular e molecular Parasitologia Bioestatística Os votos dos 40 alunos podem ser verificados a seguir Quadro 4 Fonte o autor Quadro 4 Votos dos 40 alunos de uma turma sobre a preferência de disciplinas brutos Dados Brutos Anatomia Humana Anatomia Humana Bioestatística Biologia celular e molecular Bioestatística Parasitologia Bioestatística Bioestatística Parasitologia Parasitologia Parasitologia Parasitologia Biologia celular e molecular Biologia celular e molecular Biologia celular e molecular Biologia celular e molecular Anatomia Humana Parasitologia Anatomia Humana Biologia celular e molecular Anatomia Humana Anatomia Humana Anatomia Humana Biologia celular e molecular Bioestatística Parasitologia Bioestatística Biologia celular e molecular Parasitologia Parasitologia Parasitologia Biologia celular e molecular Parasitologia Parasitologia Parasitologia Parasitologia Parasitologia Parasitologia Parasitologia Parasitologia Para facilitar a construção da nossa tabela faremos um rol utilizando as disciplinas com ordem alfa bética Quadro 5 68 Dados em rol Anatomia Humana Bioestatística Biologia celular e molecular Parasitologia Anatomia Humana Bioestatística Biologia celular e molecular Parasitologia Anatomia Humana Bioestatística Parasitologia Parasitologia Anatomia Humana Biologia celular e molecular Parasitologia Parasitologia Anatomia Humana Biologia celular e molecular Parasitologia Parasitologia Anatomia Humana Biologia celular e molecular Parasitologia Parasitologia Anatomia Humana Biologia celular e molecular Parasitologia Parasitologia Bioestatística Biologia celular e molecular Parasitologia Parasitologia Bioestatística Biologia celular e molecular Parasitologia Parasitologia Bioestatística Biologia celular e molecular Parasitologia Parasitologia Disciplina Contagem Frequência Fi Anatomia Humana III III I 7 Bioestatística III III 6 Biologia Celular e Molecular III III III 9 Parasitologia III III III III III III 18 Total 40 Fonte o autor Fonte o autor Quadro 5 Votos dos 40 alunos de uma turma sobre a preferência de disciplinas em rol Tabela 6 Distribuição de frequências referentes à preferência de 40 alunos de uma turma do curso de Enfermagem Agora que temos os dados em rol construiremos a tabela de frequências Fi que se trata de agrupar os dados em uma tabela contando quantas vezes cada variável nesse caso cada disciplina se repetiu isso é o que chamamos de frequência Para isso organizamos a tabela utilizando a ordem alfabética contendo todos os elementos título cabeçalho linhas entre outros Utilizando os dados em rol construiremos uma tabela de frequências com a preferência de 40 alunos de uma turma do curso de Enfermagem Tabela 6 UNICESUMAR UNIDADE 3 Como você pode observar inserimos a coluna contagem somente para você entender como funciona a distribuição de frequência geralmente ela não aparece mas como é a primeira vez que você está construindo essa tabela elaboramos essa coluna para melhor entendimento Observe que na disciplina Anatomia Humana a repetição ou seja a contagem foi de sete alunos portanto a frequência desta classe desta linha é igual a sete Já na segunda classe ou seja segunda linha temos a disciplina Bioestatística com votos de seis alunos portanto a frequência para esta disciplina é igual a seis Enquanto na terceira classe a contagem para disciplina de Biologia Celular e Molecular é igual a nove sendo assim na coluna frequência inserimos a informação que é igual a nove Por fim na última classe com a disciplina Parasitologia teve a preferência de 18 alunos Uma classe em uma distribuição de frequência corresponde ao número de linhas desta tabela exceto cabeçalho e total Podemos entretanto reconstruir esta tabela inserindo algumas colunas complementares que são importantes em uma distribuição de frequência tais como a Frequência Relativa Fr corresponde à proporção entre a frequência da classe pelo total de números observados e a equação a seguir apresentanos como calcular a frequência relativa Fr Fin 100 Em que Fr Frequência relativa em percentual Fi Frequência da classe n número total de elementos ou somatória das frequências correspondente ao total b Frequência Acumulada Fac referente à frequência de todos os valores inferiores ao limite superior da classe ou seja repetese a primeira frequência em seguida vamos somando com as posteriores c Frequência Relativa Acumulada Frac tratase de uma classe em que a frequência acumulada da classe dividindo pelo total da distribuição ou seja pelo total A equação referente à frequência acumulada pode ser observada a seguir Frac Facn 100 Em que Frac Frequência relativa acumulada em percentual Fi Frequência acumulada da classe n número total de elementos ou somatória das frequências correspondente ao total Agora você aprenderá a construir a tabela de distribuição de frequências com estas colunas complementares Tabela 7 Vamos lá Tabela 7 Distribuição de frequências referentes a preferência de 40 alunos de uma turma do curso de Enfermagem Disciplina Frequência Fi Fr Fac Frac Anatomia Humana 7 740 100 175 7 740 100 175 Bioestatística 6 640 100 15 76 13 1340 100 325 Biologia Celular e Molecular 9 940 100 225 139 22 2240 100 55 Parasitologia 18 1840 100 45 2218 40 4040 100 100 Total 40 100 Fonte o autor Como você pode observar apresentamos as colunas Fr Fac e Frac com todas as fórmulas e resoluções Na coluna Fr utilizamos a equação a seguir Fr Fin 100 Em seguida substituímos cada valor da frequência dividimos pelo total que neste caso é igual a 40 e temos que a proporção de alunos que preferem a disciplina Anatomia Humana é de 175 Essa coluna também serve para situações em que queremos saber a proporção em percentual por exemplo qual o percentual de alunos que preferem a disciplina de Biologia Celular e Molecular Simplesmente basta olhar na coluna FR e responder que 225 dos alunos preferem a disciplina Biologia Celular e Molecular Neste momento você pode estar se questionando quando UNIDADE 3 71 Como você pode perceber não precisamos apresentar todos os cálculos nas colunas complementares da tabela de distribuição de frequências Neste vídeo apresentarei o passo a passo da construção das colunas complementares bem como reescreverei essa tabela sem cálculos Acesse o vídeo e fique por dentro desse conteúdo Fonte o autor Tabela 8 Distribuição de frequências referentes a preferência de 40 alunos de uma turma do curso de Enfermagem sem os cálculos Disciplina Frequência Fi Fr Fac Frac Anatomia Humana 7 175 7 175 Bioestatística 6 15 13 325 Biologia Celular e Molecular 9 225 22 55 Parasitologia 18 45 40 100 Total 40 100 construirá tabelas de frequências e se é preciso apresentar todos os cálculos nesta tabela A resposta é não necessariamente No exemplo apresentado fizemos a resolução completa apresentando os cálculos em cada uma das classes para que você possa visualizar a equação correspondente bem como a substituição dos valores para compor a tabela Na maioria das vezes quando elaboramos estas tabelas normalmente não apresentamos os cálculos Agora você verá a mesma tabela sem apresentar os cálculos Tabela 8 Além disso temos como ir tirando prova real para verificar se os cálculos apresentados estão corretos Observe a seguir a Na linha Total observe que a somatória das frequências deve ser igual ao número de elemen tos coletados ou seja para este caso foram entrevistados 40 alunos do curso de Enfermagem então a somatória deve ser igual a 40 b Na coluna FR analise que a somatória das frequências relativas em percentual a somatória deve ser igual a 100 correspondente a 100 por cento Caso sua somatória dê por exemplo 98 é necessário conferir os cálculos anteriores 72 Em uma tabela de distribuição de frequências você sabia que podemos tirar a prova real dos cálculos nas colunas complementares Sim isso é possível e para entender como fazer essa prova real convido você a acessar este vídeo e fazer comigo o passo a passo Você verá que não terá erro Fique por dentro deste plus aqui em nossa disciplina c Na coluna Frequência Acumulada Fac aqui somamos as frequências das classes com as frequências posteriores certo Mas a prova real tratase do último valor encontrado na colu na FAC ser igual ao total de elementos analisados ou seja o valor dever ser igual ao total da somatória da coluna frequência d Na coluna Frequência Relativa Acumulada FRAC o último valor correspondente à variável analisada deve ser igual a 100 Não se esqueça o coração da sua tabela é a coluna frequência por isso é importante estes valores serem distribuídos de maneira correta Coletar dados 1º passo 2º passo Colocar os dados em rol ordem crescente 3º passo Construir a tabela e contar as frequências repetições 4º passo Construir as colunas Fr FAC e FRAC 5º passo Como garantia confra seus dados principalmente a coluna frequência Descrição da Imagem na figu ra temos a sequência dos pas sos para a construção de uma distribuição de frequências sem intervalo de classes temos 1º passo coletar os dados 2º pas so colocar os dados em rol 3º passo construir a tabela e con tar as repetições 4º passo fazer as colunas frequência relativa FR frequência acumulada FAC e frequência relativa acumulada FRAC e o passo 5 conferir os dados Figura 1 Passo a passo para construção de uma tabela de fre quências simples sem intervalo de classes Fonte o autor UNICESUMAR UNIDADE 3 73 Até agora vimos como trabalhar com uma dis tribuição de frequências sem intervalo de classes mas com uma variável quantitativa discreta Ve jamos um exemplo supondo que um diretor de uma escola anotou durante 30 dias o número de atendimento aos pais e obteve o seguinte resultado Dados Brutos 3 3 2 4 5 2 2 2 4 4 2 3 3 5 2 4 2 3 2 3 1 2 3 2 2 3 4 2 3 2 1º passo colocaremos os dados em rol Dados em Rol 2 2 2 3 4 2 2 2 3 4 2 2 3 3 4 2 2 3 3 4 2 2 3 3 5 2 2 3 4 5 2º passo Construir a tabela distribuir as frequências Tabela 9 Distribuição de frequências referentes ao atendimento do diretor de uma escola durante 30 dias consecutivos Atendimentos Número de dias Fi FR FAC FRAC 2 14 1430 100 467 14 1430 100 467 3 9 930 100 30 149 23 2330 100 767 4 5 530 100 167 235 28 2830 100 933 5 2 230 100 66 282 30 3030 100 100 Total 30 100 Fonte o autor 3º passo construir as colunas complementares já realizado na própria tabela Agora é só conferir mais uma vez a tabela e verificar se está tudo de acordo As tabelas têm a função de condensar informações em alguns casos o número de dados é tão grande que dificulta a análise para estes casos são utilizadas tabelas com dados agrupados em intervalos de classes Imagine a seguinte a situação você já atuando como professor de cursos de Saúde aplica uma prova a seus alunos Para entender o desempenho dos seus alunos nesta avaliação você pode fazer uma lista com as notas dos seus alunose colocálas ordenadas A seguir temos as notas dos alunos desta turma dados brutos 30 30 60 90 100 30 95 85 65 65 30 50 70 70 70 40 70 60 65 80 90 45 95 80 85 60 70 100 75 85 UNIDADE 3 75 Fonte o autor Tabela 10 Distribuição de frequências referente às notas de seus alunos sem intervalo de classes 30 50 65 75 90 30 60 70 80 90 30 60 70 80 95 30 60 70 85 95 40 65 70 85 100 45 65 70 85 100 Agora colocaremos os dados em rol observe a seguir Agora construiremos a tabela de distribuição de frequências sem intervalo de classes Tabela 10 Notas Número de alunos 30 4 40 1 45 1 50 1 60 3 65 3 70 5 75 1 80 2 85 3 90 2 95 2 100 2 Total 30 Você pode observar que temos uma tabela com mais de dez classes ou seja mais do que dez linhas exceto cabeçalho e total Agora imagina quando formos inserir as colunas complementares quantos números terá nossa tabela Para melhorar essa tabela podemos construir uma distribuição de frequências com intervalo de classes para condensar melhor as informações da tabela Ao elaborar uma distribuição de frequências com intervalo de classes precisamos seguir os passos 1º passo colocar os dados em rol 2º passo determinar a amplitude total que se trata da diferença entre o maior valor do conjunto de dados pelo menor valor do conjunto de dados resolvido pela equação AT Xmáx Xmín Em que AT Amplitude Total Xmáx Maior valor do conjunto de dados Xmín menor valor do conjunto de dados 3º passo determinar o número de classes Para uma distribuição de frequências com intervalo de classes os números de linhas são definidos pela equação a seguir k n Em que K número de classes n número total de elementos Obs é muito importante que o número de classes seja arredondado 4º passo determinar a amplitude do intervalo ou seja a distância entre o limite inferior da classe e o limite superior da classe dado pela equação h ATk Em que h Amplitude do intervalo AT Amplitude total k número de classes UNIDADE 3 77 O arredondamento de dados é importante em uma distribuição de fre quências com intervalo de classes principalmente no item número de classes Para relembrar como se faz o arredondamento de dados assista ao vídeo a seguir 5º passo construa a tabela faça as colunas complementares distribuindo corretamente as frequências A seguir temos um resumo dos passos que devem ser seguidos para construir uma distribuição de frequências com intervalo de classes Figura 2 Colocar os dados em Rol 1º passo 2º passo Calcular Amplitude Total AT XmáxXmín 3º passo Calcular nº de classes n 4º passo Calcular amplitude do intervalo h ATk 5º passo Construir a tabela de frequências respeitando o intervalo encontrado respeitando os limites inferior e superior Descrição da Imagem na figura temos uma sequência dos pas sos para a construção de uma distribuição de frequências com intervalo de classes 1º passo rol 2º passo cálculo da AT 3º passo cálculo do número de classes linhas 4º passo cálcu lo da amplitude do intervalo e o passo 5 construção da tabela respeitando o intervalo de clas ses entre os limites Figura 2 Passo a passo para cons trução de uma tabela de frequên cias com intervalo de classes Fonte o autor Para entender melhor a construção de uma distribuição de frequências com intervalo de classes observe os dados a seguir que são referentes às notas de alunos do curso de Ciências Biológicas 1º passo colocar os dados em rol ordenado crescente 30 50 65 75 90 30 60 70 80 90 30 60 70 80 95 30 60 70 85 95 40 65 70 85 100 45 65 70 85 100 2º passo agora determinaremos a Amplitude do Intervalo AT Xmáx Xmín AT 100 30 70 30 50 65 75 90 30 60 70 80 90 30 60 70 80 95 30 60 70 85 95 40 65 70 85 100 45 65 70 85 100 UNIDADE 3 79 3º passo em seguida determinaremos o número de classes k k n k k arredondando 30 5 47 5 4º passo agora resolveremos a amplitude do intervalo utilizando a equação a seguir h AT k h h 7 5 1 4 Sabemos até o momento que nossa tabela terá 5 linhas classes Intervalo será de 14 em 14 entre limites Antes de construir nossa tabela de frequências precisamos entender o que são limites inferiores e superiores Temos quatro maneiras de utilizar os limites inferiores e superiores 1 Nesta primeira notação incluímos o limite inferior e excluímos o limite superior 2 Nesta notação excluímos o limite inferior e incluímos o limite superior 3 Nesta notação excluímos ambos os limites 4 Nesta notação incluímos ambos os limites Qual delas usar Utilizaremos a primeira notação que inclui limite inferior e exclui limite superior mas em alguns casos somente na última classe teremos que usar a quarta notação que inclui ambos os limites isso pode ocorrer para que o maior valor do conjunto de dados seja contado Como já temos todas as informações construiremos nossa tabela Tabela 11 Tabela 11 Distribuição de frequências referente às notas de seus alunos com intervalo de classes Notas Número de alunos fi FR FAC FRAC Ponto médio Xi 30 44 5 530100 167 5 5 530100 167 30 44 2 37 44 58 2 230100 66 52 7 730100 233 44 58 2 51 58 72 11 1130100 367 711 18 1130100 367 58 72 2 65 72 86 6 630100 20 186 24 2430100 80 72 86 2 79 86 100 6 630100 20 246 30 3030100 100 86 100 2 93 Fonte o autor Total 30 100 Agora temos a tabela resolvida observe que na última classe tivemos que utilizar a notação que inclui limite inferior e inclui limite superior isso foi feito para que a nota 100 fosse incluída na contagem Observe nesta tabela que há uma coluna complementar a mais a coluna ponto médio que é determinado pela equação Xi Li Ls 2 Em que Xi Ponto médio Li Limite inferir do intervalo de classe independentemente da notação Ls Limite superior do intervalo de classe independentemente da notação É importante ficar atento porque só existe ponto médio em uma distribuição de frequências com intervalo de classes O ponto médio será importante em nossa próxima unidade no cálculo da média Outra maneira de apresentar os dados provenientes de uma pesquisa são os gráficos Figura 3 Um gráfico tem por objetivo apresentar uma ideia visual do comportamento de um conjunto de valores tem a vantagem de facilitar a compreensão de determinada situação que queira ser descrita permitindo a interpretação rápida de suas principais características ARANGO 2011 Você sabia que tabelas e gráficos são fundamentais para a organização dos dados na Bioestatística com seu uso e aplicação a interpretação de dados obtidos por meio de pesquisa se tornam mais eficientes Saiba que os gráficos podem facilitar a análise de dados trazendo mais praticidade visualização principalmente quando temos dados não discretos ou seja quando não são relativamente grandes Em nossa roda de conversa traremos uma explicação sobre aplicabilidade e simplicidade dos gráficos É importante frisar que um gráfico não traz tantas informações quanto a uma tabela E você vai se perguntar usarei gráfico ou tabelas em minhas pesquisas A resposta é fica a critério do pesquisador ou seja a pessoa que está fazendo a pesquisa pode utilizar gráficos ou tabelas ou fazer uma mesclagem entre eles Os gráficos estão sempre presentes em trabalhos científicos artigos congressos seminários simpósios em que é preciso comunicar um grande volume de informações com tempo limitado de forma compreensível e agradável Temos vários modelos de gráficos que veremos a seguir a Gráfico de colunas quando temos as categorias apresentadas no eixo horizontal e a frequência no eixo vertical BARBETTA 2014 Para construção do gráfico de colunas utilizaremos os dados referentes às matrículas na Educação Infantil retirados do INEP 2019 A Figura 3 82 Como você pode observar na horizontal temos as regiões do país e na vertical temos o número de matrículas na Educação Básica Caso você queira saber o número de matriculados na região Norte por exemplo basta olhar na região Norte e verificar que há pouco mais do que 500000 matrículas no ano de 2019 b Gráfico de barras em que cada variável é representada por uma barra de comprimento proporcional à sua ocorrência BARBETTA 2014 Temos as barras na vertical na Figura 4 Descrição da Imagem a figura traz um gráfico de colunas em que as barras estão na direção horizontal de baixo para cima aparece primeiro a região Norte em que temos 690631 alunos seguida da região Nordeste com 2349305 alunos segui da da região Sudeste com 3919235 após a região Sul com 1347509 alunos e por fim a região CentroOeste com 666098 alunos Descrição da Imagem a figura traz um gráfico de colunas em que as barras estão na direção vertical primeiro com a região Norte em que temos 690631 alunos seguida da região Nordeste com 2349305 alunos seguida da região Sudeste com 3919235 após com a região Sul 1347509 alunos e por fim a região CentroOeste com 666098 alunos Figura 3 Gráfico de Colunas Fonte adaptada de Inep 2020 Figura 4 Gráfico de Barras Fonte adaptada de Inep 2020 UNICESUMAR UNIDADE 3 83 Descrição da Imagem a figura traz um gráfico de linhas com os meses de janeiro a dezembro apresentando a evolução do índice pluviométrico no período Figura 5 Gráfico de linhas Fonte o autor c Gráfico de linhas são gráficos bem interessantes no uso de séries temporais ou seja a variável predominante é o fator tempo cronológico esse tipo de gráfico mostra informações da série estudada em pontos e que são marcados por segmentos de linha reta A Figura 5 apresentanos um gráfico de linhas Na Figura 5 com o gráfico de linhas você pode observar que o aumento no índice pluviométrico é apresentado mês a mês tempo e para interpretar esse gráfico basta visualizar que podemos concluir que o mês de julho foi que apresentou maior quantidade de chuvas d Gráfico de setores também conhecido como gráfico de pizza é um gráfico circular em que os valores são representados proporcionais às respectivas frequências Para a construção deste gráfico utilizaremos os dados referentes às preferências de alunos de uma turma do curso de Ciências Biológicas Figura 6 Descrição da Imagem a figura traz um gráfico em formato de pizza circular sen do que a proporção maior está com 45 na disciplina Zoologia I seguida de 23 na disciplina Biologia Celular e Molecular se guida da disciplina Bioestatística com 15 e por fim a disciplina Anatomia com 7 Figura 6 Gráfico de setores Fonte o autor 84 Descrição da Imagem a figura representa um histograma em que temos gráficos na vertical juntos ou seja sem espaço entre as barras iniciando com cinco alunos com notas maiores ou iguais a 30 e menores do que 44 dois alunos com notas maiores ou iguais a 44 e menores do que 58 onze alunos com notas maiores ou iguais a 58 e menores que 72 seis alunos com notas maiores ou iguais a 72 e menores do que 86 e seis alunos com notas maiores ou iguais a 86 e menores ou iguais a 100 Figura 7 Histograma Fonte o autor Neste tipo de gráfico podemos verificar a proporção dentre as disciplinas que os alunos escolheram como preferidas Fica nítida a preferência pela disciplina Zoologia I seguida da disciplina Biologia Celular e Mo lecular sendo a menos preferida a disciplina Anatomia Humana para esta turma mencionada no exemplo e Histograma é a representação gráfica de uma distribuição de frequências pode ser construído a partir de uma distribuição de frequências sem intervalo de classes ou com intervalo de classes Aqui cada retângulo justaposto representa uma classe Figura 7 Na Figura 7 que representa um histograma para interpretação você deve olhar as notas bem como a quantidade de alunos observe que no primeiro retângulo temos cinco alunos com notas maiores ou iguais a 30 e menores do que 44 e assim sucessivamente Você pode também construir todos os seus gráficos em suas pesquisas com o auxílio do Microsoft Excel basta inserir todos os dados selecionar e escolher o modelo que melhor represente os dados com que está trabalhando Dessa maneira fica a critério do pesquisador a utilização de tabelas e gráficos para apresentar os resultados de uma pesquisa podendo seu uso ser intercalado UNICESUMAR UNIDADE 3 85 Você sabia que como futuro da saúde faz parte do exercício de cidadania e profissional a consulta de dados básicos para articulação conscientização e tomada de decisão Para tanto uma sugestão seria iniciarmos consultando a sinopse Estatística da Educação Básica Esta sinopse tratase de dados relacionados à matrícula de acadêmicos ao estabelecimento às regiões ao rendimento escolar para as diferentes modalidades de ensino brasileiras Ensino Regular Educação Infantil e Ensino Fundamental e Médio Educação Especial e Educação de Jovens e Adultos Você pode consultar os dados dessa sinopse que serão apresentados detalhadamente por cidade estado e região e trabalhar com eles os apresentando em tabelas mais reduzidas Esses dados podem ser consultados no Qr Code a seguir Você percebeu o quanto a construção de tabelas e gráficos pode ser significativa e aplicada na sua profissão Existem muitas possibilidades Você pode trabalhar com pesquisa e apresentar os resultados em tabelas e gráficos com dados disponíveis no próprio INEP sobre a Educação Básica ou até mesmo coletar dados de seus alunos e pacientes construir tabelas e gráficos para entender o comportamento de sua turma em alguns quesitos dê preferência por disciplinas notas frequências evasões entre outros Veja que tudo isso está relacionado e que a Bioestatística está presente em sua na vida diária Vimos em nossos estudos como as técnicas de estatística são fundamentais para tomada de de cisões e que para organizar uma tabela precisamos seguir algumas normas específicas que foram apresentadas no decorrer dessa unidade Além disso os gráficos também podem ser utilizados para visualizar o resultado de uma pesquisa Assim ao tabular os resultados da pesquisa propostos no início de nosso estudo mais especificamente na experimentação em que colocamos uma situação hipotética que realizará um experimento para saber se as pessoas de um bairro ou membros da família tiveram dengue Aqui na ação após toda coleta de dados a partir de um formulário elaborado por você certa mente terá resultados a serem tabulados É isso mesmo com todas as técnicas estudadas você poderá criar tabelas de frequências colunas complementares para melhorar os resultados obtidos e a partir de então tomar decisões Supondo que suas respostas sejam que dentro de um grupo de dez pessoas oito responderam que já tiveram dengue ou seja 80 dos entrevistados como profissional da área da Saúde o que você pode propor Com base nesse estudo pode propor palestras para sensibilização da população um dia D de combate ao foco de dengue orientar disseminar informações acerca dos cuidados que devemos ter com a dengue Aqui você pode perceber que usamos uma técnica estatística e a partir de então foram feitas ações de melhoria no combate a dengue 86 1 Caroa estudante a utilização de tabelas e gráficos são a forma de apresentar resultados oriundos de uma pesquisa como vimos em nossa unidade existem normas específicas para sua elaboração e confecção A partir desta conceitualização desenvolva um Mapa Mental que aborde os conceitos com que trabalhamos nesta unidade Tabelas e Gráficos Procure colocar as informações pertinentes sobre cada uma das relações apresentadas na área da Saúde Gráfico Colunas Barras Setores Linhas Histograma Tabelas Rol Distribuição de frequências Sem intervalo de classes Com intervalo de classes ABNT IBGE Normas de Tabelas 4 Olá alunoa esta unidade será fundamental para sua aprendiza gem e para sua futura profissão Por meio dela você terá oportuni dade de entender como ocorre a análise dos dados oriundos de uma pesquisa para que possa analisar situações quanto à frequência à incidência às ocorrências entre outras variáveis imprescindíveis para futura atuação profissional Você aprenderá nesta unidade a trabalhar com as medidas de posição separatrizes e variabilidade Medidas de Posição e Dispersão Me Renata Cristina de Souza Chatalovv 88 Para que possamos continuar nossas reflexões vamos nos apropriar dos conceitos e resgataremos os exemplos e a trajetória das unidades anterio res Neste momento de sua leitura você prova velmente deve estar se perguntando agora que já coletei os dados organizei em tabelas qual a próxima etapa O que posso fazer com eles Por que estou aprendendo tudo isso Em que será útil no meu dia a dia Para que possamos problema tizar e refletir compartilharei outra história que foi muito relevante em minha trajetória Vou nos transportar para a primeira vez em que entrei em uma escola como professora da disciplina Esta tística Naquele momento eu tinha várias expec tativas quanto à minha atuação como docente Aquele ambiente inspirava o conhecimento e o meu desejo de ensinar No entanto já em sala de aula quando fiz a primeira explicaçãoapresen tação a respeito do que se tratava a disciplina de cálculo explicitei que também trabalharíamos com a interpretação de dados e informações e notei que isso foi uma surpresa para os estudantes daquela turma Na aula seguinte fiz uma revisão de conteúdos de Matemática Básica como fra ção multiplicação e expressão numérica quando percebi a necessidade de mais aulas relembrando este conteúdo com meus alunos Então para ter um parâmetro de como estava a turma fiz um teste sem valer nota mas para ter um diagnóstico real de como poderia trabalhar Depois que fiz as correções dos testes calculei a média a variância e o desvio padrão daquela turma e entendi que havia muita dispersão ou seja parte da turma necessitava de uma atenção especial em cálculos básicos de matemática outra parte era interme diária e outra parte tinha gabaritado o teste Com essa turma heterogênea era preciso cuidado e atenção e isso me desafiava nesta primeira ex periência como professora Com este relato de minha história desejo que nesta unidade você se atente aos conteúdos que desbravaremos e compreender juntos que tratam de formas de se calcular as medidas de posição e dispersão e sobre como perceber o quanto estas são importantes em nossa tomada de decisões Você percebeu que como professora da dis ciplina Estatística utilizei medidas de dispersão para mensurar o conhecimento prévio da turma em Matemática Básica e com base nos resulta dos fui traçando um planejamento pedagógico pensando na melhor maneira do aprendizado da minha turma Agora que entendemos que a estatística pode nos ajudar a construir elementos para tomada de decisões você também pode se apropriar destes preceitos para a tomada de deci são em sua trajetória profissional e verá que essas medidas ajudarão você a interpretar os resultados de que precisa em um conjunto de dados Portanto peço que faça a leitura do artigo intitulado Medidas de dispersão os valores estão próximos entre si ou variam muito Nesse artigo você terá uma explicação das medidas de dis persão e o que os resultados apresentam entre si Acesse o qrcode UNICESUMAR UNIDADE 4 89 Depois da leitura do artigo anterior vamos pôr a mão na massa Trabalharemos agora com dados coletados em uma turma Sugiro que levante as notas dos seus colegas de turma no primeiro no segundo no terceiro e no quarto módulo Em seguida determine a média para cada alunoa e analise o desempenho de sua turma Construa esta organização e faça esta análise e você já estará utilizando mais uma técnica apresentada pela Bioestatística Caso prefira pode extrapolar este contexto de nosso exemplo para outras áreas da sua vida como com as contas de luz água ou internet ao longo do último ano Sendo assim provoco você a fazer uma autoanálise sobre a sua aprendizagem de tudo que foi ex plicado até agora pois este processo mostrará que estas medidas o ajudarão a interpretar os resultados de que precisa em um conjunto de dados O que você encontrou até aqui Todas estas informações auxiliarão você Diante disso convido você acadêmico a fazer suas anotações em um Diário de Bordo Construa uma tabela à mão com esses dados a fim de anotar suas primeiras impressões até o momento 90 Cada uma dessas medidas envolve fórmulas e aplicações diferentes tornando a Bioestatística ainda mais fascinante As medidas de tendência central só podem ser calculadas para variáveis quantita tivas PARENTI SILVA SILVEIRA 2017 p 116 Média Mediana Moda Neste momento caroa estudante estudaremos as medidas de posição as separatrizes e a dispersão As medidas de tendência central possibilitam representar um conjunto de dados com apenas um número MARTINEZ 2015 As medidas de posição mais utilizadas e as que estudaremos são a média a moda e a mediana Descrição da Imagem a figura apresenta as três medidas de tendência central ou podemos dizer as medidas de posição mais utilizadas média mediana e moda Figura 1 Medidas de tendência central ou medidas de posição Fonte o autor A medida de posição média é a medida de tendência central mais conhecida e mais importante para um conjunto de valores Tenho certeza de que você já a utilizou no seu dia a dia pois é bem simples de ser calculada Para o cálculo da média basta somar todos os valores e em seguida dividir pelo total de elementos A média amostral é representada por um x com uma barra em cima X e a média populacional pela letra grega μ lêse mi Mesmo sendo representadas de maneira diferente a forma de calcular é a mesma UNICESUMAR Para calcularmos a média quando temos dados desagrupados ou seja sem estarem em tabelas podendo ser brutos ou em rol é dada por a Média Populacional μ ΣXi N Em que μ Média Populacional Σ Somatória Xi Valor de cada elemento N Total da População b Média Amostral X ΣXi n Em que X Média Amostral Σ Somatória Xi Valor de cada elemento n Total da Amostra Como você pode observar o cálculo da média é o mesmo tanto para a população quanto para a amostra Aposto que neste momento você está se questionando mas como funciona na prática Sempre que não for mencionado que os dados são populacionais você pode considerar uma amostra e isso acontece porque geralmente o trabalho com amostras tem um custo e um tempo menor do que o trabalho com população Você pode observar que na área da Saúde o uso de amostras é recorrente Para compreender melhor o que eu desejo explicar para você aqui o cálculo da média vejamos um exemplo As idades em anos de oito pessoas que estão apresentadas a seguir 38 40 49 67 33 57 54 e 64 A média amostral denotada por x lêse xis barra é dada por X ΣXi n x1 x2 x3 xn n Assim X 38 40 49 67 33 57 54 64 8 X 402 8 5025 Você pode observar que a média é apresentada na mesma unidade de medida da variável analisada E como interpretamos uma média de 5025 anos Em primeiro lugar tendo a média como uma medida de tendência central podemos afirmar que as idades das oito pessoas de nossa amostra estão em torno de 5025 anos A Figura 2 ajudanos a visualizar a média e os dados apresentados UNICESUMAR Média 50 25 anos Figura 2 Apresentação dos dados e da média Fonte o autor Descrição da Imagem a imagem apresenta uma reta com os valores de dois em dois iniciando em 30 32 34 36 e terminando em 68 a média está representada na reta no valor de 50 25 anos os valores estão apresentados na dispersão e marcados pontos em 3338 40 49 54 57 64 e 67 Dessa forma lembrese de que a média é uma medidaresumo isto é ela visa sintetizar em um único valor todas as nossas observações amostrais Em outras palavras afirmarmos que a idade de 5025 anos é um valor que tem por intuito representar as idades de todas as oito pessoas analisadas No entanto você pode observar que a média é um resumo incompleto de nosso conjunto de dados uma vez que ela não informa o tamanho da dispersão de nossos dados a seu redor Observe que com a média de 50 25 anos temos pessoas com 33 anos com 48 e com 67 Para explicar toda esta dispersão existe o desvio padrão que discutiremos um pouco mais à frente Supondo que agora temos uma amostra composta por oito mulheres e a variável que nos interessa é o número de filhos para isso temos 1 1 1 2 2 3 3 e 4 A variável analisada é de natureza quantitativa discreta A média amostral é X ΣXi n 11122334 8 X 17 8 X 2125 Se o número de filhos é uma variável discreta e não temos casas decimais seria possível ter uma média de 2125 filhos Ainda que a variável estudada não admita casas decimais a sua média pode sim ter ter casas decimais Entretanto neste exemplo apresentado basta uma casa decimal para a média aí podemos utilizar a regra de arredondamento e dizer que as famílias têm em média 21 filhos Também podemos ter interesse em calcular a média em dados qualitativos apresentados em tabelas Vejamos o exemplo na Tabela 1 a seguir Tabela 1 Média das estaturas em cm de 30 adolescentes conforme a classificação de seus pesos Grupo Frequência Fi Média da Estatura cm Portadores de sobrepeso 6 1455 Portadores de obesidade 14 1488 Portadores de peso adequado 10 1493 Fonte o autor Para calcular a média neste caso trabalharemos com a média ponderada dada pela equação X ΣXi fi n Em que X média Xi cada um dos valores ou ponto médio n número total de elementos ou somatória das frequências fi Frequência Temos X ΣXi fi n 61455 141488 101493 30 X 873 208332 1493 30 X 444932 30 X 14831 Em vez de calcular dessa maneira para facilitar você pode dentro da sua tabela criar uma coluna complementar e chamála de xifi colocar os resultados em cada classe da multiplicação da frequência pelo valor da variável e depois somar com o total na Tabela 2 Vejamos a seguir Tabela 2 Média das estaturas em cm de 30 adolescentes conforme a classificação de seus pesos com coluna complementar Grupo Frequência Fi Média da Estatura cm FiXi Portadores de sobrepeso 6 1455 6145 5 873 Portadores de obesidade 14 1488 14148 5 2083 2 Portadores de peso adequado 10 1493 10149 3 1493 Total 30 44492 Fonte o autor Observação No caso da tabela acima a coluna complementar xifi foi apresentada como FiXi devido a coluna Frequência ser apresentada como primeira coluna O que não interfere na resolução do exercício Agora com o resultado da somatória das frequências pela variável utilizamos a mesma equação Veja como fica X barra Σ Xi fi n X barra 444932 30 X barra 14831 Você também poderá encontrar situações no seu cotidiano já atuando como profissional em que você precisará calcular a média de idade de seus pacientes ou ainda calcular médias de seus alunos utilizando os dados quantitativos Vejamos um exemplo hipotético em que analisaremos as notas de uma turma do curso de Biomedicina na Tabela 3 a seguir Tabela 3 Notas de 30 alunos do Curso de Biomedicina Nota Número de alunos 70 8 80 12 90 6 100 4 Total 30 Fonte o autor Para que o professor saiba a média em questão ele realizará uma análise simples multiplicará a nota variável que está sendo estudada pelo número de alunos em seguida dividirá pelo total da turma que neste caso é de 30 alunos Utilizando a equação da média temos X barra Σ Xi fi n X barra 78 812 96 104 30 X barra 56 96 54 40 30 X barra 246 30 X barra 82 Outra opção para calcular como vimos anteriormente é criar a coluna complementar ficando desta forma na Tabela 4 Tabela 4 Notas de 30 alunos do Curso de Biomedicina Nota Número de alunos xifi 70 8 56 80 12 96 90 6 54 100 4 40 Total 30 246 Fonte o autor Resolvendo a média temos X barra Σ Xi fi n X barra 246 30 X barra 82 E se tivermos uma tabela de frequências com intervalo de classes como calculamos a média Utilizaremos a mesma equação mas precisaremos calcular o ponto médio Vejamos um exemplo as notas dos alunos do curso de Biomedicina estão apresentadas na Tabela 5 a seguir Tabela 5 Distribuição de frequências referente às notas de alunos do Curso de Biomedicina com intervalo de classes Notas Número de alunos Fi 30 44 5 44 58 2 58 72 11 72 86 6 86 100 6 Total 30 Fonte o autor Na Tabela 6 temos as notas dos alunos do curso para calcularmos a média A fim de facilitar inseriremos uma coluna complementar determinaremos o ponto médio primeiro utilizando a equação a seguir Xi Li Ls 2 Em que Xi Ponto médio Li Limite inferior do intervalo de classe independente da notação Ls Limite superior do intervalo de classe independente da notação Agora com a coluna complementar na tabela determinaremos o ponto médio de cada classe na Tabela 6 Tabela 6 Distribuição de frequências referente às notas de alunos do Curso de Biomedicina com intervalo de classes Notas Número de alunos Fi Ponto médio xi 30 44 5 30 44 2 37 44 58 2 4 4 58 2 51 58 72 11 5 8 7 2 2 65 72 86 6 7 2 8 6 2 79 86 100 6 8 6 10 0 2 9 3 Total 30 Fonte o autor Agora que temos o ponto médio basta inserir uma coluna complementar xi fi ou no caso abaixo Fi Xi e utilizar a equação da media que já trabalhamos anteriormente Reescrevendo na Tabela 7 temos Tabela 7 Distribuição de frequências referente às notas de alunos do Curso de Biomedicina com intervalo de classes Notas Número de alunos Fi Ponto médio xi FiXi 30 44 5 30 4 4 2 37 537 185 44 58 2 44 58 2 51 251 102 58 72 11 58 72 2 65 1165 715 72 86 6 72 86 2 79 679 474 86 100 6 86 100 2 93 693 558 Total 30 2034 Fonte o autor Determinando a média temos X Xi fi n X 2034 30 X 678 A média da turma é 678 arredondando temos que a média da turma de Biomedicina é de 68 A medida de tendência central mais conhecida e mais utilizada é a média mas não é sempre que ela é a mais apropriada para representar os dados às vezes a mediana é mais adequada para representar um conjunto de dados Isso ocorre sempre que a variabilidade dos dados for alta pois a média é afetada por valores extremos e a mediana não ela apenas leva em consideração os valores centrais Fonte Parenti Silva e Silveira 2017 p 120 98 É importante não confundir moda com maioria A moda é a observação mais frequente mas isso não implica necessariamente que a moda corresponde à maioria das observações E Z Martines Outra medida de posição importante é a moda Você deve ter ouvido falar da expressão música que está na moda roupa que está na moda isso significa que tem muita frequência muitas pessoas ouvindo a mesma música muitas pessoas usando mesmo estilo de roupa Aqui na Bioestatística esse conceito é bem válido Assim para Martinez 2015 a moda é a observação que ocorre com maior frequência no conjunto de dados ou seja o valor que mais se repete Imagine que em uma loja de calçados femininos foram vendidos 20 pares de sapatos em um único dia Os pares tinham estas numerações 34 37 34 36 36 35 36 37 33 36 36 36 36 36 39 36 35 34 36 36 30 25 19 18 18 18 18 18 18 18 19 20 23 25 27 24 22 22 18 18 Em outro exemplo suponha que em uma turma de 1º ano de Nutrição as idades dos 20 alunos em anos completos são UNICESUMAR UNIDADE 4 99 Podemos descrever adequadamente as idades destes alunos dizendo que a idade mais frequente ou moda é 18 anos No entanto em alguns casos a moda pode não ser a medida mais apropriada para caracterizar os dados Como os valores a seguir são os níveis séricos de triglicérides em mgdl em uma amostra de sete pacientes 189 72 109 140 140 140 135 A moda neste exemplo seria 140 mgdl sendo o valor mais frequente Mas será que a moda é a medida de posição que melhor caracteriza esses dados Talvez a média ou a mediana que veremos a seguir sejam mais úteis para esta finalidade Em algumas situações a moda pode não ser única Por exemplo o tempo de aleitamento materno em meses de 8 crianças usuárias de um serviço de saúde 1 2 3 3 4 6 6 Neste exemplo temos dois valores mais frequentes 3 e 6 meses Podemos dizer que se trata de uma série bimodal ou seja dois valores de moda Novamente a média ou a mediana podem ser mais úteis para descrever os dados desse exemplo Podemos não ter moda em um conjunto de dados caso nenhum número se repita mais vezes do que outro Quando isso acontece chamamos a dis tribuição de amodal Se tivermos mais do que duas modas teremos uma distribuição multimodal PARENTI SILVA SILVEIRA 2017 Em alguns casos podemos ter interesse em saber a moda mas os dados estão apresentados em tabela como fazer Bem simples basta olharmos os dados e a coluna frequência assim vamos encontrar a classe modal para então sabermos a moda Observe os dados a seguir na Tabela 8 Tabela 8 Notas de alunos do Curso de Nutrição Fonte o autor Nota Número de alunos 70 8 80 12 90 6 100 4 Total 30 Classe modal Para determinar a moda em tabelas primeiramente procuraremos a classe modal Para isso basta observar na coluna que tem a maior frequência Em nosso exemplo a segunda classe tem doze alunos que corresponde ao valor que aparece com mais frequência portanto esta é a classe modal Em tabelas de frequências também podemos ter mais do que uma moda Analise a seguir na Tabela 9 Determine a moda Para calcular a moda procuraremos na tabela na coluna frequências a maior frequência para indicar a classe modal Podemos observar que a moda está na terceira classe da tabela mas qual a moda Determinaremos a seguir Mo Li hFi Fi1 Fi Fi1 Fi Fi1 Mo 58 1411 2 11 2 11 6 Mo 58 149 9 5 Mo 58 126 14 Mo 58 09 Mo 67 Encontramos que a nota que representa a moda é igual a 67 mas os dados não foram dados em rol com esta equação encontramos o valor mais aproximado observem que este valor está dentro dos valores estabelecidos nos limites inferiores e superiores Para Parenti Silva e Silveira 2017 a mediana é definida como sendo o valor central da distribuição dos dados ordenados e este divide a distribuição ao meio sendo que metade dos valores será menor ou igual à mediana e a outra metade será maior ou igual à mediana Até o momento quando calculávamos a média e a moda fazíamos diretamente sem ter que colocar os dados em rol mas para calcular a mediana obrigatoriamente devemos colocar os dados em rol Supondo que temos as idades de cinco alunos do curso de Nutrição que são dadas a seguir 25 22 18 23 24 Encontre a mediana entre as idades dos alunos Sabemos que a mediana divide o conjunto de dados em duas partes iguais não seria correto fazer simplesmente assim 25 22 18 23 24 Mediana Dessa forma está errado pois a idade de 18 anos não é o que divide o conjunto de dados em rol pois na mediana estes dados devem ser ordenados portanto 18 22 23 24 25 Mediana Agora temos a mediana que é igual à idade de 23 anos Vejamos outro exemplo idades em anos de sete pessoas estão apresentadas a seguir 38 40 49 67 33 57 54 Primeiro passo colocar os dados em rol 33 38 40 49 54 57 67 Encontrando a mediana temos 33 38 40 49 54 57 67 Mediana igual a 49 Agora representaremos na Figura 3 para que você consiga analisar os valores antes e depois da mediana UNICESUMAR Tabela 9 Notas de alunos do Curso de Nutrição Nota Número de alunos 70 4 80 10 90 6 100 10 Total 30 Fonte o autor Neste caso as notas que aparecem com maior frequência são 8 e 10 temos uma série bimodal ou seja com duas modas E quando temos dados em tabelas de frequências com intervalo de classes como fica Primeiro passo é localizar a classe modal ou seja a classe que tem a maior frequência e em seguida utilizar a equação a seguir Mo Li hFi Fi1 Fi Fi1 Fi Fi1 Em que Mo Moda Li Limite da classe inferior na classe modal h Amplitude do intervalo distância entre Li e Ls Fi Frequência da classe Fi1 Frequência da classe anterior Fi1 Frequência da classe posterior Para entender melhor vejamos o exemplo na Tabela 10 Tabela 10 Distribuição de frequências referente às notas de alunos do Curso de Nutrição com intervalo de classes Notas Número de alunos Fi 30 44 5 44 58 2 58 72 11 72 86 6 86 100 6 Total 30 Fonte o autor Classe modal Classe modal Mediana 49 Figura 3 Representação na mediana Fonte o autor Descrição da Imagem a figura apresenta uma representação da mediana onde se encontra uma reta com os valores de dois em dois iniciando em 30 32 34 36 e terminando em 68 a mediana está representada no valor de 49 os valores estão apresentados na dispersão e marcados pontos em 33 38 40 49 54 57 64 e 67 Se substituirmos a maior idade de 67 para 75 anos o que aconteceria com a mediana Seu valor se modificaria O número do meio continuaria sendo 49 anos Esta é uma característica importante da mediana ela não é sensível a valores atípicos de nosso conjunto de dados e entendemos por valor atípico um número bastante grande ou pequeno em relação aos demais No cálculo da mediana temos duas situações quando temos o conjunto de dados com números pares e ímpares Quando tivermos um número ímpar de elementos a mediana será exatamente o valor central Também pode ser calculado pela equação a seguir p n 1 2 Em que p posição do elemento que está à mediana n número de elementos Por exemplo Notas de sete alunos do curso de Nutrição 70 60 50 55 90 80 90 Colocando os dados em rol 50 55 60 70 80 90 90 Utilizando a equação temos p n 1 2 p 7 1 2 p 8 2 p 4 O p encontrado igual a 4 não é a mediana mas sim o valor que ocupa a posição mediana ou seja com os dados em rol a mediana ocupa a 4ª posição 50 55 60 70 80 90 90 1ª 2ª 3ª 4ª 5ª 6ª 7ª Podemos visualizar que a mediana é a nota 70 que ocupa a 4ª posição Quando tivermos um número par de elementos a mediana será uma média simples entre os elementos que ocupam a posição central o valor central Pode ser calculado por p1 n 2 p2 n 2 1 Em que p posição do elemento que está à mediana n número de elementos Por exemplo Notas de oito alunos do curso de Nutrição 70 60 50 55 90 80 90 75 Colocando os dados em rol 50 55 60 70 75 80 90 90 Utilizando a equação temos p1 n 2 p1 8 2 4ª posição p2 n 2 1 p2 8 2 1 5ª posição Temos 50 55 60 70 75 80 90 90 1ª 2ª 3ª 4ª 5ª 6ª 7ª 8ª Agora tiraremos uma média simples entre o elemento que está na quarta e na quinta posição Md 70 75 2 Md 145 2 Md 725 Muitas vezes podemos ter o interesse em calcular a mediana em dados agrupados em tabelas para isso precisaremos que nossa Tabela 11 tenha a coluna frequência acumulada FAC Tabela 11 Notas de 30 alunos do Curso de Nutrição Nota Número de alunos FAC 70 8 8 80 12 20 90 6 26 100 4 30 Total 30 Fonte o autor Para encontrar a mediana como os dados já se encontram agrupados em uma tabela de frequências por meio da coluna frequência acumulada vamos localizar o elemento que ocupa a posição mediana como nosso conjunto de dados é par temos p1 n 2 p2 n 2 1 p1 30 2 15ª posição p2 30 2 1 16ª posição Agora com na coluna FAC vamos localizar os elementos que ocupam a 15ª e a 16ª posição Veja na tabela 12 a seguir Tabela 12 Notas de 30 alunos do Curso de Nutrição Nota Número de alunos FAC 70 8 8 Classe Mediana 80 12 20 90 6 26 100 4 30 Total 30 Fonte o autor Para este caso o elemento que ocupa a 15ª e 16ª posição está na segunda classe é a nota 80 portanto a nota mediana desta turma é 80 E se tivesse uma nota em uma classe e outra na classe posterior Simples bastaria tirar a média simples entre as duas notas Também podemos ter interesse em calcular a mediana em uma distribuição de frequências com intervalo de classes Para determinar a mediana utilizamos a seguinte equação Md Li hn2 Fac1 Fi Em que Md Mediana Li Limite da classe inferior na classe mediana h Amplitude do intervalo distância entre Li e Ls n número de elementos Fi Frequência da classe Fac1 Frequência acumulada da classe anterior Agora entenderá como calcular a mediana em dados agrupados em uma distribuição de frequências com intervalo de classes Observe na Tabela 13 a seguir Tabela 13 Distribuição de frequências referente às notas de alunos do Curso de Nutrição com intervalo de classes Nota Número de alunos Fi FAC 30 44 5 5 44 58 2 7 58 72 11 18 72 86 6 24 86 100 6 30 Total 30 Fonte o autor Para resolvermos temos primeiro que encontrar a posição mediana na coluna FAC Como nosso conjunto de dados é par temos p1 n2 p1 302 15ª posição p2 n2 1 p2 302 1 16ª posição Podemos observar na tabela que os dados estão na 3ª classe Trabalharemos com estes dados e substituiremos na equação da mediana Md Li hn2 Fac1 Fi Md 58 14302 72 Md 58 1415 711 Md 58 14811 Md 58 11211 Md 58 102 Md 682 Temos que a nota mediana da turma é igual a 68 Compilaremos tudo que aprendemos em uma aplicação Em uma maternidade a enfermeira está anotando os pesos dos recémnascidos na manhã de um domingo quando cinco bebês nasceram Os dados são em kg 3850 4210 3950 4300 3850 Vamos calcular as medidas de tendência central para estes dados a Média X Σ Xi n X 3850 4210 3950 4300 3850 X 2016 5 X 4032 Em média os bebês daquela manhã de domingo pesavam 4032 kg b Moda valor que mais se repete portanto é 3850 kg Assim O valor mais frequente para o peso dos recémnascidos naquela maternidade é de 3850 kg c Mediana colocar os dados em rol 3850 3850 3950 4210 4300 p n 12 p 5 12 p 6 2 p 3 A mediana será o terceiro elemento do conjunto de dados ordenados Portanto 3950 Assim metade das crianças nascidas na maternidade pesava menos de 3950 kg e a outra metade pesava mais do que 3950 kg A medida de tendência central mais conhecida e mais utilizada é a média mas não é sempre que ela é a mais apropriada para representar os dados às vezes a mediana é mais adequada para representar um conjunto de dados Isso ocorre sempre que a variabilidade dos dados for alta pois a média é afetada por valores extremos e a mediana não ela apenas leva em consideração os valores centrais Fonte Parenti Silva e Silveira 2017 Outras medidas que você pode utilizar são as separatrizes que dividirão as séries em partes iguais e as principais são mediana que já estudamos quartis decis e percentis Os quartis dividem uma série de dados em quatro partes iguais assim temos 1º quartil 2º quartil e 3º quartil CRESPO 2009 Esta representação encontrase na Figura 4 a seguir 108 Assim como pode observar na Figura 5 segundo Crespo 2009 temos os três quartis Descrição da Imagem a figura traz a representação dos quartis onde se encontram Três Quartis De cima para baixo vem o primeiro Quartil Q1 que apresenta 25 dos dados menores e 75 maiores logo abaixo vem o segundo Quartil Q2 onde temos 50 dos dados menores e 50 maiores é a medida que coincide com a mediana e no último e terceiro Quartil Q3 temos 75 dos dados menores e 25 maiores Figura 4 Representação dos quartis Fonte o autor Descrição da Imagem a figu ra apresenta os Três Quartis De cima para baixo vem o pri meiro Quartil Q1 que apre senta 25 dos dados menores e 75 maiores logo abaixo vem o segundo Quartil Q2 onde temos 50 dos dados menores e 50 maiores é a medida que coincide com a mediana e no último e ter ceiro Quartil Q3 temos 75 dos dados menores e 25 maiores Figura 5 Três Quartis Fonte Crespo 2009 Primeiro Quartil Q1 temos 25 dos dados menores e 75 maiores Segundo Quartil Q2 temos 50 dos dados menores e 50 maiores é a medida que coincide com a mediana Terceiro Quartil Q3 temos 75 dos dados menores e 25 maiores Para calcular é bem simples basta organizar a série de dados em rol e utilizar as equações a seguir 1º Quartil Q1 2º Quartil Q2 3º Quartil Q3 Por exemplo calcularemos Q1 Q2 e Q3 para um grupo que tem idades de oito pessoas 38 40 49 67 33 57 54 e 64 UNICESUMAR Primeiro passo colocar os dados em rol 33 38 40 49 54 57 64 67 a 1º Quartil Q1 P 025n1 P 0258 1 P 0259 P 225 Neste caso o Q1 será uma média simples entre 2º e 3º elemento Q1 38 40 2 Q1 78 2 Q1 39 b 2º Quartil Q2 P 050n1 P 0508 1 P 0509 P 45 Neste caso o Q2 será uma média simples entre 4º e 5º elemento Q2 49 54 2 Q1 103 2 Q1 515 c 3º Quartil Q3 P 075n1 P 0758 1 P 0759 P 675 Neste caso o Q3 será uma média simples entre 6º e 7º elemento Q3 57 64 2 Q1 121 2 Q1 605 Outra medida separatriz é o decil Este divide uma série em dez partes iguais CRESPO 2009 As equações para calcular estão apresentadas a seguir 1º Decil D1 P 010n 1 2º Decil Q2 P 020n 1 3º Decil Q3 P 030n 1 4º Decil Q4 P 040n 1 5º Decil Q5 P 050n 1 6º Decil Q6 P 060n 1 7º Decil Q7 P 070n 1 8º Decil Q8 P 080n 1 9º Decil Q9 P 090n 1 Por exemplo calcular D3 e D4 e para um grupo que tem idades de oito pessoas 38 40 49 67 33 57 54 e 64 Primeiro passo colocar os dados em rol 33 38 40 49 54 57 64 67 3º Decil D3 P 030n 1 P 030n 1 P 0308 1 P 0309 P 27 O 3º decil será o elemento que ocupa a posição 27 arredondando para 3º assim nosso terceiro decil é igual a 40 4º Quartil Q4 P 040n 1 P 0408 1 P 0409 P 36 112 Não podemos interpretar as medidas de tendência central isoladamente Para verificar se as medidas de variabilidade representam bem os dados precisamos calcular e analisar as medidas de variabilidade E Z Martinez Além das medidas separatrizes temos as medidas de dispersão que são importantes no processo decisório Com as medidas de dispersão e variabilidade é possível entender a homogeneidade ou a heterogeneidade dos dados PARENTI SILVA SILVEIRA 2017 As medidas de dispersão são avaliadas em conjunto com as medidas de tendência central Com as medidas de dispersão podemos analisar como os dados estão se comportando em torno da média da moda e da mediana É importante salientar que apesar de dois conjuntos de dados terem a mesma média eles podem não ter o mesmo compor tamento e a mesma variabilidade para isso é importante analisar os dados e fazer estas comparações para entender o comportamento dos dados Vejamos outro exemplo Seja a estatura em cm observada em duas amostras de adolescentes saudáveis denotaremos essas amostras por A e B As estaturas dos adolescentes da amostra A são 149 156 157 158 159 160 161 164 Ao calcular a média da amostra A e B ambas são 158 cm As medianas de ambas as amostras A e B são iguais a 1585 Assim as amostras A e B possuem médias e medianas idênticas Mas o fato de as amostras A e B possuírem medidas de posição iguais média e mediana permitenos afirmar que adolescentes das amostras A e B são semelhantes em relação à estatura Vejamos a Figura 6 que apre senta o grupo A e B UNICESUMAR O 4º decil será o elemento que ocupa a posição 36 arredondando para 4º assim nosso quarto decil é igual a 49 Como percentil temos como definição os noventa e nove valores que separarão uma série de dados em cem partes iguais CRESPO 2009 Pode ser calculado por meio das equações a seguir 5º Percentil P5 P 005n 1 25º Percentil P25 P 025n 1 50º Percentil P50 P 050n 1 75º Percentil P75 P 075n 1 90º Percentil P90 P 090n 1 Por exemplo calcular P50 e P75 e para um grupo que tem idades de oito pessoas 38 40 49 67 33 57 54 e 64 Primeiro passo colocar os dados em rol 33 38 40 49 54 57 64 67 50º Percentil P50 P 050n 1 P 0508 1 P 0509 P 45 Portanto o P50 é igual ao elemento que está na 45ª posição portanto uma média simples entre 49 e 54 49 54 2 103 2 51 5 75º Percentil P75 P 075n 1 P 075n 1 P 0758 1 P 0759 P 675 Portanto o P75 é igual ao elemento que está na 675ª posição portanto uma média simples entre 57 e 64 57 64 2 121 2 60 5 Por exemplo temos oito pessoas cujas idades são apresentadas a seguir 38 40 49 67 33 57 54 e 64 A pessoa mais velha tem 64 anos e a mais nova 33 anos A amplitude amostral é portanto AT Xmáx Xmín AT 64 33 AT 31 Podemos interpretar a AT como sendo a maior diferença que é possível encontrar entre duas quaisquer observações de nossa amostra MARTINEZ 2015 Assim a AT deve ser utilizada com certa cautela para descrever a amplitude de nossos dados dado que ela é fortemente influenciada por valores atípicos sendo não recomendado seu uso sozinha para interpretação de variabilidade dos dados Outra medida de dispersão é a variância calculada com todos os dados da série e comparada cada um deles com a média A variância mede a distância de cada um dos valores em relação à média MARTINEZ 2015 Por uma questão matemática precisamos elevar ao quadrado cada uma dessas distâncias para podermos eliminar o sinal Depois disso fazemos a média dos quadrados destas diferenças Lembrese de que não teremos variância negativa certo Caso a variância esteja sendo calculada para os dados de uma população representaremos este valor pela letra grega sigma ao quadrado σ² Em vez de dividirmos por n1 dividimos o somatório por N sendo que n é o número de elementos da amostra e N é o número de elementos da população A variância populacional e amostral é calculada por a Variância Populacional σ² Xi μ² N Em que σ² Variância Populacional Xi Cada valorelemento μ média populacional N Número de elementos Somatória b Variância Amostral S² Xi X² n 1 Em que S² Variância Amostral Xi Cada valorelemento X média amostral n 1 Número de elementos menos 1 Somatória Como você pode observar a única diferença na prática do cálculo da variância populacional e amostral é que na variância amostral tiraremos um elemento na hora de fazer a divisão É válido lembrar que na maioria das situações utilizamos amostras por questão de custo da forma de coletar entre outros Entenderá na prática Temos oito pessoas cujas idades são apresentadas a seguir 38 40 49 67 33 57 54 e 64 Determinaremos a variância amostral Lembrando que precisaremos da média para calcular a variância a A média amostral X Xi n X 38 40 49 67 33 57 54 64 8 X 402 8 5025 Agora que relembramos a média calcularemos a variância amostral substituindo os valores na equação S² Xi X² n 1 S² 38 5025² 40 5025² 49 5025² 67 5025² 33 5025² 57 5025² 54 5025² 64 5025² 8 1 S² 1225² 1025² 125² 1675² 1725² 675² 375² 1375² 7 S² 15006 10506 156 28056 29756 4556 1406 18906 7 S² 108348 7 S² 15478 Figura 6 Grupo A e B Fonte o autor Descrição da Imagem a figura faz a representação do Grupo A e B Nestas duas imagens apresentase o grupo A com valores distribuídos na reta em 149 156 157 158 159 160 161 164 e a média representando 158 no grupo A a figura apresenta os pontos dados mais próximos da média já o grupo B com valores distribuídos na reta em 132 138 152 157 160 171 176 178 no grupo B a figura traz os pontos mais distantes ou seja mais dispersos da média que é igual a 158 Na Figura 6 podemos observar as dispersões destas observações Percebemos que embora as medidas de locação sejam iguais as amostras têm diferença quanto à dispersão dos dados Na amostra A as observações possuem uma dispersão menor em relação à média de 158 cm já na amostra B as observações encontramse mais dispersas em relação a mesma média amostral Se dissermos somente que a média das estaturas é de 158 cm estaremos dizendo que nossas observações amostrais flutuam em torno de 158 cm mas não temos informação do tamanho da dispersão dos dados em relação a essa média Com isso podemos evidenciar que as medidas de posição média moda e mediana muitas vezes dão um resumo incompleto do comportamento de nossos dados uma vez que elas não nos dizem nada a respeito da dispersão dos dados Assim tornase tão importante a apresentação de medidas de variabilidade dos dados Vamos conhecer estas medidas de dispersão Iniciamos pela Amplitude total de acordo com Martinez 2015 a amplitude é dada pela distância entre o maior valor do conjunto de dados pelo menor valor do conjunto de dados Assim a amplitude total só leva em consideração os extremos não chega a comparar os valores da distribuição com a média destes dados É calculada pela equação a seguir AT Xmáx Xmín Em que AT Amplitude total Xmáx Maior valor do conjunto de dados Xmín Menor valor do conjunto de dados Como você pode observar a variância calcula a soma dos quadrados das distâncias em relação à média Como elevamos todos os termos ao quadrado a nossa unidade de medida também fica alterada Se por exemplo estivermos calculando a variância da altura de alunos do curso de Ciências Biológicas e a medida está em cm todos os elementos determinados estarão em cm2 Sendo assim nós não podemos comparar a variância diretamente com a média ou com outras medidas pois precisaremos extrair a raiz da variância e a isso denominamos desvio padrão Como desvio padrão é a raiz quadrada da variância calculamos pela equação a seguir a Desvio padrão populacional σ σ² Em que σ desvio padrão Populacional σ² variância populacional b Desvio padrão amostral S S² Em que S desvio padrão amostral S² variância amostral Determinando o desvio padrão do exercício anterior temos S S² S 15478 S 1244 A variabilidade entre as idades do grupo analisado é de 1244 anos Se quisermos comparar a variabilidade de duas ou mais amostras ou populações para Parenti Silva e Silveira 2017 podemos fazer esta comparação somente com o uso do desvio padrão Mas podemos comparar utilizando o coeficiente de variação que nos dará em percentual a variabilidade dos dados determinado por a Coeficiente de variação populacional CV σ μ100 Em que CV Coeficiente de variação σ desvio padrão populacional μ média populacional b Coeficiente de variação amostral CV S X100 CV Coeficiente de variação S desvio padrão amostral X média amostral Determinando o CV amostral do exercício anterior temos CV S X100 CV 1244 5025100 CV 02475100 CV 2475 Quando utilizado o coeficiente de variação sempre que quisermos descobrir qual grupo de dados é mais homogêneo ou seja que tem menor variabilidade em torno da média optaremos pelo grupo que tiver o menor percentual do coeficiente de variação pois se o CV for muito elevado pode ser que a média não seja melhor medida para representar os dados devido à variabilidade em torno dela MARTINEZ 2015 Supondo que no curso de Ciências Biológicas a média da turma A na disciplina de Bioestatística é 65 e o desvio padrão 12 e na turma B a média é de 68 e o desvio padrão é de 20 qual das duas turmas tem menor variabilidade dos dados Determine por meio do Coeficiente de variação Para resolução basta observar que já temos a média calculada e o desvio padrão também é simplesmente calcularmos o CV Para turma A temos CV S X100 CV 12 65100 CV 01846100 CV 1846 Já para turma B temos CV S X100 CV 20 68100 CV 02941100 CV 2941 Portanto a turma que tem uma variabilidade menor é a turma A em que o CV foi de 1846 118 OLHAR CONCEITUAL Observe um resumo dos cinco passos para o Cálculo do Coeficiente de Variação Seguindo este passo a passo temos o exemplo na Figura 7 Figura 7 Passos para cálculo do coeficiente de variação Fonte o autor Descrição da Imagem na figura apresentamse os cinco passos para cálculo do coeficiente de variação Apresentamos uma sequência desses passos No primeiro passo temos o cálculo da média no segundo passo a determinação do cálculo da variância o terceiro passo o cálculo do desvio padrão no quarto passo temos o cálculo do coeficiente de variação e no quinto passo interpretamos o resultado conjunto de dados homogêneos ou heterogêneos 1 Calcular a média 2 Determinar a variância 3 Calcular desvio padrão 4 Calcular coefciente de variação 5 Interpretar conjunto de dados homogêneos ou heterogêneos UNICESUMAR Também podemos ter interesse em calcular variância desvio padrão em dados que aparecem em tabelas de frequências Vejamos a seguir a Cálculo das medidas de variabilidade em tabelas de frequências sem intervalo de classes as notas de 30 alunos do curso de Ciências Biológicas estão apresentadas na distribuição de frequências a seguir Tabela 14 Notas de 30 alunos do Curso de Ciências Biológicas Nota Número de alunos 70 8 80 12 90 6 100 4 Total 30 Fonte o autor O primeiro passo é sabermos a média antes de calcular a variância amostral para isso temos X Σ Xi fi n X 78 812 96 104 30 X 56 96 54 40 30 X 246 30 X 82 Agora que já sabemos a média utilizaremos a equação a seguir S² Σ Xi X² fi n 1 Em que S² Variância Amostral Xi Cada valorelemento X média amostral n 1 Número de elementos menos 1 Σ Somatória Fi frequência Para facilitar nosso cálculo abriremos uma coluna a mais em nossa distribuição de frequência e inseriremos o numerador da equação da variância conforme Tabela 15 Tabela 15 Notas de 30 alunos do Curso de Ciências Biológicas Nota Número de alunos Xᵢ X²fi 70 8 70 82² 8 1152 80 12 80 82² 12 048 90 6 90 82² 6 384 100 4 100 82² 4 1296 Total 30 283 Fonte o autor Com os dados da somatória de Xi X2 fi substituiremos na equação S² Xᵢ X²fin1 Agora que temos o resultado e substituindo o valor 283 encontrado na tabela por meio da coluna Xi X2fi temos S² 283301 S² 28329 S² 09759 Com o resultado da variância conseguimos calcular o desvio padrão S S² S 09759 S 09878 Podemos calcular o coeficiente de variação CV SX 100 CV 0987882 100 CV 01205 100 CV 1205 b Cálculo das medidas de variabilidade em tabelas de frequências com intervalo de classes As notas dos alunos de uma turma de Ciências Biológicas estão apresentadas na tabela a seguir Determine o CV Tabela 16 Distribuição de frequências referente às notas de alunos do Curso de Ciências Biológicas com intervalo de classes Notas Número de alunos Fi Ponto médio xi 30 44 5 30 44 2 37 44 58 2 44 58 2 51 58 72 11 58 72 2 65 72 86 6 72 86 2 79 86 100 6 86 100 2 93 Total 30 Fonte o autor Para isso calcularemos na sequência 1 Média amostral 2 Variância amostral 3 Desvio padrão amoral 4 Coeficiente de variação Iniciaremos calculando a variância amostral Assim para o seu cálculo a equação utilizada para tabelas sem ou com intervalo de classes é a mesma que acabamos de ver A única diferença na prática é que em uma distribuição de frequências com intervalo de classes nosso Xi será o ponto médio e não simplesmente a variável estudada Lembrese de que o ponto médio é fundamental para se calcular a média desse tipo de distribuição de frequência Calculando a média amostral temos Tabela 17 Distribuição de frequências referente às notas de alunos do Curso de Ciências Biológicas com intervalo de classes Notas Número de alunos Fi Ponto médio xi FiXi 30 44 5 30 44 2 37 537 185 44 58 2 44 58 2 51 251 102 58 72 11 58 72 2 65 1165 715 72 86 6 72 86 2 79 679 474 86 100 6 86 100 2 93 693 558 Total 30 2034 Fonte o autor Determinando a média temos X Xᵢfi n X 2034 30 X 678 Arredondando temos que a média da turma de Ciências Biológicas é de 68 Com o resultado da média vamos reescrever a tabela para determinar a variância amostral para utilizar a equação a seguir S² Xᵢ X²fi n1 Com a tabela ajustada temos Tabela 18 Distribuição de frequências referente às notas de alunos do curso de Ciências Biológicas com intervalo de classes Notas Número de alunos Fi Ponto médio xi Xi X²fi 30 44 5 37 37 68²5 4805 44 58 2 51 51 68²2 578 58 72 11 65 65 68²11 099 72 86 6 79 79 68²6 726 86 100 6 93 93 68²6 375 Total 30 9958 Fonte o autor Agora que calculamos a variância na tabela é só substituir na equação S² ΣXi X²fi n 1 Substituindo na equação pelos valores encontrados na Tabela 18 temos S² 9958 30 1 S² 9958 29 S² 3434 Logo após determinaremos o desvio padrão S S² S 3434 S 586 Agora com o desvio padrão podemos calcular o CV CV S X 100 CV 586 68 100 CV 08671 100 CV 8671 124 Você sabia que um profissional da Saúde também pode ser um pesqui sador Pode pesquisar na área de meio ambiente saúde laboratorial e é vasto o campo para esse profissional Nossa Roda de Conversa trará como as medidas de posição e dispersão podem ajudar na interpreta ção de resultados em uma pesquisa Assista e replique em sala de aula Vamos lá No caso desta turma com um coeficiente de variação de 8671 podemos concluir que há uma dis persão muito grande das notas e que a média pode não ser a medida ideal para interpretar estes dados Mas quando olhamos para os dados com mais cautela temos alunos que tiraram 30 40 50 10 E o que isso quer dizer Como conclusão temos que essa turma apresenta uma grande dispersão no quesito nota porque o resultado encontrado de 8671 é superior a 50 Isso quer dizer que existem alunos que estão indo bem na disciplina mas também existem alunos que não estão aprendendo Assim podemos refletir com tanta dispersão o que posso melhorar para que todos tenham um aprendizado As medidas de dispersão podem ajudar neste caminho Agora que temos os dados em mãos podemos trabalhar para melhorar a maneira de ensinar nesta turma Caroa estudante finalizamos esta unidade com preendendo o processo pelo qual as medidas de posição as separatrizes e a dispersão podem ajudar a trabalhar melhor com os dados e auxiliar no pro cesso decisório Como profissionais da saúde temos que ter a consciência da importância da Bioestatís tica pois como vimos ela traz a preocupação de entender como os dados podem trazer indicativos para um professor em sala de aula A partir das medidas de posição você conseguirá trabalhar com seus dados entendendo o comporta mento dos mesmos e com as medidas de dispersão como você percebeu conseguimos entender se a mé dia é representativa ou não para o conjunto de da dos Dentro da Bioestatística você poderá observar os resultados de sua pesquisa sendo uma ferramenta essencial para a tomada de decisões e que estará presente no seu futuro profissional UNICESUMAR 125 1 Um profissional da área da saúde que atua em um laboratório fará uma compra de um com ponente específico de para uma análise laboratorial para isso fez uma pesquisa com dois fornecedores diferentes Para comparar o nível de impurezas presentes nas compras feitas aos dois fornecedores o profissional solicitou a medição de porcentagem de impurezas presentes em cada um dos grupos obtendo o que segue resultado Fornecedor A 18 25 15 12 10 Fornecedor B 16 25 12 23 15 Para saber qual dos fornecedores traz mais impurezas o profissional utilizou uma medida que estudou na disciplina de Bioestatística o coeficiente de variação Os resultados do CV foram 37 para o fornecedor A e 30 para o fornecedor B Mediante os resultados obtidos analise as afirmativas a seguir I O fornecedor A apresenta uma maior dispersão por isso terá a preferência de compra pelo profissional II O fornecedor B apresenta uma menor dispersão de impureza por isso é mais uniforme às impurezas III Por meio do coeficiente de variação conseguimos medir qual dos fornecedores traz uma menor impureza e isso pode influenciar na aquisição do material É correto o que se afirma em a I apenas b I e II apenas c I e III apenas d II e III apenas e I II e III 126 Considerando esta informação a mediana é igual a a 12 b 32 c 49 d 55 e 67 3 Um Biólogo fez pesquisa em site de uma revista e perguntou sobre as áreas da biologia de que os profissionais mais gostavam Os participantes eram internautas e responderam vo luntariamente a pergunta As respostas estão apresentadas na Tabela a seguir Áreas Número de respostas Educação Ambiental 24 Anatomia 23 Botânica 10 Fisiologia 7 Bioquímica 36 Total 100 Tabela 2 Áreas da Biologia Fonte o autor Tempo dias Nº de análises Fi Fac 4 6 20 20 6 8 3 23 8 10 7 30 Total 30 Tabela 1 Duração de análises de água Fonte o autor 2 A tabela a seguir apresenta o tempo de duração em dias para se realizar análises de água Os laboratórios estão credenciados em uma cidade no estado do Paraná 127 Com base nesta pesquisa a área da Biologia que representa a moda é a Educação Ambiental b Anatomia c Botânica d Fisiologia e Bioquímica Notas Frequência Fi 4 1 5 1 6 3 8 12 9 3 Total 20 Tabela 3 Nota dos 20 estudantes na disciplina de Estatística Fonte o autor 4 As notas obtidas por 20 alunos do curso de Ciências Biológicas na disciplina de Bioestatística estão apresentadas na Tabela a seguir Diante destas informações a média dessa turma foi igual a a 59 b 67 c 75 d 79 e 83 128 Grau de satisfação dos moradores Frequência Fi Muito insatisfeito 12 Insatisfeito 45 Satisfeito 173 Bastante Satisfeito 170 Total 400 Tabela 4 Satisfação dos moradores junto ao projeto Fonte o autor A classe modal da pesquisa de moradores consiste na a Primeira classe b Segunda classe c Terceira classe d Quarta classe e O conjunto de dados é amodal 5 Depois de realizar as coletas de dados as ações preventivas foram feitas e para finalizar seu relatório o professor fez uma pesquisa com 400 moradores de um bairro com o objetivo de saber o grau de satisfação dos moradores com o resultado do trabalho dele e de seus alunos Os resultados estão apresentados na tabela a seguir 5 Olá alunoa esta unidade é bem importante para nossa disciplina de Bioestatística as probabilidades Por meio dela você terá opor tunidade de entender como as probabilidades podem ajudar em ex perimentos em resultados e em possíveis situações que envolvam as incertezas Aprenderá também a trabalhar com conceitos de probabilidades suas propriedades as distribuições de probabili dades discretas e as contínuas Probabilidades Me Renata Cristina de Souza Chatalovv 130 Ao iniciar a leitura deste material você pode já se perguntar por que estudar probabilidades Relembrarei experimentos simples como o lançamento de dados Quando se estuda epi demiologia como se faz todas aquelas proje ções Sem contar os possíveis cenários frente à eficácia de vacinas contra o Corona vírus Esse cenário incerto tem a ver com a teoria das probabilidades A teoria das probabilidades ajudará você a entender o comportamento de fenômenos como trabalhar com experimentos e como identificar uma variável aleatória bem como entender teoricamente como funcionam as distribuições de probabilidades E quando você estudar as situações problemas verá que faz parte do seu dia a dia Assim convido você a fazer a leitura do artigo intitulado Probabilidade de queimadas e incêndios florestais nas áreas protegidas da América do Sul ANDERSON et al 2020 Esse artigo traz um relatório que identifica áreas prioritárias com alta probabilidade de ameaça de queimadas e incêndios florestais durante o período de agosto a outubro de 2020 a fim de apoiar as tomadas de decisão e as estratégias de planejamento para mitigar o risco e os impactos destes eventos que podem influenciar a área da saúde da população ao entorno Acesse o qrcode UNICESUMAR UNIDADE 5 131 Depois da leitura e do entendimento do artigo faça um levantamento mais aprofundado de repor tagens e artigos que tragam situações envolvendo probabilidades estudos epidemiológicos Faça um compilado e comece a identificar que as probabilidades ajudarão na interpretação e nos entendimentos em eventos envolvendo incertezas Diante disso convido você acadêmico da área da saúde a fazer suas anotações no Diário de Bordo escreva os resultados de sua pesquisa anote suas primeiras impressões até o momento Este espaço é seu 132 Várias situações do nosso dia a dia são determina das pelo acaso em que podemos configurar situa ções que podem ser acontecimentos qualificados como sorte ou azar Supondo que você tem uma prova de Bioestatística marcada para amanhã você estudou e está preparado Então chega para fazer a prova e se depara com duas situações a prova acontecerá normalmente situação favo rável ou a prova não acontecerá por um moti vo qualquer situação não favorável Neste caso duas características são comuns a essas situações mencionadas Primeira qualquer uma delas pode acon tecer ou não assim não pode ser previsto com certeza Segunda pode acontecer certo número de vezes ou seja pode acontecer um número x de vezes ao longo do tempo Dessa maneira situações de incerteza as quais embora não se saiba o que efetivamente ocor rerá podese listar quais são os resultados possí veis por exemplo o nascimento de um bebê ele pode ser um menino ou uma menina Também temos uma ideia razoável da frequência repeti ção com que cada resultado acontece ou seja os nascimentos do sexo masculino e feminino são quase igualmente frequentes na espécie humana MARTINEZ 2015 Essas situações são chama das de ensaio probabilístico ou ensaio aleatório Assim quando fazemos um experimento reali zamos sob determinada condição com o objetivo de analisar os resultados Os experimentos podem ser classificados em UNICESUMAR UNIDADE 5 133 Experimentos determinísticos tratase de experimentos que quando são repeti dos sob as mesmas condições trazem os mesmos resultados CRESPO 2009 Por exemplo ao misturar água e óleo a água fi cará embaixo e o óleo em cima Figura 1 Descrição da Imagem a figura apresenta um copo de vidro com água na parte inferior e óleo na parte superior em que água e óleo não se misturam Descrição da Imagem a figura apresenta cinco dados para representar o experimento não determinístico O primeiro dado está com a face seis para cima o segundo com a face quatro o terceiro inclinado em que conseguimos ver as faces um e dois o quarto dado com a face dois para cima e o que está ainda sob a mão com a face seis para cima Figura 1 Água e óleo Figura 2 Dados Experimentos não determinísticos ou aleatórios tratase de experimentos que podem trazer resultados diferentes quando fazemos as mesmas repetições CRESPO 2009 por exemplo lançando um dado para cima ao cair sob a superfície os resul tados possíveis serão 1 2 3 4 5 ou 6 mas só sabemos os resultados após lançarmos o dado e visualizarmos qual número apa receu Figura 2 Como você pode observar no experimento determinístico temos o mesmo resultado nas condições na qual ele é realizado Enquanto nos experimentos não determinísticos ou aleatórios temos a incerteza dos resultados Assim a teoria das probabilidades é voltada ao estudo desses experimentos Para entendermos o cálculo das probabilidades precisamos conhecer algumas definições importantes a saber 134 a Espaço amostral referese a todos os resultados possíveis de um experimento é representado por Ω Por exemplo lançamento de uma moeda o espaço amostral é dado por Ω cara coroa Isto é igual a dois possíveis resultados Enquanto o exemplo lançamento de um dado o espaço amostral é dado por Ω 1 2 3 4 5 6 Isto é igual a seis possíveis resultados Já no experimento lançamento de dois dados o espaço amostral é dado por Ω 11 12 13 14 15 16 21 22 23 24 25 26 31 32 33 34 35 36 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66 Ω 36 Isto é igual a 36 possíveis resultados Uma observação importante a fazer é que se você pesquisar outras obras alguns autores denotam o espaço amostral pela letra S maiúscula b Evento supondo que temos uma moeda e a lançaremos no ar observaremos a face que ficará para cima Não temos certeza do resultado mas sabemos o possível cara ou coroa Assim evento é definido como sendo um resultado ou um subconjunto de um experimento e é representado por letras maiúsculas A cara B coroa c Evento Impossível ao lançarmos um dado sabemos que o resultado não será a face 7 por tanto chamamos de evento impossível representado pelo subconjunto vazio denotado por Ø A probabilidade é uma medida da chance de um evento ocorrer Se denotarmos um evento por A denotaremos por PA a probabilidade de A ocorrer Segundo Martinez 2015 p 130 Por volta do ano de 1930 Andrei Nikolaevich Kolmogorov 19031987 estabeleceu três regras bastante formais que definem a probabilidade Essas regras são conhecidas como os axiomas de Kolmogorov UNICESUMAR Vejamos um exemplo determine a probabilidade de lançar um dado e o resultado ser o número 2 Para facilitar nossa resolução e como uma dica primeiro interpretaremos no exercício qual o espaço amostral Neste caso como espaço amostral que significa todos os resultados possíveis de um experimento temos Ω 1 2 3 4 5 6 São seis possíveis resultados no lançamento de um dado e este valor ficará em nosso denominador na equação Para interpretar a probabilidade de A isto é o número de possibilidades em que ocorre o evento A ou seja o evento que estamos desejando saber voltamos à pergunta inicial resultado ser o número 2 Quantas ocorrências vezes o número 2 aparece no lançamento de um dado Apenas uma Agora voltando à equação temos PA 16 Em que Evento A 1 vez Ω 6 resultados possíveis Também podemos escrever as probabilidades em percentual para isso basta dividir o numerador pelo denominador e o resultado obtido multiplicar por cem Podemos observar esta resolução a seguir 1 6 01667 01667 100 1667 Nas probabilidades também temos eventos que podem ocorrer conjuntamente então usamos a regra da adição A união entre os eventos A e B pertencentes a um mesmo espaço amostral Ω referese a todos os resultados que pertencem a A ou B É denotada por Aqui na regra da adição temos a união entre A e B assim a palavra que identificaremos a ocorrência desse tipo de evento nas probabilidades é a palavra ou Vejamos um exemplo Qual a probabilidade de lançarmos um dado e sair a face 1 ou 2 Observe que a palavra ou referese a um evento de adição No entanto temos dois tipos de eventos a saber a Eventos Mutuamente Excludentes ou Eventos Mutuamente Excludentes neste caso são eventos que não ocorrem em conjunto ou seja a ocorrência de A ou B não há como ocorrer A e B ao mesmo tempo Isso é dado pela equação PA B PA PB Dessa forma as regras das probabilidades são a Uma probabilidade é sempre maior ou igual a zero b Uma probabilidade é sempre menor ou igual a 1 Assim de a e b temos 0 PA 1 c A probabilidade associada a um evento impossível é sempre zero mencionada anteriormente d A probabilidade de um evento não ocorrer é 1 menos a probabilidade de ele ocorrer Se por exemplo a probabilidade de chuva no próximo sábado for igual a 08 a probabilidade de não chover no próximo sábado é de 02 Lembrando que a não ocorrência do evento A é denotada por AC o complemento de A podemos então escrever PAC 1 PA Em que AC Evento complementar PA Probabilidade de A Assim para Arango 2011 o conceito de probabilidade está relacionado a eventos futuros ou que ainda não tenham ocorrido De uma forma geral a característica comum em relação ao futuro é a incerteza de maneira que a probabilidade pode ser entendida também como uma medida de incerteza em relação ao evento Agora que definimos as probabilidades podemos ter uma ideia de avaliação ou medição das possibilidades de determinado acontecimento Existem duas formas pelas quais estas avaliações podem ser feitas 1 Pela observação e conhecimento completo dos fatores que influenciam o fato ou evento aqui implica definir todos os fatores que poderiam afetar o resultado esta forma está relacionada a situações particulares como os jogos 2 Pela observação do comportamento passado do evento e das circunstâncias nas quais ocorreu aqui tratase de trabalhar com o conceito de frequência relativa Fr na qual essa probabilidade está relacionada à verdadeira ocorrência de um fenômeno aqui pode ser aplicada aos problemas do mundo real especificamente as áreas da medicina ciências biológicas entre outras A definição clássica de probabilidade utilizando uma equação é PA número de possibilidades de ocorrência do evento A espaço amostral Ω Em que Ω todos os resultados possíveis espaço amostral Em que PA B Probabilidade de A união B soma PA Probabilidade de ocorrer o evento A PB Probabilidade de ocorrer o evento B Podemos observar esta união na Figura 3 A B A Figura 3 apresentanos dois conjuntos A e B em que não há interseção ou seja não temos elementos em comum É assim que temos um evento não mutuamente excludente Veja por exemplo Qual a probabilidade de ao lançarmos um dado sair a face 1 ou 2 Para resolução temos PA B PA PB PA B 16 16 26 É bem simples trabalhar com a soma de frações que tem o mesmo denominador basta repetir o denominador e somar o numerador Para entender melhor observe a Figura 4 1 2 Na Figura 4 o evento A é igual a 1 enquanto o evento B é igual a 2 Quando lançamos um dado é possível sair a face 1 e 2 ao mesmo tempo Não por isso esse evento é mutuamente excludente quando um evento ocorrer não há chances de o outro ocorrer também b Eventos Não Mutuamente Excludentes ou Eventos Não Mutuamente Excludentes nesse caso são eventos que ocorrem em conjunto ou seja há a ocorrência de A ou B aqui temos a interseção entre os eventos A e B pertencentes a um mesmo espaço amostral Ω que se refere a todos os resultados que pertencem simultaneamente a A e B O que muda nesse tipo de evento Continuase a regra da adição sendo a palavra ou que nos identifica nas situações mas temos um momento que A e B ocorrem ao mesmo tempo sendo representadas pela equação PA B PA PB PA B Em que PA B Probabilidade de A união B soma PA Probabilidade de ocorrer o evento A PB Probabilidade de ocorrer o evento B PA B interseção entre A e B momento que ocorrem ao mesmo tempo Podemos observar esse tipo de evento na Figura 5 A PA B B Por exemplo se temos um baralho com 52 cartas qual a probabilidade de sair um às ou uma carta de ouros Para resolução vamos chamar de evento A sair um às e evento B uma carta de ouros Já podemos observar no nosso enunciado que já nos foi dado o espaço amostral ou seja todos os possíveis resultados que é o baralho de 52 cartas UNIDADE 5 139 a evento A sair um ÁS em um baralho comum temos quatro ases 01 de ouro 01 de copas 01 de espadas e 01 de paus Figura 6 Descrição da Imagem a figura apresenta uma mão segurando os 4 Ases de um baralho da direita para esquerda Ás de copas Ás de paus Ás de ouro e Ás de espadas Figura 6 Ases de um baralho b B uma carta de ouros em um baralho comum temos 13 cartas de ouros Figura 7 Descrição da Imagem a figura apresenta uma mão segurando as 13 cartas de ouros sendo da direita para esquer da reis dama valete 10 9 8 7 6 5 4 3 2 e o Ás Figura 7 Cartas de ouros em um baralho comum Agora podemos observar que os eventos A e B tem um elemento em comum ou seja aparece tanto no evento A quanto no evento B que é a carta Ás Assim temos um exemplo de inserção Resolvendo o exercício temos PA B PA PB PA B PA B 452 1352 152 1652 Para a resolução somarsubtrair duas ou mais frações com o mesmo denominador basta repetir o denominador e somarsubtrair o numerador Nesse caso fazemos a operação soma ou subtração apenas no numerador Também podemos escrever o resultado em percentual para isso 1652 16 52 03077 03077100 3077 Você sabia que podemos apresentar os resultados obtidos das probabilidades de três maneiras Veja a seguir Valor fracionário quando fazemos um cálculo de probabilidade e o resultado obtido é uma fração por exemplo 25 sendo numerador na parte de cima e denominador da parte inferior da fração Valor numérico quando temos uma fração e em seguida fazemos a divisão desta fração ou seja dividimos o numerador pelo denominador por exemplo 25 2 5 04 Valor percentual depois que fazemos a divisão do numerador pelo denominador obtemos o valor numérico certo Com o resultado do valor numérico multiplicamos por 100 e temos o resultado em percentual por exemplo 040 100 40 Também temos a probabilidade condicional que se trata da probabilidade de ocorrência de um evento B que interfere na probabilidade de ocorrência de um evento A então dizemos que a probabilidade de A está condicionada à probabilidade de B e representamos por PAB Lêse probabilidade de A dado B AB significa a ocorrência do evento A sabendo que o evento B já ocorreu ou que a ocorrência de B esteja garantida os eventos A e B são dependentes É determinado pela equação a seguir PAB PA B PB Em que PA B Probabilidade de A dado B PA B Interseção entre A e B elemento que ocorre simultaneamente entre A e B PB Probabilidade de B Para se calcular uma probabilidade condicional no denominador se coloca o total de possíveis respostas da condição e no denominador coloque a quantidade de possíveis respostas favoráveis eventos dentro da condição Tatiana Marques da Silva Parenti Juliane Silveira Freire da Silva Jamur Silveira Por exemplo em uma comunidade 25 dos adultos são hipertensos 35 são diabéticos e 10 são hipertensos e diabéticos Se selecionarmos aleatoriamente um adulto desta comunidade a probabilidade de ele ser hipertenso é de 025 Por outro lado se partimos do conhecimento de que a pessoa selecionada é portadora de diabetes qual a probabilidade de ela ser hipertensa Esta pergunta referese a uma probabilidade condicional denotada por PA B Lêse o símbolo como dado que Dessa forma PA B referese à probabilidade de ocorrer o evento A dado que o evento B ocorreu ou seja entre o espaço amostral de B portadora de diabetes queremos encontrar o evento A probabilidade de também ser hipertensa Resolvendo o exercício temos PA B PA B PB PA B 010035 02857 Diagrama de Venn é uma forma de representar graficamente um conjunto para isso utilizamos uma linha fechada que não possui autointerseção e representamos os elementos do conjunto no interior dessa linha Podemos observar no Diagrama de Venn Figura 8 que sombreámos a região associada ao evento B considerando que partimos do conhecimento de que esse evento ocorreu A região sombreada na Figura 8 diabéticos e interseção corresponde a 35 dos adultos de toda a comunidade e consideramos que a pessoa selecionada é pertencente a esta parcela Entre esses 35 sabemos que 10 são hipertensos também Portanto a probabilidade de selecionarmos um indivíduo hipertenso entre aqueles que portam diabetes é 010 035 02857 Até agora estudamos as probabilidades clássicas eventos eventos mutuamente exclusivos não mutuamente exclusivos Podem acontecer algumas situações de termos tabelas e desejarmos encontrar as probabilidades Veja outro exemplo um professor do departamento de biológicas e da saúde fez uma pesquisa com uma turma de alunos para entender com qual disciplina eles tinham mais afinidades Os resultados podem ser observados na Tabela 1 a seguir Tabela 1 Disciplinas que os acadêmicos têm mais afinidade Disciplina Quantidade de Alunos Anatomia Humana 15 Fisiologia Humana 5 Ecologia 20 Biologia Celular e Molecular 15 Zoologia 10 Total 65 Fonte o autor De acordo com a Tabela 1 determinaremos as probabilidades a seguir Qual a probabilidade de selecionar um aluno aleatoriamente e a disciplina com que ele tem mais afinidade seja Ecologia Para a resolução é bem simples primeiro podemos observar que o espaço amostral Ω referese ao total de alunos que participaram da pesquisa ou seja todos os alunos da turma todos os resultados possíveis Agora observaremos na tabela a classe linha que se refere à Ecologia que é igual a 20 e usamos a equação a seguir PA número de possibilidades de ocorrência do evento A espaço amostral Ω PA 2065 03077 Qual a probabilidade de selecionar um aluno aleatoriamente e a disciplina com que ele tem mais afinidade seja Zoologia PA número de possibilidades de ocorrência do evento A espaço amostral Ω PA 1065 01538 É importante que você observe que em uma tabela simples de frequência utilizamos a equação da probabilidade clássica para resolução Dentro de tabelas também podemos ter outros tipos de probabilidades a serem encontradas Continuamos com exemplos para que você entenda melhor Uma instituição de ensino superior fez um levantamento de seus alunos matriculados em seus cursos os resultados estão apresentados a seguir Tabela 2 Tabela 2 Disciplinas que os acadêmicos têm mais afinidade Cursos Sexo Masculino Sexo Femino Total Administração 15 20 35 Ciências Biológicas 20 25 45 Gestão Ambiental 10 15 25 Total 45 60 105 Fonte o autor Com base nos dados apresentados determine as probabilidades Qual a probabilidade de selecionar aleatoriamente um aluno e ele cursar Ciências Biológicas PA número de possibilidades de ocorrência do evento A espaço amostral Ω PA 45105 04286 Qual a probabilidade de selecionar aleatoriamente um aluno e este cursar Ciências Biológicas ou ser do sexo masculino Para a resolução neste caso você pode observar que apareceu a palavra ou e quando temos essa palavra remetenos à adição de um evento É isso mesmo somaremos as probabilidades de um aluno de Ciências Biológicas ou ser do sexo masculino mas observe a marcação na Tabela 3 e veja que temos um elemento em comum Tabela 3 Disciplinas que os acadêmicos têm mais afinidade Cursos Sexo Masculino Sexo Femino Total Administração 15 20 35 Ciências Biológicas 20 25 45 Gestão Ambiental 10 15 25 Total 45 60 105 Fonte o autor Ao analisar a Tabela 3 podemos observar que existe um elemento comum ou seja um acadêmico que cursa Ciências Biológicas e é do sexo masculino ao mesmo tempo esse elemento é a interseção que ocorre simultaneamente Como temos a interseção a soma destes eventos será calculada por PA B PA PB PA B Em que PA aluno que cursa Ciências Biológicas PB aluno que é do sexo masculino PA B aluno que cursa Ciências Biológicas e é do sexo masculino ao mesmo tempo Substituindo na equação temos PA B PA PB PA B PA B 45105 45105 20105 70105 70105 06667 Dado que o aluno é do sexo masculino qual a probabilidade de cursar Ciências Biológicas Para a resolução quando temos dado que isso significa que estamos trabalhando com a probabilidade condicional ou seja antes da resolução estamos dando uma condição para a resolução Neste caso ao falarmos dado que é o aluno é do sexo masculino estamos reduzindo o espaço amostral de 105 para 45 porque não nos interessa mais o espaço amostral total nem as alunas do sexo feminino Observe as marcações na Tabela 4 Tabela 4 Disciplinas com que os acadêmicos têm mais afinidade Cursos Sexo Masculino Sexo Feminino Total Administração 15 20 35 Ciências Biológicas 20 25 45 Gestão Ambiental 10 15 25 Total 45 60 105 Fonte o autor Para resolução utilizaremos a equação a seguir PAB PA BPB Em que PA B Aluno que é do sexo masculino e cursa Ciências Biológicas PB Espaço amostral reduzido Substituindo na equação temos PAB PA BPB PAB 2045 04444 Um detalhe importante quando tivermos tabela de dupla entrada estas que foram apresentadas para resolução deste exercício teremos elementos em comum ou seja teremos interseção Outro evento que pode acontecer aqui nas probabilidades é a independência Um evento independente é definido por Arengo 2011 como Se A e B são eventos tais que a ocorrência de um não torna o outro mais provável ou menos provável dizse que esses eventos são independentes entre si p 112 Dois eventos são independentes quando a ocorrência ou a não ocorrência de um evento não afeta a probabilidade de ocorrer outro evento Isso quer dizer que a ocorrência de um evento não interfere na ocorrência de outro sendo PAB PB ou PBA PA Se A e B são eventos independentes a probabilidade de ocorrência de A e B será PA B PAPB Exemplo no lançamento de dois dados qual a probabilidade de sair 1 no primeiro dado e 3 no segundo dado Observe que temos a palavra e que nos remete à independência e também ao analisarmos o evento veja que o resultado que sair no primeiro dado não vai interferir no resultado do segundo dado Para resolução temos PA B PAPB PA B 16 16 136 0028 Para resolver a multiplicação entre frações basta multiplicar o numerador pelo numerador e denominador vezes denominador Observe que o espaço amostra ou seja o total de bolas na urna não altera a probabilidade da próxima retirada permanece o mesmo Outro exemplo utilizando a independência entre eventos seria a seguinte situação um estudante do curso de Ciências Biológicas tem a probabilidade de reprovação de 65 na disciplina Anatomia Humana e 50 de chances de reprovação na disciplina Biologia Celular e Molecular Qual a probabilidade deste estudante reprovar em ambas as disciplinas Veja que para resolução a palavra que nos remete à independência é ambas e ao analisarmos a situação deste aluno a disciplina de Anatomia Humana interfere no rendimento da disciplina de Biologia Celular e Molecular Portanto não uma disciplina não altera o desempenho da outra disciplina por isso esse evento é considerado independente Para resolução temos PA B PAPB Para utilizarmos a equação transformaremos os valores que foram dados em percentuais em valor numérico para isso temos 65 100 065 50 100 050 Agora substituindo na equação temos PA B 065050 0325 Dois eventos são dependentes quando a ocorrência ou a não ocorrência de um evento afeta a probabilidade de ocorrência do outro evento Aqui continuamos com a multiplicação a palavra e também São determinados por PAeB PBPA B ou PAPB A Os eventos independentes e dependentes são chamados de com e sem reposição respectivamente a reposição ou não é muito importante na interpretação da probabilidade temos Com reposição referese ao retorno do evento sorteado ao seu conjunto de origem com isso não temos alteração na probabilidade do evento seguinte Por exemplo uma urna tem 20 bolas brancas 10 bolas pretas e 10 bolas azuis Selecionando aleatoriamente duas bolas ao acaso com reposição qual a probabilidade de a primeira bola ser branca e a segunda ser preta PA B PAPB PA Primeira bola ser branca PB Segunda bola ser preta Ω Total de bolas na urna Temos PA B PAPB PA B 2040 1040 2001600 0125 Sem reposição referese ao não retorno do evento sorteado ou do seu conjunto de origem ou seja teremos alteração na probabilidade do evento seguinte Por exemplo uma urna tem 20 bolas brancas 10 bolas pretas e 10 bolas azuis Selecionando aleatoriamente duas bolas ao acaso com reposição qual a probabilidade de a primeira bola ser branca e a segunda ser preta PA B PAPB PA Primeira bola ser branca PB Segunda bola ser preta Ω Total de bolas na urna Temos PA B PAPB PA B 2040 1039 2001560 01282 Resumindo temos como regras básicas de probabilidades PA ou B para eventos não mutuamente excludentes PA B PA PB PA B Para eventos mutuamente excludentes PA B PA PB Para eventos independentes PA B PAPB Para eventos dependentes PAeB PBPA B ou PAPB A Também existem experimentos cujos resultados refletidos em uma variável aleatória seguem um comportamento previsível em relação às suas probabilidades de ocorrência e portanto podem ser modelados por uma equação específica A variável aleatória discreta é referente à contagem e uma variável aleatória contínua é referente a mensurações Dentre as principais distribuições discretas destacamse a Distribuição de Bernoulli Distribuição Binomial e Distribuição de Poisson Segundo Martinez 2015 a Distribuição de Bernoulli é um experimento aleatório em que os resultados são sempre classificados em apenas duas categorias como Um adulto de determinado grupo selecionado aleatoriamente se observarmos se ele é ou não portador de uma dada doença Se observarmos uma pessoa escolhida ao acaso se foi exposta ou não a um fator de risco para determinada doença Uma pessoa faz um teste para doença na qual o resultado é positivo ou negativo Ao selecionar uma pessoa verificarmos se ela é fumante ou não fumante Ao plantarmos uma semente de uma determinada espécie ela pode germinar ou não germinar Os resultados de uma Distribuição de Bernoulli são apresentados de maneira que a variável aleatória denotada por X que assume sempre valores 0 e 1 Resumindo nessa distribuição de probabilidades a variável aleatória assume apenas dois resultados possíveis sucesso evento acontece ou fracasso evento não acontece Por exemplo se selecionarmos aleatoriamente um adulto de determinada população ao verificar se ele é portador ou não portador de uma dada doença podemos atribuir valor 1 para variável portador da doença e zero caso seja não portador da doença Nosso espaço amostral é Ω portador da doença não portador da doença Denotaremos por p a probabilidade de o indivíduo escolhido ser portador da doença Temos então PX 1 p PX 0 1 p Em que P probabilidade de sucesso de o evento ocorrer Assim a probabilidade de um evento não ocorrer é 1 menos a probabilidade de ele ocorrer Consideraremos que a probabilidade de X assumir um valor que não é 0 ou 1 é igual a zero dado que esse evento seria de ocorrência impossível Assim podemos escrever de modo genérico a expressão PX x pˣ1 p¹ ᵖ se x é igual a 0 ou 1 PX x 0 caso contrário Para entendermos esta expressão lembramos que todo número real elevado a zero é igual a 1 e todo número real elevado a 1 é igual a ele próprio Uma variável aleatória X com estas características é chamada variável aleatória de Bernoulli Vejamos supondo que a taxa de prevalência de uma doença em determinada população é de 1 caso em cada 100 habitantes dessa forma ao selecionarmos aleatoriamente um habitante dessa população a probabilidade de esse indivíduo ser portador da doença é p 001 Ao atribuírmos à variável X o valor 1 se o indivíduo selecionado é portador da doença e 0 caso contrário temos PXxpx1p1p Considerando 0 zero a probabilidade de esta pessoa não ser portadora da doença substituindo na equação temos PX0p01p10 00100991 1099099 Agora considerando 1 um a probabilidade de esta pessoa ser portadora da doença substituindo na equação temos PXxpx1p1p PX1p11p11 00110990 0011001 Este conceito desta distribuição é bem útil para compreendermos a distribuição binomial bem aplicada em pesquisas da área de saúde Outra distribuição de probabilidade discreta e muito importante é a Distribuição Binomial Um experimento binomial é aquele que se refere em uma sequência de n ensaios idênticos e independentes Cada tentativa pode resultar em apenas dois resultados possíveis sucesso e fracasso e a probabilidade de sucesso é constante de uma tentativa para outra Em outras palavras o que pode ser um experimento binomial Uma planta germinar ou não lançar uma moeda com o resultado cara ou coroa uma cidade ter coleta seletiva ou não ter coleta seletiva entre outros Designando por X o número total de sucessos em n tentativas com probabilidade p de sucesso sendo 0 p 1 os possíveis valores de X são 0 1 2 n Os pares x px em que px PXx constituem a distribuição binomial de modo que PXkbinomnk pk qnk binomnk frac nknk PXk binomnk fracnknk pk qnk k número de sucessos n número de elementos da amostra p probabilidade de sucesso q probabilidade de fracasso Uma distribuição Binomial tem as seguintes regras 1 O experimento tem um número fixo de tentativas 2 As tentativas devem ser independentes ou seja o resultado de cada tentativa não afetará as probabilidades em outras tentativas 3 As tentativas são classificadas em sucesso e fracasso 4 A probabilidade de sucesso permanece constante em todas as tentativas Tal como determine a probabilidade de dois meninos entre cinco crianças se a probabilidade de um menino é 051 em cada nascimento e os sexos das crianças sucessivas são considerados variáveis aleatórias independentes Na Distribuição Binomial é importante entender bem o enunciado pois nem sempre o sucesso será algo positivo O sucesso p é dado pelo que estamos interessados em estudar por exemplo neste exercício serão as vidrarias defeituosas 5 dadas no enunciado por isso a interpretação é fundamental Para resolução deste exercício utilizaremos a distribuição Binomial Sendo n 5 crianças p 051 k 2 q1p q1051049 Seja X número de meninos de cada cinco nascimentos Substituindo na equação temos PXk binomnk frac nknk pk qnk PX2 binom52 frac5252 0512 04952 PX2 binom52 frac5432121321 0512 0493 frac12012 02601 01176 100260101176 03058 Um processo industrial que fabrica vidrarias laboratoriais opera com uma média de 5 vidrarias defeituosas Com base em dez vidrarias determine as probabilidades de uma amostra apresentar Nenhuma vidraria com defeito Para resolução quando falamos em nenhuma vidraria consideraremos zero defeito Utilizando a equação temos PXk binomnk fracnknk pk qnk Em que n 10 k 0 p 005 defeituosas q 095 vidrarias boas PXk binomnk fracnknk pk qnk PX0 binom100 frac100100 0050 095100 frac10987654321010 0050 09510 frac36288003628800 1 05987 1105987 05987 Três vidrarias com defeito PXk binomnk fracnknk pk qnk PX3 binom103 frac103103 0053 095103 frac109876543213217654321 0053 0957 frac362880030240 0000125 06983 120 0000125 06983 0010 Pelo menos 9 vidrarias com defeito Nesse caso para a resolução quando temos pelo menos significa 9 vidrarias mais uma Portanto temos PX 9 PX 9 PX 10 Assim calcularemos considerando X 9 e X10 Utilizando a equação PX k n k n k n k pk qnk Substituindo a equação PX k n k n k n k pk qnk PX 9 10 9 10 9 10 9 0059 095109 10987654321 9876543211 0059 0 951 3628800 362880 00000000001953 095 1000000000001953 095 185x1011 Agora faremos a mesma coisa mas consideraremos x10 substituindo temos PX 10 10 10 10 10 10 10 00510 0951010 10987654321 109876543210 00510 0 950 3628800 3628800 976x1014 1 1976x1014 1 976x1014 Agora vamos somar PX 9 PX 9 PX 10 PX 9 185x1011 976x1014 PX 9 186x1011 No Máximo 2 vidrarias com defeito PX 2 PX 0 PX 1 PX 2 PX k n k n k n k pk qnk PX 0 10 0 10 0 10 0 0050 095100 10987654321 0 10 0050 09510 3628800 3628800 105987 1105987 05987 Agora substituiremos 1 na equação assim temos PX k n k n k n k pk qnk PX 1 10 1 10 1 10 1 0051 095101 10987654321 987654321 0051 0 959 3628800 362880 005 0 6302 10005 06302 03151 Agora substituiremos 2 na equação assim temos PX k n k n k n k pk qnk PX 2 10 2 10 2 10 2 0052 095102 10987654321 2187654321 0052 0958 3628800 80640 000025 06634 45000025 06634 00746 Somando os valores encontrados temos PX 2 PX 0 PX 1 PX 2 PX 2 05987 03151 00746 0987 A média a variância e o desvio padrão de uma distribuição binomial são dados por a média EX np Em que EX esperança X média n número de elementos p probabilidade de sucesso b Variância VarX npq Em que VarX Variância n número de elementos p probabilidade de sucesso q probabilidade de fracasso c Desvio Padrão σX npq Em que σX Desvio Padrão n número de elementos p probabilidade de sucesso q probabilidade de fracasso Para este exercício resolvendo a média a variância e o desvio padrão temos EX 10005 05 VarX 10005095 0475 σX 10005095 06892 Outra distribuição de Probabilidade importante na bioestatística é a Distribuição de Poisson UNIDADE 5 159 Quando falamos em distribuição de probabilidades ontínuas a principal e mais utilizada é a Distribuição Normal Os primeiros desenvolvimentos for mais da função que representa a curva normal são de autoria do matemático francês Abraham de Moivre 1667 1754 que demonstrou que a distri buição binomial se aproxima de uma curva normal quando o número de ensaios é suficientemente grande Esse resultado foi posteriormente estendido pelo matemático e astrônomo francês PierreSimon Laplace 17491827 No início do século XIX o matemático alemão Johann Carl Friedrich Gauss 17771855 utilizou a curva normal em análises estatísticas de dados de astronomia Esses desenvolvimentos tornaramse tão importantes que em muitas ocasiões a curva normal é cha mada de curva de Gauss ou gaussiana MARTINEZ 2015 p 146 Esta curva de Gauss também conhecida como curva nor mal tem o formato de um sino Figura 9 e os desvios se distribuem em torno do valor médio PARENTI SILVA SILVEIRA 2017 A curva de Gauss tem as seguintes par ticularidades a A área total abaixo da curva normal soma1 ou seja 100 b A curva é simétrica em torno da média isto é antes da média temos 50 das possibilidades e depois do valor médio temos a outra metade das possibilidades c No caso da curva normal a média a moda e a me diana são coincidentes d Os parâmetros da curva normal são a média μ e o desvio padrão σ PierreSimon Laplace 17491827 Abraham de Moivre 16671754 Johann Carl Friedrich Gauss 17771855 160 Teoricamente a curva normal estendese de a À medida que x se aproxima de ou de fx aproximase do eixo do gráfico mas nunca o toca PARENTI SILVA SILVEIRA 2017 Como na natureza as variáveis que estudamos podem assumir qualquer média e qualquer des vio padrão portanto temos a utilização da curva normal padrão que assume média igual a zero e desvio padrão igual a um e que segue as demais características de qualquer distribuição normal Uma distribuição normal é obtida por meio de integrais mas aqui nosso objetivo não é apresentar essas integrais a você pois já existe uma tabela com todas elas calculadas certo Vamos entender como utilizar essa Tabela padronizada A partir dessas integrais obtidas numericamente e utilizando a curva normal padronizada po demos obter as probabilidades por meio de tabelas prontas que mostram a área sob a curva normal correspondente Aqui em nossa disciplina utilizaremos a tabela de Distribuição Normal Reduzida que é apresentada a seguir Descrição da Imagem a figura é apre sentada em forma de sino na qual essa curva não toca o eixo sendo dividida em sua metade com pontilhados em indicam a média Figura 9 Curva de Gauss Fonte o autor UNICESUMAR UNIDADE 5 161 Tabela 5 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 21 04821 04826 04830 04834 04838 04842 04846 04850 04854 04857 22 04861 04864 04868 04871 04875 04878 04881 04884 04887 04890 23 04893 04896 04898 04901 04904 04906 04909 04911 04913 04916 24 04918 04920 04922 04925 04927 04929 04931 04932 04934 04936 25 04938 04940 04941 04943 04945 04946 04948 04949 04951 04952 26 04953 04955 04956 04957 04959 04960 04961 04962 04963 04964 27 04965 04966 04967 04968 04969 04970 04971 04972 04973 04974 28 04974 04975 04976 04977 04977 04978 04979 04979 04980 04981 29 04981 04982 04982 04983 04984 04984 04985 04985 04986 04986 30 04987 04987 04987 04988 04988 04989 04989 04989 04990 04990 31 04990 04991 04991 04991 04992 04992 04992 04992 04993 04993 32 04993 04993 04994 04994 04994 04994 04994 04995 04995 04995 33 04995 04995 04995 04996 04996 04996 04996 04996 04996 04997 34 04997 04997 04997 04997 04997 04997 04997 04997 04997 04998 35 04998 04998 04998 04998 04998 04998 04998 04998 04998 04998 36 04998 04998 04999 04999 04999 04999 04999 04999 04999 04999 37 04999 04999 04999 04999 04999 04999 04999 04999 04999 04999 38 04999 04999 04999 04999 04999 04999 04999 04999 04999 04999 39 05000 05000 05000 05000 05000 05000 05000 05000 05000 05000 162 Vale ressaltar que tabelas com diferentes integrais calculadas podem ser encontradas A tabela apre sentada fornece sempre a seguinte área sob a curva Figura 10 Como então funciona esta tabela Entenderemos agora o passo a passo da sua utilização Para usar essa tabela precisaremos padronizar os dados Sendo Z uma variável com distribuição normal determine a P 0 Z 144 Aqui nossa área interessada é 144 Desenhando na curva de Gauss temos Figura 11 Descrição da Imagem na figura apre sentada em forma de sino há uma curva que não toca o eixo e uma área destacada na cor cinza Descrição da Imagem a figura repre senta uma curva de Gauss em forma to de sino Temos a área destacada no gráfico entre 0 e 144 Figura 10 Distribuição Normal reduzida Fonte o autor Figura 11 Curva de Gauss Fonte o autor Valor a ser procurado na tabela Z 0 144 Agora que sabemos a área a ser encontrada vamos até a Tabela de Distribuição Normal reduzida e encontramos a área da seguinte maneira Tabela 6 UNICESUMAR UNIDADE 5 163 Descrição da Imagem a figura repre senta uma curva de Gauss em forma to de sino Temos a área destacada no gráfico entre 085 e 0 Figura 12 Curva de Gauss Fonte o autor Tabela 6 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 Portanto a área correspondente a 144 na tabela Z é igual a 04251 ou 4251 b P 085 Z 0 Neste caso o sinal negativo muda apenas o eixo em que desejamos encontrar a área observe na figura a seguir 085 0 164 Para encontrar a área basta procurar 085 na Tabela 7 Tabela 7 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 Portanto a área correspondente a 085 na tabela Z é igual a 03023 ou 3023 c P 148 Z 205 Neste caso temos interesse em encontrar a probabilidade entre 148 iniciando no eixo negativo e 205 finalizando no eixo positivo Para isso encontraremos duas áreas na Tabela 148 e 205 em seguida somar Observe como fica na Figura 13 148 205 Descrição da Imagem a figura repre senta uma curva de Gauss em forma to de sino Temos a área destacada no gráfico entre 148 e 205 Figura 13 Curva de Gauss Fonte o autor UNICESUMAR UNIDADE 5 165 Tabela 8 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 Para encontrar a área basta procurar 148 e 205 na Tabela 8 Portanto a área correspondente a 148 é igual a 04306 e a área correspondente a 205 é igual a 04798 Agora basta somar estes valores 0 4306 0 4798 09104 A probabilidade é de 09104 ou 9104 d P 108 Neste caso temos interesse em encontrar a probabilidade de valores maiores que 108 Assim ao en contrarmos na Tabela 108 teremos o valor da área entre 0 e 108 certo Isso mesmo mas desejamos encontrar valores acima de 108 então como fazer É bem simples buscamos na tabela a área corres pondente a 108 em seguida fazemos a subtração do valor encontrado por 05 50 pois sabemos que a metade da curva corresponde a 50 Observe na Figura 14 a área que desejamos 166 Agora vamos à tabela Z Tabela 9 buscar a área correspondente a 108 108 Desejamos essa área Descrição da Imagem a figura representa uma curva de Gauss em formato de sino Temos a área destacada no gráfico que está com valores maiores que 108 sendo destacada em cinza essa área Figura 14 Curva de Gauss Fonte o autor Tabela 9 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 Assim a área correspondente a 108 é igual a 03599 Mas a área que nos interessa é a área correspon dente a valores maiores do que 108 neste caso fazemos a subtração de 05 equivale à metade do gráfico pela área encontrada sendo 05 03599 01401 UNICESUMAR UNIDADE 5 169 Descrição da Imagem a figura re presenta uma curva de Gauss em formato de sino Temos a área desta cada no gráfico está entre 2 a 4 sen do destacada em cinza essa área Nesta figura a área está padronizada para uso da Tabela de Distribuição Normal Reduzida Figura 16 Curva de Gauss Fonte o autor 3º passo para resolução Desenhando na Figura 16 com a área que desejamos encontrar 0 2 4 4º passo para resolução Buscar os valores na Tabela Veja na Tabela 10 a seguir Tabela 10 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 170 Você sabia que a área de Saúde está relacionada à Epidemiologia E que a área de Epidemiologia traz a Teoria das Probabilidades Nossa Roda de Conversa mostrará como essa teoria pode ser importante no estudo de epidemiologia A área correspondente a 20 é igual a 04772 Já os valores superiores a 39 na Tabela Z reduzida são iguais a 05 reduzimos a apresentação da tabela Agora que sabemos os valores voltamos a observar o gráfico Figura 17 0 04772 05 Descrição da Imagem a figura re presenta uma curva de Gauss em formato de sino Temos a área des tacada no gráfico está entre 04772 a 05 sendo destacada em cinza essa área Nesta área já tiramos os valores da tabela e apresentamos na figura Figura 17 Curva de Gauss Fonte o autor 4º passo para resolução Aqui como temos duas áreas faremos a subtração de 05 0 4772 00228 Portanto a probabilidade de encontrar um indivíduo com CT entre 220 mgdl e 240 mgdl é igual a 00228 ou 228 UNICESUMAR UNIDADE 5 171 Você pôde perceber que a teoria das probabilida des as distribuições discretas de probabilidade e a distribuição contínua de probabilidades podem ajudálo a entender como é o comportamento de uma população quais tendências além de compreender a área da genética da epidemiolo gia e estas questões serão comuns quando você iniciar sua jornada como profissional da área da saúde Dados na área de epidemiologia como os cenários que podemos encontrar nesta pandemia do Corona vírus os prováveis comportamentos do vírus o percentual de pessoas vacinadas para garantir a imunidade e minimizar os impactos globais da doença todos estes estudos as teorias e os testes estão embasados nas probabilidades Você sabia que a área da saúde também contempla a genética Convido a fazer a leitura do artigo a seguir para entender melhor essas questões Acesse o qrcode 172 1 Quando falamos em uma distribuição de probabilidades contínua estamos nos referimos a mensurações Tratase de uma distribuição que é simétrica seus dados são em torno da média em que moda média e mediana coincidem Seu gráfico pode ser achatado ou um pouco mais estreito dependendo da variabilidade dos dados além de ter forma de sino A distribuição de probabilidades que estamos apresentando denominase a Regra da adição b Distribuição de Bernoulli c Distribuição Binominal d Distribuição Normal e Probabilidade Condicional 2 Uma urna contém 10 bolas vermelhas e 20 bolas azuis Ao retiramos duas bolas consecutivas com reposição a probabilidade de a primeira bola ser vermelha e a segunda bola ser azul é de a 1025 b 2222 c 3575 d 4423 e 50 3 Supondo que temos o seguinte experimento lançaremos três dados simultaneamente a probabilidade de sair a face 1 no primeiro dado 2 no segundo dado e 3 no terceiro dado é de a 03578 b 04629 c 07598 d 1 e 2 4 Em uma cidade na população de idosos usuários de unidades de atenção primária à saúde de um município o número médio de medicamentos em uso é 47 Se selecionarmos ao acaso um idoso dessa população a probabilidade de ele não utilizar nenhum medicamento é de a 05025 b 07575 c 09095 d 1 e 2 173 5 Supondo que você fará uma visita a um museu de animais e lá vê em uma caixa 12 aranhas e entre estas 8 são fêmeas A probabilidade de se retirar uma aranha macho para um expe rimento é de a 1333 b 20 c 3333 d 50 e 6667 6 Nesta unidade vamos trabalhar com a correlação e regressão linear em que duas variáveis são analisadas X e Y na qual podemos ve rificar se existe uma relação entre elas correlação e fazer o ajuste da reta regressão estimando valores Tratase de um estudo muito importante na sua formação pois muitas vezes em pesquisas envolvendo a área da saúde pode ser do interesse do profissional avaliar se existe uma relação entre essas variáveis como por exemplo a relação peso e altura horas de estudo e desempenho alimentação saudável e incidência de doenças entre outras tudo isso é estudado pela análise de corre lação e regressão linear Correlação e Regressão Linear Me Renata Cristina de Souza Chatalovv 176 A correlação linear se trata do estudo de duas variáveis X e Y com o objetivo de mensurar o grau de relacionamento entre estas variáveis enquanto a regressão linear tem como resultado uma equação matemática que descreve o relacionamento entre estas variáveis Mas o que esse estudo tem a ver com Bioestatística Podemos observar como futuros profissionais da área de saúde já parou para pensar se existe uma relação entre aleitamento e estado de saúde materno Se existe uma relação entre peso e altura Será que a correlação seria uma medida importante Ao iniciar a leitura deste material você já pode estar se perguntando para que serve a correlação e regressão linear Como utilizar na área da saúde Em uma pesquisa clínica pode ser fundamental que o pesquisador investigue se os valores de duas ou mais variáveis quantitativas se modificam de forma conjunta em um mesmo sujeito ou objeto de estudo Ou seja quando o valor de uma variável aumenta o valor de outra tende a aumentar ou inver samente reduzase progressivamente Há uma série de testes estatísticos que exploram a intensidade e o sentido desse comportamento mútuo entre variáveis os chamados testes de correlação O primeiro passo é analisar a correlação por meio do gráfico de dispersão para observar se existe algum tipo de relação se a relação é ascendente ou decrescente para então calcular o coeficiente de Pearson e ajustar a reta de regressão para estimar valores de um Y a partir de um X conhecidos Em algum momento de sua vida acadêmica você provavelmente tentou relacionar duas discipli nas certo Se existe uma relação entre a disciplina de química e física por exemplo Vamos fazer esse experimento Selecione 5 pessoas de uma mesma classe e pegue as notas de duas disciplinas e anote O importante é você pegar as pessoas que cursam na mesma sala e as mesmas disciplinas Coloque em uma tabela os dados em seguida plote em um gráfico colocando uma disciplina como X na horizontal e outra como Y na vertical quando as disciplinas se cruzarem faça uma bolinha isso tudo é a dispersão que vamos analisar Depois que plotar todos os dados observe se as bolinhas estão próximas se estiverem próximas você experimentou nosso conteúdo antes mesmo de estudálo olha só Se as bolinhas estiverem distantes e não formarem nenhuma reta fique tranquilo você também experimentou nosso conteúdo só que a relação encontrada não foi linear Aqui vou colocar um exemplo para te orientar vamos lá Perguntei a nota das disciplinas de física e química para 5 pessoas as notas que me passaram foram as seguintes e eu abri uma planilha e coloquei os dados apresentoos na tabela a seguir Tabela 1 Notas de alunos Fonte a autora Pessoa Nota em Física Nota em Química Ana 4 5 Alice 3 6 João 8 8 Glauber 6 6 Paula 5 7 UNICESUMAR UNIDADE 6 177 Agora que temos as notas basta plotar no gráfico da seguinte forma vamos inserir as notas de Física no eixo horizontal e nota em Química no eixo vertical e com uma bolinha veremos a dispersão Conseguiu fazer o experimento que propomos para você É importante ao realizar o experimen to ao construir seu gráfico de dispersão observar se ele é crescente ou decrescente analise também se as bolinhas estão próximas umas das outras se isso acontecer significa que você encontrou uma correlação entre as variáveis Anote suas impressões registre as notas que encontrou e as disciplinas que relacionou e escreva se você pensa que existe uma relação entre elas 178 Agora vamos avaliar se existe uma associação entre duas variáveis x e y com características quantitativas que é objetivo de inúmeros estudos na área da saúde No desenvolvimento de traba lhos científicos também é comum o interesse em investigar a existência entre as variáveis envolvidas com o intuito de saber o quanto altera ções em resultados de uma variável podem estar associadas a trans formações de resultados de outras variáveis MATTOS KONRATH AZAMBUJA 2017 Como exemplos de aplicação de bioestatística temos um profissional da área biomédica pode ter interesse se há relação entre a quan tidade de chumbo em medida na água e volume de efluentes despejados em certo rio um profissional da área da saúde pode querer saber se existe relação entre a pressão arterial e idade das pessoas um professor pode querer saber a relação entre peso e altura a presença de algum inseto e doença na planta o tempo de estudo e nota na prova velocidade do vento em um parque eólico e a geração de corrente entre outros Neste tipo de investigação podemos usar técnicas de análise de correlação e regressão Quando temos a necessidade de analisar a relação entre duas variáveis chamamos de correlação Já na regressão o relacionamento destas variáveis é descrito por meio de uma expressão matemática O termo inicialmente corelação foi proposto por Galton em 1888 apud SCHULTZ SCHULTZ 1992 Essa propriedade foi observada e analisada em medidas antropométricas analisadas da seguinte maneira Dois órgãos são ditos correlacionados quando a variação de um deles é geralmente acompanhada pela variação do outro e na mesma direção enquanto a proximidade da relação difere em diferentes pares de órgãos GALTON 1889 p 238 Dessa maneira o termo correlação significa a relação nos dois sentidos e é utilizado em bioestatística para analisar a força que mantém unidos dois conjuntos de valores A constatação de existência e do grau de relação entre as variáveis é parte do estudo da correlação Entretanto essas técnicas analisam somente a possibilidade de uma associação numérica entre os dados não implica em uma relação de causa e efeito MATTOS KONRATH AZAMBUJA 2017 UNICESUMAR UNIDADE 6 179 Para analisar a existência de uma correlação en tre duas variáveis ou até mesmo para verificar se ela pode ser linear ou não para verificar sua intensidade e em qual sentido podemos sim plesmente recorrer a uma representação gráfica bem simples os pares de observações X e Y podem ser plotados em um diagrama cartesia no que chamamos de diagrama de dispersão que se trata de um gráfico onde são represen tados os pares Xi Yi de duas variáveis sendo i 1 2 n onde n representa a quantidade de pares observados O gráfico de dispersão na maioria das vezes nos dá uma ideia de como é a relação entre as variáveis X e Y As informações na Tabela 2 a seguir se re ferem à idade de 10 pessoas e o tempo que per manecem na frente do computador diariamente Indivíduo Idade em anos X Tempo de permanência em minutos Y 1 32 290 2 44 150 3 26 340 4 44 100 5 40 130 6 36 180 7 28 290 8 40 200 9 34 220 10 20 380 Tabela 2 Idade e tempo de permanência diária na frente de um computador Fonte a autora Com os dados apresentados nessa tabela vamos plotar as variáveis no gráfico de dispersão a seguir Figura 1 180 Figura 1 Diagrama de dispersão da idade em anos X e o tempo de permanência em minutos Y na frente do computador Fonte a autora Descrição da Imagem a figura representa um gráfico de dispersão no eixo X horizontal temos as idades em anos plotadas de cinco em cinco anos iniciando de zero até cinquenta No eixo Y vertical temos o tempo de permanência em minutos na frente do computador plotados de cinquenta em cinquenta iniciando em zero indo até quatrocentos As bolinhas que representam a dispersão estão na coloração azul na qual se visualiza que à medida que idade aumenta reduz o tempo de permanência na frente do computador Ao observar o gráfico representado na Figura 1 podemos perceber que quanto menor a idade maior é o tempo de permanência na frente do computador e à medida que as pessoas ficam mais velhas reduz o tempo de permanência o gráfico indica uma relação linear e uma existência de relação negativa entre as variáveis O gráfico de dispersão intenciona mostrar se existe uma correlação entre as duas variáveis X e Y e o sentido desse relacionamento se é linear ou não linear Embora esse diagrama nos mostre uma ideia do relacionamento entre as variáveis X e Y é importante mensurar sua intensidade o que pode ser feito pelo coeficiente de correlação linear UNICESUMAR UNIDADE 6 181 Tabela 3 Relação entre as horas de estudo e nota na disciplina de Bioestatística Fonte a autora Ao observar a Tabela 3 e se fosse perguntado a você neste momento existe uma relação entre as horas de estudo e a nota da prova Analisando os dados sem nenhum tratamento você ia conseguir responder com facilidade Com certeza não iria conseguir mas por quê Fica difícil concluir algo so mente observando a tabela pois temos grande variação nos dados Por isso o primeiro passo é tentar organizar esses dados em um gráfico para visualizar melhor a relação entre as variáveis X e Y Para analisarmos se há correlação entre as variáveis X e Y é importante fazer o gráfico de dispersão como já aprendemos anteriormente Vemos que cada ponto do gráfico corresponde a um aluno e é marcado segundo seu valor para X e para Y Figura 2 Acadêmico Horas de Estudo x Nota em Bioestatística y A 8 10 B 8 8 C 6 4 D 5 8 E 4 6 F 7 9 G 5 7 H 1 2 Para entendermos melhor o gráfico de dispersão e a correlação linear temos um exemplo um pro fessor do curso de Enfermagem deseja saber se existe correlação entre o tempo dedicado em horas ao estudo e o desempenho dos alunos na disciplina de Bioestatística Para saber se existe essa relação o professor selecionou oito alunos aleatoriamente e fez a anotação dos dados Podemos observar o número de horas x e nota obtida na prova de Bioestatística y para cada alunoa 182 Descrição da Ima gem na figura ob servada temos um gráfico de dispersão em que o eixo X está na horizontal re presentando as horas de estudo dos alunos de duas em duas ho ras de zero até dez e no eixo Y que está na vertical temos as notas distribuídas dos oitos alunos que vai de zero a dez Figura 2 Gráfico de dispersão sobre a relação entre horas de estudo X e nota na disciplina de bioestatística y Fonte a autora Analisando a Figura 2 podemos observar que os alunos que se dedicaram estudando por mais horas tiveram um desempenho melhor e os que dedicaram menos horas ao estudo vieram a ter um desem penho pior na prova Entretanto podemos observar que temos algumas exceções como por exemplo o aluno C que dedicou 6 horas de estudo e sua nota foi 4 Isso significa que embora pareça existir uma correlação entre essas duas variáveis ela não é perfeita Para sabermos com mais precisão existe outra maneira que é avaliar a correlação e usar um coe ficiente que tem a vantagem de ser um valor numérico O coeficiente de correlação produtomomento r é uma medida da intensidade de associação existente entre duas variáveis quantitativas e sua fórmula de cálculo foi proposta por Karl Pearson em 1896 Por essa razão é também denominado coefi ciente de correlação de Pearson Por ter sido o primeiro a ser proposto vários outros foram criados depois muitas vezes r recebe simplesmente nome de coeficiente de correlação MARTINEZ 2015 p 85 O coeficiente de correlação pode variar entre 1 e 1 Quando temos valores negativos de r temos cor relação do tipo inversa ou seja à medida que X aumenta Y diminui Já quando temos valores positivos para r ocorrem quando a correlação é direta ou seja X e Y variam no mesmo sentido Por exemplo temos que as taxas sanguíneas de insulina e glicose apresentam correlação negativa enquanto a taxa do hormônio glucagônio tem correlação positiva com a glicemia MARTINEZ 2015 É importante salientar que quando temos uma correlação linear negativa não significa que é uma correlação ruim apenas o sentido do gráfico será decrescente O valor máximo tanto r 1 como r 1 é obtido quando todos os pontos do diagrama estão em uma linha reta inclinada Quando temos uma correlação linear igual a r 1 significa que temos uma correlação linear perfeita e positiva como você pode observar na Figura 3 UNICESUMAR UNIDADE 6 183 Figura 3 Correlação quando r 1 Fonte a autora Descrição da Imagem a figura é um gráfico de dispersão em que o eixo X está na horizontal que está de dois em dois de zero até dez e o eixo Y está na vertical que vai de zero a dez Ao observar a dispersão podese visualizar uma reta no sentido crescente porque r 1 Quando temos uma correlação linear igual r 1 significa que temos uma correlação linear perfeita e negativa como você pode observar na Figura 4 Nesse caso o r encontrado foi igual a 1 Descrição da Imagem na figura te mos um gráfico de dispersão em que o eixo X está na horizontal que está de dois em dois de zero até dez e o eixo Y está na vertical que vai de zero a dez Ao observar a dispersão po dese visualizar uma reta no sentido decrescente à medida que X cresce Y decresce pois r 1 Figura 4 Correlação quando r 1 Fonte a autora 184 Existem casos em que não existe correlação linear entre X e Y assim os pontos se distribuem de maneira que não temos uma relação podendo ser em formato de nuvens circulares ou formatos não definidos não tendo uma tendência crescente ou decrescente Figura 5 Figura 5 Correlação quando r 009 Fonte a autora Descrição da Imagem a figura é um gráfico de dispersão em que o eixo X está na horizontal que vai de zero a cinco e o eixo Y está na vertical que está de dois em dois de zero até doze Ao observar a disper são podemos observar que a figura não tem uma reta crescente nem decrescente pois o r é igual a 009 As associações X e Y de grau intermediário r entre 0 e 1 apresentamse como nuvens inclinadas de forma elíptica como podemos observar na Figura 6 Descrição da Ima gem a figura é um gráfico de dispersão em que o eixo X está na horizontal que está de dois em dois de zero até dez e o eixo Y está na vertical que está de dois em dois de zero até doze Ao observar a dispersão temos que os dados estão dispersos mas tem uma tendência crescente pois o r é igual a 065 Figura 6 Correlação quando r 065 Fonte a autora Mas o que significa esses valores de r Significa que à medida que o valor X cresce o valor de Y também cresce podemos visualizar essa tendência no gráfico UNICESUMAR UNIDADE 6 185 Outro exemplo a Figura 7 traz uma correlação igual a r 055 Figura 7 Correlação quando r 055 Fonte a autora Descrição da Imagem a figura apresenta um gráfico de dispersão em que o eixo X está na horizontal que está de dois em dois de zero até dez e o eixo Y está na vertical que está de dois em dois de 0 até doze Ao observar a dispersão temos que os dados estão dispersos mas têm uma leve tendência crescente pois o r é igual a 055 O que significa porém o valor 055 encontrado Então o coe ficiente de correlação nunca será maior que 1 e nem menor que 1 Dessa maneira os valores de r iguais a zero evidenciam que não há associação entre as variáveis X e Y Quando há valores próximos a zero sejam eles negativos ou positivos indicam uma correlação muito fraca entre as variáveis Já os valores de r próximos a 1 ou a 1 indicam associações fortes entre X e Y Portanto o valor r 055 indica uma correlação fraca ou forte Apesar de uma boa resposta a essa pergunta subjetiva para nos embasar temos alguns autores livros textos artigos científicos para nos ajudar a interpretar a magnitude de um coeficiente de correlação Segundo Zou Tuncali e Silverman 2003 a proposta para interpretação do coeficiente de correlação linear r pode ser observada na Tabela 4 186 Quando a correlação é linear a medição é feita pelo coeficiente de correlação linear de Pearson representado pela letra r quando for determinado a partir de uma amostra Esse coeficiente será uma estimativa do coeficiente de população p Esse coeficiente poderá variar entre 1 e 1 A correlação será tanto mais forte quanto mais pró ximo o coeficiente estiver desses valores e será tanto mais fraca quanto estiver próxima de zero podendo ser interpretada da seguinte maneira a Correlação linear positiva quando os valores crescentes de x estiverem associados a valores crescentes de y b Correlação nula r 0 quando não houver correlação linear c Correlação linear negativa quando os valores crescentes da variável x estiverem associados a valores decrescentes de y Tabela 4 Interpretação do coeficiente de correlação linear Valor do coeficiente de correlação linear r Direção e força da associação 10 Perfeita e negativa 08 Forte e negativa 05 Moderada e negativa 02 Fraca e negativa 0 Ausência de associativa 02 Fraca e positiva 05 Moderada e positiva 08 Forte e positiva 10 Perfeita e positiva Fonte adaptada de Zou Tuncali e Silverman 2003 Zou Tuncali e Silverman 2003 interpretam o sinal do coeficiente de correlação como a direção da associação Os coeficientes de correlação linear que são maiores do que zero apresentam correlações positivas quanto maior X maior Y e coeficientes menores que zero indicam correlações negativas quanto maior X menor Y Já a correlação igual a zero indica que não existe uma correlação linear É importante salientar que a interpretação de r pode variar de acordo com a experiência de autores principalmente as intermediárias 08 05 02 03 e outros o que não muda é que 1 e 1 são cor relações perfeitas e zero não há correlação linear UNICESUMAR 188 Agora que temos a equação que determina o coeficiente de Pearson vimos que se trata de uma equação bem complexa mas fique tranquiloa vamos resolver juntos o passo a passo Vejamos um exemplo um professor do curso de Enfermagem deseja saber se existe correlação entre o tempo dedicado ao estudo e o desempenho dos alunos na disciplina de Bioestatística Assim ele selecionou oito alunos em que podemos observar o número de horas X e nota obtida na prova de Bioestatística Y para cada aluno Tabela 5 Relação entre as horas de estudo e nota na disciplina de Bioestatística Acadêmico Horas de Estudo x Nota em Bioestatística y A 8 10 B 8 8 C 6 4 D 5 8 E 4 6 F 7 9 G 5 7 H 1 2 Fonte a autora Para filitar nosso cálculo você deve ter percebido que vamos precisar elevar todos os valores de X ao quadrado todos os valores de Y ao qadrado e somar tudo isso então vamos reescrever a tabela com essas colunas Observe a seguir Tabela 6 Tabela 6 Relação entre as horas de estudo e nota na disciplina de Bioestatística Acadêmico Horas de Estudo x Nota em Bioestatística y x2 y2 xy A 8 10 64 100 80 B 8 8 64 64 64 C 6 4 36 16 24 D 5 8 25 64 40 E 4 6 16 36 24 F 7 9 49 81 63 G 5 7 25 49 35 H 1 2 1 4 2 TOTAL 44 54 280 414 332 Fonte a autora UNICESUMAR 190 Você achou complicado utilizar essa equação Vamos te ajudar com uma maneira simples que você consegue tirar a prova real utilizando o Microsoft Excel mas lembrese agora você está em processo de aprendizagem e ao fazer cálculos passo a passo da forma algébrica você exercitará seu raciocínio lógico o que vai te ajudar a interpretar os dados e a tomar decisões Utilizando o Microsoft Excel basta reescrever a tabela na planilha vá em inserir função Estatísti ca Correl Irá abrir para você a função correl em seguida no item matriz um selecione todas as notas da variável X sem cabeçalho e total clique em matriz 2 e selecione todas as notas da variável Y sem cabeçalho e total Ok Quando falamos em relações lineares entre as variáveis X e Y significa que quando utilizamos o coeficiente de correlação de Pearson estamos nos referindo a uma situação em que uma variável é diretamente ou inversamente proporcional à outra CRESPO 2009 Vimos no nosso exemplo que quanto às horas dedicadas a estudos têm uma relação forte com a nota da disciplina de Bioestatística Portanto é de fundamental importância construir um gráfico de dispersão entre as variáveis antes de calcularmos o coeficiente de correlação que já fizemos anteriormente na Figura 2 e então obser varmos se é realmente adequado utilizarmos essa medida de associação Figura 9 Gráfico de dispersão sobre a relação entre horas de estudo X e nota na disciplina de Bioestatística Y Fonte a autora Descrição da Imagem a figura apresenta um gráfico de dispersão em que o eixo X está na horizontal representando as horas de estudo dos alunos que está de duas em duas horas de zero até doze e no eixo Y que está na vertical temos as notas distribuídas dos oitos alunos que está de zero até dez UNICESUMAR UNIDADE 6 191 Também podemos ter situações que temos valores atípicos ou seja que podemos chamar de fora da linearidade O que fazemos com esses valores podemos excluir ajustar A resposta a essa pergunta não é simples Em nenhuma situação podemos eliminar observações de nosso banco de dados com o propósito de deixar os resultados mais interessantes ou de destacar possíveis associações entre as variáveis que valorizariam nosso estudo principalmente na área biológica e da saúde que podem trazer dados que podem orientar o direcionamento de uma pesquisa além de não ser uma conduta ética por parte do pesquisador Para isso é importante que você vá novamente aos dados coletados faça comparação com os dados da pesquisa de campo verifique os questionários prontuários a fonte original dos dados para então verificar a possibilidade de erros de digitação ou anotação Ainda que não fosse esse o erro encontrado não é correto eliminálo arbitrariamente É de suma importância buscar outras informações sobre aquele dado para que possa entender se realmente ele pertence àquela popu lação de interesse do estudo Se a dispersão que é apresenta no gráfico permite visualizar uma reta imaginária passando pe los pontos entendemos que há a sugestão de uma relação linear ainda que essa reta tenha uma inclinação pequena Um erro comum entre as pessoas que estão aprendendo bioestatística é pensar que o coeficiente de correlação serve para testar se há uma relação linear entre as variáveis X e Y Quando usamos o coeficiente de correlação já partimos do princípio de que a possível relação entre as variáveis se dá de forma linear por isso a importância do gráfico de dispersão assim o coeficiente de Pearson serve para medir o tamanho dessa associação linear e não para verificar se há linearidade na relação entre X e Y Depois que calculamos a correlação linear podemos ter o interesse em determinar a Regressão Linear A análise de regressão explicita em uma equação matemática a forma da relação entre uma variável chamada dependente e uma ou mais variáveis chamadas independentes ou seja quando temos o interesse no estudo da regressão aplicase aquelas situações em que há razões para supor uma relação de causaefeito entre duas variáveis quantitativas e se deseja expressar matematicamente essa relação O termo regressão devese a Francis Galton que publicou em 1886 um artigo no qual tentou explicar por que pais de alta estatura tinham filhos com estatura em média mais baixa do que a deles e pais de baixa estatura tinham filhos em média mais altos Esse fenômeno foi chamado de regressão à média termo que apesar de inadequado para expressar a dependência entre duas variáveis quantitativas acabou sendo incorporado pelo uso à linguagem estatística MARTINEZ 2015 p 103 196 Podemos observar que como o valor de r encontrado anteriormente foi igual a 080 e o valor de bx é positivo nossa reta ajustada tem sentido crescente Caso nosso valor de r fosse negativo nossa reta ajustada teria o sentido decrescente Resumindo para fazer essa análise de correlação e regressão linear de duas variáveis X e Y podemos seguir os passos a seguir Faça o gráfco de dispersão para isso faça a plotagem de X e Y em um gráfco e observe se exixte alguma relação Caso exista siga para o passo 2 Calcule o coefciente de Pearson Utilize a equação r Para facilitar coloque os dados em uma tabela com colunas complementares e faça os cálculos Substitua valores na equação de r Após analisar os resultados faça equação da reta e encontre a regressão linear A partir daqui você pode encontrar Y estimado para X conhecido 1 Passo 2 Passo 3 Passo Figura 11 Passo a passo com o resumo do cálculo da correlação e regressão linear Fonte a autora Descrição da Imagem na imagem temos os três passos sendo lidos no sentido horizontal temse Primeiro Passo faça o gráfico de dispersão para isso faça a plotagem de X e Y em um gráfico e observe se existe alguma relação caso exista siga para o passo dois Na segunda parte temos Segundo Passo calcule o coeficiente de Pearson utilize a equação r para facilitar coloque os dados em uma tabela com colunas complementares e faça os cálculos substitua valores na equação de r Na terceira parte temse Ter ceiro Passo após analisar os resultados faça a equação da reta e encontre a regressão linear A partir daqui você pode encontrar Y estimado para X conhecido Como você pôde observar basta seguir os três passos para ter a correlação e regressão linear só não esqueça que matematicamente você precisará lembrar de expressões numéricas para resolver Mas por quê Será preciso resolver uma expressão numérica com parênteses elevar valores ao quadrado e multiplicar para isso tenha muita atenção O mais importante é entender a importância deste assunto para a área de saúde bem como suas aplicações UNICESUMAR UNIDADE 6 197 Neste podcast vamos conversar um pouco sobre correlação e regressão linear Você parou para pensar qual a importância da Bioestatística na formação de um profissional de Saúde Vimos que a pandemia mudou totalmente nossas vidas e isso não é nada diferente para o profissional de saúde que além de entender bem de sua área nos conteúdos específicos esse profissional precisou aprender a lidar com situações que envolvessem números tomada de decisões e precisou acompanhar também dados numéricos gráficos todas as questões que envolvem a Bioestatística Vamos falar isso nessa nossa Roda de Conversa vem com a gente Título Bioestatística para os cursos de graduação da saúde Autor Edson Z Martinez Editora Blucher Sinopse esse livro traz conceitos básicos e importantes voltados à Bioesta tística fundamentais para a compreensão das ferramentas de descrição de dados e análises voltadas a área da saúde Traz questões voltadas à parte descritiva da bioestatística além de testes de correlação e regressão linear Você pode analisar o artigo a seguir Estudo da correlação entre aleita mento e estado de saúde materno que fala sobre a eficácia do aleita mento materno e o estado de saúde de 88 mães na região sul do Brasil vale a pena a leitura O ano de 2020 trouxe uma situação de pandemia que profissionais da área de saúde precisaram lidar com gráficos com situações prováveis de acontecer acompanhar os dados epidemiológicos e entender Assim fazse importante que profissionais de saúde tenham formação sólida nos conceitos de Bioes tatística e isso será ainda mais crucial em breve Nesse momento estudamos a correlação e a regressão linear e vimos que podemos estimar valores de Y a partir de um X conhecido e que isso pode ser de interesse em pesquisa na área de saúde 198 Faça um mapa com os resumos do que viu até aqui com as palavraschave é uma forma de se autoavaliar Reta de Regressão Correlação e Regressão Linear Cálculo do Coeficiente de Pearson Gráfico de dispersão Correlação Negativa Correlação Positiva r negativo r positivo Forte ou Fraca Forte ou Fraca 199 1 Uma professora que está trabalhando a disciplina de Bioestatística no curso de Enfermagem quer entender se existe uma relação entre as disciplinas de Anatomia e Fisiologia Para enten der o desempenho dos alunos a professora pegou as notas de oito alunos e fez um gráfico de dispersão para analisar a disciplina Podemos observar esse gráfico a seguir Figura 1 Relação entre as disciplinas de Anatomia e Fisiologia no curso de Enfermagem Fonte a autora Descrição da Imagem temos a nota de anatomia no eixo X horizontal que está de dois em dois de dois a dez e fisiologia no eixo Y vertical que está de zero a dez na qual podemos observar uma reta crescente entre os pontos de correlação Diante do exposto analise as afirmativas a seguir I Ao plotar o gráfico de dispersão podemos dizer que existe uma relação entre as disciplinas de Anatomia e Fisiologia para essa turma II Ao plotar o gráfico de dispersão podemos afirmar que a relação existente é negativa III À medida que as notas de Anatomia caem as notas de Fisiologia aumentam IV A relação entre as disciplinas de Anatomia e Fisiologia é positiva É correto o que se afirma em a I e II apenas b II e III apenas c I e IV apenas d I II e III apenas e II III e IV apenas 200 2 Um professor da disciplina de Bioestatística fez uma pesquisa com os seus alunos para veri ficar se existe a relação entre a altura e o peso dos seus alunos com o objetivo de fazer um experimento em sala de aula para que os alunos entendam o cálculo de correlação e regres são linear Para isso o professor fez uma entrevista com 30 alunos fez a coleta de dados inseriu em uma planilha e ao analisar a correlação linear por meio do cálculo do coeficiente de Pearson chegou ao valor de r 088 Com base neste resultado podemos concluir que a Existe uma relação forte e positiva entre a altura e o peso uma vez que o coeficiente de correlação de Pearson apresentou um valor muito próximo de 1 b Não existe uma relação forte entre altura e o peso uma vez que o coeficiente de correlação de Pearson apresentou um valor muito próximo de 1 c Existe uma fraca relação entre altura e o peso uma vez que o coeficiente de correlação de Pearson apresentou um valor muito próximo de 1 d Não existe uma relação entre altura e o peso uma vez que o coeficiente de correlação de Pearson deveria apresentar valores mais próximos de zero para ser considerada uma relação forte e Para que exista uma relação forte entre altura e o peso o coeficiente de Pearson encon trado deveria ser entre 01 a 025 3 Um experimento em que foram analisadas duas variáveis a correlação linear de Pearson é igual a 080 Como a relação é forte a equação da reta foi estimada em Y 043x 51 Com base nestas informações se o valor de X for igual a 6 o valor de Y será igual a assinale a alternativa correta a 725 b 768 c 795 d 825 e 925 201 Tabela 1 Gastos em R com propaganda e aumento em vendas Meses Custo em R Vendas Janeiro R 500000 R 1200000 Fevereiro R 650000 R 1400000 Março R 700000 R 1800000 Abril R 850000 R 2500000 Fonte a autora Dado que a correlação encontrada foi de r 099 a seguir avalie as situações propostas e assinale V para Verdadeiro e F para Falso I Não existe uma correlação linear entre o investimento em propaganda e o aumento das vendas II Caso seja traçado um gráfico de dispersão entre os custo e aumento nas vendas vamos observar um gráfico crescente e positivo III Podemos observar o aumento das vendas com uma relação nos gastos que a empresa fez com propaganda As afirmações I II e III são respectivamente a F V V b F F F c V V V d V V F e V F V 4 Uma empresa que fabrica rações está lançando um novo produto no mercado está inves tindo em propaganda e quer analisar como está a relação entre o custo x e as vendas y O economista da empresa coletou os seguintes valores gastos com propaganda e volume de vendas de um período de quatro meses 7 Nesta unidade vamos trabalhar com a inferência estatística que se trata de trabalharmos com amostra e com base no estudo das amostras poder fazer conclusões acerca da população A Bioesta tística traz oportunidades como sendo uma ferramenta para pro fissionais da área da saúde por exemplo nas pesquisas clínicas Uma pesquisa clínica na maioria das vezes foi feita por meio de inferência estatística sobre a população com base em informações obtidas a partir de amostras Um exemplo simples disso é uma análise de sangue de rotina Com base no resultado obtido de uma amostra de sangue conseguimos fazer inferência para o corpo hu mano se a pessoa tem determinada patologia ou não e tudo isso é objeto da Bioestatística Inferência Estatística Me Renata Cristina de Souza Chatalovv 204 Você sabia que podemos fazer pesquisas utilizando amostras e fazendo projeções para populações Você sabia que o perfil de saúde ou perfil epidemiológico de uma população é um estudo realizado para identificar o quadro geral de saúde de uma população específica Que os testes estatísticos nos permi tem verificar as hipóteses se são verdadeiras ou não a respeito da população com um erro associado Em um estudo epidemiológico o pesquisador fará uma coleta de dados com uma amostra repre sentativa da população e isso pode ser feito pelo cálculo de tamanho da amostra e podem ser aplicados testes com intervalos de confiança para se fazer uma análise daquela amostra e fazer projeções para a população Para isso é importante que a coleta da amostra seja representativa para que o resultado realmente traga informações acerca da população precisando evitar a extrapolação que é um processo de obter os valores fora de um intervalo mediante o conhecimento de seu comportamento dentro desse intervalo a partir de um modelo e isso pode ser feito por meio de testes de hipóteses Você já viu algumas afirmativas como por exemplo a estatura média do brasileiro é de 165 m E se não for Você já testou essa hipótese afirmativa Faça um experimento pergunte a cinco pessoas na rua no seu trabalho algum vizinho qual é a temperatura média do corpo humano Anote estes valores Aqui você já pode perceber que a Bioestatística vai além de trazer números e organizações de tabela e gráficos você vai perceber que ela faz parte da pesquisa e te ajuda a tirar conclusões Voltando ao nosso experimento agora que você já anotou qual a temperatura média do corpo humano Se temos uma pesquisa com 106 pessoas encontrando uma temperatura média de 368ºC e o desvio padrão de 035ºC podemos realmente acreditar que a temperatura média do corpo humano é igual a que você encontrou em sua pesquisa Ou não UNICESUMAR UNIDADE 7 207 Outro conceito importante que precisamos estudar aqui na inferência estatística é o parâmetro Parâmetro é essencial para entendermos a inferência estatística Tratase de valor calculado a partir de uma população ou seja usando todos os elementos MARTINEZ 2015 Por exemplo um professor de Farmácia quer estudar a altura em cm das crianças que estão cursando a 1ª série em um determinado município A população inclui todas as crianças deste município A média da altura encontrada em cm que é calculada a partir da análise do peso de todas as crianças da população é um parâmetro Pedimos que tome cuidado para não confundir o parâmetro com variável O parâmetro como já vimos é uma característica numérica de uma população já uma variável é uma característica dos indivíduos que estamos pesquisando Segundo Parenti Silva e Silveira 2017 o parâmetro é um número fixo já os valores de uma variável são passíveis de variação de um indivíduo a outro Por exemplo dentre os alunos estudados a idade prato preferido são va riáveis já a média da altura de todos os alunos de uma determinada cidade é um parâmetro Nem sempre na prática vamos conseguir trabalhar com parâmetros vamos acabar trabalhando com amostra Assim a média amostral que é resultante de uma amostra de tamanho n é uma estimativa da média populacional Dessa maneira as estimativas são quantidades calculadas da amostra com a finalidade de representar um parâmetro de interesse MARTINEZ 2015 As diferenças entre uma média populacional parâmetro e a média amostral estimativa são denotadas por a média populacional representada pela letra grega µ b média amostral representada por xis barra X 208 Quando conduzimos uma pesquisa com base em uma amostra de n indivíduos podemos calcular o valor de x com base nas observações amostrais Mas obviamente não pode mos calcular o valor de n dado que não temos à nossa disposição todos os elementos da população Assim entendemos que o parâmetro é um número fixo mas geralmente não conhecemos seu valor MARTINEZ 2015 p 166 Assim as principais ferramentas da inferência estatística são os intervalos de confiança e os testes de hipóteses Podemos utilizar da seguinte forma a Intervalos de confiança utilizamos quando o objetivo do estudo é voltado à estimação de um parâmetro b Testes de hipóteses utilizados quando o objetivo do estudo envolve hipóteses sobre um parâmetro de interesse O intervalo de confiança para a média λ de uma população é construído em torno da estimativa pontual X Uma estimativa pode ser por ponto ou por intervalo A estimativa por ponto é um valor obtido a partir de cálculos efetuados com os dados de uma amostra pesquisada como por exemplo a média aritmética Ou seja a média aritmética é um estimador pontual e o seu valor é uma estimativa Uma estimativa por intervalor para determinado parâmetro é uma faixa de valores possíveis e aceitos como verdadeiros dentro da qual se estima que se encontre tal parâmetro Essa faixa de valores chamamos de intervalo de confiança IC É possível que o valor do parâmetro em análise não se encontre dentro do intervalo de confiança ou seja ao se determinar o tamanho de um intervalo de confiança deveremos associar a ele um percentual que exprima qual é a confiança de que o valor do parâmetro está no seu interior A esse percentual damos o nome de nível de confiança e costuma ser um número próximo a 10 Por exemplo 95 ou 96 ou algo próximo destes valores Mas como determinamos um intervalo de confiança Para construir esse intervalo fixamos uma probabilidade 1 α de que o intervalo construído contenha o parâmetro populacional Desta forma α será a probabilidade de que o intervalo obtido não contenha o valor do parâmetro isto é α será a probabilidade de erro Sabendose que a média da amostra apresenta uma distribuição normal média e desvio padrão se a população de onde for extraída a amostra for normal ou se a amostra for superior a 30 e retirada de qualquer po pulação de média e de desvio padrão σ podemos então utilizar a curva normal para estabelecer os limites para o intervalo de confiança BARBETTA 2014 Para entendermos melhor o intervalo de confiança temos que entender que a margem de erro é a sua peçachave ou seja no meio do intervalo de confiança é que fica a média amostral Observe na equação a seguir µ σ n µ UNICESUMAR UNIDADE 7 211 Uma dica muito importante valores de Zcrítico para o grau de confiança a 90 1645 b 95 196 c 99 2575 Esses valores já foram retirados da Tabela Z e são os mais utilizados Fica a dica Fonte Crespo 2009 p 218 Encontramos o valor de 196 Você poderá encontrar qualquer valor utilizando somente a Tabela Z 2º passo agora vamos até a Tabela Z e encontrar o valor referente a 04750 só que desta vez nós procuramos os valores e vamos achar Z veja a seguir Tabela 2 Tabela de distribuição Normal Reduzida Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 UNIDADE 7 213 Tabela 3 Tabela de distribuição Normal Reduzida Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 21 04821 04826 04830 04834 04838 04842 04846 04850 04854 04857 22 04864 04864 04868 04871 04875 04878 04881 04884 04887 04890 Fonte Crespo 2009 p 218 Procuramos o valor na tabela e qual o valor de Z para este valor de área da curva e encontramos 224 Vamos utilizar como Zc 224 substituindo na equação temos 2 24 2 81 2 24 2 9 2 24 0 0 22 0 4977 Zc n σ UNIDADE 7 215 Assim como a distribuição normal a distribuição T de Student também é tabelada Para utilizar é preciso entender o grau de liberdade porque ele varia de acordo com a amostra O grau de liberda de encontramos na coluna gl Entramos com α ou α2 dependendo do teste O α analisamos nas co lunas probabilidade unicaudal de t de Student Importante frisar que assim como as tabelas de distribuição normal temos vários tipos de tabela e geralmente elas vêm com uma figura na sua parte superior caso você procure pela internet ou em livros didáticos da área de Bioestatística e essa figura é muito importante porque ela vai ajudar entender o que esse valor dentro da tabela significa Nossa tabela é unicaudal delimita em uma única cauda a área α delimitando essa re gião Mas se queremos encontrar um intervalo de confiança precisamos ter essa região α distribuída nas duas caudas Então temos que ter outra região α2 portanto para usar essa tabela vamos entrar com valor α2 porque somando o valor das duas caudas tenho o valor que o exercício me pede Tabela 4 Distribuição t de Student Probabilidade unicaudal de t de Student gl 1 1000 1886 1943 1895 1860 1833 1812 1796 1782 1771 1761 1753 1746 1740 1734 1729 1725 1721 1717 1714 1711 1708 1706 1703 1701 1699 1690 1697 1684 1684 1676 1645 1638 1533 1476 1440 1415 1397 1383 1372 1363 1356 1350 1345 1341 1337 1333 1330 1328 1325 1321 1319 1318 1316 1315 1314 1313 1311 1310 1306 1303 1301 1299 1282 1323 3078 6314 4303 3182 2776 2571 2447 2365 2306 2262 2228 2201 2179 2160 2145 2131 2120 2110 2101 2093 2086 2080 2074 2069 2064 2060 2056 2052 2048 2045 2042 2030 2021 2014 2009 1960 1271 3182 6366 1273 3183 2233 1021 7173 5894 5208 4785 4501 4297 4144 4025 3930 3852 3787 3733 3686 3646 3610 3579 3552 3527 3505 3485 3467 3450 3435 3421 3408 3396 3385 3340 3307 3281 3261 3090 1409 7453 5598 4773 4317 4029 3833 3690 3581 3497 3428 3372 3326 3286 3252 3222 3197 3174 3153 3135 3119 3104 3091 3078 3067 3057 3047 3038 3030 2996 2971 2952 2937 2807 9923 5841 4604 4032 3707 3499 3355 3250 3169 3106 3055 3012 2977 2947 2921 2898 2878 2861 2845 2831 2819 2807 2797 2787 2779 2771 2763 2756 2750 2724 2704 2690 2678 2576 6965 4541 3747 3365 3143 2998 2896 2821 2764 2718 2681 2650 2624 2602 2583 2567 2552 2539 2528 2518 2508 2500 2492 2485 2479 2473 2467 2462 2457 2438 2423 2412 2403 2326 2920 2353 2132 2015 0816 0765 0741 0727 0718 0711 0706 0703 0700 0695 0694 0692 0691 0690 0689 0688 0688 0687 0686 0686 0685 0685 0684 0684 0684 0683 0683 0683 0682 0681 0680 0679 0674 0697 025 010 005 0025 001 0005 00025 0001 00005 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 z 6366 3160 1292 8610 6869 5959 5408 5041 4781 4587 4437 4318 4221 4140 4073 4015 3965 3922 3883 3850 3819 3792 3768 3745 3725 3707 3689 3674 3660 3646 3591 3551 3520 3496 3291 Área indicada t valor tabelado α Nota A coluna em destaque é a mais usada Fonte Barbetta 2014 p 230 216 Figura 3 Representação do teste bicaudal para Tabela t Student Fonte a autora Figura 4 Representação para Tabela t Student Fonte a autora A soma das caudas da curva é igual ao valor de p ou seja o nível de significância α corresponde ao valor 1 p Podemos observar as características desta distribuição na Figura a seguir α2 α2 Intervalo de confiança Descrição da Imagem a figura apresenta em seu topo central a inscrição Intervalo de confiança acompanhada logo abaixo de uma curva em formato de sino dividida em duas partes iguais e as pontas do eixo estão pintadas destacandose pela cor cinza com duas setas destacando esses eixos Em ambos os eixos está escrito α2 Descrição da Imagem a figura apresenta uma curva em formato de sino dividida em duas partes iguais e as pontas do eixo es tão pintadas destacandose pela cor cinza com duas setas destacando esses eixos representando 25 em cada eixo O eixo do meio é igual a 95 25 25 95 Para entender melhor vejamos um exemplo Uma amostra de dez pessoas com as idades 9 8 12 7 9 6 11 6 10 e 9 tem em média 87 e um desvio padrão 2 e foi extraída de uma população Normal Construa um intervalo de confiança para média ao nível de 95 Para resolver nosso exercício temos que encontrar nosso tcrítico assim temos 95 é nosso intervalo de confiança Como nossa área interessada para trabalhar com essa tabela são as caudas vamos ter que encontrar esse valor Se a área é 95 temos 1 α 1 095 005 Será esse 005 que vamos procurar na Tabela t de Student Para entender como são distribuídos o intervalo e o α a figura a seguir traz essa representação para termos os 100 faltam 5 certo São esses 5 que são divididos nas caudas UNICESUMAR UNIDADE 7 217 Como você pode perceber os 95 é o que temos no nosso exercício e os 5 foram divididos nas duas áreas do gráfico representando 25 em cada cauda No entanto para utilizar a tabela t Student 25 que corresponde a cada cauda e que está apresen tado na própria tabela a figura com a área indicada Apenas mais um detalhe antes de ir à tabela é importante que você entenda que o grau de liberdade é igual a n 1 portanto temos 10 elementos para o grau de liberdade teremos 101 9 Assim vamos buscar 9 no que diz respeito ao grau de liberdade Vamos procurar linha 9 e coluna 25 na tabela vamos procurar α 0025 Vejamos a seguir Área indicada t valor tabelado α Área na cauda superior gl 1 1000 1886 1943 1895 1860 1833 1812 1796 1782 1771 1761 1753 1746 1740 1734 1729 1725 1721 1717 1714 1711 1708 1706 1703 1701 1699 1690 1697 1684 1684 1676 1645 1638 1533 1476 1440 1415 1397 1383 1372 1363 1356 1350 1345 1341 1337 1333 1330 1328 1325 1321 1319 1318 1316 1315 1314 1313 1311 1310 1306 1303 1301 1299 1282 1323 3078 6314 4303 3182 2776 2571 2447 2365 2306 2262 2228 2201 2179 2160 2145 2131 2120 2110 2101 2093 2086 2080 2074 2069 2064 2060 2056 2052 2048 2045 2042 2030 2021 2014 2009 1960 1271 3182 6366 1273 3183 2233 1021 7173 5894 5208 4785 4501 4297 4144 4025 3930 3852 3787 3733 3686 3646 3610 3579 3552 3527 3505 3485 3467 3450 3435 3421 3408 3396 3385 3340 3307 3281 3261 3090 1409 7453 5598 4773 4317 4029 3833 3690 3581 3497 3428 3372 3326 3286 3252 3222 3197 3174 3153 3135 3119 3104 3091 3078 3067 3057 3047 3038 3030 2996 2971 2952 2937 2807 9925 5841 4604 4032 3707 3499 3355 3250 3169 3106 3055 3012 2977 2947 2921 2898 2878 2861 2845 2831 2819 2807 2797 2787 2779 2771 2763 2756 2750 2724 2704 2690 2678 2576 6965 4541 3747 3365 3143 2998 2896 2821 2764 2718 2681 2650 2624 2602 2583 2567 2552 2539 2528 2518 2508 2500 2492 2485 2479 2473 2467 2462 2457 2438 2423 2412 2403 2326 2920 2353 2132 2015 0816 0765 0741 0727 0718 0711 0706 0703 0700 0695 0694 0692 0691 0690 0689 0688 0688 0687 0686 0686 0685 0685 0684 0684 0684 0683 0683 0683 0682 0681 0680 0679 0674 0697 025 010 005 0025 001 0005 00025 0001 00005 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 35 40 45 50 z 6366 3160 1292 8610 6869 5959 5408 5041 4781 4587 4437 4318 4221 4140 4073 4015 3965 3922 3883 3850 3819 3792 3768 3745 3725 3707 3689 3674 3660 3646 3591 3551 3520 3496 3291 Tabela 5 Distribuição t de Student Nota A coluna em destaque é a mais usada Fonte Barbetta 2014 p 230 Assim o valor encontrado é igual a 2262 Agora que temos o valor de tc vamos resolver nosso exercício Resolvendo nosso exercício voltando à equação temos 220 Teste bilateral A região crítica está nas duas regiões extremas caudas sob a curva Figura 5 Figura 5 Teste bilateral Fonte a autora Existem dois tipos possíveis de erros quando fa zemos um teste estatístico para aceitar ou rejeitar H0 Nós podemos rejeitar a hipótese H0 quando ela é verdadeira ou aceitar H0 quando ela é falsa MARTINEZ 2015 a saber O erro do tipo 1 quando rejeitamos H0 mesmo ela sendo verdadeira O erro do tipo 2 quando aceitamos H0 sendo H0 falsa O erro do tipo 1 é o mais prejudicial por isso é importante que seja evitado O limite superior de erro que admitimos cometer no tipo 1 é um percentual a que denominamos nível de signi ficância e que representamos pela letra grega α Exemplo α 5 Dentro do teste de hipóteses temos as regiões de aceitação e rejeição a saber Região de Aceitação RA é a região na qual se aceita a hipótese nula H0 Região de Rejeição RR é a região de rejeição da hipótese nula H0 sen do complementar à região de aceitação É também chamada de Região Crítica RC Como tipos de testes de hipóteses temos Bila teral Unilateral à Esquerda Unilateral à Direita sendo a região crítica ou região de rejeição que corresponde aos valores da estatística de teste que nos levam a rejeitar a hipótese nula Dependendo da afirmativa em teste a região crítica poderia estar nas duas caudas extremas poderia estar na cauda esquerda ou poderia es tar na cauda direita fz RA RR RR Zα2 Zα2 0 Descrição da Imagem a figura apresenta uma curva em for mato de sino Gauss dividida em duas partes iguais sendo a RA Região de Aceitação no centro do eixo e nas pontas deste temos duas extremidades como RR Região de Rejeição Na zona de RR do lado esquerdo da figura que representa a parte negativa está escrito α2 no lado direito da figura na outra extremidade no lado positivo está escrito α2 Teste unilateral à direita A região crítica está na região extrema cauda direita sob a curva Figura 6 Figura 6 Teste unilateral à direita Fonte a autora fz RA RR Zα 0 Descrição da Imagem a figura apresenta uma curva em formato de sino Gauss dividida em duas partes iguais sendo a RA Re gião de Aceitação na região direita dividida com um traço e sua extremidade direita temos a RR Região de Rejeição Na zona de RR do lado direito da figura no lado positivo está escrito α2 UNICESUMAR UNIDADE 7 221 Depois de apresentarmos os conceitos funda mentais dentro de um teste de hipótese você verá que não é um teste complicado a seguir vamos apresentar o roteiro para realização de um teste de hipóteses 1º passo Estabelecer a hipótese nula H0 2º passo Estabelecer a hipótese alternativa H1 3º passo Fixar o nível de significância α na qual definimos o nível de confiança para um intervalo de confiança como a probabilidade 1 α Escolhas comuns para α são 005 001 e 010 com 005 sendo a mais comum Os valores críticos de z relativos aos níveis de sig nificância usados com maior frequência podem ser observados a seguir valores já retirados da Tabela Z de distribuição normal reduzida Teste unilateral à esquerda A região crítica está na região extrema cauda esquerda sob a curva Figura 7 Figura 7 Teste unilateral à esquerda Fonte a autora Descrição da Imagem a figura apresenta uma curva em formato de sino Gauss dividida em duas partes iguais sendo a RA Região de Aceitação na região direita dividida com um traço e sua extremidade esquerda temos a RR Região de Rejeição Na zona de RR do lado esquerdo da figura que representa a parte negativa está escrito α2 fz RA RR Zα 0 Nível de significância α 010 005 001 Valores críticos de z para testes unilaterais 128 1645 233 Valores críticos de z para testes bilaterais 164 196 258 4º passo Determinar a região de rejeição da hipótese nula 5º passo Extrair a amostra e calcular o valor da estatística correspondente 6º passo Rejeitar ou aceitar H0 conforme o valor da estatística amostral cair em RR ou RA Vejamos um exemplo para entender melhor o teste de hipóteses Um professor de biomedicina fez uma pes quisa com um componente que será utilizado em laboratório que tem uma vida média de 50 meses e um desvio padrão de 50 meses Ao retirar uma amostra de 36 componentes que foram obtidas a partir dessa população per cebeu que o componente tem média 48 meses de vida Assim utilizando o teste de hipóteses podemos afirmar que a média desta população é diferente de 50 Considere o nível de 5 para resolução Nesse caso queremos obter o teste de hipóte ses com uma média diferente de 50 certo Então vamos utilizar o teste bilateral Resolvendo o exer cício passo a passo temos UNIDADE 7 223 Figura 9 Resumo do teste de hipóteses Fonte a autora Escreva a hipótese nula H0 e a hipótese alternativa H1 Para H0 você deve usar os símbolos ou Para H1 use ou Calcule o valor obsrvado Z obsevado t observado Aqui vamos usar tabela Z distribuição normal Aplique a fórmula Faça um gráfco de distribuição De acordo com a hipótese alternativa marque a região crítica do teste Lembrese Teste bilateral H1 possui símbolo Teste unilateral à esquerda H1 possui símbolo Teste unilateral à direita H1 possui símbolo 1 Passo 2 Passo 3 Passo Obtenha o valor do crítico de acordo com o nível de signifcância e com a região crítica utilizando a distribuição correspondente Marque o valor observado no gráfco Conclua o teste se o valor observado pertence a região de rejeição rejeite H0 aceite H1 se o valor observado não pertence a região de rejeição rejeite H1 4 Passo 5 Passo 6 Passo Descrição da Imagem a figura traz os sete passos do teste de hipóteses fazendo a leitura da esquerda para direita 1º passo Escreva a hipótese nula H0 e a hipótese alternativa H1 Para H0 você deve usar os símbolos ou Para H1 use ou 2º passo Faça um gráfico de distribuição De acordo com a hipótese alternativa marque a região crítica do teste Lembrese Teste bilateral H1 possui símbolo Teste unilateral à esquerda H1 possui símbolo Teste unilateral à direita H1 possui símbolo 3º passo Faça um gráfico de distribuição De acordo com a hipótese alternativa marque a região crítica do teste Lembrese Teste bilateral H1 possui símbolo Teste unilateral à esquerda H1 possui símbolo Teste unilateral à direita H1 possui símbolo 5º passo Marque o valor observado no gráfico 6º passo Conclua o teste se o valor observado pertence à região de rejeição rejeite H0 aceite H1 se o valor observado não pertence à região de rejeição rejeite H1 Para entendermos melhor vamos fazer um resumo do passo a passo do teste de hipóteses 224 Vejamos mais exemplo Supondo que a média salarial de diretores de uma clínica é menor que a de seu concorrente que é R 4500000 Uma amostra aleatória de 30 diretores de unidades da clínica é de R 4350000 Sabese que pesquisas anteriores mostraram que o desvio padrão dos salários é de R 520000 Teste a afirmação dos funcionários ao nível de significância de 5 Fazendo o passo a passo temos 1º passo Estabelecer a hipótese nula H0 H0 µ 45000 2º passo Estabelecer a hipótese alternativa H1 H1 45000 Lembrese para hipótese nula os símbolos que você poderá usar são Para H0 você deve usar os símbolos ou Para H1 use ou 3º passo No exercício foi dado 5 portanto o nível de significância α 005 4º passo Determinar a região de rejeição da hipótese nula H1 45000 vamos utilizar o teste unilateral à esquerda porque vamos testar a hipótese como valores menores do que 45000 que está no enunciado na qual podemos observar a Figura 10 Descrição da Imagem a figura apresenta uma curva em formato de sino Gauss dividida em duas partes iguais sendo a RA Região de Aceitação na região direita dividida com um traço e sua extremidade esquerda temos a RR Região de Rejeição Na zona de RR do lado esquerdo da figura que representa a parte negativa está escrito α2 Figura 10 Teste unilateral à esquerda Fonte a autora fz RA RR Zα 0 UNICESUMAR 226 Para saber o valor de Z vamos buscar na tabela de distribuição normal reduzida 04500 Para isso temos Tabela 6 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Ao observar na Tabela Z não temos o valor de 04500 exato temos dois valores que se aproximam 04495 e 04505 diante disso tiramos uma média entre os valores de z encontrados 164 e 165 temos portanto 1645 Agora que temos o valor de zcaculado e ztabelado vamos colocálo no gráfico para visualizar se vamos aceitar ou rejeitar H0 Figura 12 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 21 04821 04826 04830 04834 04838 04842 04846 04850 04854 04857 22 04864 04864 04868 04871 04875 04878 04881 04884 04887 04890 UNICESUMAR UNIDADE 7 227 Você sabia que a inferência estatística utiliza métodos estatístico em dados amostrais e em seguida tira conclusões sobre população inte ressada A partir de teste de hipóteses podemos fazer estes testes em outras palavras a inferência estatística busca inferir caracterís ticas de uma população interesse por meio de uma amostra Nossa roda de conversa vai trazer aplicações e a importância da inferência estatística na área de saúde 1645 RR 158 Descrição da Imagem a figura apresenta uma curva em formato de sino Gauss dividida em duas partes iguais sendo a RA Região de Aceitação na região direita dividida com um traço em sua extremidade esquerda temos a RR Região de Rejeição Na RR temos o valor de 1645 na RA temos 158 Figura 12 Teste unilateral à esquerda Fonte a autora Ao observar a Figura 11 o valor para rejeição ou valor crítico é o valor de ztabelado portanto 1645 E o valor de z calculado 158 está na re gião de aceitação Podemos observar que está fora da região crítica o valor calculado Então vamos aceitar H0 e rejeitar H1 6º passo Rejeitar ou aceitar H0 conforme o valor da estatística amostral cair em RR ou RA Então vamos aceitar H0 e rejeitar H1 Nesse exer cício temos Ao nível de 5 não há evidências que os sa lários médios dos funcionários sejam inferiores ao dos correntes 228 Você sabia que profissionais da saúde também fazem pesquisas e com isso precisam de ferramentas estatísticas E que o uso inadequado de es tatística pode trazer muitos erros de interpretação de artigos científicos Saiba mais fazendo a leitura do artigo com a autoria de Célio F de Sousa Rodrigues Fernando José Camello de Lima e Fabiano Timbó Barbosa intitulado de Importância do uso adequado da estatística básica em pesquisas clínicas que teve como objetivo trazer um artigo de revisão bibliográfica para alertar autores e leitores sobre a importância do relato adequado e uso de ferramentas da estatística no qrcode a seguir É muito importante que profissionais da área de saúde façam pesquisas e para isso a Bioes tatística traz muitas formas de servir como ferramenta para estas pesquisas por isso fazse importante o conhecimento a leitura e aplicação nesta área tão importante para formação destes profissionais Nesse momento estudamos os testes de hi póteses e vimos como aceitar ou rejeitar uma hipótese nula ou alternativa e isso pode ser interessante para área da saúde UNICESUMAR 229 No mapa mental a seguir faça um esquema sobre o teste de hipóteses destacando o seu passo a passo Fazer desenho Teste de Hipóteses Entender o tipo de teste Criar Hipóteses Hipótese Nula Aceitar ou rejeitar Hipótese Alternativa Aceitar ou rejeitar Consulta a tabela Z 230 1 Para calcular o valor crítico de α2 devese ver o nível de confiança que por exemplo é de 95 ou seja 095 Agora dividimos o valor por 2 para obter 0475 Agora precisamos consultar a Tabela Z para ver a área correspondente o valor encontrado foi de 196 A tabela utilizada neste exemplo foi a a Distribuição Normal b Distribuição Binomial c Distribuição t de Student d Correlação Linear e Regressão Linear 2 A associação Brasileira de Química analisou que em média 62 dos medicamentos são des cartados incorretamente acarretando poluição no solo e na água Considerando um nível de significância de 6 teste a hipótese H0 µ 63 e H1 µ 63 Sabendose que o valor de zcalculado é igual a 125 e o valor de ztabelado é igual a 155 podese concluir que a Como zcaclulado é menor de 155 ele está na zona de aceitação b Como zcaclulado é maior de 155 ele está na zona de aceitação c Como zcaclulado é menor ou igual a 155 ele está na zona de aceitação d Como zcaclulado é maior de 155 ele está na zona de rejeição e Como zcaclulado é menor de 125 ele está na zona de aceitação 3 Um professor fez um experimento com uma amostra de 100 peças com um tempo médio de vida de 5012 minutos e desvio padrão igual a 4 O intervalo de confiança para média popula cional com 95 de confiança é igual a a 5012 0998 IC b IC 5012 1775 c 5012 375 IC d 5012 499 IC e 5012 0784 IC 231 4 Sabemos que um intervalo de confiança é um parâmetro de interesse em uma população o qual podemos determinar a partir de amostras conhecidas Se temos uma amostra igual a 12 vamos determinar o intervalo de confiança utilizando a Distribuição Normal b Distribuição Binomial c Distribuição t de Student d Correlação Linear e Regressão Linear 8 Nesta unidade vamos trabalhar com testes Primeiro vamos estudar o teste quiquadrado que é utilizado para dados categóricos em que se trabalha para avaliar a diferença de dois dados categóricos entre si veremos como calcular passo a passo Também vamos estudar o teste de kappa que é um teste que será utilizado para analisar a concordância entre dois ou mais juízes quando fazem uma avaliação nominal ou ordinal bem aplicado na área de saúde para diagnósticos Testes Me Renata Cristina de Souza Chatalovv 234 Alguma vez em uma pesquisa você já teve que fazer uma análise de concordância com outros avalia dores de um trabalho com relação à variável dependente que você estava analisando Você sabe o que é um teste de concordância para variáveis qualitativas Geralmente as análises de concordância são feitas nas etapas de calibração dos avaliadores em uma pesquisa sempre feito no início de um trabalho quando temos vários examinadores por exemplo quando temos por exemplo novecentos pacientes dificilmente é feito por um único avaliador assim os avaliadores passam por etapas de treinamento em que eles calibram os parâmetros que vão ser utilizados para diagnóstico de um paciente Depois de treinados são feitas as análises de concordância Imagine que temos um grupo com 900 pacientes o avaliador A examina 300 pacientes o avaliador B 300 pacientes e o avaliador C 300 pacientes e os três são pessoas diferentes avaliando pacientes diferentes e em locais diferentes no entanto se eles estiverem calibrados na prática é como se fossem uma única pessoa avaliando os 900 pacientes e para que na prática não haja grandes discrepâncias entre eles ou influências individuais no diagnóstico do paciente e por isso é importante eles concordarem por isso é feito no início de uma pesquisa Experimente fazer o diagnóstico acerca de uma situação com um ou dois colegas Aqui você já pode perceber que a Bioestatística vai além de trazer números podemos trabalhar na organização de dados categóricos e que podem ser úteis na área de saúde Voltando ao nosso experimento agora que você já trabalhou com o grupo de 900 pacientes será que os avaliadores estão calibrados Será que vão concordar Vão ter a mesma opinião ou parecida UNICESUMAR UNIDADE 8 235 Um teste que utiliza a distribuição quiqua drado como estrutura probabilística e por esta razão são denominados testes quiquadrado é usado para variáveis discretas ou seja categóri cas provenientes de uma população como por exemplo mortalidade ou achados patológicos entre outros MARTINEZ 2015 O valor de quiquadrado é um estimador da discrepância entre frequências esperadas e obser vadas estabelecendo se as diferenças encontradas se devem ou não à casualidade VIEIRA 2011 A classificação de observações em geral de variáveis qualitativas de acordo com dois crité rios é referida como tabela de contingência assim primeiramente vamos estudar o teste quiqua drado em tabelas de contingência Para enten der vejamos a situação a seguir Sejam duas variáveis qualitativas que pode mos chamar de A e B O teste quiquadrado tem como objetivo testar as hipóteses H0 A e B são independentes não há asso ciação entre A e B Ha A e B não são independentes há algum tipo de associação entre A e B programa de atividades físicas tendem a apresen tar frequências diferentes de queixas de zumbido MARTINEZ 2015 É importante salientar que associação não significa casualidade se rejeitarmos a hipótese nula não estamos dizendo que há evidências de que o programa de atividade física provoca ou previne zumbidos Não estamos estabelecendo relações de causa e efeito somente estamos verificando se há uma frequência maior ou menor de queixas de zumbidos em quem participa ou não do programa de atividades físicas MARTINEZ 2015 Assim o teste quiquadrado de associação tem esse nome porque se baseia em uma re gra de decisão em uma quantidade obtida de nossos dados é um suposto resultado de uma distribuição quiquadrado quando a hipótese nula é verdadeira VIEIRA 2011 Qui significa a letra χ do alfabeto grego sendo que nossas variáveis de interesse são qualitativas A distribuição Quiquadrado para Martinez 2015 e Vieira 2011 acreditase que tenha sido apresentada pela primeira pelo matemático ale mão Friedrich Robert Helmert 18431917 Por volta de 1900 o estatístico britânico Karl Pearson 18571936 estudou as propriedades desta dis tribuição de probabilidades e propôs seu uso em testes de associação entre variáveis qualitativas Sendo X uma variável aleatória que segue uma distribuição norma padrão com média 0 zero e desvio padrão igual a 1 Ao elevarmos X ao qua drado dizemos que X2 segue uma distribuição quiquadrado com 1 grau de liberdade Enquanto uma variável segue uma distribuição normal pode assumir valores negativos e positivos uma variável que segue distribuição quiquadrado com 1 grau de liberdade assume apenas valores maiores que zero conforme a figura a seguir Figura 1 Supondo que temos interesse em estudar sobre a queixa de zumbidos em idosos presente ou ausente se está associado a algum programa de atividade física se participou ou não A hipótese nula estabelece que não há associação entre as duas variáveis de modo que a participação ou não do idoso no programa de atividade física não tem nenhuma relação com as queixas de zumbido Enquanto a hipótese alternativa estabelece que idosos que participaram e não participaram do 236 Se X1 X2 X3 Xm são variáveis independentes entre si que seguem uma distribuição normal padrão temos que a soma entre elas segue uma distribuição quiquadrado Para entender o teste quiquadrado vamos descrever que as variáveis qualitativas de interesse são binárias Denominamos de binárias as variáveis qualitativas que assumem apenas duas possíveis classificações como por exemplo portador de doença sim ou não fumante sim ou não pratica atividade física sim ou não Primeiramente vamos organizar a tabela de dados que chamamos de tabela de contingência ou tabela 2 x 2 Podemos observar na Tabela 1 a seguir 3 2 1 0 1 2 3 4 0 2 15 1 05 0 1 2 3 4 5 x2 segue uma distribuição quiquadrado com grau de liberdade Descrição da Imagem fazendo a leitura da esquerda para a direita a distribuição normal apresenta uma curva de Gauss em forma de um sino iniciando em menos quatro menos três menos dois menos um zero um dois três quatro sendo que no valor de zero a curva está dividida com uma reta no valor zero Em seguida temse uma seta apontando para frente aí temse uma curva em que os valores de x horizontal vão de zero a cinco no eixo y vertical zero zero vírgula cinco um um e meio e dois Tem uma curva de crescente que inicia leitura em valores de x horizontal e y vertical x 0 e y 18 x 1 e y 025 x 2 e y 020 x 3 e y 015 x 4 e y 010 x 0 e y 01 Figura 1 Relação entre a distribuição normal padrão e uma distribuição quiquadrado com 1 grau de liberdade Fonte adaptada de Martinez 2015 Se as quantidades a b c e d que aparecem na Tabela 1 se referem a frequências absolutas tais que n a b c d assim temos a indivíduos classificados simultaneamente na categoria 1 da variável A e na categoria 1 da variável B b indivíduos classificados simultaneamente na categoria 2 variável A e na categoria 1 da variável B c indivíduos classificados simultaneamente na categoria 2 da variável A e na categoria 2 da variável B MARTINEZ 2015 Tabela 1 Tabela de contingência ou 2 x 2 Variável A Variável B categoria 1 categoria 2 Total categoria 1 a b a b categoria 2 c d c d Total a c b d n a b c d Fonte adaptada de Martinez 2015 p 252 UNICESUMAR 244 Para entender melhor o que é neoplasia intraepitelial diagnóstico e tra tamento que utilizamos no nosso exemplo aplicando o teste de kappa entre dois avaliadores leia o artigo a seguir Os resultados estão apresentados na Tabela 8 a seguir dados fictícios Observador 2 Observador 1 Total Sem lesão NIC 1 NIC 2 NIC 3 Sem lesão 19 10 2 1 32 NIC 1 6 54 2 0 62 NIC 2 2 9 15 1 27 NIC 3 0 1 6 10 17 Total 27 74 25 12 138 Observador 2 Observador 1 Total Sem lesão NIC 1 NIC 2 NIC 3 Sem lesão 19 10 2 1 32 NIC 1 6 54 2 0 62 NIC 2 2 9 15 1 27 NIC 3 0 1 6 10 17 Total 27 74 25 12 138 Tabela 8 Resultados da pesquisa Tabela 9 Resultados da pesquisa com os destaques em comum entre observador 1 e 2 Fonte a autora Fonte a autora Assim cada um classificou as lâminas de acordo com as classificações já denominadas De acordo com esses resultados podemos observar destacados na Tabela 9 os resultados em comum entre os dois observadores UNICESUMAR 250 O coeficiente de kappa mede o grau de con cordância além do esperado Então tendo que a concordância já é de 50 o kappa para ser significativo precisa passar desse 50 Se acer tamos 50 48 ou 42 por exemplo significa que não estamos acertando nada além do chute Nesse caso o coeficiente vai ter o valor de zero Assim o kappa varia de zero quando não há uma concordância além da esperada ou 1 quando há 0 50 100 1 0 Descrição da Imagem na imagem temos uma reta na horizontal que está dividida em duas partes sendo um traçado acima mais forte de cor preta entre zero por cento 0 a cinquenta por cento 50 depois de cinquenta por cento 50 a cem por cento 100 Abaixo da reta no cinquenta por cento 50 temos o número zero e abaixo do cem por cento 100 o número um 1 Figura 3 Representação do percentual Fonte a autora Dessa forma o teste de kappa vai estimar a concordância além da casualidade na qual poderíamos fazer um questionamento qual a probabilidade em acertamos o diagnóstico ao definir a presença de cárie em um indivíduo Assim temos duas chances com cárie ou sem cárie Figura 4 Descrição da Imagem na imagem que é uma ilustra ção temos quatro dentes o segundo dente está com um desenho significando uma expressão triste no topo do dente ao lado di reito temos uma crosta de cor marrom claro e acima desta crosta temos o ins trumento de um dentista Figura 4 Dentes com e sem cárie determinado dente Nessa situação apresentada temos apenas duas possibilidades ou o dente está cariado ou não tem cárie Se não examinarmos a radiografia e chutar temos 50 de chances em acertar porque só temos duas opções Figura 3 uma concordância perfeita quando no caso exa minamos um conjunto de dentes por exemplo dez dentes e acertamos o diagnóstico de todos os dez dentes examinados Para fazer a estatística kappa e para o teste de kappa podemos utilizar um site que irá determi nar esse kappa httpvassarstatsnet Para fazer o teste de kappa utilizando esse site online você pode seguir os passos UNICESUMAR 252 Agora que você abriu o site você vai clicar em select the number of categories e clicar em 2 por exemplo vai rolar a barra de rolagem e terá uma tabela semelhante a que está apresentada a seguir No exemplo da cárie supondo que queremos fazer uma análise de concordância do diagnóstico de cárie na qual examinamos dentes diretamente e examinamos radiografia queremos saber se o meu diagnóstico de cárie é diferente se examinamos a radiografia em relação ao exame clínico diretamente Figura 6 Fonte adaptado de Vassarstats 2023 online B Totals A 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 Totals Quadro 1 Ilustração do teste de kappa Resert Calculate Descrição da Imagem na imagem temos o raio x da boca de uma pessoa onde é possível observar os den tes a imagem é toda de cor es cura como um raio x de qual quer parte do corpo Figura 6 Raio x de dentes UNICESUMAR UNIDADE 8 253 Para ilustrar melhor e como vamos entrar com os dados para fazer o teste de kappa vamos supor que examinamos 31 dentes diretamente ou seja no exame clínico foram examinados 31 dentes Destes 31 dentes no exame clínico 16 foram sim para cárie e 15 não para cárie E quando fizemos o exame radiológico dissemos que 15 tem cárie e 16 não tem cárie Agora vamos lançar esses valores no site para calcular o teste de kappa para isso vamos escrever onde inserimos os dados clínicos e radiológicos sendo que a entrada do exame radiológico será no A e clínico será no B Agora você vai repetir os passos entrar no site e abrir a parte que diz sobre KAPPA AS MEASURE OF CONCORDANCE IN CATEGORICAL SORTING que vamos inserir os dados para simular os dados inseridos vamos escrever no Quadro 2 a seguir Agora que você abriu o site você vai clicar em select the number of categories e clicar em 2 por exemplo vai rolar a barra de rolagem e terá uma tabela semelhante a que está apresentada a seguir Isso significa que ao analisarmos o exame clínico observação na consulta odontológica resumida mente temos Exame de 31 dentes 16 tem cáries 15 não tem cáries B EXAME CLÍNICO Totals A Radiológico SIM NÃO 3 4 5 6 7 8 SIM 10 5 NÃO 6 10 3 4 5 6 7 8 Totals Quadro 2 Ilustração do teste de kappa Fonte adaptado de Vassarstats 2023 online Resert Calculate 254 Ao observar no exame radiológico temos Exame de 31 dentes 15 tem cáries 16 não tem cáries Mas vejam que o meu diagnóstico clínico concorda com meu exame radiológico nas situações que Digo sim há cárie pelo diagnóstico clínico e sim há cárie pelo diagnóstico radiológico Digo não há cárie pelo diagnóstico clínico e não há cárie pelo diagnóstico radiológico Ao observamos no Quadro 3 temos que analisar quando há concordância Quadro 3 Ilustração do teste de kappa Fonte adaptado de Vassarstats 2023 online Resert Calculate B EXAME CLÍNICO Totals A Radiológico SIM NÃO 3 4 5 6 7 8 SIM 10 5 15 NÃO 6 10 16 3 4 5 6 7 8 Totals 16 15 31 Portanto temos Em 20 situações sim de um total de 31 dentes analisados na equação temos 20 31 UNICESUMAR UNIDADE 8 255 Você sabia que um teste quiquadrado basicamente é comparar propor ções isto é analisa possíveis divergências entre frequências observadas e encontradas em determinadas situações Sabia que se é um teste objetiva a encontrar um valor da dispersão para duas variáveis categóricas nominais e avaliar a associação existente entre variáveis qualitativas Nossa roda de conversa vai trazer mais um pouco sobre o teste quiquadrado e suas aplicações na área de saúde Ou em um acaso acertaríamos algo entre 15 16 concordâncias Estamos tendo 20 concordâncias sim há cáries tanto no exame clínico quanto no exame radiológico mas será que 20 é tão diferente em acertar 15 16 Ou não há uma concordância além da esperada estatisticamente porque vejam de 31 dentes analisados total acertamos 20 pares concordantes mas também houve 11 pares discordantes Agora que os dados foram lançados no software vamos rodar a estatística kappa para isso basta clicar no botão CALCULATE Dessa forma podemos entender que ao fazer a leitura no teste temos quatro colunas na primeira coluna temos observed kappa significa kappa observado com um resultado de 02911 Agora vamos fazer a leitura pelo Método 1 Estimativa de Cohen 1960 como erro padrão temos 01717 Com intervalo de confiança no limite inferior o valor é igual a zero e no limite superior 06276 Pelo Método 2 Estimativa complexa descrita em Fleiss e Cohen 1969 o erro padrão é 01714 limite inferior de 95 do intervalo de confiança 0 e limite superior 0627 Abaixo temos 09356 Kappa ponderado dadas as frequências observadas 03111 observado como proporção do máximo possível Interpretando o resultado após rodar o software temos kappa observado igual a 02911 não é igual zero caso fosse igual a zero significaria que não tenho nenhuma concordância além da esperada Importante examinar o intervalo de confiança que no caso é de 95 O intervalo de confiança temos um limite inferior de zero e limite superior de 06276 significa que se repetir umas cem vezes o teste noventa e cinco vezes o kappa vai dar entre 0 a 06276 Observe que o zero que seria a ausência da concordância além da esperada está incluído no meu intervalo de confiança portanto apesar desse valor vamos concluir que essa concordância de ela não é maior do que a concordância por mero acaso ou por chute Então não há uma boa concordância entre o exame clínico e o exame radiológico por essas avaliações Existem n testes na área de saúde basta você ter um objetivo a ser estudado e entender as variávelis a serem estudadas 20 31 256 Você sabia que o teste Chi Quadrado de Pearson é um teste de hipóteses estatístico utilizado para comparar duas variáveis categóricas também conhecido como apenas Qui Quadrado Muito utilizado para realizar comparações entre tratamentos de tabelas 22 ou maiores Saiba mais sobre esse assunto acessando a seguir É muito importante que profissionais da área de saúde entendam sobre variáveis e como vão condu zir e validar suas propostas para isso a Bioestatística traz muitas formas de servir como ferramenta para estas pesquisas e os testes quiquadrado e teste de kappa são aplicações importantes na área da saúde UNICESUMAR 257 1 Das observações das variáveis categóricas surgem dados categóricos que servem para iden tificar categorias que podem ser subdivididas em variáveis qualitativas ou quantitativas sendo que as qualitativas podem ser nominais ou ordinais O teste quiquadrado é um teste não paramétrico usado para identificar um valor de dispersão entre os resultados esperados Diante desse contexto explique as possíveis hipóteses desse teste 2 Na área da saúde existem vários testes a serem aplicados sendo um deles o teste de kap pa Sendo assim o teste de Kappa é utilizado na etapa de calibração entre avaliadores de uma pesquisa e serve para avaliar a concordância entre eles avaliadores quando a variável dependente é qualitativa nominal ou qualitativa ordinal Com base nessa informação como interpretar o coeficiente de concordância de Kappa 3 O teste quiquadrado podese usar tabelas de contingência para verificar melhor a estatística apresentada tendo o teste de aderência e independência Diante desse contexto explique o que significa o teste de aderência 9 Nesta unidade vamos trabalhar com Informática aplicada à Bioestatística Aqui vamos trabalhar com o Excel por ser um programa acessível a todos vamos iniciar nossos estudos conhe cendo as planilhas buscando funções em suplementos e vamos trabalhar passo a passo em funções da estatística descritiva e na construção de gráficos Também vamos ver que podemos utilizar o Excel nas probabili dades em testes de hipóteses testes com a tabela t de student e teste quiquadrado Informática aplicada à Bioestatística Me Renata Cristina de Souza Chatalov 260 Alguma vez em uma pesquisa você já teve que tabular dados referentes a suas pesquisas Você já fez algum tipo de cálculo e ficou na dúvida se realmente era aquele valor Você já pensou que pode ser possível tirar uma prova real dos dados que está trabalhando Geralmente a tabulação de dados provenien tes de pesquisas inclusive na área da saúde é feita por meio de softwares específicos mas co mumente as pessoas utilizam o Excel porque já vem no pacote da Microsoft podemos trabalhar com gráficos tabelas cálculos simples e mais avançados e é um programa acessível Imagine que um professor de cursos na área de saúde quer saber a média de sua turma quer comparar com outros cursos para isso precisa calcular média moda mediana variância des vio padrão Supondo que cada turma tem 40 alu nos e esse professor tem 10 turmas Totalmente inviável fazer o cálculo algebricamente porque tomaria muito tempo Com isso esse professor pode utilizar calculadoras específicas ou o Excel assim rapidamente ele pode ter os dados e fazer as comparações utilizando equações e funções bem simples Faça igual a esse professor colete as notas de 10 colegas da mesma disciplina insira esses dados no Excel e calcule essas medidas Você verá que é bem prático o uso do Excel Aqui você já pode perceber que softwares espe cíficos podem ajudar nos cálculos e na tomada de decisões e que não seria diferente na área de saúde nem na disciplina de Bioestatística Esses progra mas vão além de trazer números vão nos ajudar a ganhar tempo e a tabular resultados de pesquisas UNICESUMAR UNIDADE 9 261 Agora que já entendemos de maneira algébrica a Bioestatística voltada a aplicações na área de saúde podemos muitas vezes utilizar a informática para facilitar nossos cálculos mas é importante frisar que precisamos ter senso na análise dos dados por isso a Bioestatística é uma ferramenta que profissionais de saúde podem utilizar para gestão e tomada de decisões Dessa forma sabese que os programas estatísticos facilitam a análise de grandes conjuntos de dados e podem nos trazer análises complexas dos dados Temos inúmeros programas estatísticos de armazenagem de dados O programa Microsoft Excel foi desenvolvido para armazenar e administrar dados Além disso ele possui um conjunto de funções e rotinas para a realização de cálculos gráficos e estatística básica que podem ser aplicáveis à área de Bioestatística que podemos trabalhar com variáveis envolvendo cases e situações na área da saúde Primeiro vamos conhecer o Excel Temos a planilha do Excel que tem vários componentes facilmen te identificáveis em que cada célula selecionada fica realçada em negrito Essa célula é identificada por uma coluna letra e uma linha número que estão em negrito Cada planilha do Excel tem 1048576 linhas e 16384 colunas Excel 2013 a 2017 Podemos observar a configuração da planilha na Figura 1 Descrição da Imagem temos uma planilha quadriculada em que a célula marcada é coluna A linha 1 portanto A1 As colunas vão de A ao P e as linhas de 1 ao 27 Figura 1 Planilha do Excel Fonte a autora 262 Temos que a letra e o número correspondente à célula estão escritos à esquerda acima da planilha e a descrição do conteúdo da planilha fica logo ao lado Na parte inferior da pasta de trabalho está a planilha selecionada e a barra de navegação da planilha No Excel temos também a barra de Menus que pode ser personalizada pelos usuários e nesse programa podemos inserir três tipos de dados fórmulas textos e números Para editar a planilha temos algumas ferramentas de edição comuns aos aplicativos da Microsoft como copiar ctrl c e colar ctrl v que funcionam bem aqui Além disso o Excel possui várias peculiaridades que facilitam a manipulação dos dados como o colar especial Essa função pode ser encontrada no início ou clicando com o botão direito do mouse ao acionar a função aparecerá a caixa de diálogo conforme Figura 2 Descrição da Imagem temos duas colunas com botão em branco para ser clicado temos de colar especial de cima para baixo fazen do a leitura as palavras o tópico colar tudo fórmulas valores formatos comentários e anotações validação na segunda coluna à direita da opção colar temos todos usando tema da origem tudo exceto bordas larguras da coluna fórmulas e formatos de número valores e formatos de número todos os formatos condicionais de mesclagem Abaixo na coluna operação temos de cima para baixo nenhuma adição subtração multiplicação e divisão Abaixo temos ignorar em branco e transpor abaixo tem um botão colar vínculo botão OK e botão cancelar Figura 2 Colar especial Microsoft Excel Fonte a autora Temos também o menu Inserir com várias opções como gráficos imagens objetos símbolos entre outros Com o botão direito do mouse você pode inserir colunas ou células de acordo com o que foi selecionado A seta do mouse no Excel tem a forma de mais que muda de forma quando está no canto inferior esquerdo da região selecionada possibilitando copiar ou inserir mais dados UNICESUMAR UNIDADE 9 263 A barra de fórmulas além de exibir o conteúdo da célula permite inserir fórmulas e funções Para inserir fórmulas e funções devese colocar inicialmente o sinal de igual É de suma importância para cálculos podemos visualizar na Figura 3 Descrição da Imagem temos um print do Excel com a barra selecionada pela cor vermelha Na barra que está selecionada fazendo a leitura da esquerda para a direita temos um x seguido de outro símbolo e de fx sendo lá que será inserida a fórmula Figura 3 Barra de fórmulas no Excel Fonte a autora Para as equações em geral temos algumas funções que o próprio disponibiliza ao usuário Elas podem ser aplicadas a um conjunto de dados ou a apenas uma célula O acesso à caixa de diálogo das funções é feito clicando na barra de fórmulas ou seja basta clicar em fx que abrirá as funções que pode ser visualizado na Figura 4 Descrição da Imagem na figura podemos ver a opção inserir função de cima para baixo procure por uma fun ção abaixo ou selecione uma categoria e está escrito mais recentemente usada abaixo selecione uma função lendo de cima para baixo temos aleatório correl invt med fa torial distrbinom soma Abai xo à direita temos as opções Ok e Cancelar Figura 4 Funções Microsoft Excel Fonte a autora 264 Aqui em Bioestatística para facilitar nossos cálculos na opção selecione uma categoria você pode selecionar a opção Estatística que na opção selecione uma função abrirá todas as funções que podem ser utilizadas em Bioestatística em ordem alfabética As estimativas e apresentações descritivas dos dados podem ser plenamente realizadas no Excel por meio das funções equações gráficos e através da caixa de diálogo análise de dados É importante salientar que fórmulas e funções são visualizadas na barra de fórmulas que você já viu na Figura 3 apresentada anteriormente O Excel possui um conjunto de rotinas estatísticas que estão no suplemento análise de dados A instalação deste suplemento varia conforme a versão do Excel Sequência de instalação personalizar barra de ferramentas de acesso rápidomais comandossuplementos ferramentas de análise Figura 5 Descrição da Imagem temos um print da versão mais antiga do Excel que está escrito Personalizar Barra de Ferramentas de Acesso Rápido no outro lado da figura temos Opções do Excel que está selecionado de cor laranja claro a palavra suplementos seguida da seleção em azul Ferramentas de análise VBA gerenciar suplementos do Excel Ir OK Figura 5 Análise de dados Microsoft Excel Fonte a autora Ao buscar a opção análise de dados no menu dados irá abrir as Ferramentas de análise basta sele cionar qual você vai querer e clicar em OK UNICESUMAR UNIDADE 9 265 Em versões mais atuais do Excel o caminho muda um pouco sendo que basta clicar em menu Arquivo em seguida ir até opções clicar em su plementos ferramentas de análise VBA geren ciar suplementos do Excel Ir e OK Para buscar as ferramentas a mesma coisa que outras versões clicar em menu dados e escolher Vejamos um exemplo supondo que temos os dados n controle caso 1 e caso 2 que podem ser observados na Figura 6 Descrição da Imagem na célula A temos o n célula B con trole Célula C caso 1 Célula D caso 2 na célula A7 temos a soma A8 média DP na célula A9 A10 com a mediana Figura 6 Tabela com casos Microsoft Excel Fonte a autora O importante nesse exemplo não são os valores mas sim as fórmulas que podemos utilizar as equações que utilizamos para calcular o con trole por exemplo que estão na coluna B entre as células B2 até B6 Para somar a função a ser utilizada será SO MAXXXX portanto para somar o controle você pode clicar na barra de fórmulas fx e buscar a fun ção soma ou digitar a fórmula SOMAB2B6 e clicar em ENTER Para somar o caso 1 basta digitar a fórmula SOMAC2C6 e clicar em ENTER E para somar o caso 2 basta digitar a fórmula SO MAD2D6 e clicar em ENTER Para o cálculo da média quando estudamos algebricamente consiste na somatória de todos os elementos divididos pelo total aqui no Excel vamos utilizar a função MÉDIAXXXX signi ficando o XX a célula e os dois pontos até Assim para calcular a média do controle temos que usar a função MÉDIAB2B6 e clicar em ENTER Para calcular a média do caso 1 basta digitar a fórmula MÉDIAC2C6 e clicar em ENTER E para somar o caso 2 basta digitar a fórmula MÉDIAD2D6 e clicar em ENTER Para o cálculo do desvio padrão alge bricamente temos que calcular a variância que é o quadrado dos desvios em relação à média depois que encontramos a variância tiramos a raiz quadrada para obter o desvio padrão No Excel basta utilizar a função DESVPADXXXX Portanto para calcular o desvio padrão do controle basta utilizar a função DESVPAD B2B6 e clicar em EN TER Para calcular o desvio padrão do caso 1 basta digitar a fórmula DESVPAD C2C6 e clicar em ENTER E para determinar o des vio padrão do caso 2 basta digitar a fórmula DESVPAD D2D6 e clicar em ENTER Para calcular a mediana algebricamente primeiro você coloca obrigatoriamente os elementos em rol ou seja em ordem normal mente crescente Aqui no Excel não precisa mos colocar em rol basta usar a função ME DXXXX Assim para calcular a mediana do caso 1 basta digitar a fórmula MED C2C6 e clicar em ENTER E para determinar a me diana do caso 2 basta digitar a fórmula ME DD2D6 e clicar em ENTER 266 Resumindo temos Para somar utilize a função SOMAXXXX Para calcular a média utilize a função MÉDIAXXXX Para calcular a mediana utilize a função MEDXXXX Para calcular o desvio padrão utilize a função DESVPADXXXX Descrição da Imagem na tela temos a tabela de n lendo de cima para baixo 1 2 3 4 5 abaixo está escrito em negrito a palavra soma na célula A7 na célula A8 em negrito a palavra média célula A9 DP célula A10 mediana em negrito Na coluna B está escrito Controle fazendo a leitura de cima para baixo temos 128795 Na célula B7 41 em negrito célula B8 82 célula B9 258844 e célula B10 8 Na coluna C está escrito caso 1 fazendo a leitura de cima para baixo dos valores temos 47123 Na célula C7 está escrito 17 em negrito na célula C8 34 célula C9 230217e célula C10 3 Na coluna D temos fazendo a leitura de cima para baixo 27918 Na célula D7 27 em negrito célula D8 54 célula D9 364692 e D10 7 Tem uma tela na frente escrita estatística descritiva aberta está escrito intervalo de entrada com as células A1D6 e flecha para cima agrupado por com opção selecionada colunas no item opções de saída está selecionada nova planilha abaixo está selecionada a opção resumo estatístico Figura 7 Estatística de dados Microsoft Excel Fonte a autora Você também pode querer obter toda a estatística descritiva destes dados para isso vamos precisar ir até o Menu Dados ir até análise de dados mas para isso antes é preciso que você busque na opção suplementos Ferramentas de Análise VBA se não fez isso não vai conseguir já explicamos ante riormente como busca essa função Em seguida escolha a opção análise de dados depois clique em estatística descritiva vai abrir para você a tela que podemos observar na Figura 7 UNICESUMAR UNIDADE 9 267 Para buscar os dados basta selecionar as células que você quer o resumo estatístico agrupar por colunas pedir opção nova planilha e selecionar a opção resumo estatístico e clicar em OK As opções específicas desta caixa de diálogo são Resumo estatístico vai gerar um campo para cada uma das seguintes estatísticas na tabela de saída média erro padrão da média mediana modo desvio padrão va riância curtose distorção intervalo míni mo máximo soma contagem maior n menor n e nível de confiança Nível de confiança da média insere o nível de confiança a ser utilizado Enésimo maior mostrará o maior número dentro da ordem selecionada 1 máximo 2 2º maior Caso você queira também saber do erro padrão ele está determinado a partir da função estatística descritiva explicada O Excel também pode ser útil aqui na Bioesta tística e em sua vida profissional na criação de gráficos que pode ser feita pelo menu Inserir e escolher a opção de gráficos Por exemplo em um pronto atendimento du rante cinco dias da semana foram feitos os aten dimentos que podem ser observados na Tabela 1 Tabela 1 Atendimentos em pronto atendimento Dia da semana Atendimentos Segunda 10 Terça 15 Quarta 28 Quinta 14 Sexta 11 Fonte a autora 268 Descrição da Imagem o gráfico tem colunas de cor azul claro na opção vertical sendo apresentados os dias da semana o número de aten dimentos sendo segunda 10 terça 15 quarta 28 quinta 14 e sexta 11 Na vertical à es querda os números vão de zero a trinta de baixo para cima de cinco em cinco Na horizontal abaixo temos os dias da semana segunda ter ça quarta quinta e sexta da esquerda para direita Figura 8 Gráfico de colunas Fonte a autora Com esses dados vamos construir um gráfico de colunas no Excel Para isso basta selecionar os dados na planilha menu inserir e em seguida escolher a opção colunas Figura 8 Você também pode fazer com os mesmos dados um gráfico de barras Para isso basta selecionar os dados na planilha menu inserir e em seguida escolher a opção barras Figura 9 Descrição da Imagem o gráfico tem barras de cor azul claro na opção horizontal sendo apre sentados os dias da semana o número de atendimentos sendo segunda 10 terça 15 quarta 28 quinta 14 e sexta 11 Na vertical à esquerda temos os dias da semana se gunda terça quarta quinta e sexta de cima para baixo Na horizon tal abaixo os números vão de zero a trinta da esquerda para direita de cinco em cinco Figura 9 Gráfico de barras Fonte a autora UNICESUMAR UNIDADE 9 269 O Microsoft Excel é útil para cálculos para gráficos e para tirar prova real de cálculos que fazemos algebricamente Tabela 2 Atendimentos em pronto atendimento Fonte a autora Nível da dor Frequência Fi 1 30 2 36 3 10 4 60 5 24 Total 160 Outros gráficos podem ser construídos no Excel também basta eles atenderem e apresentarem os dados referentes a sua pesquisa No Excel também podemos ter o cálculo de porcentagens que podem ser obtidas por meio de tabelas ou histogramas Para o cálculo de porcentagens simples e acumulada primeiro calcule a soma dos dados utilizando a função SOMAB2B7 Depois calcule a porcentagem usando a fórmula B2B7100 não esque cendo de fixar a célula do total O total da é cem Para exemplificar temos supondo que foram coletados dados do pronto atendimento de um Hospital referentes ao nível de dor em uma escala de 1 a 5 de mulheres adultas com enxaqueca Os dados estão apresentados na Tabela 2 a seguir UNIDADE 9 273 Para usar essa função no X você irá inserir as tentativas ou seja a ocorrência No caso será igual a 1 Na média como foi dada no exercício é igual a 254 e no cumulativo irá escrever FALSO e clicar em OK Por outro lado se quisermos saber qual é a probabilidade de encontrarmos um habitante ou menos o argumento cumulativo seria VERDADEIRO Utilizando o mesmo exemplo só que escrevendo VERDADEIRO para saber a probabilidade de encontrar um habitante ou menos seria igual a 27 Outra distribuição de probabilidades importante é a distribuição normal As funções distnorm distnormp invnorm e invnormp facilitam os cálculos com a distribuição normal Já a função distnormx médiadesvpadrão cumulativo fornece a distribuição cumulativa normal para a média de desvio padrão dados em valor de área Esta função possui quatro argumentos X valor da variável aleatória para a qual será determinada a densidade Média media da distribuição normal Desvpadrão desvio padrão da distribuição normal Cumulativo colocando a palavra falso obterá o valor de densidade Se colocar verdadeiro terá a área ou probabilidade cumulativa A Figura 12 nos mostra os argumentos da função DISTNORMN Descrição da Imagem temos um print dos argumentos da função em que temos escrito acima DISTNORMN abaixo centralizado temos X e um espaço para inserir o valor seta para cima abaixo temos média e um espaço para inserir o valor seta para cima abaixo Desvpadrão e um espaço para inserir o valor seta para cima abaixo Cumulativo e um espaço para inserir o valor seta para cima mais abaixo temos o botão de Ok e cancelar Figura 12 Argumentos da função DISTNORM Microsoft Excel Fonte a autora UNIDADE 9 275 Tabela 3 Tabela de distribuição Normal Reduzida Fonte Crespo 2009 p 218 Z 000 001 002 003 004 005 006 007 008 009 00 0000 00040 00080 00120 00160 00199 00239 00279 00319 00359 01 00398 00438 00478 00517 00557 00596 00636 00675 00714 00753 02 00793 00832 00871 00910 00948 00987 01026 01064 01103 01141 03 01179 01217 01255 01293 01331 01368 01406 01443 01480 01517 04 01554 01591 01628 01664 01700 01736 01772 01808 01844 01879 05 01915 01950 01985 02019 02054 02088 02123 02157 02190 02224 06 02257 02291 02324 02357 02389 02422 02454 02486 02517 02549 07 02580 02611 02642 02673 02704 02734 02764 02794 02823 02852 08 02881 02910 02939 02967 02995 03023 03051 03078 03106 03133 09 03159 03186 03212 03238 03264 03289 03315 03340 03365 03389 10 03413 03438 03461 03485 03508 03531 03554 03577 03599 03621 11 03643 03665 03686 03708 03729 03749 03770 03790 03810 03830 12 03849 03869 03888 03907 03925 03944 03962 03980 03997 04015 13 04032 04049 04066 04082 04099 04115 04131 04147 04162 04177 14 04192 04207 04222 04236 04251 04265 04279 04292 04306 04319 15 04332 04345 04357 04370 04382 04394 04406 04418 04429 04441 16 04452 04463 04474 04484 04495 04505 04515 04525 04535 04545 17 04454 04564 04573 04582 04591 04599 04608 04616 04625 04633 18 04641 04649 04656 04664 04671 04678 04686 04693 04699 04706 19 04713 04719 04726 04732 04738 04744 04750 04756 04764 04767 20 04772 04778 04783 04788 04793 04798 04803 04808 04812 04817 276 Ou seja a área encontrada é igual a 03413 ou 3413 Vamos inserir no Excel na função DISTNORMN X 170 Média 165 Desvio Padrão 5 Cumulativo VERDADEIRO Descrição da Imagem temos um print dos valores inseridos nos argumentos da função em que temos escrito acima DISTNORMN abaixo centralizado temos X e o valor inserido foi 170 seta para cima abaixo temos média e o valor inserido foi 165 seta para cima abaixo Desvpadrão e o valor inserido foi igual a 5 seta para cima abaixo Cumulativo e está escrito VERDADEIRO seta para cima mais abaixo temos o botão de Ok e cancelar Figura 13 Argumentos da função DISTNORMN Microsoft Excel Fonte a autora É importante frisar que o Excel soma a curva inteira sendo o correto diminuir por 05 Assim temos 0841345 05 03413 Para determinar a probabilidade para intervalos de z usase de preferência a função DISTNORMP onde você insere o valor de z e a função calcula a probabilidade ou a área Por exemplo Podemos observar os valores inseridos nos argumentos da função na Figura 13 Z 0 p05 função DISTNORMPN0VERDADEIRO Z 1 p08413 função DISTNORMPN1VERDADEIRO Z 165 p09505 função DISTNORMPN165VERDADEIRO Z 196 p09750 função DISTNORMPN196VERDADEIRO UNICESUMAR 280 Agora vamos abrir a planilha para calcular Figura 17 Descrição da Imagem temos a planilha com os dados do exercício apresentados anteriormente como dados das amostras Na coluna A iniciando por A2 fazendo a leitura de cima para baixo temos 59 56 46 61 57 65 49 60 66 e 59 Na coluna B temos os dados iniciando e dando continuidade iniciando na célula B2 fazendo a leitura de cima para baixo temos 69 56 64 60 59 66 58 59 51 e 53 Na coluna D temos os títulos e os valores média populacional 65 célula E5 Média amostral 5865 célula E6 DP populacional 10 célula E7 alfa 5100 igual a 005 célula E8 n valor de 20 célula E9 Célula D13 Z calculado 2839806331 célula E13 Célula D14 Zcrit valor de 1959963985 célula E14 Célula D15 p valor de 0004514093 célula E15 Rejeitar H0 nas células D16 e E16 Figura 17 Planilha com exercício Microsoft Excel Fonte a autora Mas como chegamos a esses valores Para calcular Zcalculado utilizamos a função no Excel Primeiro usamos a função testez na qual inserimos os dados Figura 18 UNICESUMAR UNIDADE 9 281 Descrição da Imagem TESTEZ matriz está inserido A2B11 seta para cima próxima linha X E5 que corresponde a 65 seta para cima sigma igual a E7 que corresponde a 10 botão de OK Figura 18 Argumentos da função TesteZ Microsoft Excel Fonte a autora Explicando os valores que foram inseridos na função temos TESTEZA2B11E5E7 Sendo que A2B11 igual aos dados da amostra correspondente aos 20 valores E5 corresponde ao valor de X que no caso é a média populacional igual a 65 Sigma corresponde ao desvio padrão populacional que está na célula E7 e corresponde a 10 É importante frisar que a função TESTEZA2B11E5E7 resulta no valor de p0997742953 Entre tanto esse valor é o complementar já que a média de campo é bem menor do que a média populacional 10997742953 0000257 Para obter o zcalculado utilizamos a função INVNORMP mas no caso vamos utilizar dessa maneira INVNORMPNF13 Sendo que Na célula F13 temos o valor da função A2B11E5E7 O valor encontrado de Z calculado é igual a 28398 UNIDADE 9 283 23 43 22 23 40 39 26 37 42 26 39 37 30 44 39 A média encontrada destas 15 tilápias foi igual a 34 cm e o desvio padrão de 8 cm Construa um in tervalo de confiança para média ao nível de 95 Para resolver nosso exercício temos que encontrar nosso tcrítico assim temos MARTINEZ 2015 95 é nosso intervalo de confiança Como nossa área interessada para trabalhar com essa tabela são as caudas vamos ter que encontrar esse valor Se a área é 95 temos 1 α 1 095 005 Será esse 005 que vamos procurar na Tabela t de Student Descrição da Imagem a figura apresenta uma curva em formato de sino dividida em duas partes iguais e as pontas do eixo estão pintadas destacandose pela cor cinza com duas setas destacando esses eixos representando 25 em cada eixo O eixo do meio é igual a 95 Figura 19 Representação para Tabela t student Fonte a autora Para visualizar como são distribuídos o intervalo e o α a figura a seguir traz essa representação para termos os 100 faltam 5 certo São esses 5 que são divididos nas caudas Figura 19 Como você pode perceber os 95 é o que temos no nosso exercício e os 5 foram divididas nas duas áreas do gráfico representando 25 em cada cauda Vamos procurar linha 9 e coluna 25 na tabela vamos procurar α 0025 Vejamos a seguir Vejamos um exemplo para um jantar Marcela encontrou várias tilápias para comprar e pegou uma amostra com 15 tilápias as medidas foram as seguintes em cm 284 Nota A coluna em destaque é a mais usada Fonte Barbetta 2019 p 230 Tabela 4 Distribuição t de Student gl Área na cauda superior 025 010 005 0025 001 0005 00025 0001 00005 1 1000 3078 6314 1271 3182 6366 1273 3183 6366 2 0816 1886 2920 4303 6965 9925 1409 2233 3160 3 0765 1638 2353 3182 4541 5841 7453 1021 1292 4 0741 1533 2132 2776 3747 4604 5598 7173 8610 5 0727 1476 2015 2571 3365 4032 4773 5894 6869 6 0718 1440 1943 2447 3143 3707 4317 5208 5959 7 0711 1415 1895 2365 2998 3499 4029 4785 5408 8 0706 1397 1860 2306 2896 3355 3833 4501 5041 9 0703 1383 1833 2262 2821 3250 3690 4297 4781 10 0700 1372 1812 2228 2764 3169 3581 4144 4587 11 0697 1363 1796 2201 2718 3106 3497 4025 4437 12 0695 1356 1782 2179 2681 3055 3428 3930 4318 13 0694 1350 1771 2160 2650 3012 3372 3852 4221 14 0692 1345 1761 2145 2624 2977 3326 3787 4140 15 0691 1341 1753 2131 2602 2947 3286 3733 4073 16 0690 1337 1746 2120 2583 2921 3252 3686 4015 17 0689 1333 1740 2110 2567 2898 3222 3646 3965 18 0688 1330 1734 2101 2552 2878 3197 3610 3922 19 0688 1328 1729 2093 2539 2861 3174 3579 3883 20 0687 1325 1725 2086 2528 2845 3153 3552 3850 21 0686 1323 1721 2080 2518 2831 3135 3527 3819 22 0686 1321 1717 2074 2508 2819 3119 3505 3792 23 0685 1319 1714 2069 2500 2807 3104 3485 3768 24 0685 1318 1711 2064 2492 2797 3091 3467 3745 25 0684 1316 1708 2060 2485 2787 3078 3450 3725 26 0684 1315 1706 2056 2479 2779 3067 3435 3707 27 0684 1314 1703 2052 2473 2771 3057 3421 3689 28 0683 1313 1701 2048 2467 2763 3047 3408 3674 29 0683 1311 1699 2045 2462 2756 3038 3396 3660 30 0683 1310 1697 2042 2457 2750 3030 3385 3646 35 0682 1306 1690 2030 2438 2724 2996 3340 3591 40 0681 1303 1684 2021 2423 2704 2971 3307 3551 45 0680 1301 1679 2014 2412 2690 2952 3281 3520 50 0679 1299 1676 2009 2403 2678 2937 3261 3496 z 0674 1282 1645 1960 2326 2576 2807 3090 3291 UNICESUMAR 286 Para usar a função basta inserir na Probabilidade o valor correspondente ao nível de confiança que é 1 menos o intervalo de confiança no caso 195 5 portanto igual a 5 ou célula correspondente Já no item graus de liberdade significa o número de elementos da amostra menos 1 nesse caso 151 14 Para achar o intervalo basta pegar o valor de t multiplicar por desvio padrão dividido pela raiz quadrada de observações no Excel fica B7B2RAIZB3 por exemplo Já o teste Quiquadrado testa a relação entre duas variáveis qualitativas O Excel possui três funções relativas ao Quiquadrado a Função TESTEQUI calcula a probabilidade unicaudal da distribuição Quiquadrado p a partir dos valores observados e esperados TESTEQUIintervalorealintervaloesperado b A funcao distQui calcula a probabilidade a partir do valor de Quiquadrado Exige o grau de liberdade também DISTQUIxgrausliberdade Onde x é o valor no qual a distribuição será avaliada grausliberdade e o número de graus de liberdade c A funcao invQui calcula o valor de Quiquadrado a partir de p INVQUIprobabilidadegrausliberdade Vejamos um exemplo supondo que um profissional está analisando os tipos de sementes e os resul tados estão apresentados na tabela a seguir Sabese que o nível de significância é igual a 5 Construa o teste quiquadrado Tabela 5 Tipos de sementes Tipos Fo Fe Lisa e amarela 345 31275 Rugosa e amarela 86 10425 Lisa e verde 96 10425 Rugosa e verde 29 3475 total 556 556 Para o excel primeiro passo é estabelecer H0 sendo a H0 Esperado H1 Esperado b Nível de significância α005 Fonte a autora UNICESUMAR 288 Descrição da Imagem argumentos da função TESTEQUIQUA Abaixo temos Intervaloreal na frente B2B5 seta para cima abaixo Intervaloesperado na frente C2C5 seta para cima botão de Ok e Cancelar Figura 22 TesteQuiQuadrado Microsoft Excel Fonte a autora Essa função TESTEQUIQUAB2B5C2C5 significa que primeiro colocamos o intervalo real ou seja os valores que foram feitos os testes das sementes na coluna frequência observada no intervalo esperado inserimos os valores da frequência esperada Agora que temos o valor de p0043503617 vamos determinar o valor de quiquadrado calculado X2 calc na planilha para isso vamos utilizar a função INVQUIQUACDB10B9 Na qual o valor correspondente à célula B10 significa o valor de p encontrado anteriormente e B9 significa os graus de liberdade que neste caso é igual a 3 o valor encontrado de quiquadrado calculado é igual a 81247 Precisamos encontrar o valor de quiquadrado crítico na planilha X2 crit para isso utilizamos a função INVQUIQUACDB8B9 Significa que inserimos em B8 o valor correspondente ao nível de significância que neste caso é igual a 005 e B9 igual ao grau de liberdade que neste caso é igual a 3 Agora precisamos saber se vamos aceitar ou rejeitar o teste para isso utilizamos a função SE SEB11B12Rejeita H0Não Rejeita H0 isso significa que se o valor de quiquadrado calculado B11 for maior do que o valor de quiquadrado crítico B12 rejeita H0 Existem vários programas que podem ser utilizados em Bioestatística para ajudar nos cálculos aqui utilizamos o Excel por ser o mais comum Vale a pena você pesquisar e buscar outras formas para estudar UNICESUMAR UNIDADE 9 289 Você sabia que existem outros programas além do Excel que podem ajudar com os cálculos da Bioestatística E eles facilitam nossa vida pois muitas vezes não precisamos calcular equações imensas e quando chegar no final errar o cálculo Mas lembrese Bioestatística vai além de cálculos ajudanos na pesquisa na coleta de amostras na tabulação de dados na construção de gráficos mas principalmente ajudanos na tomada de decisões Nem sempre o cálculo é um problema é preciso interpretar na Bioestatística então quando você for pesquisar preste bem atenção nos dados na forma como vai fazer sua coleta como vai escolher um programa para tabular os dados ou se vai usar uma calculadora Nossa roda de conversa vai trazer mais um pouco sobre alguns progra mas que podem ser utilizados na Bioestatística mas que não podemos esquecer da interpretação Existem vários softwares que podem ser utilizados na análise de dados e na Bioestatística não seria diferente Existem softwares para pesquisas qualitativas e quantitativas Saiba mais sobre esse assunto acessando ao link a seguir É muito importante que profissionais da área de saúde entendam sobre programas simples que possam ser aplicados para facilitar o cotidiano assim o Excel poderá te ajudar em pesquisas e em tomada de decisões 290 Na nossa avaliação vamos fazer um mapa mental sobre o que aprendemos com o uso do Excel aplicado à Bioestatística 292 UNIDADE 1 ARANGO H G Bioestatística teórica e computacional com banco de dados reais em disco 3 ed Rio de Janeiro Guanabara Koogan 2011 BARBETTA P A Estatística aplicada às Ciências Sociais 9 ed Florianópolis UFSC 2014 BRASIL Resolução n 0188 13 de junho de 1988 O Conselho Nacional de Saúde no uso da com petência que lhe é outorgada pelo Decreto n 93933 de 14 de janeiro de 1987 RESOLVE aprovar as normas de pesquisa em saúde Brasília CNN 1987 Disponível em httpswww invitarecombrarq legislacaoconepcnsmsResoluo01de1988REVOGADACNSMSpdf Acesso em 14 maio 2021 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 CRFESP Homeopatia Departamento de Apoio Técnico e Educação Permanente Comissão Assessora de Homeopatia HomeopatiaCRFESP 3 ed São Paulo CRFESP 2019 GLANTZ S A Princípios de bioestatística Traduçã o de Fernanda Thiesen Brum Marcos Bergmann Carlucci Revisão Técnica Leandro da Silva Duarte Luciana Neves Nunes 7 ed Porto Alegre AMGH 2014 HOGG R V Statistical Education improvements are badly needed The American Statistician v 45 n 4 1991 Disponível em httpsamstattandfonlinecomdoi abs10108000031305199110475832 journalCodeutas2 0WqRK7ujwbIU Acesso em 14 maio 2021 IBGE Notas Técnicas Rio de Janeiro IBGE 1983 Disponível em httpswwwibgegovbrappssnig v1notasmetodologicashtmlloc0 Acesso em 14 maio 2021 PARENTI T M S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 PEREIRA M G Epidemiologia teoria e prática 7 ed Rio de Janeiro Guanabara Koogan 2003 RODRIGUES C F S LIMA F J C de BARBOSA F T Importância do uso adequado da estatística básica nas pesquisas clínicas Rev Bras Anestesiol 2017 v 67 n 6 p 619625 Disponível em httpwww scielobrscielophpscriptsciarttextpidS003470942017000600619lng ennrmiso Acesso em 14 maio 2021 UNIDADE 2 ARANGO H G Bioestatística teórica e computacional com banco de dados reais em disco 3 ed reimpr Rio de Janeiro Guanabara Koogan 2011 CALLEGARIJACQUES S M Bioestatística Princípios e Aplicações Porto Alegre Artmed 2003 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blucher 2015 293 PARENTI T M da S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 PIXABAY Sem título 2018 1 fotografia Disponível em httpspixabaycomptphotoscompeti c3a7c3a3odepistaedecampo3480185 Acesso em 14 abr 2023 TRIOLA M F Introdução à Estatística 11 ed Rio de Janeiro LTC 2014 UNIDADE 3 ABNT NBR 147242011 Informação e documentação Trabalhos acadêmicos Apresentação Rio de Janeiro ABNT 2011 ARANGO H G Bioestatística teórica e computacional com banco de dados reais em disco 3 ed Reimpr Rio de Janeiro Guanabara Koogan 2011 BARBETTA P A Estatística aplicada às Ciências Sociais 9 ed Florianópolis UFSC 2014 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 IBGE Normas de apresentação tabular 3 ed Rio de Janeiro IBGE 1993 INEP Sinopse Estatística da Educação Básica 2019 Brasília Inep 2020 Disponível em httpportal inepgovbrsinopsesestatisticasdaeducacaobasica Acesso em 17 maio 2021 LEVINE D M STEPHAN D F SZABAT K A Estatística Teoria e Aplicações Usando Microsoft Excel em Português 7 ed Rio de Janeiro LTC 2016 PARENTI T M S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 UNIDADE 4 BASTOS J L D DUQUIA R P Medidas de dispersão os valores estão próximos entre si ou variam mui to Notas de Epidemiologia e Estatística Scientia Medica Porto Alegre v 17 n 1 p 4044 janmar 2007 Disponível em httpswebcachegoogleusercontentcomsearchqcachepxyqpAQBmGYJhttps revistaseletronicaspucrsbrojsindexphpscientiamedicaarticledownload16501845cd2hlp tBRctclnkglbr Acesso em 17 maio 2021 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 INEP Sinopse Estatística da Educação Básica 2019 Brasília Inep 2020 Disponível em httpportal inepgovbrsinopsesestatisticasdaeducacaobasica Acesso em 18 maio 2021 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blücher 2015 Disponível em httpsptslidesharenetbookcadastro9788521209027 Acesso em 18 maio 2021 294 PARENTI T M S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 RODRIGUES C F S LIMA F J C de BARBOSA F T Importância do uso adequado da estatística básica nas pesquisas clínicas Artigo de Revisão Revista Brasileira de Anestesiologia n 67 v 6 p 619625 2017 Disponível em httpswwwscielobrpdfrbav67n6pt00347094rba67060619pdf Acesso em 18 maio 2021 UNIDADE 5 ANDERSON L O et al Identification of priority areas for reducing the likelihood of burning and forest fires in South America August to October 2020 16 p São José dos Campos SEICemaden 2020 ARANGO H G Bioestatística teórica e computacional com banco de dados reais em disco 3 ed Reimpr Rio de Janeiro Guanabara Koogan 2011 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blü cher 2015 Disponível em httpsptslidesharenetbookcadastro9788521209027 Acesso em 19 maio 2021 PARENTI T M S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 WIKIMEDIA COMMONS Simeon Poisson 2006 1 figura Disponível em httpscommonswikimedia orgwikiFileSimeonPoissonjpg Acesso em 20 maio 2021 UNIDADE 6 BARBETTA P A Estatística Aplicada a Ciências Sociais Aplicadas 9 ed Florianópolis Edufsc 2019 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 GALTON F Natural inheritance London Macmillan Co 1889 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blucher 2015 MATTOS V L D de KONRATH A C AZAMBUJA A M V de Introdução à Estatística Aplicação em Ciências Exatas Rio de Janeiro LTC 2017 SCHULTZ D P SCHULTZ S E História da Psicologia moderna 16 ed São Paulo Cultrix 1992 ZOU K H TUNCALI K SILVERMAN S G Correlation and simple linear regression Radiology v 227 n 3 p 617222 2003 Disponível em httpdxdoiorg101148radiol2273011499 Acesso em 24 fev 2023 295 UNIDADE 7 BARBETTA P A Estatística aplicada às Ciências Sociais 9 ed Florianópolis Ed da UFSC 2014 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blucher 2015 PARENTI T M da S SILVA J S F da SILVEIRA J Bioestatística Porto Alegre SAGAH 2017 UNIDADE 8 LANDIS J R KOCH G G The Measurement of Observer Agreement for Categorical Data Biometrics v 33 n 1 p 159174 mar 1997 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blucher 2015 VASSARSTATS Sem título 2023 Disponível em httpvassarstatsnet Acesso em 17 abr 2023 VIEIRA S Introdução à bioestatística Rio de Janeiro Elsevier 2011 UNIDADE 9 BARBETTA P A Estatística Aplicada a Ciências Sociais Aplicadas 9 ed Florianópolis Edufsc 2019 CRESPO A A Estatística 19 ed São Paulo Atlas 2009 GONÇALVES B B da S Softwares de apoio à pesquisa científica levantamento e análise de características Trabalho de conclusão de curso Bacharel em Tecnologias da Informação e Comuni cação Universidade Federal de Santa Catarina Araranguá SC julho de 2016 Disponível em httpsre positorioufscbrbitstreamhandle123456789165459SOFTWARES20DE20APOIO20C38020 PESQUISA20CIENTC38DFICApdfsequence1 Acesso em 12 fev 2023 MARTINEZ E Z Bioestatística para os cursos de graduação da área da saúde São Paulo Blucher 2015 VIEIRA S Introdução à bioestatística Rio de Janeiro Elsevier 2011 296 UNIDADE 1 Esta atividade busca um aprofundamento pessoal ao possibilitar ao estudante reflexões sobre as técnicas de estatística e amostragem buscando o autoconhecimento Para isso deverá res ponder aos questionamentos relacionados a cada campo e refletir sobre sua maneira de pensar e agir quanto ao tema proposto O estudante deverá responder as questões do Mapa da Empatia conforme for se autoavaliando UNIDADE 2 1 A A variável é qualitativa porque não traz valores numéricos referindose às características 2 B A variável é quantitativa porque ela pode ser medida e seu resultado é apresentado numericamente 3 D Tratase de uma variável quantitativa contínua porque o tempo é resultante de uma medição ou seja uma mensuração 4 C Tratase de uma variável quantitativa discreta porque o número de pacientes é resultante de uma contagem do número de pessoas 5 A Tratase de uma variável qualitativa nominal porque não conseguimos categorizar e nem ordenar as variáveis 6 B Tratase de uma variável qualitativa ordinal porque conseguimos categorizar e ordenar a variável em inicial intermediário e terminal UNIDADE 3 Nesta atividade o estudante deverá conceituar sobre as palavraschaves utilizando o instrumento já produzido e disponível gratuitamente pelo wwwgoconqrcom para realizar esta atividade ou manualmente O estudante deverá realizar dois mapas mentais semelhante a estes dois a seguir Tabelas Rol Distribuição de frequências Sem intervalo de classes Com intervalo de classes ABNT IBGE Normas de Tabelas Tabelas que são construidas só com a contagem apenas Listas ordenadas Tabelas que tem que ser calcu lado intervalo de classes antes de sua contrução e distribuição de frequências Normas que vão reger as tabelas como título corpo rodapé além de ter as bordas laterais abertas Normas que vão reger na construção das tabelas desde 1993