·
Administração ·
Estatística da Administração
Send your question to AI and receive an answer instantly
Recommended for you
18
Aproximação da Distribuição Poisson pela Normal - Aula 8
Estatística da Administração
UMG
17
Aproximação da Distribuição Binomial pela Normal - Aula 7
Estatística da Administração
UMG
19
Proporção de Objetos e Variáveis Aleatórias Normais
Estatística da Administração
UMG
18
Distribuição Amostral dos Estimadores - Aula 12
Estatística da Administração
UMG
14
Aproximação da Binomial pela Normal: Conceitos e Aplicações em Experimentos de Bernoulli
Estatística da Administração
UMG
5
Medidas de Tendência Central em Epidemiologia
Estatística da Administração
UMG
89
Intervalos de Confiança: Exemplos e Cálculos
Estatística da Administração
UMG
114
Teste de Hipóteses para Proporções com Duas Amostras
Estatística da Administração
UMG
16
Exemplos de Distribuição Normal e Cálculos de Probabilidade
Estatística da Administração
UMG
17
Distribuição Amostral dos Estimadores - Aula 14
Estatística da Administração
UMG
Preview text
Ficha catalográfica elaborada na fonte pela Biblioteca do Centro Universitário Avantis UNIAVAN Maria Helena Mafioletti Sampaio CRB 14 276 CDD 21ª ed 519 Estatística Werner Marcelo Jorge W492e Estatística EAD Caderno pedagógico Marcelo Jorge Werner Balneário Camboriú Faculdade Avantis 2019 131 p il Inclui Índice ISBN 9788554561154 ISBNe 9788554561147 1 Estatística 2 Estatística Inferencial 3 Estatística Aplicação de testes 4 Estatística Ensino a Distância I Faculdade Avantis II Título EMENTA Conceitos e práticas divisão métodos população amostra variáveis dados coletas tabelas séries gráficos medidas de posição medidas de variabilidade probabilidade distribuições de probabilidades números índices estatística inferencial amostragem teoria estatística da estimação teoria da decisão estatística números índices análise da variância análise da correlação e regressão OBJETIVOS DA DISCIPLINA Conhecer os principais conceitos e divisões da Estatística Identificar as técnicas de amostragem probabilística Coletar e apresentar dados em gráficos e tabelas Descrever a distribuição de grandes conjuntos de dados Descrever conjuntos de variáveis através de medidas de tendência central e de dispersão das variáveis Apresentar a dispersão relativa de conjuntos de variáveis com escalas diferentes Analisar e quantificar o grau de relação entre 2 grupos de variáveis com ou sem relação de causa e efeito Estimar parâmetros e estatísticas em análise bivariada Conhecer as noções básicas de probabilidade Identificar e utilizar os principais modelos probabilísticos Formular hipóteses sujeitas a testes estatísticos Calcular estatísticas de testes paramétricos e não paramétricos Aceitar ou refutar hipóteses a partir do cálculo de estatísticas Concluir sobre problemas de pesquisa com base em dados e evidências PLANO DE ESTUDO O PAPEL DA DISCIPLINA PARA A FORMAÇÃO DO ACADÊMICO O estudo da disciplina de Estatística capacitará o futuro profissional nas ações de planejar executar analisar e interpretar dados experimentais na área de atuação além de contribuir para a aquisição de habilidades e competências para a produção de ciência O egresso também será instrumentalizado com ferramentas para a tomada de decisões baseadas em evidências científicas proporcionando maior liberdade na condução de pesquisas e divulgação de resultados permitindo uma comunicação mais eficaz PROFESSOR APRESENTAÇÃO DO AUTOR O autor é Biólogo e Economista mestre em Ciência e Tecnologia Ambiental e especialista em Ensino de Ciências Ensino Virtual e Docência e Tutoria É professor na UniAvan desde 2014 tutor da Secretaria Nacional de Segurança Pública desde 2015 e servidor do Ministério da Justiça desde 2004 Tem experiência em genética ênfase genética de microrganismos e metagenômica economia ênfase sustentabilidade e recursos naturais ensino de ciências ênfase divulgação científica e segurança pública ênfase determinantes biológicos da criminalidade Currículo em httplattescnpqbr485151974151555 Email marcelowerneravantisedubr UNIDADE 1 EXPLORAÇÃO E APRESENTAÇÃO DE DADOS 11 INTRODUÇÃO À UNIDADE 12 1 EXPLORAÇÃO E APRESENTAÇÃO DE DADOS 13 11 DIVISÕES DA ESTATÍSTICA 13 12 CONCEITOS BÁSICOS 13 121 Amostra versus População e Parâmetros versus Estatísticas 14 122 Tipos de Variáveis e Outliers 15 123 Acurácia Precisão e Regras de Arredondamento 19 13 TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICA 21 131 Amostragem Aleatória Simples 22 132 Amostragem Sistemática 22 133 Amostragem Estratificada 23 134 Amostragem por Conglomerado 24 14 APRESENTAÇÃO DE DADOS EM GRÁFICOS E TABELAS 25 141 Apresentação de Grandes Conjuntos de Dados 30 142 Gráficos de Distribuição de Frequências32 15 FÓRUM 36 CONSIDERAÇÕES FINAIS DA UNIDADE 37 EXERCÍCIO FINAL 38 REFÊRENCIAS 40 SUMÁRIO UNIDADE 2 DESCRIÇÃO E RESUMO DOS DADOS 41 INTRODUÇÃO À UNIDADE 42 2 DESCRIÇÃO E RESUMO DOS DADOS 43 21 MEDIDAS DE TENDÊNCIA CENTRAL 43 211 Média Aritmética Simples 43 212 Média Aritmética Ponderada 45 213 Ponto Médio 46 214 Moda 47 22 MEDIDAS DE POSIÇÃO 48 221 Mediana 48 222 Quartis 50 23 MEDIDAS DE DISPERSÃO 52 231 Amplitude 53 232 Variância 53 233 Desvio Padrão 55 234 Coeficiente de Variação 57 235 Números Índices 58 241 Regressão Linear Simples 62 242 Correlação Linear Simples 66 25 FÓRUM 69 CONSIDERAÇÕES FINAIS DA UNIDADE 71 EXERCÍCIO FINAL 71 REFÊRENCIAS 73 UNIDADE 3 INTRODUÇÃO À ESTATÍSTICA INFERENCIAL75 INTRODUÇÃO À UNIDADE 76 3 INTRODUÇÃO À ESTATÍSTICA INFERENCIAL 77 31 NOÇÕES DE PROBABILIDADE 77 311 Probabilidade de um Evento 77 312 Contando os Resultados Possíveis 78 313 Multiplicando e Adicionando Probabilidades 81 32 MODELOS PROBABILÍSTICOS 82 321 Modelos para Variáveis Aleatórias Discretas 82 322 Modelo para Variáveis Aleatórias Contínuas 83 33 ESCORE PADRÃO 85 34 ESTIMAÇÃO E DECISÃO ESTATÍSTICAS 89 341 Noções de Testes de Hipótese 89 342 Erros do Tipo I e II 91 35 FÓRUM 92 EXERCÍCIO FINAL 95 REFÊRENCIAS 96 UNIDADE 4 APLICAÇÃO DE TESTES ESTATÍSTICOS 99 INTRODUÇÃO À UNIDADE 100 4 APLICAÇÃO DE TESTES ESTATÍSTICOS 101 41 TESTES ESTATÍSTICOS PARAMÉTRICOS 102 411 Teste Z para médias 103 412 Teste t de Student para médias 105 413 Teste t para Comparar Duas Amostras Pareadas 108 414 Análise de Variância para Comparar Três Amostras ou Mais 112 42 TESTES ESTATÍSTICOS NÃO PARAMÉTRICOS 117 421 Teste U para Comparar Duas Amostras 118 422 Teste H para Comparar Três Amostras ou Mais 121 43 FÓRUM 124 CONSIDERAÇÕES FINAIS 126 EXERCÍCIOS FINAIS 127 REFÊRENCIAS 129 1 unidade EXPLORAÇÃO E APRESENTAÇÃO DE DADOS 12 ESTATÍSTICA INTRODUÇÃO À UNIDADE O termo estatística tem origem latina e deriva da palavra estado Essa associação se deve à importância histórica da coleta de dados para os governos em ações referentes a censos demográficos recrutamentos militares e coleta de impostos Em 1749 o professor alemão Gottfried Achenwall 1719 1772 utilizou pela primeira vez a palavra Statistik ZAR 2010 Agora que sabemos a origem precisamos entender o que significa realmente a palavra estatística É muito comum encontrarmos o termo como sinônimo de dados Por exemplo ouvimos um narrador de futebol comentar sobre as estatísticas do jogo referindose ao número de faltas porcentagem de posse de bola etc o Ministério do Trabalho divulgar as estatísticas da mãodeobra tais como taxas de desemprego ou remuneração média do trabalhador as Secretarias de Educação publicarem estatísticas do ensino médio referindose à criação de novas vagas à relação entre o número de professores e alunos às taxas de evasão etc Ainda que seja possível encontrar essa definição em alguns dicionários neste curso utilizaremos o sentido científico de Estatística que pode ser compreendido como a coleta ordenada análise e interpretação de dados com o objetivo de apresentar e avaliar as conclusões baseadas nesses dados TOLEDO OVALLE 2009 Além disso há outro significado menos amplo que aparecerá neste material referese à estimativa de um parâmetro populacional a partir de uma amostra veremos mais detalhadamente na Unidade 1 nesse caso a palavra deve ser escrita com a letra inicial minúscula Compreender Estatística é essencial para entender resultados de pesquisa nas ciências exatas sociais comportamentais e da saúde Esta disciplina traz a oportunidade de aprendermos o básico dessa ciência permitindo calcular parâmetros bem como avaliá los Nesta primeira unidade discutiremos os conceitos básicos de Estatística incluindo a apresentação de dados em gráficos e tabelas a importância da definição correta de população e amostra além das técnicas de amostragem adequadas para uma pesquisa científica Sendo assim os objetivos da Unidade 1 são Conhecer os principais conceitos e divisões da Estatística Identificar as técnicas de amostragem probabilística Coletar e apresentar dados em gráficos e tabelas Descrever a distribuição de grandes conjuntos de dados 13 ESTATÍSTICA 1 EXPLORAÇÃO E APRESENTAÇÃO DE DADOS Nesta primeira unidade serão apresentados os conceitos básicos de Estatística tais como as definições de variáveis amostra população e divisões da ciência além da discussão sobre as formas de coleta ou amostragem e apresentação de dados em tabelas e gráficos Os cálculos mais frequentes que caracterizam nossa disciplina serão raros neste primeiro momento mas a base teórica para a Estatística descritiva permeia toda a unidade Já que tocamos no assunto vamos entender melhor se divide a ciência que dá nome à nossa disciplina 11 DIVISÕES DA ESTATÍSTICA A Estatística descritiva é responsável por descrever as variáveis ou os dados de diversas formas de acordo com o objetivo do trabalho científico ou das intenções do pesquisador TOLEDO OVALLE 2009 Essa descrição pode ser feita através de números que resumem conjuntos de dados tais como a média e o desvio padrão veremos na próxima unidade como calculálos ou elementos visuais e ordenadores tais como gráficos e tabelas Já a Estatística inferencial representa a parte da disciplina que estuda os testes estatísticos Esses testes possibilitam que os pesquisadores calculem estatísticas adequadas para suas amostras e façam inferências ou generalizem conclusões para a população a partir da qual as amostras foram obtidas O principal objetivo da análise estatística é inferir ou tirar conclusões sobre uma população através do exame de uma amostra uma vez que é quase sempre impossível avaliar toda a população BARBETTA 2007 12 CONCEITOS BÁSICOS Como acabamos de estudar o objetivo principal da análise estatística consiste em inferir ou deduzir características de um grupo de variáveis através da generalização da análise de uma amostra desse grupo Essa generalização pressupõe o conhecimento de importantes conceitos tais como parâmetros estatísticas variáveis outliers1 população e amostra 1 Variável cujo valor se encontra muito distante dos demais dados da série BARBETTA 2007 14 ESTATÍSTICA 121 Amostra versus População e Parâmetros versus Estatísticas Alguns desses termos como população e amostra têm seus significados bem compreendidos nos seus sentidos cotidianos Mas será que a compreensão adequada de população e amostra é suficiente para utilizarmos esses conceitos em Estatística População conjunto completo das variáveis de interesse Amostra uma parte idealmente representativa da população Em Estatística o termo população tem um significado ligeiramente diferente do que se emprega no cotidiano Profissionais de diversas áreas podem ser referir a populações como sendo um grupo de seres humanos ou outras espécies de animais Contudo para os estatísticos população significa um grupo completo de variáveis sobre as quais se deseja tirar conclusões ou descrever suas distribuições DEWITT TRIOLA 2008 EXEMPLO Se uma pesquisadora pretende definir a altura média dos calouros do curso de Direito da Uniavan a população será composta pelos valores que representam as alturas de todos os calouros do referido curso Vale ressaltar que é de extrema importância delimitar a população de acordo com o objetivo da pesquisa a fim de evitar extrapolações que introduzam vieses2 nos resultados das análises Imagine se por conveniência a mesma pesquisadora coletasse as alturas de todos os alunos que estivessem na terceira aula de Língua Portuguesa do primeiro período sem se preocupar em identificar os alunos que são repetentes e portanto não são calouros ou os calouros que faltaram naquele dia Se isso ocorresse o objetivo passaria a ser a definição da altura média dos alunos daquela aula específica Na realidade da pesquisa científica quase nunca é possível obter dados da população inteira por diversos motivos como recursos financeiros e humanos limitados tempo 2 Viés pl vieses tendenciosidade ou erro sistemático FERREIRA 2010 15 ESTATÍSTICA reduzido e dinâmica populacional morte nascimento ausências temporárias mudança de categorias entre outros motivos Por isso é muito comum utilizarmos amostras para inferir informações sobre a população Amostras são partes da população que de preferência a represente bem A qualidade da amostra depende do seu tamanho em relação à população quanto maior a amostra menor será o erro amostral e da aleatoriedade da coleta das variáveis é ideal que cada membro da população tenha a mesma probabilidade de ser escolhido para ser medido BARBETTA 2007 Você certamente já participou de uma coleta de dados em que toda a população foi medida aqui mesmo na nossa instituição de ensino todos os alunos têm que preencher um formulário com sua data de nascimento nesse caso fezse um censo quando toda a população é medida Lembra quando dissemos que quanto maior a amostra menor será o erro amostral Pois é no censo o erro amostral é igual a zero pois tratase da maior amostra possível essa amostra é a própria população Quanto maior a amostra menor será o erro amostral Importante ressaltar que quando se medem os dados de uma população inteira todos os membros que interessam para a pesquisa temos um parâmetro TOLEDO OVALLE 2009 por exemplo se medirmos a quantidade de calorias ingeridas por cada um dos pacientes de um determinado hospital e dividirmos pelo número total de pacientes teremos um parâmetro populacional a ingestão média de calorias daquele hospital Já quando se medem variáveis de uma amostra parte da população temos uma estatística SMAILES McGRANE 2002 retomando o exemplo se escolhermos alguns pacientes para realizar a medição e dividirmos o total de calorias medido pelo número de pessoas escolhidas teremos uma estatística 122 Tipos de Variáveis e Outliers As características que podem se diferenciar entre um objeto de estudo e outro tais como tamanho cor composição etc são os principais dados utilizados em Estatística Esses dados também chamados de variáveis podem ser divididos de diversas formas dependendo do objetivo e tipo de Estatística a ser utilizada Em nosso curso utilizaremos uma classificação bastante simples mas que é suficiente para alcançarmos os objetivos 16 ESTATÍSTICA propostos As variáveis qualitativas são representadas pelos dados que se encontram em categorias ou atributos DEWITT TRIOLA 2008 Podemos citar como exemplos a manifestação da cor dos olhos em humanos time de futebol para o qual você torce cidade de nascimento entre outras As variáveis qualitativas ainda podem ser divididas em nominais e ordinais Os dados qualitativos nominais referemse a atributos que não guardam entre si hierarquia tais como homem e mulher preto ou branco tipo sanguíneo A B AB ou O etc Já as variáveis qualitativas ordinais são atributos que têm relação de hierarquia entre si tais como ensino fundamental médio e superior ou o terceiro colocado em uma corrida EXEMPLO Variáveis qualitativas ou categóricas nominais eg fator Rh positivo ou negativo ordinais eg primeira ou segunda semana do mês Agora vamos falar da principal matériaprima da nossa disciplina as variáveis quantitativas Elas são mais comuns em Estatística possibilitam resultados mais robustos são representadas por valores numéricos e também podem ser divididas em dois tipos variáveis discretas e contínuas BARBETTA 2007 As variáveis quantitativas discretas representam quase sempre valores inteiros tais como o número de filhos de um casal o número de clientes de um contador etc Já as variáveis quantitativas contínuas representam apenas aproximações dentro de um intervalo observado como por exemplo o peso inicial de um indivíduo submetido a uma dieta restritiva de calorias Para ficar mais claro suponha que o referido indivíduo tenha medido seu peso antes do tratamento em uma balança que informa apenas o número de quilogramas sem decimais e o valor foi 87 kg Em seguida ele utilizou uma balança que registra além dos quilogramas também seus decimais nesse caso seu peso foi igual a 868 kg O mesmo 17 ESTATÍSTICA indivíduo poderia ter seu peso medido em balanças cada vez mais precisas apresentando pesos iguais 8683 kg 86825 kg e assim por diante Perceba que as medições menos precisas são apenas arredondamentos que permitem definirmos um intervalo de valores contínuos por isso esse tipo de variável se chama quantitativa contínua EXEMPLO Variáveis quantitativas discretas eg número de carros em uma cidade contínuas eg altura dos alunos de uma sala A Figura 1 a seguir apresenta os quatro tipos de variáveis que discutimos até agora Figura 1 Representação de um cartaz com destaque para os diversos tipos de dados Fonte O autor 2019 18 ESTATÍSTICA CHAT Você consegue identificar mais variáveis que não estão destacadas na figura Há diversas outras tente encontrálas classifiqueas e compartilhe com os colegas de disciplina Eles encontraram alguma que você não havia visto Outra consideração importante a fazer em relação às variáveis quantitativas coletadas de populações é que ocasionalmente conjuntos de dados apresentam valores que são muito discrepantes em relação ao restante da amostra são os outliers PARA REFLETIR Suponha que você esteja tentando determinar o tamanho médio dos recém nascidos em uma maternidade e para isso sorteou 5 bebês para serem medidos suas alturas em centímetros foram 41 42 45 47 e 71 Perceba que o último membro da amostra apresenta um tamanho muito diferente do restante sendo considerado um outlier Sempre que um pesquisador se deparar com essa situação a primeira providência é checar o registro pois pode ter havido um erro de medição ou de marcação Nessa pesquisa específica você poderia verificar se o tamanho correto não seria 41 cm mas por erro de digitação foi computado 71 Se este não for o caso você poderia verificar ainda se o indivíduo realmente é um recémnascido ou é mais velho Após todas as verificações você pode concluir que realmente se trata de um valor correto e que dados muito diferentes da média podem ocorrer realmente houve um recémnascido norteamericano com essa estatura há alguns anos atrás Tenha em mente que um outlier é simplesmente um valor muito discrepante em um conjunto de variáveis Nesse caso cabe ao pesquisador a decisão de acomodar a variável discrepante através de procedimentos estatísticos veremos uma forma de fazer isso na unidade seguinte repetir o experimento com um novo conjunto de dados ou até mesmo excluir justificadamente a medição DEWITT TRIOLA 2008 19 ESTATÍSTICA 123 Acurácia Precisão e Regras de Arredondamento É claro que o objetivo de todo o pesquisador ao coletar e analisar dados é obter os valores mais próximos do valor real da população a partir da qual esses dados foram coletados Isso representa a acurácia das medições muitas vezes confundida com outra característica da amostragem a precisão Para ficar mais claro note que acurácia representa a proximidade das medições coletadas em relação ao valor real da variável medida enquanto precisão referese à proximidade dos valores de cada medição repetida em relação a mesma variável SMAILES McGRANE 2002 A Figura 2 a seguir ilustra a diferença entre acurácia e precisão com um exemplo cotidiano Figura 2 Imagens de dardos em alvos formando diferentes padrões Fonte O autor 2019 imagens auxiliares livres de direito autoral Note que na Figura 2A os dardos estão próximos entre si mas longe do alvo representando uma boa precisão mas com acurácia ruim Em uma coleta de dados real esse fato provavelmente indicaria um erro sistemático tal como uma balança viciada que sempre marca 500 gramas a mais Nesse caso um pesquisador poderia pesar várias vezes um mesmo indivíduo com medições muito próximas entre si mas longe do valor verdadeiro É importante que estejamos atentos a erros sistemáticos para evitar uma falsa sensação de ter em mãos dados confiáveis A Figura 2C ilustra uma situação comum em que as medições feitas pelo pesquisador ficam próximas dos valores reais mas são relativamente discrepantes entre si o que pode indicar variáveis difíceis de medir ou coletar por exemplo 20 ESTATÍSTICA Já a Figura 2B representa a situação ideal buscada pelo pesquisador na qual os dados coletados estão próximos entre si e ao mesmo tempo do valor verdadeiro enquanto a Figura 2D representa medições discrepantes entre si e ao mesmo tempo diferentes do valor real Se você enquanto pesquisador responsável por coletar os dados perceber esse padrão deve repensar a técnica utilizada para escolher sua amostra Como já vimos todo pesquisador deve almejar grande acurácia e precisão Contudo erros acontecem devemos estar preparados para representálos Para isso é importante compreender a representação da margem de erro em variáveis quantitativas contínuas você lembra das características PARA REFLETIR Mas antes vamos relembrar da regra mais simples de arredondamento a qual nos indica que os números menores que 5 cinco devem ser rebaixados enquanto números iguais ou maiores que 5 cinco devem ser aumentados quando formos reduzir as casas decimais Retomando o exemplo do indivíduo submetido à dieta restritiva de calorias que vimos no item anterior perceba que seu peso na balança mais precisa igual a 86825 kg foi arredondado para 8683 kg que por sua vez foi arredondado para 868 kg e por fim arredondado para 87 kg na balança menos precisa Nesse caso o peso indicado nesta última balança representa um intervalo entre uma continuidade de valores entre 865 kg e 874 kg pois ambos representam extremos de valores que seriam arredondados para 87 kg Note que mesmo na balança mais precisa 86825 kg representa apenas um intervalo entre 868245 kg e 868254 kg Agora que você está familiarizado com as regras de arredondamento podemos introduzir mais adequadamente o conceito de acurácia representada pela indicação numérica da medição Suponha que você seja um médico que tenha percebido uma lesão no pescoço de um paciente e a mediu obtendo o resultado igual a 3 cm A apresentação dessa informação indicará que a referida lesão tem entre 25 cm e 34 cm pois ambos os valores representam os valores extremos que devem ser arredondados para 3 cm caso ocorram Caso você apresente a mesma informação com uma casa decimal a mais ou seja 30 cm qualquer observador treinado em Estatística saberá que se trata de uma lesão 21 ESTATÍSTICA cujo tamanho tem entre 295 cm e 304 cm Se ainda há dúvidas podemos continuar aprofundando o mesmo exemplo A representação da lesão como tendo 300 cm indica que seu verdadeiro valor está em uma continuidade de valores entre 2995 cm e 3004 cm já 3000 cm representa o intervalo entre 29995 e 30004 e assim por diante EXERCÍCIO Acho que você já está apto para responder qual das medições da lesão descritas acima apresenta mais acurácia E como você poderia referir a precisão do mesmo caso SAIBA MAIS Conheça o Blog que complementa este material por meio do link http avantisestatisticablogspotcom Lá você encontrará tabelas estatísticas exercícios e dicas 13 TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICA Você certamente já conhece bem a diferença em amostra e população pois acabou de estudar o item 12 e quem sabe procurou em nossa bibliografia Nesse mesmo item chegamos à conclusão óbvia à segunda vista de que quanto maior a amostra menor será o erro inerente a qualquer estatística Contudo é hora de ressaltar que o esforço necessário para compor uma amostra não pode ser realizado sem critério senão vejamos EXEMPLO Imagine que um pesquisador esteja tentado comprovar que os alunos do curso de História têm um IMC índice de massa corporal maior que os alunos de Nutrição 22 ESTATÍSTICA pois estes supostamente têm melhor conhecimento em dietética ou qualquer outra hipótese Para isso ele decide medir o peso e a altura necessários para calcular o IMC de 10 dos alunos de cada curso pois seria inviável medir todos No momento da medição dos alunos de História ele escolhe os maiores enquanto no curso de Nutrição ele escolhe os menores alunos para garantir a confirmação da sua hipótese É claro que isso não seria justo tampouco teria relevância científica Para evitar distorções desse tipo que nem sempre são assim tão evidentes às vezes ocorre sem intenção há técnicas de amostragem probabilística que servem para garantir a aleatoriedade da amostra permitindo que esta seja mais representativa da população 131 Amostragem Aleatória Simples É a técnica de amostragem mais utilizada além de ser suficientemente simples e precisa para populações cujos elementos constituintes seus objetos de estudo tenham probabilidades conhecidas Para utilizála o pesquisador pode fazer um sorteio entre todas as variáveis que compõem a população em uma urna por exemplo ou utilizar números aleatórios TOLEDO OVALLE 2009 obtidos em livros específicos ou gerados em programas de computador como o Excel da Microsoft Essa técnica de amostragem sem dúvida permite que todos os membros da população tenham a mesma chance de serem escolhidos mas tem suas limitações Apesar de ser a amostragem ideal muitas vezes tornase muito difícil de executála ou mesmo inviável imagine que você pretenda identificar a porcentagem de pessoas com depressão na cidade e para isso queira utilizar a amostragem aleatória simples Para início de conversa você teria que ter o nome de todas as pessoas da cidade para realizar o sorteio em uma grande urna por exemplo difícil né 132 Amostragem Sistemática A amostragem sistemática exige que os membros de uma população devam estar ordenados e sem que o pesquisador saiba previamente a ordem ele deve escolher o nésimo membro dessa população sendo n um número escolhido de acordo com o tamanho da 23 ESTATÍSTICA população e do esforço amostral que se está disposto a realizar DEWITT TRIOLA 2008 Suponha que você queira conhecer o número de pessoas deprimidas em uma sala de aula sem perguntar para todo mundo para isso sem saber aonde estão localizados os alunos da sala você determina um número 5 por exemplo e pergunta ao quinto aluno da fila depois ao 10º depois ao 15º ao 20º e assim por diante a cada cinco estudantes Novamente perceba que no caso de populações grandes essa técnica se torna bastante difícil Note também que o número escolhido para a escolha de cada elemento da amostra tem relação com o tamanho da amostra que o pesquisador deseja obter No caso utilizado como exemplo o número 5 indica que o pesquisador está disposto a realizar um esforço amostral que utilize 20 de toda a população PARA REFLETIR E se ele estivesse disposto a amostrar apenas 10 da população que número deveria escolher Para descobrir este e qualquer outro valor apenas divida o número 100 pela porcentagem que deseja obter Por exemplo 100 dividido por 20 a porcentagem no primeiro caso desta técnica de amostragem é igual a 5 já 100 dividido por 10 a porcentagem da segunda sugestão é igual a 10 133 Amostragem Estratificada Em muitos casos o tamanho muito elevado da população que compõe seu objeto de estudo eou sua distribuição peculiar inviabilizam outras técnicas de amostragem que não separem os elementos da população em partes de acordo com os objetivos da pesquisa No caso da amostragem estratificada a população é dividida em subpopulações relevantes para o estudo e uma porcentagem dessa subpopulação é medida DEWITT TRIOLA 2008 Voltando ao exemplo da determinação da porcentagem de depressão você poderia decidir dividir a cidade em bairros e entrevistar uma porcentagem de cada bairro 1 digamos Dessa forma cada bairro estaria representado de acordo com sua população 24 ESTATÍSTICA PARA REFLETIR Importante ressaltar que não devemos amostrar um número fixo quando as subpopulações têm tamanhos diferentes somos obrigados a medir uma proporção ou porcentagem para evitar vieses Quando um pesquisador divide sua população em subpopulações com tamanhos diferentes e amostra uma quantidade fixa está realizando uma amostragem por cotas que não é probabilística pois não permite que cada elemento da população tenha a mesma probabilidade de ser escolhido Imagine a seguinte situação em seu local de trabalho há 10 mulheres e 2 homens e um pesquisador decide realizar uma amostra para conhecer a avaliação do produto através de uma entrevista com 2 pessoas de cada gênero nesse caso os homens estariam muito mais representados já que 100 deles foram entrevistados do que as mulheres haja vista que apenas 20 delas foram entrevistadas 134 Amostragem por Conglomerado Assim como na amostragem estratificada a população também é dividida em subpopulações relevantes na amostragem por conglomerado Mas desta vez o pesquisador sorteia uma subpopulação e entrevista ou mede todos os seus membros Dependendo do objetivo do estudo esse tipo de amostragem pode introduzir muito viés e por isso deve ser utilizada com cautela Imagine que você queira determinar o gasto médio com cosméticos dos seus clientes e para isso divideos em homens e mulheres ao sortear um grupo para ser medido você estará privilegiando clientes que têm uma média de consumo de cosméticos muito diferente do outro grupo DEWITT TRIOLA 2008 Contudo algumas vezes esse tipo de amostragem pode se revelar eficiente EXEMPLO Suponha que você trabalhe na Secretaria de Educação de Santa Catarina e decida determinar a qualidade do ensino através de visitas às escolas da 25 ESTATÍSTICA rede estadual isso realmente ocorre na vida real Para isso sortear algumas entre todas as escolas do estado aleatória simples escolher algumas em determinada ordem sistemática ou escolher uma porcentagem de cada cidade ou região estratificada tornaria o trabalho praticamente inviável pois representantes teriam que se descolar para várias cidades Nesse caso a amostragem por conglomerado se mostra mais eficaz você poderia dividir em grupos cidades por exemplo e sortear duas ou três a cada ano para que os representantes visitassem todas as unidades daquelas cidades sorteadas SUGESTÃO DE LIVRO MLODINOW L O andar do bêbado como o acaso determina nossas vidas Rio de Janeiro Zahar 2011 Você percebeu através das técnicas de amostragem discutidas a importância da aleatoriedade na coleta de dados que um pesquisador precisa respeitar para evitar vieses nas suas conclusões O escritor de livros de divulgação científica Leonard Mlodinow explorou com muito humor o papel da aleatoriedade em nosso dia a dia no livro O andar do bêbado como o acaso determina nossas vidas Você irá se divertir enquanto revê nossas discussões 14 APRESENTAÇÃO DE DADOS EM GRÁFICOS E TABELAS Uma das principais preocupações do pesquisador é apresentar adequadamente seus dados É possível fazer isso de diversas maneiras como por exemplo por meio de uma tabela de gráficos ou um histograma Nesta seção veremos algumas das formas mais comuns de apresentação dos nossos dados Inicialmente vamos considerar apenas dados qualitativos categóricos Para isso podemos supor desta vez que um bibliotecário queira apresentar à reitoria da 26 ESTATÍSTICA universidade os livros comprados no último ano A tabela seguinte poderia ser o resultado Tabela 1 Quantidade e porcentagem de livros comprados por área de conhecimento livros interdisciplinares jurídicas exatas humanas sociais quantidade 280 16 56 32 16 porcentagem 70 4 14 8 4 Área Fonte O autor dados fictícios 2019 Podemos notar facilmente que 280 livros são interdisciplinares 16 são das ciências jurídicas 56 das ciências exatas 32 de humanas e 16 das ciências sociais além das suas respectivas porcentagens Mas e se você quisesse apresentar esses mesmos dados por meio de um gráfico Vamos visualizar duas maneiras possíveis nos Gráficos 1 e 2 e discutir suas particularidades interdisciplinares jurídicas exatas humanas sociais Gráfico 1 Gráfico de pizza dos livros por área de conhecimento Fonte O autor dados fictícios 2019 Este é um gráfico de pizza no qual as categorias da variável que você que apresentar são exibidas por meio de fatias de um círculo cujas superfícies representam porcentagens de observações em cada categoria BARBETTA 2007 Podese identificar de relance que quase três quartos de todos os livros são interdisciplinares enquanto há pouca porcentagem de livros jurídicos e de ciências sociais 27 ESTATÍSTICA Outra maneira de resumir o mesmo conjunto de dados é através de gráfico de barras que também mostra claramente como os dados são distribuídos pelas várias categorias da variável conforme ilustrado no Gráfico 2 0 50 100 150 200 250 300 interdisciplinares jurídicas exatas humanas sociais Gráfico 2 Gráfico de colunas dos livros por área de conhecimento Fonte O autor dados fictícios 2019 A altura das barras representa as observações em cada categoria Ambos os tipos de gráficos têm vantagens e desvantagens Uma vantagem do gráfico de pizza é que você pode ver imediatamente que quase 75 dos livros pertence a uma categoria enquanto você não pode discernir essa informação facilmente a partir do gráfico de barras sem fazer alguns cálculos de porcentagem Por outro lado o número exato de livros de cada área não é facilmente visualizado a partir de um gráfico de pizza enquanto em um gráfico de barras podese ver facilmente que um pouco mais de 50 livros são de ciências exatas PARA REFLETIR Um gráfico de barras tem vantagens sobre um gráfico de pizza se o número de categorias de uma variável aumentar Imagine por exemplo que você não quer saber de que área os livros são mas sim a letra inicial do sobrenome do autor o que é muito útil na hora de organizar a prateleira Nesse caso devemos ter mais de 20 categorias Imagine como ficaria um gráfico de pizza sem dúvida um gráfico de barras seria mais adequado 28 ESTATÍSTICA EXERCÍCIO Escolha um conjunto de dados que tenha pelo menos 20 observações número de dados ou simplesmente n igual ou maior que 20 e que represente uma medida qualquer inflação desemprego gols mortes taxas etc que varie em função do tempo Vou deixar aqui um exemplo no Quadro 1 mas você pode utilizar outro de seu interesse Outros conjuntos de dados podem ser encontrados nos sites do Instituto Brasileiros de Geografia e Estatística IBGE Instituto de Pesquisas Econômicas Aplicadas IPEA Sistema Único de Saúde SUS Organização das Nações Unidas ONU Banco Central do Brasil BACEN entre vários outros repositórios de informação só atente para o fato de que os dados devem variar em função do tempo ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa 1996 51 2006 45 2001 59 2011 36 1996 206 2006 191 2001 177 2011 218 1997 51 2007 42 2002 53 2012 36 1997 203 2007 194 2002 188 2012 236 1998 51 2008 41 2003 52 2013 35 1998 176 2008 197 2003 187 2013 240 1999 53 2009 40 2004 46 2014 35 1999 180 2009 191 2004 189 2014 241 2000 57 2010 40 2005 44 2015 30 2000 171 2010 209 2005 191 2015 245 Suécia Brasil Quadro 1 Taxas de morte no trânsito para cada grupo de 100 mil habitantes na Suécia e no Brasil 1996 a 2015 Fonte ONU 2016 Os dados disponíveis nesse Quadro 1 podem ser melhor apresentados para que sua informação seja mais facilmente reconhecida Por isso temos um desafio seja criativo Pesquise proponha e execute uma forma mais adequada de apresentar esse tipo de variável e nos mostre como ficou PARA REFLETIR E se as taxas de morte no trânsito fossem apresentadas mensalmente Esse número de dados seria multiplicado por 12 ou seja teríamos 240 taxas para cada país Nesse caso que tipo de apresentação permitiria ao pesquisador transpor a ideia da melhor forma possível Dica dê uma olhada no próximo item Note que até agora trabalhamos apenas em gráficos que apresentaram variáveis 29 ESTATÍSTICA categóricas lembra do que aprendemos no item 12 Vejamos agora então como podemos resumir dados se estivermos lidando com variáveis quantitativas A não ser que se trate de uma série temporal cuja melhor forma de representála será através de um gráfico de linhas DEWITT TRIOLA 2008 geralmente é mais adequado apresentar variáveis quantitativas em um gráfico de dispersão de pontos Vejamos como funciona o mesmo bibliotecário quer apresentar alguns livros comprados no último ano considerando a quantidade de páginas e o peso tecnicamente tratase da massa mas é referido como peso para facilitar a transmissão da mensagem de cada obra A matriz de dados ou a tabela ficaria assim conforme ilustra a Tabela 2 Tabela 2 Quantidade de páginas e peso de 6 livros comprados no último ano Peso g nº de páginas 980 235 430 100 900 255 700 130 1050 299 280 60 Fonte O autor dados fictícios 2019 Para ser representado em um gráfico de dispersão devemos colocar em cada eixo já rotulado com intervalos regulares os valores correspondentes às variáveis medidas neste caso o peso em gramas e o número de páginas para estabelecermos os pontos de interseção O Gráfico 3 ficaria assim e pode ser visualizado a seguir 0 50 100 150 200 250 300 350 0 200 400 600 800 1000 1200 nº de páginas Peso em gramas Gráfico 3 Peso dos livros em função do número de páginas Fonte O autor dados fictícios 2019 30 ESTATÍSTICA Podemos perceber facilmente que o peso de um livro tende a aumentar conforme aumenta o número de páginas Para representar informações que relacionam duas variáveis o gráfico de dispersão de pontos é o mais adequado SAIBA MAIS Por que você não tenta fazer um gráfico de cada tipo Se você usa a planilha da Microsoft Excel veja essas dicas MICROSOFT 2018 httpssupportoffice comptbrarticlecriarumgrC3A1ficodoinC3ADcioaofim0baf399edd614e18 8a73b3fd5d5680c2 Outras planilhas também permitem a criação de gráficos e têm tutoriais específicos Na plataforma virtual da disciplina você pode se aprofundar na apresentação de dados clínicos e epidemiológicos BASTOS DUQUIA 2006 acessando o artigo Tipos de dados e formas de apresentação clínicoepidemiológica 141 Apresentação de Grandes Conjuntos de Dados A distribuição de frequências é uma forma bastante prática e útil de descrever os dados principalmente quando o n é muito grande Essa forma de descrever os dados pode ser utilizada para variáveis qualitativas como podemos observar na seguinte Tabela 3 de distribuição de frequências Tabela 3 Tipos sanguíneos de 200 indivíduos Tipo sanguíneo classes Frequência observada nº de dados por classe Frequência relativa total nº cada classe A 10 005 ou 5 B 20 01 ou 10 AB 40 02 ou 20 O 130 065 ou 65 Total 200 1 ou 100 Fonte O autor 2019 Contudo nessa disciplina de Estatística estamos mais interessados nas distribuições de frequências de dados quantitativos Porém dividir as classes em conjuntos com 31 ESTATÍSTICA variáveis quantitativas exige alguns passos adicionais Primeiramente devemos definir o número de classes Há várias sugestões e você quando for construir uma tabela de distribuição de frequências para descrever seus dados em uma pesquisa real pode escolher a que melhor lhe convier desde seja justificada a escolha O cálculo mais difundido para determinar o número de classes é a Fórmula de Sturges onde k é o número de classes e n o tamanho da amostra Já a sugestão mais simples é simplesmente Em nossos exemplos e avaliações utilizaremos esta última fórmula que apresenta uma ótima aproximação da fórmula de Sturges exceto quando as amostras forem muito grandes ou muito pequenas BARBETTA 2007 Agora que definimos o cálculo do número de classes precisamos determinar o intervalo de cada classe muitas vezes indicado pela letra h Para isso não há dúvidas apenas divida a amplitude que por sua vez representa a diferença entre o maior e o menor número do conjunto de dados pelo número de classes previamente calculado ou seja Realizados esses passos basta montarmos nossa tabela de distribuição de frequência para variáveis quantitativas EXEMPLO Suponha que um enfermeiro tenha coletado dados sobre o número de pacientes com escaras lesões por pressão comum em quem fica muito tempo deitado em determinado hospital nos últimos 9 anos e obtido os seguintes resultados 3 5 8 8 9 10 10 14 e 15 Como já vimos o número de classes será igual a 3 sendo n 9 o intervalo de cada classe será igual 4 A primeira classe se inicia pelo menor número do conjunto de dados 3 nesse caso e tem uma amplitude de classe igual a 4 conforme h calculado Portanto a primeira classe vai de 3 limite inferior até 7 que é o resultado de 3 4 e que é seu limite superior A segunda classe se inicia com o limite superior da primeira classe 7 e termina em 11 7 4 Por fim a última classe se inicia com o limite superior da segunda classe 11 indo até 15 11 4 Relembrando o conjunto das variáveis é 3 5 8 8 9 10 10 14 e 15 Assim o profissional já tem os parâmetros necessários para preencher a tabela de distribuição de frequências que ficaria assim os números estão representados em diferentes cores para facilitar a 32 ESTATÍSTICA identificação na Tabela 4 a seguir Tabela 4 Frequência de escaras nos últimos 9 anos Classes k Limite inf Limite sup intervalo de classe h Frequência observada Fi C1 2 C2 5 C3 2 Fonte O autor 2019 Vamos relembrar as notações do intervalo de classe que aprendemos no ensino médio Os colchetes fechados indicam que o intervalo começa ou termina no número grafado dentro dele enquanto o colchete aberto indica o limite excluindo o próprio número grafado Sendo assim no exemplo acima o intervalo indica que se houver um número 3 no conjunto de dados ele deve ser computado nesta classe colchete fechado mas se houver um número 7 não colchete aberto Outra consideração importante referese às informações adicionais em uma tabela de distribuição de frequência Muitas vezes você irá se deparar com a frequência relativa assim como no exemplo das variáveis qualitativas acima referente aos tipos sanguíneos que nada mais é do que a porcentagem das observações em cada classe e a frequência acumulada que como o próprio nome diz é a soma das observações da classe com as observações das classes anteriores DEWITT TRIOLA 2008 142 Gráficos de Distribuição de Frequências Lembrese que as distribuições de frequência são úteis principalmente quando coletamos e descrevemos grandes quantidades de dados apesar de que para fins didáticos utilizamos conjuntos pequenos em nossos exemplos A partir das tabelas de distribuição de frequência que acabamos de aprender a montar podemos apresentar os dados através de gráficos adequados a esse tipo de informação O principal tipo de gráfico de distribuição de frequência é o histograma que nada mais é do que um gráfico de colunas onde no eixo x horizontal estão indicadas as classes e no eixo y vertical estão indicadas as frequências observadas BARBETTA 33 ESTATÍSTICA 2007 representado no Gráfico 4 Gráfico 4 Histograma do nº de escaras Fonte O autor 2018 O outro tipo de gráfico é o polígono de frequências que é um gráfico de linhas de uma tabela de frequências que se inicia e termina no zero do eixo y passando necessariamente pelos pontos representados pelas frequências observadas BARBETTA 2007 Um polígono de frequências seria plotado assim GRÁFICO 5 Gráfico 5 Polígono de frequências do nº de escaras Fonte O autor 2018 34 ESTATÍSTICA Importante ressaltar que as sugestões sobre a determinação do número de classes para a construção da tabela de distribuição de frequências não geram obrigação para o pesquisador que pode justificadamente adotar outros critérios Vejamos um outro exemplo que o ajudará a fixar as características a lógica e as representações da distribuição de frequência EXEMPLO Voltando ao exemplo dos livros comprados pela biblioteca de uma universidade você pode imaginar que se usássemos todos os livros comprados no ano anterior para representar seus pesos um gráfico de dispersão de pontos ficaria muito confuso Como vimos para representar grandes amostras um gráfico de distribuição de frequência que pode ser um histograma colunas ou polígono de frequências linhas é uma boa solução Primeiramente vamos construir uma tabela de distribuição de frequências TABELA 5 Tabela 5 Quantidade de livros de acordo com intervalo de peso Classe Intervalo de classe Nº de livros 1 1 a 200 g 7 2 201 a 400 g 35 3 401 a 600 g 89 4 601 a 800 g 46 5 801 a 1000 g 11 Fonte O autor dados fictícios 2019 Dessa vez dividimos todos os livros comprados 188 nesse exemplo equivalente à soma da 3ª coluna em classes representadas por intervalos de peso em gramas sem nos preocuparmos com o número total dos livros Apesar de não haver obrigação na determinação do número de classes os intervalos devem ter tamanhos iguais Nesse caso dividimos as classes em intervalos de 200 gramas cada Observando a Tabela 5 podemos afirmar que há 35 livros que pesam entre 201 e 400 gramas ou 7 livros com até 200 gramas e assim por diante Um histograma dessa distribuição de frequência ficaria assim GRÁFICO 6 35 ESTATÍSTICA 0 10 20 30 40 50 60 70 80 90 100 1 a 200 g 201 a 400 g 401 a 600 g 601 a 800 g 801 a 1000 g nº de livros Gráfico 6 Histograma da quantidade de livros de acordo com intervalo de peso Fonte O autor dados fictícios 2019 Note que é possível identificar rapidamente como estão distribuídos os pesos do conjunto dos 188 livros Poucos livros têm 200 g ou menos assim como poucos têm entre 801 e 1000 g por outro lado é muito mais frequente encontrarmos livros que pesam entre 401 e 600 g O polígono de frequência segue a mesma lógica e é feito a partir da mesma tabela de distribuição de frequência A diferença é que em vez de barras utiliza se linhas que passam pelo centro de cada classe PARA REFLETIR Como podemos notar há várias formas de resumir os dados de uma pesquisa através de gráficos e tabelas Você tem a liberdade de escolher o melhor tipo de apresentação desde que respeite algumas regras Em resumo se estamos lidando com variáveis nominais ou ordinais um gráfico de pizza ou um gráfico de barras parece bastante adequado Se você tem uma série temporal um gráfico de linhas será o melhor Já se sua variável de interesse é representada por uma taxa de intervalo e principalmente há um grande número delas o ideal será a construção de um histograma a partir de uma tabela de distribuição de frequências 36 ESTATÍSTICA SUGESTÃO DE VÍDEO O estatístico sueco Hans Rosling desenvolveu técnicas de apresentação de dados incríveis que permitem aos usuários identificar padrões mais facilmente Uma palestra sua proferida em 2010 As boas notícias da década mostra os números positivos em relação ao combate contra a mortalidade infantil no mundo Você pode acessála na plataforma do TED no Youtube ou no repositório da Universidade de São Paulo USP em httpswwwimeuspbrativestatatividadesfilmesfv06 15 FÓRUM Vamos finalizar nossa primeira unidade com uma discussão sobre técnicas de amostragem probabilística no Fórum da disciplina Para um bom aproveitamento na atividade online comente como uma entrevista com pouco mais de 2 mil pessoas pode afirmar com uma margem de erro de até 2 quem é o candidato preferido de um país com mais de 200 milhões de pessoas Isso ocorre periodicamente a cada eleição nacional Uma dica usando uma técnica de amostragem adequada Leia o item metodologia reproduzido a seguir da pesquisa Intenção de Voto para Presidente conduzida pelo instituto Datafolha em 2018 METODOLOGIA A pesquisa do Datafolha é um levantamento por amostragem estratificada por sexo e idade com sorteio aleatório dos entrevistados O universo da pesquisa é composto pela população com 16 anos ou mais do país Nesse levantamento realizado do dia 29 ao dia 30 de janeiro de 2018 foram realizadas 2826 entrevistas presenciais em 174 municípios com margem de erro máxima 2 pontos percentuais para mais ou para menos considerando um nível de confiança de 95 Isto significa que se fossem realizados 100 levantamentos com a mesma metodologia em 95 os resultados estariam dentro da margem de erro prevista 37 ESTATÍSTICA Essa pesquisa é uma realização da Gerência de Pesquisas de Opinião do Datafolha Essa pesquisa está registrada no Tribunal Superior Eleitoral com o número BR 053512018 DATAFOLHA 2018 Agora que você sabe como um instituto de pesquisa coleta seus dados pense como dados desse tipo poderiam ser apresentados SAIBA MAIS Nossa bibliografia básica e complementar traz farto material sobre confecção e pertinência dos vários tipos de gráfico Mas agora que você já tem mais conhecimento em apresentação de dados por que não visita o site do Instituto Brasileiro de Geografia e Estatística IBGE 2018 Dê uma olhada nas formas criativas de apresentação de dados e inspirese https wwwibgegovbrappspopulacaoprojecaoindexhtml CONSIDERAÇÕES FINAIS DA UNIDADE Nesta unidade você viu que a matériaprima da Estatística são os dados obtidos de amostras que representam uma parte do conjunto completo população das variáveis de interesse Além disso você identificou as formas mais adequadas de coletar esses dados amostragem aleatória simples sistemática estratificada e por conglomerado para descrever seu conjunto de variáveis Por fim entrou em contato com as diversas formas de apresentar variáveis quantitativas e qualitativas em gráficos e tabelas inclusive quando os conjuntos de dados são muito grandes distribuição de frequência Avalie sua aprendizagem Agora que terminamos esta unidade você deve estar apto a Descrever os principais conceitos e divisões da Estatística Identificar as técnicas de amostragem probabilística Coletar e apresentar dados em gráficos e tabelas Representar a distribuição de grandes conjuntos de dados 38 ESTATÍSTICA EXERCÍCIO FINAL 1 APLICAÇÃO A apresentação de um conjunto grande de dados pode ser feita através da distribuição de frequência que é uma parte importante dos trabalhos científicos Suponha que você está conduzindo um estudo que pretende descrever o número de vezes que usuários da terceira idade compareceram às atividades promovidas pela prefeitura da sua cidade Dados da Secretaria do Idoso mostram que 16 usuários com mais de 60 anos estão cadastrados e suas presenças registradas no último mês foram 1 2 2 3 3 5 5 5 6 6 8 8 9 11 12 e 13 Com base nestas informações assinale a alternativa correta Nota o tamanho desta amostra não é grande o suficiente para justificar o uso de distribuição de frequências em uma pesquisa real mas serve muito bem para o propósito de ensinoaprendizagem A Para calcular o intervalo de cada classe basta dividir a amplitude pelo número de classes o intervalo de classes correto para esse conjunto de dados é igual a 5 B Para calcular o intervalo de cada classe basta dividir a variância pelo número de observações o intervalo de classes correto para esse conjunto de dados é igual a 3 C O histograma é o gráfico de linhas de uma distribuição de frequência D O polígono de frequências é o gráfico de colunas de uma distribuição de frequência E Para calcular o intervalo de cada classe basta dividir a amplitude pelo número de classes o intervalo de classes correto para esse conjunto de dados é igual a 3 2 SÍNTESE Nem sempre é possível coletar todos os dados disponíveis Por isso utilizase amostras representativas da população de interesse para então se extrapolar os resultados Com base nos seus conhecimentos indique a alternativa correta sobre o tema A Populações são subconjuntos da amostra como por exemplo cem peças sorteadas aleatoriamente de uma linha de produção para que sejam medidas suas medidas B Uma medição feita em toda a população chamase censo nesse caso há um grande erro amostral C O pesquisador deve estar atento ao tamanho da amostra pois quanto maior ela for 39 ESTATÍSTICA menor será o erro amostral D Outliers são valores extremos num determinado conjunto de dados quando forem verificados devem ser imediatamente excluídos E Populações podem ser confundidas com suas amostras pois não alteram as decisões baseadas em dados já que ambas permitem o cálculo de parâmetros 3 APLICAÇÃO As pesquisas de opinião e intenção são muito utilizadas em levantamentos relacionados às ciências humanas exatas e biológicas Nessas pesquisas a coleta de dados é uma das fases mais importantes e deve ser executada de acordo com técnicas apropriadas aos objetivos de cada projeto Além disso uma amostragem bem planejada deve evitar vieses que comprometam o resultado do trabalho Considere as seguintes afirmações I A amostra aleatória simples é escolhida entre todos os membros da população de modo que cada um tenha a mesma chance de ser selecionado II A amostragem sistemática é obtida a partir de todos os membros de uma subpopulação definida anteriormente III A amostragem por conglomerado é escolhida de tal forma que cada pessoa ou item em determinada ordem predefinida será incluído no estudo IV A amostragem estratificada é obtida a partir de uma porcentagem de cada subpopulação definida anteriormente É correto o que se afirma em A I e III B I e IV C II e IV D II e III E III e IV 40 ESTATÍSTICA REFÊRENCIAS BARBETTA Pedro Alberto Estatística aplicada às ciências sociais 7 ed Florianópolis UFSC 2007 BASTOS JLD DUQUIA RP Tipos de dados e formas de apresentação na pesquisa clínicoepidemiológica Scientia Medica v16 n3 p2528 2006 DEWITT David P TRIOLA J Introdução a estatística 10 ed Rio de Janeiro LTC 2008 FERREIRA Aurélio Buarque de Holanda Dicionário da língua portuguesa 5 ed Curitiba Positivo 2010 INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA IBGE População Brasília 2018 Disponível em httpswwwibgegovbrappspopulacaoprojecaoindexhtml Acesso em 02 jul 2018 INSTITUTO DE PESQUISA DATAFOLHA DATAFOLHA Intenção de voto para presidente São Paulo 2018 Disponível em httpswwwpoder360combrwp contentuploads201803Datafolhajaneiropdf Acesso em 02 jul 2018 MICROSOFT Site Como criar um gráfico do começo ao fim 2018 Disponível em httpssupportofficecomptbrarticlecriarumgrC3A1ficodoinC3ADcio aofim0baf399edd614e188a73b3fd5d5680c2 Acesso em 10 jul 2018 MLODINOW L O andar do bêbado como o acaso determina nossas vidas Rio de Janeiro Zahar 2011 ORGANIZAÇÃO DAS NAÇÕES UNIDAS ONU Global status report on road safety 2016 Disponível em httpwwwwhointviolenceinjurypreventionroadsafety status 2015en Acesso em 02 jul 2018 SMAILES Joanne McGRANE Ângela Estatística aplicada à administração com Excel São Paulo Editora Atlas 2002 TOLEDO Geraldo Luciano OVALLE Ivo Izidoro Estatística básica 2 ed São Paulo Atlas 2009 WERNER MJ Material complementar para Estatística da UNIAVAN 2018 Disponível em httpavantisestatisticablogspotcom Acesso em 29 abr 2019 ZAR JH Biostatistical Analysis 5 ed New Jersey Pearson Prentice Hall 2010 41 ESTATÍSTICA2 unidade DESCRIÇÃO E RESUMO DOS DADOS 42 ESTATÍSTICA INTRODUÇÃO À UNIDADE Agora que estamos mais familiarizados com alguns conceitos da Estatística podemos iniciar alguns cálculos A partir de agora um pouco de conhecimento de matemática básica será bastante útil Se precisar de uma revisão dos conceitos básicos que utilizamos para calcular parâmetros estatísticas e testes sugerimos a leitura do apêndice B do livro Introdução à Estatística Social DIETZ KALOF 2017 cuja referência completa está no final desta unidade Vamos relembrar a divisão da ciência Estatística que discutimos na unidade anterior Como vimos a Estatística inferencial permite que façamos previsões a partir dos dados coletados Já a Estatística descritiva é responsável por descrever nossas variáveis ou dados de formas que vão além da apresentação de gráficos e tabelas Dessa vez a descrição e resumo serão feitas com números tais como a média o desvio padrão ou o índice de correlação sempre de acordo com o objetivo do trabalho científico ou das intenções do pesquisador Tanto em amostras como em populações de variáveis podemos encontrar valores que representam a distribuição das observações em relação ao centro do conjunto de dados Além disso na maioria dos casos é importante conhecermos como esses valores variam em relação às medições centrais A descrição desses parâmetros pode ser feita através de diversas medidas de tendência central e de dispersão que têm a capacidade de descrever propriedades importantes das amostras e populações Além das medidas que resumem os dados quantitativos este módulo também introduz medidas que relacionam duas variáveis conhecida como análise bivariada A descrição das relações entre variáveis pode fornecer informações importantes sobre as características dos dados Em nossa disciplina estudaremos apenas as técnicas que consideram relações entre duas variáveis Contudo ressaltamos que há outros procedimentos que consideram a relação entre mais de duas variáveis como a correlação e a regressão múltiplas mas não serão abordados nesta disciplina pois extrapolam nossos objetivos Sendo assim os objetivos desta Unidade 2 são Descrever conjuntos de variáveis através de medidas de tendência central e de dispersão das variáveis Apresentar a dispersão relativa de conjuntos de variáveis com escalas diferentes Analisar e quantificar o grau de relação entre 2 grupos de variáveis com ou sem relação de causa e efeito Estimar parâmetros e estatísticas em análise bivariada 43 ESTATÍSTICA 2 DESCRIÇÃO E RESUMO DOS DADOS As várias formas de descrever e resumir os dados serão apresentadas a seguir É importante ressaltar desde o início que a maneira pela qual você decidirá descrever seus dados deve se basear no seu objetivo principalmente É claro que a familiaridade com determinadas estatísticas e parâmetros pode influenciar sua escolha na prática de pesquisa real Contudo aproveite para aumentar suas competências em uma variedade de descritores pois a associação das medidas que resumem seus dados trará mais relevância para sua pesquisa Além disso as principais medidas de tendência central e de dispersão também servirão de base para as tomadas de decisão previsões e inferências a partir dos dados que serão trabalhadas nas unidades finais desta disciplina Então vamos lá 21 MEDIDAS DE TENDÊNCIA CENTRAL Tanto em amostras como em populações de variáveis podemos encontrar valores que são próximos do centro das observações A descrição desses parâmetros ou estatísticas Você lembra da diferença Se não revise a unidade anterior pode ser feita através de diversas medidas que são úteis para descrever propriedades importantes das populações Vejamos então as principais medidas de tendência central 211 Média Aritmética Simples A medida de tendência central mais utilizada é a média aritmética simples muitas vezes referida apenas como média Para facilitar a compreensão e adequarmos nossa linguagem às expressões utilizadas em concursos vestibulares ENEM e ENADE vamos indicar os símbolos que representam os itens que compõem as fórmulas que usaremos Cada medida ou variável será representada pela letra X portanto se medirmos a glicemia de três pessoas para calcularmos a média do índice glicêmico desses três indivíduos as medições seriam X1 X2 e X3 De forma geral Xi indica que o número de variáveis é indeterminado podendo assumir qualquer valor integral que será igual ao 44 ESTATÍSTICA tamanho do conjunto de dados nota a seguir que no nosso exemplo as medições irão até X3 Falando em tamanho do conjunto de dados a letra N maiúscula representa o número de variáveis de uma população enquanto a letra n minúscula representa o número de variáveis de uma amostra Outro símbolo utilizado na fórmula da média é o letra grega sigma maiúscula que representa o somatório Por fim a letra grega µ letra grega mu minúscula representa a média populacional enquanto o símbolo leia x barra representa a média amostral Vamos às fórmulas Ou seja para obtermos a média basta somar os valores de todas as variáveis e dividir o resultado pelo número de variáveis TOLEDO OVALLE 2009 Por exemplo suponha que alguém pretenda descrever a média de comprimidos que os únicos 3 pacientes de um médico ingerem por semana sabendo que o paciente A ingere 4 comprimidos o paciente B ingere 5 comprimidos e o paciente C ingere 6 comprimidos Como já descrito basta somar os três valores 4 5 6 15 e dividir o resultado pelo número de variáveis N 3 pacientes a média aritmética simples para esse conjunto de dados é µ1535 comprimidos por semana Note que foi utilizado µ pois estamos considerando que o médico possui apenas 3 pacientes portanto não é uma amostra mas sim a população Caso as variáveis fossem obtidas de uma amostra eg número de comprimidos dos 3 pacientes mais idosos de um médico apenas deveríamos trocar µ por mas o cálculo e o resultado não mudariam EXERCÍCIO Vamos fazer mais um exercício suponha que você tenha feito uma prova na qual obteve nota 6 e uma atividade na qual obteve nota 10 Essas notas serão utilizadas para compor sua nota final na nossa disciplina Se estabelecermos que uma média 45 ESTATÍSTICA aritmética simples dessas duas avaliações será sua nota final qual seu valor Muito fácil não é mesmo Contudo apesar de ser a medida de tendência central mais adequada pois considera o conjunto completo dos dados há outras medidas que podem se adequar melhor aos objetivos do pesquisador que pretende descrever seus dados 212 Média Aritmética Ponderada Como acabamos de ver os cálculos envolvendo média aritmética simples todas as ocorrências têm exatamente a mesma importância ou seja os dados têm o mesmo peso relativo No entanto há casos em que as medições têm importância relativa diferente Nesses casos o cálculo da média deve levar em conta essa importância sendo necessário o uso de outra medida de tendência central a média aritmética ponderada ou simplesmente média ponderada Para o cálculo da média ponderada devemos multiplicamos cada valor da variável pelo seu peso ou seja sua importância relativa para depois dividirmos a soma dessas multiplicações pela soma dos pesos BARBETTA 2007 Para evitar confusão vamos ver como é representada a fórmula da média ponderada para um conjunto de números X1 X2 X3 etc cujo peso é respectivamente p1 p2 e p3 Um exemplo pode esclarecer ainda mais Retomando as supostas notas de prova 6 e atividade 10 citadas no item anterior imagina que desta vez decidimos atribuir pesos diferentes para essas duas avaliações Para a prova optamos por considerála mais importante que a atividade atribuindo lhe um peso 8 já para a atividade decidimos utilizar um peso igual a 2 Na prática isso significa que consideramos a prova 4 vezes mais importante que a atividade Vejamos então como ficariam os cálculos 46 ESTATÍSTICA Perceba que o valor da média ponderada ficou muito mais próximo da nota da prova porque a esta foi atribuído um peso muito maior em relação ao peso da atividade Vale ressaltar que em nosso exemplo e na maioria das ocorrências de média ponderada na vida real a soma dos pesos resulta em 10 Isso serve apenas para facilitar o cálculo não sendo uma regra obrigatória 213 Ponto Médio O ponto médio é simplesmente a média aritmética simples entre o maior e o menor número em um conjunto de dados quantitativos Essa medida de tendência central tem um poder de descrição dos dados menor que as médias que acabamos de estudar pois utiliza apenas os valores extremos DEWITT TRIOLA 2008 Contudo assim como a mediana que como veremos a seguir só utiliza valores centrais o ponto médio pode ser útil quando um pesquisador tiver problemas com medições que se encontrem no centro do conjunto A fórmula do ponto médio é Xmáximo é o maior valor do conjunto de dados e Xmínimo é o menor valor do conjunto de dados Como alguém pode decidir utilizar o ponto médio para descrever seus dados PARA REFLETIR Imagine que você deseja descrever um conjunto de variáveis composto pelo tempo de entrega em dias de 3 fornecedores no último mês Você analisou as 47 ESTATÍSTICA fichas e descobriu que o fornecedor A demorou 3 dias até a entrega o fornecedor B 7 dias e o fornecedor C 13 dias Suponha ainda que o fornecedor B não autorizou a divulgação da informação relacionada à sua entrega Seu conjunto de dados seria 3 7 que não poderia ser divulgado e 13 Sua única opção seria divulgar o ponto médio do número de dias até a entrega de mercadorias no último mês que seria Percebeu que cada medida descritiva tem sua utilidade em parte vinculada às características dos dados que fazem parte do seu arsenal enquanto pesquisador Portanto tão importante quanto praticar os cálculos devemos estar atentos às especificidades das variáveis que pretendemos estudar Mas vamos à próxima medida de tendência central 214 Moda A moda representa o valor mais frequente observado nas medições de um conjunto de dados Até agora nossos exemplos apresentaram valores com a mesma frequência nos conjuntos de dados cada valor apareceu apenas uma vez Nesses casos chamamos o conjunto de amodal pois não há moda do grego a negação Agora analise os exemplos de conjuntos de dados a seguir Exemplo 1 idades em anos de 11 alunos 1 3 4 4 4 4 6 8 9 11 11 O valor que mais se repete e portanto tem a maior frequência é o 4 sendo assim a moda é igual a 4 simples não é mesmo Exemplo 2 mortes devidas a acidentes em 9 cidades 1 3 3 4 1 1 3 8 e 11 Nesse conjunto há dois valores que se repetem com a mesma frequência 1 e 3 cada um se repete 3 vezes portanto esse conjunto de dados é bimodal do grego bi dois Também podemos ter conjuntos com mais que duas modas que podem ser chamados de multimodais Além disso diferentemente da média e da mediana a moda pode ser utilizada para descrever conjuntos de dados qualitativos SMAILES McGRANE 2002 48 ESTATÍSTICA como por exemplo a etnia mais frequente na população brasileira SAIBA MAIS Se você quiser compreender melhor a maneira pela qual as medidas de tendência central descrevem como os dados se concentram leia o artigo Medidas de tendência central onde a maior parte dos indivíduos se encontra Neste trabalho Duquia e Bastos 2006 apresentam vantagens e desvantagens das diversas medidas que discutimos nesta unidade Você pode acessálo na plataforma da disciplina 22 MEDIDAS DE POSIÇÃO Diferentemente das medidas de tendência central que acabamos de discutir e das medidas de dispersão que veremos mais a frente os cálculos das medidas de posição não determinam um valor referente às variáveis mas sim uma posição em relação ao conjunto de dados desde que este esteja ordenado Para facilitar nossa compreensão vejamos as principais medidas de posição 221 Mediana A mediana representa a variável localizada no centro de um conjunto ordenado de dados Sendo assim há exatamente o mesmo número de variáveis que se encontram acima e que se encontram abaixo da mediana BARBETTA 2007 Considere as seguintes quantidades de dias letivos no último semestre de 5 escolas da região 123 144 112 156 e 109 Para o cálculo da mediana primeiramente devemos ordenar do menor para o maior valor esse conjunto de dados sendo assim 109 112 123 144 e 156 Agora é só identificar o valor central ou seja a mediana desse conjunto de variáveis é igual 123 dias Fácil Infelizmente não é tudo 49 ESTATÍSTICA Quando o valor de N ou n lembra o que significa for ímpar como no nosso exemplo n 5 sempre existirá UM valor central Contudo quando N for par não teremos exatamente um valor central Veja o exemplo a seguir Um dentista pretende descrever a mediana do número de cáries de 4 pacientes que possuem respectivamente 2 5 3 e 9 cáries Para isso ele coloca as medições em ordem 2 3 5 e 9 e verifica que não há somente um valor central mas sim 2 3 e 5 Sempre que o valor de n for um número par devese calcular a média aritmética simples dos dois valores centrais Nesse caso a mediana é igual a 4 pois a média entre 3 e 5 é 35 2 4 A fórmula geral da mediana é Note que o resultado da expressão subscrita n12 não representa o valor da estatística mas sim a posição da variável X em um conjunto de dados ordenados que por sua vez indica o valor da mediana Retomando o primeiro exemplo temos 109 112 123 144 e 156 X1 X2 X3 X4 X5 Já para o segundo exemplo 2 3 média X2 e X3 5 9 X1 X2 X25 X3 X4 Tivemos que calcular o valor médio entre X2 e X3 X25 ou seja 4 Além de ser uma medida de posição muitos autores também consideram a mediana uma medida de tendência central muito útil em casos específicos Por exemplo quando algumas medições não podem ser realizadas por impossibilidade instrumental eg um aparelho que não consegue medir valores muito baixos ou muito altos Observe 50 ESTATÍSTICA Suponha que um pesquisador mediu o nível de serotonina no lobo frontal de 3 presidiários com um instrumento que possibilita o registro de valores a partir de 9 µg microgramas No primeiro indivíduo o valor foi de 17 µg no segundo 11 µg e no terceiro o valor não foi visualizado no instrumento pois ficou abaixo de 9 µg Sendo assim os dados foram ordenados 9 11 e 17 Com esse conjunto de dados não é possível calcular a média aritmética simples pois é necessário somar todos os valores no caso do último presidiário não sabemos se esse valor foi 8 1 zero ou qualquer valor abaixo de 9 Sendo assim a única alternativa é utilizar a mediana que é a 11 µg de serotonina para descrever esse conjunto de dados A mediana também pode ser mais bem representativa em casos específicos como por exemplo quando há valores exageradamente altos ou baixos em relação ao resto das variáveis o que chamamos de outliers como já vimos na unidade anterior EXERCÍCIO Imagine que você queira descrever através de uma medida de tendência central o conjunto de salários de 4 pessoas do atendente da cantina do professor do seu vizinho policial e do maior astro do futebol mundial Atribua valores compatíveis a cada profissional e pense se a média descreveria bem esse conjunto de dados Agora pense no valor da mediana para o mesmo conjunto de salários Qual estatística descreve o salário da população de forma mais representativa 222 Quartis Acabamos de ver que a mediana é a medida de posição que divide um conjunto de dados quantitativos em duas partes iguais sendo que metade das observações estarão abaixo e a outra metade estará acima do valor da mediana Pois bem você já deve estar desconfiado do que significam os quartis Isso mesmo quartis são os valores que dividem um conjunto de variáveis quantitativas em quatro partes iguais DIETZ KALOF 2017 Sendo assim um quarto ou 25 dos dados serão menores que o primeiro quartil 50 estarão abaixo do segundo quartil e 75 estarão abaixo do terceiro quartil Perceba no exemplo a seguir que 3 posições divisoras proporcionam 4 partes no nosso 51 ESTATÍSTICA conjunto de dados por isso o termo quartil 1 4 6 7 1º 9 34 38 45 2º 46 49 50 58 3º 60 79 99 99 Figura 3 Esquema representativo da divisão em quartis Fonte O autor 2019 Vamos ver agora como calcular esses valores na prática Lembrese que assim como a mediana o cálculo dos quartis indicam a posição da variável em relação ao conjunto ordenado dos dados Com essa advertência em mente vamos às fórmulas Vamos calcular as posições daquele conjunto de dados acima n 16 com as fórmulas que acabamos de ver Dados 1 4 6 7 9 34 38 45 46 49 50 58 60 79 99 99 portanto o 1º quartil estará entre o 4º e o 5º elemento portanto o 2º quartil estará entre o 8º e o 9º elemento portanto o 1º quartil estará entre o 12º e o 13º elemento 1º quartil 2º quartil 3º quartil Quadro 2 Conjunto de 16 variáveis divididas em quartis Fonte O autor 2019 52 ESTATÍSTICA Como você pode notar todos os cálculos das posições dos quartis para o conjunto de dados acima resultaram em valores decimais Por isso não tivemos dificuldade em posicionar os respectivos quartis PARA REFLETIR Saiba que caso encontre valores inteiros como resultado da posição de algum quartil não há que se preocupar o valor será simplesmente a posição calculada Importante ressaltar por fim que em nossa bibliografia encontraremos mais de uma maneira de calcular os quartis Optamos por este método porque ele é bem simples e adequado a todas as nossas necessidades neste curso 23 MEDIDAS DE DISPERSÃO Agora que você já sabe como descrever como os dados se encontram ao redor do centro e encontrar medidas que segmentam seu conjunto de dados quantitativos é desejável identificar maneiras de descrever sua dispersão ou variação Para deixar clara a importância dessas estatísticas pense no seguinte exemplo Você conhece um casal cujas idades são 36 e 34 anos e outro cujas idades são 18 e 52 anos Como você já sabe calcular a média aritmética simples já percebeu que essa medida de tendência central é igual para ambos os casais µ 35 anos Contudo você também percebeu que há uma diferença significativa entre eles Quando temos muitos valores próximos das medidas de tendência central como a média temos também baixa variação ou dispersão tal como ocorre no primeiro casal do exemplo acima Ao contrário quando os valores se dispersam ao longo da escala de medição nosso conjunto de dados apresenta muita variação como se observa na estrutura etária do segundo casal Agora que já sabemos sua importância para a descrição de dados quantitativos vejamos como calcular as principais medidas de dispersão 53 ESTATÍSTICA 231 Amplitude A mais simples medida de dispersão é a amplitude Ela é nada mais que a diferença entre o maior e o menor valor de um conjunto de dados quantitativos BARBETTA 2007 Vamos direto a um exemplo suponha que você queira descrever a amplitude de um conjunto de variáveis formado pela receita mensal em milhares de reais de 3 empresas cujas notas fiscais somaram 122 154 e 133 A fórmula geral e o cálculo para esse exemplo são apresentados a seguir Assim como a mediana uma das medidas de tendência central a amplitude também pode deixar de lado uma parte da informação sobre os dados pois é calculada a partir de valores extremos somente Mesmo assim ela pode ser muito útil para uma rápida verificação e descrição da dispersão dos dados de seu interesse Antes de prosseguirmos por que você não calcula a amplitude dos dados formados pelas idades dos dois casais citados no exemplo do item 23 que acabamos de ver 232 Variância Uma maneira de calcular a dispersão utilizando todas as observações é através da medição da soma da distância entre cada variável em relação à média do conjunto de variáveis É exatamente isso que o cálculo da variância faz SMAILES McGRANE 2002 Contudo se a média é a medida de tendência central que leva em consideração todos os dados e estes se afastam da média tanto para mais como para menos o resultado de qualquer cálculo que leve em consideração a diferença das variáveis em relação à média não seria sempre igual a zero Vejamos um exemplo Suponha que você trabalhe em um hemocentro e está responsável por verificar a quantidade média de sangue em um conjunto de três bolsas Após medilas você constatou que elas possuem respectivamente 110 ml 120 ml e 160 ml Você inicialmente calcula a média conforme já estudamos 54 ESTATÍSTICA Em seguida calcula a diferença entre cada variável e a média do conjunto 110 130 20 120 130 10 Veja como ficou a soma das diferenças 2010300 160 130 30 A diferença sempre será igual a zero pois sempre que há variação alguns valores serão maiores que a média enquanto outros serão menores Para resolver esse problema no cálculo da variância cada valor que representa a diferença entre as variáveis e a média do conjunto no nosso exemplo 2010 e 30 é elevado ao quadrado Lembrese que qualquer número elevado a expoente par tornase positivo Antes de partirmos para a fórmula precisamos compreender mais um conceito A variância populacional é representada pelo quadrado da letra grega σ sigma minúscula ou seja σ2 enquanto a variância amostral é representada pelo quadrado da letra s ou seja s2 assim como acontece na representação do cálculo da média onde uma letra grega indica a média populacional e uma letra latina indica a média amostral Contudo enquanto no caso da média as fórmulas para amostra e população são iguais no caso da variância o cálculo é ligeiramente diferente como se observa nas fórmulas Retomando nosso exemplo e considerando que as três bolsas de sangue representam uma amostra acompanhe o cálculo da variância amostral Já se as três bolsas de sangue medidas fossem as únicas bolsas existentes teríamos toda a população Nesse caso perceba a diferença no cálculo da variância populacional 55 ESTATÍSTICA Você notou que por mais estranho que pareça a unidade da variância ml² está ao quadrado em relação à unidade original ml Isso acontece porque elevamos todas diferenças entre as variáveis e a média ao quadrado como exigido pela fórmula Ufa A explicação sobre o cálculo da variância foi extensa Isso se deve porque essa medida de dispersão não é tão comum no nosso dia a dia como a média nem tão simples quanto a moda ou a amplitude EXERCÍCIO Agora que você já sabe calcular a variância por que não tenta descrever através desta estatística a dispersão das idades dos dois casais citados no item 23 Não se esqueça da unidade que deverá ser igual ao quadrado da unidade original ou seja anos ao quadrado uma vez que a unidade original está em anos Se você conseguiu compreender o que é e como calcular a variância já estará apto a calcular o desviopadrão que é a medida de dispersão mais importante para descrever a variabilidade de conjuntos de dados quantitativos que por sua vez é a principal matéria prima da Estatística 233 Desvio Padrão O desvio padrão é simplesmente a raiz quadrada da variância DIETZ KALOF 2017 Lembra que no cálculo da variância colocamos todos os dados ao quadrado Então agora vamos fazer a operação inversa lembrando que o inverso da potência é a raiz Com isso teremos novamente a unidade da medida de dispersão igual à unidade das variáveis Analise a fórmula do desvio padrão populacional e do desviopadrão amostral 56 ESTATÍSTICA ou simplesmente Como você já deve ter percebido o desviopadrão populacional é representado pela letra grega σ enquanto o desvio padrão amostral é representado pela letra latina s Vamos continuar no cálculo de medidas de dispersão para as bolsas de sangue Se você quiser descrever a variação dos dados através do desviopadrão basta calcular a raiz quadrada da variância aproveitamos os cálculos do item anterior visto acima como segue Já sabemos calcular a medida de dispersão mais adequada que é o desviopadrão Contudo acho importante nos atentarmos para o significado da principal medida descritiva da variabilidade dos dados Se por um lado é muito comum usarmos a média em nossa vida diária por exemplo quando perguntamos qual foi média que obtivemos em determinada disciplina na escola ou qual a quantidade média que uma pessoa come para planejarmos uma festa o mesmo não acontece com o desviopadrão que aparentemente quase nunca é usado Essa falta de prática acaba transformando a mais importante medida de dispersão em algo pouco compreendido Na realidade o desviopadrão nada mais é que uma medida que resume a variação para mais ou para menos em relação à média DIETZ KALOF 2017 Sabendo disso não precisamos usar a fórmula para identificar o desviopadrão em conjuntos com 3 variáveis que sejam lineares com a média igualmente distanciada dos outros 2 valores como observamos nos conjuntos de dados do exemplo a seguir que representa as idades de três crianças 8 10 e 12 anos Perceba que os valores são lineares a distância entre cada um é a mesma e a média encontrase igualmente distanciada do maior e do menor valor Nesse caso nem é necessário calcular podemos afirmar que o desviopadrão é igual a 2 pois a partir da média temos 2 a mais e 2 a menos Sendo assim pense qual é o desviopadrão do conjunto 100 200 300 E do conjunto 26 16 36 57 ESTATÍSTICA PARA REFLETIR O comentário do parágrafo acima é relevante pois ainda que não seja frequente em dados quantitativos de pesquisas reais a determinação do desvio padrão para conjuntos com 3 variáveis lineares é muito comum em concursos e outras provas 234 Coeficiente de Variação As medidas de variação que estudamos até agora têm magnitudes que são dependentes das magnitudes dos dados A amplitude e o desviopadrão têm a mesma unidade das variáveis enquanto a variância tem o quadrado da unidade das variáveis a partir das quais ela foi calculada DEWITT TRIOLA 2008 Contudo algumas vezes nos deparamos com conjuntos de variáveis que possuem unidades com escalas diferentes como por exemplo o número de dentes de um adulto que possui até 32 e o número de dentes de uma criança que possui até 20 Vejamos como esse fato pode influenciar a comparação entre a variabilidade desses dados Suponha que você queira comparar a variação no número de dentes cariados de um grupo de 3 adultos com o número de dentes cariados de um grupo de 3 crianças Para isso você coletou os seguintes dados adultos 8 10 e 12 dentes cariados e crianças 3 5 e 7 dentes cariados Como você já deve saber as médias desses dois conjuntos de dados são e Calculando o desvio padrão dessas duas amostras temos Em ambos os casos o valor do desvio padrão foi igual a dois o que pode levar um pesquisador a acreditar que a dispersão ou variabilidade dos dois grupos foi igual Contudo temos que lembrar que os grupos têm escalas diferentes já que o número de 58 ESTATÍSTICA dentes na arcada de uma criança é menor que o número de dentes na arcada de um adulto e principalmente suas médias são diferentes Quando isso acontece só poderemos comparar as dispersões ou variabilidades utilizando o coeficiente de variação muitas vezes representado pelas letras CV Essa medida de dispersão é simplesmente a divisão do desviopadrão do grupo pela média do mesmo grupo matematicamente Outro detalhe importante referese à unidade do coeficiente de variação Como o desviopadrão e a média têm a mesma unidade a divisão entre eles a anula e portanto o CV não tem unidade Porém se quisermos multiplicar seu resultado por 100 teremos uma porcentagem o que pode ser bastante útil para apresentar a variação relativa Vejamos então qual dos dois grupos do nosso exemplo realmente variou mais Apenas para fixar você percebeu que em ambos os grupos deste exemplo os valores que representam o número de dentes são lineares Então relembre a observação contida no final do item anterior e perceba como é fácil identificar o desvio padrão sem a necessidade de usar a fórmula assim como a variância bastando para isso calcular o quadrado do desvio padrão 235 Números Índices Os números índices são usados para medir variações e podem ser muito úteis para simplificar a identificação da variabilidade nas quantidades de um dado ao longo do tempo ou entre lugares distintos por exemplo SMAILES McGRANE 2002 Especificamente um número de índice é uma medida que descreve a mudança em uma variável ou grupo de variáveis com relação a uma característica que como citado pode ser tempo local entre outras Para tanto devemos selecionar uma medição de interesse e dividir seu valor por uma 59 ESTATÍSTICA base estabelecida para comparação O resultado dessa divisão é uma proporção que chamamos de número índice se multiplicarmos essa proporção por 100 conseguimos identificar se houve aumento ou diminuição na quantidade que representa a variável bem como sua alteração percentual Sendo assim a fórmula de um número índice simples é Vejamos um exemplo para melhorar nossa compreensão Suponha que o preço de uma mercadoria era de R 5000 no primeiro dia útil de 2010 R 10000 em 2015 e que hoje seja de R 7500 Poderíamos sem grande dificuldade calcular porcentagens a cada par de valores e identificar as variações entre os períodos para descobrirmos a magnitude do aumento e da redução de preços ao longo dos anos Contudo há uma solução mais simples estabelecer uma base para comparação e a partir dela identificar as diferenças que podem ser para mais ou para menos em relação a esta base No caso específico da suposta mercadoria podemos escolher como período base o ano de 2010 Dessa forma percebemos que houve um aumento de 50 quando comparamos o preço atual ao preço de 2010 pois Já se escolhermos como base o ano de 2015 e quisermos descrever o valor atual temos Note que para todo índice maior que 100 haverá um aumento da quantidade representada pela variável enquanto que para índice menor que 100 uma diminuição da quantidade estará associada Além disso é possível quantificar essa variação da seguinte maneira no índice simples o valor que ultrapassar 100 será exatamente igual ao valor percentual do crescimento enquanto o valor que faltar para alcançar 100 será exatamente igual ao valor do decréscimo na variável Sendo assim o preço atual da mercadoria descrita no exemplo acima será 50 maior em relação ao ano de 2010 já que 60 ESTATÍSTICA Por sua vez o preço atual será 25 menor em relação ao preço de 2015 pois Quando tratamos de números índices é muito comum nos depararmos com séries de índices evidenciando a oscilação de uma variável ao longo do tempo por exemplo Nesse caso há duas possibilidades para a construção dessa série de índices a que considera um valor base fixo e a que considera o valor base aquela medicação imediatamente anterior ao valor do período de interesse Vejamos como encontraríamos essas duas formas com os dados do nosso exemplo Abaixo a variação com base no valor de 2010 Tabela 6 Variação do preço ao longo do tempo base 2010 tempo preço índice base 2010 porcentagem 2010 R 5000 100 0 2015 R 10000 200 100 hoje R 7500 150 50 Fonte O autor 2019 E a seguir a variação no preço da mercadoria citada com base no valor imediatamente anterior Tabela 7 Variação do preço ao longo do tempo base móvel tempo preço índice base móvel porcentagem 2010 R 5000 100 0 2015 R 10000 200 100 hoje R 7500 75 25 Fonte O autor 2019 Importante ressaltar que os números índices são amplamente utilizados na Economia 61 ESTATÍSTICA SMAILES McGRANE 2002 e têm diversas variedades como por exemplo valores agregados isto é a soma ou a média de vários preços ponderados ou não ou seja multiplicados por um peso que representa a importância relativa de cada item Contudo os princípios básicos são os mesmos que encontramos nos índices simples que acabamos de estudar e que serão mais do que suficientes para nossos objetivos EXERCÍCIO Se você compreendeu adequadamente a lógica dos números índices responda para a composição de um índice de inflação é utilizada uma base móvel ou fixa para a descrição da variação Se tiver dificuldade para chegar à conclusão releia este item e pesquise para construir ativamente seu conhecimento RELAÇÕES ENTRE DUAS VARIÁVEIS A descrição das relações entre conjuntos de variáveis pode fornecer informações importantes sobre as características dos dados Mas antes de prosseguirmos uma advertência há procedimentos estatísticos que consideram a relação entre mais de dois tipos de variáveis como a correlação e a regressão múltiplas mas que extrapolam os objetivos do nosso curso Por isso estudaremos apenas as técnicas que consideram relações entre duas variáveis Mas antes observe o Gráfico 7 a seguir Gráfico 7 Relação entre renda e anos de escolaridade Fonte Werner 2018 62 ESTATÍSTICA O Gráfico 7 mostra a média de anos que jovens passam na escola de acordo com a renda média em dólares Os tamanhos das bolhas representam a população em 2015 e quatro países estão destacados para comparação Somália Brasil Argentina e Estados Unidos Que tal explorarmos melhor e aumentarmos nossa compreensão de como dados de diferentes tipos se relacionam entre si Então vamos lá Você já deve ter ouvido falar em características que variam de acordo com a variação de outras características como por exemplo que o peso de uma pessoa está relacionado à sua altura ou que a quantidade de cigarros que uma pessoa fuma por dia está relacionada com a probabilidade que essa pessoa tem de desenvolver câncer de pulmão entre muitas outros Essa relação entre as variáveis pode ser de dependência de uma sobre a outra Nesse caso utilizaremos as técnicas de regressão linear simples para descrever o grau a direção das variações dos dados Contudo há casos em que a relação entre as variáveis não é estabelecida por uma dependência Quando isso ocorre devemos utilizar as técnicas de correlação linear simples para descrever o grau e a porcentagem de variação em comum dos dois conjuntos de variáveis Ainda que as duas técnicas procurem descrever a relação linear entre duas variáveis você já começa a perceber a diferença entre regressão e correlação Então vamos nos aprofundar mais um pouco 241 Regressão Linear Simples Quando a relação entre duas variáveis apresenta uma dependência funcional de uma sobre a outra podemos usar a regressão simples para descrever essa relação ou mesmo estimar ou interpolar medições Nesses casos a magnitude de uma das variáveis chamada de variável dependente é determinada pela magnitude de outra variável que chamamos de independente enquanto o contrário não é verdadeiro DEWITT TRIOLA 2008 Por isso na regressão é essencial sabermos determinar qual é a variável dependente e qual é a variável independente Por exemplo considerando que haja uma relação entre a pressão arterial e a idade em humanos qual das variáveis você acha que é a independente ou seja a que determina a variação da outra É claro que a idade é a variável independente pois sua magnitude impõe uma variação na magnitude da pressão arterial enquanto o contrário não é verdadeiro Não seria lógico supormos que uma pressão arterial alta ou baixa determine a idade 63 ESTATÍSTICA de uma pessoa certo Também é claro que apesar de não ser o único fator podemos facilmente considerar a idade um dos fatores determinantes da pressão arterial Uma maneira simples e conveniente de descrever as relações entre variáveis é através de um gráfico de dispersão se tem dúvida sobre o que é dê uma olhada novamente na figura 3 no item 14 da Unidade 1 Vejamos um exemplo imagine que a Tabela 8 disponível a seguir contém informação sobre a medição da pressão arterial sistólica de 4 pessoas juntamente com suas idades Tabela 8 Pressão arterial sistólica e idades supostas de 4 pessoas Pressão arterial sistólica em mmHg Idade em anos 120 28 145 45 140 40 170 65 Fonte o autor 2019 Uma forma bastante informativa de descrever esses valores é plotando os dados da variável dependente no eixo Y do Gráfico 8 vertical e os dados da variável independente no eixo X horizontal Sendo assim Gráfico 8 Dispersão de valores de pressão arterial sistólica em função da idade de quatro pessoas Fonte Werner 2018 64 ESTATÍSTICA Apresentado dessa forma podemos ver claramente que a pressão arterial sistólica aumenta com o aumento da idade Contudo precisamos quantificar essa relação afinal estamos estudando Estatística Sendo assim vamos à equação da reta da regressão linear simples Relembrando y é a variável dependente e x é a variável independente Já a e b coeficientes são calculados através das seguintes fórmulas Concordo que o cálculo parece ser muito trabalhoso mas vamos direto a um exemplo que será muito esclarecedor EXEMPLO Vamos supor que uma profissional de recursos humanos acredite que haja uma relação de dependência entre as variáveis a seguir e pretenda relacionar a quantidade de visitas por dia de três candidatos a um cargo de gerente dos corretores de imóveis de uma grande construtora com as vendas que eles concretizam por semana As medições revelaram que o corretor Paulo visitou 2 clientes por dia e apresentou 4 vendas na última semana José fez 4 visitas por dia e apresentou 5 na mesma semana por fim o corretor João conseguiu 6 visitas por dia e apresentou 6 naquela semana Para começar é ideal calcular os somatórios lembra do símbolo não é mesmo antes de colocar na fórmula A forma mais fácil de fazer isso é preenchendo uma tabela com os dados e realizar os cálculos simples Tabela 9 Quantidade diária de visitas a clientes e vendas semanais de 3 corretores 65 ESTATÍSTICA Corretores X visitas por dia Y vendas por semana xy x2 Paulo 2 4 8 4 José 4 5 20 16 João 6 6 36 36 soma 12 15 64 56 Fonte O autor 2019 Sendo assim já sabemos que o tamanho da amostra n é igual a 3 e temos os somatórios de x 12 y 15 xy 64 e x2 56 Agora é só substituir na fórmula para calcular o coeficiente b Para calcularmos o coeficiente a precisamos além do valor de b calculado acima os valores das médias de y e x representados por Para isso vamos incluir mais uma linha na nossa tabela Tabela 10 Visitas por dia vendas por semana e respectivas médias Corretores X visitas por dia Y vendas por semana xy x2 Paulo 2 4 8 4 José 4 5 20 16 João 6 6 36 36 soma 12 15 64 56 Média 4 123 5 155 Fonte O autor 2019 E substituir os termos para calcular o valor de a Por fim vamos substituir os valores de b e a na equação da reta 66 ESTATÍSTICA Essa equação descreve a relação entre as variáveis independentes visitas a clientes por dia e as variáveis dependentes vendas de imóveis por semana Além disso é possível fazer estimações e interpolações de dados que não foram coletados Por exemplo quanto você esperaria que fosse a venda semanal média de um corretor que visitasse 5 clientes por dia perceba que não há esse dado na tabela Sabendo que essa variável é representada por x pois é a variável independente é só substituirmos na equação da reta para encontrarmos a variável y vendas por semana Concordo que esse procedimento apesar de não ser difícil é trabalhoso devido à sequência de passos necessários para sua consecução Sendo assim por que você não treina um pouco esses cálculos EXERCÍCIO Pense em um exemplo que envolva variáveis comuns no seu trabalho cotidiano e siga nossos passos para chegar a uma equação da reta não utilize valores muito altos ou fracionários para não aumentar a complexidade dos cálculos 242 Correlação Linear Simples Enquanto a regressão possibilita a formulação de uma equação da reta a correlação linear simples permite que o pesquisador descreva quantitativamente o grau de relação que dois conjuntos de variáveis têm entre si BARBETTA 2007 Nesse caso podemos descrever essa relação entre duas variáveis mesmo que nenhuma delas apresente dependência funcional sobre a outra Sendo assim a relação entre variáveis desconsiderada a dependência e portanto não há variável independente ou variável dependente 67 ESTATÍSTICA O coeficiente de correlação r é a estatística que descreve a relação entre duas variáveis que estão sendo examinadas e sua fórmula é Diferentemente da regressão na correlação não há a necessidade de se determinar qual variável é representada por x ou por y Da mesma forma que fizemos na regressão é bastante útil preencher a tabela que agora deve ter uma coluna a mais em relação à tabela anterior representando o y2 que não há na fórmula da regressão Vamos utilizar o mesmo conjunto de dados sobre a venda de imóveis aplicado à regressão Tabela 11 Visitas por dia e vendas de 3 corretores Corretores X vistias por dia y vendas semanais xy x2 y2 Paulo 2 4 8 4 16 José 4 5 20 16 25 João 6 6 36 36 36 soma 12 15 64 56 77 Fonte O autor 2019 Substituindo os termos na fórmula temos O coeficiente de correlação pode assumir qualquer valor entre 1 e 1 sendo que os valores positivos indicam relação diretamente proporcional entre as variáveis ou seja quando o valor de uma variável aumenta a outra também aumenta ou quando o valor 68 ESTATÍSTICA de uma diminui o valor da outra também diminui Já os valores negativos indicam que a relação é inversamente proporcional ou seja quando o valor de uma variável aumenta a outra diminui e viceversa Outra medida que pode descrever a relação entre duas variáveis é o coeficiente de determinação simplesmente representado pelo quadrado do coeficiente de correlação ou R2 Essa medida descreve quanto do total da variabilidade encontrada em uma das variáveis x ou y é acompanhada pela outra variável DEWITT TRIOLA 2008 PARA REFLETIR Uma consideração útil magnitude do coeficiente também chamado de r de Pearson em homenagem ao estatístico que o desenvolveu no século 19 que aprendemos a calcular na seção anterior reflete o grau de correlação entre duas variáveis Ainda que não haja consenso entre os estatísticos podemos aplicar uma regra prática para estabelecer que r entre 0 e 025 ou entre 025 e 0 temos uma correlação pequena r entre 025 e 050 ou entre 050 e 025 temos uma correlação fraca r entre 050 e 075 ou entre 075 e 050 temos uma correlação moderada r entre 075 e 099 ou entre 099 e 075 temos uma correlação forte r igual a 1 temos uma correlação positiva perfeita e r igual a 1 temos uma correlação negativa perfeita Agora um importante alerta correlação nem sempre significa causalidade O fato de dois conjuntos de dados se apresentarem mais ou menos na mesma proporção exatamente o que mede a correlação não significa que uma variável é a causa ou a consequência da outra Veja como essa advertência está explícita em um trecho do livro Freakonomics Reflitamos sobre tal correlação as cidades com muitos homicídios também costumam ter muitos policiais Tomemos agora a correlação políciahomicídio numa dupla de cidades reais Denver e Washington têm mais ou menos a mesma população mas a força policial de Washington é quase três vezes maior do que a de Denver e a capital 69 ESTATÍSTICA também tem oito vezes mais homicídios A menos que você disponha de mais informações porém é difícil dizer qual fator é a causa disso Algum desavisado poderia examinar esses números e concluir que esses policiais a mais sejam a razão do número maior de crimes Esse raciocínio obtuso que tem uma longa história em geral produz uma reação obtusa como na lenda do czar que foi informado de que a província com maior incidência de doenças era também a que contava com mais médicos Sua solução Mandou imediatamente fuzilar todos os médicos LEVITT DUBNER 2010 p 119 Muitos problemas que parecem difíceis podem ser solucionados a partir da transformação de dados em informação desde sejam examinados da forma correta PARA REFLETIR Vamos treinar na minha cidade e provavelmente na sua também a quantidade de carros vendidos e o número de homicídios apresentam uma forte correlação r 078 nos últimos 3 anos Como você explicaria esse fenômeno 25 FÓRUM Você aprendeu nesta unidade a descrever a relação entre duas variáveis Então que tal pegarmos uma parte daquele conjunto de dados que trata da taxa de mortes no trânsito em dois países desde 1996 até 2015 Quadro 1 utilizado na atividade de aplicação da Unidade 1 e tentar quantificar a relação entre os anos de medição e as taxas utilizando apenas um número Vamos facilitar o cálculo pois o que mais importa é o conhecimento do método assim escolhemos para confeccionar o Quadro 3 apenas o primeiro e o último ano da medição vamos identificálos apenas como ano 1 e 2 também vamos arredondar o valor das taxas 70 ESTATÍSTICA Quadro 3 Taxas de morte no trânsito referentes aos anos de 1996 1 e 2015 2 Suécia Brasil Ano 1 5 21 2 3 25 Taxas Fonte ONU 2016 adaptado Sendo assim participe do fórum da unidade e contribua na construção do conhecimento sobre qual estatística deveria ser utilizada para descrever a relação entre ano e número de vítimas dica pense se há ou não relação de causa e efeito entre ano e número de vítimas Enfatize as vantagens da medida descritiva que você considera a mais adequada e cite as desvantagens das outras que você não escolheu Você ainda pode contribuir indicando que valor essa estatística teria para a Suécia e para o Brasil Além disso podemos colaborar para a compreensão sobre o que esses valores significam SUGESTÃO DE LIVRO LEVITT Steven D DUBNER Stephen J Superfreakonomics o lado oculto do dia a dia Rio de Janeiro Elsevier 2010 Os autores usam exemplos realistas e divertidos para demonstrar a simplicidade eficiência e às vezes os absurdos do pensamento matemático Nessa obra eles exploram magistralmente as relações entre variáveis tais como a correlação e a regressão discutidas nesta unidade Divirtase SUGESTÃO DE FILME Você pode encontrar diversos vídeos sobre cálculos de medidas descritivas e suas características na internet Contudo gostaria de sugerir um filme para relaxarmos sem perder o foco da disciplina O filme Moneyball o homem que mudou o jogo estreou no Brasil em 2012 e é baseado na história real de um gerente de um time de basebol nos Estados Unidos que utilizou medidas de tendência 71 ESTATÍSTICA central e de dispersão para montar um time competitivo sem grandes recursos financeiros CONSIDERAÇÕES FINAIS DA UNIDADE A descrição e o resumo dos dados são os objetos da Estatística descritiva Nesta unidade aprendemos a calcular diversas Medidas de Tendência Central MTC que indicam a centralidade dos nossos dados medidas de dispersão que informam o quanto esses dados variam incluindo a variação relativa além de medidas de posição que dividem nossos conjuntos de dados quantitativos em partes iguais Por fim também aprendemos a quantificar a relação existente entre a variabilidade de 2 tipos diferentes de dados como também construir um modelo matemático a equação da reta para estimar valores das variáveis dependentes Avalie sua aprendizagem Agora que terminamos essa unidade você deve estar apto a Descrever conjuntos de variáveis através de medidas de tendência central e de dispersão das variáveis Apresentar a dispersão relativa de conjuntos de variáveis com escalas diferentes Analisar e quantificar o grau de relação entre 2 grupos de variáveis com ou sem relação de causa e efeito Estimar parâmetros e estatísticas em análise bivariada EXERCÍCIO FINAL 4 ANÁLISE A prefeitura da sua cidade mantém um programa de atendimento pedagógico a crianças com suspeita de maus tratos em casa que estudam nas escolas municipais Neste ano 5 crianças com as idades de 6 9 11 11 e 13 anos foram atendidas pelo programa Com base nesses dados assinale a alternativa correta A A média aritmética simples das idades das crianças atendidas é maior que 10 anos 72 ESTATÍSTICA B Esse conjunto de dados é unimodal com a moda maior que a média e igual à mediana C O desvio padrão dessa amostra é menor que 2 anos D A variância dessa amostra é igual a 7 anos ao quadrado E A amplitude desse conjunto de dados é maior que sua média 5 SÍNTESE Considere que você seja uma psicóloga que está aguardando um grupo de jovens para uma terapia contra a anorexia nervosa Sabendo que esse distúrbio acomete principalmente indivíduos no final da adolescência e início da idade adulta você decide estabelecer uma medida de tendência central das idades em anos Os três primeiros pacientes chegam no horário combinado e informam suas idades 15 16 e 17 O último paciente justificou seu atraso dizendo que foi parado por um policial no caminho até a clínica e perdeu a carteira nacional de habilitação por estar dirigindo embriagado além disso recusouse a informar sua idade Sendo assim assinale a alternativa que justifica a escolha da melhor medida de tendência central MTC para esse conjunto de dados e que informe seu valor A A melhor MTC é a média aritmética simples porque abrange o maior número de variáveis seu valor é 17 anos B A moda é a melhor MTC pois não é influenciada por valores muito baixos seu valor é 165 anos C A mediana é a melhor MTC pois não é influenciada por valores muito baixos seu valor é igual a 16 metros D A melhor MTC é a moda pois representa o valor mais frequente E A melhor MTC é a mediana porque não é influenciada por valores extremos seu valor é igual a 165 metros 6 APLICAÇÃO Suponha que você é um analista de risco de um plano de saúde e recebe solicitação de adesão de 4 pacientes com suspeita de Alzheimer cujas idades são 72 72 68 e 68 Você também recebe a solicitação de 4 pacientes diagnosticados com PTSD estresse póstraumático suas idades são 12 12 68 e 68 anos Para compor o relatório você decide descrever essa população não é amostra pois não há outros com essa condição e para isso calculou algumas medidas de tendência central e de dispersão 73 ESTATÍSTICA Assinale a alternativa que contenha uma medida de cada tipo com seus respectivos valores corretos A Seus pacientes com suspeita de Alzheimer têm a idade média é igual a 70 anos e o desvio padrão igual a 16 anos No grupo que possui PTSD a idade média é igual a 40 anos e a amplitude igual a 80 anos B Seus pacientes com suspeita de Alzheimer têm a idade média igual a 72 anos e o desvio padrão igual a 16 anos No grupo que possui PTSD a idade média é igual a 40 anos e a amplitude igual a 50 anos C Seus pacientes com suspeita de Alzheimer têm a idade média igual a 70 anos e o desvio padrão igual a 2 anos No grupo que possui PTSD a idade média é igual a 40 anos e a amplitude igual a 56 anos D Seus pacientes com suspeita de Alzheimer têm a idade média igual a 72 anos e o desvio padrão igual a 4 anos No grupo que possui PTSD a idade média é igual a 40 anos e a amplitude igual a 56 anos E Seus pacientes com suspeita de Alzheimer têm a idade média igual a 70 anos e o desvio padrão igual a 16 anos No grupo que possui PTSD a idade média é igual a 40 anos e a amplitude igual a 68 anos REFÊRENCIAS BARBETTA Pedro Alberto Estatística aplicada às ciências sociais 7 ed Florianópolis UFSC 2007 DEWITT David P TRIOLA J Introdução a estatística 10 ed Rio de Janeiro LTC 2008 DIETZ T KALOF L Introdução à estatística social a lógica do raciocínio estatística Rio de Janeiro LTC 2017 DUQUIA RP BASTOS JLD Medidas de tendência central onde a maior parte dos indivíduos se encontra Scientia Medica v16 n4 p 3436 2006 LEVITT Steven D DUBNER Stephen J Superfreakonomics o lado oculto do dia a dia Rio de Janeiro Elsevier 2010 ORGANIZAÇÃO DAS NAÇÕES UNIDAS ONU Global status report on road safety 2016 Disponível em httpwwwwhointviolenceinjurypreventionroadsafety status 2015en Acesso em 02 jul 2018 74 ESTATÍSTICA SMAILES Joanne McGRANE Ângela Estatística aplicada à administração com Excel São Paulo Editora Atlas 2002 TOLEDO Geraldo Luciano OVALLE Ivo Izidoro Estatística básica 2 ed São Paulo Atlas 2009 WERNER MJ Material complementar para Estatística da UNIAVAN 2018 Disponível em httpavantisestatisticablogspotcom Acesso em 29 abr 2019 75 ESTATÍSTICA3 unidade INTRODUÇÃO À ESTATÍSTICA INFERENCIAL 76 ESTATÍSTICA INTRODUÇÃO À UNIDADE A Estatística inferencial representa a parte da disciplina que estuda os testes estatísticos Esses testes possibilitam que os pesquisadores calculem estatísticas adequadas para suas amostras e façam inferências ou generalizem conclusões para a população à qual as amostras pertencem Na Unidade 4 entraremos em contato com os cálculos de testes estatísticos e aprenderemos na prática a refutar ou aceitar hipóteses estatísticas Contudo há uma grande variedade de ferramentas e conceitos com os quais precisamos estar familiarizados E é exatamente isso que faremos nesta Unidade 3 A primeira ferramenta que veremos é a probabilidade Quero ressaltar que há cursos inteiros que tratam somente de Probabilidade pois esse conceito abrange uma vasta área de estudo que auxilia a Estatística na interpretação dos seus resultados Para nossa sorte nossos objetivos não exigem o conhecimento profundo sobre as teorias e nuances dessa ciência Sendo assim trabalharemos noções de probabilidade que serão mais do que suficientes para conduzirmos nossos estudos permitindo a transposição integral do conhecimento necessário às nossas atividades acadêmicas e profissionais Além disso também entraremos em contato com as formas mais comuns de estabelecermos hipóteses sobre nossas pesquisas bem como com os conceitos da estimação que nos permitirá chegar a conclusões baseados nos dados disponíveis Sendo assim os objetivos da Unidade 3 são Conhecer as noções básicas de probabilidade Identificar e utilizar os principais modelos probabilísticos Formular hipóteses sujeitas a testes estatísticos 77 ESTATÍSTICA 3 INTRODUÇÃO À ESTATÍSTICA INFERENCIAL Veremos a seguir noções de probabilidade modelos probabilísticos escore padrão estimação e decisão estatísticas Esses conceitos deverão ser plenamente compreendidos para podermos tomar decisões baseadas em dados de pesquisa Então vamos em frente 31 NOÇÕES DE PROBABILIDADE Em muitos casos a probabilidade é intuitiva Prova disso é que quase qualquer pessoa deve responder corretamente se perguntada sobre a chance de se obter uma cara ao jogarmos uma moeda que não seja viciada e que possua dois lados diferentes cara e coroa Infelizmente nem sempre é possível identificar de pronto o resultado de um experimento que envolva probabilidade e por isso será necessário um maior aprofundamento no tema 311 Probabilidade de um Evento Quando nos depararmos com a necessidade de calcular probabilidade uma fórmula básica poderá resolver a maior parte dos problemas DIETZ KALOF 2017 Pa probabilidade de ocorrer o evento a a número de vezes que ocorre o evento a S nº total de possíveis resultados para aquele experimento ou espaço amostral Voltando ao exemplo da moeda não viciada vamos utilizar a fórmula para calcular a probabilidade de se obter uma CARA ao jogarmos uma moeda Fácil a probabilidade do evento CARA ou seja PCARA é igual ao número de vezes que ocorre CARA dividido pelo número total de possíveis resultados de uma moeda espaço amostral ou simplesmente 78 ESTATÍSTICA Isso significa que ao jogarmos uma moeda não viciada a probabilidade de se obter uma CARA é igual a 05 ou se quisermos nos referir à porcentagem basta multiplicar por 100 nesse caso 50 05 x 100 Agora que você já sabe o básico sobre o assunto vamos a um exemplo mais adequado PARA REFLETIR Imagine que você seja uma diretora de recursos humanos e juntamente com outros 3 colegas é responsável por entrevistar um dos 4 candidatos à vaga de emprego sendo um deles surdomudo Sabendo que cada funcionário terá que entrevistar um dos 4 candidatos aleatoriamente qual a probabilidade de você ter que realizar a entrevista com o surdomudo Usando novamente a fórmula temos A probabilidade de um evento é bem fácil de calcular pois os elementos necessários à fórmula estão evidentes Infelizmente nem sempre é assim 312 Contando os Resultados Possíveis Nem sempre o espaço amostral S está claro DIETZ KALOF 2107 Sendo assim muitas vezes será preciso calculálo antes de utilizar a fórmula básica A condição mais frequente é quando um evento é composto por sucessivas fases DEWITT TRIOLA 2008 Nesse caso o número de resultados possíveis de cada fase deve ser multiplicado para chegarmos ao espaço amostral S Se cada fase possuir o mesmo número de resultados possíveis podemos representar matematicamente por 79 ESTATÍSTICA k número de resultados possíveis de cada fase n número de fases Com isso em mente vamos tentar resolver um problema EXEMPLO Uma pedagoga está apresentando um brinquedo didático para um aluno com necessidades especiais para verificar a sua capacidade de pensamento executivo Esse brinquedo possui três pinos em cada um dos quais deve ser colocada uma peça Dentre as peças disponíveis há um quadrado um retângulo um círculo e um triângulo Vamos calcular o espaço amostral S Primeiramente identificaremos o número de resultados possíveis de cada fase k 4 formas Em seguida o número de fases n 3 pinos Sendo assim Ou seja há 64 possibilidades diferentes de se encaixar as três peças sendo que há 4 tipos diferentes de peças Agora que já sabemos contar resultados possíveis espaço amostral que não estejam evidentes podemos calcular suas probabilidades Vamos continuar imaginando que a pedagoga solicita ao aluno que coloque três peças em uma ordem específica e ele consegue realizar a tarefa Diante disso ela decide calcular a probabilidade de o aluno ter acertado a sequência ao acaso sem realmente compreender o jogo Agora que ela já conhece o espaço amostral é só substituir os valores na fórmula básica do cálculo da probabilidade de um evento PARA REFLETIR Você acha que a pedagoga pode inferir que o aluno especial realmente sabia 80 ESTATÍSTICA como encaixar a sequência Como não utilizamos esse recurso com frequência no dia a dia pode ser trabalhoso para alguns alunos perceber a dinâmica dos cálculos de probabilidade quando não há um espaço amostral evidente Se for o seu caso que tal fazermos outro exemplo Desta vez usaremos um jogo EXEMPLO Suponha que você tenha jogado um par de dados e queira saber a probabilidade de obter o número 12 na soma dos dois dados que não sejam viciados esse jogo se chama craps e é muito comum em cassinos dos EUA e da UE Primeiramente relembre as fórmulas relacionadas à probabilidade que vimos até agora Assim vamos determinar o número de vezes que ocorre o evento escolhido Para isso pense como podemos obter a soma igual a 12 em dois dados Há apenas 1 possibilidade 6 no primeiro dado e 6 no segundo Em seguida devemos nos dedicar a encontrar o espaço amostral Para isso devemos saber qual é o número de resultados possíveis de cada fase dado ou seja 6 números 1 2 3 4 5 ou 6 para em seguida elevarmos ao número de fases Portanto PARA REFLETIR A probabilidade de se obter a soma dos dois dados igual a 7 seria maior menor ou igual à probabilidade de se obter 12 81 ESTATÍSTICA 313 Multiplicando e Adicionando Probabilidades Outro recurso bastante útil para a Estatística referese às operações com probabilidades Sempre que dois ou mais eventos forem condições obrigatórias para o resultado final as probabilidades individuais devem ser multiplicadas Já quando em dois ou mais eventos mutuamente exclusivos qualquer deles for condição para o resultado final as probabilidades individuais devem ser somadas DEWITT TRIOLA 2008 Em resumo quando for necessário determinar a probabilidade de uma condição E de outra E de tantas quantas forem devese multiplicar as probabilidades individuais quando for necessário determinar a probabilidade de uma condição OU de outra OU de tantas quantas forem devese somar as probabilidades individuais Por exemplo suponha que na espécie humana homens e mulheres nasçam na mesma proporção na realidade homens têm uma prevalência ligeiramente superior no nascimento Sendo assim podemos calcular a probabilidade de uma gestante qualquer ter uma menina que nesse caso será a mesma para um menino Agora se uma gestante qualquer que pretenda ter dois filhos nos perguntar sobre a probabilidade de ambos serem meninas ou ambos meninos ou um menino e uma menina precisamos realizar operações com probabilidade 1ª gravidez 2ª gravidez P 05 P 05 P 05 P 05 Vamos começar respondendo qual é a probabilidade de a gestante ter duas meninas Para isso é necessário que a primeira gravidez gere uma menina E a segunda também Assim devemos multiplicar as probabilidades individuais O mesmo pode ser feito para determinar a probabilidade de dois meninos 82 ESTATÍSTICA Já para uma menina e um menino devemos levar em consideração duas possibilidades um menino nascer na primeira e uma menina nascer na segunda gestação OU uma menina nascer na primeira e um menino nascer na segunda gestação Para esse cálculo A compreensão adequada dos conceitos básicos de probabilidade que acabamos de estudar é essencial para seguirmos na trilha que desvendará as ferramentas mais úteis da Estatística Muitas dessas ferramentas tais como os testes estatísticos são inteiramente dependentes das distribuições das variáveis que compõem nossos objetos de estudo Que tal conhecermos melhor os modelos que descrevem essas distribuições e as maneiras pelas quais podemos quantificálas 32 MODELOS PROBABILÍSTICOS A distribuição das probabilidades permite a construção de modelos probabilísticos que são ferramentas utilizadas para simplificar a realidade dos dados sem que o pesquisador perca as principais características do conjunto das variáveis BARBETTA 2007 Se soubermos a distribuição de um conjunto de variáveis aleatórias podemos obter suas medidas de localização e variação às quais aprendemos na unidade anterior 321 Modelos para Variáveis Aleatórias Discretas Você lembra o que são variáveis quantitativas discretas Se tiver dúvida revise o item 12 da unidade 1 Para esse tipo de variável dois modelos são muito utilizados distribuição binomial e a distribuição de Poisson Vamos conhecêlos O primeiro é o modelo de distribuição binomial utilizado para descrever situações em que a variável aleatória pode ser agrupada em apenas dois resultados possíveis como 83 ESTATÍSTICA por exemplo a probabilidade de duas gestações gerarem meninas ou não Nesse tipo de modelo a probabilidade de sucesso ou fracasso não muda de ensaio para ensaio e os eventos são idênticos e independentes TOLEDO OVALLE 2009 No exemplo da gestação mesmo que uma mulher já seja mãe de cinco meninas a próxima gravidez terá a mesma probabilidade da primeira ou seja aproximadamente 50 de nascer uma menina Através do modelo binomial podemos responder questões do tipo qual a probabilidade de em duas gravidezes nascer 2 meninas 1 menina ou nenhuma menina Foi o que fizemos no exemplo do item anterior para exemplificar o cálculo de multiplicações e adições de probabilidade o resultado colocado em forma de modelo binomial foi 0 menina 25 1 menina 50 ou graficamente 2 meninas 25 De acordo com Barbetta 2007 outro modelo para descrever variáveis discretas é a distribuição de Poisson que é muito útil quando se pretende descrever situações que ocorrem em um campo ou intervalo definido geralmente área ou tempo como por exemplo o número de infectados pelo vírus H1N1 nos últimos dois meses ou o número de peças descartadas em um conjunto de máquinas 322 Modelo para Variáveis Aleatórias Contínuas A mais importante distribuição contínua de probabilidade é a Distribuição Normal ou Gaussiana também chamada Curva de Gauss A maior parte dos dados utilizados em pesquisas tem essa distribuição BARBETTA 2007 Alguns exemplos são alturas pesos e outras características físicas erros de medida em experimentos científicos medidas de inteligência e aptidão pontuações em testes variados e numerosas medidas e indicadores de saúde Todo gráfico da distribuição normal é simétrico em torno da média da distribuição e tem forma de sino Mais adiante veremos que diversas propriedades úteis para a confirmação ou refutação de hipóteses científicas são derivadas da Curva de Gauss TOLEDO OVALLE 2009 Por 0 1 2 84 ESTATÍSTICA enquanto vamos nos concentrar nas suas características básicas EXEMPLO Um exemplo simples pode ajudar muito na compreensão Suponha que você pese todos os alunos de um colégio e obtenha a média igual a 70 kg Muitos alunos estarão próximos desse peso enquanto poucos estarão muito abaixo ou muito acima desse peso Veja como essa distribuição de probabilidade também referida como densidade de probabilidade é representada no Gráfico 9 plotado a seguir Note que no centro da distribuição encontrase a média e a coluna mais alta no gráfico enquanto que as colunas à esquerda e à direita são mais baixas representando menor frequência Curva de Gauss Gráfico 9 Modelo de distribuição normal com média igual a 70 kg e desviopadrão igual a 10 kg Fonte O autor 2019 Uma propriedade importante da curva normal é sua distribuição que pode determinar a proporção dos valores que se encontram em qualquer amplitude específica Por exemplo 683 dos valores devem estar a 1 desviopadrão da média enquanto 954 dos valores devem estar a 2 desviospadrão da média desde que alguns requisitos estejam presentes TOLEDO OVALLE 2009 40 kg 50 kg 60 kg 70 kg 80 kg 90 kg 100 kg 85 ESTATÍSTICA SUGESTÃO DE FILME Você pode encontrar diversos vídeos sobre cálculos de probabilidade no Youtube Mas que tal nos divertirmos com o filme Quebrando a banca lançado no Brasil em 2008 Ele retrata um professor de estatística que lidera um grupo para ganhar dinheiro nos cassinos dos Estados Unidos utilizando estatística e probabilidade 33 ESCORE PADRÃO Outro conceito essencial para que possamos compreender as implicações da inferência estatística é o escore padrão ou escorez que padroniza a distância em relação à média que uma ou mais medições apresentam BARBETTA 2007 Na seção anterior iniciamos a explicação sobre curva normal com o auxílio de um exemplo sobre o peso dos alunos de um colégio Vamos ser mais específicos agora EXEMPLO Suponha que você tenha pesado todos os alunos imagine n 4000 calculado a média µ 70 kg e o desviopadrão dessa população digamos 10 kg O escore padrão ou z nos permite calcular quantos desvios padrão a partir da média uma determinada medição se encontra e com isso fazer estimações e inferências estatísticas sobre amostras quantitativas ZAR 2010 Sua fórmula é já sabemos o significado de todos os símbolos mas se ainda tiver dúvida reveja as unidades anteriores Agora vamos pegar dois alunos quaisquer que pesam 90 kg e 40 kg e calcular seus escores padrões relembrando que µ 70 kg e 10 kg 86 ESTATÍSTICA Esses resultados nos informam que o aluno mais pesado está a 2 desviospadrão acima da média enquanto o aluno mais leve está a 3 desviospadrão abaixo da média Mas o que isso significa Vejamos algumas das proporções da Curva de Gauss você encontra a tabela com muitas outras proporções em nossa bibliografia e no blog que complementa nossa disciplina o intervalo entre µ 1 contém 6827 das medições 3413 acima e 3413 abaixo o intervalo entre µ 2 contém 9544 das medições metade acima e metade abaixo o intervalo entre µ 3 contém 9973 das medições metade acima e metade abaixo WERNER 2018 Gráfico 10 Proporções da Distribuição de Gauss Fonte Zar 2010 No nosso exemplo esses cálculos indicam que 6827 dos 4000 alunos têm entre 60 kg e 80 kg µ que é 70 kg 1σ que é 10 kg 9544 têm entre 50 kg e 90 kg e 9973 têm entre 40 kg e 100 kg Interessante não é Veja como ficaria a curva normal com a anotação do nosso aluno mais pesado 87 ESTATÍSTICA Gráfico 11 Proporções de uma Distribuição normal com média igual a 70 e desviopadrão 10 Fonte O autor 2019 Toda a parte clara sob a curva normal representa os alunos que têm menos que 90 kg enquanto a parte rosa representa alunos que têm mais que esse peso Como você pode perceber sabendo que proporções ou porcentagens dos dados se encontram distantes da média em desviospadrão é possível indicar a quantidade ou proporção de qualquer critério desejado PARA REFLETIR Como você calcularia o número de alunos que têm entre 50 e 60 kg Basta calcular o número de alunos que estão entre a média e 2 desviospadrão abaixo e diminuir o número de alunos que estão entre a média e um desviopadrão abaixo Vamos lá se 9544 das medições estão entre 2 desviospadrão acima e abaixo da média podemos inferir que metade disso 4772 estará abaixo Sendo assim podemos afirmar que há aproximadamente 1909 alunos entre 50 2 desviospadrão abaixo da média e 70 média kg pois Contudo ainda não é o que precisamos 88 ESTATÍSTICA Se nosso intervalo de peso é entre 50 e 60 temos que excluir do grupo de alunos que têm entre 50 e 70 kg que acabamos de calcular aqueles que pesam mais de 60 kg Para isso basta calcularmos o número desses alunos Fácil pois como já vimos 6827 das medições estarão entre um desviopadrão abaixo e um desviopadrão acima da média Considerando que a curva de distribuição normal é simétrica metade dessa porcentagem 3413 estará entre a média e um desviopadrão abaixo nesse caso entre 70 e 60 kg justamente o que precisamos excluir Assim E portanto podemos estimar que o número de alunos que têm entre 50 e 60 kg em nosso exemplo será EXERCÍCIO Vamos colocar em prática nosso aprendizado mais uma vez Agora utilizaremos aquele exemplo dos pesos de alunos de um colégio fictício que serviu para construirmos uma curva de Distribuição normal no item 322 Relembre aquelas informações um colégio fictício com 4000 alunos tendo peso médio de 70 kg e desviopadrão igual a 10 kg Para realizar nossa atividade imagine que você pertence ao colégio em questão Sendo assim calcule o escore padrão para o seu próprio peso e estime o número de alunos que são mais pesados que você Algumas considerações lembrese que os valores são fictícios e foram escolhidos para facilitar a compreensão e os cálculos Em uma amostra verdadeira muito provavelmente o valor do desviopadrão será maior Dessa forma se você apresentar um peso muito abaixo ou muito acima de 70 kg poucos alunos serão mais leves ou mais pesados que você respectivamente Além disso recomendo que você arredonde se tem dúvidas sobre as regras reveja o item 123 da Unidade 1 sua massa para uma dezena redonda com o intuito de facilitar o cálculo nosso objetivo com essa atividade é treinar o raciocínio estatístico e não simplesmente o cálculo matemático 89 ESTATÍSTICA 34 ESTIMAÇÃO E DECISÃO ESTATÍSTICAS Os conceitos estudados nesta unidade permitirão que você utilize o resultado de testes estatísticos com os quais trabalharemos na próxima unidade e faça inferências estatísticas para decidir sobre a distribuição dos seus dados de acordo com o nível de significância escolhido Em estudos com rigor científico essa decisão acontece através da aceitação ou refutação de hipóteses estabelecidas previamente DEWITT TRIOLA 2008 Vejamos um pouco mais detalhadamente como esse processo funciona 341 Noções de Testes de Hipótese Como já vimos o principal objetivo da análise estatística é inferir ou tirar conclusões sobre uma população através do exame de uma amostra uma vez que é quase sempre impossível medir toda a população Para isso convencionouse estabelecer hipóteses estatísticas de preferência antes da coleta dos dados para evitar influência dos pesquisadores e testálas SMAILES McGRANE 2002 De forma geral temos duas hipóteses antagônicas a hipótese nula representada por H0 e a hipótese alternativa representada por H1 você poderá encontrar também as notações Hnull e Ha para descrever as hipóteses nula e alternativa respectivamente A hipótese nula contém a afirmação de que não há diferença estatisticamente significante entre um valor alegado para a média populacional BARBETTA 2007 Por exemplo retomando o exemplo do peso dos alunos do colégio fictício podemos estabelecer a hipótese nula de que a média é igual a 70 kg Já a hipótese alternativa contém a afirmação de que há diferença estatisticamente significante entre o valor a ser testado através de uma amostra e a média real da população Nesse caso a hipótese alternativa para o exemplo seria de que a população possui uma média de peso maior menor ou simplesmente diferente de 70 kg o que seria testado a partir de uma ou mais amostras Os testes estatísticos nos fornecem um valor de probabilidade chamado valor p ou mais comumente pvalue que proporciona ao pesquisador o poder de decidir se há ou não evidência para rejeitar a hipótese nula Se a hipótese nula for rejeitada assumese de a hipótese alternativa é verdadeira BARBETTA 2007 Nos exemplos que seguirão às explicações sobre os testes estatísticos que veremos 90 ESTATÍSTICA na próxima unidade serão incluídas hipóteses nula e alternativa o que facilitará a compreensão A regra geral é sempre que o valor calculado da estatística ultrapassar o valor crítico tabelado a hipótese nula será rejeitada SMAILES McGRANE 2002 Consequentemente se o valor crítico for maior que o valor calculado a hipótese nula será aceita Essa regra apresenta uma única exceção mas apenas quando não houver a possiblidade de se identificar parâmetros nos nossos dados veremos como tratar essa situação com mais detalhes na próxima unidade A Tabela 12 a seguir ilustra uma lista de valores tabelados de acordo com diversos níveis de significância e tamanhos de amostra Nossa bibliografia também contém os valores críticos tabelados para todas as estatísticas e níveis de significância utilizados em nossa disciplina Tabela 12 Tabela de valores críticos para a estatística t de Student n1 Graus de liberdade 025 01 005 0025 001 0005 1 100000 307768 631375 1270620 3182052 6365674 2 081650 188562 291999 430265 696456 992484 3 076489 163774 235336 318245 454070 584091 4 074070 153321 213185 277645 374695 460409 5 072669 147588 201505 257058 336493 403214 6 071756 143976 194318 244691 314267 370743 7 071114 141492 189458 236462 299795 349948 8 070639 139682 185955 230600 289646 335539 9 070272 138303 183311 226216 282144 324984 10 069981 137218 181246 222814 276377 316927 11 069745 136343 179588 220099 271808 310581 12 069548 135622 178229 217881 268100 305454 13 069383 135017 177093 216037 265031 301228 14 069242 134503 176131 214479 262449 297684 15 069120 134061 175305 213145 260248 294671 16 069013 133676 174588 211991 258349 292078 17 068920 133338 173961 210982 256693 289823 18 068836 133039 173406 210092 255238 287844 19 068762 132773 172913 209302 253948 286093 Probabilidade de erro α Fonte Adaptado de Barbetta 2007 Esse modelo de tabela é dependente do nível de confiança que sempre será de 95 nas avaliações exemplos e exercícios da disciplina Esse nível significa que em 95 das vezes o pesquisador concluirá corretamente sobre a escolha da hipótese significa também que em 5 das vezes cometerá erro 91 ESTATÍSTICA A propósito nas avaliações esse valor será necessariamente informado no enunciado da questão sempre que necessário Importante ressaltar ainda que apesar de 95 ser o nível de confiança mais utilizado em estudos científicos você pode decidir realizar na vida acadêmica ou profissional estudos mais restritivos como por exemplo haja risco para a saúde dos envolvidos pois não é admissível que 5 dos usuários do produto da pesquisa tenham prejuízos à saúde ou menos restritivos 342 Erros do Tipo I e II Se você está atento percebeu que os níveis de significância com os quais entramos em contato até agora são informados em forma de porcentagem Mas o que exatamente esses números significam Como acabamos de ver no item anterior a decisão que o pesquisador toma baseiase nos dados que fazem parte do seu estudo Quase sempre esses dados são obtidos a partir de amostras e não de populações você já estudou a diferença se ainda tiver dúvidas reveja a Unidade 1 Sendo assim a informação não é completa e por isso há uma probabilidade de se cometer erros mesmo com base nos dados Mas não se desespere Quer ver como os erros associados exclusivamente à aleatoriedade são em geral bem pequenos Na maior parte das vezes o menor nível de significância aceitável em uma pesquisa científica é igual a 95 isso significa que se coletássemos uma amostra 100 vezes cometeríamos o erro apenas em 5 delas Nada mal mas mesmo assim precisamos falar dos erros Podemos cometer dois tipos básicos de erro quando trabalhamos com testes de hipótese A primeira possibilidade é rejeitar a hipótese nula quando na realidade ela é verdadeira De outra forma podemos também incorrer em erro ao aceitar a hipótese nula sendo ela verdadeira No primeiro caso dizemos que cometemos um erro do tipo I enquanto que no último caso nosso erro é descrito como sendo do tipo II A Tabela 13 a seguir resume as possibilidades reais da pesquisa baseada em dados estatísticos Tabela 13 Desfechos possíveis dos testes de hipótese H0 é verdadeira H0 é falsa Aceitar H0 Decisão correta Erro Tipo II Rejeitar H0 Erro Tipo I Decisão correta Situação de pesquisa real Decisão Fonte O autor 2019 92 ESTATÍSTICA Vale ressaltar ainda que o Erro Tipo I é conhecido como enquanto o Erro Tipo II é referido como PARA REFLETIR Você percebeu que a tabela apresentada no item anterior traz uma série de níveis de significância descritos de forma diferente Em vez de referenciar a probabilidade de um pesquisador decidir corretamente lá está descrito várias proporções de erros Sendo assim qual você acha que é a coluna que apresenta os valores críticos para o nível de significância de 95 na tabela referida Claro que qualquer envolvido na pesquisa científica pretende diminuir ao máximo o erro em suas decisões Contudo esses dois tipos de erros são complementares para qualquer tamanho de amostra fixo Sendo assim dado um n amostral qualquer uma diminuição de acarreta um aumento em e viceversa Portanto a única maneira de diminuir o erro aleatório é aumentar a amostra Aposto que você lembrou o mantra que usamos na primeira unidade quanto maior a amostra menor será o erro 35 FÓRUM Você lembra qual é a matériaprima da Estatística Sim Dados ou variáveis de preferência quantitativos Então que tal pegarmos aquele conjunto de dados que resume as taxas de mortes no trânsito no Brasil e na Suécia entre os anos de 1996 e 2015 para trabalharmos um pouco e contribuir com o aprendizado da turma inteira Vou reproduzilo abaixo para facilitar a consulta ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa 1996 51 2006 45 2001 59 2011 36 1996 206 2006 191 2001 177 2011 218 1997 51 2007 42 2002 53 2012 36 1997 203 2007 194 2002 188 2012 236 1998 51 2008 41 2003 52 2013 35 1998 176 2008 197 2003 187 2013 240 1999 53 2009 40 2004 46 2014 35 1999 180 2009 191 2004 189 2014 241 2000 57 2010 40 2005 44 2015 30 2000 171 2010 209 2005 191 2015 245 Suécia Brasil Quadro 1 Taxas de morte no trânsito para cada grupo de 100 mil habitantes na Suécia e no Brasil 1996 a 2015 Fonte ONU 2016 93 ESTATÍSTICA Escolha um ano específico para um dos países calcule o escore padrão da taxa de mortes para cada 100 mil habitantes e compartilhe o valor com seus colegas Quando houver outros valores compartilhados por outros alunos tente descobrir se há algum padrão na taxa de mortes para cada país Se perceber confirme com outras intervenções para aumentar sua amostra Você consegue identificar se há padrão sazonal ou sistemático Discuta causas soluções e consequências com colegas do curso em nosso fórum SAIBA MAIS Você sabia que por recomendação da Organização das Nações Unidas quase todos os países incluindo o Brasil utilizam o escore padrão para referenciar diversas medidas de recémnascidos e crianças Se você tem acesso a uma caderneta de saúde da criança dê uma olhada nos valores utilizados como parâmetros para medições como altura peso entre outras se não tem nenhuma caderneta por perto acesse uma cópia na plataforma digital da disciplina O Gráfico 12 a seguir reproduz um gráfico de crescimento para um menino entre 0 e 5 anos No ambiente virtual de aprendizagem você encontrará um texto adicional sobre a metodologia de cálculo além de um resumo das informações técnicas do Ministério da Saúde do Brasil Gráfico 12 Crescimento de crianças 0 a 5 anos Fonte ONU 2006 94 ESTATÍSTICA SUGESTÃO DE LIVRO SPIEGELHALTER David BLASTLAND Michael Viver é perigoso São Paulo Publifolha 2015 As ferramentas específicas da Estatística como a probabilidade que acabamos de estudar pode ajudar você a considerar os riscos do dia a dia sem a influência de clichês distorcendo a verdade e exagerando os casos menos prováveis eou atenuando riscos mais elevados No livro Viver é perigoso os autores Spiegelhalter e Blastland 2015 discutem com muito humor as incoerências entre as probabilidades de ocorrência e a importância que dispensamos aos nossos principais medos CONSIDERAÇÕES FINAIS Os testes estatísticos que possibilitam ao pesquisador confirmar ou refutar hipóteses sobre populações a partir de amostras que serão vistos na próxima unidade exigem como requisito prévio o conhecimento sobre probabilidade e modelos de distribuição probabilística sobre a padronização de desvios em relação à média como o escorez e sobre as noções de estimação e decisão estatística como os testes de hipótese Avalie a sua aprendizagem Agora que terminamos essa unidade você deve estar apto a Calcular a probabilidade de eventos independentes Construir modelos probabilísticos simples Identificar características dos principais modelos de distribuição probabilística Formular hipóteses estatísticas a partir de dados de pesquisa Identificar os erros associados às hipóteses estatísticas Agora que conhecemos os conceitos necessários para concluir sobre nossos problemas baseados nos dados de pesquisa estamos preparados para a parte final da nossa disciplina que está contida na Unidade 4 Nela entraremos em contato com os principais testes estatísticos que nos permitirão aceitar ou rejeitar as hipóteses formuladas aumentando sobremaneira a relevância científica de qualquer pesquisa 95 ESTATÍSTICA seja na vida acadêmica ou profissional Espero você em breve EXERCÍCIO FINAL 7 COMPREENSÃO O parâmetro mais importante para a estatística inferencial é a curva normal ou de Gauss que descreve a densidade de probabilidade de um conjunto de variáveis em função da sua média e desviopadrão Sobre essa distribuição probabilística assinale a alternativa correta A Aproximadamente 95 dos valores dos dados devem estrar entre dois desvios padrão abaixo da média e dois desvios padrão acima da média B Sessenta e oito por cento dos dados devem estar entre 15 desvio padrão e 35 desvios padrão da média provocando uma assimetria à esquerda da curva C Quase 99 dos dados devem estar a três desvios padrão acima e abaixo da média D Os valores extremos são mais comuns que os valores centrais E A densidade de probabilidade se concentra na extremidade direita da curva normal após dois desvios padrão 8 APLICAÇÃO A Agência Nacional do Petróleo ANP pretende vistoriar uma amostra das 10 plataformas de petróleo sob a administração da iniciativa privada através de uma técnica de amostragem probabilística Para isso a ANP tabelou o tempo em anos desde que cada planta começou a produzir P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 18 12 10 9 9 7 5 3 1 1 Com base nessas informações assinale a alternativa que contém as chances em porcentagem de a ANP sortear aleatoriamente uma plataforma que produz petróleo por mais de 11 anos A 25 96 ESTATÍSTICA B 50 C 40 D 20 E 10 9 AVALIAÇÃO Considere um conjunto de variáveis representadas por notas de um de 100 alunos as quais são distribuídas de acordo com uma Curva de Gauss apresentam a média igual a 7 e desvio padrão igual a 2 Nesse caso é correto que A um aluno que obteve a nota 5 terá um escore padrão igual a 2 estando sua nota entre as 5 mais baixas do grupo de 100 alunos B um aluno que obteve a nota 10 terá um escore padrão igual a 3 estando sua nota entre as 3 mais altas do grupo de 100 alunos C um aluno que obteve a nota 6 terá um escore padrão igual a 1 estando sua nota entre as 15 mais baixas do grupo de 100 alunos D um aluno que obteve a nota 10 terá um escore padrão igual a 15 sendo a nota mais alta do grupo de 100 alunos E um aluno que obteve a nota 3 terá um escore padrão igual a 2 estando sua nota entre as 5 mais baixas do grupo de 100 alunos REFÊRENCIAS BARBETTA Pedro Alberto Estatística aplicada às ciências sociais 7 ed Florianópolis UFSC 2007 DEWITT David P TRIOLA J Introdução a estatística 10 ed Rio de Janeiro LTC 2008 DIETZ T KALOF L Introdução à estatística social a lógica do raciocínio estatística Rio de Janeiro LTC 2017 ORGANIZAÇÃO DAS NAÇÕES UNIDAS ONU Padrões de crescimento infantil para meninos de zero a cinco anos 2006 Disponível em httpswwwwhointchildgrowth standardschtlhfaboysz05pdfua1 Acesso em 04 jun 2019 ORGANIZAÇÃO DAS NAÇÕES UNIDAS ONU Global status report on road safety 97 ESTATÍSTICA 2016 Disponível em httpwwwwhointviolenceinjurypreventionroadsafety status 2015en Acesso em 04 jun 2019 SMAILES Joanne McGRANE Ângela Estatística aplicada à administração com Excel São Paulo Editora Atlas 2002 SPIEGELHALTER David BLASTLAND Michael Viver é perigoso São Paulo Publifolha 2015 TOLEDO Geraldo Luciano OVALLE Ivo Izidoro Estatística básica 2 ed São Paulo Atlas 2009 WERNER MJ Material complementar para Estatística da UNIAVAN 2018 Disponível em httpavantisestatisticablogspotcom Acesso em 29 abr 2019 ZAR JH Biostatistical Analysis 5 ed New Jersey Pearson Prentice Hall 2010 99 ESTATÍSTICA4 unidade APLICAÇÃO DE TESTES ESTATÍSTICOS 100 ESTATÍSTICA INTRODUÇÃO À UNIDADE Já sabemos que a Estatística inferencial permite que pesquisadores você por exemplo utilizem os dados coletados em seus estudos para identificar padrões extrapolar resultados de amostras para populações inteiras além de deduzir conclusões a partir de evidências e comparar grupos de variáveis BARBETTA 2007 Esses procedimentos são essenciais à pesquisa baseada em evidências pois livram os pesquisadores da maioria dos vieses que distorcem conclusões da pesquisa científica tais como preconceitos convicções prévias e desejos de confirmação É importante ressaltar que todas essas funções da Estatística inferencial não fazem parte do dia a dia da maioria de nós Por isso podem parecer a princípio complexas Contudo não há com o que se preocupar pois já temos uma boa bagagem teórica adquirida na unidade anterior Como vimos para determinado nível de significância que em resumo indica a probabilidade de um resultado apresentar a conclusão correta sobre os dados sempre que o valor de um teste estatístico paramétrico superar o valor crítico ou tabelado devemos rejeitar a hipótese nula MARTINS 2001 Você percebeu que nessa última frase retomamos quase tudo que foi aprendido na unidade anterior Se você ainda tem dúvidas sobre nível de significância probabilidade de um evento valor crítico e hipótese nula releia a Unidade 3 pois precisaremos desses conceitos para inferirmos conclusões a partir dos resultados dos testes estatísticos calculados Com esse conceito estabelecido os objetivos da Unidade 4 são Calcular estatísticas de testes paramétricos e não paramétricos Aceitar ou refutar hipóteses a partir do cálculo de estatísticas Concluir sobre problemas de pesquisa com base em dados e evidências Antes de prosseguirmos uma consideração importante há diversos testes estatísticos que são adequados para diferentes situações tipos de dados e formas de apresentação MARTINS 2001 Em nossa disciplina aprenderemos a calcular os principais testes que serão suficientes para quase todas as situações com as quais você se deparar Mesmo assim se você precisar de algo mais específico em sua vida profissional não se preocupe porque a lógica será a mesma Com isso em mente vamos em frente 101 ESTATÍSTICA 4 APLICAÇÃO DE TESTES ESTATÍSTICOS A forma mais comum de classificar os testes estatísticos inclusive utilizada em nossa bibliografia dê uma conferida diz respeito à distribuição conhecida provável ou estimada das variáveis do seu interesse Antes de continuarmos gostaria de dar uma sugestão Não é difícil encontrar vídeos tutoriais sobre cálculos de testes estatísticos específicos para cada tipo e característica de dados em repositórios de vídeos como o Youtube Recomendo que você faça uso deles para fixar seus conhecimentos e esclarecer dúvidas conforme surjam nos próximos itens Mas inicialmente gostaria de sugerir um filme para continuarmos com o assunto da disciplina sem tanta formalidade SUGESTÃO DE FILME Tratase de Florence Nightingale história da enfermagem um filme inglês que estreou no Brasil em 2008 e é baseado na história real de uma cuidadora de soldados feridos na Guerra da Criméia O filme retrata como essa enfermeira utiliza os dados que obtém dos pacientes para tomar e influenciar decisões baseadas em evidências sem se prender a clichês É hora de fazermos uma importante consideração referente à forma da distribuição probabilística dos dados populacionais dos quais a amostra que será seu objeto de pesquisa foi retirada Basicamente podemos separar nossos conjuntos de variáveis em paramétricos e não paramétricos Quando for possível identificar parâmetros populacionais tais como médias desviopadrão entre outras medidas descritivas devemos considerar a aplicação de testes estatísticos paramétricos que veremos a seguir Por outro lado quando não houver a necessidade eou possibilidade de estimar parâmetros para o conjunto de variáveis em estudo ou ainda quando a distribuição dos dados não puder ser verificada devemos utilizar testes estatísticos não paramétricos SMAILES McGRANE 2002 Vejamos alguns testes com seus respectivos exemplos de utilização 102 ESTATÍSTICA 41 TESTES ESTATÍSTICOS PARAMÉTRICOS Você já sabe tenho certeza que a principal matériaprima da Estatística são os dados ou variáveis No caso de pesquisas quantitativas dados são informações obtidas principalmente a partir das medições em amostras da população pois é muito difícil quase sempre medir entrevistar pesar ou experimentar a população inteira tenha em mente os conceitos de amostra e população na Estatística Dessa forma é muito útil ao pesquisador ou à pesquisadora identificar se a amostra que é seu objeto de estudo tem uma média diferente da população da qual foi supostamente retirada Há vários testes estatísticos que se encaixam em cada um dos diversos tipos de variáveis que compõem nossos dados de pesquisa Nos próximos itens abordaremos as principais situações nas quais você durante sua pesquisa pode se deparar Contudo é importante ressaltar que em uma pesquisa real da sua vida acadêmica e profissional você poderá sentir a necessidade de um teste específico que não foi abordado nesta disciplina Não se preocupe pois a lógica que permite a você tomar a decisão baseada nos dados é a mesma sendo diferente apenas a estatística ou fórmula do teste Vamos antecipadamente descrever os passos para a inferência estatística de uma pesquisa com quaisquer dados paramétricos Primeiro formule as hipóteses nula e alternativa que representam a igualdade e a diferença respectivamente Segundo escolha o teste estatístico mais adequado às características dos dados da pesquisa Em seguida calcule a estatística do teste para comparar com o valor crítico para aquele teste de acordo com um nível de significância escolhido Por fim conclua aceitando a hipótese alternativa no caso de a estatística calculada ultrapassar o seu valor crítico ou aceitando a hipótese nula em caso contrário FREUND SIMON 2000 Veja o exemplo a seguir PARA REFLETIR A gravidez na adolescência ainda é um problema grave no Brasil e por isso talvez você queira pesquisála Primeiramente você vai à Secretaria de Saúde do seu município e tenta descobrir qual a idade média das gestantes atendidas pelo programa de saúde da família promovido pela prefeitura O secretário municipal informa que tem todos os dados e afirma convicto que a idade média das gestantes é igual a 25 anos com um 103 ESTATÍSTICA desviopadrão igual a 12 anos se você tivesse todas as idades também conseguiria calcular os parâmetros é só seguir os passos descritos na Unidade 2 Olhando ao seu redor você vê algumas adolescentes grávidas desconfia da informação e decide realizar uma pesquisa para confirmar ou refutar o discurso do poder público Então você realiza a amostragem probabilística mais adequada lembrese da Unidade 1 e descobre que em sua amostra as moradoras das áreas de abrangência do programa que estão grávidas têm 20 anos em média E agora Será o que o secretário estava mentindo ou a variação foi aleatória devido ao erro inerente às amostras A resposta é depende 411 Teste Z para médias Vimos na unidade anterior que o escore padrão ou Z indica quantos desviospadrão uma determinada medição está além ou aquém da média BARBETTA 2007 A fórmula do teste Z é muito parecida com a do escore padrão mas apresenta uma informação adicional que faz com que o tamanho da amostra seja relevante para a conclusão do pesquisador mantra da Estatística quanto maior a amostra menor o erro amostral e viceversa Por isso precisamos compreender outro conceito o erro padrão da média que é a estimativa do desviopadrão de todas as médias de tamanho n eventualmente retiradas de uma população Sua fórmula é Essa é a estimativa que devemos utilizar no lugar do desviopadrão que é o denominador do escore Z Outra diferença devese ao fato de que no escore padrão utilizamos apenas uma medição por isso ou um qualquer enquanto que na estatística Z o número de variáveis depende do tamanho da nossa amostra n e por isso utilizamos a média dessas medições ou no numerador FREUND SIMON 2000 Vou reinserir a fórmula do escore padrão para ficar mais claro 104 ESTATÍSTICA Dado o que comentamos acima a fórmula da estatística Z é Além disso é importante frisar que as estatísticas Z e t que será vista na sequência apresentam distribuições simétricas Sabendo disso cabe ressaltar que o teste pode ser unilateral ou bilateral Se optarmos por um teste unilateral estaremos indicando que desejamos verificar se a média amostral é maior ou menor que a média populacional somente uma das duas opções Já se optarmos pelo teste bilateral estaremos indicando que pretendemos verificar se a média amostral é diferente pode ser maior ou menor da média populacional SMAILES McGRANE 2002 Na maioria das vezes é preferível optar pelo teste bilateral pois eventualmente as intervenções podem ter efeito inesperado por exemplo aumento da quantidade de exercícios pode causar o aumento do peso de uma pessoa Além disso considerando a simetria dessas distribuições qualquer valor positivo será correspondente ao mesmo valor negativo DOWNING 2002 como veremos no exemplo a seguir EXEMPLO Retomemos os dados sobre as gestantes no seu município e vamos incluir mais uma informação você obteve a idade média de 20 anos com base em 36 usuárias entrevistadas Sabendo que a média populacional é igual a 25 anos com desvio padrão igual a 12 anos de acordo com informações do secretário podemos calcular a estatística Z Mas antes que tal formularmos as hipóteses Como já sabemos a hipótese nula representa a igualdade enquanto a hipótese alternativa representa a diferença FREUND SIMON 2000 portanto nesse caso ou seja a hipótese nula indica que a média amostral é igual a média populacional a variação verificada foi aleatória e a hipótese alternativa indica que o média amostral é diferente pode ser maior ou menor da média populacional informada pelo secretário Saiba ainda que o valor crítico para esse conjunto de dados é igual a 196 positivo ou 105 ESTATÍSTICA negativo pois as distribuições Z e t são simétricas para o nível de significância de 95 BARBETTA 2007 WERNER 2018 esses valores sempre serão informados mas se quiser obter outros dê uma olhada no blog que complementa nosso material Agora basta calcularmos a estatística Z para compararmos com o valor crítico O que esse resultado significa Se você captou bem as informações da unidade anterior já sabe O valor calculado tem que ser comparado ao valor tabelado ou crítico e se ultrapassálo em módulo despreze o sinal a hipótese nula deve ser rejeitada Nesse caso o valor calculado foi maior que o crítico e portanto devemos rejeitar a hipótese nula A variação não foi aleatória e podemos afirmar com um nível de significância de 95 que o secretário estava mentindo EXERCÍCIO Chegou a hora de verificarmos na prática a influência do tamanho da amostra Imagine que para os mesmos dados você obteve a média de idade a partir da medição de apenas 16 gestantes percebeu que apenas o n mudou Acho que você já consegue calcular o teste Z e chegar à conclusão sozinh Vamos lá 412 Teste t de Student para médias O item anterior foi bastante extenso e trouxe conceitos com os quais não estamos tão familiarizados Por isso pode ser que alguns de nós consideremos aquela informação de difícil transposição Se for o seu caso revise atentamente os principais pontos pois a boa notícia é que o teste t tem praticamente a mesma fórmula e segue a mesma lógica de inferência Os únicos detalhes que diferenciam os dois testes são o critério de escolha e a estimativa do desvio padrão Em relação ao critério de escolha o tamanho da amostra e 106 ESTATÍSTICA o conhecimento dos parâmetros da população a partir da qual a amostra foi retirada são determinantes O teste t deve ser utilizado quando não possuirmos o desviopadrão da população eou quando o n amostral for muito menor que a população Já comentamos que raramente um pesquisador possui os parâmetros da população como no caso do secretário que afirmava têlos pelo resultado do item anterior parece que na realidade não tinha Isso acontece porque muitas vezes é inviável medir o conjunto completo de variáveis seja por falta de tempo verba para a pesquisa ou simplesmente impossibilidade prática Por essa razão o teste t é muito mais utilizado na Estatística que o teste Z TOLEDO OVALLE 2009 Tanto o desconhecimento do desvio padrão que deve ser estimado quanto a quantidade relativamente mais baixa de dados amostrais característicos da estatística t fazem com que o erro amostral seja maior que o encontrado na estatística Z DOWNING 2002 Veja como isso pode ser observado no Gráfico 13 padronizado a seguir Gráfico 13 Diferenças nas densidades de probabilidade das estatísticas Z e t Fonte O autor 2019 Felizmente tudo o que aprendemos sobre o teste Z servirá para o teste t A única diferença será o valor crítico que pertence à tabela própria desta estatística Confira a fórmula para o cálculo de t para uma amostra note que o desvio padrão populacional foi substituído pelo amostral Vamos a mais um exemplo dessa vez realizando o passo a passo de uma pesquisa quantitativa Destaco novamente que em nossos exemplos e avaliações o valor da 107 ESTATÍSTICA estatística crítica sempre será dado Contudo as tabelas estão disponíveis em qualquer bom livro de Estatística e se você for procurálos para conduzir estudos ou realizar exercícios saiba que o tamanho da amostra influencia no seu valor Você precisa procurar na linha indicada pelos graus de liberdade referenciado como GL ou v que nada mais é que o número de dados menos 1 ou seja n 1 PARA REFLETIR Vamos supor agora que você queira descobrir se o uso de um anticoncepcional com estrógeno causa alterações de peso em mulheres tanto para mais quanto para menos teste bilateral Para isso você mediu o peso de 4 mulheres antes e depois de dois anos de uso contínuo As diferenças foram 6 6 6 e 6 valores positivos indicam ganho de peso o valor negativo indica perda de peso O valor crítico de t para n 4 é 3182 TOLEDO OVALLE 2009 para o nível de significância de 95 conforme tabela reproduzida a seguir Tabela 14 Valores críticos para a estatística t com destaque para o valor crítico referente ao nível de significância de 95 e n 4 Graus de liberdade n1 90 95 99 1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355 9 1833 2262 3250 10 1812 2228 3169 11 1796 2201 3106 12 1782 2179 3055 13 1771 2160 3012 14 1761 2145 2977 15 1753 2131 2947 16 1746 2120 2921 17 1740 2110 2898 18 1734 2101 2878 19 1729 2093 2861 infinito Z 1645 1960 2576 Nível de significância Fonte Adaptado de Toledo Ovalle 2009 108 ESTATÍSTICA O primeiro passo é formular as hipóteses nula e alternativa Como já vimos a hipótese nula é a hipótese da igualdade e a hipótese alternativa é a da diferença Portanto para esse caso Ho µ 0 ou seja a média da população de onde esta amostra foi retirada pesos de todas as mulheres que tomam esse tipo de anticoncepcional é igual a zero e H1 µ 0 ou seja a média pode ser maior ou menor que zero houve alteração de peso para mais ou para menos O próximo passo é realizar o cálculo do teste O último passo consiste em interpretar o resultado Considerando que o valor calculado foi igual a 1 e não ultrapassou o valor crítico que é igual a 3182 devemos aceitar a hipótese nula ou seja o anticoncepcional não altera o peso das usuárias ainda que o peso médio daquela amostra tenha sido 3 kg maior não significa que a população de mulheres que tomam esse anticoncepcional terá peso maior PARA REFLETIR Se a amostra fosse de 100 mulheres como acha que seria o resultado Pesquise calcule e descubra a importância do tamanho das amostras 413 Teste t para Comparar Duas Amostras Pareadas Antes uma consideração há diversas formas de identificar diferenças significantes entre duas amostras e a escolha do teste depende das condições da pesquisa Em nossa disciplina estudaremos as principais formas de se comparar estatisticamente 109 ESTATÍSTICA dois grupos Como já salientado se houver necessidade de utilizar outras formas de comparação na sua pesquisa real ou vida profissional você estará bem encaminhado para utilizar outros testes pois a lógica de inferência será a mesma e apenas alguns itens das fórmulas mudarão Neste item estudaremos o teste que permite a inferência sobre a diferença estatisticamente significante entre dois grupos que são pareados e apresentam uma distribuição aproximadamente normal lembrese da Curva de Gauss ou Distribuição normal que discutimos nas unidades anteriores Pareamento das variáveis significa que os dados não são independentes sua comparação se justifica pela aplicação de um treinamento tratamento ou ainda avaliação por diferentes atores DOWNING 2002 Para ficar mais claro se as vendas de um mesmo grupo de corretores de imóveis forem comparadas antes e depois de um curso de técnicas de venda podemos verificar se as diferenças são significantes e portanto o curso teve o efeito esperado Também seria justificada nossa pesquisa para identificar diferenças significantes caso um mesmo grupo de pessoas com déficit de atenção fosse submetido a tratamento farmacológico ou psicológico Outra utilidade do teste pareado seria a verificação de semelhança ou diferença entre avaliação de segurança de brinquedos feita por duas empresas avaliadoras distintas entre muitas outras aplicações Por que você não pensa em um exemplo que pode ser objeto de investigação na sua área de atuação Para todos esses casos a fórmula do teste t para comparação de dois grupos pareados é onde média das diferenças antes e depois desviopadrão das diferenças Teoricamente é simples Vamos ver se também é fácil na prática Imagine que você queira verificar se aquela receita de chá da família realmente abaixa um tipo de colesterol e para isso decide realizar um exame bioquímico antes e depois de tomar o chá Suponha ainda que 4 amigos se submeteram ao teste Tabela 15 cujos resultados foram 110 ESTATÍSTICA Tabela 15 Colesterol medido antes e depois da ingestão de chá antes do chá depois do chá Ana 100 90 Beto 60 50 Carlos 100 70 Diana 60 50 Participante Nível de colesterol em mgdl Fonte O autor 2019 Bom não há dúvidas que se trata de uma comparação entre grupos pareados pois as mesmas pessoas serão medidas antes e depois de um tratamento Também podemos supor que a distribuição dos níveis desse colesterol deve ser aproximadamente normal e não temos motivos para acreditar que suas variâncias não são iguais Sendo assim podemos usar o teste t para comparar os dois grupos antes e depois sabendo que o valor crítico para o nível de significância e o tamanho amostral é igual a 2447 TOLEDO OVALLE 2009 lembrese que sempre informaremos o valor nas atividades mas você pode consultar em qualquer bom livro de estatística Estamos realizando esse teste estatístico passo a passo mas você pode ir direto à fórmula do teste t caso esteja confiante Primeiramente vamos incluir uma nova linha e uma nova coluna para calcularmos as diferenças e as médias conforme representadas na Tabela 16 Tabela 16 Colesterol medido diferenças e médias antes do chá depois do chá Ana 100 90 10 Beto 60 50 10 Carlos 100 70 30 Diana 60 50 10 Médias 80 65 15 Nível de colesterol em mgdl Participante Diferenças Fonte O autor 2019 Analise os dados que estão disponíveis já temos a diferença média e o número de dados n Para calcularmos o t falta somente o desviopadrão das diferenças então vamos calculálo Mas antes uma pergunta você se lembra da fórmula do desvio padrão que estudamos na Unidade 2 Vou relembrála 111 ESTATÍSTICA Sendo assim para o conjunto de dados formado pelas diferenças ou seja 10 10 30 e 15 o desvio padrão é Finalmente com todas as informações basta substituir na fórmula do teste Com o valor do teste calculado já podemos inferir a respeito da eficiência do chá sobre o valor do colesterol nota os valores são fictícios para auxiliar nossa aprendizagem e qualquer alteração na sua saúde deve ser acompanhada pelo profissional adequado Como informado anteriormente o valor crítico da estatística t para esse caso com nível de significância de 95 é igual a 2447 como em todos os casos de testes paramétricos se o valor da estatística calculada ultrapassar o valor crítico devemos rejeitar a hipótese nula de igualdade e considerarmos a hipótese alternativa DEWITT TRIOLA 2008 ou seja há diferença estatisticamente significante entre os valores de colesterol antes e depois do chá Vamos organizar essas etapas a Estabelecimento das hipóteses b Escolha do nível de significância e seu respectivo valor crítico c Cálculo do valor do teste estatístico t neste caso 112 ESTATÍSTICA d Decisão baseada em dados e Conclusão do problema de pesquisa Isso significa que com um nível de significância de 95 os níveis de colesterol foram alterados pela ingestão do chá 414 Análise de Variância para Comparar Três Amostras ou Mais Quando for necessária a comparação entre mais de dois tratamentos ou grupos paramétricos que aprendemos a realizar com os testes t e Z a probabilidade de rejeitar incorretamente a hipótese nula aumenta ZAR 2010 Para evitar esse aumento na probabilidade de erro quando houver mais de dois tratamentos para serem comparados devese optar pela análise de variância ou ANOVA também conhecida como estatística F É hora de ressaltar que há várias formas de se utilizar a ANOVA Contudo o estudo aprofundado da ANOVA está além dos objetivos desse nosso curso mas saiba que podem ocorrer situações na pesquisa real que necessitem outras aplicações e quando for o caso os procedimentos básicos para confirmar ou refutar suas hipóteses continuam valendo para a ANOVA bastando apenas desenvolver cálculos específicos na fórmula completa Em nossa disciplina apenas estudaremos a análise de variância de fator único para testar a seguinte hipótese nula onde k número de tratamentos Isso significa que como sempre até agora iremos calcular o valor da estatística F para comparar com o valor crítico fornecido e se aquele valor calculado ultrapassar este crítico devemos rejeitar a hipótese nula igualdade que afirma que todas as médias populacionais são iguais 113 ESTATÍSTICA Na realidade a ANOVA compara a variação entre os grupos com a variação de ocorre dentro dos grupos DEWITT TRIOLA 2008 Sua fórmula resumida é ou seja quanto maior a proporção da variação entre um grupo maior será o valor de F enquanto que uma grande variação dentro de um grupo reduzirá o valor de F Como em qualquer teste estatístico visto até aqui o aumento da estatística calculada aumenta as chances de se rejeitar a hipótese nula DEWITT TRIOLA 2008 pois quando comparamos com as estatísticas críticas tabeladas há maior chance de ultrapassálas Você pode encontrar mais de uma maneira de calcular o valor da ANOVA em nossa bibliografia A forma adotada nesta unidade é a mais prática e será suficiente para qualquer exemplo exercício ou atividade em nossa disciplina Antes de mais nada vale destacar que a soma dos desvios ao quadrado é comumente referida como simplesmente soma dos quadrados ou SQ Também será bastante útil ter em mente que a soma dos quadrados total é composta pela soma dos quadrados entre juntamente com a soma dos quadrados dentro DEWITT TRIOLA 2008 de modo que A soma dos quadrados dentro dos grupos ou tratamentos é o procedimento mais simples das três variáveis que compõem a fórmula acima Para obtêla basta identificar a média de cada tratamento e elevar ao quadrado a diferença entre esta média e cada elemento daquele tratamento TOLEDO OVALLE 2009 A soma da diferença ao quadrado de cada grupo compõe a SQ dentro DEWITT TRIOLA 2008 Vejamos na Tabela 17 como pode ser representado o cálculo da soma dos quadrados dentro de um conjunto genérico composto por duas medições em cada um de três tratamentos Tabela 17 Esquema genérico para cálculo da SQ dentro Medição Tratamento 1 Tratamento 2 Tratamento 3 A x w t B y z u Médias média do tratamento 1 m1 média do tratamento 2 m2 média do tratamento 3 m3 Soma dos quadrados x m1² y m1² w m2² z m2² t m3² u m3² SQ dentro SQ tratamento 1 SQ tratamento 2 SQ tratamento 3 Fonte O autor 2019 114 ESTATÍSTICA Já a SQ total pode ser obtida pela elevação ao quadrado da diferença entre a média do conjunto total e cada elemento da pesquisa DEWITT TRIOLA 2008 independentemente do grupo ao qual pertence Sendo assim Soma dos quadrados total SQ total é obtido pelo cálculo de x M² y M² w M² z M² t M² u M² onde M é o resultado de xywztu dividido pelo total de medições Chegou a hora de incluirmos alguns números para facilitar o entendimento Vamos considerar que o objetivo de sua pesquisa é verificar se há diferença significante entre três cursos de língua estrangeira observando o resultado de três alunos de cada curso TABELA 18 Os dados sobre uma pontuação padronizada são os seguintes Tabela 18 Pontuação de três alunos após estudar em três cursos diferentes Curso Z Curso Y Curso X Alex 2 4 6 Bruno 4 6 8 Carlos 6 8 10 Aluno Pontuação Fonte O autor 2019 Agora incluiremos as médias de cada curso para facilitar o cálculo das somas dos desvios ao quadrado dentro dos grupos ou simplesmente SQ dentro TABELA 19 Tabela 19 Pontuações e médias de três alunos Curso Z Curso Y Curso X Alex 2 6 6 Bruno 4 4 8 Carlos 6 8 10 Médias 4 6 8 Aluno Pontuação Fonte O autor 2019 Com base nessas informações 115 ESTATÍSTICA Já a soma dos quadrados total SQ total pode ser calculado como segue Em seguida vamos calcular o quadrado da diferença entre a média geral e cada elemento do nosso conjunto de dados para obter a SQ total Outra informação importante para nosso sucesso no cálculo da ANOVA referese ao conceito de graus de liberdade GL De acordo com Toledo e Ovalle 2009 tratase do valor pelo qual a soma dos quadrados SQ deve ser dividido para que possamos obter seu valor médio O número de graus de liberdade entre grupos é igual ao número de grupos k menos um GL entre k 1 enquanto o grau de liberdade dentro dos grupos é igual ao número total de dados menos o número de grupos GL dentro N k Gostaria de sugerir o preenchimento de uma tabela com as seguintes informações que facilitará nossos cálculos e conclusão TABELA 20 Tabela 20 Dados para cálculo da estatística F SQ médio F SQ SQ médio entre GL SQ médio dentro Entre grupos SQ total SQ dentro 3 1 Dentro dos grupos 24 N k Total 48 N 1 GL Fonte da variação SQ Fonte O autor 2019 Aplicando os cálculos simples para preencher toda a Tabela 21 Tabela 21 Requisitos para o cálculo de F SQ médio F SQ SQ médio entre GL SQ médio dentro Entre grupos 24 2 12 3 Dentro dos grupos 24 6 4 Total 48 8 GL Fonte da variação SQ Fonte O autor 2019 116 ESTATÍSTICA Ufa Apesar de não haver nenhum procedimento difícil são vários passos até alcançarmos o valor da estatística calculada Mas com esse número disponível basta comparar o F calculado com o crítico 514 para o nível de significância de 95 para poder chegar à conclusão Considerando que o valor calculado não ultrapassou o F crítico aceitamos a hipótese nula DEWITT TRIOLA 2008 ou seja não há diferença estatisticamente significante entre as médias dos três grupos Veja mais um exemplo simples EXEMPLO Suponha que você seja um industrial tentando determinar se há diferença estatisticamente significante na produtividade de operários que ingerem água suco de laranja ou café durante os intervalos Como de praxe a hipótese nula será a de que não há diferença na produtividade relacionada à ingestão das três bebidas enquanto a hipótese alternativa será a de que pelo menos uma bebida promove maior ou menor produtividade do trabalho que outra Perceba que há três grupos água café e suco de uva e suponha que haja 3 medições em cada grupo Se houver uma grande variação dentro de cada grupo ou seja cada medição for muito diferente de outras é mais provável que a bebida não causa tanta diferença mas sim outras características dos participantes do experimento Já se for observada uma grande variação entre os três tratamentos é mais provável que as bebidas causem a diferença na produtividade É essa relação entre a variação dentro dos grupos com a variação entre os grupos que a ANOVA nos fornece em forma de um número que será comparado com o valor crítico tabelado Que tal assumir alguns números para o exemplo acima e tornar a aprendizagem mais divertida EXERCÍCIO Imagine que três operários da indústria descrita ingeriram água durante os intervalos de uma determinada semana e produziram em milhares 1 2 e 3 peças respectivamente Na semana seguinte durante a qual ingeriram suco de laranja produziram 5 6 e 7 mil peças respectivamente Por fim na última semana do experimento os 117 ESTATÍSTICA três funcionários ingeriram café durante os intervalos e sua produção foi de 3 4 e 5 mil peças Com base nesses números e sabendo que o valor crítico de F para este conjunto de dados é igual a 514 podemos afirmar que a bebida ingerida influencia na produção daquela indústria Vamos tabelar os dados para facilitar a visualização Água Suco Café Operário A 1 5 3 Operário B 2 6 4 Operário C 3 7 5 Produção em milhares de peças Funcionário Com base nesses dados qual sua conclusão em relação à produtividade associada à ingestão das três bebidas Todos os testes estatísticos que estudamos até agora podem ser agrupados em uma categoria chamada de testes paramétricos pois são baseados em parâmetros populacionais tais como média e variância BARBETTA 2007 Porém alguns métodos estatísticos não requerem a estimação dos parâmetros e portanto podem ser usados para análise de variáveis cujas distribuições não são conhecidas Isso acontece quando por exemplo não podemos verificar se os dados têm uma distribuição normal BARBETTA 2007 Veremos dois dos principais testes não paramétricos no próximo item 42 TESTES ESTATÍSTICOS NÃO PARAMÉTRICOS A maioria dos testes nãoparamétrios utiliza técnicas que convertem os dados observados em posições relativas ou rankings o que traz a vantagem de diminuir a influência de outliers se você esqueceu o que significa reveja a Unidade 1 Por outro lado alguma informação sobre os dados é perdida na conversão e quando comparado aos testes paramétricos os testes nãoparamétricos têm uma probabilidade de cometer erro ligeiramente superior NAZARETH 2001 Outra consideração bastante importante é necessária alguma experiência em análise de dados e o conhecimento de outros métodos de verificação de distribuições que extrapola os objetivos da nossa disciplina para identificar a necessidade de se utilizar um teste não paramétrico Mas não se preocupe nossos exercícios exemplos e avaliações 118 ESTATÍSTICA indicarão claramente essa necessidade 421 Teste U para Comparar Duas Amostras Agora que já temos uma noção de estatística nãoparamétrica vamos ser mais específicos A comparação de conjuntos de variáveis nãoparamétricas é necessária para verificarmos se esses conjuntos apresentam diferença estatisticamente significante entre eles ou a variação percebida foi apenas aleatória Imagine por exemplo que você pretende descobrir se os alunos da sua sala têm alturas diferentes das alunas Antes de mais nada você formula as hipóteses sendo H0 alunos e alunas têm alturas iguais e H1 alunos e alunas têm alturas diferentes Em seguida você realiza uma das 4 amostragens probabilísticas que você aprendeu e mede 7 alunos selecionados cujos resultados em centímetros são 190 187 184 181 180 174 e 169 e 5 alunas selecionadas resultados 164 165 168 173 e 178 Se você desejasse utilizar alguma técnica de estatística descritiva poderia informar que a média dos alunos é maior que a média das alunas ou alguma informação sobre o desviopadrão coeficiente de variação etc Contudo como já dissemos a Estatística inferencial tema desta unidade vai além O que queremos determinar é se dado o nível de significância como sempre 95 essas duas amostras que chamamos genericamente de Grupo 1 e Grupo 2 vêm de populações com alturas médias diferentes ou iguais Para podermos concluir corretamente devemos utilizar um teste estatístico Sendo assim vamos às fórmulas do teste U também chamado de MannWhitney onde n1 é o número de dados do grupo 1 alunos neste caso n2 é o número de dados do grupo 2 alunas e R1 é a soma dos rankings das variáveis do grupo 1 Para facilitar a compreensão vamos dispor na Tabela 22 os dados em duas colunas e determinar suas quantidades de dados ou tamanhos amostrais n Tabela 22 Altura suposta em centímetros de 7 alunos e 5 alunas 119 ESTATÍSTICA Grupo 1 alunos Grupo 2 alunas 190 164 187 165 184 168 181 173 180 178 174 169 n 1 7 n 2 5 Fonte O autor 2019 Agora falta somente a soma dos rankings do grupo 1 R1 Para isso basta colocar o número ordinal em cada uma das medições independentemente da amostra começando pelo menor se for começar pelo maior o resultado será o mesmo Sendo assim o menor número de todas as 12 medições será o número 1 o segundo menor o número 2 e assim por diante Após colocar todos os ordinais basta somar os que pertencem ao grupo 1 para obter o R1 que precisamos para completar a fórmula Vejamos na Tabela 23 como ficaria Tabela 23 Altura suposta em centímetros de 7 alunos e 5 alunas com suas posições relativas entre parênteses 190 12 164 1 187 11 165 2 184 10 168 3 181 9 173 5 180 8 178 7 174 6 169 4 n 1 7 R 1 60 n 2 5 R 2 18 Grupo 1 alunos Grupo 2 alunas Fonte O autor 2019 Finalmente vamos calcular o U1 e U2 e comparar o menor deles com o U crítico fornecido pela Tabela 24 a seguir que é igual a 5 para esse conjunto de dados com n1 7 e n2 5 120 ESTATÍSTICA Tabela 24 Valores críticos de U para o nível de significância de 95 5 6 7 8 9 10 11 12 13 14 15 5 2 3 5 6 7 8 9 11 12 13 14 6 5 6 8 10 11 13 14 16 17 19 7 8 10 12 14 16 18 20 22 24 8 13 15 17 19 22 24 26 29 9 17 20 23 26 28 31 34 10 23 26 29 33 36 39 11 30 33 37 40 44 12 37 41 45 49 13 45 50 54 14 55 59 15 64 n2 número de dados do grupo 2 n1 número de dados do grupo 1 Fonte Adaptado de Dewitt Triola 2008 PARA REFLETIR Preste muita atenção porque exclusivamente no caso da estatística U se o valor da estatística calculada for menor que o crítico rejeitamos a hipótese nula há igualdade e aceitamos a hipótese alternativa há diferença Perceba que é o procedimento exatamente oposto daquele utilizado na estatística paramétrica bem como daquele utilizado para comparação de três amostras não paramétricas DEWITT TRIOLA 2008 Vamos aos cálculos Considerando que o menor número entre U1 e U2 é 3 devemos comparálo com o valor de U crítico tabelado que é 5 Sendo o U calculado menor que o crítico tabelado 121 ESTATÍSTICA rejeitamos H0 e aceitamos H1 ou seja os alunos e as alunas não têm a mesma altura pois a diferença entre esses grupos é estatisticamente significante 422 Teste H para Comparar Três Amostras ou Mais O princípio do teste de KruskalWallis é o mesmo da estatística U pois também utilizaremos o tamanho de cada amostra além da soma do ranking ou posições relativas Apesar de apresentar uma fórmula diferente todas as considerações a respeito das características de um conjunto de dados nãoparamétricos feitas no item anterior continuam válidas inclusive a informação nos exercícios exemplos e avaliações sobre a necessidade de se utilizar um teste nãoparamétrico O teste H deve ser usado quando precisarmos identificar se há diferença significante entre 3 ou mais amostras pois o teste U permite a comparação apenas entre 2 amostras DEWITT TRIOLA 2008 A fórmula do teste de KruskalWallis é A fórmula parece ser uma pouco mais complicada que a anterior mas se calcularmos o termo separadamente facilitará muito o processo Lembrese que o i sobescrito em R e n representa o número de grupos que devem ser comparados DEWITT TRIOLA 2008 Vamos supor que desejamos comparar três ou quatro grupos Nesses casos os termos ficariam assim respectivamente Mais fácil não é mesmo Agora vamos como o cálculo ocorre na prática EXEMPLO Imagine que você queira determinar se há diferença estatisticamente significante entre o índice de massa corporal IMC de três grupos de 5 mulheres 122 ESTATÍSTICA cada selecionadas aleatoriamente nas cidades de Balneário Camboriú São Paulo e Rio de Janeiro Como você já deve saber vamos iniciar formulando as hipóteses H0 mulheres têm o mesmo IMC nas três cidades e H1 em pelo menos uma das três cidades as mulheres têm IMC diferente Agora apresentamos os dados na Tabela 25 que são seu objeto de estudo Tabela 25 IMC suposto de 15 mulheres em 3 cidades diferentes Ana IMC 225 Fran IMC 170 Karla IMC 169 Bia IMC 235 Gabi IMC 183 Leia IMC 180 Cléo IMC 239 Hilda IMC 195 Marta IMC 189 Diana IMC 242 Ivana IMC 200 Noeli IMC 212 Eva IMC 256 Julia IMC 231 Olga IMC 218 Balneário Camboriú São Paulo Rio de Janeiro Fonte o autor 2019 Como precisamos da informação referente à posição relativa das medições vamos incluir os rankings entre parênteses assim como fizemos no item anterior além de adicionar uma linha com a soma destes valores TABELA 26 juntamente como o tamanho amostral de cada grupo n Tabela 26 IMC suposto de 15 mulheres e posições relativas entre parênteses 225 10 170 2 169 1 235 12 183 4 180 3 239 13 195 6 189 5 242 14 200 7 212 8 256 15 231 11 218 9 n 1 5 R 1 64 n 2 5 R 2 30 n 2 5 R 2 26 Rio de Janeiro Balneário Camboriú São Paulo Fonte o autor 2019 Antes de realizarmos o cálculo final valor calcular separadamente a expressão que representa simplesmente o somatório de cada ranking ao quadrado dividido por seu número amostral 123 ESTATÍSTICA Finalmente podemos substituir na fórmula Considerando que o valor crítico de H para 3 grupos de 5 variáveis cada é igual 578 para o nível de significância de 95 DEWITT TRIOLA 2008 rejeitamos a hipótese nula pois o H calculado ultrapassou o H crítico PARA REFLETIR Percebeu que somente a estatística U nos obriga a rejeitar se hipótese nula se o valor calculado for menor que o crítico Todos os outros testes estatísticos fazem exatamente o oposto o valor calculado deve ser maior que o crítico para rejeitarmos a hipótese nula Portanto pelo menos em uma das 3 cidades as mulheres apresentam um IMC maior e a diferença não foi aleatória Sempre que isso acontece cabe ao pesquisador explicar essa diferença na conclusão ou considerações finais do seu trabalho de pesquisa SAIBA MAIS Agora que já conhecemos os procedimentos para o cálculo de dois testes estatísticos não paramétricos que utilizam os rankings em vez dos valores dos dados gostaria de acrescentar uma informação que não será necessária em nossas avaliações para evitar o aumento da complexidade em assuntos tão pouco discutidos ao longo da nossa educação formal e porque extrapola o objetivo da disciplina mas que pode aparecer em sua pesquisa na prática Tratase da possibilidade de nos depararmos com valores iguais entre as variáveis Quando isso ocorrer para calcularmos o ranking devemos fazer a média aritmética simples das posições e atribuir o valor aos valores repetidos DEWITT TRIOLA 2008 Por exemplo se tivermos os valores 13 15 15 e 17 os rankings entre parênteses ficariam 13 1 15 25 que é a média entre as posições 2 e 3 15 25 17 4 Exclusivamente nesses casos em que há empate nos rankings da estatística H 124 ESTATÍSTICA precisaremos aplicar um fator de correção que é definido de acordo como o número de empates e altera ligeiramente o valor do H calculado 43 FÓRUM O Instituto Brasileiro de Geografia e Estatística IBGE vira notícia em todos os anos em que há eleições mas você sabia que pesquisas eleitorais compõem uma fração mínima do trabalho deste instituto O IBGE coleta dados nossa matériaprima sobre os mais variados assuntos Sendo assim vou propor que você escolha um tema do seu interesse crie uma informação nova e compartilhe com seus colegas Vai funcionar assim entre na página específica do IBGE sobre cidades em https cidadesibgegovbr e navegue para se familiarizar saiba que é possível acessar através de qualquer dispositivo como smartphone computador ou notebook Para cada um dos mais de 5500 municípios brasileiros há informações sobre população densidade demográfica e religião por exemplo trabalho e rendimento como salário médio e percentual de ocupados educação notas do IDEB taxas de escolarização entre outras economia por exemplo PIB por pessoa e IDH municipal saúde como mortalidade infantil ou internações por diarreia e território e ambiente entre elas esgotamento sanitário ou arborização IBGE 2019 Escolha qualquer tema que lhe interesse e selecione algumas cidades no mínimo 5 em cada grupo para fazer alguma comparação utilizando algum dos testes estatísticos que acabamos de estudar Alguns avisos são importantes para serem comparáveis os valores devem estar em unidades padronizadas tais como porcentagens ou proporções todas as sugestões acima estão padronizadas mas você pode escolher qualquer outra que consta no site bastando realizar um procedimento de padronização se tiver dúvida dê uma olhada na unidade anterior Não se esqueça de fazer o procedimento de pesquisa estatística completo selecione as cidades cujos dados você irá utilizar você poderia também praticar o que aprendemos na Unidade 1 utilizando uma técnica de amostragem 125 ESTATÍSTICA probabilística indique no fórum suas hipóteses nula e alternativa escolha do teste estatístico adequado e calcule seu valor compare com o valor crítico você pode encontrálos em nossa bibliografia em qualquer bom livro de Estatística ou nesta unidade compartilhe sua conclusão baseada nos dados com os outros colegas do curso comente sobre os resultados deles também Como o procedimento do fórum abrange quase todos os passos para uma inferência estatística vou relatar um breve exemplo de como você poderia executálo para evitar dúvidas Ressalto que o exemplo descrito não deverá ser utilizado e serve apenas para facilitar a compreensão EXEMPLO Alguém poderia querer descobrir se a nota do índice de desenvolvimento humano municipal IDH Municipal é diferente entre os municípios do litoral e do interior do estado de Santa Catarina formulando a hipótese nula de que não há diferença entre os IDHs e a hipótese alternativa de que há diferença entre os IDHs Para isso este pesquisador sortearia 5 cidades aleatórias do litoral e 20 cidades do interior e anotaria todos os IDHs Municipais separados em dois grupos litoral e interior Considerando que não é possível determinar o desvio padrão populacional dos IDHs nem que seus valores se distribuem normalmente o pesquisador deveria optar por um teste não paramétrico Como há a necessidade de se comparar apenas duas amostras não paramétricas o teste adequado será o de MannWhitney ou estatística U Escolhido o teste bastaria calcular seu valor e verificar se ele é menor que o valor crítico tabelado Se for este o caso a hipótese nula seria rejeitada ou seja a diferença entre as duas amostras é estatisticamente significante SAIBA MAIS Nesta unidade estudamos a aplicação de testes estatísticos que são utilizados em condições específicas de acordo com o tipo de variável utilizada pelo pesquisador Vimos também que o conhecimento ou a suposição da distribuição dos dados 126 ESTATÍSTICA permite que sejam utilizados testes paramétricos os quais em geral são mais robustos que os testes não paramétricos Apesar de ser o teste paramétrico mais utilizado o t de Student apresenta um aumento no erro amostral conforme são incluídos mais grupos ou tratamentos para comparação Como vimos nesta unidade a solução para este problema consiste em trocar o teste t pela ANOVA Que tal conhecer as razões para esse fato Leia no artigo Por dentro da estatística disponível no ambiente virtual SUGESTÃO DE LIVRO ELLENBERG Jordan O poder do pensamento matemático a ciência de como não estar errado Rio de Janeiro Editora Zahar 2015 Os testes estatísticos que acabamos de estudar podem nos ajudar evitar armadilhas que distorcem a realidade não só dos resultados e consequências de pesquisas científicas mas também sobre tudo o que acontece em nosso cotidiano No livro o autor traz diversas provocações de maneira divertida que nos levam a pensar em termos estatísticos fazendo com que muitas vezes abandonemos nossa opinião 127 ESTATÍSTICA CONSIDERAÇÕES FINAIS Os testes estatísticos que possibilitam ao pesquisador confirmar ou refutar hipóteses sobre populações a partir de amostras utilizando conhecimentos sobre probabilidade modelos de distribuição probabilística e noções de estimação e decisão estatística TOLEDO OVALLE 2009 como os testes de hipótese que vimos na unidade anterior Como foi enfatizado durante toda a unidade acho que ficou clara a imensa variedade de testes com os quais podemos nos deparar durante nossa vida acadêmica e principalmente profissional A escolha adequada do teste específico dependerá do tipo de variável que constitui seu objeto de pesquisa bem como do objetivo que você pretende alcançar com o estudo Nesta Unidade 4 estudamos os testes estatísticos que são utilizados para as principais situações encontradas pelos pesquisadores em suas necessidades profissionais reais tais como comparar médias populacionais alegadas com médias amostrais comparar características relevantes entre dois ou mais grupos entre outras para decidir por exemplo se um tratamento é melhor que outro se uma estratégia de vendas pode ser mais efetiva se um método de estudo facilita mais a transposição didática que outro etc Avalie sua aprendizagem agora que terminamos esse módulo você deve estar apto a Calcular estatísticas de testes paramétricos e não paramétricos Aceitar ou refutar hipóteses a partir do cálculo de estatísticas Concluir sobre problemas de pesquisa com base em dados e evidências Chegamos ao final da nossa disciplina e espero que todos sintam saudade e até retornem ao caderno para aperfeiçoar seus estudos Tenho certeza que se você seguiu todos os passos propostos achou a Estatística divertida e não tão difícil como imaginava no início Mesmo assim tiver dúvidas comentários sugestões ou críticas fique à vontade para entrar em contato através do email constante na apresentação deste caderno Em sua caminhada daqui para frente você irá se deparar com inúmeros problemas de pesquisa na vida acadêmica e profissional que poderão ser adequadamente trabalhados com as técnicas estatísticas que discutimos ao longo da disciplina Não perca a oportunidade de usar cientificamente as informações que você dispõe e procure formular suas previsões e tomar suas decisões sempre baseadas nas evidências fornecidas pelos seus dados Foi um prazer acompanhar seu desenvolvimento na Estatística 128 ESTATÍSTICA EXERCÍCIOS FINAIS 10 CONHECIMENTO Os testes estatísticos são úteis para confirmarmos ou rejeitarmos uma hipótese previamente definida ou comparar diferentes conjuntos de dados Em relação aos diversos testes assinale a alternativa verdadeira A A ANOVA compara a mediana entre os grupos com a mediana dentro dos grupos para refutar a hipótese de diferença estatisticamente significante entre os tratamentos B O teste t de Student é útil para refutar hipóteses quando temos dados paramétricos em conjuntos com mais de 100 observações C O teste H KruskalWallis permite comparar mais de duas amostras não paramétricas D O teste U MannWhitney permite a verificação da aderência dos dados a um modelo específico de distribuição E A estatística Z informa o valor calculado de uma média a ser testada em relação ao valor crítico em unidades da própria amostra Dessa maneira quando o valor calculado for maior que o valor tabelado aceitamos hipótese nula 11 APLICAÇÃO Suponha que você esteja produzindo e testando a resistência de um novo anteparo para proteção em lutas de boxe amador e para isso utilizará o teste t de Student A resistência média do anteparo mais famoso do mercado é de 1425 N mm² As amostras que você produziu e testou apresentaram resistência de 16 14 16 e 16 Nmm² O valor tabelado de t para o nível de significância de 95 e n 4 é igual a 23 Com base nesses dados calcule a estatística t e assinale a opção correta considerando o nível de significância A O novo anteparo é mais resistente que o antigo pois o t calculado fica na área de aceitação da hipótese alternativa B O novo anteparo não é mais resistente que o antigo pois o t tabelado é maior que o t calculado C O novo anteparo não é mais resistente que o antigo pois o t calculado é maior que o t tabelado D O novo anteparo é mais resistente que o antigo pois o valor de t calculado fica na 129 ESTATÍSTICA área de aceitação da hipótese nula E Não é possível determinar se o novo anteparo é mais resistente 12 SÍNTESE Um treinador pessoal pretende comparar a flexibilidade média de 3 grupos de clientes seus crianças jovens e idosos No grupo de crianças foram observados os seguintes valores padronizados de flexibilidade 4 17 e 11 nos jovens foram 7 e 14 No grupo dos idosos os valores foram 13 e 8 Utilize o teste nãoparamétrico adequado e assinale a alternativa que contém a afirmação correta considerando que o valor crítico da estatística é igual a 10 para o nível de significância A Os clientes infantis do treinador têm maior flexibilidade que seus alunos jovens e idosos B Os idosos que participaram do estudo têm aproximadamente a mesma flexibilidade em relação às crianças mas diferente dos jovens C É possível afirmar que a variação na flexibilidade dos alunos dos três grupos foi aleatória D Os alunos jovens e crianças têm flexibilidade maior que os idosos E Os clientes idosos têm a menor flexibilidade entre todos os investigados 130 ESTATÍSTICA REFÊRENCIAS BARBETTA Pedro Alberto Estatística aplicada às ciências sociais 7ª ed Florianópolis UFSC 2007 DEWITT David P TRIOLA J Introdução a estatística 10ª ed Rio de Janeiro LTC 2008 DOWNING Douglas Estatística aplicada série essencial São Paulo Saraiva 2002 ELLENBERG Jordan O poder do pensamento matemático a ciência de como não estar errado Rio de Janeiro Editora Zahar 2015 FREUND John SIMON Gary A Estatística aplicada Porto Alegre Bookman 2000 IBGE INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA O Brasil em síntese Disponível em httpscidadesibgegovbr Acesso em 29 maio 2019 MARTINS Gilberto de A Estatística geral e aplicada São Paulo Atlas 2001 NAZARETH Helenalda de S Curso Básico de Estatística 12ª ed São Paulo Ática 2001 SMAILES Joanne McGRANE Ângela Estatística aplicada à administração com Excel São Paulo Editora Atlas 2002 TOLEDO Geraldo Luciano OVALLE Ivo Izidoro Estatística básica 2ª ed São Paulo Atlas 2009 WERNER MJ Material complementar para Estatística da UNIAVAN 2018 Disponível em httpavantisestatisticablogspotcom Acesso em 29 abr 2019 ZAR JH Biostatistical Analysis 5a ed New Jersey Pearson Prentice Hall 2010
Send your question to AI and receive an answer instantly
Recommended for you
18
Aproximação da Distribuição Poisson pela Normal - Aula 8
Estatística da Administração
UMG
17
Aproximação da Distribuição Binomial pela Normal - Aula 7
Estatística da Administração
UMG
19
Proporção de Objetos e Variáveis Aleatórias Normais
Estatística da Administração
UMG
18
Distribuição Amostral dos Estimadores - Aula 12
Estatística da Administração
UMG
14
Aproximação da Binomial pela Normal: Conceitos e Aplicações em Experimentos de Bernoulli
Estatística da Administração
UMG
5
Medidas de Tendência Central em Epidemiologia
Estatística da Administração
UMG
89
Intervalos de Confiança: Exemplos e Cálculos
Estatística da Administração
UMG
114
Teste de Hipóteses para Proporções com Duas Amostras
Estatística da Administração
UMG
16
Exemplos de Distribuição Normal e Cálculos de Probabilidade
Estatística da Administração
UMG
17
Distribuição Amostral dos Estimadores - Aula 14
Estatística da Administração
UMG
Preview text
Ficha catalográfica elaborada na fonte pela Biblioteca do Centro Universitário Avantis UNIAVAN Maria Helena Mafioletti Sampaio CRB 14 276 CDD 21ª ed 519 Estatística Werner Marcelo Jorge W492e Estatística EAD Caderno pedagógico Marcelo Jorge Werner Balneário Camboriú Faculdade Avantis 2019 131 p il Inclui Índice ISBN 9788554561154 ISBNe 9788554561147 1 Estatística 2 Estatística Inferencial 3 Estatística Aplicação de testes 4 Estatística Ensino a Distância I Faculdade Avantis II Título EMENTA Conceitos e práticas divisão métodos população amostra variáveis dados coletas tabelas séries gráficos medidas de posição medidas de variabilidade probabilidade distribuições de probabilidades números índices estatística inferencial amostragem teoria estatística da estimação teoria da decisão estatística números índices análise da variância análise da correlação e regressão OBJETIVOS DA DISCIPLINA Conhecer os principais conceitos e divisões da Estatística Identificar as técnicas de amostragem probabilística Coletar e apresentar dados em gráficos e tabelas Descrever a distribuição de grandes conjuntos de dados Descrever conjuntos de variáveis através de medidas de tendência central e de dispersão das variáveis Apresentar a dispersão relativa de conjuntos de variáveis com escalas diferentes Analisar e quantificar o grau de relação entre 2 grupos de variáveis com ou sem relação de causa e efeito Estimar parâmetros e estatísticas em análise bivariada Conhecer as noções básicas de probabilidade Identificar e utilizar os principais modelos probabilísticos Formular hipóteses sujeitas a testes estatísticos Calcular estatísticas de testes paramétricos e não paramétricos Aceitar ou refutar hipóteses a partir do cálculo de estatísticas Concluir sobre problemas de pesquisa com base em dados e evidências PLANO DE ESTUDO O PAPEL DA DISCIPLINA PARA A FORMAÇÃO DO ACADÊMICO O estudo da disciplina de Estatística capacitará o futuro profissional nas ações de planejar executar analisar e interpretar dados experimentais na área de atuação além de contribuir para a aquisição de habilidades e competências para a produção de ciência O egresso também será instrumentalizado com ferramentas para a tomada de decisões baseadas em evidências científicas proporcionando maior liberdade na condução de pesquisas e divulgação de resultados permitindo uma comunicação mais eficaz PROFESSOR APRESENTAÇÃO DO AUTOR O autor é Biólogo e Economista mestre em Ciência e Tecnologia Ambiental e especialista em Ensino de Ciências Ensino Virtual e Docência e Tutoria É professor na UniAvan desde 2014 tutor da Secretaria Nacional de Segurança Pública desde 2015 e servidor do Ministério da Justiça desde 2004 Tem experiência em genética ênfase genética de microrganismos e metagenômica economia ênfase sustentabilidade e recursos naturais ensino de ciências ênfase divulgação científica e segurança pública ênfase determinantes biológicos da criminalidade Currículo em httplattescnpqbr485151974151555 Email marcelowerneravantisedubr UNIDADE 1 EXPLORAÇÃO E APRESENTAÇÃO DE DADOS 11 INTRODUÇÃO À UNIDADE 12 1 EXPLORAÇÃO E APRESENTAÇÃO DE DADOS 13 11 DIVISÕES DA ESTATÍSTICA 13 12 CONCEITOS BÁSICOS 13 121 Amostra versus População e Parâmetros versus Estatísticas 14 122 Tipos de Variáveis e Outliers 15 123 Acurácia Precisão e Regras de Arredondamento 19 13 TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICA 21 131 Amostragem Aleatória Simples 22 132 Amostragem Sistemática 22 133 Amostragem Estratificada 23 134 Amostragem por Conglomerado 24 14 APRESENTAÇÃO DE DADOS EM GRÁFICOS E TABELAS 25 141 Apresentação de Grandes Conjuntos de Dados 30 142 Gráficos de Distribuição de Frequências32 15 FÓRUM 36 CONSIDERAÇÕES FINAIS DA UNIDADE 37 EXERCÍCIO FINAL 38 REFÊRENCIAS 40 SUMÁRIO UNIDADE 2 DESCRIÇÃO E RESUMO DOS DADOS 41 INTRODUÇÃO À UNIDADE 42 2 DESCRIÇÃO E RESUMO DOS DADOS 43 21 MEDIDAS DE TENDÊNCIA CENTRAL 43 211 Média Aritmética Simples 43 212 Média Aritmética Ponderada 45 213 Ponto Médio 46 214 Moda 47 22 MEDIDAS DE POSIÇÃO 48 221 Mediana 48 222 Quartis 50 23 MEDIDAS DE DISPERSÃO 52 231 Amplitude 53 232 Variância 53 233 Desvio Padrão 55 234 Coeficiente de Variação 57 235 Números Índices 58 241 Regressão Linear Simples 62 242 Correlação Linear Simples 66 25 FÓRUM 69 CONSIDERAÇÕES FINAIS DA UNIDADE 71 EXERCÍCIO FINAL 71 REFÊRENCIAS 73 UNIDADE 3 INTRODUÇÃO À ESTATÍSTICA INFERENCIAL75 INTRODUÇÃO À UNIDADE 76 3 INTRODUÇÃO À ESTATÍSTICA INFERENCIAL 77 31 NOÇÕES DE PROBABILIDADE 77 311 Probabilidade de um Evento 77 312 Contando os Resultados Possíveis 78 313 Multiplicando e Adicionando Probabilidades 81 32 MODELOS PROBABILÍSTICOS 82 321 Modelos para Variáveis Aleatórias Discretas 82 322 Modelo para Variáveis Aleatórias Contínuas 83 33 ESCORE PADRÃO 85 34 ESTIMAÇÃO E DECISÃO ESTATÍSTICAS 89 341 Noções de Testes de Hipótese 89 342 Erros do Tipo I e II 91 35 FÓRUM 92 EXERCÍCIO FINAL 95 REFÊRENCIAS 96 UNIDADE 4 APLICAÇÃO DE TESTES ESTATÍSTICOS 99 INTRODUÇÃO À UNIDADE 100 4 APLICAÇÃO DE TESTES ESTATÍSTICOS 101 41 TESTES ESTATÍSTICOS PARAMÉTRICOS 102 411 Teste Z para médias 103 412 Teste t de Student para médias 105 413 Teste t para Comparar Duas Amostras Pareadas 108 414 Análise de Variância para Comparar Três Amostras ou Mais 112 42 TESTES ESTATÍSTICOS NÃO PARAMÉTRICOS 117 421 Teste U para Comparar Duas Amostras 118 422 Teste H para Comparar Três Amostras ou Mais 121 43 FÓRUM 124 CONSIDERAÇÕES FINAIS 126 EXERCÍCIOS FINAIS 127 REFÊRENCIAS 129 1 unidade EXPLORAÇÃO E APRESENTAÇÃO DE DADOS 12 ESTATÍSTICA INTRODUÇÃO À UNIDADE O termo estatística tem origem latina e deriva da palavra estado Essa associação se deve à importância histórica da coleta de dados para os governos em ações referentes a censos demográficos recrutamentos militares e coleta de impostos Em 1749 o professor alemão Gottfried Achenwall 1719 1772 utilizou pela primeira vez a palavra Statistik ZAR 2010 Agora que sabemos a origem precisamos entender o que significa realmente a palavra estatística É muito comum encontrarmos o termo como sinônimo de dados Por exemplo ouvimos um narrador de futebol comentar sobre as estatísticas do jogo referindose ao número de faltas porcentagem de posse de bola etc o Ministério do Trabalho divulgar as estatísticas da mãodeobra tais como taxas de desemprego ou remuneração média do trabalhador as Secretarias de Educação publicarem estatísticas do ensino médio referindose à criação de novas vagas à relação entre o número de professores e alunos às taxas de evasão etc Ainda que seja possível encontrar essa definição em alguns dicionários neste curso utilizaremos o sentido científico de Estatística que pode ser compreendido como a coleta ordenada análise e interpretação de dados com o objetivo de apresentar e avaliar as conclusões baseadas nesses dados TOLEDO OVALLE 2009 Além disso há outro significado menos amplo que aparecerá neste material referese à estimativa de um parâmetro populacional a partir de uma amostra veremos mais detalhadamente na Unidade 1 nesse caso a palavra deve ser escrita com a letra inicial minúscula Compreender Estatística é essencial para entender resultados de pesquisa nas ciências exatas sociais comportamentais e da saúde Esta disciplina traz a oportunidade de aprendermos o básico dessa ciência permitindo calcular parâmetros bem como avaliá los Nesta primeira unidade discutiremos os conceitos básicos de Estatística incluindo a apresentação de dados em gráficos e tabelas a importância da definição correta de população e amostra além das técnicas de amostragem adequadas para uma pesquisa científica Sendo assim os objetivos da Unidade 1 são Conhecer os principais conceitos e divisões da Estatística Identificar as técnicas de amostragem probabilística Coletar e apresentar dados em gráficos e tabelas Descrever a distribuição de grandes conjuntos de dados 13 ESTATÍSTICA 1 EXPLORAÇÃO E APRESENTAÇÃO DE DADOS Nesta primeira unidade serão apresentados os conceitos básicos de Estatística tais como as definições de variáveis amostra população e divisões da ciência além da discussão sobre as formas de coleta ou amostragem e apresentação de dados em tabelas e gráficos Os cálculos mais frequentes que caracterizam nossa disciplina serão raros neste primeiro momento mas a base teórica para a Estatística descritiva permeia toda a unidade Já que tocamos no assunto vamos entender melhor se divide a ciência que dá nome à nossa disciplina 11 DIVISÕES DA ESTATÍSTICA A Estatística descritiva é responsável por descrever as variáveis ou os dados de diversas formas de acordo com o objetivo do trabalho científico ou das intenções do pesquisador TOLEDO OVALLE 2009 Essa descrição pode ser feita através de números que resumem conjuntos de dados tais como a média e o desvio padrão veremos na próxima unidade como calculálos ou elementos visuais e ordenadores tais como gráficos e tabelas Já a Estatística inferencial representa a parte da disciplina que estuda os testes estatísticos Esses testes possibilitam que os pesquisadores calculem estatísticas adequadas para suas amostras e façam inferências ou generalizem conclusões para a população a partir da qual as amostras foram obtidas O principal objetivo da análise estatística é inferir ou tirar conclusões sobre uma população através do exame de uma amostra uma vez que é quase sempre impossível avaliar toda a população BARBETTA 2007 12 CONCEITOS BÁSICOS Como acabamos de estudar o objetivo principal da análise estatística consiste em inferir ou deduzir características de um grupo de variáveis através da generalização da análise de uma amostra desse grupo Essa generalização pressupõe o conhecimento de importantes conceitos tais como parâmetros estatísticas variáveis outliers1 população e amostra 1 Variável cujo valor se encontra muito distante dos demais dados da série BARBETTA 2007 14 ESTATÍSTICA 121 Amostra versus População e Parâmetros versus Estatísticas Alguns desses termos como população e amostra têm seus significados bem compreendidos nos seus sentidos cotidianos Mas será que a compreensão adequada de população e amostra é suficiente para utilizarmos esses conceitos em Estatística População conjunto completo das variáveis de interesse Amostra uma parte idealmente representativa da população Em Estatística o termo população tem um significado ligeiramente diferente do que se emprega no cotidiano Profissionais de diversas áreas podem ser referir a populações como sendo um grupo de seres humanos ou outras espécies de animais Contudo para os estatísticos população significa um grupo completo de variáveis sobre as quais se deseja tirar conclusões ou descrever suas distribuições DEWITT TRIOLA 2008 EXEMPLO Se uma pesquisadora pretende definir a altura média dos calouros do curso de Direito da Uniavan a população será composta pelos valores que representam as alturas de todos os calouros do referido curso Vale ressaltar que é de extrema importância delimitar a população de acordo com o objetivo da pesquisa a fim de evitar extrapolações que introduzam vieses2 nos resultados das análises Imagine se por conveniência a mesma pesquisadora coletasse as alturas de todos os alunos que estivessem na terceira aula de Língua Portuguesa do primeiro período sem se preocupar em identificar os alunos que são repetentes e portanto não são calouros ou os calouros que faltaram naquele dia Se isso ocorresse o objetivo passaria a ser a definição da altura média dos alunos daquela aula específica Na realidade da pesquisa científica quase nunca é possível obter dados da população inteira por diversos motivos como recursos financeiros e humanos limitados tempo 2 Viés pl vieses tendenciosidade ou erro sistemático FERREIRA 2010 15 ESTATÍSTICA reduzido e dinâmica populacional morte nascimento ausências temporárias mudança de categorias entre outros motivos Por isso é muito comum utilizarmos amostras para inferir informações sobre a população Amostras são partes da população que de preferência a represente bem A qualidade da amostra depende do seu tamanho em relação à população quanto maior a amostra menor será o erro amostral e da aleatoriedade da coleta das variáveis é ideal que cada membro da população tenha a mesma probabilidade de ser escolhido para ser medido BARBETTA 2007 Você certamente já participou de uma coleta de dados em que toda a população foi medida aqui mesmo na nossa instituição de ensino todos os alunos têm que preencher um formulário com sua data de nascimento nesse caso fezse um censo quando toda a população é medida Lembra quando dissemos que quanto maior a amostra menor será o erro amostral Pois é no censo o erro amostral é igual a zero pois tratase da maior amostra possível essa amostra é a própria população Quanto maior a amostra menor será o erro amostral Importante ressaltar que quando se medem os dados de uma população inteira todos os membros que interessam para a pesquisa temos um parâmetro TOLEDO OVALLE 2009 por exemplo se medirmos a quantidade de calorias ingeridas por cada um dos pacientes de um determinado hospital e dividirmos pelo número total de pacientes teremos um parâmetro populacional a ingestão média de calorias daquele hospital Já quando se medem variáveis de uma amostra parte da população temos uma estatística SMAILES McGRANE 2002 retomando o exemplo se escolhermos alguns pacientes para realizar a medição e dividirmos o total de calorias medido pelo número de pessoas escolhidas teremos uma estatística 122 Tipos de Variáveis e Outliers As características que podem se diferenciar entre um objeto de estudo e outro tais como tamanho cor composição etc são os principais dados utilizados em Estatística Esses dados também chamados de variáveis podem ser divididos de diversas formas dependendo do objetivo e tipo de Estatística a ser utilizada Em nosso curso utilizaremos uma classificação bastante simples mas que é suficiente para alcançarmos os objetivos 16 ESTATÍSTICA propostos As variáveis qualitativas são representadas pelos dados que se encontram em categorias ou atributos DEWITT TRIOLA 2008 Podemos citar como exemplos a manifestação da cor dos olhos em humanos time de futebol para o qual você torce cidade de nascimento entre outras As variáveis qualitativas ainda podem ser divididas em nominais e ordinais Os dados qualitativos nominais referemse a atributos que não guardam entre si hierarquia tais como homem e mulher preto ou branco tipo sanguíneo A B AB ou O etc Já as variáveis qualitativas ordinais são atributos que têm relação de hierarquia entre si tais como ensino fundamental médio e superior ou o terceiro colocado em uma corrida EXEMPLO Variáveis qualitativas ou categóricas nominais eg fator Rh positivo ou negativo ordinais eg primeira ou segunda semana do mês Agora vamos falar da principal matériaprima da nossa disciplina as variáveis quantitativas Elas são mais comuns em Estatística possibilitam resultados mais robustos são representadas por valores numéricos e também podem ser divididas em dois tipos variáveis discretas e contínuas BARBETTA 2007 As variáveis quantitativas discretas representam quase sempre valores inteiros tais como o número de filhos de um casal o número de clientes de um contador etc Já as variáveis quantitativas contínuas representam apenas aproximações dentro de um intervalo observado como por exemplo o peso inicial de um indivíduo submetido a uma dieta restritiva de calorias Para ficar mais claro suponha que o referido indivíduo tenha medido seu peso antes do tratamento em uma balança que informa apenas o número de quilogramas sem decimais e o valor foi 87 kg Em seguida ele utilizou uma balança que registra além dos quilogramas também seus decimais nesse caso seu peso foi igual a 868 kg O mesmo 17 ESTATÍSTICA indivíduo poderia ter seu peso medido em balanças cada vez mais precisas apresentando pesos iguais 8683 kg 86825 kg e assim por diante Perceba que as medições menos precisas são apenas arredondamentos que permitem definirmos um intervalo de valores contínuos por isso esse tipo de variável se chama quantitativa contínua EXEMPLO Variáveis quantitativas discretas eg número de carros em uma cidade contínuas eg altura dos alunos de uma sala A Figura 1 a seguir apresenta os quatro tipos de variáveis que discutimos até agora Figura 1 Representação de um cartaz com destaque para os diversos tipos de dados Fonte O autor 2019 18 ESTATÍSTICA CHAT Você consegue identificar mais variáveis que não estão destacadas na figura Há diversas outras tente encontrálas classifiqueas e compartilhe com os colegas de disciplina Eles encontraram alguma que você não havia visto Outra consideração importante a fazer em relação às variáveis quantitativas coletadas de populações é que ocasionalmente conjuntos de dados apresentam valores que são muito discrepantes em relação ao restante da amostra são os outliers PARA REFLETIR Suponha que você esteja tentando determinar o tamanho médio dos recém nascidos em uma maternidade e para isso sorteou 5 bebês para serem medidos suas alturas em centímetros foram 41 42 45 47 e 71 Perceba que o último membro da amostra apresenta um tamanho muito diferente do restante sendo considerado um outlier Sempre que um pesquisador se deparar com essa situação a primeira providência é checar o registro pois pode ter havido um erro de medição ou de marcação Nessa pesquisa específica você poderia verificar se o tamanho correto não seria 41 cm mas por erro de digitação foi computado 71 Se este não for o caso você poderia verificar ainda se o indivíduo realmente é um recémnascido ou é mais velho Após todas as verificações você pode concluir que realmente se trata de um valor correto e que dados muito diferentes da média podem ocorrer realmente houve um recémnascido norteamericano com essa estatura há alguns anos atrás Tenha em mente que um outlier é simplesmente um valor muito discrepante em um conjunto de variáveis Nesse caso cabe ao pesquisador a decisão de acomodar a variável discrepante através de procedimentos estatísticos veremos uma forma de fazer isso na unidade seguinte repetir o experimento com um novo conjunto de dados ou até mesmo excluir justificadamente a medição DEWITT TRIOLA 2008 19 ESTATÍSTICA 123 Acurácia Precisão e Regras de Arredondamento É claro que o objetivo de todo o pesquisador ao coletar e analisar dados é obter os valores mais próximos do valor real da população a partir da qual esses dados foram coletados Isso representa a acurácia das medições muitas vezes confundida com outra característica da amostragem a precisão Para ficar mais claro note que acurácia representa a proximidade das medições coletadas em relação ao valor real da variável medida enquanto precisão referese à proximidade dos valores de cada medição repetida em relação a mesma variável SMAILES McGRANE 2002 A Figura 2 a seguir ilustra a diferença entre acurácia e precisão com um exemplo cotidiano Figura 2 Imagens de dardos em alvos formando diferentes padrões Fonte O autor 2019 imagens auxiliares livres de direito autoral Note que na Figura 2A os dardos estão próximos entre si mas longe do alvo representando uma boa precisão mas com acurácia ruim Em uma coleta de dados real esse fato provavelmente indicaria um erro sistemático tal como uma balança viciada que sempre marca 500 gramas a mais Nesse caso um pesquisador poderia pesar várias vezes um mesmo indivíduo com medições muito próximas entre si mas longe do valor verdadeiro É importante que estejamos atentos a erros sistemáticos para evitar uma falsa sensação de ter em mãos dados confiáveis A Figura 2C ilustra uma situação comum em que as medições feitas pelo pesquisador ficam próximas dos valores reais mas são relativamente discrepantes entre si o que pode indicar variáveis difíceis de medir ou coletar por exemplo 20 ESTATÍSTICA Já a Figura 2B representa a situação ideal buscada pelo pesquisador na qual os dados coletados estão próximos entre si e ao mesmo tempo do valor verdadeiro enquanto a Figura 2D representa medições discrepantes entre si e ao mesmo tempo diferentes do valor real Se você enquanto pesquisador responsável por coletar os dados perceber esse padrão deve repensar a técnica utilizada para escolher sua amostra Como já vimos todo pesquisador deve almejar grande acurácia e precisão Contudo erros acontecem devemos estar preparados para representálos Para isso é importante compreender a representação da margem de erro em variáveis quantitativas contínuas você lembra das características PARA REFLETIR Mas antes vamos relembrar da regra mais simples de arredondamento a qual nos indica que os números menores que 5 cinco devem ser rebaixados enquanto números iguais ou maiores que 5 cinco devem ser aumentados quando formos reduzir as casas decimais Retomando o exemplo do indivíduo submetido à dieta restritiva de calorias que vimos no item anterior perceba que seu peso na balança mais precisa igual a 86825 kg foi arredondado para 8683 kg que por sua vez foi arredondado para 868 kg e por fim arredondado para 87 kg na balança menos precisa Nesse caso o peso indicado nesta última balança representa um intervalo entre uma continuidade de valores entre 865 kg e 874 kg pois ambos representam extremos de valores que seriam arredondados para 87 kg Note que mesmo na balança mais precisa 86825 kg representa apenas um intervalo entre 868245 kg e 868254 kg Agora que você está familiarizado com as regras de arredondamento podemos introduzir mais adequadamente o conceito de acurácia representada pela indicação numérica da medição Suponha que você seja um médico que tenha percebido uma lesão no pescoço de um paciente e a mediu obtendo o resultado igual a 3 cm A apresentação dessa informação indicará que a referida lesão tem entre 25 cm e 34 cm pois ambos os valores representam os valores extremos que devem ser arredondados para 3 cm caso ocorram Caso você apresente a mesma informação com uma casa decimal a mais ou seja 30 cm qualquer observador treinado em Estatística saberá que se trata de uma lesão 21 ESTATÍSTICA cujo tamanho tem entre 295 cm e 304 cm Se ainda há dúvidas podemos continuar aprofundando o mesmo exemplo A representação da lesão como tendo 300 cm indica que seu verdadeiro valor está em uma continuidade de valores entre 2995 cm e 3004 cm já 3000 cm representa o intervalo entre 29995 e 30004 e assim por diante EXERCÍCIO Acho que você já está apto para responder qual das medições da lesão descritas acima apresenta mais acurácia E como você poderia referir a precisão do mesmo caso SAIBA MAIS Conheça o Blog que complementa este material por meio do link http avantisestatisticablogspotcom Lá você encontrará tabelas estatísticas exercícios e dicas 13 TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICA Você certamente já conhece bem a diferença em amostra e população pois acabou de estudar o item 12 e quem sabe procurou em nossa bibliografia Nesse mesmo item chegamos à conclusão óbvia à segunda vista de que quanto maior a amostra menor será o erro inerente a qualquer estatística Contudo é hora de ressaltar que o esforço necessário para compor uma amostra não pode ser realizado sem critério senão vejamos EXEMPLO Imagine que um pesquisador esteja tentado comprovar que os alunos do curso de História têm um IMC índice de massa corporal maior que os alunos de Nutrição 22 ESTATÍSTICA pois estes supostamente têm melhor conhecimento em dietética ou qualquer outra hipótese Para isso ele decide medir o peso e a altura necessários para calcular o IMC de 10 dos alunos de cada curso pois seria inviável medir todos No momento da medição dos alunos de História ele escolhe os maiores enquanto no curso de Nutrição ele escolhe os menores alunos para garantir a confirmação da sua hipótese É claro que isso não seria justo tampouco teria relevância científica Para evitar distorções desse tipo que nem sempre são assim tão evidentes às vezes ocorre sem intenção há técnicas de amostragem probabilística que servem para garantir a aleatoriedade da amostra permitindo que esta seja mais representativa da população 131 Amostragem Aleatória Simples É a técnica de amostragem mais utilizada além de ser suficientemente simples e precisa para populações cujos elementos constituintes seus objetos de estudo tenham probabilidades conhecidas Para utilizála o pesquisador pode fazer um sorteio entre todas as variáveis que compõem a população em uma urna por exemplo ou utilizar números aleatórios TOLEDO OVALLE 2009 obtidos em livros específicos ou gerados em programas de computador como o Excel da Microsoft Essa técnica de amostragem sem dúvida permite que todos os membros da população tenham a mesma chance de serem escolhidos mas tem suas limitações Apesar de ser a amostragem ideal muitas vezes tornase muito difícil de executála ou mesmo inviável imagine que você pretenda identificar a porcentagem de pessoas com depressão na cidade e para isso queira utilizar a amostragem aleatória simples Para início de conversa você teria que ter o nome de todas as pessoas da cidade para realizar o sorteio em uma grande urna por exemplo difícil né 132 Amostragem Sistemática A amostragem sistemática exige que os membros de uma população devam estar ordenados e sem que o pesquisador saiba previamente a ordem ele deve escolher o nésimo membro dessa população sendo n um número escolhido de acordo com o tamanho da 23 ESTATÍSTICA população e do esforço amostral que se está disposto a realizar DEWITT TRIOLA 2008 Suponha que você queira conhecer o número de pessoas deprimidas em uma sala de aula sem perguntar para todo mundo para isso sem saber aonde estão localizados os alunos da sala você determina um número 5 por exemplo e pergunta ao quinto aluno da fila depois ao 10º depois ao 15º ao 20º e assim por diante a cada cinco estudantes Novamente perceba que no caso de populações grandes essa técnica se torna bastante difícil Note também que o número escolhido para a escolha de cada elemento da amostra tem relação com o tamanho da amostra que o pesquisador deseja obter No caso utilizado como exemplo o número 5 indica que o pesquisador está disposto a realizar um esforço amostral que utilize 20 de toda a população PARA REFLETIR E se ele estivesse disposto a amostrar apenas 10 da população que número deveria escolher Para descobrir este e qualquer outro valor apenas divida o número 100 pela porcentagem que deseja obter Por exemplo 100 dividido por 20 a porcentagem no primeiro caso desta técnica de amostragem é igual a 5 já 100 dividido por 10 a porcentagem da segunda sugestão é igual a 10 133 Amostragem Estratificada Em muitos casos o tamanho muito elevado da população que compõe seu objeto de estudo eou sua distribuição peculiar inviabilizam outras técnicas de amostragem que não separem os elementos da população em partes de acordo com os objetivos da pesquisa No caso da amostragem estratificada a população é dividida em subpopulações relevantes para o estudo e uma porcentagem dessa subpopulação é medida DEWITT TRIOLA 2008 Voltando ao exemplo da determinação da porcentagem de depressão você poderia decidir dividir a cidade em bairros e entrevistar uma porcentagem de cada bairro 1 digamos Dessa forma cada bairro estaria representado de acordo com sua população 24 ESTATÍSTICA PARA REFLETIR Importante ressaltar que não devemos amostrar um número fixo quando as subpopulações têm tamanhos diferentes somos obrigados a medir uma proporção ou porcentagem para evitar vieses Quando um pesquisador divide sua população em subpopulações com tamanhos diferentes e amostra uma quantidade fixa está realizando uma amostragem por cotas que não é probabilística pois não permite que cada elemento da população tenha a mesma probabilidade de ser escolhido Imagine a seguinte situação em seu local de trabalho há 10 mulheres e 2 homens e um pesquisador decide realizar uma amostra para conhecer a avaliação do produto através de uma entrevista com 2 pessoas de cada gênero nesse caso os homens estariam muito mais representados já que 100 deles foram entrevistados do que as mulheres haja vista que apenas 20 delas foram entrevistadas 134 Amostragem por Conglomerado Assim como na amostragem estratificada a população também é dividida em subpopulações relevantes na amostragem por conglomerado Mas desta vez o pesquisador sorteia uma subpopulação e entrevista ou mede todos os seus membros Dependendo do objetivo do estudo esse tipo de amostragem pode introduzir muito viés e por isso deve ser utilizada com cautela Imagine que você queira determinar o gasto médio com cosméticos dos seus clientes e para isso divideos em homens e mulheres ao sortear um grupo para ser medido você estará privilegiando clientes que têm uma média de consumo de cosméticos muito diferente do outro grupo DEWITT TRIOLA 2008 Contudo algumas vezes esse tipo de amostragem pode se revelar eficiente EXEMPLO Suponha que você trabalhe na Secretaria de Educação de Santa Catarina e decida determinar a qualidade do ensino através de visitas às escolas da 25 ESTATÍSTICA rede estadual isso realmente ocorre na vida real Para isso sortear algumas entre todas as escolas do estado aleatória simples escolher algumas em determinada ordem sistemática ou escolher uma porcentagem de cada cidade ou região estratificada tornaria o trabalho praticamente inviável pois representantes teriam que se descolar para várias cidades Nesse caso a amostragem por conglomerado se mostra mais eficaz você poderia dividir em grupos cidades por exemplo e sortear duas ou três a cada ano para que os representantes visitassem todas as unidades daquelas cidades sorteadas SUGESTÃO DE LIVRO MLODINOW L O andar do bêbado como o acaso determina nossas vidas Rio de Janeiro Zahar 2011 Você percebeu através das técnicas de amostragem discutidas a importância da aleatoriedade na coleta de dados que um pesquisador precisa respeitar para evitar vieses nas suas conclusões O escritor de livros de divulgação científica Leonard Mlodinow explorou com muito humor o papel da aleatoriedade em nosso dia a dia no livro O andar do bêbado como o acaso determina nossas vidas Você irá se divertir enquanto revê nossas discussões 14 APRESENTAÇÃO DE DADOS EM GRÁFICOS E TABELAS Uma das principais preocupações do pesquisador é apresentar adequadamente seus dados É possível fazer isso de diversas maneiras como por exemplo por meio de uma tabela de gráficos ou um histograma Nesta seção veremos algumas das formas mais comuns de apresentação dos nossos dados Inicialmente vamos considerar apenas dados qualitativos categóricos Para isso podemos supor desta vez que um bibliotecário queira apresentar à reitoria da 26 ESTATÍSTICA universidade os livros comprados no último ano A tabela seguinte poderia ser o resultado Tabela 1 Quantidade e porcentagem de livros comprados por área de conhecimento livros interdisciplinares jurídicas exatas humanas sociais quantidade 280 16 56 32 16 porcentagem 70 4 14 8 4 Área Fonte O autor dados fictícios 2019 Podemos notar facilmente que 280 livros são interdisciplinares 16 são das ciências jurídicas 56 das ciências exatas 32 de humanas e 16 das ciências sociais além das suas respectivas porcentagens Mas e se você quisesse apresentar esses mesmos dados por meio de um gráfico Vamos visualizar duas maneiras possíveis nos Gráficos 1 e 2 e discutir suas particularidades interdisciplinares jurídicas exatas humanas sociais Gráfico 1 Gráfico de pizza dos livros por área de conhecimento Fonte O autor dados fictícios 2019 Este é um gráfico de pizza no qual as categorias da variável que você que apresentar são exibidas por meio de fatias de um círculo cujas superfícies representam porcentagens de observações em cada categoria BARBETTA 2007 Podese identificar de relance que quase três quartos de todos os livros são interdisciplinares enquanto há pouca porcentagem de livros jurídicos e de ciências sociais 27 ESTATÍSTICA Outra maneira de resumir o mesmo conjunto de dados é através de gráfico de barras que também mostra claramente como os dados são distribuídos pelas várias categorias da variável conforme ilustrado no Gráfico 2 0 50 100 150 200 250 300 interdisciplinares jurídicas exatas humanas sociais Gráfico 2 Gráfico de colunas dos livros por área de conhecimento Fonte O autor dados fictícios 2019 A altura das barras representa as observações em cada categoria Ambos os tipos de gráficos têm vantagens e desvantagens Uma vantagem do gráfico de pizza é que você pode ver imediatamente que quase 75 dos livros pertence a uma categoria enquanto você não pode discernir essa informação facilmente a partir do gráfico de barras sem fazer alguns cálculos de porcentagem Por outro lado o número exato de livros de cada área não é facilmente visualizado a partir de um gráfico de pizza enquanto em um gráfico de barras podese ver facilmente que um pouco mais de 50 livros são de ciências exatas PARA REFLETIR Um gráfico de barras tem vantagens sobre um gráfico de pizza se o número de categorias de uma variável aumentar Imagine por exemplo que você não quer saber de que área os livros são mas sim a letra inicial do sobrenome do autor o que é muito útil na hora de organizar a prateleira Nesse caso devemos ter mais de 20 categorias Imagine como ficaria um gráfico de pizza sem dúvida um gráfico de barras seria mais adequado 28 ESTATÍSTICA EXERCÍCIO Escolha um conjunto de dados que tenha pelo menos 20 observações número de dados ou simplesmente n igual ou maior que 20 e que represente uma medida qualquer inflação desemprego gols mortes taxas etc que varie em função do tempo Vou deixar aqui um exemplo no Quadro 1 mas você pode utilizar outro de seu interesse Outros conjuntos de dados podem ser encontrados nos sites do Instituto Brasileiros de Geografia e Estatística IBGE Instituto de Pesquisas Econômicas Aplicadas IPEA Sistema Único de Saúde SUS Organização das Nações Unidas ONU Banco Central do Brasil BACEN entre vários outros repositórios de informação só atente para o fato de que os dados devem variar em função do tempo ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa 1996 51 2006 45 2001 59 2011 36 1996 206 2006 191 2001 177 2011 218 1997 51 2007 42 2002 53 2012 36 1997 203 2007 194 2002 188 2012 236 1998 51 2008 41 2003 52 2013 35 1998 176 2008 197 2003 187 2013 240 1999 53 2009 40 2004 46 2014 35 1999 180 2009 191 2004 189 2014 241 2000 57 2010 40 2005 44 2015 30 2000 171 2010 209 2005 191 2015 245 Suécia Brasil Quadro 1 Taxas de morte no trânsito para cada grupo de 100 mil habitantes na Suécia e no Brasil 1996 a 2015 Fonte ONU 2016 Os dados disponíveis nesse Quadro 1 podem ser melhor apresentados para que sua informação seja mais facilmente reconhecida Por isso temos um desafio seja criativo Pesquise proponha e execute uma forma mais adequada de apresentar esse tipo de variável e nos mostre como ficou PARA REFLETIR E se as taxas de morte no trânsito fossem apresentadas mensalmente Esse número de dados seria multiplicado por 12 ou seja teríamos 240 taxas para cada país Nesse caso que tipo de apresentação permitiria ao pesquisador transpor a ideia da melhor forma possível Dica dê uma olhada no próximo item Note que até agora trabalhamos apenas em gráficos que apresentaram variáveis 29 ESTATÍSTICA categóricas lembra do que aprendemos no item 12 Vejamos agora então como podemos resumir dados se estivermos lidando com variáveis quantitativas A não ser que se trate de uma série temporal cuja melhor forma de representála será através de um gráfico de linhas DEWITT TRIOLA 2008 geralmente é mais adequado apresentar variáveis quantitativas em um gráfico de dispersão de pontos Vejamos como funciona o mesmo bibliotecário quer apresentar alguns livros comprados no último ano considerando a quantidade de páginas e o peso tecnicamente tratase da massa mas é referido como peso para facilitar a transmissão da mensagem de cada obra A matriz de dados ou a tabela ficaria assim conforme ilustra a Tabela 2 Tabela 2 Quantidade de páginas e peso de 6 livros comprados no último ano Peso g nº de páginas 980 235 430 100 900 255 700 130 1050 299 280 60 Fonte O autor dados fictícios 2019 Para ser representado em um gráfico de dispersão devemos colocar em cada eixo já rotulado com intervalos regulares os valores correspondentes às variáveis medidas neste caso o peso em gramas e o número de páginas para estabelecermos os pontos de interseção O Gráfico 3 ficaria assim e pode ser visualizado a seguir 0 50 100 150 200 250 300 350 0 200 400 600 800 1000 1200 nº de páginas Peso em gramas Gráfico 3 Peso dos livros em função do número de páginas Fonte O autor dados fictícios 2019 30 ESTATÍSTICA Podemos perceber facilmente que o peso de um livro tende a aumentar conforme aumenta o número de páginas Para representar informações que relacionam duas variáveis o gráfico de dispersão de pontos é o mais adequado SAIBA MAIS Por que você não tenta fazer um gráfico de cada tipo Se você usa a planilha da Microsoft Excel veja essas dicas MICROSOFT 2018 httpssupportoffice comptbrarticlecriarumgrC3A1ficodoinC3ADcioaofim0baf399edd614e18 8a73b3fd5d5680c2 Outras planilhas também permitem a criação de gráficos e têm tutoriais específicos Na plataforma virtual da disciplina você pode se aprofundar na apresentação de dados clínicos e epidemiológicos BASTOS DUQUIA 2006 acessando o artigo Tipos de dados e formas de apresentação clínicoepidemiológica 141 Apresentação de Grandes Conjuntos de Dados A distribuição de frequências é uma forma bastante prática e útil de descrever os dados principalmente quando o n é muito grande Essa forma de descrever os dados pode ser utilizada para variáveis qualitativas como podemos observar na seguinte Tabela 3 de distribuição de frequências Tabela 3 Tipos sanguíneos de 200 indivíduos Tipo sanguíneo classes Frequência observada nº de dados por classe Frequência relativa total nº cada classe A 10 005 ou 5 B 20 01 ou 10 AB 40 02 ou 20 O 130 065 ou 65 Total 200 1 ou 100 Fonte O autor 2019 Contudo nessa disciplina de Estatística estamos mais interessados nas distribuições de frequências de dados quantitativos Porém dividir as classes em conjuntos com 31 ESTATÍSTICA variáveis quantitativas exige alguns passos adicionais Primeiramente devemos definir o número de classes Há várias sugestões e você quando for construir uma tabela de distribuição de frequências para descrever seus dados em uma pesquisa real pode escolher a que melhor lhe convier desde seja justificada a escolha O cálculo mais difundido para determinar o número de classes é a Fórmula de Sturges onde k é o número de classes e n o tamanho da amostra Já a sugestão mais simples é simplesmente Em nossos exemplos e avaliações utilizaremos esta última fórmula que apresenta uma ótima aproximação da fórmula de Sturges exceto quando as amostras forem muito grandes ou muito pequenas BARBETTA 2007 Agora que definimos o cálculo do número de classes precisamos determinar o intervalo de cada classe muitas vezes indicado pela letra h Para isso não há dúvidas apenas divida a amplitude que por sua vez representa a diferença entre o maior e o menor número do conjunto de dados pelo número de classes previamente calculado ou seja Realizados esses passos basta montarmos nossa tabela de distribuição de frequência para variáveis quantitativas EXEMPLO Suponha que um enfermeiro tenha coletado dados sobre o número de pacientes com escaras lesões por pressão comum em quem fica muito tempo deitado em determinado hospital nos últimos 9 anos e obtido os seguintes resultados 3 5 8 8 9 10 10 14 e 15 Como já vimos o número de classes será igual a 3 sendo n 9 o intervalo de cada classe será igual 4 A primeira classe se inicia pelo menor número do conjunto de dados 3 nesse caso e tem uma amplitude de classe igual a 4 conforme h calculado Portanto a primeira classe vai de 3 limite inferior até 7 que é o resultado de 3 4 e que é seu limite superior A segunda classe se inicia com o limite superior da primeira classe 7 e termina em 11 7 4 Por fim a última classe se inicia com o limite superior da segunda classe 11 indo até 15 11 4 Relembrando o conjunto das variáveis é 3 5 8 8 9 10 10 14 e 15 Assim o profissional já tem os parâmetros necessários para preencher a tabela de distribuição de frequências que ficaria assim os números estão representados em diferentes cores para facilitar a 32 ESTATÍSTICA identificação na Tabela 4 a seguir Tabela 4 Frequência de escaras nos últimos 9 anos Classes k Limite inf Limite sup intervalo de classe h Frequência observada Fi C1 2 C2 5 C3 2 Fonte O autor 2019 Vamos relembrar as notações do intervalo de classe que aprendemos no ensino médio Os colchetes fechados indicam que o intervalo começa ou termina no número grafado dentro dele enquanto o colchete aberto indica o limite excluindo o próprio número grafado Sendo assim no exemplo acima o intervalo indica que se houver um número 3 no conjunto de dados ele deve ser computado nesta classe colchete fechado mas se houver um número 7 não colchete aberto Outra consideração importante referese às informações adicionais em uma tabela de distribuição de frequência Muitas vezes você irá se deparar com a frequência relativa assim como no exemplo das variáveis qualitativas acima referente aos tipos sanguíneos que nada mais é do que a porcentagem das observações em cada classe e a frequência acumulada que como o próprio nome diz é a soma das observações da classe com as observações das classes anteriores DEWITT TRIOLA 2008 142 Gráficos de Distribuição de Frequências Lembrese que as distribuições de frequência são úteis principalmente quando coletamos e descrevemos grandes quantidades de dados apesar de que para fins didáticos utilizamos conjuntos pequenos em nossos exemplos A partir das tabelas de distribuição de frequência que acabamos de aprender a montar podemos apresentar os dados através de gráficos adequados a esse tipo de informação O principal tipo de gráfico de distribuição de frequência é o histograma que nada mais é do que um gráfico de colunas onde no eixo x horizontal estão indicadas as classes e no eixo y vertical estão indicadas as frequências observadas BARBETTA 33 ESTATÍSTICA 2007 representado no Gráfico 4 Gráfico 4 Histograma do nº de escaras Fonte O autor 2018 O outro tipo de gráfico é o polígono de frequências que é um gráfico de linhas de uma tabela de frequências que se inicia e termina no zero do eixo y passando necessariamente pelos pontos representados pelas frequências observadas BARBETTA 2007 Um polígono de frequências seria plotado assim GRÁFICO 5 Gráfico 5 Polígono de frequências do nº de escaras Fonte O autor 2018 34 ESTATÍSTICA Importante ressaltar que as sugestões sobre a determinação do número de classes para a construção da tabela de distribuição de frequências não geram obrigação para o pesquisador que pode justificadamente adotar outros critérios Vejamos um outro exemplo que o ajudará a fixar as características a lógica e as representações da distribuição de frequência EXEMPLO Voltando ao exemplo dos livros comprados pela biblioteca de uma universidade você pode imaginar que se usássemos todos os livros comprados no ano anterior para representar seus pesos um gráfico de dispersão de pontos ficaria muito confuso Como vimos para representar grandes amostras um gráfico de distribuição de frequência que pode ser um histograma colunas ou polígono de frequências linhas é uma boa solução Primeiramente vamos construir uma tabela de distribuição de frequências TABELA 5 Tabela 5 Quantidade de livros de acordo com intervalo de peso Classe Intervalo de classe Nº de livros 1 1 a 200 g 7 2 201 a 400 g 35 3 401 a 600 g 89 4 601 a 800 g 46 5 801 a 1000 g 11 Fonte O autor dados fictícios 2019 Dessa vez dividimos todos os livros comprados 188 nesse exemplo equivalente à soma da 3ª coluna em classes representadas por intervalos de peso em gramas sem nos preocuparmos com o número total dos livros Apesar de não haver obrigação na determinação do número de classes os intervalos devem ter tamanhos iguais Nesse caso dividimos as classes em intervalos de 200 gramas cada Observando a Tabela 5 podemos afirmar que há 35 livros que pesam entre 201 e 400 gramas ou 7 livros com até 200 gramas e assim por diante Um histograma dessa distribuição de frequência ficaria assim GRÁFICO 6 35 ESTATÍSTICA 0 10 20 30 40 50 60 70 80 90 100 1 a 200 g 201 a 400 g 401 a 600 g 601 a 800 g 801 a 1000 g nº de livros Gráfico 6 Histograma da quantidade de livros de acordo com intervalo de peso Fonte O autor dados fictícios 2019 Note que é possível identificar rapidamente como estão distribuídos os pesos do conjunto dos 188 livros Poucos livros têm 200 g ou menos assim como poucos têm entre 801 e 1000 g por outro lado é muito mais frequente encontrarmos livros que pesam entre 401 e 600 g O polígono de frequência segue a mesma lógica e é feito a partir da mesma tabela de distribuição de frequência A diferença é que em vez de barras utiliza se linhas que passam pelo centro de cada classe PARA REFLETIR Como podemos notar há várias formas de resumir os dados de uma pesquisa através de gráficos e tabelas Você tem a liberdade de escolher o melhor tipo de apresentação desde que respeite algumas regras Em resumo se estamos lidando com variáveis nominais ou ordinais um gráfico de pizza ou um gráfico de barras parece bastante adequado Se você tem uma série temporal um gráfico de linhas será o melhor Já se sua variável de interesse é representada por uma taxa de intervalo e principalmente há um grande número delas o ideal será a construção de um histograma a partir de uma tabela de distribuição de frequências 36 ESTATÍSTICA SUGESTÃO DE VÍDEO O estatístico sueco Hans Rosling desenvolveu técnicas de apresentação de dados incríveis que permitem aos usuários identificar padrões mais facilmente Uma palestra sua proferida em 2010 As boas notícias da década mostra os números positivos em relação ao combate contra a mortalidade infantil no mundo Você pode acessála na plataforma do TED no Youtube ou no repositório da Universidade de São Paulo USP em httpswwwimeuspbrativestatatividadesfilmesfv06 15 FÓRUM Vamos finalizar nossa primeira unidade com uma discussão sobre técnicas de amostragem probabilística no Fórum da disciplina Para um bom aproveitamento na atividade online comente como uma entrevista com pouco mais de 2 mil pessoas pode afirmar com uma margem de erro de até 2 quem é o candidato preferido de um país com mais de 200 milhões de pessoas Isso ocorre periodicamente a cada eleição nacional Uma dica usando uma técnica de amostragem adequada Leia o item metodologia reproduzido a seguir da pesquisa Intenção de Voto para Presidente conduzida pelo instituto Datafolha em 2018 METODOLOGIA A pesquisa do Datafolha é um levantamento por amostragem estratificada por sexo e idade com sorteio aleatório dos entrevistados O universo da pesquisa é composto pela população com 16 anos ou mais do país Nesse levantamento realizado do dia 29 ao dia 30 de janeiro de 2018 foram realizadas 2826 entrevistas presenciais em 174 municípios com margem de erro máxima 2 pontos percentuais para mais ou para menos considerando um nível de confiança de 95 Isto significa que se fossem realizados 100 levantamentos com a mesma metodologia em 95 os resultados estariam dentro da margem de erro prevista 37 ESTATÍSTICA Essa pesquisa é uma realização da Gerência de Pesquisas de Opinião do Datafolha Essa pesquisa está registrada no Tribunal Superior Eleitoral com o número BR 053512018 DATAFOLHA 2018 Agora que você sabe como um instituto de pesquisa coleta seus dados pense como dados desse tipo poderiam ser apresentados SAIBA MAIS Nossa bibliografia básica e complementar traz farto material sobre confecção e pertinência dos vários tipos de gráfico Mas agora que você já tem mais conhecimento em apresentação de dados por que não visita o site do Instituto Brasileiro de Geografia e Estatística IBGE 2018 Dê uma olhada nas formas criativas de apresentação de dados e inspirese https wwwibgegovbrappspopulacaoprojecaoindexhtml CONSIDERAÇÕES FINAIS DA UNIDADE Nesta unidade você viu que a matériaprima da Estatística são os dados obtidos de amostras que representam uma parte do conjunto completo população das variáveis de interesse Além disso você identificou as formas mais adequadas de coletar esses dados amostragem aleatória simples sistemática estratificada e por conglomerado para descrever seu conjunto de variáveis Por fim entrou em contato com as diversas formas de apresentar variáveis quantitativas e qualitativas em gráficos e tabelas inclusive quando os conjuntos de dados são muito grandes distribuição de frequência Avalie sua aprendizagem Agora que terminamos esta unidade você deve estar apto a Descrever os principais conceitos e divisões da Estatística Identificar as técnicas de amostragem probabilística Coletar e apresentar dados em gráficos e tabelas Representar a distribuição de grandes conjuntos de dados 38 ESTATÍSTICA EXERCÍCIO FINAL 1 APLICAÇÃO A apresentação de um conjunto grande de dados pode ser feita através da distribuição de frequência que é uma parte importante dos trabalhos científicos Suponha que você está conduzindo um estudo que pretende descrever o número de vezes que usuários da terceira idade compareceram às atividades promovidas pela prefeitura da sua cidade Dados da Secretaria do Idoso mostram que 16 usuários com mais de 60 anos estão cadastrados e suas presenças registradas no último mês foram 1 2 2 3 3 5 5 5 6 6 8 8 9 11 12 e 13 Com base nestas informações assinale a alternativa correta Nota o tamanho desta amostra não é grande o suficiente para justificar o uso de distribuição de frequências em uma pesquisa real mas serve muito bem para o propósito de ensinoaprendizagem A Para calcular o intervalo de cada classe basta dividir a amplitude pelo número de classes o intervalo de classes correto para esse conjunto de dados é igual a 5 B Para calcular o intervalo de cada classe basta dividir a variância pelo número de observações o intervalo de classes correto para esse conjunto de dados é igual a 3 C O histograma é o gráfico de linhas de uma distribuição de frequência D O polígono de frequências é o gráfico de colunas de uma distribuição de frequência E Para calcular o intervalo de cada classe basta dividir a amplitude pelo número de classes o intervalo de classes correto para esse conjunto de dados é igual a 3 2 SÍNTESE Nem sempre é possível coletar todos os dados disponíveis Por isso utilizase amostras representativas da população de interesse para então se extrapolar os resultados Com base nos seus conhecimentos indique a alternativa correta sobre o tema A Populações são subconjuntos da amostra como por exemplo cem peças sorteadas aleatoriamente de uma linha de produção para que sejam medidas suas medidas B Uma medição feita em toda a população chamase censo nesse caso há um grande erro amostral C O pesquisador deve estar atento ao tamanho da amostra pois quanto maior ela for 39 ESTATÍSTICA menor será o erro amostral D Outliers são valores extremos num determinado conjunto de dados quando forem verificados devem ser imediatamente excluídos E Populações podem ser confundidas com suas amostras pois não alteram as decisões baseadas em dados já que ambas permitem o cálculo de parâmetros 3 APLICAÇÃO As pesquisas de opinião e intenção são muito utilizadas em levantamentos relacionados às ciências humanas exatas e biológicas Nessas pesquisas a coleta de dados é uma das fases mais importantes e deve ser executada de acordo com técnicas apropriadas aos objetivos de cada projeto Além disso uma amostragem bem planejada deve evitar vieses que comprometam o resultado do trabalho Considere as seguintes afirmações I A amostra aleatória simples é escolhida entre todos os membros da população de modo que cada um tenha a mesma chance de ser selecionado II A amostragem sistemática é obtida a partir de todos os membros de uma subpopulação definida anteriormente III A amostragem por conglomerado é escolhida de tal forma que cada pessoa ou item em determinada ordem predefinida será incluído no estudo IV A amostragem estratificada é obtida a partir de uma porcentagem de cada subpopulação definida anteriormente É correto o que se afirma em A I e III B I e IV C II e IV D II e III E III e IV 40 ESTATÍSTICA REFÊRENCIAS BARBETTA Pedro Alberto Estatística aplicada às ciências sociais 7 ed Florianópolis UFSC 2007 BASTOS JLD DUQUIA RP Tipos de dados e formas de apresentação na pesquisa clínicoepidemiológica Scientia Medica v16 n3 p2528 2006 DEWITT David P TRIOLA J Introdução a estatística 10 ed Rio de Janeiro LTC 2008 FERREIRA Aurélio Buarque de Holanda Dicionário da língua portuguesa 5 ed Curitiba Positivo 2010 INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA IBGE População Brasília 2018 Disponível em httpswwwibgegovbrappspopulacaoprojecaoindexhtml Acesso em 02 jul 2018 INSTITUTO DE PESQUISA DATAFOLHA DATAFOLHA Intenção de voto para presidente São Paulo 2018 Disponível em httpswwwpoder360combrwp contentuploads201803Datafolhajaneiropdf Acesso em 02 jul 2018 MICROSOFT Site Como criar um gráfico do começo ao fim 2018 Disponível em httpssupportofficecomptbrarticlecriarumgrC3A1ficodoinC3ADcio aofim0baf399edd614e188a73b3fd5d5680c2 Acesso em 10 jul 2018 MLODINOW L O andar do bêbado como o acaso determina nossas vidas Rio de Janeiro Zahar 2011 ORGANIZAÇÃO DAS NAÇÕES UNIDAS ONU Global status report on road safety 2016 Disponível em httpwwwwhointviolenceinjurypreventionroadsafety status 2015en Acesso em 02 jul 2018 SMAILES Joanne McGRANE Ângela Estatística aplicada à administração com Excel São Paulo Editora Atlas 2002 TOLEDO Geraldo Luciano OVALLE Ivo Izidoro Estatística básica 2 ed São Paulo Atlas 2009 WERNER MJ Material complementar para Estatística da UNIAVAN 2018 Disponível em httpavantisestatisticablogspotcom Acesso em 29 abr 2019 ZAR JH Biostatistical Analysis 5 ed New Jersey Pearson Prentice Hall 2010 41 ESTATÍSTICA2 unidade DESCRIÇÃO E RESUMO DOS DADOS 42 ESTATÍSTICA INTRODUÇÃO À UNIDADE Agora que estamos mais familiarizados com alguns conceitos da Estatística podemos iniciar alguns cálculos A partir de agora um pouco de conhecimento de matemática básica será bastante útil Se precisar de uma revisão dos conceitos básicos que utilizamos para calcular parâmetros estatísticas e testes sugerimos a leitura do apêndice B do livro Introdução à Estatística Social DIETZ KALOF 2017 cuja referência completa está no final desta unidade Vamos relembrar a divisão da ciência Estatística que discutimos na unidade anterior Como vimos a Estatística inferencial permite que façamos previsões a partir dos dados coletados Já a Estatística descritiva é responsável por descrever nossas variáveis ou dados de formas que vão além da apresentação de gráficos e tabelas Dessa vez a descrição e resumo serão feitas com números tais como a média o desvio padrão ou o índice de correlação sempre de acordo com o objetivo do trabalho científico ou das intenções do pesquisador Tanto em amostras como em populações de variáveis podemos encontrar valores que representam a distribuição das observações em relação ao centro do conjunto de dados Além disso na maioria dos casos é importante conhecermos como esses valores variam em relação às medições centrais A descrição desses parâmetros pode ser feita através de diversas medidas de tendência central e de dispersão que têm a capacidade de descrever propriedades importantes das amostras e populações Além das medidas que resumem os dados quantitativos este módulo também introduz medidas que relacionam duas variáveis conhecida como análise bivariada A descrição das relações entre variáveis pode fornecer informações importantes sobre as características dos dados Em nossa disciplina estudaremos apenas as técnicas que consideram relações entre duas variáveis Contudo ressaltamos que há outros procedimentos que consideram a relação entre mais de duas variáveis como a correlação e a regressão múltiplas mas não serão abordados nesta disciplina pois extrapolam nossos objetivos Sendo assim os objetivos desta Unidade 2 são Descrever conjuntos de variáveis através de medidas de tendência central e de dispersão das variáveis Apresentar a dispersão relativa de conjuntos de variáveis com escalas diferentes Analisar e quantificar o grau de relação entre 2 grupos de variáveis com ou sem relação de causa e efeito Estimar parâmetros e estatísticas em análise bivariada 43 ESTATÍSTICA 2 DESCRIÇÃO E RESUMO DOS DADOS As várias formas de descrever e resumir os dados serão apresentadas a seguir É importante ressaltar desde o início que a maneira pela qual você decidirá descrever seus dados deve se basear no seu objetivo principalmente É claro que a familiaridade com determinadas estatísticas e parâmetros pode influenciar sua escolha na prática de pesquisa real Contudo aproveite para aumentar suas competências em uma variedade de descritores pois a associação das medidas que resumem seus dados trará mais relevância para sua pesquisa Além disso as principais medidas de tendência central e de dispersão também servirão de base para as tomadas de decisão previsões e inferências a partir dos dados que serão trabalhadas nas unidades finais desta disciplina Então vamos lá 21 MEDIDAS DE TENDÊNCIA CENTRAL Tanto em amostras como em populações de variáveis podemos encontrar valores que são próximos do centro das observações A descrição desses parâmetros ou estatísticas Você lembra da diferença Se não revise a unidade anterior pode ser feita através de diversas medidas que são úteis para descrever propriedades importantes das populações Vejamos então as principais medidas de tendência central 211 Média Aritmética Simples A medida de tendência central mais utilizada é a média aritmética simples muitas vezes referida apenas como média Para facilitar a compreensão e adequarmos nossa linguagem às expressões utilizadas em concursos vestibulares ENEM e ENADE vamos indicar os símbolos que representam os itens que compõem as fórmulas que usaremos Cada medida ou variável será representada pela letra X portanto se medirmos a glicemia de três pessoas para calcularmos a média do índice glicêmico desses três indivíduos as medições seriam X1 X2 e X3 De forma geral Xi indica que o número de variáveis é indeterminado podendo assumir qualquer valor integral que será igual ao 44 ESTATÍSTICA tamanho do conjunto de dados nota a seguir que no nosso exemplo as medições irão até X3 Falando em tamanho do conjunto de dados a letra N maiúscula representa o número de variáveis de uma população enquanto a letra n minúscula representa o número de variáveis de uma amostra Outro símbolo utilizado na fórmula da média é o letra grega sigma maiúscula que representa o somatório Por fim a letra grega µ letra grega mu minúscula representa a média populacional enquanto o símbolo leia x barra representa a média amostral Vamos às fórmulas Ou seja para obtermos a média basta somar os valores de todas as variáveis e dividir o resultado pelo número de variáveis TOLEDO OVALLE 2009 Por exemplo suponha que alguém pretenda descrever a média de comprimidos que os únicos 3 pacientes de um médico ingerem por semana sabendo que o paciente A ingere 4 comprimidos o paciente B ingere 5 comprimidos e o paciente C ingere 6 comprimidos Como já descrito basta somar os três valores 4 5 6 15 e dividir o resultado pelo número de variáveis N 3 pacientes a média aritmética simples para esse conjunto de dados é µ1535 comprimidos por semana Note que foi utilizado µ pois estamos considerando que o médico possui apenas 3 pacientes portanto não é uma amostra mas sim a população Caso as variáveis fossem obtidas de uma amostra eg número de comprimidos dos 3 pacientes mais idosos de um médico apenas deveríamos trocar µ por mas o cálculo e o resultado não mudariam EXERCÍCIO Vamos fazer mais um exercício suponha que você tenha feito uma prova na qual obteve nota 6 e uma atividade na qual obteve nota 10 Essas notas serão utilizadas para compor sua nota final na nossa disciplina Se estabelecermos que uma média 45 ESTATÍSTICA aritmética simples dessas duas avaliações será sua nota final qual seu valor Muito fácil não é mesmo Contudo apesar de ser a medida de tendência central mais adequada pois considera o conjunto completo dos dados há outras medidas que podem se adequar melhor aos objetivos do pesquisador que pretende descrever seus dados 212 Média Aritmética Ponderada Como acabamos de ver os cálculos envolvendo média aritmética simples todas as ocorrências têm exatamente a mesma importância ou seja os dados têm o mesmo peso relativo No entanto há casos em que as medições têm importância relativa diferente Nesses casos o cálculo da média deve levar em conta essa importância sendo necessário o uso de outra medida de tendência central a média aritmética ponderada ou simplesmente média ponderada Para o cálculo da média ponderada devemos multiplicamos cada valor da variável pelo seu peso ou seja sua importância relativa para depois dividirmos a soma dessas multiplicações pela soma dos pesos BARBETTA 2007 Para evitar confusão vamos ver como é representada a fórmula da média ponderada para um conjunto de números X1 X2 X3 etc cujo peso é respectivamente p1 p2 e p3 Um exemplo pode esclarecer ainda mais Retomando as supostas notas de prova 6 e atividade 10 citadas no item anterior imagina que desta vez decidimos atribuir pesos diferentes para essas duas avaliações Para a prova optamos por considerála mais importante que a atividade atribuindo lhe um peso 8 já para a atividade decidimos utilizar um peso igual a 2 Na prática isso significa que consideramos a prova 4 vezes mais importante que a atividade Vejamos então como ficariam os cálculos 46 ESTATÍSTICA Perceba que o valor da média ponderada ficou muito mais próximo da nota da prova porque a esta foi atribuído um peso muito maior em relação ao peso da atividade Vale ressaltar que em nosso exemplo e na maioria das ocorrências de média ponderada na vida real a soma dos pesos resulta em 10 Isso serve apenas para facilitar o cálculo não sendo uma regra obrigatória 213 Ponto Médio O ponto médio é simplesmente a média aritmética simples entre o maior e o menor número em um conjunto de dados quantitativos Essa medida de tendência central tem um poder de descrição dos dados menor que as médias que acabamos de estudar pois utiliza apenas os valores extremos DEWITT TRIOLA 2008 Contudo assim como a mediana que como veremos a seguir só utiliza valores centrais o ponto médio pode ser útil quando um pesquisador tiver problemas com medições que se encontrem no centro do conjunto A fórmula do ponto médio é Xmáximo é o maior valor do conjunto de dados e Xmínimo é o menor valor do conjunto de dados Como alguém pode decidir utilizar o ponto médio para descrever seus dados PARA REFLETIR Imagine que você deseja descrever um conjunto de variáveis composto pelo tempo de entrega em dias de 3 fornecedores no último mês Você analisou as 47 ESTATÍSTICA fichas e descobriu que o fornecedor A demorou 3 dias até a entrega o fornecedor B 7 dias e o fornecedor C 13 dias Suponha ainda que o fornecedor B não autorizou a divulgação da informação relacionada à sua entrega Seu conjunto de dados seria 3 7 que não poderia ser divulgado e 13 Sua única opção seria divulgar o ponto médio do número de dias até a entrega de mercadorias no último mês que seria Percebeu que cada medida descritiva tem sua utilidade em parte vinculada às características dos dados que fazem parte do seu arsenal enquanto pesquisador Portanto tão importante quanto praticar os cálculos devemos estar atentos às especificidades das variáveis que pretendemos estudar Mas vamos à próxima medida de tendência central 214 Moda A moda representa o valor mais frequente observado nas medições de um conjunto de dados Até agora nossos exemplos apresentaram valores com a mesma frequência nos conjuntos de dados cada valor apareceu apenas uma vez Nesses casos chamamos o conjunto de amodal pois não há moda do grego a negação Agora analise os exemplos de conjuntos de dados a seguir Exemplo 1 idades em anos de 11 alunos 1 3 4 4 4 4 6 8 9 11 11 O valor que mais se repete e portanto tem a maior frequência é o 4 sendo assim a moda é igual a 4 simples não é mesmo Exemplo 2 mortes devidas a acidentes em 9 cidades 1 3 3 4 1 1 3 8 e 11 Nesse conjunto há dois valores que se repetem com a mesma frequência 1 e 3 cada um se repete 3 vezes portanto esse conjunto de dados é bimodal do grego bi dois Também podemos ter conjuntos com mais que duas modas que podem ser chamados de multimodais Além disso diferentemente da média e da mediana a moda pode ser utilizada para descrever conjuntos de dados qualitativos SMAILES McGRANE 2002 48 ESTATÍSTICA como por exemplo a etnia mais frequente na população brasileira SAIBA MAIS Se você quiser compreender melhor a maneira pela qual as medidas de tendência central descrevem como os dados se concentram leia o artigo Medidas de tendência central onde a maior parte dos indivíduos se encontra Neste trabalho Duquia e Bastos 2006 apresentam vantagens e desvantagens das diversas medidas que discutimos nesta unidade Você pode acessálo na plataforma da disciplina 22 MEDIDAS DE POSIÇÃO Diferentemente das medidas de tendência central que acabamos de discutir e das medidas de dispersão que veremos mais a frente os cálculos das medidas de posição não determinam um valor referente às variáveis mas sim uma posição em relação ao conjunto de dados desde que este esteja ordenado Para facilitar nossa compreensão vejamos as principais medidas de posição 221 Mediana A mediana representa a variável localizada no centro de um conjunto ordenado de dados Sendo assim há exatamente o mesmo número de variáveis que se encontram acima e que se encontram abaixo da mediana BARBETTA 2007 Considere as seguintes quantidades de dias letivos no último semestre de 5 escolas da região 123 144 112 156 e 109 Para o cálculo da mediana primeiramente devemos ordenar do menor para o maior valor esse conjunto de dados sendo assim 109 112 123 144 e 156 Agora é só identificar o valor central ou seja a mediana desse conjunto de variáveis é igual 123 dias Fácil Infelizmente não é tudo 49 ESTATÍSTICA Quando o valor de N ou n lembra o que significa for ímpar como no nosso exemplo n 5 sempre existirá UM valor central Contudo quando N for par não teremos exatamente um valor central Veja o exemplo a seguir Um dentista pretende descrever a mediana do número de cáries de 4 pacientes que possuem respectivamente 2 5 3 e 9 cáries Para isso ele coloca as medições em ordem 2 3 5 e 9 e verifica que não há somente um valor central mas sim 2 3 e 5 Sempre que o valor de n for um número par devese calcular a média aritmética simples dos dois valores centrais Nesse caso a mediana é igual a 4 pois a média entre 3 e 5 é 35 2 4 A fórmula geral da mediana é Note que o resultado da expressão subscrita n12 não representa o valor da estatística mas sim a posição da variável X em um conjunto de dados ordenados que por sua vez indica o valor da mediana Retomando o primeiro exemplo temos 109 112 123 144 e 156 X1 X2 X3 X4 X5 Já para o segundo exemplo 2 3 média X2 e X3 5 9 X1 X2 X25 X3 X4 Tivemos que calcular o valor médio entre X2 e X3 X25 ou seja 4 Além de ser uma medida de posição muitos autores também consideram a mediana uma medida de tendência central muito útil em casos específicos Por exemplo quando algumas medições não podem ser realizadas por impossibilidade instrumental eg um aparelho que não consegue medir valores muito baixos ou muito altos Observe 50 ESTATÍSTICA Suponha que um pesquisador mediu o nível de serotonina no lobo frontal de 3 presidiários com um instrumento que possibilita o registro de valores a partir de 9 µg microgramas No primeiro indivíduo o valor foi de 17 µg no segundo 11 µg e no terceiro o valor não foi visualizado no instrumento pois ficou abaixo de 9 µg Sendo assim os dados foram ordenados 9 11 e 17 Com esse conjunto de dados não é possível calcular a média aritmética simples pois é necessário somar todos os valores no caso do último presidiário não sabemos se esse valor foi 8 1 zero ou qualquer valor abaixo de 9 Sendo assim a única alternativa é utilizar a mediana que é a 11 µg de serotonina para descrever esse conjunto de dados A mediana também pode ser mais bem representativa em casos específicos como por exemplo quando há valores exageradamente altos ou baixos em relação ao resto das variáveis o que chamamos de outliers como já vimos na unidade anterior EXERCÍCIO Imagine que você queira descrever através de uma medida de tendência central o conjunto de salários de 4 pessoas do atendente da cantina do professor do seu vizinho policial e do maior astro do futebol mundial Atribua valores compatíveis a cada profissional e pense se a média descreveria bem esse conjunto de dados Agora pense no valor da mediana para o mesmo conjunto de salários Qual estatística descreve o salário da população de forma mais representativa 222 Quartis Acabamos de ver que a mediana é a medida de posição que divide um conjunto de dados quantitativos em duas partes iguais sendo que metade das observações estarão abaixo e a outra metade estará acima do valor da mediana Pois bem você já deve estar desconfiado do que significam os quartis Isso mesmo quartis são os valores que dividem um conjunto de variáveis quantitativas em quatro partes iguais DIETZ KALOF 2017 Sendo assim um quarto ou 25 dos dados serão menores que o primeiro quartil 50 estarão abaixo do segundo quartil e 75 estarão abaixo do terceiro quartil Perceba no exemplo a seguir que 3 posições divisoras proporcionam 4 partes no nosso 51 ESTATÍSTICA conjunto de dados por isso o termo quartil 1 4 6 7 1º 9 34 38 45 2º 46 49 50 58 3º 60 79 99 99 Figura 3 Esquema representativo da divisão em quartis Fonte O autor 2019 Vamos ver agora como calcular esses valores na prática Lembrese que assim como a mediana o cálculo dos quartis indicam a posição da variável em relação ao conjunto ordenado dos dados Com essa advertência em mente vamos às fórmulas Vamos calcular as posições daquele conjunto de dados acima n 16 com as fórmulas que acabamos de ver Dados 1 4 6 7 9 34 38 45 46 49 50 58 60 79 99 99 portanto o 1º quartil estará entre o 4º e o 5º elemento portanto o 2º quartil estará entre o 8º e o 9º elemento portanto o 1º quartil estará entre o 12º e o 13º elemento 1º quartil 2º quartil 3º quartil Quadro 2 Conjunto de 16 variáveis divididas em quartis Fonte O autor 2019 52 ESTATÍSTICA Como você pode notar todos os cálculos das posições dos quartis para o conjunto de dados acima resultaram em valores decimais Por isso não tivemos dificuldade em posicionar os respectivos quartis PARA REFLETIR Saiba que caso encontre valores inteiros como resultado da posição de algum quartil não há que se preocupar o valor será simplesmente a posição calculada Importante ressaltar por fim que em nossa bibliografia encontraremos mais de uma maneira de calcular os quartis Optamos por este método porque ele é bem simples e adequado a todas as nossas necessidades neste curso 23 MEDIDAS DE DISPERSÃO Agora que você já sabe como descrever como os dados se encontram ao redor do centro e encontrar medidas que segmentam seu conjunto de dados quantitativos é desejável identificar maneiras de descrever sua dispersão ou variação Para deixar clara a importância dessas estatísticas pense no seguinte exemplo Você conhece um casal cujas idades são 36 e 34 anos e outro cujas idades são 18 e 52 anos Como você já sabe calcular a média aritmética simples já percebeu que essa medida de tendência central é igual para ambos os casais µ 35 anos Contudo você também percebeu que há uma diferença significativa entre eles Quando temos muitos valores próximos das medidas de tendência central como a média temos também baixa variação ou dispersão tal como ocorre no primeiro casal do exemplo acima Ao contrário quando os valores se dispersam ao longo da escala de medição nosso conjunto de dados apresenta muita variação como se observa na estrutura etária do segundo casal Agora que já sabemos sua importância para a descrição de dados quantitativos vejamos como calcular as principais medidas de dispersão 53 ESTATÍSTICA 231 Amplitude A mais simples medida de dispersão é a amplitude Ela é nada mais que a diferença entre o maior e o menor valor de um conjunto de dados quantitativos BARBETTA 2007 Vamos direto a um exemplo suponha que você queira descrever a amplitude de um conjunto de variáveis formado pela receita mensal em milhares de reais de 3 empresas cujas notas fiscais somaram 122 154 e 133 A fórmula geral e o cálculo para esse exemplo são apresentados a seguir Assim como a mediana uma das medidas de tendência central a amplitude também pode deixar de lado uma parte da informação sobre os dados pois é calculada a partir de valores extremos somente Mesmo assim ela pode ser muito útil para uma rápida verificação e descrição da dispersão dos dados de seu interesse Antes de prosseguirmos por que você não calcula a amplitude dos dados formados pelas idades dos dois casais citados no exemplo do item 23 que acabamos de ver 232 Variância Uma maneira de calcular a dispersão utilizando todas as observações é através da medição da soma da distância entre cada variável em relação à média do conjunto de variáveis É exatamente isso que o cálculo da variância faz SMAILES McGRANE 2002 Contudo se a média é a medida de tendência central que leva em consideração todos os dados e estes se afastam da média tanto para mais como para menos o resultado de qualquer cálculo que leve em consideração a diferença das variáveis em relação à média não seria sempre igual a zero Vejamos um exemplo Suponha que você trabalhe em um hemocentro e está responsável por verificar a quantidade média de sangue em um conjunto de três bolsas Após medilas você constatou que elas possuem respectivamente 110 ml 120 ml e 160 ml Você inicialmente calcula a média conforme já estudamos 54 ESTATÍSTICA Em seguida calcula a diferença entre cada variável e a média do conjunto 110 130 20 120 130 10 Veja como ficou a soma das diferenças 2010300 160 130 30 A diferença sempre será igual a zero pois sempre que há variação alguns valores serão maiores que a média enquanto outros serão menores Para resolver esse problema no cálculo da variância cada valor que representa a diferença entre as variáveis e a média do conjunto no nosso exemplo 2010 e 30 é elevado ao quadrado Lembrese que qualquer número elevado a expoente par tornase positivo Antes de partirmos para a fórmula precisamos compreender mais um conceito A variância populacional é representada pelo quadrado da letra grega σ sigma minúscula ou seja σ2 enquanto a variância amostral é representada pelo quadrado da letra s ou seja s2 assim como acontece na representação do cálculo da média onde uma letra grega indica a média populacional e uma letra latina indica a média amostral Contudo enquanto no caso da média as fórmulas para amostra e população são iguais no caso da variância o cálculo é ligeiramente diferente como se observa nas fórmulas Retomando nosso exemplo e considerando que as três bolsas de sangue representam uma amostra acompanhe o cálculo da variância amostral Já se as três bolsas de sangue medidas fossem as únicas bolsas existentes teríamos toda a população Nesse caso perceba a diferença no cálculo da variância populacional 55 ESTATÍSTICA Você notou que por mais estranho que pareça a unidade da variância ml² está ao quadrado em relação à unidade original ml Isso acontece porque elevamos todas diferenças entre as variáveis e a média ao quadrado como exigido pela fórmula Ufa A explicação sobre o cálculo da variância foi extensa Isso se deve porque essa medida de dispersão não é tão comum no nosso dia a dia como a média nem tão simples quanto a moda ou a amplitude EXERCÍCIO Agora que você já sabe calcular a variância por que não tenta descrever através desta estatística a dispersão das idades dos dois casais citados no item 23 Não se esqueça da unidade que deverá ser igual ao quadrado da unidade original ou seja anos ao quadrado uma vez que a unidade original está em anos Se você conseguiu compreender o que é e como calcular a variância já estará apto a calcular o desviopadrão que é a medida de dispersão mais importante para descrever a variabilidade de conjuntos de dados quantitativos que por sua vez é a principal matéria prima da Estatística 233 Desvio Padrão O desvio padrão é simplesmente a raiz quadrada da variância DIETZ KALOF 2017 Lembra que no cálculo da variância colocamos todos os dados ao quadrado Então agora vamos fazer a operação inversa lembrando que o inverso da potência é a raiz Com isso teremos novamente a unidade da medida de dispersão igual à unidade das variáveis Analise a fórmula do desvio padrão populacional e do desviopadrão amostral 56 ESTATÍSTICA ou simplesmente Como você já deve ter percebido o desviopadrão populacional é representado pela letra grega σ enquanto o desvio padrão amostral é representado pela letra latina s Vamos continuar no cálculo de medidas de dispersão para as bolsas de sangue Se você quiser descrever a variação dos dados através do desviopadrão basta calcular a raiz quadrada da variância aproveitamos os cálculos do item anterior visto acima como segue Já sabemos calcular a medida de dispersão mais adequada que é o desviopadrão Contudo acho importante nos atentarmos para o significado da principal medida descritiva da variabilidade dos dados Se por um lado é muito comum usarmos a média em nossa vida diária por exemplo quando perguntamos qual foi média que obtivemos em determinada disciplina na escola ou qual a quantidade média que uma pessoa come para planejarmos uma festa o mesmo não acontece com o desviopadrão que aparentemente quase nunca é usado Essa falta de prática acaba transformando a mais importante medida de dispersão em algo pouco compreendido Na realidade o desviopadrão nada mais é que uma medida que resume a variação para mais ou para menos em relação à média DIETZ KALOF 2017 Sabendo disso não precisamos usar a fórmula para identificar o desviopadrão em conjuntos com 3 variáveis que sejam lineares com a média igualmente distanciada dos outros 2 valores como observamos nos conjuntos de dados do exemplo a seguir que representa as idades de três crianças 8 10 e 12 anos Perceba que os valores são lineares a distância entre cada um é a mesma e a média encontrase igualmente distanciada do maior e do menor valor Nesse caso nem é necessário calcular podemos afirmar que o desviopadrão é igual a 2 pois a partir da média temos 2 a mais e 2 a menos Sendo assim pense qual é o desviopadrão do conjunto 100 200 300 E do conjunto 26 16 36 57 ESTATÍSTICA PARA REFLETIR O comentário do parágrafo acima é relevante pois ainda que não seja frequente em dados quantitativos de pesquisas reais a determinação do desvio padrão para conjuntos com 3 variáveis lineares é muito comum em concursos e outras provas 234 Coeficiente de Variação As medidas de variação que estudamos até agora têm magnitudes que são dependentes das magnitudes dos dados A amplitude e o desviopadrão têm a mesma unidade das variáveis enquanto a variância tem o quadrado da unidade das variáveis a partir das quais ela foi calculada DEWITT TRIOLA 2008 Contudo algumas vezes nos deparamos com conjuntos de variáveis que possuem unidades com escalas diferentes como por exemplo o número de dentes de um adulto que possui até 32 e o número de dentes de uma criança que possui até 20 Vejamos como esse fato pode influenciar a comparação entre a variabilidade desses dados Suponha que você queira comparar a variação no número de dentes cariados de um grupo de 3 adultos com o número de dentes cariados de um grupo de 3 crianças Para isso você coletou os seguintes dados adultos 8 10 e 12 dentes cariados e crianças 3 5 e 7 dentes cariados Como você já deve saber as médias desses dois conjuntos de dados são e Calculando o desvio padrão dessas duas amostras temos Em ambos os casos o valor do desvio padrão foi igual a dois o que pode levar um pesquisador a acreditar que a dispersão ou variabilidade dos dois grupos foi igual Contudo temos que lembrar que os grupos têm escalas diferentes já que o número de 58 ESTATÍSTICA dentes na arcada de uma criança é menor que o número de dentes na arcada de um adulto e principalmente suas médias são diferentes Quando isso acontece só poderemos comparar as dispersões ou variabilidades utilizando o coeficiente de variação muitas vezes representado pelas letras CV Essa medida de dispersão é simplesmente a divisão do desviopadrão do grupo pela média do mesmo grupo matematicamente Outro detalhe importante referese à unidade do coeficiente de variação Como o desviopadrão e a média têm a mesma unidade a divisão entre eles a anula e portanto o CV não tem unidade Porém se quisermos multiplicar seu resultado por 100 teremos uma porcentagem o que pode ser bastante útil para apresentar a variação relativa Vejamos então qual dos dois grupos do nosso exemplo realmente variou mais Apenas para fixar você percebeu que em ambos os grupos deste exemplo os valores que representam o número de dentes são lineares Então relembre a observação contida no final do item anterior e perceba como é fácil identificar o desvio padrão sem a necessidade de usar a fórmula assim como a variância bastando para isso calcular o quadrado do desvio padrão 235 Números Índices Os números índices são usados para medir variações e podem ser muito úteis para simplificar a identificação da variabilidade nas quantidades de um dado ao longo do tempo ou entre lugares distintos por exemplo SMAILES McGRANE 2002 Especificamente um número de índice é uma medida que descreve a mudança em uma variável ou grupo de variáveis com relação a uma característica que como citado pode ser tempo local entre outras Para tanto devemos selecionar uma medição de interesse e dividir seu valor por uma 59 ESTATÍSTICA base estabelecida para comparação O resultado dessa divisão é uma proporção que chamamos de número índice se multiplicarmos essa proporção por 100 conseguimos identificar se houve aumento ou diminuição na quantidade que representa a variável bem como sua alteração percentual Sendo assim a fórmula de um número índice simples é Vejamos um exemplo para melhorar nossa compreensão Suponha que o preço de uma mercadoria era de R 5000 no primeiro dia útil de 2010 R 10000 em 2015 e que hoje seja de R 7500 Poderíamos sem grande dificuldade calcular porcentagens a cada par de valores e identificar as variações entre os períodos para descobrirmos a magnitude do aumento e da redução de preços ao longo dos anos Contudo há uma solução mais simples estabelecer uma base para comparação e a partir dela identificar as diferenças que podem ser para mais ou para menos em relação a esta base No caso específico da suposta mercadoria podemos escolher como período base o ano de 2010 Dessa forma percebemos que houve um aumento de 50 quando comparamos o preço atual ao preço de 2010 pois Já se escolhermos como base o ano de 2015 e quisermos descrever o valor atual temos Note que para todo índice maior que 100 haverá um aumento da quantidade representada pela variável enquanto que para índice menor que 100 uma diminuição da quantidade estará associada Além disso é possível quantificar essa variação da seguinte maneira no índice simples o valor que ultrapassar 100 será exatamente igual ao valor percentual do crescimento enquanto o valor que faltar para alcançar 100 será exatamente igual ao valor do decréscimo na variável Sendo assim o preço atual da mercadoria descrita no exemplo acima será 50 maior em relação ao ano de 2010 já que 60 ESTATÍSTICA Por sua vez o preço atual será 25 menor em relação ao preço de 2015 pois Quando tratamos de números índices é muito comum nos depararmos com séries de índices evidenciando a oscilação de uma variável ao longo do tempo por exemplo Nesse caso há duas possibilidades para a construção dessa série de índices a que considera um valor base fixo e a que considera o valor base aquela medicação imediatamente anterior ao valor do período de interesse Vejamos como encontraríamos essas duas formas com os dados do nosso exemplo Abaixo a variação com base no valor de 2010 Tabela 6 Variação do preço ao longo do tempo base 2010 tempo preço índice base 2010 porcentagem 2010 R 5000 100 0 2015 R 10000 200 100 hoje R 7500 150 50 Fonte O autor 2019 E a seguir a variação no preço da mercadoria citada com base no valor imediatamente anterior Tabela 7 Variação do preço ao longo do tempo base móvel tempo preço índice base móvel porcentagem 2010 R 5000 100 0 2015 R 10000 200 100 hoje R 7500 75 25 Fonte O autor 2019 Importante ressaltar que os números índices são amplamente utilizados na Economia 61 ESTATÍSTICA SMAILES McGRANE 2002 e têm diversas variedades como por exemplo valores agregados isto é a soma ou a média de vários preços ponderados ou não ou seja multiplicados por um peso que representa a importância relativa de cada item Contudo os princípios básicos são os mesmos que encontramos nos índices simples que acabamos de estudar e que serão mais do que suficientes para nossos objetivos EXERCÍCIO Se você compreendeu adequadamente a lógica dos números índices responda para a composição de um índice de inflação é utilizada uma base móvel ou fixa para a descrição da variação Se tiver dificuldade para chegar à conclusão releia este item e pesquise para construir ativamente seu conhecimento RELAÇÕES ENTRE DUAS VARIÁVEIS A descrição das relações entre conjuntos de variáveis pode fornecer informações importantes sobre as características dos dados Mas antes de prosseguirmos uma advertência há procedimentos estatísticos que consideram a relação entre mais de dois tipos de variáveis como a correlação e a regressão múltiplas mas que extrapolam os objetivos do nosso curso Por isso estudaremos apenas as técnicas que consideram relações entre duas variáveis Mas antes observe o Gráfico 7 a seguir Gráfico 7 Relação entre renda e anos de escolaridade Fonte Werner 2018 62 ESTATÍSTICA O Gráfico 7 mostra a média de anos que jovens passam na escola de acordo com a renda média em dólares Os tamanhos das bolhas representam a população em 2015 e quatro países estão destacados para comparação Somália Brasil Argentina e Estados Unidos Que tal explorarmos melhor e aumentarmos nossa compreensão de como dados de diferentes tipos se relacionam entre si Então vamos lá Você já deve ter ouvido falar em características que variam de acordo com a variação de outras características como por exemplo que o peso de uma pessoa está relacionado à sua altura ou que a quantidade de cigarros que uma pessoa fuma por dia está relacionada com a probabilidade que essa pessoa tem de desenvolver câncer de pulmão entre muitas outros Essa relação entre as variáveis pode ser de dependência de uma sobre a outra Nesse caso utilizaremos as técnicas de regressão linear simples para descrever o grau a direção das variações dos dados Contudo há casos em que a relação entre as variáveis não é estabelecida por uma dependência Quando isso ocorre devemos utilizar as técnicas de correlação linear simples para descrever o grau e a porcentagem de variação em comum dos dois conjuntos de variáveis Ainda que as duas técnicas procurem descrever a relação linear entre duas variáveis você já começa a perceber a diferença entre regressão e correlação Então vamos nos aprofundar mais um pouco 241 Regressão Linear Simples Quando a relação entre duas variáveis apresenta uma dependência funcional de uma sobre a outra podemos usar a regressão simples para descrever essa relação ou mesmo estimar ou interpolar medições Nesses casos a magnitude de uma das variáveis chamada de variável dependente é determinada pela magnitude de outra variável que chamamos de independente enquanto o contrário não é verdadeiro DEWITT TRIOLA 2008 Por isso na regressão é essencial sabermos determinar qual é a variável dependente e qual é a variável independente Por exemplo considerando que haja uma relação entre a pressão arterial e a idade em humanos qual das variáveis você acha que é a independente ou seja a que determina a variação da outra É claro que a idade é a variável independente pois sua magnitude impõe uma variação na magnitude da pressão arterial enquanto o contrário não é verdadeiro Não seria lógico supormos que uma pressão arterial alta ou baixa determine a idade 63 ESTATÍSTICA de uma pessoa certo Também é claro que apesar de não ser o único fator podemos facilmente considerar a idade um dos fatores determinantes da pressão arterial Uma maneira simples e conveniente de descrever as relações entre variáveis é através de um gráfico de dispersão se tem dúvida sobre o que é dê uma olhada novamente na figura 3 no item 14 da Unidade 1 Vejamos um exemplo imagine que a Tabela 8 disponível a seguir contém informação sobre a medição da pressão arterial sistólica de 4 pessoas juntamente com suas idades Tabela 8 Pressão arterial sistólica e idades supostas de 4 pessoas Pressão arterial sistólica em mmHg Idade em anos 120 28 145 45 140 40 170 65 Fonte o autor 2019 Uma forma bastante informativa de descrever esses valores é plotando os dados da variável dependente no eixo Y do Gráfico 8 vertical e os dados da variável independente no eixo X horizontal Sendo assim Gráfico 8 Dispersão de valores de pressão arterial sistólica em função da idade de quatro pessoas Fonte Werner 2018 64 ESTATÍSTICA Apresentado dessa forma podemos ver claramente que a pressão arterial sistólica aumenta com o aumento da idade Contudo precisamos quantificar essa relação afinal estamos estudando Estatística Sendo assim vamos à equação da reta da regressão linear simples Relembrando y é a variável dependente e x é a variável independente Já a e b coeficientes são calculados através das seguintes fórmulas Concordo que o cálculo parece ser muito trabalhoso mas vamos direto a um exemplo que será muito esclarecedor EXEMPLO Vamos supor que uma profissional de recursos humanos acredite que haja uma relação de dependência entre as variáveis a seguir e pretenda relacionar a quantidade de visitas por dia de três candidatos a um cargo de gerente dos corretores de imóveis de uma grande construtora com as vendas que eles concretizam por semana As medições revelaram que o corretor Paulo visitou 2 clientes por dia e apresentou 4 vendas na última semana José fez 4 visitas por dia e apresentou 5 na mesma semana por fim o corretor João conseguiu 6 visitas por dia e apresentou 6 naquela semana Para começar é ideal calcular os somatórios lembra do símbolo não é mesmo antes de colocar na fórmula A forma mais fácil de fazer isso é preenchendo uma tabela com os dados e realizar os cálculos simples Tabela 9 Quantidade diária de visitas a clientes e vendas semanais de 3 corretores 65 ESTATÍSTICA Corretores X visitas por dia Y vendas por semana xy x2 Paulo 2 4 8 4 José 4 5 20 16 João 6 6 36 36 soma 12 15 64 56 Fonte O autor 2019 Sendo assim já sabemos que o tamanho da amostra n é igual a 3 e temos os somatórios de x 12 y 15 xy 64 e x2 56 Agora é só substituir na fórmula para calcular o coeficiente b Para calcularmos o coeficiente a precisamos além do valor de b calculado acima os valores das médias de y e x representados por Para isso vamos incluir mais uma linha na nossa tabela Tabela 10 Visitas por dia vendas por semana e respectivas médias Corretores X visitas por dia Y vendas por semana xy x2 Paulo 2 4 8 4 José 4 5 20 16 João 6 6 36 36 soma 12 15 64 56 Média 4 123 5 155 Fonte O autor 2019 E substituir os termos para calcular o valor de a Por fim vamos substituir os valores de b e a na equação da reta 66 ESTATÍSTICA Essa equação descreve a relação entre as variáveis independentes visitas a clientes por dia e as variáveis dependentes vendas de imóveis por semana Além disso é possível fazer estimações e interpolações de dados que não foram coletados Por exemplo quanto você esperaria que fosse a venda semanal média de um corretor que visitasse 5 clientes por dia perceba que não há esse dado na tabela Sabendo que essa variável é representada por x pois é a variável independente é só substituirmos na equação da reta para encontrarmos a variável y vendas por semana Concordo que esse procedimento apesar de não ser difícil é trabalhoso devido à sequência de passos necessários para sua consecução Sendo assim por que você não treina um pouco esses cálculos EXERCÍCIO Pense em um exemplo que envolva variáveis comuns no seu trabalho cotidiano e siga nossos passos para chegar a uma equação da reta não utilize valores muito altos ou fracionários para não aumentar a complexidade dos cálculos 242 Correlação Linear Simples Enquanto a regressão possibilita a formulação de uma equação da reta a correlação linear simples permite que o pesquisador descreva quantitativamente o grau de relação que dois conjuntos de variáveis têm entre si BARBETTA 2007 Nesse caso podemos descrever essa relação entre duas variáveis mesmo que nenhuma delas apresente dependência funcional sobre a outra Sendo assim a relação entre variáveis desconsiderada a dependência e portanto não há variável independente ou variável dependente 67 ESTATÍSTICA O coeficiente de correlação r é a estatística que descreve a relação entre duas variáveis que estão sendo examinadas e sua fórmula é Diferentemente da regressão na correlação não há a necessidade de se determinar qual variável é representada por x ou por y Da mesma forma que fizemos na regressão é bastante útil preencher a tabela que agora deve ter uma coluna a mais em relação à tabela anterior representando o y2 que não há na fórmula da regressão Vamos utilizar o mesmo conjunto de dados sobre a venda de imóveis aplicado à regressão Tabela 11 Visitas por dia e vendas de 3 corretores Corretores X vistias por dia y vendas semanais xy x2 y2 Paulo 2 4 8 4 16 José 4 5 20 16 25 João 6 6 36 36 36 soma 12 15 64 56 77 Fonte O autor 2019 Substituindo os termos na fórmula temos O coeficiente de correlação pode assumir qualquer valor entre 1 e 1 sendo que os valores positivos indicam relação diretamente proporcional entre as variáveis ou seja quando o valor de uma variável aumenta a outra também aumenta ou quando o valor 68 ESTATÍSTICA de uma diminui o valor da outra também diminui Já os valores negativos indicam que a relação é inversamente proporcional ou seja quando o valor de uma variável aumenta a outra diminui e viceversa Outra medida que pode descrever a relação entre duas variáveis é o coeficiente de determinação simplesmente representado pelo quadrado do coeficiente de correlação ou R2 Essa medida descreve quanto do total da variabilidade encontrada em uma das variáveis x ou y é acompanhada pela outra variável DEWITT TRIOLA 2008 PARA REFLETIR Uma consideração útil magnitude do coeficiente também chamado de r de Pearson em homenagem ao estatístico que o desenvolveu no século 19 que aprendemos a calcular na seção anterior reflete o grau de correlação entre duas variáveis Ainda que não haja consenso entre os estatísticos podemos aplicar uma regra prática para estabelecer que r entre 0 e 025 ou entre 025 e 0 temos uma correlação pequena r entre 025 e 050 ou entre 050 e 025 temos uma correlação fraca r entre 050 e 075 ou entre 075 e 050 temos uma correlação moderada r entre 075 e 099 ou entre 099 e 075 temos uma correlação forte r igual a 1 temos uma correlação positiva perfeita e r igual a 1 temos uma correlação negativa perfeita Agora um importante alerta correlação nem sempre significa causalidade O fato de dois conjuntos de dados se apresentarem mais ou menos na mesma proporção exatamente o que mede a correlação não significa que uma variável é a causa ou a consequência da outra Veja como essa advertência está explícita em um trecho do livro Freakonomics Reflitamos sobre tal correlação as cidades com muitos homicídios também costumam ter muitos policiais Tomemos agora a correlação políciahomicídio numa dupla de cidades reais Denver e Washington têm mais ou menos a mesma população mas a força policial de Washington é quase três vezes maior do que a de Denver e a capital 69 ESTATÍSTICA também tem oito vezes mais homicídios A menos que você disponha de mais informações porém é difícil dizer qual fator é a causa disso Algum desavisado poderia examinar esses números e concluir que esses policiais a mais sejam a razão do número maior de crimes Esse raciocínio obtuso que tem uma longa história em geral produz uma reação obtusa como na lenda do czar que foi informado de que a província com maior incidência de doenças era também a que contava com mais médicos Sua solução Mandou imediatamente fuzilar todos os médicos LEVITT DUBNER 2010 p 119 Muitos problemas que parecem difíceis podem ser solucionados a partir da transformação de dados em informação desde sejam examinados da forma correta PARA REFLETIR Vamos treinar na minha cidade e provavelmente na sua também a quantidade de carros vendidos e o número de homicídios apresentam uma forte correlação r 078 nos últimos 3 anos Como você explicaria esse fenômeno 25 FÓRUM Você aprendeu nesta unidade a descrever a relação entre duas variáveis Então que tal pegarmos uma parte daquele conjunto de dados que trata da taxa de mortes no trânsito em dois países desde 1996 até 2015 Quadro 1 utilizado na atividade de aplicação da Unidade 1 e tentar quantificar a relação entre os anos de medição e as taxas utilizando apenas um número Vamos facilitar o cálculo pois o que mais importa é o conhecimento do método assim escolhemos para confeccionar o Quadro 3 apenas o primeiro e o último ano da medição vamos identificálos apenas como ano 1 e 2 também vamos arredondar o valor das taxas 70 ESTATÍSTICA Quadro 3 Taxas de morte no trânsito referentes aos anos de 1996 1 e 2015 2 Suécia Brasil Ano 1 5 21 2 3 25 Taxas Fonte ONU 2016 adaptado Sendo assim participe do fórum da unidade e contribua na construção do conhecimento sobre qual estatística deveria ser utilizada para descrever a relação entre ano e número de vítimas dica pense se há ou não relação de causa e efeito entre ano e número de vítimas Enfatize as vantagens da medida descritiva que você considera a mais adequada e cite as desvantagens das outras que você não escolheu Você ainda pode contribuir indicando que valor essa estatística teria para a Suécia e para o Brasil Além disso podemos colaborar para a compreensão sobre o que esses valores significam SUGESTÃO DE LIVRO LEVITT Steven D DUBNER Stephen J Superfreakonomics o lado oculto do dia a dia Rio de Janeiro Elsevier 2010 Os autores usam exemplos realistas e divertidos para demonstrar a simplicidade eficiência e às vezes os absurdos do pensamento matemático Nessa obra eles exploram magistralmente as relações entre variáveis tais como a correlação e a regressão discutidas nesta unidade Divirtase SUGESTÃO DE FILME Você pode encontrar diversos vídeos sobre cálculos de medidas descritivas e suas características na internet Contudo gostaria de sugerir um filme para relaxarmos sem perder o foco da disciplina O filme Moneyball o homem que mudou o jogo estreou no Brasil em 2012 e é baseado na história real de um gerente de um time de basebol nos Estados Unidos que utilizou medidas de tendência 71 ESTATÍSTICA central e de dispersão para montar um time competitivo sem grandes recursos financeiros CONSIDERAÇÕES FINAIS DA UNIDADE A descrição e o resumo dos dados são os objetos da Estatística descritiva Nesta unidade aprendemos a calcular diversas Medidas de Tendência Central MTC que indicam a centralidade dos nossos dados medidas de dispersão que informam o quanto esses dados variam incluindo a variação relativa além de medidas de posição que dividem nossos conjuntos de dados quantitativos em partes iguais Por fim também aprendemos a quantificar a relação existente entre a variabilidade de 2 tipos diferentes de dados como também construir um modelo matemático a equação da reta para estimar valores das variáveis dependentes Avalie sua aprendizagem Agora que terminamos essa unidade você deve estar apto a Descrever conjuntos de variáveis através de medidas de tendência central e de dispersão das variáveis Apresentar a dispersão relativa de conjuntos de variáveis com escalas diferentes Analisar e quantificar o grau de relação entre 2 grupos de variáveis com ou sem relação de causa e efeito Estimar parâmetros e estatísticas em análise bivariada EXERCÍCIO FINAL 4 ANÁLISE A prefeitura da sua cidade mantém um programa de atendimento pedagógico a crianças com suspeita de maus tratos em casa que estudam nas escolas municipais Neste ano 5 crianças com as idades de 6 9 11 11 e 13 anos foram atendidas pelo programa Com base nesses dados assinale a alternativa correta A A média aritmética simples das idades das crianças atendidas é maior que 10 anos 72 ESTATÍSTICA B Esse conjunto de dados é unimodal com a moda maior que a média e igual à mediana C O desvio padrão dessa amostra é menor que 2 anos D A variância dessa amostra é igual a 7 anos ao quadrado E A amplitude desse conjunto de dados é maior que sua média 5 SÍNTESE Considere que você seja uma psicóloga que está aguardando um grupo de jovens para uma terapia contra a anorexia nervosa Sabendo que esse distúrbio acomete principalmente indivíduos no final da adolescência e início da idade adulta você decide estabelecer uma medida de tendência central das idades em anos Os três primeiros pacientes chegam no horário combinado e informam suas idades 15 16 e 17 O último paciente justificou seu atraso dizendo que foi parado por um policial no caminho até a clínica e perdeu a carteira nacional de habilitação por estar dirigindo embriagado além disso recusouse a informar sua idade Sendo assim assinale a alternativa que justifica a escolha da melhor medida de tendência central MTC para esse conjunto de dados e que informe seu valor A A melhor MTC é a média aritmética simples porque abrange o maior número de variáveis seu valor é 17 anos B A moda é a melhor MTC pois não é influenciada por valores muito baixos seu valor é 165 anos C A mediana é a melhor MTC pois não é influenciada por valores muito baixos seu valor é igual a 16 metros D A melhor MTC é a moda pois representa o valor mais frequente E A melhor MTC é a mediana porque não é influenciada por valores extremos seu valor é igual a 165 metros 6 APLICAÇÃO Suponha que você é um analista de risco de um plano de saúde e recebe solicitação de adesão de 4 pacientes com suspeita de Alzheimer cujas idades são 72 72 68 e 68 Você também recebe a solicitação de 4 pacientes diagnosticados com PTSD estresse póstraumático suas idades são 12 12 68 e 68 anos Para compor o relatório você decide descrever essa população não é amostra pois não há outros com essa condição e para isso calculou algumas medidas de tendência central e de dispersão 73 ESTATÍSTICA Assinale a alternativa que contenha uma medida de cada tipo com seus respectivos valores corretos A Seus pacientes com suspeita de Alzheimer têm a idade média é igual a 70 anos e o desvio padrão igual a 16 anos No grupo que possui PTSD a idade média é igual a 40 anos e a amplitude igual a 80 anos B Seus pacientes com suspeita de Alzheimer têm a idade média igual a 72 anos e o desvio padrão igual a 16 anos No grupo que possui PTSD a idade média é igual a 40 anos e a amplitude igual a 50 anos C Seus pacientes com suspeita de Alzheimer têm a idade média igual a 70 anos e o desvio padrão igual a 2 anos No grupo que possui PTSD a idade média é igual a 40 anos e a amplitude igual a 56 anos D Seus pacientes com suspeita de Alzheimer têm a idade média igual a 72 anos e o desvio padrão igual a 4 anos No grupo que possui PTSD a idade média é igual a 40 anos e a amplitude igual a 56 anos E Seus pacientes com suspeita de Alzheimer têm a idade média igual a 70 anos e o desvio padrão igual a 16 anos No grupo que possui PTSD a idade média é igual a 40 anos e a amplitude igual a 68 anos REFÊRENCIAS BARBETTA Pedro Alberto Estatística aplicada às ciências sociais 7 ed Florianópolis UFSC 2007 DEWITT David P TRIOLA J Introdução a estatística 10 ed Rio de Janeiro LTC 2008 DIETZ T KALOF L Introdução à estatística social a lógica do raciocínio estatística Rio de Janeiro LTC 2017 DUQUIA RP BASTOS JLD Medidas de tendência central onde a maior parte dos indivíduos se encontra Scientia Medica v16 n4 p 3436 2006 LEVITT Steven D DUBNER Stephen J Superfreakonomics o lado oculto do dia a dia Rio de Janeiro Elsevier 2010 ORGANIZAÇÃO DAS NAÇÕES UNIDAS ONU Global status report on road safety 2016 Disponível em httpwwwwhointviolenceinjurypreventionroadsafety status 2015en Acesso em 02 jul 2018 74 ESTATÍSTICA SMAILES Joanne McGRANE Ângela Estatística aplicada à administração com Excel São Paulo Editora Atlas 2002 TOLEDO Geraldo Luciano OVALLE Ivo Izidoro Estatística básica 2 ed São Paulo Atlas 2009 WERNER MJ Material complementar para Estatística da UNIAVAN 2018 Disponível em httpavantisestatisticablogspotcom Acesso em 29 abr 2019 75 ESTATÍSTICA3 unidade INTRODUÇÃO À ESTATÍSTICA INFERENCIAL 76 ESTATÍSTICA INTRODUÇÃO À UNIDADE A Estatística inferencial representa a parte da disciplina que estuda os testes estatísticos Esses testes possibilitam que os pesquisadores calculem estatísticas adequadas para suas amostras e façam inferências ou generalizem conclusões para a população à qual as amostras pertencem Na Unidade 4 entraremos em contato com os cálculos de testes estatísticos e aprenderemos na prática a refutar ou aceitar hipóteses estatísticas Contudo há uma grande variedade de ferramentas e conceitos com os quais precisamos estar familiarizados E é exatamente isso que faremos nesta Unidade 3 A primeira ferramenta que veremos é a probabilidade Quero ressaltar que há cursos inteiros que tratam somente de Probabilidade pois esse conceito abrange uma vasta área de estudo que auxilia a Estatística na interpretação dos seus resultados Para nossa sorte nossos objetivos não exigem o conhecimento profundo sobre as teorias e nuances dessa ciência Sendo assim trabalharemos noções de probabilidade que serão mais do que suficientes para conduzirmos nossos estudos permitindo a transposição integral do conhecimento necessário às nossas atividades acadêmicas e profissionais Além disso também entraremos em contato com as formas mais comuns de estabelecermos hipóteses sobre nossas pesquisas bem como com os conceitos da estimação que nos permitirá chegar a conclusões baseados nos dados disponíveis Sendo assim os objetivos da Unidade 3 são Conhecer as noções básicas de probabilidade Identificar e utilizar os principais modelos probabilísticos Formular hipóteses sujeitas a testes estatísticos 77 ESTATÍSTICA 3 INTRODUÇÃO À ESTATÍSTICA INFERENCIAL Veremos a seguir noções de probabilidade modelos probabilísticos escore padrão estimação e decisão estatísticas Esses conceitos deverão ser plenamente compreendidos para podermos tomar decisões baseadas em dados de pesquisa Então vamos em frente 31 NOÇÕES DE PROBABILIDADE Em muitos casos a probabilidade é intuitiva Prova disso é que quase qualquer pessoa deve responder corretamente se perguntada sobre a chance de se obter uma cara ao jogarmos uma moeda que não seja viciada e que possua dois lados diferentes cara e coroa Infelizmente nem sempre é possível identificar de pronto o resultado de um experimento que envolva probabilidade e por isso será necessário um maior aprofundamento no tema 311 Probabilidade de um Evento Quando nos depararmos com a necessidade de calcular probabilidade uma fórmula básica poderá resolver a maior parte dos problemas DIETZ KALOF 2017 Pa probabilidade de ocorrer o evento a a número de vezes que ocorre o evento a S nº total de possíveis resultados para aquele experimento ou espaço amostral Voltando ao exemplo da moeda não viciada vamos utilizar a fórmula para calcular a probabilidade de se obter uma CARA ao jogarmos uma moeda Fácil a probabilidade do evento CARA ou seja PCARA é igual ao número de vezes que ocorre CARA dividido pelo número total de possíveis resultados de uma moeda espaço amostral ou simplesmente 78 ESTATÍSTICA Isso significa que ao jogarmos uma moeda não viciada a probabilidade de se obter uma CARA é igual a 05 ou se quisermos nos referir à porcentagem basta multiplicar por 100 nesse caso 50 05 x 100 Agora que você já sabe o básico sobre o assunto vamos a um exemplo mais adequado PARA REFLETIR Imagine que você seja uma diretora de recursos humanos e juntamente com outros 3 colegas é responsável por entrevistar um dos 4 candidatos à vaga de emprego sendo um deles surdomudo Sabendo que cada funcionário terá que entrevistar um dos 4 candidatos aleatoriamente qual a probabilidade de você ter que realizar a entrevista com o surdomudo Usando novamente a fórmula temos A probabilidade de um evento é bem fácil de calcular pois os elementos necessários à fórmula estão evidentes Infelizmente nem sempre é assim 312 Contando os Resultados Possíveis Nem sempre o espaço amostral S está claro DIETZ KALOF 2107 Sendo assim muitas vezes será preciso calculálo antes de utilizar a fórmula básica A condição mais frequente é quando um evento é composto por sucessivas fases DEWITT TRIOLA 2008 Nesse caso o número de resultados possíveis de cada fase deve ser multiplicado para chegarmos ao espaço amostral S Se cada fase possuir o mesmo número de resultados possíveis podemos representar matematicamente por 79 ESTATÍSTICA k número de resultados possíveis de cada fase n número de fases Com isso em mente vamos tentar resolver um problema EXEMPLO Uma pedagoga está apresentando um brinquedo didático para um aluno com necessidades especiais para verificar a sua capacidade de pensamento executivo Esse brinquedo possui três pinos em cada um dos quais deve ser colocada uma peça Dentre as peças disponíveis há um quadrado um retângulo um círculo e um triângulo Vamos calcular o espaço amostral S Primeiramente identificaremos o número de resultados possíveis de cada fase k 4 formas Em seguida o número de fases n 3 pinos Sendo assim Ou seja há 64 possibilidades diferentes de se encaixar as três peças sendo que há 4 tipos diferentes de peças Agora que já sabemos contar resultados possíveis espaço amostral que não estejam evidentes podemos calcular suas probabilidades Vamos continuar imaginando que a pedagoga solicita ao aluno que coloque três peças em uma ordem específica e ele consegue realizar a tarefa Diante disso ela decide calcular a probabilidade de o aluno ter acertado a sequência ao acaso sem realmente compreender o jogo Agora que ela já conhece o espaço amostral é só substituir os valores na fórmula básica do cálculo da probabilidade de um evento PARA REFLETIR Você acha que a pedagoga pode inferir que o aluno especial realmente sabia 80 ESTATÍSTICA como encaixar a sequência Como não utilizamos esse recurso com frequência no dia a dia pode ser trabalhoso para alguns alunos perceber a dinâmica dos cálculos de probabilidade quando não há um espaço amostral evidente Se for o seu caso que tal fazermos outro exemplo Desta vez usaremos um jogo EXEMPLO Suponha que você tenha jogado um par de dados e queira saber a probabilidade de obter o número 12 na soma dos dois dados que não sejam viciados esse jogo se chama craps e é muito comum em cassinos dos EUA e da UE Primeiramente relembre as fórmulas relacionadas à probabilidade que vimos até agora Assim vamos determinar o número de vezes que ocorre o evento escolhido Para isso pense como podemos obter a soma igual a 12 em dois dados Há apenas 1 possibilidade 6 no primeiro dado e 6 no segundo Em seguida devemos nos dedicar a encontrar o espaço amostral Para isso devemos saber qual é o número de resultados possíveis de cada fase dado ou seja 6 números 1 2 3 4 5 ou 6 para em seguida elevarmos ao número de fases Portanto PARA REFLETIR A probabilidade de se obter a soma dos dois dados igual a 7 seria maior menor ou igual à probabilidade de se obter 12 81 ESTATÍSTICA 313 Multiplicando e Adicionando Probabilidades Outro recurso bastante útil para a Estatística referese às operações com probabilidades Sempre que dois ou mais eventos forem condições obrigatórias para o resultado final as probabilidades individuais devem ser multiplicadas Já quando em dois ou mais eventos mutuamente exclusivos qualquer deles for condição para o resultado final as probabilidades individuais devem ser somadas DEWITT TRIOLA 2008 Em resumo quando for necessário determinar a probabilidade de uma condição E de outra E de tantas quantas forem devese multiplicar as probabilidades individuais quando for necessário determinar a probabilidade de uma condição OU de outra OU de tantas quantas forem devese somar as probabilidades individuais Por exemplo suponha que na espécie humana homens e mulheres nasçam na mesma proporção na realidade homens têm uma prevalência ligeiramente superior no nascimento Sendo assim podemos calcular a probabilidade de uma gestante qualquer ter uma menina que nesse caso será a mesma para um menino Agora se uma gestante qualquer que pretenda ter dois filhos nos perguntar sobre a probabilidade de ambos serem meninas ou ambos meninos ou um menino e uma menina precisamos realizar operações com probabilidade 1ª gravidez 2ª gravidez P 05 P 05 P 05 P 05 Vamos começar respondendo qual é a probabilidade de a gestante ter duas meninas Para isso é necessário que a primeira gravidez gere uma menina E a segunda também Assim devemos multiplicar as probabilidades individuais O mesmo pode ser feito para determinar a probabilidade de dois meninos 82 ESTATÍSTICA Já para uma menina e um menino devemos levar em consideração duas possibilidades um menino nascer na primeira e uma menina nascer na segunda gestação OU uma menina nascer na primeira e um menino nascer na segunda gestação Para esse cálculo A compreensão adequada dos conceitos básicos de probabilidade que acabamos de estudar é essencial para seguirmos na trilha que desvendará as ferramentas mais úteis da Estatística Muitas dessas ferramentas tais como os testes estatísticos são inteiramente dependentes das distribuições das variáveis que compõem nossos objetos de estudo Que tal conhecermos melhor os modelos que descrevem essas distribuições e as maneiras pelas quais podemos quantificálas 32 MODELOS PROBABILÍSTICOS A distribuição das probabilidades permite a construção de modelos probabilísticos que são ferramentas utilizadas para simplificar a realidade dos dados sem que o pesquisador perca as principais características do conjunto das variáveis BARBETTA 2007 Se soubermos a distribuição de um conjunto de variáveis aleatórias podemos obter suas medidas de localização e variação às quais aprendemos na unidade anterior 321 Modelos para Variáveis Aleatórias Discretas Você lembra o que são variáveis quantitativas discretas Se tiver dúvida revise o item 12 da unidade 1 Para esse tipo de variável dois modelos são muito utilizados distribuição binomial e a distribuição de Poisson Vamos conhecêlos O primeiro é o modelo de distribuição binomial utilizado para descrever situações em que a variável aleatória pode ser agrupada em apenas dois resultados possíveis como 83 ESTATÍSTICA por exemplo a probabilidade de duas gestações gerarem meninas ou não Nesse tipo de modelo a probabilidade de sucesso ou fracasso não muda de ensaio para ensaio e os eventos são idênticos e independentes TOLEDO OVALLE 2009 No exemplo da gestação mesmo que uma mulher já seja mãe de cinco meninas a próxima gravidez terá a mesma probabilidade da primeira ou seja aproximadamente 50 de nascer uma menina Através do modelo binomial podemos responder questões do tipo qual a probabilidade de em duas gravidezes nascer 2 meninas 1 menina ou nenhuma menina Foi o que fizemos no exemplo do item anterior para exemplificar o cálculo de multiplicações e adições de probabilidade o resultado colocado em forma de modelo binomial foi 0 menina 25 1 menina 50 ou graficamente 2 meninas 25 De acordo com Barbetta 2007 outro modelo para descrever variáveis discretas é a distribuição de Poisson que é muito útil quando se pretende descrever situações que ocorrem em um campo ou intervalo definido geralmente área ou tempo como por exemplo o número de infectados pelo vírus H1N1 nos últimos dois meses ou o número de peças descartadas em um conjunto de máquinas 322 Modelo para Variáveis Aleatórias Contínuas A mais importante distribuição contínua de probabilidade é a Distribuição Normal ou Gaussiana também chamada Curva de Gauss A maior parte dos dados utilizados em pesquisas tem essa distribuição BARBETTA 2007 Alguns exemplos são alturas pesos e outras características físicas erros de medida em experimentos científicos medidas de inteligência e aptidão pontuações em testes variados e numerosas medidas e indicadores de saúde Todo gráfico da distribuição normal é simétrico em torno da média da distribuição e tem forma de sino Mais adiante veremos que diversas propriedades úteis para a confirmação ou refutação de hipóteses científicas são derivadas da Curva de Gauss TOLEDO OVALLE 2009 Por 0 1 2 84 ESTATÍSTICA enquanto vamos nos concentrar nas suas características básicas EXEMPLO Um exemplo simples pode ajudar muito na compreensão Suponha que você pese todos os alunos de um colégio e obtenha a média igual a 70 kg Muitos alunos estarão próximos desse peso enquanto poucos estarão muito abaixo ou muito acima desse peso Veja como essa distribuição de probabilidade também referida como densidade de probabilidade é representada no Gráfico 9 plotado a seguir Note que no centro da distribuição encontrase a média e a coluna mais alta no gráfico enquanto que as colunas à esquerda e à direita são mais baixas representando menor frequência Curva de Gauss Gráfico 9 Modelo de distribuição normal com média igual a 70 kg e desviopadrão igual a 10 kg Fonte O autor 2019 Uma propriedade importante da curva normal é sua distribuição que pode determinar a proporção dos valores que se encontram em qualquer amplitude específica Por exemplo 683 dos valores devem estar a 1 desviopadrão da média enquanto 954 dos valores devem estar a 2 desviospadrão da média desde que alguns requisitos estejam presentes TOLEDO OVALLE 2009 40 kg 50 kg 60 kg 70 kg 80 kg 90 kg 100 kg 85 ESTATÍSTICA SUGESTÃO DE FILME Você pode encontrar diversos vídeos sobre cálculos de probabilidade no Youtube Mas que tal nos divertirmos com o filme Quebrando a banca lançado no Brasil em 2008 Ele retrata um professor de estatística que lidera um grupo para ganhar dinheiro nos cassinos dos Estados Unidos utilizando estatística e probabilidade 33 ESCORE PADRÃO Outro conceito essencial para que possamos compreender as implicações da inferência estatística é o escore padrão ou escorez que padroniza a distância em relação à média que uma ou mais medições apresentam BARBETTA 2007 Na seção anterior iniciamos a explicação sobre curva normal com o auxílio de um exemplo sobre o peso dos alunos de um colégio Vamos ser mais específicos agora EXEMPLO Suponha que você tenha pesado todos os alunos imagine n 4000 calculado a média µ 70 kg e o desviopadrão dessa população digamos 10 kg O escore padrão ou z nos permite calcular quantos desvios padrão a partir da média uma determinada medição se encontra e com isso fazer estimações e inferências estatísticas sobre amostras quantitativas ZAR 2010 Sua fórmula é já sabemos o significado de todos os símbolos mas se ainda tiver dúvida reveja as unidades anteriores Agora vamos pegar dois alunos quaisquer que pesam 90 kg e 40 kg e calcular seus escores padrões relembrando que µ 70 kg e 10 kg 86 ESTATÍSTICA Esses resultados nos informam que o aluno mais pesado está a 2 desviospadrão acima da média enquanto o aluno mais leve está a 3 desviospadrão abaixo da média Mas o que isso significa Vejamos algumas das proporções da Curva de Gauss você encontra a tabela com muitas outras proporções em nossa bibliografia e no blog que complementa nossa disciplina o intervalo entre µ 1 contém 6827 das medições 3413 acima e 3413 abaixo o intervalo entre µ 2 contém 9544 das medições metade acima e metade abaixo o intervalo entre µ 3 contém 9973 das medições metade acima e metade abaixo WERNER 2018 Gráfico 10 Proporções da Distribuição de Gauss Fonte Zar 2010 No nosso exemplo esses cálculos indicam que 6827 dos 4000 alunos têm entre 60 kg e 80 kg µ que é 70 kg 1σ que é 10 kg 9544 têm entre 50 kg e 90 kg e 9973 têm entre 40 kg e 100 kg Interessante não é Veja como ficaria a curva normal com a anotação do nosso aluno mais pesado 87 ESTATÍSTICA Gráfico 11 Proporções de uma Distribuição normal com média igual a 70 e desviopadrão 10 Fonte O autor 2019 Toda a parte clara sob a curva normal representa os alunos que têm menos que 90 kg enquanto a parte rosa representa alunos que têm mais que esse peso Como você pode perceber sabendo que proporções ou porcentagens dos dados se encontram distantes da média em desviospadrão é possível indicar a quantidade ou proporção de qualquer critério desejado PARA REFLETIR Como você calcularia o número de alunos que têm entre 50 e 60 kg Basta calcular o número de alunos que estão entre a média e 2 desviospadrão abaixo e diminuir o número de alunos que estão entre a média e um desviopadrão abaixo Vamos lá se 9544 das medições estão entre 2 desviospadrão acima e abaixo da média podemos inferir que metade disso 4772 estará abaixo Sendo assim podemos afirmar que há aproximadamente 1909 alunos entre 50 2 desviospadrão abaixo da média e 70 média kg pois Contudo ainda não é o que precisamos 88 ESTATÍSTICA Se nosso intervalo de peso é entre 50 e 60 temos que excluir do grupo de alunos que têm entre 50 e 70 kg que acabamos de calcular aqueles que pesam mais de 60 kg Para isso basta calcularmos o número desses alunos Fácil pois como já vimos 6827 das medições estarão entre um desviopadrão abaixo e um desviopadrão acima da média Considerando que a curva de distribuição normal é simétrica metade dessa porcentagem 3413 estará entre a média e um desviopadrão abaixo nesse caso entre 70 e 60 kg justamente o que precisamos excluir Assim E portanto podemos estimar que o número de alunos que têm entre 50 e 60 kg em nosso exemplo será EXERCÍCIO Vamos colocar em prática nosso aprendizado mais uma vez Agora utilizaremos aquele exemplo dos pesos de alunos de um colégio fictício que serviu para construirmos uma curva de Distribuição normal no item 322 Relembre aquelas informações um colégio fictício com 4000 alunos tendo peso médio de 70 kg e desviopadrão igual a 10 kg Para realizar nossa atividade imagine que você pertence ao colégio em questão Sendo assim calcule o escore padrão para o seu próprio peso e estime o número de alunos que são mais pesados que você Algumas considerações lembrese que os valores são fictícios e foram escolhidos para facilitar a compreensão e os cálculos Em uma amostra verdadeira muito provavelmente o valor do desviopadrão será maior Dessa forma se você apresentar um peso muito abaixo ou muito acima de 70 kg poucos alunos serão mais leves ou mais pesados que você respectivamente Além disso recomendo que você arredonde se tem dúvidas sobre as regras reveja o item 123 da Unidade 1 sua massa para uma dezena redonda com o intuito de facilitar o cálculo nosso objetivo com essa atividade é treinar o raciocínio estatístico e não simplesmente o cálculo matemático 89 ESTATÍSTICA 34 ESTIMAÇÃO E DECISÃO ESTATÍSTICAS Os conceitos estudados nesta unidade permitirão que você utilize o resultado de testes estatísticos com os quais trabalharemos na próxima unidade e faça inferências estatísticas para decidir sobre a distribuição dos seus dados de acordo com o nível de significância escolhido Em estudos com rigor científico essa decisão acontece através da aceitação ou refutação de hipóteses estabelecidas previamente DEWITT TRIOLA 2008 Vejamos um pouco mais detalhadamente como esse processo funciona 341 Noções de Testes de Hipótese Como já vimos o principal objetivo da análise estatística é inferir ou tirar conclusões sobre uma população através do exame de uma amostra uma vez que é quase sempre impossível medir toda a população Para isso convencionouse estabelecer hipóteses estatísticas de preferência antes da coleta dos dados para evitar influência dos pesquisadores e testálas SMAILES McGRANE 2002 De forma geral temos duas hipóteses antagônicas a hipótese nula representada por H0 e a hipótese alternativa representada por H1 você poderá encontrar também as notações Hnull e Ha para descrever as hipóteses nula e alternativa respectivamente A hipótese nula contém a afirmação de que não há diferença estatisticamente significante entre um valor alegado para a média populacional BARBETTA 2007 Por exemplo retomando o exemplo do peso dos alunos do colégio fictício podemos estabelecer a hipótese nula de que a média é igual a 70 kg Já a hipótese alternativa contém a afirmação de que há diferença estatisticamente significante entre o valor a ser testado através de uma amostra e a média real da população Nesse caso a hipótese alternativa para o exemplo seria de que a população possui uma média de peso maior menor ou simplesmente diferente de 70 kg o que seria testado a partir de uma ou mais amostras Os testes estatísticos nos fornecem um valor de probabilidade chamado valor p ou mais comumente pvalue que proporciona ao pesquisador o poder de decidir se há ou não evidência para rejeitar a hipótese nula Se a hipótese nula for rejeitada assumese de a hipótese alternativa é verdadeira BARBETTA 2007 Nos exemplos que seguirão às explicações sobre os testes estatísticos que veremos 90 ESTATÍSTICA na próxima unidade serão incluídas hipóteses nula e alternativa o que facilitará a compreensão A regra geral é sempre que o valor calculado da estatística ultrapassar o valor crítico tabelado a hipótese nula será rejeitada SMAILES McGRANE 2002 Consequentemente se o valor crítico for maior que o valor calculado a hipótese nula será aceita Essa regra apresenta uma única exceção mas apenas quando não houver a possiblidade de se identificar parâmetros nos nossos dados veremos como tratar essa situação com mais detalhes na próxima unidade A Tabela 12 a seguir ilustra uma lista de valores tabelados de acordo com diversos níveis de significância e tamanhos de amostra Nossa bibliografia também contém os valores críticos tabelados para todas as estatísticas e níveis de significância utilizados em nossa disciplina Tabela 12 Tabela de valores críticos para a estatística t de Student n1 Graus de liberdade 025 01 005 0025 001 0005 1 100000 307768 631375 1270620 3182052 6365674 2 081650 188562 291999 430265 696456 992484 3 076489 163774 235336 318245 454070 584091 4 074070 153321 213185 277645 374695 460409 5 072669 147588 201505 257058 336493 403214 6 071756 143976 194318 244691 314267 370743 7 071114 141492 189458 236462 299795 349948 8 070639 139682 185955 230600 289646 335539 9 070272 138303 183311 226216 282144 324984 10 069981 137218 181246 222814 276377 316927 11 069745 136343 179588 220099 271808 310581 12 069548 135622 178229 217881 268100 305454 13 069383 135017 177093 216037 265031 301228 14 069242 134503 176131 214479 262449 297684 15 069120 134061 175305 213145 260248 294671 16 069013 133676 174588 211991 258349 292078 17 068920 133338 173961 210982 256693 289823 18 068836 133039 173406 210092 255238 287844 19 068762 132773 172913 209302 253948 286093 Probabilidade de erro α Fonte Adaptado de Barbetta 2007 Esse modelo de tabela é dependente do nível de confiança que sempre será de 95 nas avaliações exemplos e exercícios da disciplina Esse nível significa que em 95 das vezes o pesquisador concluirá corretamente sobre a escolha da hipótese significa também que em 5 das vezes cometerá erro 91 ESTATÍSTICA A propósito nas avaliações esse valor será necessariamente informado no enunciado da questão sempre que necessário Importante ressaltar ainda que apesar de 95 ser o nível de confiança mais utilizado em estudos científicos você pode decidir realizar na vida acadêmica ou profissional estudos mais restritivos como por exemplo haja risco para a saúde dos envolvidos pois não é admissível que 5 dos usuários do produto da pesquisa tenham prejuízos à saúde ou menos restritivos 342 Erros do Tipo I e II Se você está atento percebeu que os níveis de significância com os quais entramos em contato até agora são informados em forma de porcentagem Mas o que exatamente esses números significam Como acabamos de ver no item anterior a decisão que o pesquisador toma baseiase nos dados que fazem parte do seu estudo Quase sempre esses dados são obtidos a partir de amostras e não de populações você já estudou a diferença se ainda tiver dúvidas reveja a Unidade 1 Sendo assim a informação não é completa e por isso há uma probabilidade de se cometer erros mesmo com base nos dados Mas não se desespere Quer ver como os erros associados exclusivamente à aleatoriedade são em geral bem pequenos Na maior parte das vezes o menor nível de significância aceitável em uma pesquisa científica é igual a 95 isso significa que se coletássemos uma amostra 100 vezes cometeríamos o erro apenas em 5 delas Nada mal mas mesmo assim precisamos falar dos erros Podemos cometer dois tipos básicos de erro quando trabalhamos com testes de hipótese A primeira possibilidade é rejeitar a hipótese nula quando na realidade ela é verdadeira De outra forma podemos também incorrer em erro ao aceitar a hipótese nula sendo ela verdadeira No primeiro caso dizemos que cometemos um erro do tipo I enquanto que no último caso nosso erro é descrito como sendo do tipo II A Tabela 13 a seguir resume as possibilidades reais da pesquisa baseada em dados estatísticos Tabela 13 Desfechos possíveis dos testes de hipótese H0 é verdadeira H0 é falsa Aceitar H0 Decisão correta Erro Tipo II Rejeitar H0 Erro Tipo I Decisão correta Situação de pesquisa real Decisão Fonte O autor 2019 92 ESTATÍSTICA Vale ressaltar ainda que o Erro Tipo I é conhecido como enquanto o Erro Tipo II é referido como PARA REFLETIR Você percebeu que a tabela apresentada no item anterior traz uma série de níveis de significância descritos de forma diferente Em vez de referenciar a probabilidade de um pesquisador decidir corretamente lá está descrito várias proporções de erros Sendo assim qual você acha que é a coluna que apresenta os valores críticos para o nível de significância de 95 na tabela referida Claro que qualquer envolvido na pesquisa científica pretende diminuir ao máximo o erro em suas decisões Contudo esses dois tipos de erros são complementares para qualquer tamanho de amostra fixo Sendo assim dado um n amostral qualquer uma diminuição de acarreta um aumento em e viceversa Portanto a única maneira de diminuir o erro aleatório é aumentar a amostra Aposto que você lembrou o mantra que usamos na primeira unidade quanto maior a amostra menor será o erro 35 FÓRUM Você lembra qual é a matériaprima da Estatística Sim Dados ou variáveis de preferência quantitativos Então que tal pegarmos aquele conjunto de dados que resume as taxas de mortes no trânsito no Brasil e na Suécia entre os anos de 1996 e 2015 para trabalharmos um pouco e contribuir com o aprendizado da turma inteira Vou reproduzilo abaixo para facilitar a consulta ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa ano taxa 1996 51 2006 45 2001 59 2011 36 1996 206 2006 191 2001 177 2011 218 1997 51 2007 42 2002 53 2012 36 1997 203 2007 194 2002 188 2012 236 1998 51 2008 41 2003 52 2013 35 1998 176 2008 197 2003 187 2013 240 1999 53 2009 40 2004 46 2014 35 1999 180 2009 191 2004 189 2014 241 2000 57 2010 40 2005 44 2015 30 2000 171 2010 209 2005 191 2015 245 Suécia Brasil Quadro 1 Taxas de morte no trânsito para cada grupo de 100 mil habitantes na Suécia e no Brasil 1996 a 2015 Fonte ONU 2016 93 ESTATÍSTICA Escolha um ano específico para um dos países calcule o escore padrão da taxa de mortes para cada 100 mil habitantes e compartilhe o valor com seus colegas Quando houver outros valores compartilhados por outros alunos tente descobrir se há algum padrão na taxa de mortes para cada país Se perceber confirme com outras intervenções para aumentar sua amostra Você consegue identificar se há padrão sazonal ou sistemático Discuta causas soluções e consequências com colegas do curso em nosso fórum SAIBA MAIS Você sabia que por recomendação da Organização das Nações Unidas quase todos os países incluindo o Brasil utilizam o escore padrão para referenciar diversas medidas de recémnascidos e crianças Se você tem acesso a uma caderneta de saúde da criança dê uma olhada nos valores utilizados como parâmetros para medições como altura peso entre outras se não tem nenhuma caderneta por perto acesse uma cópia na plataforma digital da disciplina O Gráfico 12 a seguir reproduz um gráfico de crescimento para um menino entre 0 e 5 anos No ambiente virtual de aprendizagem você encontrará um texto adicional sobre a metodologia de cálculo além de um resumo das informações técnicas do Ministério da Saúde do Brasil Gráfico 12 Crescimento de crianças 0 a 5 anos Fonte ONU 2006 94 ESTATÍSTICA SUGESTÃO DE LIVRO SPIEGELHALTER David BLASTLAND Michael Viver é perigoso São Paulo Publifolha 2015 As ferramentas específicas da Estatística como a probabilidade que acabamos de estudar pode ajudar você a considerar os riscos do dia a dia sem a influência de clichês distorcendo a verdade e exagerando os casos menos prováveis eou atenuando riscos mais elevados No livro Viver é perigoso os autores Spiegelhalter e Blastland 2015 discutem com muito humor as incoerências entre as probabilidades de ocorrência e a importância que dispensamos aos nossos principais medos CONSIDERAÇÕES FINAIS Os testes estatísticos que possibilitam ao pesquisador confirmar ou refutar hipóteses sobre populações a partir de amostras que serão vistos na próxima unidade exigem como requisito prévio o conhecimento sobre probabilidade e modelos de distribuição probabilística sobre a padronização de desvios em relação à média como o escorez e sobre as noções de estimação e decisão estatística como os testes de hipótese Avalie a sua aprendizagem Agora que terminamos essa unidade você deve estar apto a Calcular a probabilidade de eventos independentes Construir modelos probabilísticos simples Identificar características dos principais modelos de distribuição probabilística Formular hipóteses estatísticas a partir de dados de pesquisa Identificar os erros associados às hipóteses estatísticas Agora que conhecemos os conceitos necessários para concluir sobre nossos problemas baseados nos dados de pesquisa estamos preparados para a parte final da nossa disciplina que está contida na Unidade 4 Nela entraremos em contato com os principais testes estatísticos que nos permitirão aceitar ou rejeitar as hipóteses formuladas aumentando sobremaneira a relevância científica de qualquer pesquisa 95 ESTATÍSTICA seja na vida acadêmica ou profissional Espero você em breve EXERCÍCIO FINAL 7 COMPREENSÃO O parâmetro mais importante para a estatística inferencial é a curva normal ou de Gauss que descreve a densidade de probabilidade de um conjunto de variáveis em função da sua média e desviopadrão Sobre essa distribuição probabilística assinale a alternativa correta A Aproximadamente 95 dos valores dos dados devem estrar entre dois desvios padrão abaixo da média e dois desvios padrão acima da média B Sessenta e oito por cento dos dados devem estar entre 15 desvio padrão e 35 desvios padrão da média provocando uma assimetria à esquerda da curva C Quase 99 dos dados devem estar a três desvios padrão acima e abaixo da média D Os valores extremos são mais comuns que os valores centrais E A densidade de probabilidade se concentra na extremidade direita da curva normal após dois desvios padrão 8 APLICAÇÃO A Agência Nacional do Petróleo ANP pretende vistoriar uma amostra das 10 plataformas de petróleo sob a administração da iniciativa privada através de uma técnica de amostragem probabilística Para isso a ANP tabelou o tempo em anos desde que cada planta começou a produzir P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 18 12 10 9 9 7 5 3 1 1 Com base nessas informações assinale a alternativa que contém as chances em porcentagem de a ANP sortear aleatoriamente uma plataforma que produz petróleo por mais de 11 anos A 25 96 ESTATÍSTICA B 50 C 40 D 20 E 10 9 AVALIAÇÃO Considere um conjunto de variáveis representadas por notas de um de 100 alunos as quais são distribuídas de acordo com uma Curva de Gauss apresentam a média igual a 7 e desvio padrão igual a 2 Nesse caso é correto que A um aluno que obteve a nota 5 terá um escore padrão igual a 2 estando sua nota entre as 5 mais baixas do grupo de 100 alunos B um aluno que obteve a nota 10 terá um escore padrão igual a 3 estando sua nota entre as 3 mais altas do grupo de 100 alunos C um aluno que obteve a nota 6 terá um escore padrão igual a 1 estando sua nota entre as 15 mais baixas do grupo de 100 alunos D um aluno que obteve a nota 10 terá um escore padrão igual a 15 sendo a nota mais alta do grupo de 100 alunos E um aluno que obteve a nota 3 terá um escore padrão igual a 2 estando sua nota entre as 5 mais baixas do grupo de 100 alunos REFÊRENCIAS BARBETTA Pedro Alberto Estatística aplicada às ciências sociais 7 ed Florianópolis UFSC 2007 DEWITT David P TRIOLA J Introdução a estatística 10 ed Rio de Janeiro LTC 2008 DIETZ T KALOF L Introdução à estatística social a lógica do raciocínio estatística Rio de Janeiro LTC 2017 ORGANIZAÇÃO DAS NAÇÕES UNIDAS ONU Padrões de crescimento infantil para meninos de zero a cinco anos 2006 Disponível em httpswwwwhointchildgrowth standardschtlhfaboysz05pdfua1 Acesso em 04 jun 2019 ORGANIZAÇÃO DAS NAÇÕES UNIDAS ONU Global status report on road safety 97 ESTATÍSTICA 2016 Disponível em httpwwwwhointviolenceinjurypreventionroadsafety status 2015en Acesso em 04 jun 2019 SMAILES Joanne McGRANE Ângela Estatística aplicada à administração com Excel São Paulo Editora Atlas 2002 SPIEGELHALTER David BLASTLAND Michael Viver é perigoso São Paulo Publifolha 2015 TOLEDO Geraldo Luciano OVALLE Ivo Izidoro Estatística básica 2 ed São Paulo Atlas 2009 WERNER MJ Material complementar para Estatística da UNIAVAN 2018 Disponível em httpavantisestatisticablogspotcom Acesso em 29 abr 2019 ZAR JH Biostatistical Analysis 5 ed New Jersey Pearson Prentice Hall 2010 99 ESTATÍSTICA4 unidade APLICAÇÃO DE TESTES ESTATÍSTICOS 100 ESTATÍSTICA INTRODUÇÃO À UNIDADE Já sabemos que a Estatística inferencial permite que pesquisadores você por exemplo utilizem os dados coletados em seus estudos para identificar padrões extrapolar resultados de amostras para populações inteiras além de deduzir conclusões a partir de evidências e comparar grupos de variáveis BARBETTA 2007 Esses procedimentos são essenciais à pesquisa baseada em evidências pois livram os pesquisadores da maioria dos vieses que distorcem conclusões da pesquisa científica tais como preconceitos convicções prévias e desejos de confirmação É importante ressaltar que todas essas funções da Estatística inferencial não fazem parte do dia a dia da maioria de nós Por isso podem parecer a princípio complexas Contudo não há com o que se preocupar pois já temos uma boa bagagem teórica adquirida na unidade anterior Como vimos para determinado nível de significância que em resumo indica a probabilidade de um resultado apresentar a conclusão correta sobre os dados sempre que o valor de um teste estatístico paramétrico superar o valor crítico ou tabelado devemos rejeitar a hipótese nula MARTINS 2001 Você percebeu que nessa última frase retomamos quase tudo que foi aprendido na unidade anterior Se você ainda tem dúvidas sobre nível de significância probabilidade de um evento valor crítico e hipótese nula releia a Unidade 3 pois precisaremos desses conceitos para inferirmos conclusões a partir dos resultados dos testes estatísticos calculados Com esse conceito estabelecido os objetivos da Unidade 4 são Calcular estatísticas de testes paramétricos e não paramétricos Aceitar ou refutar hipóteses a partir do cálculo de estatísticas Concluir sobre problemas de pesquisa com base em dados e evidências Antes de prosseguirmos uma consideração importante há diversos testes estatísticos que são adequados para diferentes situações tipos de dados e formas de apresentação MARTINS 2001 Em nossa disciplina aprenderemos a calcular os principais testes que serão suficientes para quase todas as situações com as quais você se deparar Mesmo assim se você precisar de algo mais específico em sua vida profissional não se preocupe porque a lógica será a mesma Com isso em mente vamos em frente 101 ESTATÍSTICA 4 APLICAÇÃO DE TESTES ESTATÍSTICOS A forma mais comum de classificar os testes estatísticos inclusive utilizada em nossa bibliografia dê uma conferida diz respeito à distribuição conhecida provável ou estimada das variáveis do seu interesse Antes de continuarmos gostaria de dar uma sugestão Não é difícil encontrar vídeos tutoriais sobre cálculos de testes estatísticos específicos para cada tipo e característica de dados em repositórios de vídeos como o Youtube Recomendo que você faça uso deles para fixar seus conhecimentos e esclarecer dúvidas conforme surjam nos próximos itens Mas inicialmente gostaria de sugerir um filme para continuarmos com o assunto da disciplina sem tanta formalidade SUGESTÃO DE FILME Tratase de Florence Nightingale história da enfermagem um filme inglês que estreou no Brasil em 2008 e é baseado na história real de uma cuidadora de soldados feridos na Guerra da Criméia O filme retrata como essa enfermeira utiliza os dados que obtém dos pacientes para tomar e influenciar decisões baseadas em evidências sem se prender a clichês É hora de fazermos uma importante consideração referente à forma da distribuição probabilística dos dados populacionais dos quais a amostra que será seu objeto de pesquisa foi retirada Basicamente podemos separar nossos conjuntos de variáveis em paramétricos e não paramétricos Quando for possível identificar parâmetros populacionais tais como médias desviopadrão entre outras medidas descritivas devemos considerar a aplicação de testes estatísticos paramétricos que veremos a seguir Por outro lado quando não houver a necessidade eou possibilidade de estimar parâmetros para o conjunto de variáveis em estudo ou ainda quando a distribuição dos dados não puder ser verificada devemos utilizar testes estatísticos não paramétricos SMAILES McGRANE 2002 Vejamos alguns testes com seus respectivos exemplos de utilização 102 ESTATÍSTICA 41 TESTES ESTATÍSTICOS PARAMÉTRICOS Você já sabe tenho certeza que a principal matériaprima da Estatística são os dados ou variáveis No caso de pesquisas quantitativas dados são informações obtidas principalmente a partir das medições em amostras da população pois é muito difícil quase sempre medir entrevistar pesar ou experimentar a população inteira tenha em mente os conceitos de amostra e população na Estatística Dessa forma é muito útil ao pesquisador ou à pesquisadora identificar se a amostra que é seu objeto de estudo tem uma média diferente da população da qual foi supostamente retirada Há vários testes estatísticos que se encaixam em cada um dos diversos tipos de variáveis que compõem nossos dados de pesquisa Nos próximos itens abordaremos as principais situações nas quais você durante sua pesquisa pode se deparar Contudo é importante ressaltar que em uma pesquisa real da sua vida acadêmica e profissional você poderá sentir a necessidade de um teste específico que não foi abordado nesta disciplina Não se preocupe pois a lógica que permite a você tomar a decisão baseada nos dados é a mesma sendo diferente apenas a estatística ou fórmula do teste Vamos antecipadamente descrever os passos para a inferência estatística de uma pesquisa com quaisquer dados paramétricos Primeiro formule as hipóteses nula e alternativa que representam a igualdade e a diferença respectivamente Segundo escolha o teste estatístico mais adequado às características dos dados da pesquisa Em seguida calcule a estatística do teste para comparar com o valor crítico para aquele teste de acordo com um nível de significância escolhido Por fim conclua aceitando a hipótese alternativa no caso de a estatística calculada ultrapassar o seu valor crítico ou aceitando a hipótese nula em caso contrário FREUND SIMON 2000 Veja o exemplo a seguir PARA REFLETIR A gravidez na adolescência ainda é um problema grave no Brasil e por isso talvez você queira pesquisála Primeiramente você vai à Secretaria de Saúde do seu município e tenta descobrir qual a idade média das gestantes atendidas pelo programa de saúde da família promovido pela prefeitura O secretário municipal informa que tem todos os dados e afirma convicto que a idade média das gestantes é igual a 25 anos com um 103 ESTATÍSTICA desviopadrão igual a 12 anos se você tivesse todas as idades também conseguiria calcular os parâmetros é só seguir os passos descritos na Unidade 2 Olhando ao seu redor você vê algumas adolescentes grávidas desconfia da informação e decide realizar uma pesquisa para confirmar ou refutar o discurso do poder público Então você realiza a amostragem probabilística mais adequada lembrese da Unidade 1 e descobre que em sua amostra as moradoras das áreas de abrangência do programa que estão grávidas têm 20 anos em média E agora Será o que o secretário estava mentindo ou a variação foi aleatória devido ao erro inerente às amostras A resposta é depende 411 Teste Z para médias Vimos na unidade anterior que o escore padrão ou Z indica quantos desviospadrão uma determinada medição está além ou aquém da média BARBETTA 2007 A fórmula do teste Z é muito parecida com a do escore padrão mas apresenta uma informação adicional que faz com que o tamanho da amostra seja relevante para a conclusão do pesquisador mantra da Estatística quanto maior a amostra menor o erro amostral e viceversa Por isso precisamos compreender outro conceito o erro padrão da média que é a estimativa do desviopadrão de todas as médias de tamanho n eventualmente retiradas de uma população Sua fórmula é Essa é a estimativa que devemos utilizar no lugar do desviopadrão que é o denominador do escore Z Outra diferença devese ao fato de que no escore padrão utilizamos apenas uma medição por isso ou um qualquer enquanto que na estatística Z o número de variáveis depende do tamanho da nossa amostra n e por isso utilizamos a média dessas medições ou no numerador FREUND SIMON 2000 Vou reinserir a fórmula do escore padrão para ficar mais claro 104 ESTATÍSTICA Dado o que comentamos acima a fórmula da estatística Z é Além disso é importante frisar que as estatísticas Z e t que será vista na sequência apresentam distribuições simétricas Sabendo disso cabe ressaltar que o teste pode ser unilateral ou bilateral Se optarmos por um teste unilateral estaremos indicando que desejamos verificar se a média amostral é maior ou menor que a média populacional somente uma das duas opções Já se optarmos pelo teste bilateral estaremos indicando que pretendemos verificar se a média amostral é diferente pode ser maior ou menor da média populacional SMAILES McGRANE 2002 Na maioria das vezes é preferível optar pelo teste bilateral pois eventualmente as intervenções podem ter efeito inesperado por exemplo aumento da quantidade de exercícios pode causar o aumento do peso de uma pessoa Além disso considerando a simetria dessas distribuições qualquer valor positivo será correspondente ao mesmo valor negativo DOWNING 2002 como veremos no exemplo a seguir EXEMPLO Retomemos os dados sobre as gestantes no seu município e vamos incluir mais uma informação você obteve a idade média de 20 anos com base em 36 usuárias entrevistadas Sabendo que a média populacional é igual a 25 anos com desvio padrão igual a 12 anos de acordo com informações do secretário podemos calcular a estatística Z Mas antes que tal formularmos as hipóteses Como já sabemos a hipótese nula representa a igualdade enquanto a hipótese alternativa representa a diferença FREUND SIMON 2000 portanto nesse caso ou seja a hipótese nula indica que a média amostral é igual a média populacional a variação verificada foi aleatória e a hipótese alternativa indica que o média amostral é diferente pode ser maior ou menor da média populacional informada pelo secretário Saiba ainda que o valor crítico para esse conjunto de dados é igual a 196 positivo ou 105 ESTATÍSTICA negativo pois as distribuições Z e t são simétricas para o nível de significância de 95 BARBETTA 2007 WERNER 2018 esses valores sempre serão informados mas se quiser obter outros dê uma olhada no blog que complementa nosso material Agora basta calcularmos a estatística Z para compararmos com o valor crítico O que esse resultado significa Se você captou bem as informações da unidade anterior já sabe O valor calculado tem que ser comparado ao valor tabelado ou crítico e se ultrapassálo em módulo despreze o sinal a hipótese nula deve ser rejeitada Nesse caso o valor calculado foi maior que o crítico e portanto devemos rejeitar a hipótese nula A variação não foi aleatória e podemos afirmar com um nível de significância de 95 que o secretário estava mentindo EXERCÍCIO Chegou a hora de verificarmos na prática a influência do tamanho da amostra Imagine que para os mesmos dados você obteve a média de idade a partir da medição de apenas 16 gestantes percebeu que apenas o n mudou Acho que você já consegue calcular o teste Z e chegar à conclusão sozinh Vamos lá 412 Teste t de Student para médias O item anterior foi bastante extenso e trouxe conceitos com os quais não estamos tão familiarizados Por isso pode ser que alguns de nós consideremos aquela informação de difícil transposição Se for o seu caso revise atentamente os principais pontos pois a boa notícia é que o teste t tem praticamente a mesma fórmula e segue a mesma lógica de inferência Os únicos detalhes que diferenciam os dois testes são o critério de escolha e a estimativa do desvio padrão Em relação ao critério de escolha o tamanho da amostra e 106 ESTATÍSTICA o conhecimento dos parâmetros da população a partir da qual a amostra foi retirada são determinantes O teste t deve ser utilizado quando não possuirmos o desviopadrão da população eou quando o n amostral for muito menor que a população Já comentamos que raramente um pesquisador possui os parâmetros da população como no caso do secretário que afirmava têlos pelo resultado do item anterior parece que na realidade não tinha Isso acontece porque muitas vezes é inviável medir o conjunto completo de variáveis seja por falta de tempo verba para a pesquisa ou simplesmente impossibilidade prática Por essa razão o teste t é muito mais utilizado na Estatística que o teste Z TOLEDO OVALLE 2009 Tanto o desconhecimento do desvio padrão que deve ser estimado quanto a quantidade relativamente mais baixa de dados amostrais característicos da estatística t fazem com que o erro amostral seja maior que o encontrado na estatística Z DOWNING 2002 Veja como isso pode ser observado no Gráfico 13 padronizado a seguir Gráfico 13 Diferenças nas densidades de probabilidade das estatísticas Z e t Fonte O autor 2019 Felizmente tudo o que aprendemos sobre o teste Z servirá para o teste t A única diferença será o valor crítico que pertence à tabela própria desta estatística Confira a fórmula para o cálculo de t para uma amostra note que o desvio padrão populacional foi substituído pelo amostral Vamos a mais um exemplo dessa vez realizando o passo a passo de uma pesquisa quantitativa Destaco novamente que em nossos exemplos e avaliações o valor da 107 ESTATÍSTICA estatística crítica sempre será dado Contudo as tabelas estão disponíveis em qualquer bom livro de Estatística e se você for procurálos para conduzir estudos ou realizar exercícios saiba que o tamanho da amostra influencia no seu valor Você precisa procurar na linha indicada pelos graus de liberdade referenciado como GL ou v que nada mais é que o número de dados menos 1 ou seja n 1 PARA REFLETIR Vamos supor agora que você queira descobrir se o uso de um anticoncepcional com estrógeno causa alterações de peso em mulheres tanto para mais quanto para menos teste bilateral Para isso você mediu o peso de 4 mulheres antes e depois de dois anos de uso contínuo As diferenças foram 6 6 6 e 6 valores positivos indicam ganho de peso o valor negativo indica perda de peso O valor crítico de t para n 4 é 3182 TOLEDO OVALLE 2009 para o nível de significância de 95 conforme tabela reproduzida a seguir Tabela 14 Valores críticos para a estatística t com destaque para o valor crítico referente ao nível de significância de 95 e n 4 Graus de liberdade n1 90 95 99 1 6314 12706 63657 2 2920 4303 9925 3 2353 3182 5841 4 2132 2776 4604 5 2015 2571 4032 6 1943 2447 3707 7 1895 2365 3499 8 1860 2306 3355 9 1833 2262 3250 10 1812 2228 3169 11 1796 2201 3106 12 1782 2179 3055 13 1771 2160 3012 14 1761 2145 2977 15 1753 2131 2947 16 1746 2120 2921 17 1740 2110 2898 18 1734 2101 2878 19 1729 2093 2861 infinito Z 1645 1960 2576 Nível de significância Fonte Adaptado de Toledo Ovalle 2009 108 ESTATÍSTICA O primeiro passo é formular as hipóteses nula e alternativa Como já vimos a hipótese nula é a hipótese da igualdade e a hipótese alternativa é a da diferença Portanto para esse caso Ho µ 0 ou seja a média da população de onde esta amostra foi retirada pesos de todas as mulheres que tomam esse tipo de anticoncepcional é igual a zero e H1 µ 0 ou seja a média pode ser maior ou menor que zero houve alteração de peso para mais ou para menos O próximo passo é realizar o cálculo do teste O último passo consiste em interpretar o resultado Considerando que o valor calculado foi igual a 1 e não ultrapassou o valor crítico que é igual a 3182 devemos aceitar a hipótese nula ou seja o anticoncepcional não altera o peso das usuárias ainda que o peso médio daquela amostra tenha sido 3 kg maior não significa que a população de mulheres que tomam esse anticoncepcional terá peso maior PARA REFLETIR Se a amostra fosse de 100 mulheres como acha que seria o resultado Pesquise calcule e descubra a importância do tamanho das amostras 413 Teste t para Comparar Duas Amostras Pareadas Antes uma consideração há diversas formas de identificar diferenças significantes entre duas amostras e a escolha do teste depende das condições da pesquisa Em nossa disciplina estudaremos as principais formas de se comparar estatisticamente 109 ESTATÍSTICA dois grupos Como já salientado se houver necessidade de utilizar outras formas de comparação na sua pesquisa real ou vida profissional você estará bem encaminhado para utilizar outros testes pois a lógica de inferência será a mesma e apenas alguns itens das fórmulas mudarão Neste item estudaremos o teste que permite a inferência sobre a diferença estatisticamente significante entre dois grupos que são pareados e apresentam uma distribuição aproximadamente normal lembrese da Curva de Gauss ou Distribuição normal que discutimos nas unidades anteriores Pareamento das variáveis significa que os dados não são independentes sua comparação se justifica pela aplicação de um treinamento tratamento ou ainda avaliação por diferentes atores DOWNING 2002 Para ficar mais claro se as vendas de um mesmo grupo de corretores de imóveis forem comparadas antes e depois de um curso de técnicas de venda podemos verificar se as diferenças são significantes e portanto o curso teve o efeito esperado Também seria justificada nossa pesquisa para identificar diferenças significantes caso um mesmo grupo de pessoas com déficit de atenção fosse submetido a tratamento farmacológico ou psicológico Outra utilidade do teste pareado seria a verificação de semelhança ou diferença entre avaliação de segurança de brinquedos feita por duas empresas avaliadoras distintas entre muitas outras aplicações Por que você não pensa em um exemplo que pode ser objeto de investigação na sua área de atuação Para todos esses casos a fórmula do teste t para comparação de dois grupos pareados é onde média das diferenças antes e depois desviopadrão das diferenças Teoricamente é simples Vamos ver se também é fácil na prática Imagine que você queira verificar se aquela receita de chá da família realmente abaixa um tipo de colesterol e para isso decide realizar um exame bioquímico antes e depois de tomar o chá Suponha ainda que 4 amigos se submeteram ao teste Tabela 15 cujos resultados foram 110 ESTATÍSTICA Tabela 15 Colesterol medido antes e depois da ingestão de chá antes do chá depois do chá Ana 100 90 Beto 60 50 Carlos 100 70 Diana 60 50 Participante Nível de colesterol em mgdl Fonte O autor 2019 Bom não há dúvidas que se trata de uma comparação entre grupos pareados pois as mesmas pessoas serão medidas antes e depois de um tratamento Também podemos supor que a distribuição dos níveis desse colesterol deve ser aproximadamente normal e não temos motivos para acreditar que suas variâncias não são iguais Sendo assim podemos usar o teste t para comparar os dois grupos antes e depois sabendo que o valor crítico para o nível de significância e o tamanho amostral é igual a 2447 TOLEDO OVALLE 2009 lembrese que sempre informaremos o valor nas atividades mas você pode consultar em qualquer bom livro de estatística Estamos realizando esse teste estatístico passo a passo mas você pode ir direto à fórmula do teste t caso esteja confiante Primeiramente vamos incluir uma nova linha e uma nova coluna para calcularmos as diferenças e as médias conforme representadas na Tabela 16 Tabela 16 Colesterol medido diferenças e médias antes do chá depois do chá Ana 100 90 10 Beto 60 50 10 Carlos 100 70 30 Diana 60 50 10 Médias 80 65 15 Nível de colesterol em mgdl Participante Diferenças Fonte O autor 2019 Analise os dados que estão disponíveis já temos a diferença média e o número de dados n Para calcularmos o t falta somente o desviopadrão das diferenças então vamos calculálo Mas antes uma pergunta você se lembra da fórmula do desvio padrão que estudamos na Unidade 2 Vou relembrála 111 ESTATÍSTICA Sendo assim para o conjunto de dados formado pelas diferenças ou seja 10 10 30 e 15 o desvio padrão é Finalmente com todas as informações basta substituir na fórmula do teste Com o valor do teste calculado já podemos inferir a respeito da eficiência do chá sobre o valor do colesterol nota os valores são fictícios para auxiliar nossa aprendizagem e qualquer alteração na sua saúde deve ser acompanhada pelo profissional adequado Como informado anteriormente o valor crítico da estatística t para esse caso com nível de significância de 95 é igual a 2447 como em todos os casos de testes paramétricos se o valor da estatística calculada ultrapassar o valor crítico devemos rejeitar a hipótese nula de igualdade e considerarmos a hipótese alternativa DEWITT TRIOLA 2008 ou seja há diferença estatisticamente significante entre os valores de colesterol antes e depois do chá Vamos organizar essas etapas a Estabelecimento das hipóteses b Escolha do nível de significância e seu respectivo valor crítico c Cálculo do valor do teste estatístico t neste caso 112 ESTATÍSTICA d Decisão baseada em dados e Conclusão do problema de pesquisa Isso significa que com um nível de significância de 95 os níveis de colesterol foram alterados pela ingestão do chá 414 Análise de Variância para Comparar Três Amostras ou Mais Quando for necessária a comparação entre mais de dois tratamentos ou grupos paramétricos que aprendemos a realizar com os testes t e Z a probabilidade de rejeitar incorretamente a hipótese nula aumenta ZAR 2010 Para evitar esse aumento na probabilidade de erro quando houver mais de dois tratamentos para serem comparados devese optar pela análise de variância ou ANOVA também conhecida como estatística F É hora de ressaltar que há várias formas de se utilizar a ANOVA Contudo o estudo aprofundado da ANOVA está além dos objetivos desse nosso curso mas saiba que podem ocorrer situações na pesquisa real que necessitem outras aplicações e quando for o caso os procedimentos básicos para confirmar ou refutar suas hipóteses continuam valendo para a ANOVA bastando apenas desenvolver cálculos específicos na fórmula completa Em nossa disciplina apenas estudaremos a análise de variância de fator único para testar a seguinte hipótese nula onde k número de tratamentos Isso significa que como sempre até agora iremos calcular o valor da estatística F para comparar com o valor crítico fornecido e se aquele valor calculado ultrapassar este crítico devemos rejeitar a hipótese nula igualdade que afirma que todas as médias populacionais são iguais 113 ESTATÍSTICA Na realidade a ANOVA compara a variação entre os grupos com a variação de ocorre dentro dos grupos DEWITT TRIOLA 2008 Sua fórmula resumida é ou seja quanto maior a proporção da variação entre um grupo maior será o valor de F enquanto que uma grande variação dentro de um grupo reduzirá o valor de F Como em qualquer teste estatístico visto até aqui o aumento da estatística calculada aumenta as chances de se rejeitar a hipótese nula DEWITT TRIOLA 2008 pois quando comparamos com as estatísticas críticas tabeladas há maior chance de ultrapassálas Você pode encontrar mais de uma maneira de calcular o valor da ANOVA em nossa bibliografia A forma adotada nesta unidade é a mais prática e será suficiente para qualquer exemplo exercício ou atividade em nossa disciplina Antes de mais nada vale destacar que a soma dos desvios ao quadrado é comumente referida como simplesmente soma dos quadrados ou SQ Também será bastante útil ter em mente que a soma dos quadrados total é composta pela soma dos quadrados entre juntamente com a soma dos quadrados dentro DEWITT TRIOLA 2008 de modo que A soma dos quadrados dentro dos grupos ou tratamentos é o procedimento mais simples das três variáveis que compõem a fórmula acima Para obtêla basta identificar a média de cada tratamento e elevar ao quadrado a diferença entre esta média e cada elemento daquele tratamento TOLEDO OVALLE 2009 A soma da diferença ao quadrado de cada grupo compõe a SQ dentro DEWITT TRIOLA 2008 Vejamos na Tabela 17 como pode ser representado o cálculo da soma dos quadrados dentro de um conjunto genérico composto por duas medições em cada um de três tratamentos Tabela 17 Esquema genérico para cálculo da SQ dentro Medição Tratamento 1 Tratamento 2 Tratamento 3 A x w t B y z u Médias média do tratamento 1 m1 média do tratamento 2 m2 média do tratamento 3 m3 Soma dos quadrados x m1² y m1² w m2² z m2² t m3² u m3² SQ dentro SQ tratamento 1 SQ tratamento 2 SQ tratamento 3 Fonte O autor 2019 114 ESTATÍSTICA Já a SQ total pode ser obtida pela elevação ao quadrado da diferença entre a média do conjunto total e cada elemento da pesquisa DEWITT TRIOLA 2008 independentemente do grupo ao qual pertence Sendo assim Soma dos quadrados total SQ total é obtido pelo cálculo de x M² y M² w M² z M² t M² u M² onde M é o resultado de xywztu dividido pelo total de medições Chegou a hora de incluirmos alguns números para facilitar o entendimento Vamos considerar que o objetivo de sua pesquisa é verificar se há diferença significante entre três cursos de língua estrangeira observando o resultado de três alunos de cada curso TABELA 18 Os dados sobre uma pontuação padronizada são os seguintes Tabela 18 Pontuação de três alunos após estudar em três cursos diferentes Curso Z Curso Y Curso X Alex 2 4 6 Bruno 4 6 8 Carlos 6 8 10 Aluno Pontuação Fonte O autor 2019 Agora incluiremos as médias de cada curso para facilitar o cálculo das somas dos desvios ao quadrado dentro dos grupos ou simplesmente SQ dentro TABELA 19 Tabela 19 Pontuações e médias de três alunos Curso Z Curso Y Curso X Alex 2 6 6 Bruno 4 4 8 Carlos 6 8 10 Médias 4 6 8 Aluno Pontuação Fonte O autor 2019 Com base nessas informações 115 ESTATÍSTICA Já a soma dos quadrados total SQ total pode ser calculado como segue Em seguida vamos calcular o quadrado da diferença entre a média geral e cada elemento do nosso conjunto de dados para obter a SQ total Outra informação importante para nosso sucesso no cálculo da ANOVA referese ao conceito de graus de liberdade GL De acordo com Toledo e Ovalle 2009 tratase do valor pelo qual a soma dos quadrados SQ deve ser dividido para que possamos obter seu valor médio O número de graus de liberdade entre grupos é igual ao número de grupos k menos um GL entre k 1 enquanto o grau de liberdade dentro dos grupos é igual ao número total de dados menos o número de grupos GL dentro N k Gostaria de sugerir o preenchimento de uma tabela com as seguintes informações que facilitará nossos cálculos e conclusão TABELA 20 Tabela 20 Dados para cálculo da estatística F SQ médio F SQ SQ médio entre GL SQ médio dentro Entre grupos SQ total SQ dentro 3 1 Dentro dos grupos 24 N k Total 48 N 1 GL Fonte da variação SQ Fonte O autor 2019 Aplicando os cálculos simples para preencher toda a Tabela 21 Tabela 21 Requisitos para o cálculo de F SQ médio F SQ SQ médio entre GL SQ médio dentro Entre grupos 24 2 12 3 Dentro dos grupos 24 6 4 Total 48 8 GL Fonte da variação SQ Fonte O autor 2019 116 ESTATÍSTICA Ufa Apesar de não haver nenhum procedimento difícil são vários passos até alcançarmos o valor da estatística calculada Mas com esse número disponível basta comparar o F calculado com o crítico 514 para o nível de significância de 95 para poder chegar à conclusão Considerando que o valor calculado não ultrapassou o F crítico aceitamos a hipótese nula DEWITT TRIOLA 2008 ou seja não há diferença estatisticamente significante entre as médias dos três grupos Veja mais um exemplo simples EXEMPLO Suponha que você seja um industrial tentando determinar se há diferença estatisticamente significante na produtividade de operários que ingerem água suco de laranja ou café durante os intervalos Como de praxe a hipótese nula será a de que não há diferença na produtividade relacionada à ingestão das três bebidas enquanto a hipótese alternativa será a de que pelo menos uma bebida promove maior ou menor produtividade do trabalho que outra Perceba que há três grupos água café e suco de uva e suponha que haja 3 medições em cada grupo Se houver uma grande variação dentro de cada grupo ou seja cada medição for muito diferente de outras é mais provável que a bebida não causa tanta diferença mas sim outras características dos participantes do experimento Já se for observada uma grande variação entre os três tratamentos é mais provável que as bebidas causem a diferença na produtividade É essa relação entre a variação dentro dos grupos com a variação entre os grupos que a ANOVA nos fornece em forma de um número que será comparado com o valor crítico tabelado Que tal assumir alguns números para o exemplo acima e tornar a aprendizagem mais divertida EXERCÍCIO Imagine que três operários da indústria descrita ingeriram água durante os intervalos de uma determinada semana e produziram em milhares 1 2 e 3 peças respectivamente Na semana seguinte durante a qual ingeriram suco de laranja produziram 5 6 e 7 mil peças respectivamente Por fim na última semana do experimento os 117 ESTATÍSTICA três funcionários ingeriram café durante os intervalos e sua produção foi de 3 4 e 5 mil peças Com base nesses números e sabendo que o valor crítico de F para este conjunto de dados é igual a 514 podemos afirmar que a bebida ingerida influencia na produção daquela indústria Vamos tabelar os dados para facilitar a visualização Água Suco Café Operário A 1 5 3 Operário B 2 6 4 Operário C 3 7 5 Produção em milhares de peças Funcionário Com base nesses dados qual sua conclusão em relação à produtividade associada à ingestão das três bebidas Todos os testes estatísticos que estudamos até agora podem ser agrupados em uma categoria chamada de testes paramétricos pois são baseados em parâmetros populacionais tais como média e variância BARBETTA 2007 Porém alguns métodos estatísticos não requerem a estimação dos parâmetros e portanto podem ser usados para análise de variáveis cujas distribuições não são conhecidas Isso acontece quando por exemplo não podemos verificar se os dados têm uma distribuição normal BARBETTA 2007 Veremos dois dos principais testes não paramétricos no próximo item 42 TESTES ESTATÍSTICOS NÃO PARAMÉTRICOS A maioria dos testes nãoparamétrios utiliza técnicas que convertem os dados observados em posições relativas ou rankings o que traz a vantagem de diminuir a influência de outliers se você esqueceu o que significa reveja a Unidade 1 Por outro lado alguma informação sobre os dados é perdida na conversão e quando comparado aos testes paramétricos os testes nãoparamétricos têm uma probabilidade de cometer erro ligeiramente superior NAZARETH 2001 Outra consideração bastante importante é necessária alguma experiência em análise de dados e o conhecimento de outros métodos de verificação de distribuições que extrapola os objetivos da nossa disciplina para identificar a necessidade de se utilizar um teste não paramétrico Mas não se preocupe nossos exercícios exemplos e avaliações 118 ESTATÍSTICA indicarão claramente essa necessidade 421 Teste U para Comparar Duas Amostras Agora que já temos uma noção de estatística nãoparamétrica vamos ser mais específicos A comparação de conjuntos de variáveis nãoparamétricas é necessária para verificarmos se esses conjuntos apresentam diferença estatisticamente significante entre eles ou a variação percebida foi apenas aleatória Imagine por exemplo que você pretende descobrir se os alunos da sua sala têm alturas diferentes das alunas Antes de mais nada você formula as hipóteses sendo H0 alunos e alunas têm alturas iguais e H1 alunos e alunas têm alturas diferentes Em seguida você realiza uma das 4 amostragens probabilísticas que você aprendeu e mede 7 alunos selecionados cujos resultados em centímetros são 190 187 184 181 180 174 e 169 e 5 alunas selecionadas resultados 164 165 168 173 e 178 Se você desejasse utilizar alguma técnica de estatística descritiva poderia informar que a média dos alunos é maior que a média das alunas ou alguma informação sobre o desviopadrão coeficiente de variação etc Contudo como já dissemos a Estatística inferencial tema desta unidade vai além O que queremos determinar é se dado o nível de significância como sempre 95 essas duas amostras que chamamos genericamente de Grupo 1 e Grupo 2 vêm de populações com alturas médias diferentes ou iguais Para podermos concluir corretamente devemos utilizar um teste estatístico Sendo assim vamos às fórmulas do teste U também chamado de MannWhitney onde n1 é o número de dados do grupo 1 alunos neste caso n2 é o número de dados do grupo 2 alunas e R1 é a soma dos rankings das variáveis do grupo 1 Para facilitar a compreensão vamos dispor na Tabela 22 os dados em duas colunas e determinar suas quantidades de dados ou tamanhos amostrais n Tabela 22 Altura suposta em centímetros de 7 alunos e 5 alunas 119 ESTATÍSTICA Grupo 1 alunos Grupo 2 alunas 190 164 187 165 184 168 181 173 180 178 174 169 n 1 7 n 2 5 Fonte O autor 2019 Agora falta somente a soma dos rankings do grupo 1 R1 Para isso basta colocar o número ordinal em cada uma das medições independentemente da amostra começando pelo menor se for começar pelo maior o resultado será o mesmo Sendo assim o menor número de todas as 12 medições será o número 1 o segundo menor o número 2 e assim por diante Após colocar todos os ordinais basta somar os que pertencem ao grupo 1 para obter o R1 que precisamos para completar a fórmula Vejamos na Tabela 23 como ficaria Tabela 23 Altura suposta em centímetros de 7 alunos e 5 alunas com suas posições relativas entre parênteses 190 12 164 1 187 11 165 2 184 10 168 3 181 9 173 5 180 8 178 7 174 6 169 4 n 1 7 R 1 60 n 2 5 R 2 18 Grupo 1 alunos Grupo 2 alunas Fonte O autor 2019 Finalmente vamos calcular o U1 e U2 e comparar o menor deles com o U crítico fornecido pela Tabela 24 a seguir que é igual a 5 para esse conjunto de dados com n1 7 e n2 5 120 ESTATÍSTICA Tabela 24 Valores críticos de U para o nível de significância de 95 5 6 7 8 9 10 11 12 13 14 15 5 2 3 5 6 7 8 9 11 12 13 14 6 5 6 8 10 11 13 14 16 17 19 7 8 10 12 14 16 18 20 22 24 8 13 15 17 19 22 24 26 29 9 17 20 23 26 28 31 34 10 23 26 29 33 36 39 11 30 33 37 40 44 12 37 41 45 49 13 45 50 54 14 55 59 15 64 n2 número de dados do grupo 2 n1 número de dados do grupo 1 Fonte Adaptado de Dewitt Triola 2008 PARA REFLETIR Preste muita atenção porque exclusivamente no caso da estatística U se o valor da estatística calculada for menor que o crítico rejeitamos a hipótese nula há igualdade e aceitamos a hipótese alternativa há diferença Perceba que é o procedimento exatamente oposto daquele utilizado na estatística paramétrica bem como daquele utilizado para comparação de três amostras não paramétricas DEWITT TRIOLA 2008 Vamos aos cálculos Considerando que o menor número entre U1 e U2 é 3 devemos comparálo com o valor de U crítico tabelado que é 5 Sendo o U calculado menor que o crítico tabelado 121 ESTATÍSTICA rejeitamos H0 e aceitamos H1 ou seja os alunos e as alunas não têm a mesma altura pois a diferença entre esses grupos é estatisticamente significante 422 Teste H para Comparar Três Amostras ou Mais O princípio do teste de KruskalWallis é o mesmo da estatística U pois também utilizaremos o tamanho de cada amostra além da soma do ranking ou posições relativas Apesar de apresentar uma fórmula diferente todas as considerações a respeito das características de um conjunto de dados nãoparamétricos feitas no item anterior continuam válidas inclusive a informação nos exercícios exemplos e avaliações sobre a necessidade de se utilizar um teste nãoparamétrico O teste H deve ser usado quando precisarmos identificar se há diferença significante entre 3 ou mais amostras pois o teste U permite a comparação apenas entre 2 amostras DEWITT TRIOLA 2008 A fórmula do teste de KruskalWallis é A fórmula parece ser uma pouco mais complicada que a anterior mas se calcularmos o termo separadamente facilitará muito o processo Lembrese que o i sobescrito em R e n representa o número de grupos que devem ser comparados DEWITT TRIOLA 2008 Vamos supor que desejamos comparar três ou quatro grupos Nesses casos os termos ficariam assim respectivamente Mais fácil não é mesmo Agora vamos como o cálculo ocorre na prática EXEMPLO Imagine que você queira determinar se há diferença estatisticamente significante entre o índice de massa corporal IMC de três grupos de 5 mulheres 122 ESTATÍSTICA cada selecionadas aleatoriamente nas cidades de Balneário Camboriú São Paulo e Rio de Janeiro Como você já deve saber vamos iniciar formulando as hipóteses H0 mulheres têm o mesmo IMC nas três cidades e H1 em pelo menos uma das três cidades as mulheres têm IMC diferente Agora apresentamos os dados na Tabela 25 que são seu objeto de estudo Tabela 25 IMC suposto de 15 mulheres em 3 cidades diferentes Ana IMC 225 Fran IMC 170 Karla IMC 169 Bia IMC 235 Gabi IMC 183 Leia IMC 180 Cléo IMC 239 Hilda IMC 195 Marta IMC 189 Diana IMC 242 Ivana IMC 200 Noeli IMC 212 Eva IMC 256 Julia IMC 231 Olga IMC 218 Balneário Camboriú São Paulo Rio de Janeiro Fonte o autor 2019 Como precisamos da informação referente à posição relativa das medições vamos incluir os rankings entre parênteses assim como fizemos no item anterior além de adicionar uma linha com a soma destes valores TABELA 26 juntamente como o tamanho amostral de cada grupo n Tabela 26 IMC suposto de 15 mulheres e posições relativas entre parênteses 225 10 170 2 169 1 235 12 183 4 180 3 239 13 195 6 189 5 242 14 200 7 212 8 256 15 231 11 218 9 n 1 5 R 1 64 n 2 5 R 2 30 n 2 5 R 2 26 Rio de Janeiro Balneário Camboriú São Paulo Fonte o autor 2019 Antes de realizarmos o cálculo final valor calcular separadamente a expressão que representa simplesmente o somatório de cada ranking ao quadrado dividido por seu número amostral 123 ESTATÍSTICA Finalmente podemos substituir na fórmula Considerando que o valor crítico de H para 3 grupos de 5 variáveis cada é igual 578 para o nível de significância de 95 DEWITT TRIOLA 2008 rejeitamos a hipótese nula pois o H calculado ultrapassou o H crítico PARA REFLETIR Percebeu que somente a estatística U nos obriga a rejeitar se hipótese nula se o valor calculado for menor que o crítico Todos os outros testes estatísticos fazem exatamente o oposto o valor calculado deve ser maior que o crítico para rejeitarmos a hipótese nula Portanto pelo menos em uma das 3 cidades as mulheres apresentam um IMC maior e a diferença não foi aleatória Sempre que isso acontece cabe ao pesquisador explicar essa diferença na conclusão ou considerações finais do seu trabalho de pesquisa SAIBA MAIS Agora que já conhecemos os procedimentos para o cálculo de dois testes estatísticos não paramétricos que utilizam os rankings em vez dos valores dos dados gostaria de acrescentar uma informação que não será necessária em nossas avaliações para evitar o aumento da complexidade em assuntos tão pouco discutidos ao longo da nossa educação formal e porque extrapola o objetivo da disciplina mas que pode aparecer em sua pesquisa na prática Tratase da possibilidade de nos depararmos com valores iguais entre as variáveis Quando isso ocorrer para calcularmos o ranking devemos fazer a média aritmética simples das posições e atribuir o valor aos valores repetidos DEWITT TRIOLA 2008 Por exemplo se tivermos os valores 13 15 15 e 17 os rankings entre parênteses ficariam 13 1 15 25 que é a média entre as posições 2 e 3 15 25 17 4 Exclusivamente nesses casos em que há empate nos rankings da estatística H 124 ESTATÍSTICA precisaremos aplicar um fator de correção que é definido de acordo como o número de empates e altera ligeiramente o valor do H calculado 43 FÓRUM O Instituto Brasileiro de Geografia e Estatística IBGE vira notícia em todos os anos em que há eleições mas você sabia que pesquisas eleitorais compõem uma fração mínima do trabalho deste instituto O IBGE coleta dados nossa matériaprima sobre os mais variados assuntos Sendo assim vou propor que você escolha um tema do seu interesse crie uma informação nova e compartilhe com seus colegas Vai funcionar assim entre na página específica do IBGE sobre cidades em https cidadesibgegovbr e navegue para se familiarizar saiba que é possível acessar através de qualquer dispositivo como smartphone computador ou notebook Para cada um dos mais de 5500 municípios brasileiros há informações sobre população densidade demográfica e religião por exemplo trabalho e rendimento como salário médio e percentual de ocupados educação notas do IDEB taxas de escolarização entre outras economia por exemplo PIB por pessoa e IDH municipal saúde como mortalidade infantil ou internações por diarreia e território e ambiente entre elas esgotamento sanitário ou arborização IBGE 2019 Escolha qualquer tema que lhe interesse e selecione algumas cidades no mínimo 5 em cada grupo para fazer alguma comparação utilizando algum dos testes estatísticos que acabamos de estudar Alguns avisos são importantes para serem comparáveis os valores devem estar em unidades padronizadas tais como porcentagens ou proporções todas as sugestões acima estão padronizadas mas você pode escolher qualquer outra que consta no site bastando realizar um procedimento de padronização se tiver dúvida dê uma olhada na unidade anterior Não se esqueça de fazer o procedimento de pesquisa estatística completo selecione as cidades cujos dados você irá utilizar você poderia também praticar o que aprendemos na Unidade 1 utilizando uma técnica de amostragem 125 ESTATÍSTICA probabilística indique no fórum suas hipóteses nula e alternativa escolha do teste estatístico adequado e calcule seu valor compare com o valor crítico você pode encontrálos em nossa bibliografia em qualquer bom livro de Estatística ou nesta unidade compartilhe sua conclusão baseada nos dados com os outros colegas do curso comente sobre os resultados deles também Como o procedimento do fórum abrange quase todos os passos para uma inferência estatística vou relatar um breve exemplo de como você poderia executálo para evitar dúvidas Ressalto que o exemplo descrito não deverá ser utilizado e serve apenas para facilitar a compreensão EXEMPLO Alguém poderia querer descobrir se a nota do índice de desenvolvimento humano municipal IDH Municipal é diferente entre os municípios do litoral e do interior do estado de Santa Catarina formulando a hipótese nula de que não há diferença entre os IDHs e a hipótese alternativa de que há diferença entre os IDHs Para isso este pesquisador sortearia 5 cidades aleatórias do litoral e 20 cidades do interior e anotaria todos os IDHs Municipais separados em dois grupos litoral e interior Considerando que não é possível determinar o desvio padrão populacional dos IDHs nem que seus valores se distribuem normalmente o pesquisador deveria optar por um teste não paramétrico Como há a necessidade de se comparar apenas duas amostras não paramétricas o teste adequado será o de MannWhitney ou estatística U Escolhido o teste bastaria calcular seu valor e verificar se ele é menor que o valor crítico tabelado Se for este o caso a hipótese nula seria rejeitada ou seja a diferença entre as duas amostras é estatisticamente significante SAIBA MAIS Nesta unidade estudamos a aplicação de testes estatísticos que são utilizados em condições específicas de acordo com o tipo de variável utilizada pelo pesquisador Vimos também que o conhecimento ou a suposição da distribuição dos dados 126 ESTATÍSTICA permite que sejam utilizados testes paramétricos os quais em geral são mais robustos que os testes não paramétricos Apesar de ser o teste paramétrico mais utilizado o t de Student apresenta um aumento no erro amostral conforme são incluídos mais grupos ou tratamentos para comparação Como vimos nesta unidade a solução para este problema consiste em trocar o teste t pela ANOVA Que tal conhecer as razões para esse fato Leia no artigo Por dentro da estatística disponível no ambiente virtual SUGESTÃO DE LIVRO ELLENBERG Jordan O poder do pensamento matemático a ciência de como não estar errado Rio de Janeiro Editora Zahar 2015 Os testes estatísticos que acabamos de estudar podem nos ajudar evitar armadilhas que distorcem a realidade não só dos resultados e consequências de pesquisas científicas mas também sobre tudo o que acontece em nosso cotidiano No livro o autor traz diversas provocações de maneira divertida que nos levam a pensar em termos estatísticos fazendo com que muitas vezes abandonemos nossa opinião 127 ESTATÍSTICA CONSIDERAÇÕES FINAIS Os testes estatísticos que possibilitam ao pesquisador confirmar ou refutar hipóteses sobre populações a partir de amostras utilizando conhecimentos sobre probabilidade modelos de distribuição probabilística e noções de estimação e decisão estatística TOLEDO OVALLE 2009 como os testes de hipótese que vimos na unidade anterior Como foi enfatizado durante toda a unidade acho que ficou clara a imensa variedade de testes com os quais podemos nos deparar durante nossa vida acadêmica e principalmente profissional A escolha adequada do teste específico dependerá do tipo de variável que constitui seu objeto de pesquisa bem como do objetivo que você pretende alcançar com o estudo Nesta Unidade 4 estudamos os testes estatísticos que são utilizados para as principais situações encontradas pelos pesquisadores em suas necessidades profissionais reais tais como comparar médias populacionais alegadas com médias amostrais comparar características relevantes entre dois ou mais grupos entre outras para decidir por exemplo se um tratamento é melhor que outro se uma estratégia de vendas pode ser mais efetiva se um método de estudo facilita mais a transposição didática que outro etc Avalie sua aprendizagem agora que terminamos esse módulo você deve estar apto a Calcular estatísticas de testes paramétricos e não paramétricos Aceitar ou refutar hipóteses a partir do cálculo de estatísticas Concluir sobre problemas de pesquisa com base em dados e evidências Chegamos ao final da nossa disciplina e espero que todos sintam saudade e até retornem ao caderno para aperfeiçoar seus estudos Tenho certeza que se você seguiu todos os passos propostos achou a Estatística divertida e não tão difícil como imaginava no início Mesmo assim tiver dúvidas comentários sugestões ou críticas fique à vontade para entrar em contato através do email constante na apresentação deste caderno Em sua caminhada daqui para frente você irá se deparar com inúmeros problemas de pesquisa na vida acadêmica e profissional que poderão ser adequadamente trabalhados com as técnicas estatísticas que discutimos ao longo da disciplina Não perca a oportunidade de usar cientificamente as informações que você dispõe e procure formular suas previsões e tomar suas decisões sempre baseadas nas evidências fornecidas pelos seus dados Foi um prazer acompanhar seu desenvolvimento na Estatística 128 ESTATÍSTICA EXERCÍCIOS FINAIS 10 CONHECIMENTO Os testes estatísticos são úteis para confirmarmos ou rejeitarmos uma hipótese previamente definida ou comparar diferentes conjuntos de dados Em relação aos diversos testes assinale a alternativa verdadeira A A ANOVA compara a mediana entre os grupos com a mediana dentro dos grupos para refutar a hipótese de diferença estatisticamente significante entre os tratamentos B O teste t de Student é útil para refutar hipóteses quando temos dados paramétricos em conjuntos com mais de 100 observações C O teste H KruskalWallis permite comparar mais de duas amostras não paramétricas D O teste U MannWhitney permite a verificação da aderência dos dados a um modelo específico de distribuição E A estatística Z informa o valor calculado de uma média a ser testada em relação ao valor crítico em unidades da própria amostra Dessa maneira quando o valor calculado for maior que o valor tabelado aceitamos hipótese nula 11 APLICAÇÃO Suponha que você esteja produzindo e testando a resistência de um novo anteparo para proteção em lutas de boxe amador e para isso utilizará o teste t de Student A resistência média do anteparo mais famoso do mercado é de 1425 N mm² As amostras que você produziu e testou apresentaram resistência de 16 14 16 e 16 Nmm² O valor tabelado de t para o nível de significância de 95 e n 4 é igual a 23 Com base nesses dados calcule a estatística t e assinale a opção correta considerando o nível de significância A O novo anteparo é mais resistente que o antigo pois o t calculado fica na área de aceitação da hipótese alternativa B O novo anteparo não é mais resistente que o antigo pois o t tabelado é maior que o t calculado C O novo anteparo não é mais resistente que o antigo pois o t calculado é maior que o t tabelado D O novo anteparo é mais resistente que o antigo pois o valor de t calculado fica na 129 ESTATÍSTICA área de aceitação da hipótese nula E Não é possível determinar se o novo anteparo é mais resistente 12 SÍNTESE Um treinador pessoal pretende comparar a flexibilidade média de 3 grupos de clientes seus crianças jovens e idosos No grupo de crianças foram observados os seguintes valores padronizados de flexibilidade 4 17 e 11 nos jovens foram 7 e 14 No grupo dos idosos os valores foram 13 e 8 Utilize o teste nãoparamétrico adequado e assinale a alternativa que contém a afirmação correta considerando que o valor crítico da estatística é igual a 10 para o nível de significância A Os clientes infantis do treinador têm maior flexibilidade que seus alunos jovens e idosos B Os idosos que participaram do estudo têm aproximadamente a mesma flexibilidade em relação às crianças mas diferente dos jovens C É possível afirmar que a variação na flexibilidade dos alunos dos três grupos foi aleatória D Os alunos jovens e crianças têm flexibilidade maior que os idosos E Os clientes idosos têm a menor flexibilidade entre todos os investigados 130 ESTATÍSTICA REFÊRENCIAS BARBETTA Pedro Alberto Estatística aplicada às ciências sociais 7ª ed Florianópolis UFSC 2007 DEWITT David P TRIOLA J Introdução a estatística 10ª ed Rio de Janeiro LTC 2008 DOWNING Douglas Estatística aplicada série essencial São Paulo Saraiva 2002 ELLENBERG Jordan O poder do pensamento matemático a ciência de como não estar errado Rio de Janeiro Editora Zahar 2015 FREUND John SIMON Gary A Estatística aplicada Porto Alegre Bookman 2000 IBGE INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA O Brasil em síntese Disponível em httpscidadesibgegovbr Acesso em 29 maio 2019 MARTINS Gilberto de A Estatística geral e aplicada São Paulo Atlas 2001 NAZARETH Helenalda de S Curso Básico de Estatística 12ª ed São Paulo Ática 2001 SMAILES Joanne McGRANE Ângela Estatística aplicada à administração com Excel São Paulo Editora Atlas 2002 TOLEDO Geraldo Luciano OVALLE Ivo Izidoro Estatística básica 2ª ed São Paulo Atlas 2009 WERNER MJ Material complementar para Estatística da UNIAVAN 2018 Disponível em httpavantisestatisticablogspotcom Acesso em 29 abr 2019 ZAR JH Biostatistical Analysis 5a ed New Jersey Pearson Prentice Hall 2010