·
Cursos Gerais ·
Outros
Envie sua pergunta para a IA e receba a resposta na hora
Texto de pré-visualização
BrasíliaDF Estatística DEscritiva Elaboração Valeria Aparecida Martins Ferreira Produção Equipe Técnica de Avaliação Revisão Linguística e Editoração Sumário APRESENTAÇÃO 4 ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA 5 INTRODUÇÃO 7 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS 9 CAPÍTULO 1 INTRODUÇÃO AOS CONCEITOS BÁSICOS DA ESTATÍSTICA 10 CAPÍTULO 2 ORGANIZAÇÃO DOS DADOS EM DISTRIBUIÇÕES DE FREQUÊNCIAS 20 CAPÍTULO 3 CONSTRUÇÃO E ANÁLISE DE GRÁFICOS 30 UNIDADE II MEDIDAS DESCRITIVAS 40 CAPÍTULO 1 MEDIDAS DE POSIÇÃO CENTRAL 41 CAPÍTULO 2 MEDIDAS DE DISPERSÃO 55 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS 69 CAPÍTULO 1 MEDIDAS SEPARATRIZES 70 CAPÍTULO 2 CONSTRUÇÃO E ANÁLISE DO BOXPLOT 79 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 90 CAPÍTULO 1 UTILIZAÇÃO DO MICROSOFT EXCEL NA CONSTRUÇÃO DE TABELAS E GRÁFICOS 91 CAPÍTULO 2 UTILIZAÇÃO DO MICROSOFT EXCEL NO CÁLCULO DE MEDIDAS DESCRITIVAS 112 REFERÊNCIAS 117 4 Apresentação Caro aluno A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se entendem necessários para o desenvolvimento do estudo com segurança e qualidade Caracterizase pela atualidade dinâmica e pertinência de seu conteúdo bem como pela interatividade e modernidade de sua estrutura formal adequadas à metodologia da Educação a Distância EaD Pretendese com este material leválo à reflexão e à compreensão da pluralidade dos conhecimentos a serem oferecidos possibilitandolhe ampliar conceitos específicos da área e atuar de forma competente e conscienciosa como convém ao profissional que busca a formação continuada para vencer os desafios que a evolução científicotecnológica impõe ao mundo contemporâneo Elaborouse a presente publicação com a intenção de tornála subsídio valioso de modo a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na profissional Utilizea como instrumento para seu sucesso na carreira Conselho Editorial 5 Organização do Caderno de Estudos e Pesquisa Para facilitar seu estudo os conteúdos são organizados em unidades subdivididas em capítulos de forma didática objetiva e coerente Eles serão abordados por meio de textos básicos com questões para reflexão entre outros recursos editoriais que visam tornar sua leitura mais agradável Ao final serão indicadas também fontes de consulta para aprofundar seus estudos com leituras e pesquisas complementares A seguir apresentamos uma breve descrição dos ícones utilizados na organização dos Cadernos de Estudos e Pesquisa Provocação Textos que buscam instigar o aluno a refletir sobre determinado assunto antes mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor conteudista Para refletir Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio É importante que ele verifique seus conhecimentos suas experiências e seus sentimentos As reflexões são o ponto de partida para a construção de suas conclusões Sugestão de estudo complementar Sugestões de leituras adicionais filmes e sites para aprofundamento do estudo discussões em fóruns ou encontros presenciais quando for o caso Atenção Chamadas para alertar detalhestópicos importantes que contribuam para a sínteseconclusão do assunto abordado 6 Saiba mais Informações complementares para elucidar a construção das síntesesconclusões sobre o assunto abordado Sintetizando Trecho que busca resumir informações relevantes do conteúdo facilitando o entendimento pelo aluno sobre trechos mais complexos Para não finalizar Texto integrador ao final do módulo que motiva o aluno a continuar a aprendizagem ou estimula ponderações complementares sobre o módulo estudado 7 Introdução A Estatística é uma ciência multidisciplinar e suas técnicas podem ser utilizadas nas mais diversas áreas fornecendo informações que auxiliam no processo de tomada de decisões Por exemplo no Marketing a obtenção de informações através de técnicas estatísticas ajuda o profissional dessa área a conhecer e entender o consumidor para se relacionar melhor com ele atender as suas necessidades e expectativas sair na frente da concorrência decifrar tendências de mercado fazer previsões de demanda de mercado como a necessidade de um novo produto e serviço Na área da Qualidade métodos estatísticos também desempenham papel fundamental no controle e melhoria de qualidade de produtos bens manufaturados e serviços e são aplicados em qualquer área de uma companhia ou organização incluindo manufatura desenvolvimento de processo planejamento de engenharia finanças e contabilidade marketing distribuição e logística atendimento a clientes e assistência técnica a produtos O avanço da informática e a popularização dos computadores contribuíram para o uso de métodos estatísticos Antigamente era muito demorado fazer análises de muitas informações e agora com o auxílio do computador as análises são feitas rapidamente Além disso com o avanço da informática novas técnicas de análise de dados foram introduzidas principalmente métodos gráficos Muitos pacotes estatísticos foram desenvolvidos e são usados tanto no meio acadêmico como em indústrias como por exemplo Minitab SPSS e SAS Utilizamos também o Microsoft Office Excel que possui opções para certas técnicas estatísticas Apesar do grande auxílio fornecido pelos pacotes estatísticos e pelo Excel precisamos ter um conhecimento teórico sólido para saber qual técnica estatística utilizar para resolver um problema além de saber analisar e interpretar os resultados obtidos O conteúdo exposto nesse material ajudará na compreensão e aplicação das ferramentas de uma área da Estatística denominada Estatística Descritiva Objetivos Apresentar conceitos básicos necessários para a condução de um estudo estatístico de maneira a fornecer credibilidade aos resultados obtidos Mostrar a importância da aplicação de ferramentas da estatística descritiva nas mais diversas áreas do conhecimento 8 Elucidar os cálculos matemáticos necessários para a obtenção de medidas estatísticas descritivas bem como a interpretação de tais resultados Utilizar ferramentas no Microsoft Excel na organização e apresentação dos dados em tabelas e gráficos e no cálculo de resumos estatísticos 9 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Os capítulos que compõem a Unidade I apresentam conceitos básicos da Estatística população amostra parâmetro estatística e tipos de variáveis bem como a organização de dados coletados em tabelas e gráficos Com o estudo desses conteúdos esperamos que você consiga identificar e descrever a população e a amostra em um estudo reconhecer e classificar os diferentes tipos de variáveis presentes em um estudo compreender os propósitos de cada uma das áreas da Estatística entender as características da amostragem probabilística utilizada para coleta de dados organizar os dados em tabelas de frequências e gráficos apropriados para cada tipo de variável 10 CAPÍTULO 1 Introdução aos conceitos básicos da Estatística Frequentemente no cotidiano recebemos informações dos meios de comunicação através de gráficos tabelas porcentagens indicadores entre outros Por exemplo Pesquisas de intenção de voto em uma eleição Levantamento sobre a popularidade de governantes e candidatos Percentual de brasileiros favoráveis ou contrários a alguma reforma proposta pelo governo em exercício Indicadores educacionais utilizados para o monitoramento dos sistemas educacionais considerando o acesso a permanência e a aprendizagem de todos os alunos Taxa média anual do cartão de crédito Taxa média anual de desemprego Taxa de crescimento da produção industrial brasileira Essas informações são obtidas por meio da coleta análise e interpretação de dados E é aqui que entra a ciência Estatística que vamos definir a seguir Definição de Estatística Estatística é a ciência que utiliza um conjunto de técnicas para a coleta organização resumo análise e interpretação de dados A Estatística pode ser dividida em duas grandes áreas a estatística descritiva e a inferência estatística A Estatística Descritiva compreende o resumo a organização e a descrição dos dados em tabelas gráficos e cálculo de medidas numéricas descritivas como média e desviopadrão A análise descritiva é a fase inicial do estudo dos dados coletados Geralmente muitos conjuntos de dados são extensos em seus formatos originais com muitas características sendo investigadas e o uso de ferramentas descritivas facilita na análise interpretação e conclusão de tais conjuntos 11 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I A inferência estatística ou inferência indutiva utiliza um conjunto de dados pequeno para fazer estimativas testar hipóteses e fazer previsões sobre características de um grande conjunto de dados Podemos observar a aplicação de técnicas da inferência estatística por exemplo em pesquisas eleitorais Nessas pesquisas é impossível entrevistar todos os eleitores do Brasil para saber sua intenção de voto pois a pesquisa ficaria muito demorada e cara Então a pesquisa é desenvolvida com um conjunto de dados muito menor amostra e os resultados obtidos são extrapolados para o conjunto maior população de eleitores do Brasil A seguir estudaremos alguns conceitos que são utilizados tanto na Estatística Descritiva quanto na inferência estatística Conceitos básicos da Estatística Os principais conceitos básicos da Estatística estão apresentados no Quadro 1 Quadro 1 Conceitos básicos da Estatística População Conjunto formado por todos os elementos pessoas objetos medidas respostas e outros que têm a característica que se deseja estudar Amostra Subconjunto representativo da população de interesse Parâmetro Medida numérica que descreve alguma característica de uma população Estatística Medida numérica que descreve alguma característica de uma amostra Variável Característica de interesse no estudo Censo Estudo feito com todos os elementos da população Dados Conjunto de respostas individuais associadas a determinada variável Fonte Próprio autor Podemos ter a propensão a achar que o conceito de população seja para um agrupamento de pessoas Em Estatística o termo população pode ser empregado para por exemplo todos os funcionários de uma empresa carros produzidos por uma montadora no último trimestre peças produzidas por uma máquina durante uma semana vendas efetuadas por uma loja de departamento durante um mês etc Na maioria dos estudos e pesquisas é muito difícil termos acesso a todos os elementos da população Então é retirada uma parte de elementos da população de interesse para realizar o estudo que recebe o nome de amostra Portanto uma amostra é um subconjunto representativo da população de interesse e é por meio dela que o estudo estatístico é feito de maneira a obtermos informações importantes sobre a população da qual a amostra foi extraída 12 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Quais razões levam pesquisadores a trabalhar com amostras e não com toda a população Para responder a esse questionamento podemos citar algumas razões Custo e demora em se realizar um censo Por exemplo uma empresa dificilmente dispõe de verba suficiente para saber o que todos os seus consumidores pensam a respeito dos seus produtos Impossibilidade de examinar toda a população na análise de sangue de um paciente é impossível a retirada de toda a população de interesse todo o sangue do paciente O estudo exige testes destrutivos uma empresa fabricante de fósforo não utilizará todos os fósforos fabricados em um lote para verificar possíveis falhas durante o acendimento pois isso destruiria toda a sua fabricação população de fósforos A Figura 1 ilustra os conceitos de população e amostra e as áreas da estatística descritiva e inferencial com seus respectivos objetivos Figura 1 População e amostra Inferência Estatística Estimação de quantidades desconhecidas Extrapolação dos resultados Teste de hipóteses Estatística Descritiva Consistência dos dados Interpretações iniciais Amostra População Fonte Magalhães e Lima 2004 p 3 adaptado pelo autor Se em um estudo for possível acessar todos os elementos da população de interesse não é necessário o uso das técnicas da inferência estatística Mas vale ressaltar que é incorreto pensar que seríamos mais precisos se tivéssemos acesso a todos os elementos da população Erros de coleta de registro e de manuseio em um grande conjunto de dados podem ser maiores que as imprecisões que 13 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I podem acontecer quando generalizamos através das técnicas de inferência os resultados obtidos por meio de uma amostra representativa Como vimos pelos conceitos do Quadro 1 censo é um estudo feito com todos os elementos da população de interesse No Brasil o censo é feito a cada 10 anos e o responsável pela sua realização é o Instituto Brasileiro de Geografia e Estatística IBGE As informações obtidas com o censo são imprescindíveis para a definição de políticas públicas e tomada de decisões de investimentos provenientes da iniciativa privada ou de qualquer nível de governo Para saber um pouco mais sobre o censo de 2010 como coleta materiais e resultados leia as informações disponíveis em httpscenso2010ibgegovbr materiaisguiadocensoapresentacaohtml Acesso em 15 abr 2018 Conforme Levine Stephan e Szabat 2016 o desenvolvimento de um estudo que envolve a aplicação de ferramentas estatísticas deve seguir a seguinte estrutura definir os dados a serem estudados de maneira a responder ao objetivo do estudopesquisa coletar os dados por meio da população de interesse ou de uma amostra representativa organizar os dados por distribuições de frequências visualizar os dados pela construção de gráficos e analisar os dados coletados com o intuito de tirar conclusões e tomar decisões Toda a estrutura definida gira em torno da palavra dados Afinal como obtemos dados para realizar um estudo Dados são provenientes das variáveleis em estudo E o que é uma variável Variável é uma característica de interesse no estudo Por exemplo podemos ter interesse nas variáveis idade gênero estado civil tempo de habilitação e profissão dos clientes de determinada seguradora As respostas obtidas em cada uma dessas variáveis formarão o conjunto de dados a ser estudado Para facilitar o entendimento dos conceitos expostos no Quadro 1 vamos analisar o exemplo a seguir Exemplo 11 A pesquisa Retratos da Sociedade Brasileira Educação Básica realizada pelo Ibope Inteligência para a Confederação Nacional da Indústria CNI no período de 1592017 a 2092017 mostrou que a insatisfação com a educação no País aumentou nos últimos quatro anos conforme mostra a Figura 2 Para a realização da pesquisa foi utilizada uma amostra composta de 2000 entrevistados em 126 municípios com uma margem de erro de mais ou menos 2 pontos percentuais Uma das 14 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS perguntas em estudo era Pensando no mercado de trabalho na sua opinião quando um aluno termina o ensino médio antigo 2º grau em escola pública ele está bem preparado para o mercado de trabalho razoavelmente preparado para o mercado de trabalho pouco preparado para o mercado de trabalho despreparado para o mercado de trabalho não sabenão respondeu Figura 2 Preparação do aluno do ensino médio para o mercado de trabalho Cresce insatisfação com educação no País Preparação do aluno do ensino médio para o mercado de trabalho Percentual de respostas 1 2 3 4 5 Fonte httpwwwibopeinteligenciacomnoticiasepesquisascresceinsatisfacaocomeducacaonopais adaptado pelo autor Acesso em 1982018 Em que 1 Bem preparado 2 Razoavelmente preparado 3 Poupo preparado 4 Despreparado 5 Não sabenão respondeu De acordo com as informações contidas no enunciado vamos identificar a A população em estudo b A variável em estudo c O tamanho da amostra d Os percentuais obtidos para os anos de 2010 2013 e 2017 são parâmetros ou estatísticas 15 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Resolução a População em estudo eleitores de 16 anos ou mais da área em estudo informação retirada das especificações técnicas da pesquisa b Variável em estudo opinião dos entrevistados quanto ao nível de preparação do aluno para o mercado de trabalho após a conclusão do ensino médio em escola pública c Tamanho da amostra 2000 entrevistados d Os percentuais obtidos informações numéricas são estatísticas pois são obtidas através de dados amostrais É informado nesse exemplo que a margem de erro na pesquisa é de mais ou menos 2 pontos percentuais Este conceito será estudado mais profundamente em técnicas da inferência estatística Mas analisando o contexto da pesquisa realizada por que você acha que os resultados obtidos são vinculados a uma margem de erro Como as pesquisas frequentemente são realizadas por meio de dados amostrais haverá uma diferença entre o resultado obtido na amostral e o verdadeiro valor populacional A diferença entre esses dois resultados é um erro Por meio de algumas informações como nível de confiança da pesquisa podemos calcular o erro máximo de estimativa ou margem de erro No caso do Exemplo 11 a margem de erro é de mais ou menos 2 pontos percentuais ou seja cada percentual de resposta observado na amostra pode apresentar variações em relação à população de no máximo 2 pontos percentuais Os dados obtidos associados à variável ou às variáveis em estudo podem ser numéricos ou não numéricos É natural pensar que respostas numéricas gerem dados quantitativos e respostas não numéricas gerem dados qualitativos ou categóricos Como os dados são provenientes das variáveis em estudo podemos classificar as variáveis da mesma forma variáveis qualitativas ou categóricas ou quantitativas As variáveis qualitativas podem ser classificadas como qualitativas nominais ou ordinais Se existir uma ordenação natural elas são classificadas como qualitativas ordinais Caso contrário elas são classificadas como variáveis qualitativas nominais Por exemplo variáveis como qualidade de uma peça conforme e não conforme e cor de pele branco preto pardo amarelo etc são classificadas como qualitativas nominais Agora variáveis como avaliação de um serviço ótimo bom regular ruim péssimo e classe social A B C D e E são classificadas como qualitativas ordinais 16 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS No caso das variáveis quantitativas elas podem ser classificadas como quantitativas discretas ou contínuas As variáveis quantitativas discretas são resultantes de uma operação de contagem assumindo respostas cujos números são inteiros Já as variáveis quantitativas contínuas são resultantes de mensurações assumindo valores que pertencem a um intervalo de números reais ou seja números decimais Por exemplo número de filhos 0 1 2 e número de carros vendidos em determinado dia em uma concessionária 0 1 2 3 são classificadas como quantitativas discretas enquanto que peso altura diâmetro de uma peça são classificadas como quantitativas contínuas É comum quando o banco de dados gerado pelas variáveis em estudo estiver em uma planilha eletrônica que categorias de variáveis qualitativas sejam codificadas através de códigos numéricos Por exemplo para a variável gênero podemos associar o código 1 para o sexo feminino e 2 para o sexo masculino Mas isso não a torna uma variável quantitativa ou seja não podemos por exemplo calcular uma média dessas respostas pois não conseguiríamos interpretar o resultado obtido Figura 3 Classificação das variáveis Variáveis Qualitativas categóricas Nominais Ordinais Quantitativas numéricas Discretas Contínuas Fonte Próprio autor Exemplo 12 Vamos classificar as seguintes variáveis a Unidade da Federação em que uma pessoa nasceu b Cor de cabelo c Número de disciplinas que um aluno de graduação está cursando num semestre d Nível de satisfação do consumidor com um tratamento estético e Nível de cálcio no sangue 17 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Resolução a Variável qualitativa nominal pois as possíveis respostas são São Paulo Rio de Janeiro Bahia Goiás etc as possíveis respostas são categóricas b Variável qualitativa nominal pois as possíveis respostas são loiro castanho ruivo etc as possíveis respostas são categóricas c Variável quantitativa discreta pois as possíveis respostas são 0123 etc as possíveis respostas são números inteiros d Variável qualitativa ordinal pois as possíveis respostas são muito satisfeito satisfeito pouco insatisfeito insatisfeito as possíveis respostas são categóricas e possuem uma ordenação natural do maior grau de satisfação para o menor e Variável quantitativa contínua pois as possíveis respostas são 89mgdl 96mgdl 101mgdl etc as possíveis respostas são números decimais Coleta de dados Já sabemos que se um estudo for feito com todos os elementos da população de interesse estamos realizando um censo Frequentemente essa população é muito extensa e por isso conduzimos o estudo selecionando uma amostra e coletando dos elementos que a compõem as respostas das variáveis de interesse no estudo Para que os resultados obtidos na amostra se aproximem dos resultados que obteríamos se o estudo fosse realizado com a população devemos selecionar uma amostra representativa ou seja que represente o mais próximo possível as características da população Temos dois tipos de amostragem a que chamamos de probabilística ou aleatória e a não probabilística ou não aleatória Na amostragem probabilística cada elemento da população tem uma probabilidade conhecida a priori de pertencer à amostra Agora na amostragem não probabilística como por exemplo amostras intencionais os elementos são selecionados com o auxílio de especialistas A grande vantagem das amostras probabilísticas é que conseguimos medir a precisão da amostra obtida baseandose no resultado contido na própria amostra Os tipos de amostragem probabilísticas são amostragem aleatória simples amostragem sistemática amostragem estratificada e amostragem por conglomerado A escolha do tipo de amostragem a ser utilizado depende entre outros fatores do grau de conhecimento que temos da população da quantidade de recursos disponíveis etc Como o intuito desse capítulo não é estudar as Técnicas de Amostragem vamos descrever brevemente um dos tipos de amostragem probabilística mais utilizado amostragem aleatória simples 18 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS A amostragem aleatória simples é a maneira mais fácil de selecionarmos uma amostra probabilística Nesse tipo de amostragem selecionamos ao acaso com ou sem reposição os elementos da população que farão parte da amostra Na amostragem com reposição é permitido que um elemento possa ser sorteado mais de uma vez e na sem reposição o elemento sorteado é removido da população Amostragem sem reposição faz com que a amostra tenha uma quantidade maior de informações distintas mas é na amostragem com reposição que temos independência entre os elementos selecionados requisito exigido nas técnicas de Inferência Estatística Então como devemos proceder Segundo Triola 2008 p 132 Eis uma diretriz comum se o tamanho da amostra não é maior que 5 do tamanho da população tratamos a seleção das unidades experimentais como sendo independentes mesmo que as seleções sejam feitas sem reposição pois tecnicamente elas são dependentes A seleção dos elementos numa amostragem aleatória simples pode ser feita da seguinte maneira 1 Obter uma listagem de todos os N elementos que compõem uma população finita 2 Numerar todos os elementos 3 Sortear os elementos que irão compor a amostra por meio de uma tabela de números aleatórios ou por meio do uso de computadores que geram números aleatórios Para melhor compreensão de amostragens não probabilísticas sugerimos a leitura do seguinte trabalho Amostragem não probabilística adequação de situações para uso e limitações de amostras por conveniência julgamento e quotas Disponível em httpwwwfecapbradmonlineart23tania2htm Acesso em 16 abr 2018 Vale ressaltar que além de levantamentos amostrais os dados podem ser obtidos através da técnica de planejamento de experimentos e levantamentos observacionais No planejamento de experimentos o objetivo é analisar o efeito de uma variável sobre outra ou seja determinar quais variáveis exercem maior influência no desempenho de determinado processo Por exemplo em um processo de retífica podemos ter interesse em saber quais variáveis são determinantes para um bom acabamento da peça Em levantamentos observacionais o pesquisador não tem controle sobre as informações obtidas Podemos citar como exemplo dados de séries temporais em 19 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I que as observações sobre uma mesma variável são coletadas em intervalos de tempo igualmente espaçados A produção diária em uma fábrica durante um mês forma uma série temporal em que o pesquisador não pode selecionar dados pois esses são a produção efetivamente ocorrida Neste capítulo você aprendeu sobre os conceitos de parâmetro e estatística e os tipos de variáveis presentes em um estudo e suas classificações Além disso aprendeu que os dados coletados para a condução de um estudo podem ser obtidos por meio de um censo de um levantamento amostral através da escolha de uma amostra representativa da população da aplicação de técnicas de planejamento de experimentos ou de levantamentos observacionais No próximo capítulo estudaremos como apresentar os dados coletados por meio de distribuições de frequências 20 CAPÍTULO 2 Organização dos dados em distribuições de frequências Após a obtenção dos dados por meio das fontes discutidas no capítulo 1 teremos o conjunto de dados brutos ou seja dados que ainda não foram organizados Esses dados podem estar armazenados por exemplo numa planilha eletrônica em que as variáveis em estudo estão nas colunas e nas linhas estão as respostas individuais de cada elemento Para facilitar a análise e divulgação desses dados precisamos organizálos em distribuições de frequências que estudaremos a seguir Distribuição de frequências Uma distribuição de frequências é uma tabela que lista as respostas da variável em estudo e suas respectivas contagens as quais são denominadas frequências Para facilitar a comparação com outros conjuntos de dados é conveniente acrescentar uma coluna contendo as porcentagens frequência relativa x 100 Portanto para a organização dos dados em uma distribuição de frequências precisaremos encontrar Frequência absoluta ou simplesmente frequência é o número de vezes que cada resposta da variável aparece na pesquisa Frequência relativa em percentagem ou percentual é o quociente da frequência absoluta pelo número total de observações em estudo x 100 Frequência acumulada é a soma de cada frequência com as que lhe são anteriores na distribuição Frequência relativa acumulada é o quociente da frequência acumulada pelo número total de observações em estudo Esta frequência também pode ser expressa em porcentagem Então de acordo com o exposto a estrutura de uma distribuição de frequências é Título o título explica o conteúdo da tabela Nome da variável Frequência Frequência Relativa Respostas da variável Total número total de observações em estudo 10000 21 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I A estrutura de uma distribuição de frequências é a mesma para variáveis qualitativas ou quantitativas Normas para a apresentação de tabelas podem ser encontradas em Vieira 2003 p 47 Exemplo 21 Uma pesquisa foi realizada com 25 estudantes de uma faculdade que estavam cursando o último semestre do curso de Administração A pesquisa foi realizada com três variáveis de interesse gênero idade anos e em qual área gostariam de se especializar Os resultados obtidos são apresentados a seguir Quadro 2 Informações dos estudantes Estudante Gênero Idade Área para especialização 1 Masculino 26 Gestão de Negócios 2 Feminino 24 Gestão de Projetos 3 Feminino 23 Gestão de Marketing 4 Masculino 29 Gestão de Negócios 5 Masculino 28 Gestão de Projetos 6 Masculino 27 Gestão de Negócios 7 Feminino 26 Gestão Financeira 8 Feminino 29 Gestão Financeira 9 Masculino 30 Gestão Financeira 10 Feminino 31 Gestão de Projetos 11 Feminino 27 Gestão de Negócios 12 Feminino 24 Gestão de Marketing 13 Masculino 23 Gestão de Projetos 14 Masculino 26 Gestão de Negócios 15 Feminino 28 Gestão de Marketing 16 Feminino 30 Gestão de Negócios 17 Masculino 26 Gestão de Negócios 18 Feminino 33 Gestão de Marketing 19 Masculino 31 Gestão de Projetos 20 Masculino 25 Gestão de Marketing 21 Feminino 29 Gestão de Projetos 22 Feminino 30 Gestão Financeira 23 Feminino 26 Gestão Financeira 24 Feminino 31 Gestão de Projetos 25 Masculino 32 Gestão de Marketing Fonte Próprio autor Vamos organizar os dados das variáveis gênero e área para especialização em distribuições de frequências 22 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Resolução Estudamos que para organizarmos os dados em uma distribuição de frequências precisamos construir uma tabela com três colunas nome da variável frequência ou número de estudantes e frequência relativa Toda tabela deve conter um título que explique o seu conteúdo Tabela 1 Distribuição dos estudantes segundo gênero Gênero Número de estudantes Frequência Relativa Feminino 14 5600 Masculino 11 4400 Total 25 10000 Fonte Próprio autor Temos frequência 14 para a resposta Feminino pois analisando o Quadro 2 verificamos que os estudantes 2 3 7 8 10 11 12 15 16 18 21 22 23 e 24 são do sexo feminino A frequência relativa para essa resposta é obtida fazendo 14 100 56 25 O mesmo procedimento é feito para encontrar os valores referentes ao gênero Masculino Observamos que a maioria dos estudantes que participaram do estudo é do sexo feminino Vamos seguir o mesmo procedimento para organizar os dados da variável área para especialização Tabela 2 Distribuição dos estudantes segundo área para especialização Área Número de estudantes Frequência Relativa Gestão de Marketing 6 2400 Gestão de Negócios 7 2800 Gestão de Projetos 7 2800 Gestão Financeira 5 2000 Total 25 10000 Fonte Próprio autor Com relação à variável área para especialização percebemos um maior equilíbrio entre as 4 áreas escolhidas pelos alunos Agora vamos pensar na organização dos dados da variável idade em uma distribuição de frequências Se observarmos o conjunto de dados brutos verificamos que as idades variam de 23 a 33 anos com respostas em toda amplitude de 10 anos Então o corpo da tabela ficará com 11 linhas 23 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Como podemos organizar a distribuição de frequências de maneira a tornála menos extensa Distribuição de frequências com intervalos de classes Quando estamos analisando grandes conjuntos de dados com variáveis quantitativas contínuas ou mesmo discretas é comum os valores se repetirem numa frequência baixa tornando a distribuição de frequências extensa Nessas situações é conveniente agrupar os dados em intervalos de classes Para a construção de tabelas com classes precisamos conhecer os seguintes valores Limite inferior iL é o menor valor que pode pertencer à classe Limite superior sL é o maior valor que pode pertencer à classe mas geralmente os valores iguais ao limite superior não são computados naquela classe e sim na seguinte Ponto médio m P é a metade da soma entre o iL e o sL da mesma classe ou seja 2 Li Ls Pm Amplitude h é a diferença entre o sL e o iL da classe ou seja s i h L L Agora vamos responder à pergunta como podemos organizar a distribuição de frequências com intervalos de classes de maneira a tornála menos extensa É natural termos dois questionamentos Quantas classes devo construir Qual o tamanho ou a amplitude de cada uma das classes Em geral o número de classes deve estar entre 5 e 20 Se o número de classes for muito pequeno perdemos muita informação Se o número de classes for grande o objetivo de resumir os dados fica prejudicado e a identificação de padrões na distribuição dos dados também fica prejudicada Não há um número de classes ideal a ser construída mas existem fórmulas que servem como referência para estabelecer o número de classes Podemos utilizar a regra da raiz sugerida por vários autores k n 24 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS em que k indica o número de classes que vamos construir e n é o número total de observações do conjunto de dados É muito comum o valor obtido para k não ser inteiro então vamos aproximar para o inteiro próximo de k Para determinar a amplitude e o número de observações em cada classe devemos 1 Encontrar a amplitude total dos dados ou seja á í ampliutde total valor m ximo valor m nimo á í ampliutde total valor m ximo valor m nimo 2 Dividir a amplitude total pelo número de classes ou seja amplitudetotal amplitudedecadaclasse k Normalmente o resultado dessa divisão não é inteiro Podemos arredondar até o próximo número inteiro para facilitar a construção das classes 3 O valor mínimo dos dados pode ser utilizado como o limite inferior da primeira classe Caso esse número seja decimal podemos considerar o inteiro anterior a esse número Por exemplo se o menor valor do conjunto de dados é 115 podemos considerar como limite inferior da primeira classe o número 1 4 Após a identificação dos limites inferiores e superiores das classes contamos o número de observações que pertencem a cada intervalo de classe frequências absolutas Também podemos encontrar as frequências relativas de cada classe Devemos deixar claro na distribuição de frequências se os valores iguais aos limites estão ou não incluídos na classe Construiremos intervalos de classe fechados à esquerda A representação deste tipo de intervalo é i s L L Por exemplo seja o intervalo 0 4 Pertencem a este intervalo valores iguais ou superiores ao limite inferior do intervalo neste exemplo 0 e inferiores ao limite superior neste exemplo 4 Se houver o número 4 no conjunto de dados ele entra no próximo intervalo de classe por exemplo 4 8 Vamos optar por construir classes com amplitudes iguais pois isso facilita a construção de um gráfico denominado Histograma que estudaremos no capítulo 3 Exemplo 22 Com os dados do Exemplo 21 vamos construir uma distribuição de frequências para a variável Idade 25 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Resolução Para facilitar a visualização das idades vamos organizar os dados em ordem crescente 23 23 24 24 25 26 26 26 26 26 27 27 28 28 29 29 29 30 30 30 31 31 31 32 33 Primeiro precisamos saber quantas classes vamos construir Para isto utilizaremos a fórmula 25 5 k Então construiremos 5 classes Agora vamos encontrar o tamanho amplitude de cada uma das classes 33 23 2 5 5 valor máximo valor mínimo amplitudedecadaclasse Portanto vamos construir classes de amplitude 2 cada uma Tabela 3 Distribuição de frequências das idades dos estudantes Idades dos estudantes Frequência Frequência Relativa 23 25 4 1600 25 27 6 2400 27 29 4 1600 29 31 6 2400 31 33 4 1600 33 35 1 400 Total 25 10000 Fonte Próprio autor Pelos cálculos o plano inicial era construir 5 classes Mas considerando amplitude 2 para cada classe o limite superior da classe 31 33 coincide com o valor da última observação Nessa classe devem ser contabilizadas as idades de 31 e 32 anos Portanto precisamos construir mais uma classe que contenha a idade 33 anos 33 35 Como dito anteriormente algumas análises necessitam da informação da frequência acumulada No próximo exemplo veremos como calculála 26 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Exemplo 23 Os dados a seguir referemse ao tempo de parada de um equipamento seja por manutenção ou troca de ferramentas Os tempos estão em minutos e foram coletados uma vez ao dia 6 7 10 11 12 12 13 14 15 17 18 18 18 19 21 21 22 22 22 23 23 24 24 24 24 25 25 26 26 26 26 28 28 28 30 30 30 32 32 32 32 33 33 33 34 34 35 36 38 38 39 40 40 40 41 45 45 46 47 47 49 51 52 54 55 56 60 64 73 82 Vamos organizar os dados em uma distribuição de frequências incluindo as frequências acumuladas Resolução Usando a regra da raiz para encontrar o número de classes temos 70 84 k Como o resultado é um valor decimal temos que considerar um valor inteiro próximo a esse resultado Então podemos escolher trabalhar com 8 classes a escolha por 9 também é possível Agora a amplitude de cada classe 82 6 95 8 8 valor máximo valor mínimo amplitudedecadaclasse Para facilitar a construção das classes vamos considerar a amplitude de cada classe 10 Tabela 4 Distribuição das frequências dos tempos de parada do equipamento minutos Tempo de parada minutos Frequência Frequência Relativa Frequência acumulada Frequência Relativa acumulada 5 15 8 1143 8 1143 15 25 17 2429 25 3571 25 35 21 3000 46 6571 35 45 9 1286 55 7857 45 55 9 1286 64 9143 27 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Tempo de parada minutos Frequência Frequência Relativa Frequência acumulada Frequência Relativa acumulada 55 65 4 571 68 9714 65 75 1 143 69 9857 75 85 1 143 70 10000 Total 70 10000 Fonte Próprio autor O cálculo da frequência acumulada é feito somando cada frequência com as que lhe são anteriores e a frequência relativa acumulada é obtida dividindo a frequência acumulada pelo número total de dados 100 Por exemplo a frequência acumulada associada ao intervalo de 65 75 é obtida somando a frequência desse intervalo com as frequências anteriores 8 17 21 9 9 4 1 69 e a frequência relativa acumulada é obtida fazendo 69 100 9857 70 Tabelas de contingência ou dupla entrada Nos exemplos anteriores vimos como organizar e resumir as informações de uma única variável do conjunto de dados em estudo Frequentemente temos interesse em analisar o comportamento conjunto de duas variáveis permitindo que se possa identificar padrões entre elas Para isso organizamos os dados em uma tabela de contingência ou dupla entrada que apresenta por meio de uma tabulação cruzada linhas e colunas as respostas combinadas de duas variáveis Cada resposta combinada aparece em uma célula da tabela Quando consideramos duas variáveis podemos ter as seguintes situações As duas variáveis são qualitativas As duas variáveis são quantitativas Uma variável é qualitativa e outra é quantitativa E também além de construirmos a tabela de contingência com as frequências absolutas podemos elaborar a tabela com as frequências relativas Nesse caso podemos calcular as frequências relativas de cada célula Em relação ao total geral 28 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Em relação ao total de cada linha Em relação ao total de cada coluna Para elucidar a estrutura de uma tabela de contingência vamos utilizar os dados do Exemplo 21 Exemplo 24 Com os dados do Exemplo 21 vamos construir uma tabela de contingência para as variáveis gênero e área para especialização Resolução As variáveis em estudo são gênero com duas categorias de respostas e área para especialização com quatro categorias de respostas Em cada célula do corpo da tabela deverá aparecer a frequência observada das respostas simultâneas das duas variáveis ou seja Feminino e Gestão de Negócios Feminino e Gestão Financeira Feminino e Gestão de Projetos Feminino e Gestão de Marketing Masculino e Gestão de Negócios Masculino e Gestão Financeira Masculino e Gestão de Projetos Masculino e Gestão de Marketing Por exemplo temos 2 frequências para Feminino e Gestão de Negócios estudantes 11 e 16 As frequências das outras células são obtidas de maneira similar Tabela 5 Tabela de contingência da área para especialização e gênero dos estudantes Gênero Área para especialização Gestão de Negócios Gestão de Projetos Gestão de Marketing Gestão Financeira Total Feminino 2 4 4 4 14 Masculino 5 3 2 1 11 Total 7 7 6 5 25 Fonte Próprio autor A linha dos totais fornece a distribuição da variável Área para especialização e a coluna dos totais fornece a distribuição da variável Gênero Essas distribuições são as distribuições marginais das variáveis e a Tabela 5 constitui a distribuição conjunta das variáveis Área para especialização e Gênero As Tabelas 6 e 7 apresentam respectivamente as tabelas de contingências expressas em frequências relativas com relação ao total geral e ao total de cada linha 29 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Tabela 6 Tabela de contingência das frequências relativas em relação ao total geral das variáveis área para especialização e gênero dos estudantes Gênero Área para especialização Gestão de Negócios Gestão de Projetos Gestão de Marketing Gestão Financeira Total Feminino 800 1600 1600 1600 5600 Masculino 2000 1200 800 400 4400 Total 2800 2800 2400 2000 10000 Fonte Próprio autor Tabela 7 Tabela de contingência das frequências relativas em relação aos totais de cada linha das variáveis área para especialização e gênero dos estudantes Gênero Área para especialização Gestão de Negócios Gestão de Projetos Gestão de Marketing Gestão Financeira Total Feminino 1429 2857 2857 2857 10000 Masculino 4545 2727 1818 909 10000 Total 2800 2800 2400 2000 10000 Fonte Próprio autor De maneira similar podemos construir a tabela de contingência das frequências relativas em relação aos totais de cada coluna Tente construir essa tabela Como visto anteriormente a tabela de contingência é muito utilizada para analisar o comportamento de duas variáveis conjuntamente com o objetivo de identificar possíveis relações ou associações entre elas Você encontrará uma leitura interessante sobre medidas de associação entre duas variáveis qualitativas duas variáveis quantitativas e uma qualitativa e a outra quantitativa em BUSSAB W O MORETTIN P A Estatística básica 5 ed São Paulo Saraiva 2002 A organização de um conjunto de dados brutos em distribuições de frequências facilita a apresentação análise e conclusão dos dados coletados A estrutura de uma distribuição de frequências é a mesma para variáveis qualitativas ou quantitativas No caso das variáveis quantitativas contínuas ou discretas com um número muito grande de observações é conveniente agrupar os dados em intervalos de classes para melhor organização e apresentação destes A seguir estudaremos como visualizar os dados através de representações gráficas 30 CAPÍTULO 3 Construção e análise de gráficos O uso de gráficos estatísticos pelos meios de comunicação é cada vez mais frequente Uma das justificativas é que tais gráficos apresentam as informações contidas em distribuições de frequências por meio de ilustrações facilitando a compreensão O uso de programas computacionais que apresentam uma quantidade muito grande de tipos de gráficos faz com que a construção deles se torne cada vez mais simples Quando utilizamos gráficos para analisar e tirar conclusões sobre um conjunto de dados devemos ser extremamente cuidadosos em como construílos Um gráfico desproporcional em suas medidas pode conduzir a conclusões completamente equivocadas Analisando os gráficos a seguir em qual das séries históricas você acha que há maior instabilidade e incerteza A primeira ou a segunda Figura 4 Gráfico em linha incerteza ou estabilidade INCERTEZA Renda kF 200 202 204 206 208 210 1985 1986 1987 1988 1989 1990 1991 OU ESTABILIDADE Renda kF 0 50 100 150 200 250 1985 1986 1987 1988 1989 1990 1991 Fonte Besson JL 1995 p 205 adaptado pelo autor 31 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I A resposta para essa pergunta é nenhuma das duas Os gráficos representam os mesmos valores Mas então por que as formas das linhas são tão diferentes dando a impressão de que a primeira figura pareça mais instável e a segunda mais constante Isso ocorre pois na primeira figura a escala começa em 200 com um intervalo de 2 unidades Na segunda figura a escala começa em 0 que é a forma correta de começar qualquer escala e tem um intervalo de 50 unidades Essas diferenças nas escalas nos levam a acreditar equivocadamente que a série de observações apresentada no primeiro gráfico apresenta maior instabilidade que a série de observações apresentada no segundo gráfico lembrando que as séries de observações são iguais Existem vários gráficos que podem ser utilizados para visualizar os dados então focaremos nos mais utilizados para variáveis qualitativas e quantitativas Apresentação de dados qualitativos Gráfico de barras O gráfico de barras é muito utilizado para variáveis qualitativas categóricas em que cada barra representa a identificação de cada uma das categorias da variável em estudo O comprimento de cada uma das barras representa a frequência absoluta ou a frequência relativa de cada categoria As barras podem estar na posição vertical ou horizontal As barras na posição horizontal facilitam a leitura nos casos em que as categorias têm nomes extensos Exemplo 31 Vamos construir um gráfico de barras para representar os dados apresentados na Tabela 2 capítulo 2 Figura 5 Gráfico de barras na horizontal para a distribuição dos estudantes segundo área para especialização 000 500 1000 1500 2000 2500 3000 Gestão de Marketing Gestão de Negócios Gestão de Projetos Gestão Financeira Frequência Relativa Área Fonte Próprio autor 32 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS A Figura 6 apresenta as barras na posição vertical e elas são construídas com base na frequência absoluta Há a opção de colocarmos as frequências acima das barras Figura 6 Gráfico de barras na vertical para a distribuição dos estudantes segundo área para especialização 6 7 7 5 0 2 4 6 8 Gestão de Marketing Gestão de Negócios Gestão de Projetos Gestão Financeira Número de estudantes Área Fonte Próprio autor Gráfico de barras paralelas O gráfico de barras paralelas utiliza um conjunto de barras para ilustrar as respostas combinadas de duas variáveis qualitativas Portanto é muito utilizado para representar dados de variáveis qualitativas organizadas em tabelas de contingência Exemplo 32 Construa um gráfico de barras paralelas para os dados da Tabela 5 capítulo 2 Figura 7 Gráfico de barras paralelas para área de especialização segundo gênero 0 1 2 3 4 5 6 Gestão de Negócios Gestão de Projetos Gestão de Marketing Gestão Financeira Número de estudantes Área Masculino Feminino Fonte Próprio autor 33 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Gráfico de setores O gráfico de setores também conhecido como gráfico de pizza é utilizado para mostrar como um todo se divide em partes os setores Cada setor representa uma categoria da variável qualitativa em estudo O gráfico de setores é apropriado quando o número de categorias for pequeno Exemplo 33 A distribuição de frequências a seguir apresenta o número de reclamações fundamentadas por área na Fundação ProconSP Exercício 2017 Tabela 8 Reclamações no ProconSP por área em 2017 Área Frequência Frequência Relativa Alimentos 138 050 Assuntos Financeiros 4485 1627 Habitação 637 231 Produtos 8887 3225 Saúde 1148 417 Serviços Essenciais 6960 2526 Serviços Privados 5303 1924 Total 27558 10000 Fonte Disponível em httpwwwproconspgovbrpdfrankingfundacaoproconsp2017pdf Acesso em 3 maio 2018 Vamos construir o gráfico de setores para visualizar os dados apresentados na Tabela 8 Figura 8 Gráfico de setores para a reclamações fundamentadas no ProconSP por área em 2017 050 1627 231 3225 417 2526 1924 Alimentos Assuntos Financeiros Habitação Produtos Saúde Serviços Essenciais Serviços Privados Fonte Próprio autor 34 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Diagrama de Pareto O diagrama de Pareto é um gráfico em que as barras estão em ordem decrescente de acordo com suas respectivas frequências Há também uma linha de percentagens acumuladas no mesmo gráfico Esse gráfico está baseado no princípio de Pareto ou regra dos 8020 que significa que em muitos conjuntos de dados 80 dos problemas são ocasionados por 20 das causas ou seja poucas causas originam a maioria dos problemas Ele é utilizado como uma das sete ferramentas da qualidade na resolução de problemas e melhoria de um processo A linha de percentagem acumulada está desenhada no ponto médio de cada uma das categorias e a altura é igual à percentagem acumulada Exemplo 34 Enade 2014 TGPI O Diagrama de Pareto é uma ferramenta utilizada para priorizar as ações para melhoria da Qualidade A regra 8020 indica que cerca de 80 da quantidade de causas contribuem em cerca de 20 dos efeitos observados e que cerca de 20 da quantidade de causas contribuem em cerca de 80 dos efeitos observados Por isso o diagrama de Pareto é também conhecido como Técnica 8020 Considere que uma empresa fez o levantamento dos defeitos ocorridos em sua linha de produção Foram identificados 1000 defeitos conforme representado no gráfico a seguir Figura 9 Gráfico em barras na vertical para as causas de defeitos 250 9 200 10 7 25 60 9 6 6 350 50 5 6 7 0 50 100 150 200 250 300 350 400 Conector solto Defletor empenado Falta de acabamento Falta de isolamento Fiação cortada Fiação solta Fonte queimada Gabinete oxidado Manchas na pintura Parafusos trocados Placa solta Rolamento invertido Rolamento travado Solenoide inoperante Vedação mal encaixada Quantidade de defeitos Fonte Disponível emhttpdownloadinepgovbreducacaosuperiorenadeprovas201442tecnologiagestaoproducao industrialpdf Acesso em 7 jul 2018 Adaptado pelo autor Utilizando o método de Pareto identifique e justifique com os devidos cálculos os defeitos que deveriam ser prioritariamente analisados para melhoria da Qualidade 35 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Resolução Através do gráfico observamos que há 15 tipos diferentes de defeitos totalizando 1000 defeitos Desses 15 tipos 3 deles 20 totalizam 800 defeitos 80 Esses percentuais são obtidos da seguinte maneira 3 100 20 15 e 350 250 200 100 80 1000 Portanto os defeitos que deveriam ser prioritariamente analisados para melhoria da qualidade são placa solta conector solto e falta de acabamento O diagrama de Pareto para esse conjunto de dados está apresentado na Figura 10 Figura 10 Diagrama de Pareto para os tipos de defeitos ocorridos na linha de produção de uma empresa Fonte Próprio autor A percentagem acumulada da primeira categoria foi obtida pelo seguinte cálculo 350 100 35 1000 A segunda percentagem acumulada é 350 250 100 60 1000 e assim por diante 36 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Apresentação de dados quantitativos Gráfico de barras Assim como para as variáveis qualitativas o gráfico de barras na vertical também é utilizado para variáveis quantitativas discretas que não foram agrupadas em intervalos de classes Exemplo 35 Com o objetivo de se fazer um estudo sobre mobilidade urbana em uma metrópole foi realizada uma pesquisa em 4000 residências e a variável de interesse era a quantidade de automóveis em cada uma delas Os resultados são apresentados a seguir Tabela 9 Distribuição do número de automóveis por residência Número de automóveis Frequência Frequência Relativa 0 820 2050 1 1250 3125 2 1680 4200 3 200 500 4 50 125 Total 4000 10000 Fonte Próprio autor Vamos visualizar essas informações por meio de um gráfico de barras Figura 11 Gráfico de barras para a variável número de automóveis por residência 0 5 10 15 20 25 30 35 40 45 0 1 2 3 4 Frequência Relativa Número de automóveis Fonte Próprio autor 37 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Histograma O histograma também é um gráfico de barras verticais em que cada barra representa um intervalo de classe Portanto o histograma é utilizado para representar distribuições de frequências cujos dados foram agrupados em intervalos de classes No eixo x representamos os intervalos de classes e no eixo y representamos o comprimento de cada barra através da frequência absoluta ou da frequência relativa Em um histograma não há lacunas entre as barras adjacentes Exemplo 36 Vamos construir um histograma para os dados da Tabela 4 capítulo 2 Figura 12 Histograma para a variável tempo de parada minutos de um equipamento 0 5 10 15 20 25 515 1525 2535 3545 4555 5565 6575 7585 Frequência Tempo de parada minutos Fonte Próprio autor Apresentação de duas variáveis quantitativas Gráfico de dispersão Nos estudos frequentemente há o interesse em se investigar possíveis relacionamentos entre duas variáveis quantitativas X e Y A investigação visual de um possível relacionamento entre essas variáveis é feita através da análise de um gráfico denominado diagrama de dispersão Nele os pares ordenados x y são representados no plano cartesiano através de um ponto A disposição dos vários pares ordenados do conjunto de dados permite visualizar possíveis relacionamentos entre as variáveis Exemplo 37 Certa empresa está estudando a variação da demanda de um de seus produtos em relação à variação de preço de venda Os dados estão a seguir 38 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Tabela 10 Preços e demandas de um produto Preço x 42 45 54 55 61 62 70 85 95 108 Demanda y 360 354 324 320 300 280 258 227 212 200 Fonte Próprio autor O diagrama de dispersão para esse conjunto de dados é apresentado na Figura 13 Figura 13 Diagrama de dispersão para os dados preço de venda e demanda de um produto 0 50 100 150 200 250 300 350 400 0 20 40 60 80 100 120 Demanda Preço Fonte Próprio autor Pela análise gráfica observamos uma relação linear decrescente negativa ou seja à medida que o preço de venda aumenta ocorre diminuição da demanda Gráfico de séries temporais O gráfico de séries temporais é muito utilizado para identificar padrões como tendências e sazonalidade em dados observados em intervalos de tempo regularmente espaçados Exemplo 38 O gráfico a seguir apresenta a taxa de desemprego mensal nas regiões metropolitanas de Recife Salvador Belo Horizonte Rio de Janeiro São Paulo e Porto Alegre no ano de 2015 39 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Figura 14 Gráfico de séries temporais para a taxa de desemprego mensal em seis regiões metropolitanas no ano de 2015 53 58 61 64 67 69 75 75 75 78 75 69 0 2 4 6 8 10 Taxa de desemprego mensal Meses Fonte Disponível em httpscenso2010ibgegovbrnoticiascensohtmlbusca1id1idnoticia3106tjaneirotaxa desocupacaovai76viewnoticiahttpdownloadinepgovbreducacaosuperiorenadeprovas201442tecnologiagestao producaoindustrialpdf Acesso em 8 jul 2018 Adaptado pelo autor Cuidados na elaboração de gráficos Quando optamos por visualizar e interpretar um conjunto de dados por meio de gráficos devemos tomar alguns cuidados na elaboração destes para não obter conclusões distorcidas Devemos Evitar construir gráficos com uso excessivo de figuras que podem ocultar a informação que se deseja transmitir Incluir título abaixo da ilustração Colocar título nos eixos Legendas explicativas devem aparecer de preferência à direita da figura Começar a escala para o eixo vertical em zero Utilizar uma escala constante Discutimos ao longo deste capítulo como podemos apresentar dados qualitativos e quantitativos através de gráficos Quando optamos pela representação gráfica devemos ter muito cuidado em sua criação pois por exemplo gráficos com problemas nas escalas vertical e horizontal podem gerar conclusões equivocadas Nos capítulos da Unidade II aprenderemos a descrever um conjunto de dados quantitativos em termos de sua tendência central e sua variabilidade 40 UNIDADE II MEDIDAS DESCRITIVAS Na Unidade I aprendemos como organizar e resumir um conjunto de dados por meio de distribuições de frequências e gráficos O uso de tabelas e gráficos apropriados para variáveis qualitativas e quantitativas nos auxilia na obtenção de conclusões preliminares sobre o conjunto de dados em estudo Além disso permitenos levantar questionamentos que podem ser respondidos por meio de outras análises estatísticas Quando estamos trabalhando com variáveis quantitativas temos uma gama maior de ferramentas que podem ser utilizadas para a análise descritiva dos dados Por exemplo podemos calcular medidas que resumem todo o conjunto de dados em termos de seu valor típico ou central e de sua variação São essas medidas que estudaremos nos próximos capítulos Com o estudo dos conteúdos abordados nesta unidade esperamos que você consiga 1 Calcular e interpretar as medidas de posição central 2 Calcular e interpretar as medidas de dispersão 41 CAPÍTULO 1 Medidas de posição central Para melhor compreensão da importância das medidas de posição central vamos analisar as seguintes informações 1 A idade média de estudantes na modalidade EAD é de 33 anos 2 A taxa média de juros para financiamento de veículos é 215 ao mês 3 A renda média do trabalhador brasileiro no último trimestre de 2017 foi de R 215400 Diferentemente das distribuições de frequências e dos gráficos essas informações sintetizam em um único valor os dados que foram coletados para cada uma das variáveis em estudo idade taxa de juros e renda do trabalhador Com esses valores temos uma ideia do valor central em torno do qual os dados se distribuem Veremos a seguir como calculamos a média e outras medidas de posição central que são utilizadas para representar a posição ou localização central de um conjunto de dados Média aritmética A média aritmética ou simplesmente média é a medida de tendência central mais frequentemente utilizada Se a média é uma medida que aparece frequentemente em notícias divulgadas pelos meios de comunicação provavelmente você já precisou encontrála ou compreender seu significado em algum contexto Como fazemos para calcular essa medida descritiva Para calcular a média precisamos somar os valores que aparecem no conjunto de dados e dividir pelo total de valores contidos nesse conjunto A fórmula matemática para essa definição é 1 n i xi x n em que x média lemos como x barra 42 UNIDADE II MEDIDAS DESCRITIVAS 1 n i i x somatório de n observações 1 2 3 n x x x x 1x representa o primeiro valor observado 2x representa o segundo valor observado e assim por diante nx representa o n ésimo valor observado n número de observações no conjunto de dados ou seja tamanho da amostra A fórmula para calcular a média de uma população é a mesma mas a notação é diferente Para indicar que estamos trabalhando com a população inteira utilizamos N e a letra grega µ mi para indicar a média ou seja 1 i i i x N µ Exemplo 41 De acordo com órgãos de defesa do consumidor questionamentos relacionados a planos de saúde estão frequentemente nas primeiras posições A maioria dos questionamentos são referentes a reajustes abusivos negativas de cobertura e ausência de informações adequadas sobre os planos Uma operadora de plano de saúde preocupada com os indicadores da qualidade dos serviços prestados fez um levantamento amostral para compreender o tempo em dias necessário entre o recebimento de uma reclamação referente à negativa de cobertura e a solução do problema relacionado a essa reclamação Os dados são apresentados a seguir 3 4 4 1 5 2 3 3 2 1 5 3 2 4 4 3 5 2 1 5 2 3 3 4 4 5 3 2 1 2 Vamos encontrar o tempo médio para a solução do problema relacionado à reclamação Resolução Para encontrarmos a média precisamos somar todos os tempos e dividir pela quantidade de valores no conjunto de dados tamanho da amostra Usando a fórmula 1 1 2 3 30 3 4 4 1 2 91 303 30 30 30 n i xi x x x x x dias n Portanto o tempo médio para a solução do problema é de aproximadamente três dias Para dados organizados em uma distribuição de frequências podemos utilizar a seguinte fórmula 1 k i i i x f x n 43 MEDIDAS DESCRITIVAS UNIDADE II Para facilitar os cálculos acrescentamos a seguinte coluna na distribuição de frequências Título Estrutura da distribuição de frequências para o cálculo da média por meio dos dados tabelados Nome da variável ix Frequência if Frequência Relativa i i x f 1x 1f 1 1 x f 2x 2f 2 2 x f kx kf k k x f Total número total de observações no conjunto de dados 10000 1 k i i i x f A coluna i i x f serve como uma coluna auxiliar no cálculo da média ou seja só tem sentido acrescentála na distribuição de frequências se for necessário calcular a média Exemplo 42 A Tabela 11 apresenta os dados referentes ao tempo em dias para a solução do problema descrito no Exemplo 41 Tabela 11 Distribuição dos tempos em dias necessários para a solução do problema Tempo em dias Frequência Frequência Relativa 1 4 1333 2 7 2333 3 8 2667 4 6 2000 5 5 1667 Total 30 10000 Fonte Próprio autor Vamos encontrar o tempo médio para a solução do problema por meio da distribuição de frequências Resolução Como os dados já estão organizados em uma distribuição de frequências basta acrescentarmos a coluna auxiliar 44 UNIDADE II MEDIDAS DESCRITIVAS Tabela 12 Cálculo da coluna auxiliar para encontrar a média Tempo em dias ix Frequência if Frequência Relativa i i x f 1 4 1333 4 2 7 2333 14 3 8 2667 24 4 6 2000 24 5 5 1667 25 Total 30 10000 91 Fonte Próprio autor Então 1 91 303 dias 30 k i i i x f x n A seguir estudaremos algumas propriedades importantes da média aritmética Propriedades da média A soma dos desvios é zero ou seja 1 0 i n i i d x x Em palavras os desvios são encontrados fazendo a diferença entre cada valor do conjunto de dados e a média aritmética do conjunto A soma dos desvios encontrados é zero para qualquer conjunto de dados 1 Somandose ou subtraindose uma constante de todos os valores de um conjunto de dados a média do conjunto fica acrescida ou diminuída dessa constante 2 Multiplicandose ou dividindose todos os valores de um conjunto de dados por uma constante a média do conjunto fica multiplicada ou dividida por essa constante Outro tipo de média bastante conhecida é a média ponderada Ela é muito utilizada por exemplo no cálculo da média final de um estudante em uma disciplina ou na nota final do candidato em um concurso Na média ponderada são atribuídos aos valores importâncias diferentes Por exemplo um estudante pode fazer cinco provas durante o semestre e para cada prova é atribuído 45 MEDIDAS DESCRITIVAS UNIDADE II um peso O cálculo da média ponderada é feito por meio do somatório das multiplicações entre valores e pesos divididos pelo somatório dos pesos ou seja i i p i x p x p em que ip são os pesos atribuídos Moda A moda é o valor ou categoria que aparece com maior frequência em um conjunto de dados Portanto pela definição podemos encontrar a moda para variáveis quantitativas valor e qualitativas categoria Há conjuntos de dados que não apresentam respostas repetidas Nesses casos dizemos que a distribuição é amodal não apresenta moda Em outros casos podem aparecer duas ou mais respostas de maior frequência no conjunto de dados Nesses casos dizemos que a distribuição é bimodal e multimodal respectivamente No conjunto de dados apresentados no Exemplo 41 temos que a resposta que aparece com maior frequência frequência 8 é 3 Portanto 3 Mo dias Nesse caso a distribuição é modal Mediana A mediana corresponde ao valor que divide o conjunto de dados ordenados ao meio deixando a mesma quantidade de valores abaixo dela e acima Portanto metade dos valores é menor ou igual à mediana e a outra metade é maior ou igual ao valor da mediana Vamos utilizar uma das seguintes regras para calcular a mediana 1 Se o número de elementos do conjunto de dados for ímpar a mediana será exatamente o valor do meio ou seja 1 2 n Md x 2 Se o número de elementos do conjunto de dados for par a mediana será exatamente a média dos dois valores do meio isto é 1 2 2 2 n n x x Md 46 UNIDADE II MEDIDAS DESCRITIVAS em que 2 nx 2 1 nx 1 2 e nx indicam as observações que ocupam as posições do meio do conjunto de dados Não se esqueça para encontrar a mediana os dados devem estar ordenados Exemplo 43 Vamos encontrar a mediana para os dados do Exemplo 41 Resolução Primeiramente devemos ordenar o conjunto de dados 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 Como n 30 observações 1 2 2 2 n n x x Md 30 30 1 15 16 2 2 2 2 x x x x Md ou seja a mediana está entre a décima quinta e décima sexta posições dos dados ordenados 3 3 3 2 Md dias Portanto pelo menos 50 dos tempos necessários para solucionar o problema são maiores ou iguais a três dias Quando o conjunto de dados brutos for pequeno é fácil ordenar e encontrar o valor do meio dos dados ordenados E quando o conjunto de dados for grande e estiver apresentado através de uma distribuição de frequências Como encontramos a mediana Para dados apresentados em uma distribuição de frequências usaremos a informação da frequência acumulada para nos auxiliar a encontrar a mediana Exemplo 44 Vamos encontrar a mediana para os dados do Exemplo 41 a partir dos dados organizados em uma distribuição de frequências 47 MEDIDAS DESCRITIVAS UNIDADE II Resolução Na distribuição de frequências vamos incluir a frequência acumulada Tabela 13 Distribuição dos tempos em dias necessários para a solução do problema Tempo em dias ix Frequência if Frequência Relativa Frequência Acumulada 1 4 1333 4 2 7 2333 11 3 8 2667 19 4 6 2000 25 5 5 1667 30 Total 30 10000 Fonte Próprio autor Sabemos que a mediana está entre a décima quinta e a décima sexta posições dos dados ordenados Como identificamos essas posições com a informação da frequência acumulada Qual o significado da frequência acumulada ser 19 na terceira linha da tabela A coluna da frequência acumulada nos informa que Na primeira linha da tabela estão as observações 1 4 x x Na segunda linha da tabela estão as observações 5 11 x x Na terceira linha da tabela estão as observações 12 19 x x Na quarta linha da tabela estão as observações 20 25 x x Na quinta linha da tabela estão as observações 26 30 x x Logo é a terceira linha que contém o 15 x e o 16 x cuja resposta para a variável é 3 Portanto 3 3 3 2 Md dias Como já dissemos anteriormente a média é a medida de posição central mais conhecida e frequentemente utilizada Mas em algumas situações a mediana se torna mais representativa para resumir o conjunto de dados 48 UNIDADE II MEDIDAS DESCRITIVAS Exemplo 45 Um gerente de sistemas encarregado pela rede de comunicações da empresa em que trabalha acompanha o número de falhas diárias que ocorrem no servidor da rede Os dados a seguir representam o número de falhas diárias do servidor num período de duas semanas 2 3 1 0 3 36 3 8 0 1 2 3 3 5 Determine a média e a mediana para esse conjunto de dados Resolução Para encontrar a média somamos todos os valores e dividimos por 14 ou seja 2 3 1 3 5 70 5 14 14 x falhas Ou seja concluímos que o número médio de falhas diárias é 5 Analisando o conjunto de dados observamos que o valor encontrado para a média está acima dos valores de 11 observações 7857 do conjunto Portanto ela não descreve bem a tendência central dos dados Por que isso ocorreu Temos uma observação discrepante ou seja muito maior que as outras que é 36 Essa observação puxa a média para cima fazendo com que tenhamos uma interpretação enganosa sobre o centro em torno do qual os dados se distribuem A média aritmética é muito sensível a valores extremos então dizemos que a média não é uma medida de tendência central resistente Para o cálculo da mediana temos n 14 observações Então 14 14 1 2 2 2 x x Md 7 8 2 x x Md ou seja a mediana é a média entre os valores que ocupam a sétima e oitava posições do conjunto de dados ordenados 3 3 3 2 Md falhas Esse resultado nos mostra que a tendência central do número de falhas diárias no servidor é melhor descrita pela mediana e não pela média das falhas 49 MEDIDAS DESCRITIVAS UNIDADE II Exemplo 46 FCC 2010 Adaptado Em uma cidade é realizado um levantamento referente aos valores recolhidos de determinado tributo estadual no período de um mês Analisando os documentos de arrecadação detectouse 6 níveis de valores com suas respectivas quantidades de recolhimento conforme quadro abaixo Quadro 3 Valores de tributos arrecadados Valores R Quantidade de recolhimento 500 30 1000 50 1500 60 2000 30 2500 20 3000 10 Fonte Próprio autor Com relação às medidas de posição deste levantamento temse que o valor da a média aritmética é igual à metade da soma da mediana e a moda b média aritmética é igual ao valor da mediana c média aritmética supera o valor da moda em R 12500 d moda supera o valor da mediana em R 50000 e mediana supera o valor da média aritmética em R 2500 Resolução Para identificarmos a alternativa correta vamos encontrar os valores da média moda e mediana Média 1 500 30 1000 50 1500 60 2000 30 2500 20 3000 10 295000 147500 30 50 60 30 20 10 200 k i i i x f x reais n Moda 1500 reais pois é a resposta que aparece com a maior frequência Mediana Para o cálculo da mediana temos n 200 observações 50 UNIDADE II MEDIDAS DESCRITIVAS Então 200 200 1 2 2 2 x x Md 100 101 2 x x Md ou seja a mediana é a média entre os valores que ocupam a centésima e centésima primeira posições do conjunto de dados ordenados Pela frequência acumulada concluímos que a mediana se encontra na terceira linha do quadro pois Na primeira linha do quadro estão as observações 1 30 x x Na segunda linha do quadro estão as observações 31 80 x x Na terceira linha do quadro estão as observações 81 140 x x Então 1500 1500 150000 2 Md reais Comparando os valores encontrados para a média moda e mediana temos que a alternativa correta é a letra e Cálculos das medidas de posição central para dados agrupados em intervalos de classes Estudamos até agora como encontrar as medidas de posição central por meio do conjunto de dados brutos ou através dos dados organizados em distribuições de frequências sem o agrupamento deles em intervalos de classes Mas sabemos que em algumas situações é conveniente usar classes para organizar e resumir os dados Nessas situações como devemos proceder Quando agrupamos as observações em classes perdemos a informação dos valores que estão dentro de cada uma delas Nesse caso supomos que todos os valores dentro de uma classe tenham seus valores iguais ao ponto médio dessa classe Se em uma distribuição de frequência aparece o intervalo de 2030 com frequência 8 Quais são os 8 valores que estão dentro desse intervalo Caso não tenhamos os dados brutos coletados sem o tratamento das informações não 51 MEDIDAS DESCRITIVAS UNIDADE II podemos responder a essa pergunta de maneira precisa Só podemos afirmar que são valores maiores ou iguais a 20 e menores que 30 Então assumimos que as 8 observações são iguais a 25 que é o ponto médio deste intervalo Vamos aprender a calcular as medidas de tendência central para dados agrupados através do exemplo a seguir Exemplo 47 Uma pesquisa foi realizada com o intuito de se conhecer o perfil do consumidor online no Brasil Os dados referentes às idades dos consumidores estão apresentados na Tabela 14 Tabela 14 Distribuição das idades dos consumidores online Idade anos Frequência Frequência Relativa 15 25 360 800 25 35 1035 2300 35 45 1575 3500 45 55 900 2000 55 65 450 1000 65 75 180 400 Total 4500 10000 Fonte Próprio autor Resolução Para o cálculo da média e da mediana vamos acrescentar três colunas na distribuição de frequências ix ponto médio da classe i i x f e a frequência acumulada Tabela 15 Cálculos das colunas auxiliares para encontrar a média e a mediana Idade anos Frequência Frequência Relativa ix i i x f Frequência acumulada 15 25 360 800 20 7200 360 25 35 1035 2300 30 31050 1395 35 45 1575 3500 40 63000 2970 45 55 900 2000 50 45000 3870 55 65 450 1000 60 27000 4320 65 75 180 400 70 12600 4500 Total 4500 10000 185850 Fonte Próprio autor 52 UNIDADE II MEDIDAS DESCRITIVAS Para encontrar ix ponto médio basta fazer 2 i s m L L P Então para o primeiro intervalo 15 25 40 20 2 2 m P Para os demais intervalos procedemos da mesma maneira Média Substituindo os valores encontrados na fórmula temos 1 185850 413 4500 k i i i x f x anos n Moda Existem algumas fórmulas para encontrar a moda em uma distribuição de frequências com intervalos de classes porém a mais simples é definir a moda como o ponto médio da classe modal Portanto neste exemplo a classe modal é 35 45 pois apresenta a maior frequência 1575 e vamos considerar a moda o ponto médio desta classe ou seja 40 Mo anos Mediana Utilizaremos a seguinte fórmula para o cálculo da mediana para dados agrupados em intervalos de classes 2 md ant md inf a md h n Md l F f em que linfmd limite inferior do intervalo que contém a mediana hmd amplitude do intervalo de classe que contém a mediana fmd número de observações do intervalo que contém a mediana n número total de observações da distribuição de frequências Faant frequência acumulada do intervalo anterior àquele que contém a mediana A primeira informação que precisamos identificar é o intervalo que contém a mediana Como n 4500 observações sabemos que a mediana está entre as observações x2250 53 MEDIDAS DESCRITIVAS UNIDADE II e x2251 Através da coluna da frequência acumulada identificamos que essas duas observações estão no intervalo de 35 45 cuja frequência acumulada é 2970 Portanto linfmd 35 hmd 45 35 10 fmd 1575 n 4500 Faant 1395 Para facilitar a compreensão das informações obtidas vamos analisar o quadro a seguir Quadro 4 Identificação dos valores que serão utilizados no cálculo da mediana n Intervalo que contém a mediana Frequência acumulada do intervalo anterior àquele que contém a mediana Idade anos Frequência Frequência Acumulada 15 25 360 360 25 35 1035 1395 35 45 1575 2970 45 55 900 3870 55 450 4320 65 180 4500 Total 4500 Fonte Próprio autor Substituindo os valores encontrados na fórmula temos 2 md ant md inf a md h n Md l F f 10 4500 35 1395 1575 2 Md 35 543 4043 anos Md Então no mínimo 50 das observações são maiores ou iguais a 4043 anos Os valores obtidos para as medidas de posição central quando os dados estão agrupados em intervalos de classes são apenas aproximações dos verdadeiros valores pois substituímos os valores das observações pelo ponto médio do intervalo de classe 54 UNIDADE II MEDIDAS DESCRITIVAS Aprendemos neste capítulo a calcular e interpretar as medidas de posição central média aritmética moda e mediana Dessas a moda é a medida que pode também ser encontrada para variáveis qualitativas A média é uma medida sensível a valores discrepantes presentes em um conjunto de dados tornando nesses casos a mediana mais representativa para descrever a tendência central dos dados As medidas de posição central apresentadas não bastam para descrever um conjunto de dados pois elas não informam sobre a variabilidade do conjunto em estudo Por exemplo dois conjuntos de dados podem apresentar a mesma média mas dispersões completamente diferentes As medidas de dispersão que estudaremos no próximo capítulo fornecerão informações sobre a variação dispersão do conjunto de dados 55 CAPÍTULO 2 Medidas de dispersão Para compreender o conceito de variabilidade vamos analisar a situação a seguir Exemplo 51 Uma empresa tem interesse em estudar duas linhas de produção quanto à variabilidade na produção de um mesmo tipo de peça Para isso amostras de peças produzidas por essas duas linhas foram selecionadas e seus comprimentos cm foram obtidos Linha 1 75 72 76 74 73 74 76 75 73 72 Linha 2 74 80 77 70 70 71 73 76 74 75 Calculando o comprimento médio das peças produzidas pelas duas linhas obtemos 1 1 75 72 72 74 10 n i i linha x x cm n e 1 2 74 80 75 74 10 n i i linha x x cm n Embora as médias sejam iguais analisando cuidadosamente os valores das duas amostras observamos maior variabilidade na produção das peças da linha 2 ou seja os comprimentos das peças apresentam maior variação com relação ao comprimento médio obtido Apresentaremos a seguir as medidas de dispersão mais utilizadas para mediar a variabilidade de um conjunto de dados Mínimo máximo e amplitude O mínimo e o máximo de um conjunto de dados são respectivamente o menor e o maior valor do conjunto E a amplitude é a diferença entre o valor máximo e o valor mínimo ou seja máximo mínimo Amplitude x x A amplitude é uma medida de dispersão fácil de calcular e de interpretar mas não mede bem a variabilidade de um conjunto de dados pois ela só leva em conta dois valores 56 UNIDADE II MEDIDAS DESCRITIVAS no seu cálculo máximo e o mínimo Com isso pode acontecer de dois conjuntos de dados com variabilidades muito diferentes terem a mesma amplitude E também a amplitude é muito sensível a valores extremos discrepantes fazendo com que o seu valor aumente muito Estudaremos a seguir medidas que levam em conta todas as observações do conjunto de dados e que têm como princípio básico medir a dispersão das observações em torno da média dessas observações Desvio médio variância e desviopadrão amostrais Para estudarmos a dispersão dos dados em torno da média precisamos compreender o conceito de desvio em relação à média Desvio em relação à média nada mais é do que a distância entre qualquer observação do conjunto de dados em relação à média aritmética desse mesmo conjunto desvio observação média desvio x x De acordo com a definição acima podemos concluir que se os desvios encontrados forem pequenos as observações estão concentradas em torno da média portanto a variabilidade dispersão é pequena Agora desvios grandes mostram maior dispersão dos dados em torno da média portanto maior variabilidade Para analisar o grau de dispersão de todo o conjunto precisamos observar todos os desvios Mas já vimos na propriedade 1 da média que para qualquer conjunto de dados a soma dos desvios é igual a zero Então 1 n i i x x não serve como medida de dispersão pois todos os conjuntos teriam variabilidade nula Isso ocorre porque os desvios com sinais positivos e negativos se compensam Para contornar o resultado desta propriedade podemos considerar o total dos desvios em valor absoluto ou seja 1 n i i x x Mas somente o uso desse total pode causar dificuldades de interpretação quando estivermos comparando conjunto de dados com números diferentes de observações Então o conveniente é definir a medida como média obtendo o desvio médio 1 n i i x x dm n O desvio médio é uma média dos valores absolutos dos desvios em relação à média Essa medida utiliza o módulo que por suas características matemáticas torna difícil o estudo de suas propriedades 57 MEDIDAS DESCRITIVAS UNIDADE II Outra maneira de eliminar os sinais é elevar os desvios ao quadrado A variância amostral é uma medida de dispersão que pode ser interpretada como uma média dos quadrados dos desvios ou seja 2 2 1 1 1 n i i x x s n n O denominador 1 n são os graus de liberdade associados à variância e sua utilização se dá por motivos relacionados à inferência estatística Vale observar que a diferença entre dividir por n ou por 1 n tornase cada vez menor à medida que o tamanho da amostra aumenta Uma fórmula alternativa para o cálculo da variância é 2 2 1 1 2 1 n n i i i i x x n s n em que ix2 soma de cada valor observado ao quadrado 2 ix quadrado da soma de todos os valores observados n número total de observações no conjunto de dados A vantagem dessa fórmula alternativa é evitar a operação de subtração ix x que em muitos casos envolve números decimais tornando o cálculo mais trabalhoso e aumentando a chance de erros decorrentes de arredondamentos Para dados organizados em uma distribuição de frequências utilizamos a seguinte fórmula 2 2 2 2 1 1 2 2 2 1 1 1 k i i k k i x x f x x f x x f x x f s n n Ou pela fórmula alternativa 2 2 1 1 2 1 n n i i i i i i x f x f n s n Como o cálculo da variância envolve os quadrados dos desvios as unidades de medida da variância são sempre iguais ao quadrado das unidades de medida dos dados originais por exemplo 2 2 min kg 2 m etc tornando suas interpretações sem sentido 58 UNIDADE II MEDIDAS DESCRITIVAS Para obtermos uma medida de variabilidade cuja unidade de medida seja a mesma do conjunto de dados extraímos a raiz quadrada da variância Essa medida é denominada desviopadrão amostral 2 s s em que s desviopadrão s2 variância As fórmulas apresentadas para o cálculo da variância e do desviopadrão são para estudos envolvendo dados amostrais No caso de ser possível e viável trabalhar com toda a população de interesse as fórmulas para a variância e desviopadrão populacionais são respectivamente 2 2 1 n i i x x N σ e 2 1 n i i x x N σ Da definição de desviopadrão podemos concluir que O desviopadrão mede a variação de todas as observações a partir da média O valor do desviopadrão nunca será negativo E será zero quando todas as observações assumirem o mesmo valor Maiores valores para o desviopadrão indicam maior variabilidade do conjunto de dados Como ocorre com a média o valor do desviopadrão pode crescer drasticamente com a inclusão de um ou mais valores discrepantes ou seja valores que estão muito afastados dos demais A unidade de medida do desviopadrão é a mesma unidade dos dados originais O desviopadrão é utilizado para comparação de conjuntos de dados distintos quanto à variabilidade apenas quando as médias de tais conjuntos forem aproximadamente iguais Caso isso não ocorra usamos uma medida denominada 59 MEDIDAS DESCRITIVAS UNIDADE II coeficiente de variação que será definido mais adiante Esse coeficiente também é utilizado quando queremos comparar a variabilidade de conjuntos de dados que apresentam unidades de valores diferentes como por exemplo peso para um conjunto e altura para o outro Regra empírica para interpretar o desviopadrão Com os valores da média e do desviopadrão podemos encontrar a porcentagem do total de observações que se posicionam dentro dos limites de determinado intervalo em torno da média Para conjuntos de dados que tenham distribuição com forma aproximadamente de sino valem as seguintes considerações Cerca de 68 das observações se posicionam dentro dos limites de um desviopadrão em relação à media ou seja e x s x s Cerca de 95 das observações se posicionam dentro dos limites de dois desviospadrão em relação à media ou seja 2 e 2 x s x s Cerca de 997 das observações se posicionam dentro dos limites de três desviospadrão em relação à media ou seja 3 e 3 x s x s Figura 15 Regra empírica para interpretação do desviopadrão Fonte Triola 2008 p 81 adaptado pelo autor As características de uma distribuição em forma de sino são as frequências começam baixas crescem até uma frequência máxima e depois decrescem para uma frequência baixa e a distribuição deve ser aproximadamente simétrica com frequências igualmente distribuídas em ambos os lados da frequência máxima O histograma é um gráfico que nos auxilia na verificação de distribuições em forma de sino O desviopadrão também possui algumas propriedades importantes que apresentaremos a seguir 60 UNIDADE II MEDIDAS DESCRITIVAS Propriedades do desviopadrão 1 Quando somamos ou subtraímos uma constante de todos os valores de um conjunto de dados o desviopadrão não se altera 2 Quando multiplicamos ou dividimos uma constante de todos os valores de um conjunto de dados o desviopadrão fica multiplicado ou dividido por esta constante Exemplo 52 Considerando os dados do Exemplo 51 vamos encontrar as medidas de dispersão das duas linhas de produção Linha 1 75 72 76 74 73 74 76 75 73 72 Linha 2 74 80 77 70 70 71 73 76 74 75 Resolução Já sabemos que ambas as linhas apresentam o mesmo comprimento médio para as peças com 1 2 74 linha linha x x cm Para compreender como utilizar as fórmulas vamos resolver esse exemplo de duas maneiras com o conjunto de dados brutos conforme apresentado no enunciado e através da distribuição de frequências Primeira maneira Linha 1 O valor mínimo é 72 e o máximo é 76 Portanto a amplitude é 4cm ou seja a diferença entre as peças de maior e menor comprimento é 4cm Para encontrarmos a variância vamos utilizar a fórmula alternativa 2 2 1 1 2 1 n n i i i i x x n s n Precisamos encontrar a soma de cada valor observado ao quadrado 2 2 2 2 2 2 2 2 2 2 2 1 75 72 76 74 73 74 76 75 73 72 54780 n i i x E o quadrado da soma de todos os valores observados 2 2 2 1 75 72 76 74 73 74 76 75 73 72 740 547600 n i i x 61 MEDIDAS DESCRITIVAS UNIDADE II Agora basta substituirmos os valores encontrados na fórmula 2 2 1 1 2 2 54780 574600 54780 54760 10 222 1 9 9 n n i i i i x x n s cm n O desviopadrão é 222 149 s cm Agora seguindo o mesmo procedimento encontraremos as medidas de dispersão para a Linha 2 Linha 2 O valor mínimo é 70 e o máximo é 80 Portanto a amplitude é 10cm ou seja a diferença entre as peças de maior e menor comprimento é 10cm A variância é obtida por 2 2 1 1 2 1 n n i i i i x x n s n A soma de cada valor observado ao quadrado é 2 2 2 2 2 2 2 2 2 2 2 1 74 80 77 70 70 71 73 76 74 75 54852 n i i x E o quadrado da soma de todos os valores observados é 2 2 2 1 74 80 77 70 70 71 73 76 74 75 740 547600 n i i x Agora basta substituirmos os valores encontrados na fórmula 2 2 1 1 2 2 54852 547600 54852 54760 10 1022 1 9 9 n n i i i i x x n s cm n O desviopadrão é 1022 320 s cm O Quadro 5 apresenta os valores encontrados para as medidas de dispersão 62 UNIDADE II MEDIDAS DESCRITIVAS Quadro 5 Medidas de dispersão para os comprimentos das peças fabricadas por duas linhas de produção Medidas de dispersão Mínimo Máximo Amplitude Variância DesvioPadrão Linha 1 72 76 4 222 149 Linha 2 70 80 10 1022 320 Fonte Próprio autor Uma análise preliminar do conjunto de dados brutos já mostrou que apesar de os comprimentos médios das peças serem iguais a variabilidade na produção das peças é maior na Linha 2 o que foi confirmado pelas medidas de dispersão Vale ressaltar que a variância tem a unidade de medida elevada ao quadrado portanto utilizamos o desviopadrão para interpretar o resultado obtido Agora encontraremos as mesmas medidas por meio dos dados tabelados Utilizaremos a Linha 1 para fazer os cálculos Após o aprendizado faça o mesmo procedimento com a Linha 2 e compare com os resultados obtidos com o da primeira maneira Você encontrará os mesmos resultados Segunda maneira Linha 1 Na distribuição de frequências acrescentamos duas colunas i i x f e 2 i i x f cujos somatórios são exigidos na fórmula da variância Tabela 16 Cálculos das colunas auxiliares para encontrar a variância Linha 1 Comprimento ix Frequência if Frequência Relativa i i x f 2 i i x f 72 2 2000 144 10368 73 2 2000 146 10658 74 2 2000 148 10952 75 2 2000 150 11250 76 2 2000 152 11552 Total 10 10000 740 54780 Fonte Próprio autor Pela distribuição de frequências identificamos também o valor mínimo como 72 o valor máximo como 76 e com esses dois valores encontramos amplitude 4 Com os somatórios das duas últimas colunas da Tabela 16 encontramos a variância 2 2 2 1 1 2 54780 740 54780 54760 10 1 9 9 n n i i i i i i x f x f n s n 63 MEDIDAS DESCRITIVAS UNIDADE II 2 2 222 s cm E o desviopadrão 222 149 s cm Nesse exemplo podemos utilizar o desviopadrão para comparar a variabilidade nas produções das peças fabricadas pelas duas linhas pois as médias são iguais Isso também é válido nos casos em que as médias forem aproximadamente iguais Mas isso nem sempre ocorre Há situações em que dois ou mais conjuntos apresentam médias bem diferentes e também apresentam variáveis em estudo diferentes Nesses casos utilizamos como medida de variabilidade o coeficiente de variação que será definido a seguir Coeficiente de variação O coeficiente de variação cv é obtido através da divisão do desviopadrão pela média e o resultado obtido é multiplicado por 100 para que o coeficiente seja apresentado em porcentagem Portanto 100 s cv x onde s é o desviopadrão e x é a média aritmética Tal coeficiente é uma medida relativa de variação e mede a dispersão dos dados em relação à média O fato de o desviopadrão e da média terem as mesmas unidades de medidas faz com que tais medidas se cancelem tornando o coeficiente de variação adimensional sem unidade de medida Por isso ele pode ser expresso em porcentagem Quando calculamos o desviopadrão obtemos um valor que pode ser grande ou pequeno dependendo da variável em estudo O fato de ele ser um valor considerado alto é relativo pois dependendo da variável que está sendo estudada e da média esta variação dos dados pode ser relativamente pequena Então utilizamos o coeficiente de variação para medir o grau de variação dos dados em relação à média Além disso ele serve para comparar a variabilidade de conjuntos de dados cujas variáveis em estudo são diferentes pois ele é adimensional Exemplo 53 Em 2005 uma mulher processou um fabricante de teclados de computadores sob a acusação de lesões por esforços repetitivos causados pelo teclado O pleito era de cerca de 15 milhão de reais por danos físicos mas a Justiça negou esse valor pois julgou a indenização exagerada Ao fazer essa determinação a Justiça 64 UNIDADE II MEDIDAS DESCRITIVAS identificou um grupo normativo de 20 casos similares e especificou como razoável uma indenização limitada por dois desviospadrão em relação à média das indenizações dos 20 casos As 20 indenizações foram em milhares de reais 37 60 75 115 135 140 149 150 238 290 340 410 600 750 750 790 810 835 850 870 onde 8394 ix e 2 5472614 ix Encontre o valor máximo que pode ser indenizado pela regra de dois desviospadrão e o coeficiente de variação Resolução Pela regra de dois desviospadrão o valor máximo que pode ser indenizado é 2 x s Então teremos que encontrar a média e o desviopadrão do conjunto de dados Para facilitar o enunciado já forneceu os valores dos somatórios necessários nas fórmulas Média Substituindo o valor fornecido temos 1 8394 4197 20 n i xi x milharesdereais n Variância Substituindo os valores fornecidos na fórmula obtemos 2 2 1 1 2 1 n n i i i i x x n s n 2 2 2 5472614 8394 5472614 35229618 19496522 20 10261327 20 1 19 19 s milharesdereais DesvioPadrão 10261327 32033 s milharesdereais 65 MEDIDAS DESCRITIVAS UNIDADE II Portanto pela regra de dois desviospadrão o valor máximo de indenização é 2 4197 2 32033 106036 x s milharesdereais Coeficiente de variação 100 s cv x 106036 100 25265 4197 cv Vale lembrar que o coeficiente de variação é uma medida adimensional Os valores obtidos para o desviopadrão e para o coeficiente de variação são altos pois os valores das 20 indenizações que compõem a amostra são bem heterogêneos com alta variabilidade Cálculos da variância e do desviopadrão para dados agrupados em intervalos de classes O procedimento para o cálculo da variância e do desviopadrão para dados agrupados em intervalos de classes é o mesmo que aquele utilizado para o cálculo da média Utilizamos o ponto médio do intervalo de classe para representar os valores dentro de cada classe e acrescentamos três colunas na tabela 2 i i i i i x x f e x f que são necessários para o cálculo da variância Exemplo 54 Os dados a seguir representam os tempos de falha em horas de componentes eletrônicos submetidos a um teste acelerado de tempo de vida Tabela 17 Distribuição de frequências dos tempos de falha horas dos componentes eletrônicos Tempos de falha horas Frequência Frequência Relativa 115 125 12 3000 125 135 18 4500 135 145 8 2000 145 155 1 25 155 165 1 25 Total 40 10000 Fonte Próprio autor 66 UNIDADE II MEDIDAS DESCRITIVAS Vamos encontrar a variância o desviopadrão e o coeficiente de variação para os dados apresentados na Tabela 17 Resolução Precisamos acrescentar três colunas adicionais para os cálculos Tabela 18 Cálculos das colunas auxiliares para encontrar a variância e o desviopadrão Tempos de falha horas Frequência Frequência Relativa ix i i x f 2 i i x f 115 125 12 3000 120 1440 172800 125 135 18 4500 130 2340 304200 135 145 8 2000 140 1120 156800 145 155 1 25 150 150 22500 155 165 1 25 160 160 25600 Total 40 10000 5210 681900 Fonte Próprio autor Substituindo os valores na fórmula da variância temos 2 2 2 1 1 2 5210 681900 40 1 40 1 n n i i i i i i x f x f n s n 2 681900 67860250 329750 8455 39 39 horas O desviopadrão é 8455 920 s horas e o coeficiente de variação é 100 s cv x 920 100 706 cv 13025 pois 1 5210 13025 40 k i i i x f x horas n 67 MEDIDAS DESCRITIVAS UNIDADE II Exemplo 55 ESAF 2005 Adaptado De posse dos resultados de produtividade alcançados por funcionários de determinada área da empresa em que trabalha o Gerente de Recursos Humanos decidiu empregar a seguinte estratégia aqueles funcionários com rendimento inferior a dois desviospadrão abaixo da média Limite Inferior LI deverão passar por treinamento específico para melhorar seus desempenhos aqueles funcionários com rendimento superior a dois desvios padrões acima de média Limite Superior LS serão promovidos a líderes de equipe Quadro 6 Resultados dos indicadores de produtividade Indicador Frequência 02 10 24 20 46 240 68 410 810 120 Total 800 Fonte Próprio autor Encontre os limites LI e LS a serem utilizados pelo Gerente de Recursos Humanos Resolução Como os dados estão agrupados precisamos encontrar os pontos médios dos intervalos de classes para que se possa calcular a média e o desviopadrão Quadro 7 Cálculos auxiliares para o cálculo da média e do desviopadrão Indicador Frequência ix i i x f 2 i i x f 02 10 1 10 10 24 20 3 60 180 46 240 5 1200 6000 68 410 7 2870 20090 810 120 9 1080 9720 Total 800 5220 36000 Fonte Próprio autor Média 1 5220 6525 20 n i i i x f x n 68 UNIDADE II MEDIDAS DESCRITIVAS Variância 2 2 1 1 2 1 n n i i i i x x n s n 2 2 36000 5220 36000 3406050 193950 800 243 800 1 799 799 s DesvioPadrão 243 156 s Agora podemos encontrar o limite inferior e o limite superior Limite Inferior LI rendimento inferior a dois desviospadrão abaixo da média 2 6525 2 156 341 x s Limite Superior LS rendimento superior a dois desviospadrão acima da média 2 6525 2 156 9645 x s Vale lembrar que como nas medidas de posição central os valores obtidos para a variância e desviopadrão quando os dados estão agrupados em classes são apenas aproximações dos verdadeiros valores Isso ocorre pois os valores das observações são substituídos pelos pontos médios dos intervalos de classes Neste capítulo aprendemos a calcular medidas que nos informam sobre a variabilidade de um conjunto de dados Vimos que dois conjuntos podem apresentar o mesmo valor para a média mas terem características diferentes quanto à dispersão dos dados O desviopadrão é a medida de dispersão mais utilizada para medir a variabilidade dos dados pois sempre será um número expresso na mesma unidade dos dados originais Como ocorre com a média o desviopadrão é afetado por valores discrepantes No caso de situações em que valores discrepantes estejam presentes podemos calcular outras medidas descritivas que sejam mais adequadas para representar o conjunto de dados Estudaremos a seguir conceitos referentes às medidas separatrizes ou de ordenamento e à forma da distribuição dos dados 69 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS Ao longo da Unidade II aprendemos a caracterizar um conjunto de dados quanto a sua tendência central e a sua variabilidade Além disso podemos descrever dados numéricos por meio de uma análise exploratória de dados que utiliza ferramentas estatísticas como gráficos e medidas de posição central e de dispersão para compreender características importantes sobre o conjunto de dados De acordo com o que foi exposto nos capítulos anteriores quais características são importantes em um conjunto de dados Podemos listar as seguintes características e suas ferramentas para investigação Centro cálculo de medidas como média e mediana Variação cálculo de medidas como desviopadrão e amplitude Distribuição dos dados organização dos dados em distribuições de frequências e construção do histograma Valores discrepantes outliers serão identificados através de um gráfico denominado BoxPlot Os conceitos abordados a seguir nos auxiliarão na identificação de possíveis valores discrepantes presentes em um conjunto de dados e também fazer uma análise exploratória dos dados por meio do resumo dos cinco números Ao final desta unidade esperamos que você consiga 1 Calcular e interpretar as medidas separatrizes 2 Construir e analisar o BoxPlot 70 CAPÍTULO 1 Medidas separatrizes Estudaremos as seguintes medidas separatrizes quartis decis e percentis Essas medidas fornecem uma ideia sobre a distribuição dos dados ordenados e têm como objetivo proporcionar uma melhor ideia da dispersão dos dados principalmente da simetria ou assimetria da distribuição Os quartis 1 Q Q2 e Q3 como o próprio nome sugere divide a distribuição dos dados ordenados em quatro partes sendo que Primeiro quartil 1 Q no mínimo 25 dos valores ordenados são menores ou iguais a 1 Q e no mínimo 75 são maiores ou iguais a 1 Q Segundo quartil Q2 no mínimo 50 dos valores ordenados são menores ou iguais a 2 Q e no mínimo 50 são maiores ou iguais a 2 Q Terceiro quartil Q3 no mínimo 75 dos valores ordenados são menores ou iguais a 3 Q e no mínimo 25 são maiores ou iguais a 3 Q A mediana é o segundo quartil pois ela divide o conjunto de dados em duas partes com a mesma quantidade de observações abaixo e acima dela Os decis por sua vez dividem a distribuição dos dados em 10 partes 12 9 i D i e os percentis dividem a distribuição em 100 partes 12 99 iP Não há um consenso universal sobre um procedimento único para o cálculo das medidas separatrizes e diferentes calculadoras e softwares estatísticos podem produzir resultados ligeiramente diferentes Apresentaremos a forma mais simples de calcular os quartis utilizando somente o cálculo de medianas Quartis Para encontrarmos os quartis vamos seguir os seguintes passos 1 Organizamos as observações em ordem crescente e localizamos a mediana Q2 2 Separamos o conjunto de dados à esquerda da mediana e o primeiro quartil 1 Q será a mediana desse novo conjunto de dados 71 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III 3 Separamos o conjunto de dados à direita da mediana e o terceiro quartil Q3 será a mediana desse novo conjunto de dados Com os valores do primeiro e terceiro quartis podemos encontrar uma medida de dispersão denominada distância interquartil definida como 3 1 dq Q Q Como a distância interquartil não leva em consideração nenhum valor inferior ao 1 Q ou superior a 3 Q ela não é afetada por valores discrepantes sendo portanto uma medida de dispersão resistente e que serve como uma alternativa ao desviopadrão que como já vimos não é uma medida resistente Exemplo 61 Abaixo estão listadas as taxas de juros mensais de cheque especial pessoa física de 28 instituições financeiras no período de 1152018 a 1752018 063 156 156 236 241 251 257 439 441 460 549 666 781 899 1040 1048 1172 1182 1196 1198 1199 1208 1244 1252 1256 1468 1513 1628 Fonte httpwwwbcbgovbrptbrctxjuros Acesso em 19 ago 2018 Vamos encontrar o primeiro segundo e terceiro quartis e a distância interquartil Resolução Para encontrar os quartis vamos seguir os passos descritos anteriormente 1 Os dados já aparecem ordenados no conjunto de dados brutos Como n 28 temos que a mediana Q2 está entre a décima quarta e décima quinta posições dos dados ordenados 28 28 1 2 2 2 2 x x Q 14 15 2 2 x x Q 2 899 1040 9695 2 Q 2 O novo conjunto de dados obtido com as observações à esquerda da mediana é 063 156 156 236 241 251 257 439 441 460 549 666 781 899 72 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS O 1 Q será a mediana desse novo conjunto de dados ou seja 14 14 1 2 2 1 2 x x Q 7 8 1 2 x x Q 1 257 439 348 2 Q 3 O novo conjunto de dados obtido com as observações à direita da mediana é 1040 1048 1172 1182 1196 1198 1199 1208 1244 1252 1256 1468 1513 1628 O 3 Q será a mediana desse novo conjunto de dados ou seja 14 14 1 2 2 3 2 x x Q 7 8 3 2 x x Q 3 1199 1208 12035 2 Q Com os resultados obtidos podemos concluir que Pelo menos 25 das observações são menores ou iguais a 348 e pelo menos 75 das observações são maiores ou iguais a 348 Pelo menos 50 das observações são menores ou iguais a 9695 e pelo menos 50 das observações são maiores ou iguais a 9695 Pelo menos 75 das observações são menores ou iguais a 12035 e pelo menos 25 delas são maiores ou iguais a 12035 A distância interquartil é 3 1 dq q q 12035 348 8555 q d Vale ressaltar que a distância interquartil contém aproximadamente 50 das observações centrais 73 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III Decis e Percentis Seguindo a mesma ideia dos quartis vamos encontrar os decis e percentis Os decis dividem a distribuição dos dados em 10 partes 12 9 i D i e os percentis dividem a distribuição em 100 partes 12 99 iP O decil i D será a observação que ocupar a posição 12 9 10 i n i e o percentil iP será a observação que ocupar a posição 12 99 100 i n i Quando fazemos estas divisões para encontrar as posições dos decis e percentis pode acontecer de o resultado ser um número inteiro ou um número fracionário Então adotaremos a seguinte convenção Se a divisão resultar num número fracionário arredondeo para cima e o valor do decilpercentil será a observação encontrada nesta posição Se a divisão for um número inteiro o decilpercentil será a média aritmética da observação que ocupar a posição encontrada com a observação que ocupar a posição imediatamente seguinte Os decis e percentis são medidas separatrizes que são calculadas para conjuntos de dados com um número grande de observações Exemplo 62 Os dados a seguir são referentes ao número de carros zero quilômetro vendidos em uma concessionária nos últimos 40 dias 0 3 2 2 4 3 3 2 1 0 3 2 4 5 3 4 2 3 1 1 0 4 1 2 3 2 1 2 8 2 2 1 1 0 3 2 2 3 1 2 Vamos encontrar 3 D e 67 P Resolução O decil 3 D será a observação que ocupar a posição 3 40 12 10 no conjunto de dados ordenados Ordenando os dados obtemos 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 5 8 74 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS Como a divisão resultou em um valor inteiro o terceiro decil será o resultado da média aritmética entre o valor que está na décima segunda posição e o valor que está na décima terceira posição 3 1 2 15 2 D carro Temos que pelo menos 30 das observações são menores ou iguais 15 carros O percentil 67 P será a observação que ocupar a posição 67 40 268 100 no conjunto de dados ordenados Como a divisão resultou em um valor fracionário vamos arredondar para 27 Portanto o percentil 67 P é o valor que está na vigésima sétima posição 67 3 P carros Neste conjunto de dados pelo menos 33 das observações são maiores ou iguais a três carros As medidas separatrizes também podem ser calculadas para dados agrupados em intervalos de classes Os cálculos são parecidos com aquele que utilizamos para calcular a mediana Cálculos das medidas separatrizes para dados agrupados em intervalos de classes No cálculo dos quartis decis e percentis para dados agrupados em intervalos de classes utilizaremos uma única fórmula similar àquela utilizada no cálculo da mediana 100 k ant k k inf a k h k n P l F f em que n número total de observações da distribuição de frequências k 1 2 99 linfk limite inferior da classe encontrada kh amplitude do intervalo Faant frequência acumulada anterior à da classe kP kf frequência absoluta da classe encontrada kP 75 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III Por que podemos utilizar essa fórmula geral para o cálculo das medidas separatrizes Pois de acordo com as definições de quartis decis e percentis temos 1 25 Q P 2 50 Q P 3 75 Q P 1 10 D P 2 20 D P 9 90 D P Exemplo 63 Um estudo foi conduzido com o objetivo de investigar vários fatores de risco para doenças cardiovasculares Os níveis séricos de cotinina obtidos para um grupo de fumantes de cigarro estão apresentados na distribuição de frequências a seguir Encontre 1 6 80 Q D eP Tabela 19 Distribuição de frequências dos níveis de cotinina ngml Nível de cotinina ngml Frequência Frequência Relativa 0 50 200 1333 50 100 135 900 100 150 205 1367 150 200 190 1267 200 250 220 1467 250 300 150 1000 300 350 400 2667 Total 1500 10000 Fonte Próprio autor Resolução Primeiramente vamos encontrar a coluna da frequência acumulada Tabela 20 Distribuição de frequências acumuladas dos níveis de cotinina ngml Nível de cotinina ngml Frequência Frequência Relativa Frequência Acumulada 0 50 200 1333 200 50 100 135 900 335 100 150 205 1367 540 150 200 190 1267 730 200 250 220 1467 950 76 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS Nível de cotinina ngml Frequência Frequência Relativa Frequência Acumulada 250 300 150 1000 1100 300 350 400 2667 1500 Total 1500 10000 Fonte Próprio autor Primeiro Quartil 1 Q Precisamos identificar o intervalo que contém o primeiro quartil 25 1500 375 100 100 k n Como a divisão resultou em um valor inteiro o primeiro quartil está entre as posições 375 e 376 Através da coluna da frequência acumulada identificamos que essas duas posições estão no intervalo de 100 150 cuja frequência acumulada é 540 Então linfk 100 kh 150 100 50 kf 205 n 1500 Faant 335 k 25 o primeiro quartil é o vigésimo quinto percentil 100 k ant k k inf a k h k n P l F f 25 50 100 375 335 205 P 25 50 100 40 100 9756 109756 205 P ng ml Então pelo menos 25 das observações são menores ou iguais a 109756 ngml Sexto Decil 6 D O intervalo que contém o sexto decil é 60 1500 900 100 100 k n 77 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III Como a divisão resultou em um valor inteiro o sexto decil está entre as posições 900 e 901 Através da coluna da frequência acumulada identificamos que essas duas posições estão no intervalo de 200 250 cuja frequência acumulada é 950 Então linfk 200 kh 250 200 50 kf 220 n 1500 Faant 730 k 60 o sexto decil é o sexagésimo percentil 100 k ant k k inf a k h k n P l F f 60 50 200 900 730 220 P 60 50 200 170 200 38636 238636 220 P ng ml Pelo menos 60 das observações são menores ou iguais a 238636ngml Octogésimo percentil 80 P Como 80 1500 1200 100 100 k n temos que o intervalo que contém o octogésimo percentil é de 300 350 cuja frequência acumulada é 1500 Então linfk 300 kh 350 300 50 kf 400 n 1500 Faant 1100 k 80 100 k ant k k inf a k h k n P l F f 78 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS 80 50 300 1200 1100 400 P 80 50 300 100 300 1250 31250 400 P ng ml Por meio do 80 P observamos que pelo menos 20 das observações são maiores ou iguais a 31250ngml Chegamos ao final de mais um capítulo Nele aprendemos a calcular as medidas separatrizes que dividem o conjunto de dados ordenados em quatro dez ou cem partes iguais Os quartis apresentam a vantagem de não serem afetados por valores discrepantes No próximo capítulo estudaremos o resumo dos cinco números e como os utilizamos na construção de um gráfico chamado BoxPlot 79 CAPÍTULO 2 Construção e análise do BoxPlot O boxplot é uma ferramenta gráfica muito utilizada para a apresentação das principais características dos dados em estudo A sua análise nos permite identificar o centro a dispersão e a distribuição dos dados além da presença de outliers Para sua construção precisamos da identificação de cinco números que estudaremos a seguir Resumo dos cinco números O resumo dos cinco números consiste no valor mínimo primeiro quartil mediana terceiro quartil e valor máximo escritos em ordem crescente Ou seja 1 2 3 Mínimo Q Q Q Máximo Com essas informações podemos ter uma boa ideia do formato da distribuição dos dados conforme mostra a Tabela 21 Tabela 21 Relações entre o resumo dos cinco números e o formato da distribuição Tipo de Distribuição Comparação Assimétrica à Esquerda Simétrica Assimétrica à Direita A distância desde Xmínimo até a mediana versus a distância desde a mediana até máximo X A distância desde Xmínimo até a mediana é maior do que a distância desde a mediana até máximo X Ambas as distâncias são iguais A distância desde Xmínimo até a mediana é menor do que a distância desde a mediana até Xmáximo A distância desde Xmínimo até 1 Q versus a distância desde 3 Q até Xmáximo A distância desde Xmínimo até 1 Q é maior do que a distância desde 3 Q até Xmáximo Ambas as distâncias são iguais A distância desde Xmínimo até 1 Q é menor do que a distância desde 3 Q até máximo X A distância desde 1 Q até a mediana versus a distância desde a mediana até 3 Q A distância desde 1 Q até a mediana é maior do que a distância desde a mediana até 3 Q Ambas as distâncias são iguais A distância desde 1 Q até a mediana é menor do que a distância desde a mediana até 3 Q Fonte LEVINE D M STEPHAN D F SZABAT K A Estatística teoria e aplicações usando o Microsoft Excel em português 2016 p 127 Com as informações do resumo dos cinco números podemos construir um gráfico denominado boxplot ilustrado a seguir 80 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS BoxPlot Figura 16 BoxPlot Fonte Bussab e Morettin 2002 p 48 De acordo com Bussab e Morettin 2002 p 48 Para construir este diagrama consideremos um retângulo onde estão representados a mediana e os quartis A partir do retângulo para cima segue uma linha até o ponto mais remoto que não exceda 3 15 q LS q d chamado limite superior De modo similar da parte inferior do retângulo para baixo segue uma linha até o ponto mais remoto que não seja menor do que 1 15 q LI q d chamado limite inferior Os valores compreendidos entre esses dois limites são chamados valores adjacentes As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos Portanto o boxplot além de informar as principais características da distribuição dos dados detecta a presença de outliers No boxplot a posição central é dada pela mediana 2 Q e a dispersão por 3 1 dq Q Q Um outlier valor discrepante é um valor que se localiza muito afastado de quase todos os demais valores do conjunto de dados Normalmente esses valores são atribuíveis a uma das seguintes causas registro incorreto no banco de dados 81 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III erro de digitação ou uma medição incorreta Mas pode acontecer de ser um valor correto Se tivermos certeza de que o outlier é um erro devemos corrigilo ou retirálo do conjunto de dados Agora se soubermos que o outlier é um valor correto devemos estudar seu efeito construindo gráficos e calculando as medidas descritivas com e sem o outlier O boxplot é muito utilizado para detectar descritivamente diferenças nos comportamentos entre dois ou mais grupos Vamos analisar o exemplo a seguir Exemplo 71 Cespe 2013 Em decorrência do desenvolvimento urbano e tecnológico temse a preocupação de monitorar os efeitos nocivos da poluição ambiental sobre a saúde da população urbana A figura a seguir mostra o boxplot que descreve a distribuição da concentração de chumbo no sangue em ì g dL1 obtida com base em uma amostra aleatória de 200 pessoas do sexo masculino e 100 pessoas do sexo feminino que trabalham em postos de combustível localizados em determinado município brasileiro Figura 17 BoxPlot para a concentração de chumbo no sangue em um grupo de homens e mulheres feminino masculino Fonte MM B Paolielo et al In Saúde Pública 1997 com adaptações Disponível em httpwwwcespeunbbrconcursos DPRF12ADMINISTRATIVOarquivosDPRF1200306pdf httpdownloadinepgovbreducacaosuperiorenadeprovas201442 tecnologiagestaoproducaoindustrialpdf Acesso em 9 jul 2018 Adaptado pelo autor Com base nessas informações julgue os itens a seguir justificando I Com base nas linhas horizontais que cortam as caixas do diagrama apresentado concluise corretamente que a média das concentrações 82 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS de chumbo encontradas no sangue das pessoas do sexo feminino que trabalham em postos de combustível do referido município brasileiro é inferior à média das concentrações dessa mesma substância no sangue das pessoas do sexo masculino que trabalham nesses postos de combustível II O diagrama esquemático referente ao sexo feminino em comparação com o referente ao sexo masculino possui uma caixa box menor e pernas mais curtas sugerindo que a variabilidade dos valores de concentração de chumbo no sangue das pessoas que trabalham em postos de combustível do referido município brasileiro é menor para as pessoas do sexo feminino que para as do sexo masculino III A concentração mínima de chumbo encontrada entre as pessoas do sexo masculino que trabalham em postos de combustível do referido município brasileiro é a mesma daquela encontrada entre as pessoas do sexo feminino que trabalham nesses postos de combustível IV A distribuição das concentrações de chumbo encontradas no sangue das pessoas do sexo feminino que trabalham nesses postos de combustível apresenta intervalo interquartílico inferior àquele apresentado pela distribuição referente às pessoas do sexo masculino que trabalham nesses postos de combustível V Há informações suficientes no diagrama apresentado para se concluir corretamente que 25 das pessoas do sexo feminino que trabalham em postos de combustível do referido município brasileiro apresentam concentrações de chumbo iguais ou superiores a 10 ì g dL1 Já o percentual de pessoas do sexo masculino que trabalham nesses postos e apresentam concentrações de chumbo iguais ou superiores a 10 ì g dL1 é maior que 25 VI A quantidade de pessoas do sexo masculino e do sexo feminino que trabalham nos referidos postos de combustível e que apresentam concentrações de chumbo no sangue inferiores a 5 ì g dL1 é igual ou menor que 50 e 25 respectivamente Resolução I FALSO As linhas horizontais que cortam as caixas dos diagramas são informações referentes ao 2 Q mediana Os valores da média e da 83 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III mediana são iguais quando a distribuição é simétrica o que não ocorre em nenhum dos diagramas II VERDADEIRO O diagrama esquemático do sexo feminino possui uma caixa menor fazendo com que a distância interquartil seja menor 3 1 Q Q e consequentemente mostrando uma menor variabilidade As pernas mais curtas também indicam menor variabilidade no sexo feminino III VERDADEIRO Comparando os dois diagramas observamos que eles têm mesmo início na perna inferior tendo portanto o mesmo valor para a concentração mínima IV VERDADEIRO Pelo diagrama esquemático observamos que a distância interquartil 3 1 Q Q que são as observações referentes à terceira e primeira linhas horizontais respectivamente é menor nas pessoas do sexo feminino V VERDADEIRO Pelos diagramas esquemáticos observamos que 25 das pessoas do sexo feminino apresentam concentrações de chumbo iguais ou superiores a 10 ì g dL1 Isso se dá pelo fato do 1 3 10 ì g dL Q O percentual de pessoas do sexo masculino que trabalham nesses postos e apresenta concentrações de chumbo iguais ou superiores a 10 ì g dL1 é maior que 25 Isso se dá pelo fato do 1 3 11 ì g dL Q e portanto tem uma porcentagem de pessoas do sexo masculino entre 10 e 11 ì g dL1 VI VERDADEIRO Pelos diagramas esquemáticos observamos que o 1 Q para ambos os sexos é um pouco maior que 5 ì g dL1 fazendo com que no máximo 25 das pessoas de ambos os sexos apresentem concentrações de chumbo no sangue inferiores a 5 ì g dL1 No sexo masculino temos no máximo 200 025 100 pessoas e no sexo feminino temos no máximo 100 025 25 pessoas Exemplo 72 Vamos construir o boxplot para os dados do Exemplo 62 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 5 8 84 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS Resolução Primeiramente vamos encontrar o resumo dos cinco números 1 Valor mínimo 0 2 Quartis Os dados já aparecem ordenados no conjunto de dados brutos Como n 40 temos que a mediana Q2 está entre a vigésima e vigésima primeira posições dos dados ordenados 40 40 1 2 2 2 2 x x Q 20 21 2 2 x x Q 2 2 2 2 2 Q automóveis O novo conjunto de dados obtido com as observações à esquerda da mediana é 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 O 1 Q será a mediana desse novo conjunto de dados ou seja 20 20 1 2 2 1 2 x x Q 10 11 1 2 x x Q 1 1 1 1 2 Q automóvel O novo conjunto de dados obtido com as observações à direita da mediana é 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 5 8 O 3 Q será a mediana desse novo conjunto de dados ou seja 20 20 1 2 2 3 2 x x Q 10 11 3 2 x x Q 85 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III 3 3 3 3 2 Q automóveis 3 Valor máximo 8 Portanto Mínimo 1 Q Q2 Q3 Máximo 0 1 2 3 8 1 Agora vamos encontrar a distância interquartil 3 1 dq Q Q 3 1 2 dq automóveis 2 E finalmente os limites inferiores e superiores 1 15 q LI q d 1 15 2 2 LI e 3 15 q LS q d 3 15 2 6 LS Com essas informações construímos o boxplot Figura 18 Boxplot para o número de carros zero quilômetro vendidos diariamente em uma concessionária Outlier Valor mais distante que não excede LS Fonte Próprio autor 86 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS Por que a observação 8 é um outlier E por que as linhas que saem do retângulo não vão até o valor encontrado para o limite inferior LI e limite superior LS Para responder a essas perguntas vamos à explicação fornecida por Bussab e Morettin 2002 p 48 A partir do retângulo para cima segue uma linha até o ponto mais remoto que não exceda 3 15 q LS q d chamado limite superior O valor do limite superior é LS 6 e no conjunto de dados o valor mais remoto que não exceda o número 6 é 39 5 X De modo similar da parte inferior do retângulo para baixo segue uma linha até o ponto mais remoto que não seja menor do que 1 15 q LI q d chamado limite inferior O valor do limite inferior é 2 LI e no conjunto de dados o valor mais remoto que não é menor que o número 2 é o valor mínimo 0 Xmínimo As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos A observação 8 está acima do limite superior LS 6 portanto é identificado como um outlier Exemplo 73 Cesgranrio 2018 Definese como desvio interquartílico a distância entre o 1º e o 3º Quartis É usado para avaliar a existência de possíveis valores atípicos em um conjunto de dados Valores aquém ou além de limites estabelecidos com base nessa medida devem ser investigados quanto à sua tipicidade em relação à distribuição Geralmente o limite inferior é estabelecido como 1 vez e meia o valor desse desvio abaixo do primeiro Quartil enquanto o limite superior como 1 vez e meia acima do terceiro Quartil Considere os resumos estatísticos das três distribuições de consumo de energia elétrica em kW dos 50 apartamentos com mesma planta de um edifício em três períodos diferentes ao longo de um ano conforme a seguir 87 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III Quadro 8 Resumos estatísticos de três distribuições de consumo de energia elétrica PERÍODOS Consumo de Energia kW JaneiroAbril MaioAgosto SetembroDezembro Média 87 70 80 Mediana 85 75 80 Moda 83 77 80 1º Quartil 80 68 75 3º Quartil 90 80 85 Menor Valor 75 49 62 Maior Valor 102 92 99 Número de Apartamentos 50 50 50 Fonte Disponível em httpwwwcesgranrioorgbrpdfbb0118ESCRITURC381RIO2020GABARITO201pdf Acesso em 10 jul 2018 Concluise a partir desses resumos que a um período apresenta pelo menos um apartamento com consumo abaixo e dois períodos apresentam pelo menos um apartamento com consumo acima da tipicidade estabelecida b um período apresenta pelo menos um apartamento com consumo abaixo e um período apresenta pelo menos um apartamento com consumo acima da tipicidade estabelecida c em nenhum período foram observados possíveis consumos atípicos d apenas um período apresenta pelo menos um apartamento com consumo abaixo da tipicidade estabelecida e apenas um período apresenta pelo menos um apartamento com consumo acima da tipicidade estabelecida Resolução Para identificarmos a alternativa correta precisamos encontrar a distância interquartílica e os limites inferior e superior de cada período em estudo JaneiroAbril 3 1 dq Q Q 90 80 10 dq kW 1 15 q LI q d 88 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS 80 15 10 65 LI kW e 3 15 q LS q d 90 15 10 1 05 LS kW Nesse período o menor valor é 75 e o maior é 102 Então o menor valor não é menor que o LI e o maior valor não é maior que o LS MaioAgosto 3 1 dq Q Q 80 68 12 dq kW 1 15 q LI q d 68 15 12 50 LI kW e 3 15 q LS q d 80 15 12 98 LS kW Nesse período o menor valor é 49 e o maior é 102 Então o menor valor é menor que o LI e o maior valor não é maior que o LS SetembroDezembro 3 1 dq Q Q 85 75 10 dq kW 1 15 q LI q d 75 15 10 60 LI kW e 3 15 q LS q d 85 15 10 1 00 LS kW 89 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III Nesse período o menor valor é 62 e o maior é 99 Então o menor valor não é menor que o LI e o maior valor não é maior que o LS Pelas análises a alternativa correta é a d Estudamos ao longo deste capítulo como fazer uma análise exploratória dos dados por meio do resumo dos cinco números e pela construção e análise do boxplot A análise desse gráfico nos permite identificar possíveis outliers bem como o formato da distribuição dos dados Na próxima unidade utilizaremos ferramentas do Microsoft Excel para analisar um ou mais conjuntos de dados 90 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL Nos capítulos dessa unidade utilizaremos as ferramentas do Microsoft Excel Office 365 para organizar os dados em tabelas de frequências construir gráficos e calcular as medidas descritivas estudadas ao longo deste material Ao final dessa unidade esperamos que você consiga 1 Organizar os dados em distribuições de frequências para dados agrupados ou não 2 Construir os diversos tipos de gráficos apropriados para cada situação em estudo 3 Calcular as medidas descritivas posição e dispersão 91 CAPÍTULO 1 Utilização do Microsoft Excel na construção de tabelas e gráficos Organização de dados numéricos em distribuições de frequências com intervalos de classes Para a organização dos dados em distribuições de frequências a Ferramenta de Análise de Dados deve estar ativa Caso essa ferramenta esteja ativa aparecerá a opção Análise de Dados na aba Dados Caso a ferramenta não esteja ativada seguir os procedimentos Clicar na aba Arquivo escolher Opções e em seguida Suplementos Na caixa Suplementos de Aplicativos Inativos selecionar Ferramenta de Análise e clicar em Ir Na caixa Suplementos clicar no seguinte suplemento disponível Ferramenta de Análise e OK Vamos utilizar o Exemplo 21 para exemplificar a organização dos dados em distribuições de frequências com intervalos de classes 1o passo Digitar em uma planilha as respostas da variável numérica e os limites superiores de cada uma das classes Para saber qual é o limite superior de cada uma das classes e o número de classes que serão utilizadas você deve seguir o procedimento descrito no item 22 capítulo 2 Figura 19 Entrada dos dados da variável Idade Fonte Próprio autor 92 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL Vale lembrar que estamos construindo classes fechadas à esquerda Por exemplo na primeira classe de 23 25 entram os alunos que têm 23 anos exatos até 24999 anos Isso explica o porquê de os limites superiores das classes serem definidos da maneira que aparecem na planilha do Excel 2º passo Clicar em Dados e em seguida Análise de Dados Aparecerá uma caixa de diálogo com uma lista de Ferramentas de análise Clicar em Histograma e OK Figura 20 Escolha da ferramenta de análise Histograma Fonte Próprio autor 3º passo Em Intervalo de entrada selecionar os dados arrastando com o mouse desde A1 até A26 e em Intervalo de bloco selecionar os dados de B1 até B7 Marcar Rótulos na primeira linha desde que os nomes das colunas tenham sido selecionados Em Opções de saída escolher Nova planilha os resultados obtidos sairão em uma planilha diferente daquela utilizada para a entrada dos dados basta identificála no rodapé e por fim clique em Ok Figura 21 Intervalo de entrada e do bloco Fonte Próprio autor 93 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 4º passo A Figura 22 apresenta a tabela finalizada utilizando a ferramenta Histograma Agora precisamos formatála construindo os limites inferiores e superiores de cada intervalo e eliminando a linha Mais e sua respectiva frequência zero Figura 22 Tabela finalizada sem formatação Fonte Próprio autor Organização de dados numéricos em distribuições de frequências sem intervalos de classes Nesse caso o procedimento é muito parecido com o descrito anteriormente Mas não precisamos digitar os limites superiores de cada classe e sim os valores que a variável em estudo assume digitar uma única vez cada resposta da variável Para facilitar a explicação vamos utilizar o Exemplo 41 1o passo Digitar em uma planilha o conjunto de dados em estudo e os valores que a variável assume digitar uma única vez Os valores considerados para a coluna Tempo em dias foram obtidos através das respostas que aparecem no conjunto de dados 1 2 3 4 e 5 94 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL Figura 23 Entrada dos dados da variável Tempo em dias Fonte Próprio autor Após a entrada dos dados os passos a serem seguidos são os mesmos do item 81 Construção de gráficos Gráfico de barras Para a elaboração dos gráficos utilizaremos alguns conjuntos de dados que estão nos exemplos dos capítulos 2 e 3 1o passo Digitar em uma planilha as respostas da variável numérica ou categórica e suas respectivas frequências ou frequências relativas Para exemplificar utilizaremos os dados do Exemplo 21 Figura 24 Entrada dos dados da variável Área para especialização Fonte Próprio autor 95 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 2º passo Agora vamos selecionar os dados O comprimento de cada uma das barras representa a frequência absoluta ou relativa Aqui o gráfico será construído com a frequência absoluta colunas selecionadas A e B sem os títulos Após a seleção escolher a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a primeira opção para o gráfico de Coluna O Excel denomina o gráfico de barras verticais como coluna Clicar em OK Figura 25 Escolha do tipo de gráfico Coluna Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 26 Precisamos formatálo pois os eixos estão sem título Quando clicamos no ícone uma caixa é aberta com Elementos do gráfico escolhemos Títulos dos Eixos Título do Gráfico desmarcar caso queira que o título fique somente representado abaixo do gráfico como nome da Figura Rótulo de dados caso queira que os valores apareçam acima da barra Linhas de Grade desmarcar caso queira tirar as linhas de grade do gráfico Figura 26 Gráfico de barras verticais elaborado sem formatação Fonte Próprio autor 96 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado Figura 27 Gráfico de barras verticais para a variável Área para especialização Fonte Próprio autor Gráfico de barras paralelas Para exemplificar a construção desse tipo de gráfico utilizaremos os dados que estão na Tabela 5 1o passo Digitar em uma planilha as respostas conjuntas das variáveis em estudo numéricas ou categóricas e suas respectivas frequências ou frequências relativas Figura 28 Entrada dos dados tabela de dupla entrada Fonte Próprio autor 2º passo Agora vamos para a seleção dos dados Trabalharemos nesse exemplo com as frequências absolutas Selecionamos as células A1 até E3 Após a seleção escolher 97 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a terceira opção para o gráfico de Coluna Clicar em OK Figura 29 Escolha do tipo de gráfico Barra 2D Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 30 Precisamos formatálo pois os eixos estão sem título Como explicado no gráfico anterior quando clicamos no ícone uma caixa é aberta com Elementos do gráfico escolhemos Títulos dos Eixos Título do Gráfico desmarcar caso queira que o título fique somente representado abaixo do gráfico como nome da Figura Rótulo de dados caso queira que os valores apareçam acima da barra Linhas de Grade desmarcar caso queira tirar as linhas de grade do gráfico e Legenda marcar para que se faça a distinção entre os gêneros masculino e feminino Figura 30 Gráfico de barras paralelas sem formatação Fonte Próprio autor 98 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado Figura 31 Gráfico de barras paralelas para área de especialização segundo gênero Fonte Próprio autor Gráfico de setores Para a construção do gráfico de setores ou circular ou pizza utilizaremos os dados da Tabela 8 1o passo Digitar em uma planilha as respostas da variável em estudo categórica e suas respectivas frequências relativas Figura 32 Entrada dos dados para a variável Área das reclamações fundamentas ProconSP Fonte Próprio autor 99 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 2º passo Selecionamos as colunas A e B sem os títulos das colunas e sem a linha do total Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a primeira opção para o gráfico de Pizza ou de Rosca Clicar em OK Figura 33 Escolha do tipo de gráfico Pizza Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 34 No ícone vamos escolher Rótulo de dados e Legenda à Direita Você também pode optar por marcar Título do Gráfico Figura 34 Gráfico de pizza sem formatação Fonte Próprio autor 100 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado Figura 35 Gráfico de setores para as reclamações fundamentadas no ProconSP por área em 2017 Fonte Próprio autor Diagrama de Pareto Para a construção do Diagrama de Pareto utilizaremos também os dados da Tabela 8 1o passo Digitar em uma planilha as respostas da variável em estudo categórica e suas respectivas frequências relativas Figura 36 Entrada dos dados Áreas das reclamações Fonte Próprio autor 101 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 2º passo Selecionamos as colunas A e B sem os títulos das colunas e sem a linha do total Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a segunda opção com linha para o gráfico Histograma Clicar em OK Figura 37 Escolha do tipo de gráfico Histograma com linha Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 38 No ícone vamos escolher Título dos Eixos Figura 38 Diagrama de Pareto sem formatação Fonte Próprio autor 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado 102 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL Figura 39 Diagrama de Pareto para as reclamações fundamentadas no ProconSP por área em 2017 Fonte Próprio autor Histograma O Histograma será feito utilizando os dados da Tabela 24 1o passo Digitar em uma planilha as respostas da variável em estudo numérica e suas respectivas frequências ou frequências relativas Figura 40 Entrada dos dados para a variável Tempo de parada minutos Fonte Próprio autor 103 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 2º passo Selecionamos as colunas A e B ou A e C sem os títulos das colunas e sem a linha do total Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a primeira opção para o gráfico de Coluna Clicar em OK Figura 41 Escolha do tipo de gráfico Coluna Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 42 No ícone vamos escolher Título dos Eixos Figura 42 Histograma sem formatação Fonte Próprio autor 104 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 4º passo Precisamos lembrar que o histograma é um gráfico de colunas sem espaçamento Portanto precisamos juntar as barras Para isso clicamos com o botão direito do mouse em cima de qualquer uma das barras Nisso abrirá uma caixa em que deve ser selecionada a opção Formatar Série de Dados e em seguida devese colocar 0 na Largura do Espaçamento conforme mostra a Figura 43 Figura 43 Histograma sem espaçamento entre as barras Fonte Próprio autor 5º passo Para que as bordas das barras fiquem bem delimitadas clicamos com o botão direito do mouse em cima de qualquer uma das barras Nisso abrirá uma caixa em que deve ser selecionada a opção Formatar Série de Dados e em seguida deve se escolher a opção Linha de Preenchimento baldinho Em seguida em Borda escolher Linha Sólida e a Cor desejada conforme a Figura 44 Figura 44 Histograma sem espaçamento entre as barras e com bordas delimitadas Fonte Próprio autor 6º passo Após as escolhas definidas nos passos anteriores temos o gráfico formatado e finalizado 105 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV Figura 45 Histograma para a variável tempo de parada minutos de um equipamento Fonte Próprio autor Gráfico de dispersão Já estudamos que esse tipo de gráfico é utilizado para se investigar possíveis relacionamentos entre duas variáveis quantitativas Portanto utilizaremos os dados do Exemplo 37 1o passo Digitar em uma planilha os pares ordenados das duas variáveis quantitativas Figura 46 Entrada dos dados preço e demanda de um produto Fonte Próprio autor 106 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 2º passo Selecionamos as colunas A e B sem os títulos das colunas Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a primeira opção para o gráfico de Dispersão Clicar em OK Figura 47 Escolha do tipo de gráfico Dispersão Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 48 No ícone vamos escolher Título dos Eixos Figura 48 Diagrama de dispersão sem formatação Fonte Próprio autor 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado 107 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV Figura 49 Diagrama de dispersão para os dados preço de venda e demanda de um produto Fonte Próprio autor Gráfico de séries temporais O gráfico de séries temporais é utilizado para verificar comportamentos em uma série de dados observados em intervalos de tempo regularmente espaçados Para exemplificá lo utilizaremos os dados do Exemplo 38 1o passo Digitar em uma planilha os tempos regularmente espaçados meses dias semestres etc e seus respectivos valores da variável em estudo Figura 50 Entrada dos dados taxa de desemprego Fonte Próprio autor 108 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 2º passo Selecionamos as colunas A e B sem os títulos das colunas Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a primeira opção para o gráfico de Linha Clicar em OK Figura 51 Escolha do tipo de gráfico Linha Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 52 No ícone vamos escolher Título dos Eixos e Rótulos de Dados para que as taxas de cada mês apareçam no gráfico Figura 52 Gráfico de linhas sem formatação Fonte Próprio autor 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado 109 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV Figura 53 Gráfico de séries temporais para a taxa de desemprego mensal em seis regiões metropolitanas no ano de 2015 Fonte Próprio autor BoxPlot Para a construção do boxplot utilizaremos os dados do Exemplo 62 1o passo Digitar em uma planilha as respostas das variáveleis em estudo numérica Figura 54 Entrada dos dados número de carros zero quilômetro vendidos Fonte Próprio autor 110 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 2º passo Selecionamos a coluna A sem o título Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher Gráficos Recomendados Todos os Gráficos e finalmente Caixa e Caixa Estreita Clicar em OK Figura 55 Escolha do tipo de gráfico Caixa estreita Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 56 No ícone vamos escolher Título dos Eixos E vamos marcar o número 1 que aparece ao centro na parte inferior para deletálo Nesse exemplo não há necessidade de colocar título na horizontal A utilização de títulos na horizontal ocorre quando estamos construindo dois ou mais boxplot no mesmo gráfico por exemplo concessionárias Alfa e Beta Figura 56 Boxplot sem formatação Fonte Próprio autor 111 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado Figura 57 Boxplot para o número de carros zero quilômetro vendidos diariamente em uma concessionária Fonte Próprio autor Os gráficos construídos neste capítulo são aqueles abordados ao longo dos capítulos 3 e 7 Há outras possibilidades gráficas que estão disponíveis no Excel e que podem ser exploradas de maneira a representar de forma eficiente os dados coletados Após a formatação e finalização da construção do gráfico basta transferilo para o arquivo de destino e interpretar as informações contidas nele No próximo capítulo aprenderemos como utilizar a ferramenta Análise de Dados disponível no Excel com o objetivo de obter medidas descritivas dos dados 112 CAPÍTULO 2 Utilização do Microsoft Excel no cálculo de medidas descritivas As medidas descritivas apresentadas nos capítulos 4 5 e 6 podem ser obtidas utilizando o Excel Para isso a Ferramenta de Análise de Dados deve estar ativa Caso essa ferramenta esteja ativa aparecerá a opção Análise de Dados na aba Dados Caso a ferramenta não esteja ativada seguir os procedimentos Clicar na aba Arquivo escolher Opções e em seguida Suplementos Na caixa Suplementos de Aplicativos Inativos selecionar Ferramenta de Análise e clicar em Ir Na caixa Suplementos clicar no seguinte suplemento disponível Ferramenta de Análise e OK Para ilustrar as ferramentas de análise vamos utilizar os dados do Exemplo 51 Cálculo das medidas de posição central 1o passo Digitar em uma planilha as respostas das variáveleis Figura 58 Entrada dos dados comprimento de peças de duas linhas de produção Fonte Próprio autor 113 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 2º passo Clicar em Dados e em seguida Análise de Dados Aparecerá uma caixa de diálogo com uma lista de Ferramentas de análise Clicar em Estatística descritiva e OK Figura 59 Escolha da ferramenta de análise Estatística descritiva Fonte Próprio autor 3º passo Após a escolha da Ferramenta de análise Estatística descritiva aparecerá uma nova caixa de diálogo Em Intervalo de entrada selecionar os dados arrastando com o mouse desde A1 até B11 Marcar Rótulos na primeira linha desde que os nomes das colunas tenham sido selecionados Em Opções de saída escolher Nova planilha os resultados obtidos sairão em uma planilha diferente daquela utilizada para a entrada dos dados basta identificála no rodapé e por fim escolher Resumo Estatístico e Ok Figura 60 Entrada dos dados para o cálculo do resumo estatístico Fonte Próprio autor 114 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 4º passo As medidas de posição obtidas através do resumo estatísticos estão destacadas na Figura 61 Figura 61 Medidas de posição central obtidas pelo resumo estatístico Fonte Próprio autor Analisando o conjunto de dados observamos que a Linha 1 não apresenta moda pois todos os valores aparecem duas vezes A Linha 2 apresenta duas modas 70 e 74 Esses valores são diferentes daqueles apresentados no resumo estatístico Portanto para obtermos corretamente o valor da moda vamos utilizar a função MODOMULT 5º passo No ícone Fórmulas escolhemos Mais Funções Estatística MODO MULT Figura 62 Escolha da função para o cálculo da Moda Fonte Próprio autor 115 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 6º passo Em Argumentos da função na caixa Núm1 selecionar os dados arrastando com o mouse desde A2 até A11 e clicar em OK Figura 63 Resultado para a moda da Linha 1 Fonte Próprio autor Observamos pelo resultado apresentado que a função retorna os seguintes valores para a moda 72 73 74 75 e 76 pois todos aparecem com frequência 2 Nesse caso não há moda Seguindo o mesmo procedimento para a Linha 2 temos Figura 64 Resultado para a moda da Linha 2 Fonte Próprio autor 116 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL Para a Linha 2 observamos que os resultados apresentados são 70 e 74 pois ambos aparecem com a maior frequência no conjunto de dados duas vezes Portanto a distribuição é bimodal Cálculo das medidas de dispersão Para encontrar as medidas de dispersão seguimos até o 4º passo descrito no item anterior e obtemos os seguintes resultados Figura 65 Medidas de dispersão obtidas pelo resumo estatístico Fonte Próprio autor Vale observar que o Excel apresenta a Amplitude com o nome de Intervalo Não há a resposta direta para o coeficiente de variação mas sabemos que para calculálo basta dividir o desviopadrão pela média e multiplicar por 100 Neste capítulo aprendemos como utilizar a Ferramenta Estatística Descritiva para obter as medidas de posição e dispersão para um ou mais conjunto de dados Não exploramos as funções para os cálculos dos quartis pois não há um consenso universal sobre como calculálos e o Excel utiliza um método diferente do que foi descrito neste material Bons estudos 117 Referências BESSON JeanLouis A ilusão das estatísticas São Paulo Editora da Universidade Estadual Paulista 1995 BUSSAB Wilton de O MORETTIN Pedro A Estatística básica 5 ed São Paulo Saraiva 2002 LEVINE David M STEPHAN David F SZABAT Kathryn A Estatística teoria e aplicações usando Microsoft Excel em português 7 ed Rio de Janeiro LTC 2016 MAGALHÃES Marcos N LIMA Antonio C P de Noções de probabilidade e estatística 6 ed São Paulo Editora da Universidade de São Paulo 2004 TRIOLA Mário F Introdução à estatística 10 ed Rio de Janeiro LTC 2008 VIEIRA Sonia Elementos de estatística 4 ed São Paulo Atlas 2003 Sites Disponível em httpscenso2010ibgegovbrmateriaisguiadocensoapresentacao html Acesso em 15 abr 2018 Disponível em httpwwwibopeinteligenciacomnoticiasepesquisascresce insatisfacaocomeducacaonopais Acesso em 15 abr 2018 Disponível em httpwwwfecapbradmonlineart23tania2htm Acesso em 16 abr 2018 Disponível em httpwwwproconspgovbrpdfrankingfundacaoprocon sp2017pdf Acesso em 3 maio 2018 Disponível em httpwwwbcbgovbrptbrctxjuros Acesso em 25 maio 2018 Disponível emhttpdownloadinepgovbreducacaosuperiorenadeprovas2014 42tecnologiagestaoproducaoindustrialpdf Acesso em 7 jul 2018 Disponível em httpscenso2010ibgegovbrnoticiascensohtmlbusca1id1 idnoticia3106tjaneirotaxadesocupacaovai76viewnoticiahttpdownload inepgovbreducacaosuperiorenadeprovas201442tecnologiagestao producaoindustrialpdf Acesso em 8 jul 2018 118 REFERÊNCIAS Disponível emhttpwwwcespeunbbrconcursosDPRF12ADMINISTRATIVO arquivosDPRF1200306pdf httpdownloadinepgovbreducacaosuperior enadeprovas201442tecnologiagestaoproducaoindustrialpdf Acesso em 9 jul 2018 Disponível em httpwwwcesgranrioorgbrpdfbb0118ESCRITURC381RIO 2020GABARITO201pdf httpdownloadinepgovbreducacaosuperiorenadeprovas201442tecnologia gestaoproducaoindustrialpdf Acesso em 10 jul 2018
Envie sua pergunta para a IA e receba a resposta na hora
Texto de pré-visualização
BrasíliaDF Estatística DEscritiva Elaboração Valeria Aparecida Martins Ferreira Produção Equipe Técnica de Avaliação Revisão Linguística e Editoração Sumário APRESENTAÇÃO 4 ORGANIZAÇÃO DO CADERNO DE ESTUDOS E PESQUISA 5 INTRODUÇÃO 7 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS 9 CAPÍTULO 1 INTRODUÇÃO AOS CONCEITOS BÁSICOS DA ESTATÍSTICA 10 CAPÍTULO 2 ORGANIZAÇÃO DOS DADOS EM DISTRIBUIÇÕES DE FREQUÊNCIAS 20 CAPÍTULO 3 CONSTRUÇÃO E ANÁLISE DE GRÁFICOS 30 UNIDADE II MEDIDAS DESCRITIVAS 40 CAPÍTULO 1 MEDIDAS DE POSIÇÃO CENTRAL 41 CAPÍTULO 2 MEDIDAS DE DISPERSÃO 55 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS 69 CAPÍTULO 1 MEDIDAS SEPARATRIZES 70 CAPÍTULO 2 CONSTRUÇÃO E ANÁLISE DO BOXPLOT 79 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 90 CAPÍTULO 1 UTILIZAÇÃO DO MICROSOFT EXCEL NA CONSTRUÇÃO DE TABELAS E GRÁFICOS 91 CAPÍTULO 2 UTILIZAÇÃO DO MICROSOFT EXCEL NO CÁLCULO DE MEDIDAS DESCRITIVAS 112 REFERÊNCIAS 117 4 Apresentação Caro aluno A proposta editorial deste Caderno de Estudos e Pesquisa reúne elementos que se entendem necessários para o desenvolvimento do estudo com segurança e qualidade Caracterizase pela atualidade dinâmica e pertinência de seu conteúdo bem como pela interatividade e modernidade de sua estrutura formal adequadas à metodologia da Educação a Distância EaD Pretendese com este material leválo à reflexão e à compreensão da pluralidade dos conhecimentos a serem oferecidos possibilitandolhe ampliar conceitos específicos da área e atuar de forma competente e conscienciosa como convém ao profissional que busca a formação continuada para vencer os desafios que a evolução científicotecnológica impõe ao mundo contemporâneo Elaborouse a presente publicação com a intenção de tornála subsídio valioso de modo a facilitar sua caminhada na trajetória a ser percorrida tanto na vida pessoal quanto na profissional Utilizea como instrumento para seu sucesso na carreira Conselho Editorial 5 Organização do Caderno de Estudos e Pesquisa Para facilitar seu estudo os conteúdos são organizados em unidades subdivididas em capítulos de forma didática objetiva e coerente Eles serão abordados por meio de textos básicos com questões para reflexão entre outros recursos editoriais que visam tornar sua leitura mais agradável Ao final serão indicadas também fontes de consulta para aprofundar seus estudos com leituras e pesquisas complementares A seguir apresentamos uma breve descrição dos ícones utilizados na organização dos Cadernos de Estudos e Pesquisa Provocação Textos que buscam instigar o aluno a refletir sobre determinado assunto antes mesmo de iniciar sua leitura ou após algum trecho pertinente para o autor conteudista Para refletir Questões inseridas no decorrer do estudo a fim de que o aluno faça uma pausa e reflita sobre o conteúdo estudado ou temas que o ajudem em seu raciocínio É importante que ele verifique seus conhecimentos suas experiências e seus sentimentos As reflexões são o ponto de partida para a construção de suas conclusões Sugestão de estudo complementar Sugestões de leituras adicionais filmes e sites para aprofundamento do estudo discussões em fóruns ou encontros presenciais quando for o caso Atenção Chamadas para alertar detalhestópicos importantes que contribuam para a sínteseconclusão do assunto abordado 6 Saiba mais Informações complementares para elucidar a construção das síntesesconclusões sobre o assunto abordado Sintetizando Trecho que busca resumir informações relevantes do conteúdo facilitando o entendimento pelo aluno sobre trechos mais complexos Para não finalizar Texto integrador ao final do módulo que motiva o aluno a continuar a aprendizagem ou estimula ponderações complementares sobre o módulo estudado 7 Introdução A Estatística é uma ciência multidisciplinar e suas técnicas podem ser utilizadas nas mais diversas áreas fornecendo informações que auxiliam no processo de tomada de decisões Por exemplo no Marketing a obtenção de informações através de técnicas estatísticas ajuda o profissional dessa área a conhecer e entender o consumidor para se relacionar melhor com ele atender as suas necessidades e expectativas sair na frente da concorrência decifrar tendências de mercado fazer previsões de demanda de mercado como a necessidade de um novo produto e serviço Na área da Qualidade métodos estatísticos também desempenham papel fundamental no controle e melhoria de qualidade de produtos bens manufaturados e serviços e são aplicados em qualquer área de uma companhia ou organização incluindo manufatura desenvolvimento de processo planejamento de engenharia finanças e contabilidade marketing distribuição e logística atendimento a clientes e assistência técnica a produtos O avanço da informática e a popularização dos computadores contribuíram para o uso de métodos estatísticos Antigamente era muito demorado fazer análises de muitas informações e agora com o auxílio do computador as análises são feitas rapidamente Além disso com o avanço da informática novas técnicas de análise de dados foram introduzidas principalmente métodos gráficos Muitos pacotes estatísticos foram desenvolvidos e são usados tanto no meio acadêmico como em indústrias como por exemplo Minitab SPSS e SAS Utilizamos também o Microsoft Office Excel que possui opções para certas técnicas estatísticas Apesar do grande auxílio fornecido pelos pacotes estatísticos e pelo Excel precisamos ter um conhecimento teórico sólido para saber qual técnica estatística utilizar para resolver um problema além de saber analisar e interpretar os resultados obtidos O conteúdo exposto nesse material ajudará na compreensão e aplicação das ferramentas de uma área da Estatística denominada Estatística Descritiva Objetivos Apresentar conceitos básicos necessários para a condução de um estudo estatístico de maneira a fornecer credibilidade aos resultados obtidos Mostrar a importância da aplicação de ferramentas da estatística descritiva nas mais diversas áreas do conhecimento 8 Elucidar os cálculos matemáticos necessários para a obtenção de medidas estatísticas descritivas bem como a interpretação de tais resultados Utilizar ferramentas no Microsoft Excel na organização e apresentação dos dados em tabelas e gráficos e no cálculo de resumos estatísticos 9 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Os capítulos que compõem a Unidade I apresentam conceitos básicos da Estatística população amostra parâmetro estatística e tipos de variáveis bem como a organização de dados coletados em tabelas e gráficos Com o estudo desses conteúdos esperamos que você consiga identificar e descrever a população e a amostra em um estudo reconhecer e classificar os diferentes tipos de variáveis presentes em um estudo compreender os propósitos de cada uma das áreas da Estatística entender as características da amostragem probabilística utilizada para coleta de dados organizar os dados em tabelas de frequências e gráficos apropriados para cada tipo de variável 10 CAPÍTULO 1 Introdução aos conceitos básicos da Estatística Frequentemente no cotidiano recebemos informações dos meios de comunicação através de gráficos tabelas porcentagens indicadores entre outros Por exemplo Pesquisas de intenção de voto em uma eleição Levantamento sobre a popularidade de governantes e candidatos Percentual de brasileiros favoráveis ou contrários a alguma reforma proposta pelo governo em exercício Indicadores educacionais utilizados para o monitoramento dos sistemas educacionais considerando o acesso a permanência e a aprendizagem de todos os alunos Taxa média anual do cartão de crédito Taxa média anual de desemprego Taxa de crescimento da produção industrial brasileira Essas informações são obtidas por meio da coleta análise e interpretação de dados E é aqui que entra a ciência Estatística que vamos definir a seguir Definição de Estatística Estatística é a ciência que utiliza um conjunto de técnicas para a coleta organização resumo análise e interpretação de dados A Estatística pode ser dividida em duas grandes áreas a estatística descritiva e a inferência estatística A Estatística Descritiva compreende o resumo a organização e a descrição dos dados em tabelas gráficos e cálculo de medidas numéricas descritivas como média e desviopadrão A análise descritiva é a fase inicial do estudo dos dados coletados Geralmente muitos conjuntos de dados são extensos em seus formatos originais com muitas características sendo investigadas e o uso de ferramentas descritivas facilita na análise interpretação e conclusão de tais conjuntos 11 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I A inferência estatística ou inferência indutiva utiliza um conjunto de dados pequeno para fazer estimativas testar hipóteses e fazer previsões sobre características de um grande conjunto de dados Podemos observar a aplicação de técnicas da inferência estatística por exemplo em pesquisas eleitorais Nessas pesquisas é impossível entrevistar todos os eleitores do Brasil para saber sua intenção de voto pois a pesquisa ficaria muito demorada e cara Então a pesquisa é desenvolvida com um conjunto de dados muito menor amostra e os resultados obtidos são extrapolados para o conjunto maior população de eleitores do Brasil A seguir estudaremos alguns conceitos que são utilizados tanto na Estatística Descritiva quanto na inferência estatística Conceitos básicos da Estatística Os principais conceitos básicos da Estatística estão apresentados no Quadro 1 Quadro 1 Conceitos básicos da Estatística População Conjunto formado por todos os elementos pessoas objetos medidas respostas e outros que têm a característica que se deseja estudar Amostra Subconjunto representativo da população de interesse Parâmetro Medida numérica que descreve alguma característica de uma população Estatística Medida numérica que descreve alguma característica de uma amostra Variável Característica de interesse no estudo Censo Estudo feito com todos os elementos da população Dados Conjunto de respostas individuais associadas a determinada variável Fonte Próprio autor Podemos ter a propensão a achar que o conceito de população seja para um agrupamento de pessoas Em Estatística o termo população pode ser empregado para por exemplo todos os funcionários de uma empresa carros produzidos por uma montadora no último trimestre peças produzidas por uma máquina durante uma semana vendas efetuadas por uma loja de departamento durante um mês etc Na maioria dos estudos e pesquisas é muito difícil termos acesso a todos os elementos da população Então é retirada uma parte de elementos da população de interesse para realizar o estudo que recebe o nome de amostra Portanto uma amostra é um subconjunto representativo da população de interesse e é por meio dela que o estudo estatístico é feito de maneira a obtermos informações importantes sobre a população da qual a amostra foi extraída 12 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Quais razões levam pesquisadores a trabalhar com amostras e não com toda a população Para responder a esse questionamento podemos citar algumas razões Custo e demora em se realizar um censo Por exemplo uma empresa dificilmente dispõe de verba suficiente para saber o que todos os seus consumidores pensam a respeito dos seus produtos Impossibilidade de examinar toda a população na análise de sangue de um paciente é impossível a retirada de toda a população de interesse todo o sangue do paciente O estudo exige testes destrutivos uma empresa fabricante de fósforo não utilizará todos os fósforos fabricados em um lote para verificar possíveis falhas durante o acendimento pois isso destruiria toda a sua fabricação população de fósforos A Figura 1 ilustra os conceitos de população e amostra e as áreas da estatística descritiva e inferencial com seus respectivos objetivos Figura 1 População e amostra Inferência Estatística Estimação de quantidades desconhecidas Extrapolação dos resultados Teste de hipóteses Estatística Descritiva Consistência dos dados Interpretações iniciais Amostra População Fonte Magalhães e Lima 2004 p 3 adaptado pelo autor Se em um estudo for possível acessar todos os elementos da população de interesse não é necessário o uso das técnicas da inferência estatística Mas vale ressaltar que é incorreto pensar que seríamos mais precisos se tivéssemos acesso a todos os elementos da população Erros de coleta de registro e de manuseio em um grande conjunto de dados podem ser maiores que as imprecisões que 13 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I podem acontecer quando generalizamos através das técnicas de inferência os resultados obtidos por meio de uma amostra representativa Como vimos pelos conceitos do Quadro 1 censo é um estudo feito com todos os elementos da população de interesse No Brasil o censo é feito a cada 10 anos e o responsável pela sua realização é o Instituto Brasileiro de Geografia e Estatística IBGE As informações obtidas com o censo são imprescindíveis para a definição de políticas públicas e tomada de decisões de investimentos provenientes da iniciativa privada ou de qualquer nível de governo Para saber um pouco mais sobre o censo de 2010 como coleta materiais e resultados leia as informações disponíveis em httpscenso2010ibgegovbr materiaisguiadocensoapresentacaohtml Acesso em 15 abr 2018 Conforme Levine Stephan e Szabat 2016 o desenvolvimento de um estudo que envolve a aplicação de ferramentas estatísticas deve seguir a seguinte estrutura definir os dados a serem estudados de maneira a responder ao objetivo do estudopesquisa coletar os dados por meio da população de interesse ou de uma amostra representativa organizar os dados por distribuições de frequências visualizar os dados pela construção de gráficos e analisar os dados coletados com o intuito de tirar conclusões e tomar decisões Toda a estrutura definida gira em torno da palavra dados Afinal como obtemos dados para realizar um estudo Dados são provenientes das variáveleis em estudo E o que é uma variável Variável é uma característica de interesse no estudo Por exemplo podemos ter interesse nas variáveis idade gênero estado civil tempo de habilitação e profissão dos clientes de determinada seguradora As respostas obtidas em cada uma dessas variáveis formarão o conjunto de dados a ser estudado Para facilitar o entendimento dos conceitos expostos no Quadro 1 vamos analisar o exemplo a seguir Exemplo 11 A pesquisa Retratos da Sociedade Brasileira Educação Básica realizada pelo Ibope Inteligência para a Confederação Nacional da Indústria CNI no período de 1592017 a 2092017 mostrou que a insatisfação com a educação no País aumentou nos últimos quatro anos conforme mostra a Figura 2 Para a realização da pesquisa foi utilizada uma amostra composta de 2000 entrevistados em 126 municípios com uma margem de erro de mais ou menos 2 pontos percentuais Uma das 14 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS perguntas em estudo era Pensando no mercado de trabalho na sua opinião quando um aluno termina o ensino médio antigo 2º grau em escola pública ele está bem preparado para o mercado de trabalho razoavelmente preparado para o mercado de trabalho pouco preparado para o mercado de trabalho despreparado para o mercado de trabalho não sabenão respondeu Figura 2 Preparação do aluno do ensino médio para o mercado de trabalho Cresce insatisfação com educação no País Preparação do aluno do ensino médio para o mercado de trabalho Percentual de respostas 1 2 3 4 5 Fonte httpwwwibopeinteligenciacomnoticiasepesquisascresceinsatisfacaocomeducacaonopais adaptado pelo autor Acesso em 1982018 Em que 1 Bem preparado 2 Razoavelmente preparado 3 Poupo preparado 4 Despreparado 5 Não sabenão respondeu De acordo com as informações contidas no enunciado vamos identificar a A população em estudo b A variável em estudo c O tamanho da amostra d Os percentuais obtidos para os anos de 2010 2013 e 2017 são parâmetros ou estatísticas 15 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Resolução a População em estudo eleitores de 16 anos ou mais da área em estudo informação retirada das especificações técnicas da pesquisa b Variável em estudo opinião dos entrevistados quanto ao nível de preparação do aluno para o mercado de trabalho após a conclusão do ensino médio em escola pública c Tamanho da amostra 2000 entrevistados d Os percentuais obtidos informações numéricas são estatísticas pois são obtidas através de dados amostrais É informado nesse exemplo que a margem de erro na pesquisa é de mais ou menos 2 pontos percentuais Este conceito será estudado mais profundamente em técnicas da inferência estatística Mas analisando o contexto da pesquisa realizada por que você acha que os resultados obtidos são vinculados a uma margem de erro Como as pesquisas frequentemente são realizadas por meio de dados amostrais haverá uma diferença entre o resultado obtido na amostral e o verdadeiro valor populacional A diferença entre esses dois resultados é um erro Por meio de algumas informações como nível de confiança da pesquisa podemos calcular o erro máximo de estimativa ou margem de erro No caso do Exemplo 11 a margem de erro é de mais ou menos 2 pontos percentuais ou seja cada percentual de resposta observado na amostra pode apresentar variações em relação à população de no máximo 2 pontos percentuais Os dados obtidos associados à variável ou às variáveis em estudo podem ser numéricos ou não numéricos É natural pensar que respostas numéricas gerem dados quantitativos e respostas não numéricas gerem dados qualitativos ou categóricos Como os dados são provenientes das variáveis em estudo podemos classificar as variáveis da mesma forma variáveis qualitativas ou categóricas ou quantitativas As variáveis qualitativas podem ser classificadas como qualitativas nominais ou ordinais Se existir uma ordenação natural elas são classificadas como qualitativas ordinais Caso contrário elas são classificadas como variáveis qualitativas nominais Por exemplo variáveis como qualidade de uma peça conforme e não conforme e cor de pele branco preto pardo amarelo etc são classificadas como qualitativas nominais Agora variáveis como avaliação de um serviço ótimo bom regular ruim péssimo e classe social A B C D e E são classificadas como qualitativas ordinais 16 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS No caso das variáveis quantitativas elas podem ser classificadas como quantitativas discretas ou contínuas As variáveis quantitativas discretas são resultantes de uma operação de contagem assumindo respostas cujos números são inteiros Já as variáveis quantitativas contínuas são resultantes de mensurações assumindo valores que pertencem a um intervalo de números reais ou seja números decimais Por exemplo número de filhos 0 1 2 e número de carros vendidos em determinado dia em uma concessionária 0 1 2 3 são classificadas como quantitativas discretas enquanto que peso altura diâmetro de uma peça são classificadas como quantitativas contínuas É comum quando o banco de dados gerado pelas variáveis em estudo estiver em uma planilha eletrônica que categorias de variáveis qualitativas sejam codificadas através de códigos numéricos Por exemplo para a variável gênero podemos associar o código 1 para o sexo feminino e 2 para o sexo masculino Mas isso não a torna uma variável quantitativa ou seja não podemos por exemplo calcular uma média dessas respostas pois não conseguiríamos interpretar o resultado obtido Figura 3 Classificação das variáveis Variáveis Qualitativas categóricas Nominais Ordinais Quantitativas numéricas Discretas Contínuas Fonte Próprio autor Exemplo 12 Vamos classificar as seguintes variáveis a Unidade da Federação em que uma pessoa nasceu b Cor de cabelo c Número de disciplinas que um aluno de graduação está cursando num semestre d Nível de satisfação do consumidor com um tratamento estético e Nível de cálcio no sangue 17 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Resolução a Variável qualitativa nominal pois as possíveis respostas são São Paulo Rio de Janeiro Bahia Goiás etc as possíveis respostas são categóricas b Variável qualitativa nominal pois as possíveis respostas são loiro castanho ruivo etc as possíveis respostas são categóricas c Variável quantitativa discreta pois as possíveis respostas são 0123 etc as possíveis respostas são números inteiros d Variável qualitativa ordinal pois as possíveis respostas são muito satisfeito satisfeito pouco insatisfeito insatisfeito as possíveis respostas são categóricas e possuem uma ordenação natural do maior grau de satisfação para o menor e Variável quantitativa contínua pois as possíveis respostas são 89mgdl 96mgdl 101mgdl etc as possíveis respostas são números decimais Coleta de dados Já sabemos que se um estudo for feito com todos os elementos da população de interesse estamos realizando um censo Frequentemente essa população é muito extensa e por isso conduzimos o estudo selecionando uma amostra e coletando dos elementos que a compõem as respostas das variáveis de interesse no estudo Para que os resultados obtidos na amostra se aproximem dos resultados que obteríamos se o estudo fosse realizado com a população devemos selecionar uma amostra representativa ou seja que represente o mais próximo possível as características da população Temos dois tipos de amostragem a que chamamos de probabilística ou aleatória e a não probabilística ou não aleatória Na amostragem probabilística cada elemento da população tem uma probabilidade conhecida a priori de pertencer à amostra Agora na amostragem não probabilística como por exemplo amostras intencionais os elementos são selecionados com o auxílio de especialistas A grande vantagem das amostras probabilísticas é que conseguimos medir a precisão da amostra obtida baseandose no resultado contido na própria amostra Os tipos de amostragem probabilísticas são amostragem aleatória simples amostragem sistemática amostragem estratificada e amostragem por conglomerado A escolha do tipo de amostragem a ser utilizado depende entre outros fatores do grau de conhecimento que temos da população da quantidade de recursos disponíveis etc Como o intuito desse capítulo não é estudar as Técnicas de Amostragem vamos descrever brevemente um dos tipos de amostragem probabilística mais utilizado amostragem aleatória simples 18 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS A amostragem aleatória simples é a maneira mais fácil de selecionarmos uma amostra probabilística Nesse tipo de amostragem selecionamos ao acaso com ou sem reposição os elementos da população que farão parte da amostra Na amostragem com reposição é permitido que um elemento possa ser sorteado mais de uma vez e na sem reposição o elemento sorteado é removido da população Amostragem sem reposição faz com que a amostra tenha uma quantidade maior de informações distintas mas é na amostragem com reposição que temos independência entre os elementos selecionados requisito exigido nas técnicas de Inferência Estatística Então como devemos proceder Segundo Triola 2008 p 132 Eis uma diretriz comum se o tamanho da amostra não é maior que 5 do tamanho da população tratamos a seleção das unidades experimentais como sendo independentes mesmo que as seleções sejam feitas sem reposição pois tecnicamente elas são dependentes A seleção dos elementos numa amostragem aleatória simples pode ser feita da seguinte maneira 1 Obter uma listagem de todos os N elementos que compõem uma população finita 2 Numerar todos os elementos 3 Sortear os elementos que irão compor a amostra por meio de uma tabela de números aleatórios ou por meio do uso de computadores que geram números aleatórios Para melhor compreensão de amostragens não probabilísticas sugerimos a leitura do seguinte trabalho Amostragem não probabilística adequação de situações para uso e limitações de amostras por conveniência julgamento e quotas Disponível em httpwwwfecapbradmonlineart23tania2htm Acesso em 16 abr 2018 Vale ressaltar que além de levantamentos amostrais os dados podem ser obtidos através da técnica de planejamento de experimentos e levantamentos observacionais No planejamento de experimentos o objetivo é analisar o efeito de uma variável sobre outra ou seja determinar quais variáveis exercem maior influência no desempenho de determinado processo Por exemplo em um processo de retífica podemos ter interesse em saber quais variáveis são determinantes para um bom acabamento da peça Em levantamentos observacionais o pesquisador não tem controle sobre as informações obtidas Podemos citar como exemplo dados de séries temporais em 19 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I que as observações sobre uma mesma variável são coletadas em intervalos de tempo igualmente espaçados A produção diária em uma fábrica durante um mês forma uma série temporal em que o pesquisador não pode selecionar dados pois esses são a produção efetivamente ocorrida Neste capítulo você aprendeu sobre os conceitos de parâmetro e estatística e os tipos de variáveis presentes em um estudo e suas classificações Além disso aprendeu que os dados coletados para a condução de um estudo podem ser obtidos por meio de um censo de um levantamento amostral através da escolha de uma amostra representativa da população da aplicação de técnicas de planejamento de experimentos ou de levantamentos observacionais No próximo capítulo estudaremos como apresentar os dados coletados por meio de distribuições de frequências 20 CAPÍTULO 2 Organização dos dados em distribuições de frequências Após a obtenção dos dados por meio das fontes discutidas no capítulo 1 teremos o conjunto de dados brutos ou seja dados que ainda não foram organizados Esses dados podem estar armazenados por exemplo numa planilha eletrônica em que as variáveis em estudo estão nas colunas e nas linhas estão as respostas individuais de cada elemento Para facilitar a análise e divulgação desses dados precisamos organizálos em distribuições de frequências que estudaremos a seguir Distribuição de frequências Uma distribuição de frequências é uma tabela que lista as respostas da variável em estudo e suas respectivas contagens as quais são denominadas frequências Para facilitar a comparação com outros conjuntos de dados é conveniente acrescentar uma coluna contendo as porcentagens frequência relativa x 100 Portanto para a organização dos dados em uma distribuição de frequências precisaremos encontrar Frequência absoluta ou simplesmente frequência é o número de vezes que cada resposta da variável aparece na pesquisa Frequência relativa em percentagem ou percentual é o quociente da frequência absoluta pelo número total de observações em estudo x 100 Frequência acumulada é a soma de cada frequência com as que lhe são anteriores na distribuição Frequência relativa acumulada é o quociente da frequência acumulada pelo número total de observações em estudo Esta frequência também pode ser expressa em porcentagem Então de acordo com o exposto a estrutura de uma distribuição de frequências é Título o título explica o conteúdo da tabela Nome da variável Frequência Frequência Relativa Respostas da variável Total número total de observações em estudo 10000 21 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I A estrutura de uma distribuição de frequências é a mesma para variáveis qualitativas ou quantitativas Normas para a apresentação de tabelas podem ser encontradas em Vieira 2003 p 47 Exemplo 21 Uma pesquisa foi realizada com 25 estudantes de uma faculdade que estavam cursando o último semestre do curso de Administração A pesquisa foi realizada com três variáveis de interesse gênero idade anos e em qual área gostariam de se especializar Os resultados obtidos são apresentados a seguir Quadro 2 Informações dos estudantes Estudante Gênero Idade Área para especialização 1 Masculino 26 Gestão de Negócios 2 Feminino 24 Gestão de Projetos 3 Feminino 23 Gestão de Marketing 4 Masculino 29 Gestão de Negócios 5 Masculino 28 Gestão de Projetos 6 Masculino 27 Gestão de Negócios 7 Feminino 26 Gestão Financeira 8 Feminino 29 Gestão Financeira 9 Masculino 30 Gestão Financeira 10 Feminino 31 Gestão de Projetos 11 Feminino 27 Gestão de Negócios 12 Feminino 24 Gestão de Marketing 13 Masculino 23 Gestão de Projetos 14 Masculino 26 Gestão de Negócios 15 Feminino 28 Gestão de Marketing 16 Feminino 30 Gestão de Negócios 17 Masculino 26 Gestão de Negócios 18 Feminino 33 Gestão de Marketing 19 Masculino 31 Gestão de Projetos 20 Masculino 25 Gestão de Marketing 21 Feminino 29 Gestão de Projetos 22 Feminino 30 Gestão Financeira 23 Feminino 26 Gestão Financeira 24 Feminino 31 Gestão de Projetos 25 Masculino 32 Gestão de Marketing Fonte Próprio autor Vamos organizar os dados das variáveis gênero e área para especialização em distribuições de frequências 22 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Resolução Estudamos que para organizarmos os dados em uma distribuição de frequências precisamos construir uma tabela com três colunas nome da variável frequência ou número de estudantes e frequência relativa Toda tabela deve conter um título que explique o seu conteúdo Tabela 1 Distribuição dos estudantes segundo gênero Gênero Número de estudantes Frequência Relativa Feminino 14 5600 Masculino 11 4400 Total 25 10000 Fonte Próprio autor Temos frequência 14 para a resposta Feminino pois analisando o Quadro 2 verificamos que os estudantes 2 3 7 8 10 11 12 15 16 18 21 22 23 e 24 são do sexo feminino A frequência relativa para essa resposta é obtida fazendo 14 100 56 25 O mesmo procedimento é feito para encontrar os valores referentes ao gênero Masculino Observamos que a maioria dos estudantes que participaram do estudo é do sexo feminino Vamos seguir o mesmo procedimento para organizar os dados da variável área para especialização Tabela 2 Distribuição dos estudantes segundo área para especialização Área Número de estudantes Frequência Relativa Gestão de Marketing 6 2400 Gestão de Negócios 7 2800 Gestão de Projetos 7 2800 Gestão Financeira 5 2000 Total 25 10000 Fonte Próprio autor Com relação à variável área para especialização percebemos um maior equilíbrio entre as 4 áreas escolhidas pelos alunos Agora vamos pensar na organização dos dados da variável idade em uma distribuição de frequências Se observarmos o conjunto de dados brutos verificamos que as idades variam de 23 a 33 anos com respostas em toda amplitude de 10 anos Então o corpo da tabela ficará com 11 linhas 23 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Como podemos organizar a distribuição de frequências de maneira a tornála menos extensa Distribuição de frequências com intervalos de classes Quando estamos analisando grandes conjuntos de dados com variáveis quantitativas contínuas ou mesmo discretas é comum os valores se repetirem numa frequência baixa tornando a distribuição de frequências extensa Nessas situações é conveniente agrupar os dados em intervalos de classes Para a construção de tabelas com classes precisamos conhecer os seguintes valores Limite inferior iL é o menor valor que pode pertencer à classe Limite superior sL é o maior valor que pode pertencer à classe mas geralmente os valores iguais ao limite superior não são computados naquela classe e sim na seguinte Ponto médio m P é a metade da soma entre o iL e o sL da mesma classe ou seja 2 Li Ls Pm Amplitude h é a diferença entre o sL e o iL da classe ou seja s i h L L Agora vamos responder à pergunta como podemos organizar a distribuição de frequências com intervalos de classes de maneira a tornála menos extensa É natural termos dois questionamentos Quantas classes devo construir Qual o tamanho ou a amplitude de cada uma das classes Em geral o número de classes deve estar entre 5 e 20 Se o número de classes for muito pequeno perdemos muita informação Se o número de classes for grande o objetivo de resumir os dados fica prejudicado e a identificação de padrões na distribuição dos dados também fica prejudicada Não há um número de classes ideal a ser construída mas existem fórmulas que servem como referência para estabelecer o número de classes Podemos utilizar a regra da raiz sugerida por vários autores k n 24 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS em que k indica o número de classes que vamos construir e n é o número total de observações do conjunto de dados É muito comum o valor obtido para k não ser inteiro então vamos aproximar para o inteiro próximo de k Para determinar a amplitude e o número de observações em cada classe devemos 1 Encontrar a amplitude total dos dados ou seja á í ampliutde total valor m ximo valor m nimo á í ampliutde total valor m ximo valor m nimo 2 Dividir a amplitude total pelo número de classes ou seja amplitudetotal amplitudedecadaclasse k Normalmente o resultado dessa divisão não é inteiro Podemos arredondar até o próximo número inteiro para facilitar a construção das classes 3 O valor mínimo dos dados pode ser utilizado como o limite inferior da primeira classe Caso esse número seja decimal podemos considerar o inteiro anterior a esse número Por exemplo se o menor valor do conjunto de dados é 115 podemos considerar como limite inferior da primeira classe o número 1 4 Após a identificação dos limites inferiores e superiores das classes contamos o número de observações que pertencem a cada intervalo de classe frequências absolutas Também podemos encontrar as frequências relativas de cada classe Devemos deixar claro na distribuição de frequências se os valores iguais aos limites estão ou não incluídos na classe Construiremos intervalos de classe fechados à esquerda A representação deste tipo de intervalo é i s L L Por exemplo seja o intervalo 0 4 Pertencem a este intervalo valores iguais ou superiores ao limite inferior do intervalo neste exemplo 0 e inferiores ao limite superior neste exemplo 4 Se houver o número 4 no conjunto de dados ele entra no próximo intervalo de classe por exemplo 4 8 Vamos optar por construir classes com amplitudes iguais pois isso facilita a construção de um gráfico denominado Histograma que estudaremos no capítulo 3 Exemplo 22 Com os dados do Exemplo 21 vamos construir uma distribuição de frequências para a variável Idade 25 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Resolução Para facilitar a visualização das idades vamos organizar os dados em ordem crescente 23 23 24 24 25 26 26 26 26 26 27 27 28 28 29 29 29 30 30 30 31 31 31 32 33 Primeiro precisamos saber quantas classes vamos construir Para isto utilizaremos a fórmula 25 5 k Então construiremos 5 classes Agora vamos encontrar o tamanho amplitude de cada uma das classes 33 23 2 5 5 valor máximo valor mínimo amplitudedecadaclasse Portanto vamos construir classes de amplitude 2 cada uma Tabela 3 Distribuição de frequências das idades dos estudantes Idades dos estudantes Frequência Frequência Relativa 23 25 4 1600 25 27 6 2400 27 29 4 1600 29 31 6 2400 31 33 4 1600 33 35 1 400 Total 25 10000 Fonte Próprio autor Pelos cálculos o plano inicial era construir 5 classes Mas considerando amplitude 2 para cada classe o limite superior da classe 31 33 coincide com o valor da última observação Nessa classe devem ser contabilizadas as idades de 31 e 32 anos Portanto precisamos construir mais uma classe que contenha a idade 33 anos 33 35 Como dito anteriormente algumas análises necessitam da informação da frequência acumulada No próximo exemplo veremos como calculála 26 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Exemplo 23 Os dados a seguir referemse ao tempo de parada de um equipamento seja por manutenção ou troca de ferramentas Os tempos estão em minutos e foram coletados uma vez ao dia 6 7 10 11 12 12 13 14 15 17 18 18 18 19 21 21 22 22 22 23 23 24 24 24 24 25 25 26 26 26 26 28 28 28 30 30 30 32 32 32 32 33 33 33 34 34 35 36 38 38 39 40 40 40 41 45 45 46 47 47 49 51 52 54 55 56 60 64 73 82 Vamos organizar os dados em uma distribuição de frequências incluindo as frequências acumuladas Resolução Usando a regra da raiz para encontrar o número de classes temos 70 84 k Como o resultado é um valor decimal temos que considerar um valor inteiro próximo a esse resultado Então podemos escolher trabalhar com 8 classes a escolha por 9 também é possível Agora a amplitude de cada classe 82 6 95 8 8 valor máximo valor mínimo amplitudedecadaclasse Para facilitar a construção das classes vamos considerar a amplitude de cada classe 10 Tabela 4 Distribuição das frequências dos tempos de parada do equipamento minutos Tempo de parada minutos Frequência Frequência Relativa Frequência acumulada Frequência Relativa acumulada 5 15 8 1143 8 1143 15 25 17 2429 25 3571 25 35 21 3000 46 6571 35 45 9 1286 55 7857 45 55 9 1286 64 9143 27 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Tempo de parada minutos Frequência Frequência Relativa Frequência acumulada Frequência Relativa acumulada 55 65 4 571 68 9714 65 75 1 143 69 9857 75 85 1 143 70 10000 Total 70 10000 Fonte Próprio autor O cálculo da frequência acumulada é feito somando cada frequência com as que lhe são anteriores e a frequência relativa acumulada é obtida dividindo a frequência acumulada pelo número total de dados 100 Por exemplo a frequência acumulada associada ao intervalo de 65 75 é obtida somando a frequência desse intervalo com as frequências anteriores 8 17 21 9 9 4 1 69 e a frequência relativa acumulada é obtida fazendo 69 100 9857 70 Tabelas de contingência ou dupla entrada Nos exemplos anteriores vimos como organizar e resumir as informações de uma única variável do conjunto de dados em estudo Frequentemente temos interesse em analisar o comportamento conjunto de duas variáveis permitindo que se possa identificar padrões entre elas Para isso organizamos os dados em uma tabela de contingência ou dupla entrada que apresenta por meio de uma tabulação cruzada linhas e colunas as respostas combinadas de duas variáveis Cada resposta combinada aparece em uma célula da tabela Quando consideramos duas variáveis podemos ter as seguintes situações As duas variáveis são qualitativas As duas variáveis são quantitativas Uma variável é qualitativa e outra é quantitativa E também além de construirmos a tabela de contingência com as frequências absolutas podemos elaborar a tabela com as frequências relativas Nesse caso podemos calcular as frequências relativas de cada célula Em relação ao total geral 28 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Em relação ao total de cada linha Em relação ao total de cada coluna Para elucidar a estrutura de uma tabela de contingência vamos utilizar os dados do Exemplo 21 Exemplo 24 Com os dados do Exemplo 21 vamos construir uma tabela de contingência para as variáveis gênero e área para especialização Resolução As variáveis em estudo são gênero com duas categorias de respostas e área para especialização com quatro categorias de respostas Em cada célula do corpo da tabela deverá aparecer a frequência observada das respostas simultâneas das duas variáveis ou seja Feminino e Gestão de Negócios Feminino e Gestão Financeira Feminino e Gestão de Projetos Feminino e Gestão de Marketing Masculino e Gestão de Negócios Masculino e Gestão Financeira Masculino e Gestão de Projetos Masculino e Gestão de Marketing Por exemplo temos 2 frequências para Feminino e Gestão de Negócios estudantes 11 e 16 As frequências das outras células são obtidas de maneira similar Tabela 5 Tabela de contingência da área para especialização e gênero dos estudantes Gênero Área para especialização Gestão de Negócios Gestão de Projetos Gestão de Marketing Gestão Financeira Total Feminino 2 4 4 4 14 Masculino 5 3 2 1 11 Total 7 7 6 5 25 Fonte Próprio autor A linha dos totais fornece a distribuição da variável Área para especialização e a coluna dos totais fornece a distribuição da variável Gênero Essas distribuições são as distribuições marginais das variáveis e a Tabela 5 constitui a distribuição conjunta das variáveis Área para especialização e Gênero As Tabelas 6 e 7 apresentam respectivamente as tabelas de contingências expressas em frequências relativas com relação ao total geral e ao total de cada linha 29 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Tabela 6 Tabela de contingência das frequências relativas em relação ao total geral das variáveis área para especialização e gênero dos estudantes Gênero Área para especialização Gestão de Negócios Gestão de Projetos Gestão de Marketing Gestão Financeira Total Feminino 800 1600 1600 1600 5600 Masculino 2000 1200 800 400 4400 Total 2800 2800 2400 2000 10000 Fonte Próprio autor Tabela 7 Tabela de contingência das frequências relativas em relação aos totais de cada linha das variáveis área para especialização e gênero dos estudantes Gênero Área para especialização Gestão de Negócios Gestão de Projetos Gestão de Marketing Gestão Financeira Total Feminino 1429 2857 2857 2857 10000 Masculino 4545 2727 1818 909 10000 Total 2800 2800 2400 2000 10000 Fonte Próprio autor De maneira similar podemos construir a tabela de contingência das frequências relativas em relação aos totais de cada coluna Tente construir essa tabela Como visto anteriormente a tabela de contingência é muito utilizada para analisar o comportamento de duas variáveis conjuntamente com o objetivo de identificar possíveis relações ou associações entre elas Você encontrará uma leitura interessante sobre medidas de associação entre duas variáveis qualitativas duas variáveis quantitativas e uma qualitativa e a outra quantitativa em BUSSAB W O MORETTIN P A Estatística básica 5 ed São Paulo Saraiva 2002 A organização de um conjunto de dados brutos em distribuições de frequências facilita a apresentação análise e conclusão dos dados coletados A estrutura de uma distribuição de frequências é a mesma para variáveis qualitativas ou quantitativas No caso das variáveis quantitativas contínuas ou discretas com um número muito grande de observações é conveniente agrupar os dados em intervalos de classes para melhor organização e apresentação destes A seguir estudaremos como visualizar os dados através de representações gráficas 30 CAPÍTULO 3 Construção e análise de gráficos O uso de gráficos estatísticos pelos meios de comunicação é cada vez mais frequente Uma das justificativas é que tais gráficos apresentam as informações contidas em distribuições de frequências por meio de ilustrações facilitando a compreensão O uso de programas computacionais que apresentam uma quantidade muito grande de tipos de gráficos faz com que a construção deles se torne cada vez mais simples Quando utilizamos gráficos para analisar e tirar conclusões sobre um conjunto de dados devemos ser extremamente cuidadosos em como construílos Um gráfico desproporcional em suas medidas pode conduzir a conclusões completamente equivocadas Analisando os gráficos a seguir em qual das séries históricas você acha que há maior instabilidade e incerteza A primeira ou a segunda Figura 4 Gráfico em linha incerteza ou estabilidade INCERTEZA Renda kF 200 202 204 206 208 210 1985 1986 1987 1988 1989 1990 1991 OU ESTABILIDADE Renda kF 0 50 100 150 200 250 1985 1986 1987 1988 1989 1990 1991 Fonte Besson JL 1995 p 205 adaptado pelo autor 31 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I A resposta para essa pergunta é nenhuma das duas Os gráficos representam os mesmos valores Mas então por que as formas das linhas são tão diferentes dando a impressão de que a primeira figura pareça mais instável e a segunda mais constante Isso ocorre pois na primeira figura a escala começa em 200 com um intervalo de 2 unidades Na segunda figura a escala começa em 0 que é a forma correta de começar qualquer escala e tem um intervalo de 50 unidades Essas diferenças nas escalas nos levam a acreditar equivocadamente que a série de observações apresentada no primeiro gráfico apresenta maior instabilidade que a série de observações apresentada no segundo gráfico lembrando que as séries de observações são iguais Existem vários gráficos que podem ser utilizados para visualizar os dados então focaremos nos mais utilizados para variáveis qualitativas e quantitativas Apresentação de dados qualitativos Gráfico de barras O gráfico de barras é muito utilizado para variáveis qualitativas categóricas em que cada barra representa a identificação de cada uma das categorias da variável em estudo O comprimento de cada uma das barras representa a frequência absoluta ou a frequência relativa de cada categoria As barras podem estar na posição vertical ou horizontal As barras na posição horizontal facilitam a leitura nos casos em que as categorias têm nomes extensos Exemplo 31 Vamos construir um gráfico de barras para representar os dados apresentados na Tabela 2 capítulo 2 Figura 5 Gráfico de barras na horizontal para a distribuição dos estudantes segundo área para especialização 000 500 1000 1500 2000 2500 3000 Gestão de Marketing Gestão de Negócios Gestão de Projetos Gestão Financeira Frequência Relativa Área Fonte Próprio autor 32 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS A Figura 6 apresenta as barras na posição vertical e elas são construídas com base na frequência absoluta Há a opção de colocarmos as frequências acima das barras Figura 6 Gráfico de barras na vertical para a distribuição dos estudantes segundo área para especialização 6 7 7 5 0 2 4 6 8 Gestão de Marketing Gestão de Negócios Gestão de Projetos Gestão Financeira Número de estudantes Área Fonte Próprio autor Gráfico de barras paralelas O gráfico de barras paralelas utiliza um conjunto de barras para ilustrar as respostas combinadas de duas variáveis qualitativas Portanto é muito utilizado para representar dados de variáveis qualitativas organizadas em tabelas de contingência Exemplo 32 Construa um gráfico de barras paralelas para os dados da Tabela 5 capítulo 2 Figura 7 Gráfico de barras paralelas para área de especialização segundo gênero 0 1 2 3 4 5 6 Gestão de Negócios Gestão de Projetos Gestão de Marketing Gestão Financeira Número de estudantes Área Masculino Feminino Fonte Próprio autor 33 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Gráfico de setores O gráfico de setores também conhecido como gráfico de pizza é utilizado para mostrar como um todo se divide em partes os setores Cada setor representa uma categoria da variável qualitativa em estudo O gráfico de setores é apropriado quando o número de categorias for pequeno Exemplo 33 A distribuição de frequências a seguir apresenta o número de reclamações fundamentadas por área na Fundação ProconSP Exercício 2017 Tabela 8 Reclamações no ProconSP por área em 2017 Área Frequência Frequência Relativa Alimentos 138 050 Assuntos Financeiros 4485 1627 Habitação 637 231 Produtos 8887 3225 Saúde 1148 417 Serviços Essenciais 6960 2526 Serviços Privados 5303 1924 Total 27558 10000 Fonte Disponível em httpwwwproconspgovbrpdfrankingfundacaoproconsp2017pdf Acesso em 3 maio 2018 Vamos construir o gráfico de setores para visualizar os dados apresentados na Tabela 8 Figura 8 Gráfico de setores para a reclamações fundamentadas no ProconSP por área em 2017 050 1627 231 3225 417 2526 1924 Alimentos Assuntos Financeiros Habitação Produtos Saúde Serviços Essenciais Serviços Privados Fonte Próprio autor 34 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Diagrama de Pareto O diagrama de Pareto é um gráfico em que as barras estão em ordem decrescente de acordo com suas respectivas frequências Há também uma linha de percentagens acumuladas no mesmo gráfico Esse gráfico está baseado no princípio de Pareto ou regra dos 8020 que significa que em muitos conjuntos de dados 80 dos problemas são ocasionados por 20 das causas ou seja poucas causas originam a maioria dos problemas Ele é utilizado como uma das sete ferramentas da qualidade na resolução de problemas e melhoria de um processo A linha de percentagem acumulada está desenhada no ponto médio de cada uma das categorias e a altura é igual à percentagem acumulada Exemplo 34 Enade 2014 TGPI O Diagrama de Pareto é uma ferramenta utilizada para priorizar as ações para melhoria da Qualidade A regra 8020 indica que cerca de 80 da quantidade de causas contribuem em cerca de 20 dos efeitos observados e que cerca de 20 da quantidade de causas contribuem em cerca de 80 dos efeitos observados Por isso o diagrama de Pareto é também conhecido como Técnica 8020 Considere que uma empresa fez o levantamento dos defeitos ocorridos em sua linha de produção Foram identificados 1000 defeitos conforme representado no gráfico a seguir Figura 9 Gráfico em barras na vertical para as causas de defeitos 250 9 200 10 7 25 60 9 6 6 350 50 5 6 7 0 50 100 150 200 250 300 350 400 Conector solto Defletor empenado Falta de acabamento Falta de isolamento Fiação cortada Fiação solta Fonte queimada Gabinete oxidado Manchas na pintura Parafusos trocados Placa solta Rolamento invertido Rolamento travado Solenoide inoperante Vedação mal encaixada Quantidade de defeitos Fonte Disponível emhttpdownloadinepgovbreducacaosuperiorenadeprovas201442tecnologiagestaoproducao industrialpdf Acesso em 7 jul 2018 Adaptado pelo autor Utilizando o método de Pareto identifique e justifique com os devidos cálculos os defeitos que deveriam ser prioritariamente analisados para melhoria da Qualidade 35 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Resolução Através do gráfico observamos que há 15 tipos diferentes de defeitos totalizando 1000 defeitos Desses 15 tipos 3 deles 20 totalizam 800 defeitos 80 Esses percentuais são obtidos da seguinte maneira 3 100 20 15 e 350 250 200 100 80 1000 Portanto os defeitos que deveriam ser prioritariamente analisados para melhoria da qualidade são placa solta conector solto e falta de acabamento O diagrama de Pareto para esse conjunto de dados está apresentado na Figura 10 Figura 10 Diagrama de Pareto para os tipos de defeitos ocorridos na linha de produção de uma empresa Fonte Próprio autor A percentagem acumulada da primeira categoria foi obtida pelo seguinte cálculo 350 100 35 1000 A segunda percentagem acumulada é 350 250 100 60 1000 e assim por diante 36 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Apresentação de dados quantitativos Gráfico de barras Assim como para as variáveis qualitativas o gráfico de barras na vertical também é utilizado para variáveis quantitativas discretas que não foram agrupadas em intervalos de classes Exemplo 35 Com o objetivo de se fazer um estudo sobre mobilidade urbana em uma metrópole foi realizada uma pesquisa em 4000 residências e a variável de interesse era a quantidade de automóveis em cada uma delas Os resultados são apresentados a seguir Tabela 9 Distribuição do número de automóveis por residência Número de automóveis Frequência Frequência Relativa 0 820 2050 1 1250 3125 2 1680 4200 3 200 500 4 50 125 Total 4000 10000 Fonte Próprio autor Vamos visualizar essas informações por meio de um gráfico de barras Figura 11 Gráfico de barras para a variável número de automóveis por residência 0 5 10 15 20 25 30 35 40 45 0 1 2 3 4 Frequência Relativa Número de automóveis Fonte Próprio autor 37 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Histograma O histograma também é um gráfico de barras verticais em que cada barra representa um intervalo de classe Portanto o histograma é utilizado para representar distribuições de frequências cujos dados foram agrupados em intervalos de classes No eixo x representamos os intervalos de classes e no eixo y representamos o comprimento de cada barra através da frequência absoluta ou da frequência relativa Em um histograma não há lacunas entre as barras adjacentes Exemplo 36 Vamos construir um histograma para os dados da Tabela 4 capítulo 2 Figura 12 Histograma para a variável tempo de parada minutos de um equipamento 0 5 10 15 20 25 515 1525 2535 3545 4555 5565 6575 7585 Frequência Tempo de parada minutos Fonte Próprio autor Apresentação de duas variáveis quantitativas Gráfico de dispersão Nos estudos frequentemente há o interesse em se investigar possíveis relacionamentos entre duas variáveis quantitativas X e Y A investigação visual de um possível relacionamento entre essas variáveis é feita através da análise de um gráfico denominado diagrama de dispersão Nele os pares ordenados x y são representados no plano cartesiano através de um ponto A disposição dos vários pares ordenados do conjunto de dados permite visualizar possíveis relacionamentos entre as variáveis Exemplo 37 Certa empresa está estudando a variação da demanda de um de seus produtos em relação à variação de preço de venda Os dados estão a seguir 38 UNIDADE I CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS Tabela 10 Preços e demandas de um produto Preço x 42 45 54 55 61 62 70 85 95 108 Demanda y 360 354 324 320 300 280 258 227 212 200 Fonte Próprio autor O diagrama de dispersão para esse conjunto de dados é apresentado na Figura 13 Figura 13 Diagrama de dispersão para os dados preço de venda e demanda de um produto 0 50 100 150 200 250 300 350 400 0 20 40 60 80 100 120 Demanda Preço Fonte Próprio autor Pela análise gráfica observamos uma relação linear decrescente negativa ou seja à medida que o preço de venda aumenta ocorre diminuição da demanda Gráfico de séries temporais O gráfico de séries temporais é muito utilizado para identificar padrões como tendências e sazonalidade em dados observados em intervalos de tempo regularmente espaçados Exemplo 38 O gráfico a seguir apresenta a taxa de desemprego mensal nas regiões metropolitanas de Recife Salvador Belo Horizonte Rio de Janeiro São Paulo e Porto Alegre no ano de 2015 39 CONCEITOS BÁSICOS DA ESTATÍSTICA ORGANIZAÇÃO E VISUALIZAÇÃO DOS DADOS UNIDADE I Figura 14 Gráfico de séries temporais para a taxa de desemprego mensal em seis regiões metropolitanas no ano de 2015 53 58 61 64 67 69 75 75 75 78 75 69 0 2 4 6 8 10 Taxa de desemprego mensal Meses Fonte Disponível em httpscenso2010ibgegovbrnoticiascensohtmlbusca1id1idnoticia3106tjaneirotaxa desocupacaovai76viewnoticiahttpdownloadinepgovbreducacaosuperiorenadeprovas201442tecnologiagestao producaoindustrialpdf Acesso em 8 jul 2018 Adaptado pelo autor Cuidados na elaboração de gráficos Quando optamos por visualizar e interpretar um conjunto de dados por meio de gráficos devemos tomar alguns cuidados na elaboração destes para não obter conclusões distorcidas Devemos Evitar construir gráficos com uso excessivo de figuras que podem ocultar a informação que se deseja transmitir Incluir título abaixo da ilustração Colocar título nos eixos Legendas explicativas devem aparecer de preferência à direita da figura Começar a escala para o eixo vertical em zero Utilizar uma escala constante Discutimos ao longo deste capítulo como podemos apresentar dados qualitativos e quantitativos através de gráficos Quando optamos pela representação gráfica devemos ter muito cuidado em sua criação pois por exemplo gráficos com problemas nas escalas vertical e horizontal podem gerar conclusões equivocadas Nos capítulos da Unidade II aprenderemos a descrever um conjunto de dados quantitativos em termos de sua tendência central e sua variabilidade 40 UNIDADE II MEDIDAS DESCRITIVAS Na Unidade I aprendemos como organizar e resumir um conjunto de dados por meio de distribuições de frequências e gráficos O uso de tabelas e gráficos apropriados para variáveis qualitativas e quantitativas nos auxilia na obtenção de conclusões preliminares sobre o conjunto de dados em estudo Além disso permitenos levantar questionamentos que podem ser respondidos por meio de outras análises estatísticas Quando estamos trabalhando com variáveis quantitativas temos uma gama maior de ferramentas que podem ser utilizadas para a análise descritiva dos dados Por exemplo podemos calcular medidas que resumem todo o conjunto de dados em termos de seu valor típico ou central e de sua variação São essas medidas que estudaremos nos próximos capítulos Com o estudo dos conteúdos abordados nesta unidade esperamos que você consiga 1 Calcular e interpretar as medidas de posição central 2 Calcular e interpretar as medidas de dispersão 41 CAPÍTULO 1 Medidas de posição central Para melhor compreensão da importância das medidas de posição central vamos analisar as seguintes informações 1 A idade média de estudantes na modalidade EAD é de 33 anos 2 A taxa média de juros para financiamento de veículos é 215 ao mês 3 A renda média do trabalhador brasileiro no último trimestre de 2017 foi de R 215400 Diferentemente das distribuições de frequências e dos gráficos essas informações sintetizam em um único valor os dados que foram coletados para cada uma das variáveis em estudo idade taxa de juros e renda do trabalhador Com esses valores temos uma ideia do valor central em torno do qual os dados se distribuem Veremos a seguir como calculamos a média e outras medidas de posição central que são utilizadas para representar a posição ou localização central de um conjunto de dados Média aritmética A média aritmética ou simplesmente média é a medida de tendência central mais frequentemente utilizada Se a média é uma medida que aparece frequentemente em notícias divulgadas pelos meios de comunicação provavelmente você já precisou encontrála ou compreender seu significado em algum contexto Como fazemos para calcular essa medida descritiva Para calcular a média precisamos somar os valores que aparecem no conjunto de dados e dividir pelo total de valores contidos nesse conjunto A fórmula matemática para essa definição é 1 n i xi x n em que x média lemos como x barra 42 UNIDADE II MEDIDAS DESCRITIVAS 1 n i i x somatório de n observações 1 2 3 n x x x x 1x representa o primeiro valor observado 2x representa o segundo valor observado e assim por diante nx representa o n ésimo valor observado n número de observações no conjunto de dados ou seja tamanho da amostra A fórmula para calcular a média de uma população é a mesma mas a notação é diferente Para indicar que estamos trabalhando com a população inteira utilizamos N e a letra grega µ mi para indicar a média ou seja 1 i i i x N µ Exemplo 41 De acordo com órgãos de defesa do consumidor questionamentos relacionados a planos de saúde estão frequentemente nas primeiras posições A maioria dos questionamentos são referentes a reajustes abusivos negativas de cobertura e ausência de informações adequadas sobre os planos Uma operadora de plano de saúde preocupada com os indicadores da qualidade dos serviços prestados fez um levantamento amostral para compreender o tempo em dias necessário entre o recebimento de uma reclamação referente à negativa de cobertura e a solução do problema relacionado a essa reclamação Os dados são apresentados a seguir 3 4 4 1 5 2 3 3 2 1 5 3 2 4 4 3 5 2 1 5 2 3 3 4 4 5 3 2 1 2 Vamos encontrar o tempo médio para a solução do problema relacionado à reclamação Resolução Para encontrarmos a média precisamos somar todos os tempos e dividir pela quantidade de valores no conjunto de dados tamanho da amostra Usando a fórmula 1 1 2 3 30 3 4 4 1 2 91 303 30 30 30 n i xi x x x x x dias n Portanto o tempo médio para a solução do problema é de aproximadamente três dias Para dados organizados em uma distribuição de frequências podemos utilizar a seguinte fórmula 1 k i i i x f x n 43 MEDIDAS DESCRITIVAS UNIDADE II Para facilitar os cálculos acrescentamos a seguinte coluna na distribuição de frequências Título Estrutura da distribuição de frequências para o cálculo da média por meio dos dados tabelados Nome da variável ix Frequência if Frequência Relativa i i x f 1x 1f 1 1 x f 2x 2f 2 2 x f kx kf k k x f Total número total de observações no conjunto de dados 10000 1 k i i i x f A coluna i i x f serve como uma coluna auxiliar no cálculo da média ou seja só tem sentido acrescentála na distribuição de frequências se for necessário calcular a média Exemplo 42 A Tabela 11 apresenta os dados referentes ao tempo em dias para a solução do problema descrito no Exemplo 41 Tabela 11 Distribuição dos tempos em dias necessários para a solução do problema Tempo em dias Frequência Frequência Relativa 1 4 1333 2 7 2333 3 8 2667 4 6 2000 5 5 1667 Total 30 10000 Fonte Próprio autor Vamos encontrar o tempo médio para a solução do problema por meio da distribuição de frequências Resolução Como os dados já estão organizados em uma distribuição de frequências basta acrescentarmos a coluna auxiliar 44 UNIDADE II MEDIDAS DESCRITIVAS Tabela 12 Cálculo da coluna auxiliar para encontrar a média Tempo em dias ix Frequência if Frequência Relativa i i x f 1 4 1333 4 2 7 2333 14 3 8 2667 24 4 6 2000 24 5 5 1667 25 Total 30 10000 91 Fonte Próprio autor Então 1 91 303 dias 30 k i i i x f x n A seguir estudaremos algumas propriedades importantes da média aritmética Propriedades da média A soma dos desvios é zero ou seja 1 0 i n i i d x x Em palavras os desvios são encontrados fazendo a diferença entre cada valor do conjunto de dados e a média aritmética do conjunto A soma dos desvios encontrados é zero para qualquer conjunto de dados 1 Somandose ou subtraindose uma constante de todos os valores de um conjunto de dados a média do conjunto fica acrescida ou diminuída dessa constante 2 Multiplicandose ou dividindose todos os valores de um conjunto de dados por uma constante a média do conjunto fica multiplicada ou dividida por essa constante Outro tipo de média bastante conhecida é a média ponderada Ela é muito utilizada por exemplo no cálculo da média final de um estudante em uma disciplina ou na nota final do candidato em um concurso Na média ponderada são atribuídos aos valores importâncias diferentes Por exemplo um estudante pode fazer cinco provas durante o semestre e para cada prova é atribuído 45 MEDIDAS DESCRITIVAS UNIDADE II um peso O cálculo da média ponderada é feito por meio do somatório das multiplicações entre valores e pesos divididos pelo somatório dos pesos ou seja i i p i x p x p em que ip são os pesos atribuídos Moda A moda é o valor ou categoria que aparece com maior frequência em um conjunto de dados Portanto pela definição podemos encontrar a moda para variáveis quantitativas valor e qualitativas categoria Há conjuntos de dados que não apresentam respostas repetidas Nesses casos dizemos que a distribuição é amodal não apresenta moda Em outros casos podem aparecer duas ou mais respostas de maior frequência no conjunto de dados Nesses casos dizemos que a distribuição é bimodal e multimodal respectivamente No conjunto de dados apresentados no Exemplo 41 temos que a resposta que aparece com maior frequência frequência 8 é 3 Portanto 3 Mo dias Nesse caso a distribuição é modal Mediana A mediana corresponde ao valor que divide o conjunto de dados ordenados ao meio deixando a mesma quantidade de valores abaixo dela e acima Portanto metade dos valores é menor ou igual à mediana e a outra metade é maior ou igual ao valor da mediana Vamos utilizar uma das seguintes regras para calcular a mediana 1 Se o número de elementos do conjunto de dados for ímpar a mediana será exatamente o valor do meio ou seja 1 2 n Md x 2 Se o número de elementos do conjunto de dados for par a mediana será exatamente a média dos dois valores do meio isto é 1 2 2 2 n n x x Md 46 UNIDADE II MEDIDAS DESCRITIVAS em que 2 nx 2 1 nx 1 2 e nx indicam as observações que ocupam as posições do meio do conjunto de dados Não se esqueça para encontrar a mediana os dados devem estar ordenados Exemplo 43 Vamos encontrar a mediana para os dados do Exemplo 41 Resolução Primeiramente devemos ordenar o conjunto de dados 1 1 1 1 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 Como n 30 observações 1 2 2 2 n n x x Md 30 30 1 15 16 2 2 2 2 x x x x Md ou seja a mediana está entre a décima quinta e décima sexta posições dos dados ordenados 3 3 3 2 Md dias Portanto pelo menos 50 dos tempos necessários para solucionar o problema são maiores ou iguais a três dias Quando o conjunto de dados brutos for pequeno é fácil ordenar e encontrar o valor do meio dos dados ordenados E quando o conjunto de dados for grande e estiver apresentado através de uma distribuição de frequências Como encontramos a mediana Para dados apresentados em uma distribuição de frequências usaremos a informação da frequência acumulada para nos auxiliar a encontrar a mediana Exemplo 44 Vamos encontrar a mediana para os dados do Exemplo 41 a partir dos dados organizados em uma distribuição de frequências 47 MEDIDAS DESCRITIVAS UNIDADE II Resolução Na distribuição de frequências vamos incluir a frequência acumulada Tabela 13 Distribuição dos tempos em dias necessários para a solução do problema Tempo em dias ix Frequência if Frequência Relativa Frequência Acumulada 1 4 1333 4 2 7 2333 11 3 8 2667 19 4 6 2000 25 5 5 1667 30 Total 30 10000 Fonte Próprio autor Sabemos que a mediana está entre a décima quinta e a décima sexta posições dos dados ordenados Como identificamos essas posições com a informação da frequência acumulada Qual o significado da frequência acumulada ser 19 na terceira linha da tabela A coluna da frequência acumulada nos informa que Na primeira linha da tabela estão as observações 1 4 x x Na segunda linha da tabela estão as observações 5 11 x x Na terceira linha da tabela estão as observações 12 19 x x Na quarta linha da tabela estão as observações 20 25 x x Na quinta linha da tabela estão as observações 26 30 x x Logo é a terceira linha que contém o 15 x e o 16 x cuja resposta para a variável é 3 Portanto 3 3 3 2 Md dias Como já dissemos anteriormente a média é a medida de posição central mais conhecida e frequentemente utilizada Mas em algumas situações a mediana se torna mais representativa para resumir o conjunto de dados 48 UNIDADE II MEDIDAS DESCRITIVAS Exemplo 45 Um gerente de sistemas encarregado pela rede de comunicações da empresa em que trabalha acompanha o número de falhas diárias que ocorrem no servidor da rede Os dados a seguir representam o número de falhas diárias do servidor num período de duas semanas 2 3 1 0 3 36 3 8 0 1 2 3 3 5 Determine a média e a mediana para esse conjunto de dados Resolução Para encontrar a média somamos todos os valores e dividimos por 14 ou seja 2 3 1 3 5 70 5 14 14 x falhas Ou seja concluímos que o número médio de falhas diárias é 5 Analisando o conjunto de dados observamos que o valor encontrado para a média está acima dos valores de 11 observações 7857 do conjunto Portanto ela não descreve bem a tendência central dos dados Por que isso ocorreu Temos uma observação discrepante ou seja muito maior que as outras que é 36 Essa observação puxa a média para cima fazendo com que tenhamos uma interpretação enganosa sobre o centro em torno do qual os dados se distribuem A média aritmética é muito sensível a valores extremos então dizemos que a média não é uma medida de tendência central resistente Para o cálculo da mediana temos n 14 observações Então 14 14 1 2 2 2 x x Md 7 8 2 x x Md ou seja a mediana é a média entre os valores que ocupam a sétima e oitava posições do conjunto de dados ordenados 3 3 3 2 Md falhas Esse resultado nos mostra que a tendência central do número de falhas diárias no servidor é melhor descrita pela mediana e não pela média das falhas 49 MEDIDAS DESCRITIVAS UNIDADE II Exemplo 46 FCC 2010 Adaptado Em uma cidade é realizado um levantamento referente aos valores recolhidos de determinado tributo estadual no período de um mês Analisando os documentos de arrecadação detectouse 6 níveis de valores com suas respectivas quantidades de recolhimento conforme quadro abaixo Quadro 3 Valores de tributos arrecadados Valores R Quantidade de recolhimento 500 30 1000 50 1500 60 2000 30 2500 20 3000 10 Fonte Próprio autor Com relação às medidas de posição deste levantamento temse que o valor da a média aritmética é igual à metade da soma da mediana e a moda b média aritmética é igual ao valor da mediana c média aritmética supera o valor da moda em R 12500 d moda supera o valor da mediana em R 50000 e mediana supera o valor da média aritmética em R 2500 Resolução Para identificarmos a alternativa correta vamos encontrar os valores da média moda e mediana Média 1 500 30 1000 50 1500 60 2000 30 2500 20 3000 10 295000 147500 30 50 60 30 20 10 200 k i i i x f x reais n Moda 1500 reais pois é a resposta que aparece com a maior frequência Mediana Para o cálculo da mediana temos n 200 observações 50 UNIDADE II MEDIDAS DESCRITIVAS Então 200 200 1 2 2 2 x x Md 100 101 2 x x Md ou seja a mediana é a média entre os valores que ocupam a centésima e centésima primeira posições do conjunto de dados ordenados Pela frequência acumulada concluímos que a mediana se encontra na terceira linha do quadro pois Na primeira linha do quadro estão as observações 1 30 x x Na segunda linha do quadro estão as observações 31 80 x x Na terceira linha do quadro estão as observações 81 140 x x Então 1500 1500 150000 2 Md reais Comparando os valores encontrados para a média moda e mediana temos que a alternativa correta é a letra e Cálculos das medidas de posição central para dados agrupados em intervalos de classes Estudamos até agora como encontrar as medidas de posição central por meio do conjunto de dados brutos ou através dos dados organizados em distribuições de frequências sem o agrupamento deles em intervalos de classes Mas sabemos que em algumas situações é conveniente usar classes para organizar e resumir os dados Nessas situações como devemos proceder Quando agrupamos as observações em classes perdemos a informação dos valores que estão dentro de cada uma delas Nesse caso supomos que todos os valores dentro de uma classe tenham seus valores iguais ao ponto médio dessa classe Se em uma distribuição de frequência aparece o intervalo de 2030 com frequência 8 Quais são os 8 valores que estão dentro desse intervalo Caso não tenhamos os dados brutos coletados sem o tratamento das informações não 51 MEDIDAS DESCRITIVAS UNIDADE II podemos responder a essa pergunta de maneira precisa Só podemos afirmar que são valores maiores ou iguais a 20 e menores que 30 Então assumimos que as 8 observações são iguais a 25 que é o ponto médio deste intervalo Vamos aprender a calcular as medidas de tendência central para dados agrupados através do exemplo a seguir Exemplo 47 Uma pesquisa foi realizada com o intuito de se conhecer o perfil do consumidor online no Brasil Os dados referentes às idades dos consumidores estão apresentados na Tabela 14 Tabela 14 Distribuição das idades dos consumidores online Idade anos Frequência Frequência Relativa 15 25 360 800 25 35 1035 2300 35 45 1575 3500 45 55 900 2000 55 65 450 1000 65 75 180 400 Total 4500 10000 Fonte Próprio autor Resolução Para o cálculo da média e da mediana vamos acrescentar três colunas na distribuição de frequências ix ponto médio da classe i i x f e a frequência acumulada Tabela 15 Cálculos das colunas auxiliares para encontrar a média e a mediana Idade anos Frequência Frequência Relativa ix i i x f Frequência acumulada 15 25 360 800 20 7200 360 25 35 1035 2300 30 31050 1395 35 45 1575 3500 40 63000 2970 45 55 900 2000 50 45000 3870 55 65 450 1000 60 27000 4320 65 75 180 400 70 12600 4500 Total 4500 10000 185850 Fonte Próprio autor 52 UNIDADE II MEDIDAS DESCRITIVAS Para encontrar ix ponto médio basta fazer 2 i s m L L P Então para o primeiro intervalo 15 25 40 20 2 2 m P Para os demais intervalos procedemos da mesma maneira Média Substituindo os valores encontrados na fórmula temos 1 185850 413 4500 k i i i x f x anos n Moda Existem algumas fórmulas para encontrar a moda em uma distribuição de frequências com intervalos de classes porém a mais simples é definir a moda como o ponto médio da classe modal Portanto neste exemplo a classe modal é 35 45 pois apresenta a maior frequência 1575 e vamos considerar a moda o ponto médio desta classe ou seja 40 Mo anos Mediana Utilizaremos a seguinte fórmula para o cálculo da mediana para dados agrupados em intervalos de classes 2 md ant md inf a md h n Md l F f em que linfmd limite inferior do intervalo que contém a mediana hmd amplitude do intervalo de classe que contém a mediana fmd número de observações do intervalo que contém a mediana n número total de observações da distribuição de frequências Faant frequência acumulada do intervalo anterior àquele que contém a mediana A primeira informação que precisamos identificar é o intervalo que contém a mediana Como n 4500 observações sabemos que a mediana está entre as observações x2250 53 MEDIDAS DESCRITIVAS UNIDADE II e x2251 Através da coluna da frequência acumulada identificamos que essas duas observações estão no intervalo de 35 45 cuja frequência acumulada é 2970 Portanto linfmd 35 hmd 45 35 10 fmd 1575 n 4500 Faant 1395 Para facilitar a compreensão das informações obtidas vamos analisar o quadro a seguir Quadro 4 Identificação dos valores que serão utilizados no cálculo da mediana n Intervalo que contém a mediana Frequência acumulada do intervalo anterior àquele que contém a mediana Idade anos Frequência Frequência Acumulada 15 25 360 360 25 35 1035 1395 35 45 1575 2970 45 55 900 3870 55 450 4320 65 180 4500 Total 4500 Fonte Próprio autor Substituindo os valores encontrados na fórmula temos 2 md ant md inf a md h n Md l F f 10 4500 35 1395 1575 2 Md 35 543 4043 anos Md Então no mínimo 50 das observações são maiores ou iguais a 4043 anos Os valores obtidos para as medidas de posição central quando os dados estão agrupados em intervalos de classes são apenas aproximações dos verdadeiros valores pois substituímos os valores das observações pelo ponto médio do intervalo de classe 54 UNIDADE II MEDIDAS DESCRITIVAS Aprendemos neste capítulo a calcular e interpretar as medidas de posição central média aritmética moda e mediana Dessas a moda é a medida que pode também ser encontrada para variáveis qualitativas A média é uma medida sensível a valores discrepantes presentes em um conjunto de dados tornando nesses casos a mediana mais representativa para descrever a tendência central dos dados As medidas de posição central apresentadas não bastam para descrever um conjunto de dados pois elas não informam sobre a variabilidade do conjunto em estudo Por exemplo dois conjuntos de dados podem apresentar a mesma média mas dispersões completamente diferentes As medidas de dispersão que estudaremos no próximo capítulo fornecerão informações sobre a variação dispersão do conjunto de dados 55 CAPÍTULO 2 Medidas de dispersão Para compreender o conceito de variabilidade vamos analisar a situação a seguir Exemplo 51 Uma empresa tem interesse em estudar duas linhas de produção quanto à variabilidade na produção de um mesmo tipo de peça Para isso amostras de peças produzidas por essas duas linhas foram selecionadas e seus comprimentos cm foram obtidos Linha 1 75 72 76 74 73 74 76 75 73 72 Linha 2 74 80 77 70 70 71 73 76 74 75 Calculando o comprimento médio das peças produzidas pelas duas linhas obtemos 1 1 75 72 72 74 10 n i i linha x x cm n e 1 2 74 80 75 74 10 n i i linha x x cm n Embora as médias sejam iguais analisando cuidadosamente os valores das duas amostras observamos maior variabilidade na produção das peças da linha 2 ou seja os comprimentos das peças apresentam maior variação com relação ao comprimento médio obtido Apresentaremos a seguir as medidas de dispersão mais utilizadas para mediar a variabilidade de um conjunto de dados Mínimo máximo e amplitude O mínimo e o máximo de um conjunto de dados são respectivamente o menor e o maior valor do conjunto E a amplitude é a diferença entre o valor máximo e o valor mínimo ou seja máximo mínimo Amplitude x x A amplitude é uma medida de dispersão fácil de calcular e de interpretar mas não mede bem a variabilidade de um conjunto de dados pois ela só leva em conta dois valores 56 UNIDADE II MEDIDAS DESCRITIVAS no seu cálculo máximo e o mínimo Com isso pode acontecer de dois conjuntos de dados com variabilidades muito diferentes terem a mesma amplitude E também a amplitude é muito sensível a valores extremos discrepantes fazendo com que o seu valor aumente muito Estudaremos a seguir medidas que levam em conta todas as observações do conjunto de dados e que têm como princípio básico medir a dispersão das observações em torno da média dessas observações Desvio médio variância e desviopadrão amostrais Para estudarmos a dispersão dos dados em torno da média precisamos compreender o conceito de desvio em relação à média Desvio em relação à média nada mais é do que a distância entre qualquer observação do conjunto de dados em relação à média aritmética desse mesmo conjunto desvio observação média desvio x x De acordo com a definição acima podemos concluir que se os desvios encontrados forem pequenos as observações estão concentradas em torno da média portanto a variabilidade dispersão é pequena Agora desvios grandes mostram maior dispersão dos dados em torno da média portanto maior variabilidade Para analisar o grau de dispersão de todo o conjunto precisamos observar todos os desvios Mas já vimos na propriedade 1 da média que para qualquer conjunto de dados a soma dos desvios é igual a zero Então 1 n i i x x não serve como medida de dispersão pois todos os conjuntos teriam variabilidade nula Isso ocorre porque os desvios com sinais positivos e negativos se compensam Para contornar o resultado desta propriedade podemos considerar o total dos desvios em valor absoluto ou seja 1 n i i x x Mas somente o uso desse total pode causar dificuldades de interpretação quando estivermos comparando conjunto de dados com números diferentes de observações Então o conveniente é definir a medida como média obtendo o desvio médio 1 n i i x x dm n O desvio médio é uma média dos valores absolutos dos desvios em relação à média Essa medida utiliza o módulo que por suas características matemáticas torna difícil o estudo de suas propriedades 57 MEDIDAS DESCRITIVAS UNIDADE II Outra maneira de eliminar os sinais é elevar os desvios ao quadrado A variância amostral é uma medida de dispersão que pode ser interpretada como uma média dos quadrados dos desvios ou seja 2 2 1 1 1 n i i x x s n n O denominador 1 n são os graus de liberdade associados à variância e sua utilização se dá por motivos relacionados à inferência estatística Vale observar que a diferença entre dividir por n ou por 1 n tornase cada vez menor à medida que o tamanho da amostra aumenta Uma fórmula alternativa para o cálculo da variância é 2 2 1 1 2 1 n n i i i i x x n s n em que ix2 soma de cada valor observado ao quadrado 2 ix quadrado da soma de todos os valores observados n número total de observações no conjunto de dados A vantagem dessa fórmula alternativa é evitar a operação de subtração ix x que em muitos casos envolve números decimais tornando o cálculo mais trabalhoso e aumentando a chance de erros decorrentes de arredondamentos Para dados organizados em uma distribuição de frequências utilizamos a seguinte fórmula 2 2 2 2 1 1 2 2 2 1 1 1 k i i k k i x x f x x f x x f x x f s n n Ou pela fórmula alternativa 2 2 1 1 2 1 n n i i i i i i x f x f n s n Como o cálculo da variância envolve os quadrados dos desvios as unidades de medida da variância são sempre iguais ao quadrado das unidades de medida dos dados originais por exemplo 2 2 min kg 2 m etc tornando suas interpretações sem sentido 58 UNIDADE II MEDIDAS DESCRITIVAS Para obtermos uma medida de variabilidade cuja unidade de medida seja a mesma do conjunto de dados extraímos a raiz quadrada da variância Essa medida é denominada desviopadrão amostral 2 s s em que s desviopadrão s2 variância As fórmulas apresentadas para o cálculo da variância e do desviopadrão são para estudos envolvendo dados amostrais No caso de ser possível e viável trabalhar com toda a população de interesse as fórmulas para a variância e desviopadrão populacionais são respectivamente 2 2 1 n i i x x N σ e 2 1 n i i x x N σ Da definição de desviopadrão podemos concluir que O desviopadrão mede a variação de todas as observações a partir da média O valor do desviopadrão nunca será negativo E será zero quando todas as observações assumirem o mesmo valor Maiores valores para o desviopadrão indicam maior variabilidade do conjunto de dados Como ocorre com a média o valor do desviopadrão pode crescer drasticamente com a inclusão de um ou mais valores discrepantes ou seja valores que estão muito afastados dos demais A unidade de medida do desviopadrão é a mesma unidade dos dados originais O desviopadrão é utilizado para comparação de conjuntos de dados distintos quanto à variabilidade apenas quando as médias de tais conjuntos forem aproximadamente iguais Caso isso não ocorra usamos uma medida denominada 59 MEDIDAS DESCRITIVAS UNIDADE II coeficiente de variação que será definido mais adiante Esse coeficiente também é utilizado quando queremos comparar a variabilidade de conjuntos de dados que apresentam unidades de valores diferentes como por exemplo peso para um conjunto e altura para o outro Regra empírica para interpretar o desviopadrão Com os valores da média e do desviopadrão podemos encontrar a porcentagem do total de observações que se posicionam dentro dos limites de determinado intervalo em torno da média Para conjuntos de dados que tenham distribuição com forma aproximadamente de sino valem as seguintes considerações Cerca de 68 das observações se posicionam dentro dos limites de um desviopadrão em relação à media ou seja e x s x s Cerca de 95 das observações se posicionam dentro dos limites de dois desviospadrão em relação à media ou seja 2 e 2 x s x s Cerca de 997 das observações se posicionam dentro dos limites de três desviospadrão em relação à media ou seja 3 e 3 x s x s Figura 15 Regra empírica para interpretação do desviopadrão Fonte Triola 2008 p 81 adaptado pelo autor As características de uma distribuição em forma de sino são as frequências começam baixas crescem até uma frequência máxima e depois decrescem para uma frequência baixa e a distribuição deve ser aproximadamente simétrica com frequências igualmente distribuídas em ambos os lados da frequência máxima O histograma é um gráfico que nos auxilia na verificação de distribuições em forma de sino O desviopadrão também possui algumas propriedades importantes que apresentaremos a seguir 60 UNIDADE II MEDIDAS DESCRITIVAS Propriedades do desviopadrão 1 Quando somamos ou subtraímos uma constante de todos os valores de um conjunto de dados o desviopadrão não se altera 2 Quando multiplicamos ou dividimos uma constante de todos os valores de um conjunto de dados o desviopadrão fica multiplicado ou dividido por esta constante Exemplo 52 Considerando os dados do Exemplo 51 vamos encontrar as medidas de dispersão das duas linhas de produção Linha 1 75 72 76 74 73 74 76 75 73 72 Linha 2 74 80 77 70 70 71 73 76 74 75 Resolução Já sabemos que ambas as linhas apresentam o mesmo comprimento médio para as peças com 1 2 74 linha linha x x cm Para compreender como utilizar as fórmulas vamos resolver esse exemplo de duas maneiras com o conjunto de dados brutos conforme apresentado no enunciado e através da distribuição de frequências Primeira maneira Linha 1 O valor mínimo é 72 e o máximo é 76 Portanto a amplitude é 4cm ou seja a diferença entre as peças de maior e menor comprimento é 4cm Para encontrarmos a variância vamos utilizar a fórmula alternativa 2 2 1 1 2 1 n n i i i i x x n s n Precisamos encontrar a soma de cada valor observado ao quadrado 2 2 2 2 2 2 2 2 2 2 2 1 75 72 76 74 73 74 76 75 73 72 54780 n i i x E o quadrado da soma de todos os valores observados 2 2 2 1 75 72 76 74 73 74 76 75 73 72 740 547600 n i i x 61 MEDIDAS DESCRITIVAS UNIDADE II Agora basta substituirmos os valores encontrados na fórmula 2 2 1 1 2 2 54780 574600 54780 54760 10 222 1 9 9 n n i i i i x x n s cm n O desviopadrão é 222 149 s cm Agora seguindo o mesmo procedimento encontraremos as medidas de dispersão para a Linha 2 Linha 2 O valor mínimo é 70 e o máximo é 80 Portanto a amplitude é 10cm ou seja a diferença entre as peças de maior e menor comprimento é 10cm A variância é obtida por 2 2 1 1 2 1 n n i i i i x x n s n A soma de cada valor observado ao quadrado é 2 2 2 2 2 2 2 2 2 2 2 1 74 80 77 70 70 71 73 76 74 75 54852 n i i x E o quadrado da soma de todos os valores observados é 2 2 2 1 74 80 77 70 70 71 73 76 74 75 740 547600 n i i x Agora basta substituirmos os valores encontrados na fórmula 2 2 1 1 2 2 54852 547600 54852 54760 10 1022 1 9 9 n n i i i i x x n s cm n O desviopadrão é 1022 320 s cm O Quadro 5 apresenta os valores encontrados para as medidas de dispersão 62 UNIDADE II MEDIDAS DESCRITIVAS Quadro 5 Medidas de dispersão para os comprimentos das peças fabricadas por duas linhas de produção Medidas de dispersão Mínimo Máximo Amplitude Variância DesvioPadrão Linha 1 72 76 4 222 149 Linha 2 70 80 10 1022 320 Fonte Próprio autor Uma análise preliminar do conjunto de dados brutos já mostrou que apesar de os comprimentos médios das peças serem iguais a variabilidade na produção das peças é maior na Linha 2 o que foi confirmado pelas medidas de dispersão Vale ressaltar que a variância tem a unidade de medida elevada ao quadrado portanto utilizamos o desviopadrão para interpretar o resultado obtido Agora encontraremos as mesmas medidas por meio dos dados tabelados Utilizaremos a Linha 1 para fazer os cálculos Após o aprendizado faça o mesmo procedimento com a Linha 2 e compare com os resultados obtidos com o da primeira maneira Você encontrará os mesmos resultados Segunda maneira Linha 1 Na distribuição de frequências acrescentamos duas colunas i i x f e 2 i i x f cujos somatórios são exigidos na fórmula da variância Tabela 16 Cálculos das colunas auxiliares para encontrar a variância Linha 1 Comprimento ix Frequência if Frequência Relativa i i x f 2 i i x f 72 2 2000 144 10368 73 2 2000 146 10658 74 2 2000 148 10952 75 2 2000 150 11250 76 2 2000 152 11552 Total 10 10000 740 54780 Fonte Próprio autor Pela distribuição de frequências identificamos também o valor mínimo como 72 o valor máximo como 76 e com esses dois valores encontramos amplitude 4 Com os somatórios das duas últimas colunas da Tabela 16 encontramos a variância 2 2 2 1 1 2 54780 740 54780 54760 10 1 9 9 n n i i i i i i x f x f n s n 63 MEDIDAS DESCRITIVAS UNIDADE II 2 2 222 s cm E o desviopadrão 222 149 s cm Nesse exemplo podemos utilizar o desviopadrão para comparar a variabilidade nas produções das peças fabricadas pelas duas linhas pois as médias são iguais Isso também é válido nos casos em que as médias forem aproximadamente iguais Mas isso nem sempre ocorre Há situações em que dois ou mais conjuntos apresentam médias bem diferentes e também apresentam variáveis em estudo diferentes Nesses casos utilizamos como medida de variabilidade o coeficiente de variação que será definido a seguir Coeficiente de variação O coeficiente de variação cv é obtido através da divisão do desviopadrão pela média e o resultado obtido é multiplicado por 100 para que o coeficiente seja apresentado em porcentagem Portanto 100 s cv x onde s é o desviopadrão e x é a média aritmética Tal coeficiente é uma medida relativa de variação e mede a dispersão dos dados em relação à média O fato de o desviopadrão e da média terem as mesmas unidades de medidas faz com que tais medidas se cancelem tornando o coeficiente de variação adimensional sem unidade de medida Por isso ele pode ser expresso em porcentagem Quando calculamos o desviopadrão obtemos um valor que pode ser grande ou pequeno dependendo da variável em estudo O fato de ele ser um valor considerado alto é relativo pois dependendo da variável que está sendo estudada e da média esta variação dos dados pode ser relativamente pequena Então utilizamos o coeficiente de variação para medir o grau de variação dos dados em relação à média Além disso ele serve para comparar a variabilidade de conjuntos de dados cujas variáveis em estudo são diferentes pois ele é adimensional Exemplo 53 Em 2005 uma mulher processou um fabricante de teclados de computadores sob a acusação de lesões por esforços repetitivos causados pelo teclado O pleito era de cerca de 15 milhão de reais por danos físicos mas a Justiça negou esse valor pois julgou a indenização exagerada Ao fazer essa determinação a Justiça 64 UNIDADE II MEDIDAS DESCRITIVAS identificou um grupo normativo de 20 casos similares e especificou como razoável uma indenização limitada por dois desviospadrão em relação à média das indenizações dos 20 casos As 20 indenizações foram em milhares de reais 37 60 75 115 135 140 149 150 238 290 340 410 600 750 750 790 810 835 850 870 onde 8394 ix e 2 5472614 ix Encontre o valor máximo que pode ser indenizado pela regra de dois desviospadrão e o coeficiente de variação Resolução Pela regra de dois desviospadrão o valor máximo que pode ser indenizado é 2 x s Então teremos que encontrar a média e o desviopadrão do conjunto de dados Para facilitar o enunciado já forneceu os valores dos somatórios necessários nas fórmulas Média Substituindo o valor fornecido temos 1 8394 4197 20 n i xi x milharesdereais n Variância Substituindo os valores fornecidos na fórmula obtemos 2 2 1 1 2 1 n n i i i i x x n s n 2 2 2 5472614 8394 5472614 35229618 19496522 20 10261327 20 1 19 19 s milharesdereais DesvioPadrão 10261327 32033 s milharesdereais 65 MEDIDAS DESCRITIVAS UNIDADE II Portanto pela regra de dois desviospadrão o valor máximo de indenização é 2 4197 2 32033 106036 x s milharesdereais Coeficiente de variação 100 s cv x 106036 100 25265 4197 cv Vale lembrar que o coeficiente de variação é uma medida adimensional Os valores obtidos para o desviopadrão e para o coeficiente de variação são altos pois os valores das 20 indenizações que compõem a amostra são bem heterogêneos com alta variabilidade Cálculos da variância e do desviopadrão para dados agrupados em intervalos de classes O procedimento para o cálculo da variância e do desviopadrão para dados agrupados em intervalos de classes é o mesmo que aquele utilizado para o cálculo da média Utilizamos o ponto médio do intervalo de classe para representar os valores dentro de cada classe e acrescentamos três colunas na tabela 2 i i i i i x x f e x f que são necessários para o cálculo da variância Exemplo 54 Os dados a seguir representam os tempos de falha em horas de componentes eletrônicos submetidos a um teste acelerado de tempo de vida Tabela 17 Distribuição de frequências dos tempos de falha horas dos componentes eletrônicos Tempos de falha horas Frequência Frequência Relativa 115 125 12 3000 125 135 18 4500 135 145 8 2000 145 155 1 25 155 165 1 25 Total 40 10000 Fonte Próprio autor 66 UNIDADE II MEDIDAS DESCRITIVAS Vamos encontrar a variância o desviopadrão e o coeficiente de variação para os dados apresentados na Tabela 17 Resolução Precisamos acrescentar três colunas adicionais para os cálculos Tabela 18 Cálculos das colunas auxiliares para encontrar a variância e o desviopadrão Tempos de falha horas Frequência Frequência Relativa ix i i x f 2 i i x f 115 125 12 3000 120 1440 172800 125 135 18 4500 130 2340 304200 135 145 8 2000 140 1120 156800 145 155 1 25 150 150 22500 155 165 1 25 160 160 25600 Total 40 10000 5210 681900 Fonte Próprio autor Substituindo os valores na fórmula da variância temos 2 2 2 1 1 2 5210 681900 40 1 40 1 n n i i i i i i x f x f n s n 2 681900 67860250 329750 8455 39 39 horas O desviopadrão é 8455 920 s horas e o coeficiente de variação é 100 s cv x 920 100 706 cv 13025 pois 1 5210 13025 40 k i i i x f x horas n 67 MEDIDAS DESCRITIVAS UNIDADE II Exemplo 55 ESAF 2005 Adaptado De posse dos resultados de produtividade alcançados por funcionários de determinada área da empresa em que trabalha o Gerente de Recursos Humanos decidiu empregar a seguinte estratégia aqueles funcionários com rendimento inferior a dois desviospadrão abaixo da média Limite Inferior LI deverão passar por treinamento específico para melhorar seus desempenhos aqueles funcionários com rendimento superior a dois desvios padrões acima de média Limite Superior LS serão promovidos a líderes de equipe Quadro 6 Resultados dos indicadores de produtividade Indicador Frequência 02 10 24 20 46 240 68 410 810 120 Total 800 Fonte Próprio autor Encontre os limites LI e LS a serem utilizados pelo Gerente de Recursos Humanos Resolução Como os dados estão agrupados precisamos encontrar os pontos médios dos intervalos de classes para que se possa calcular a média e o desviopadrão Quadro 7 Cálculos auxiliares para o cálculo da média e do desviopadrão Indicador Frequência ix i i x f 2 i i x f 02 10 1 10 10 24 20 3 60 180 46 240 5 1200 6000 68 410 7 2870 20090 810 120 9 1080 9720 Total 800 5220 36000 Fonte Próprio autor Média 1 5220 6525 20 n i i i x f x n 68 UNIDADE II MEDIDAS DESCRITIVAS Variância 2 2 1 1 2 1 n n i i i i x x n s n 2 2 36000 5220 36000 3406050 193950 800 243 800 1 799 799 s DesvioPadrão 243 156 s Agora podemos encontrar o limite inferior e o limite superior Limite Inferior LI rendimento inferior a dois desviospadrão abaixo da média 2 6525 2 156 341 x s Limite Superior LS rendimento superior a dois desviospadrão acima da média 2 6525 2 156 9645 x s Vale lembrar que como nas medidas de posição central os valores obtidos para a variância e desviopadrão quando os dados estão agrupados em classes são apenas aproximações dos verdadeiros valores Isso ocorre pois os valores das observações são substituídos pelos pontos médios dos intervalos de classes Neste capítulo aprendemos a calcular medidas que nos informam sobre a variabilidade de um conjunto de dados Vimos que dois conjuntos podem apresentar o mesmo valor para a média mas terem características diferentes quanto à dispersão dos dados O desviopadrão é a medida de dispersão mais utilizada para medir a variabilidade dos dados pois sempre será um número expresso na mesma unidade dos dados originais Como ocorre com a média o desviopadrão é afetado por valores discrepantes No caso de situações em que valores discrepantes estejam presentes podemos calcular outras medidas descritivas que sejam mais adequadas para representar o conjunto de dados Estudaremos a seguir conceitos referentes às medidas separatrizes ou de ordenamento e à forma da distribuição dos dados 69 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS Ao longo da Unidade II aprendemos a caracterizar um conjunto de dados quanto a sua tendência central e a sua variabilidade Além disso podemos descrever dados numéricos por meio de uma análise exploratória de dados que utiliza ferramentas estatísticas como gráficos e medidas de posição central e de dispersão para compreender características importantes sobre o conjunto de dados De acordo com o que foi exposto nos capítulos anteriores quais características são importantes em um conjunto de dados Podemos listar as seguintes características e suas ferramentas para investigação Centro cálculo de medidas como média e mediana Variação cálculo de medidas como desviopadrão e amplitude Distribuição dos dados organização dos dados em distribuições de frequências e construção do histograma Valores discrepantes outliers serão identificados através de um gráfico denominado BoxPlot Os conceitos abordados a seguir nos auxiliarão na identificação de possíveis valores discrepantes presentes em um conjunto de dados e também fazer uma análise exploratória dos dados por meio do resumo dos cinco números Ao final desta unidade esperamos que você consiga 1 Calcular e interpretar as medidas separatrizes 2 Construir e analisar o BoxPlot 70 CAPÍTULO 1 Medidas separatrizes Estudaremos as seguintes medidas separatrizes quartis decis e percentis Essas medidas fornecem uma ideia sobre a distribuição dos dados ordenados e têm como objetivo proporcionar uma melhor ideia da dispersão dos dados principalmente da simetria ou assimetria da distribuição Os quartis 1 Q Q2 e Q3 como o próprio nome sugere divide a distribuição dos dados ordenados em quatro partes sendo que Primeiro quartil 1 Q no mínimo 25 dos valores ordenados são menores ou iguais a 1 Q e no mínimo 75 são maiores ou iguais a 1 Q Segundo quartil Q2 no mínimo 50 dos valores ordenados são menores ou iguais a 2 Q e no mínimo 50 são maiores ou iguais a 2 Q Terceiro quartil Q3 no mínimo 75 dos valores ordenados são menores ou iguais a 3 Q e no mínimo 25 são maiores ou iguais a 3 Q A mediana é o segundo quartil pois ela divide o conjunto de dados em duas partes com a mesma quantidade de observações abaixo e acima dela Os decis por sua vez dividem a distribuição dos dados em 10 partes 12 9 i D i e os percentis dividem a distribuição em 100 partes 12 99 iP Não há um consenso universal sobre um procedimento único para o cálculo das medidas separatrizes e diferentes calculadoras e softwares estatísticos podem produzir resultados ligeiramente diferentes Apresentaremos a forma mais simples de calcular os quartis utilizando somente o cálculo de medianas Quartis Para encontrarmos os quartis vamos seguir os seguintes passos 1 Organizamos as observações em ordem crescente e localizamos a mediana Q2 2 Separamos o conjunto de dados à esquerda da mediana e o primeiro quartil 1 Q será a mediana desse novo conjunto de dados 71 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III 3 Separamos o conjunto de dados à direita da mediana e o terceiro quartil Q3 será a mediana desse novo conjunto de dados Com os valores do primeiro e terceiro quartis podemos encontrar uma medida de dispersão denominada distância interquartil definida como 3 1 dq Q Q Como a distância interquartil não leva em consideração nenhum valor inferior ao 1 Q ou superior a 3 Q ela não é afetada por valores discrepantes sendo portanto uma medida de dispersão resistente e que serve como uma alternativa ao desviopadrão que como já vimos não é uma medida resistente Exemplo 61 Abaixo estão listadas as taxas de juros mensais de cheque especial pessoa física de 28 instituições financeiras no período de 1152018 a 1752018 063 156 156 236 241 251 257 439 441 460 549 666 781 899 1040 1048 1172 1182 1196 1198 1199 1208 1244 1252 1256 1468 1513 1628 Fonte httpwwwbcbgovbrptbrctxjuros Acesso em 19 ago 2018 Vamos encontrar o primeiro segundo e terceiro quartis e a distância interquartil Resolução Para encontrar os quartis vamos seguir os passos descritos anteriormente 1 Os dados já aparecem ordenados no conjunto de dados brutos Como n 28 temos que a mediana Q2 está entre a décima quarta e décima quinta posições dos dados ordenados 28 28 1 2 2 2 2 x x Q 14 15 2 2 x x Q 2 899 1040 9695 2 Q 2 O novo conjunto de dados obtido com as observações à esquerda da mediana é 063 156 156 236 241 251 257 439 441 460 549 666 781 899 72 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS O 1 Q será a mediana desse novo conjunto de dados ou seja 14 14 1 2 2 1 2 x x Q 7 8 1 2 x x Q 1 257 439 348 2 Q 3 O novo conjunto de dados obtido com as observações à direita da mediana é 1040 1048 1172 1182 1196 1198 1199 1208 1244 1252 1256 1468 1513 1628 O 3 Q será a mediana desse novo conjunto de dados ou seja 14 14 1 2 2 3 2 x x Q 7 8 3 2 x x Q 3 1199 1208 12035 2 Q Com os resultados obtidos podemos concluir que Pelo menos 25 das observações são menores ou iguais a 348 e pelo menos 75 das observações são maiores ou iguais a 348 Pelo menos 50 das observações são menores ou iguais a 9695 e pelo menos 50 das observações são maiores ou iguais a 9695 Pelo menos 75 das observações são menores ou iguais a 12035 e pelo menos 25 delas são maiores ou iguais a 12035 A distância interquartil é 3 1 dq q q 12035 348 8555 q d Vale ressaltar que a distância interquartil contém aproximadamente 50 das observações centrais 73 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III Decis e Percentis Seguindo a mesma ideia dos quartis vamos encontrar os decis e percentis Os decis dividem a distribuição dos dados em 10 partes 12 9 i D i e os percentis dividem a distribuição em 100 partes 12 99 iP O decil i D será a observação que ocupar a posição 12 9 10 i n i e o percentil iP será a observação que ocupar a posição 12 99 100 i n i Quando fazemos estas divisões para encontrar as posições dos decis e percentis pode acontecer de o resultado ser um número inteiro ou um número fracionário Então adotaremos a seguinte convenção Se a divisão resultar num número fracionário arredondeo para cima e o valor do decilpercentil será a observação encontrada nesta posição Se a divisão for um número inteiro o decilpercentil será a média aritmética da observação que ocupar a posição encontrada com a observação que ocupar a posição imediatamente seguinte Os decis e percentis são medidas separatrizes que são calculadas para conjuntos de dados com um número grande de observações Exemplo 62 Os dados a seguir são referentes ao número de carros zero quilômetro vendidos em uma concessionária nos últimos 40 dias 0 3 2 2 4 3 3 2 1 0 3 2 4 5 3 4 2 3 1 1 0 4 1 2 3 2 1 2 8 2 2 1 1 0 3 2 2 3 1 2 Vamos encontrar 3 D e 67 P Resolução O decil 3 D será a observação que ocupar a posição 3 40 12 10 no conjunto de dados ordenados Ordenando os dados obtemos 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 5 8 74 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS Como a divisão resultou em um valor inteiro o terceiro decil será o resultado da média aritmética entre o valor que está na décima segunda posição e o valor que está na décima terceira posição 3 1 2 15 2 D carro Temos que pelo menos 30 das observações são menores ou iguais 15 carros O percentil 67 P será a observação que ocupar a posição 67 40 268 100 no conjunto de dados ordenados Como a divisão resultou em um valor fracionário vamos arredondar para 27 Portanto o percentil 67 P é o valor que está na vigésima sétima posição 67 3 P carros Neste conjunto de dados pelo menos 33 das observações são maiores ou iguais a três carros As medidas separatrizes também podem ser calculadas para dados agrupados em intervalos de classes Os cálculos são parecidos com aquele que utilizamos para calcular a mediana Cálculos das medidas separatrizes para dados agrupados em intervalos de classes No cálculo dos quartis decis e percentis para dados agrupados em intervalos de classes utilizaremos uma única fórmula similar àquela utilizada no cálculo da mediana 100 k ant k k inf a k h k n P l F f em que n número total de observações da distribuição de frequências k 1 2 99 linfk limite inferior da classe encontrada kh amplitude do intervalo Faant frequência acumulada anterior à da classe kP kf frequência absoluta da classe encontrada kP 75 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III Por que podemos utilizar essa fórmula geral para o cálculo das medidas separatrizes Pois de acordo com as definições de quartis decis e percentis temos 1 25 Q P 2 50 Q P 3 75 Q P 1 10 D P 2 20 D P 9 90 D P Exemplo 63 Um estudo foi conduzido com o objetivo de investigar vários fatores de risco para doenças cardiovasculares Os níveis séricos de cotinina obtidos para um grupo de fumantes de cigarro estão apresentados na distribuição de frequências a seguir Encontre 1 6 80 Q D eP Tabela 19 Distribuição de frequências dos níveis de cotinina ngml Nível de cotinina ngml Frequência Frequência Relativa 0 50 200 1333 50 100 135 900 100 150 205 1367 150 200 190 1267 200 250 220 1467 250 300 150 1000 300 350 400 2667 Total 1500 10000 Fonte Próprio autor Resolução Primeiramente vamos encontrar a coluna da frequência acumulada Tabela 20 Distribuição de frequências acumuladas dos níveis de cotinina ngml Nível de cotinina ngml Frequência Frequência Relativa Frequência Acumulada 0 50 200 1333 200 50 100 135 900 335 100 150 205 1367 540 150 200 190 1267 730 200 250 220 1467 950 76 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS Nível de cotinina ngml Frequência Frequência Relativa Frequência Acumulada 250 300 150 1000 1100 300 350 400 2667 1500 Total 1500 10000 Fonte Próprio autor Primeiro Quartil 1 Q Precisamos identificar o intervalo que contém o primeiro quartil 25 1500 375 100 100 k n Como a divisão resultou em um valor inteiro o primeiro quartil está entre as posições 375 e 376 Através da coluna da frequência acumulada identificamos que essas duas posições estão no intervalo de 100 150 cuja frequência acumulada é 540 Então linfk 100 kh 150 100 50 kf 205 n 1500 Faant 335 k 25 o primeiro quartil é o vigésimo quinto percentil 100 k ant k k inf a k h k n P l F f 25 50 100 375 335 205 P 25 50 100 40 100 9756 109756 205 P ng ml Então pelo menos 25 das observações são menores ou iguais a 109756 ngml Sexto Decil 6 D O intervalo que contém o sexto decil é 60 1500 900 100 100 k n 77 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III Como a divisão resultou em um valor inteiro o sexto decil está entre as posições 900 e 901 Através da coluna da frequência acumulada identificamos que essas duas posições estão no intervalo de 200 250 cuja frequência acumulada é 950 Então linfk 200 kh 250 200 50 kf 220 n 1500 Faant 730 k 60 o sexto decil é o sexagésimo percentil 100 k ant k k inf a k h k n P l F f 60 50 200 900 730 220 P 60 50 200 170 200 38636 238636 220 P ng ml Pelo menos 60 das observações são menores ou iguais a 238636ngml Octogésimo percentil 80 P Como 80 1500 1200 100 100 k n temos que o intervalo que contém o octogésimo percentil é de 300 350 cuja frequência acumulada é 1500 Então linfk 300 kh 350 300 50 kf 400 n 1500 Faant 1100 k 80 100 k ant k k inf a k h k n P l F f 78 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS 80 50 300 1200 1100 400 P 80 50 300 100 300 1250 31250 400 P ng ml Por meio do 80 P observamos que pelo menos 20 das observações são maiores ou iguais a 31250ngml Chegamos ao final de mais um capítulo Nele aprendemos a calcular as medidas separatrizes que dividem o conjunto de dados ordenados em quatro dez ou cem partes iguais Os quartis apresentam a vantagem de não serem afetados por valores discrepantes No próximo capítulo estudaremos o resumo dos cinco números e como os utilizamos na construção de um gráfico chamado BoxPlot 79 CAPÍTULO 2 Construção e análise do BoxPlot O boxplot é uma ferramenta gráfica muito utilizada para a apresentação das principais características dos dados em estudo A sua análise nos permite identificar o centro a dispersão e a distribuição dos dados além da presença de outliers Para sua construção precisamos da identificação de cinco números que estudaremos a seguir Resumo dos cinco números O resumo dos cinco números consiste no valor mínimo primeiro quartil mediana terceiro quartil e valor máximo escritos em ordem crescente Ou seja 1 2 3 Mínimo Q Q Q Máximo Com essas informações podemos ter uma boa ideia do formato da distribuição dos dados conforme mostra a Tabela 21 Tabela 21 Relações entre o resumo dos cinco números e o formato da distribuição Tipo de Distribuição Comparação Assimétrica à Esquerda Simétrica Assimétrica à Direita A distância desde Xmínimo até a mediana versus a distância desde a mediana até máximo X A distância desde Xmínimo até a mediana é maior do que a distância desde a mediana até máximo X Ambas as distâncias são iguais A distância desde Xmínimo até a mediana é menor do que a distância desde a mediana até Xmáximo A distância desde Xmínimo até 1 Q versus a distância desde 3 Q até Xmáximo A distância desde Xmínimo até 1 Q é maior do que a distância desde 3 Q até Xmáximo Ambas as distâncias são iguais A distância desde Xmínimo até 1 Q é menor do que a distância desde 3 Q até máximo X A distância desde 1 Q até a mediana versus a distância desde a mediana até 3 Q A distância desde 1 Q até a mediana é maior do que a distância desde a mediana até 3 Q Ambas as distâncias são iguais A distância desde 1 Q até a mediana é menor do que a distância desde a mediana até 3 Q Fonte LEVINE D M STEPHAN D F SZABAT K A Estatística teoria e aplicações usando o Microsoft Excel em português 2016 p 127 Com as informações do resumo dos cinco números podemos construir um gráfico denominado boxplot ilustrado a seguir 80 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS BoxPlot Figura 16 BoxPlot Fonte Bussab e Morettin 2002 p 48 De acordo com Bussab e Morettin 2002 p 48 Para construir este diagrama consideremos um retângulo onde estão representados a mediana e os quartis A partir do retângulo para cima segue uma linha até o ponto mais remoto que não exceda 3 15 q LS q d chamado limite superior De modo similar da parte inferior do retângulo para baixo segue uma linha até o ponto mais remoto que não seja menor do que 1 15 q LI q d chamado limite inferior Os valores compreendidos entre esses dois limites são chamados valores adjacentes As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos Portanto o boxplot além de informar as principais características da distribuição dos dados detecta a presença de outliers No boxplot a posição central é dada pela mediana 2 Q e a dispersão por 3 1 dq Q Q Um outlier valor discrepante é um valor que se localiza muito afastado de quase todos os demais valores do conjunto de dados Normalmente esses valores são atribuíveis a uma das seguintes causas registro incorreto no banco de dados 81 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III erro de digitação ou uma medição incorreta Mas pode acontecer de ser um valor correto Se tivermos certeza de que o outlier é um erro devemos corrigilo ou retirálo do conjunto de dados Agora se soubermos que o outlier é um valor correto devemos estudar seu efeito construindo gráficos e calculando as medidas descritivas com e sem o outlier O boxplot é muito utilizado para detectar descritivamente diferenças nos comportamentos entre dois ou mais grupos Vamos analisar o exemplo a seguir Exemplo 71 Cespe 2013 Em decorrência do desenvolvimento urbano e tecnológico temse a preocupação de monitorar os efeitos nocivos da poluição ambiental sobre a saúde da população urbana A figura a seguir mostra o boxplot que descreve a distribuição da concentração de chumbo no sangue em ì g dL1 obtida com base em uma amostra aleatória de 200 pessoas do sexo masculino e 100 pessoas do sexo feminino que trabalham em postos de combustível localizados em determinado município brasileiro Figura 17 BoxPlot para a concentração de chumbo no sangue em um grupo de homens e mulheres feminino masculino Fonte MM B Paolielo et al In Saúde Pública 1997 com adaptações Disponível em httpwwwcespeunbbrconcursos DPRF12ADMINISTRATIVOarquivosDPRF1200306pdf httpdownloadinepgovbreducacaosuperiorenadeprovas201442 tecnologiagestaoproducaoindustrialpdf Acesso em 9 jul 2018 Adaptado pelo autor Com base nessas informações julgue os itens a seguir justificando I Com base nas linhas horizontais que cortam as caixas do diagrama apresentado concluise corretamente que a média das concentrações 82 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS de chumbo encontradas no sangue das pessoas do sexo feminino que trabalham em postos de combustível do referido município brasileiro é inferior à média das concentrações dessa mesma substância no sangue das pessoas do sexo masculino que trabalham nesses postos de combustível II O diagrama esquemático referente ao sexo feminino em comparação com o referente ao sexo masculino possui uma caixa box menor e pernas mais curtas sugerindo que a variabilidade dos valores de concentração de chumbo no sangue das pessoas que trabalham em postos de combustível do referido município brasileiro é menor para as pessoas do sexo feminino que para as do sexo masculino III A concentração mínima de chumbo encontrada entre as pessoas do sexo masculino que trabalham em postos de combustível do referido município brasileiro é a mesma daquela encontrada entre as pessoas do sexo feminino que trabalham nesses postos de combustível IV A distribuição das concentrações de chumbo encontradas no sangue das pessoas do sexo feminino que trabalham nesses postos de combustível apresenta intervalo interquartílico inferior àquele apresentado pela distribuição referente às pessoas do sexo masculino que trabalham nesses postos de combustível V Há informações suficientes no diagrama apresentado para se concluir corretamente que 25 das pessoas do sexo feminino que trabalham em postos de combustível do referido município brasileiro apresentam concentrações de chumbo iguais ou superiores a 10 ì g dL1 Já o percentual de pessoas do sexo masculino que trabalham nesses postos e apresentam concentrações de chumbo iguais ou superiores a 10 ì g dL1 é maior que 25 VI A quantidade de pessoas do sexo masculino e do sexo feminino que trabalham nos referidos postos de combustível e que apresentam concentrações de chumbo no sangue inferiores a 5 ì g dL1 é igual ou menor que 50 e 25 respectivamente Resolução I FALSO As linhas horizontais que cortam as caixas dos diagramas são informações referentes ao 2 Q mediana Os valores da média e da 83 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III mediana são iguais quando a distribuição é simétrica o que não ocorre em nenhum dos diagramas II VERDADEIRO O diagrama esquemático do sexo feminino possui uma caixa menor fazendo com que a distância interquartil seja menor 3 1 Q Q e consequentemente mostrando uma menor variabilidade As pernas mais curtas também indicam menor variabilidade no sexo feminino III VERDADEIRO Comparando os dois diagramas observamos que eles têm mesmo início na perna inferior tendo portanto o mesmo valor para a concentração mínima IV VERDADEIRO Pelo diagrama esquemático observamos que a distância interquartil 3 1 Q Q que são as observações referentes à terceira e primeira linhas horizontais respectivamente é menor nas pessoas do sexo feminino V VERDADEIRO Pelos diagramas esquemáticos observamos que 25 das pessoas do sexo feminino apresentam concentrações de chumbo iguais ou superiores a 10 ì g dL1 Isso se dá pelo fato do 1 3 10 ì g dL Q O percentual de pessoas do sexo masculino que trabalham nesses postos e apresenta concentrações de chumbo iguais ou superiores a 10 ì g dL1 é maior que 25 Isso se dá pelo fato do 1 3 11 ì g dL Q e portanto tem uma porcentagem de pessoas do sexo masculino entre 10 e 11 ì g dL1 VI VERDADEIRO Pelos diagramas esquemáticos observamos que o 1 Q para ambos os sexos é um pouco maior que 5 ì g dL1 fazendo com que no máximo 25 das pessoas de ambos os sexos apresentem concentrações de chumbo no sangue inferiores a 5 ì g dL1 No sexo masculino temos no máximo 200 025 100 pessoas e no sexo feminino temos no máximo 100 025 25 pessoas Exemplo 72 Vamos construir o boxplot para os dados do Exemplo 62 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 5 8 84 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS Resolução Primeiramente vamos encontrar o resumo dos cinco números 1 Valor mínimo 0 2 Quartis Os dados já aparecem ordenados no conjunto de dados brutos Como n 40 temos que a mediana Q2 está entre a vigésima e vigésima primeira posições dos dados ordenados 40 40 1 2 2 2 2 x x Q 20 21 2 2 x x Q 2 2 2 2 2 Q automóveis O novo conjunto de dados obtido com as observações à esquerda da mediana é 0 0 0 0 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 O 1 Q será a mediana desse novo conjunto de dados ou seja 20 20 1 2 2 1 2 x x Q 10 11 1 2 x x Q 1 1 1 1 2 Q automóvel O novo conjunto de dados obtido com as observações à direita da mediana é 2 2 2 2 2 3 3 3 3 3 3 3 3 3 4 4 4 4 5 8 O 3 Q será a mediana desse novo conjunto de dados ou seja 20 20 1 2 2 3 2 x x Q 10 11 3 2 x x Q 85 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III 3 3 3 3 2 Q automóveis 3 Valor máximo 8 Portanto Mínimo 1 Q Q2 Q3 Máximo 0 1 2 3 8 1 Agora vamos encontrar a distância interquartil 3 1 dq Q Q 3 1 2 dq automóveis 2 E finalmente os limites inferiores e superiores 1 15 q LI q d 1 15 2 2 LI e 3 15 q LS q d 3 15 2 6 LS Com essas informações construímos o boxplot Figura 18 Boxplot para o número de carros zero quilômetro vendidos diariamente em uma concessionária Outlier Valor mais distante que não excede LS Fonte Próprio autor 86 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS Por que a observação 8 é um outlier E por que as linhas que saem do retângulo não vão até o valor encontrado para o limite inferior LI e limite superior LS Para responder a essas perguntas vamos à explicação fornecida por Bussab e Morettin 2002 p 48 A partir do retângulo para cima segue uma linha até o ponto mais remoto que não exceda 3 15 q LS q d chamado limite superior O valor do limite superior é LS 6 e no conjunto de dados o valor mais remoto que não exceda o número 6 é 39 5 X De modo similar da parte inferior do retângulo para baixo segue uma linha até o ponto mais remoto que não seja menor do que 1 15 q LI q d chamado limite inferior O valor do limite inferior é 2 LI e no conjunto de dados o valor mais remoto que não é menor que o número 2 é o valor mínimo 0 Xmínimo As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos A observação 8 está acima do limite superior LS 6 portanto é identificado como um outlier Exemplo 73 Cesgranrio 2018 Definese como desvio interquartílico a distância entre o 1º e o 3º Quartis É usado para avaliar a existência de possíveis valores atípicos em um conjunto de dados Valores aquém ou além de limites estabelecidos com base nessa medida devem ser investigados quanto à sua tipicidade em relação à distribuição Geralmente o limite inferior é estabelecido como 1 vez e meia o valor desse desvio abaixo do primeiro Quartil enquanto o limite superior como 1 vez e meia acima do terceiro Quartil Considere os resumos estatísticos das três distribuições de consumo de energia elétrica em kW dos 50 apartamentos com mesma planta de um edifício em três períodos diferentes ao longo de um ano conforme a seguir 87 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III Quadro 8 Resumos estatísticos de três distribuições de consumo de energia elétrica PERÍODOS Consumo de Energia kW JaneiroAbril MaioAgosto SetembroDezembro Média 87 70 80 Mediana 85 75 80 Moda 83 77 80 1º Quartil 80 68 75 3º Quartil 90 80 85 Menor Valor 75 49 62 Maior Valor 102 92 99 Número de Apartamentos 50 50 50 Fonte Disponível em httpwwwcesgranrioorgbrpdfbb0118ESCRITURC381RIO2020GABARITO201pdf Acesso em 10 jul 2018 Concluise a partir desses resumos que a um período apresenta pelo menos um apartamento com consumo abaixo e dois períodos apresentam pelo menos um apartamento com consumo acima da tipicidade estabelecida b um período apresenta pelo menos um apartamento com consumo abaixo e um período apresenta pelo menos um apartamento com consumo acima da tipicidade estabelecida c em nenhum período foram observados possíveis consumos atípicos d apenas um período apresenta pelo menos um apartamento com consumo abaixo da tipicidade estabelecida e apenas um período apresenta pelo menos um apartamento com consumo acima da tipicidade estabelecida Resolução Para identificarmos a alternativa correta precisamos encontrar a distância interquartílica e os limites inferior e superior de cada período em estudo JaneiroAbril 3 1 dq Q Q 90 80 10 dq kW 1 15 q LI q d 88 UNIDADE III ANÁLISE EXPLORATÓRIA DOS DADOS 80 15 10 65 LI kW e 3 15 q LS q d 90 15 10 1 05 LS kW Nesse período o menor valor é 75 e o maior é 102 Então o menor valor não é menor que o LI e o maior valor não é maior que o LS MaioAgosto 3 1 dq Q Q 80 68 12 dq kW 1 15 q LI q d 68 15 12 50 LI kW e 3 15 q LS q d 80 15 12 98 LS kW Nesse período o menor valor é 49 e o maior é 102 Então o menor valor é menor que o LI e o maior valor não é maior que o LS SetembroDezembro 3 1 dq Q Q 85 75 10 dq kW 1 15 q LI q d 75 15 10 60 LI kW e 3 15 q LS q d 85 15 10 1 00 LS kW 89 ANÁLISE EXPLORATÓRIA DOS DADOS UNIDADE III Nesse período o menor valor é 62 e o maior é 99 Então o menor valor não é menor que o LI e o maior valor não é maior que o LS Pelas análises a alternativa correta é a d Estudamos ao longo deste capítulo como fazer uma análise exploratória dos dados por meio do resumo dos cinco números e pela construção e análise do boxplot A análise desse gráfico nos permite identificar possíveis outliers bem como o formato da distribuição dos dados Na próxima unidade utilizaremos ferramentas do Microsoft Excel para analisar um ou mais conjuntos de dados 90 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL Nos capítulos dessa unidade utilizaremos as ferramentas do Microsoft Excel Office 365 para organizar os dados em tabelas de frequências construir gráficos e calcular as medidas descritivas estudadas ao longo deste material Ao final dessa unidade esperamos que você consiga 1 Organizar os dados em distribuições de frequências para dados agrupados ou não 2 Construir os diversos tipos de gráficos apropriados para cada situação em estudo 3 Calcular as medidas descritivas posição e dispersão 91 CAPÍTULO 1 Utilização do Microsoft Excel na construção de tabelas e gráficos Organização de dados numéricos em distribuições de frequências com intervalos de classes Para a organização dos dados em distribuições de frequências a Ferramenta de Análise de Dados deve estar ativa Caso essa ferramenta esteja ativa aparecerá a opção Análise de Dados na aba Dados Caso a ferramenta não esteja ativada seguir os procedimentos Clicar na aba Arquivo escolher Opções e em seguida Suplementos Na caixa Suplementos de Aplicativos Inativos selecionar Ferramenta de Análise e clicar em Ir Na caixa Suplementos clicar no seguinte suplemento disponível Ferramenta de Análise e OK Vamos utilizar o Exemplo 21 para exemplificar a organização dos dados em distribuições de frequências com intervalos de classes 1o passo Digitar em uma planilha as respostas da variável numérica e os limites superiores de cada uma das classes Para saber qual é o limite superior de cada uma das classes e o número de classes que serão utilizadas você deve seguir o procedimento descrito no item 22 capítulo 2 Figura 19 Entrada dos dados da variável Idade Fonte Próprio autor 92 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL Vale lembrar que estamos construindo classes fechadas à esquerda Por exemplo na primeira classe de 23 25 entram os alunos que têm 23 anos exatos até 24999 anos Isso explica o porquê de os limites superiores das classes serem definidos da maneira que aparecem na planilha do Excel 2º passo Clicar em Dados e em seguida Análise de Dados Aparecerá uma caixa de diálogo com uma lista de Ferramentas de análise Clicar em Histograma e OK Figura 20 Escolha da ferramenta de análise Histograma Fonte Próprio autor 3º passo Em Intervalo de entrada selecionar os dados arrastando com o mouse desde A1 até A26 e em Intervalo de bloco selecionar os dados de B1 até B7 Marcar Rótulos na primeira linha desde que os nomes das colunas tenham sido selecionados Em Opções de saída escolher Nova planilha os resultados obtidos sairão em uma planilha diferente daquela utilizada para a entrada dos dados basta identificála no rodapé e por fim clique em Ok Figura 21 Intervalo de entrada e do bloco Fonte Próprio autor 93 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 4º passo A Figura 22 apresenta a tabela finalizada utilizando a ferramenta Histograma Agora precisamos formatála construindo os limites inferiores e superiores de cada intervalo e eliminando a linha Mais e sua respectiva frequência zero Figura 22 Tabela finalizada sem formatação Fonte Próprio autor Organização de dados numéricos em distribuições de frequências sem intervalos de classes Nesse caso o procedimento é muito parecido com o descrito anteriormente Mas não precisamos digitar os limites superiores de cada classe e sim os valores que a variável em estudo assume digitar uma única vez cada resposta da variável Para facilitar a explicação vamos utilizar o Exemplo 41 1o passo Digitar em uma planilha o conjunto de dados em estudo e os valores que a variável assume digitar uma única vez Os valores considerados para a coluna Tempo em dias foram obtidos através das respostas que aparecem no conjunto de dados 1 2 3 4 e 5 94 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL Figura 23 Entrada dos dados da variável Tempo em dias Fonte Próprio autor Após a entrada dos dados os passos a serem seguidos são os mesmos do item 81 Construção de gráficos Gráfico de barras Para a elaboração dos gráficos utilizaremos alguns conjuntos de dados que estão nos exemplos dos capítulos 2 e 3 1o passo Digitar em uma planilha as respostas da variável numérica ou categórica e suas respectivas frequências ou frequências relativas Para exemplificar utilizaremos os dados do Exemplo 21 Figura 24 Entrada dos dados da variável Área para especialização Fonte Próprio autor 95 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 2º passo Agora vamos selecionar os dados O comprimento de cada uma das barras representa a frequência absoluta ou relativa Aqui o gráfico será construído com a frequência absoluta colunas selecionadas A e B sem os títulos Após a seleção escolher a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a primeira opção para o gráfico de Coluna O Excel denomina o gráfico de barras verticais como coluna Clicar em OK Figura 25 Escolha do tipo de gráfico Coluna Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 26 Precisamos formatálo pois os eixos estão sem título Quando clicamos no ícone uma caixa é aberta com Elementos do gráfico escolhemos Títulos dos Eixos Título do Gráfico desmarcar caso queira que o título fique somente representado abaixo do gráfico como nome da Figura Rótulo de dados caso queira que os valores apareçam acima da barra Linhas de Grade desmarcar caso queira tirar as linhas de grade do gráfico Figura 26 Gráfico de barras verticais elaborado sem formatação Fonte Próprio autor 96 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado Figura 27 Gráfico de barras verticais para a variável Área para especialização Fonte Próprio autor Gráfico de barras paralelas Para exemplificar a construção desse tipo de gráfico utilizaremos os dados que estão na Tabela 5 1o passo Digitar em uma planilha as respostas conjuntas das variáveis em estudo numéricas ou categóricas e suas respectivas frequências ou frequências relativas Figura 28 Entrada dos dados tabela de dupla entrada Fonte Próprio autor 2º passo Agora vamos para a seleção dos dados Trabalharemos nesse exemplo com as frequências absolutas Selecionamos as células A1 até E3 Após a seleção escolher 97 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a terceira opção para o gráfico de Coluna Clicar em OK Figura 29 Escolha do tipo de gráfico Barra 2D Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 30 Precisamos formatálo pois os eixos estão sem título Como explicado no gráfico anterior quando clicamos no ícone uma caixa é aberta com Elementos do gráfico escolhemos Títulos dos Eixos Título do Gráfico desmarcar caso queira que o título fique somente representado abaixo do gráfico como nome da Figura Rótulo de dados caso queira que os valores apareçam acima da barra Linhas de Grade desmarcar caso queira tirar as linhas de grade do gráfico e Legenda marcar para que se faça a distinção entre os gêneros masculino e feminino Figura 30 Gráfico de barras paralelas sem formatação Fonte Próprio autor 98 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado Figura 31 Gráfico de barras paralelas para área de especialização segundo gênero Fonte Próprio autor Gráfico de setores Para a construção do gráfico de setores ou circular ou pizza utilizaremos os dados da Tabela 8 1o passo Digitar em uma planilha as respostas da variável em estudo categórica e suas respectivas frequências relativas Figura 32 Entrada dos dados para a variável Área das reclamações fundamentas ProconSP Fonte Próprio autor 99 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 2º passo Selecionamos as colunas A e B sem os títulos das colunas e sem a linha do total Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a primeira opção para o gráfico de Pizza ou de Rosca Clicar em OK Figura 33 Escolha do tipo de gráfico Pizza Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 34 No ícone vamos escolher Rótulo de dados e Legenda à Direita Você também pode optar por marcar Título do Gráfico Figura 34 Gráfico de pizza sem formatação Fonte Próprio autor 100 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado Figura 35 Gráfico de setores para as reclamações fundamentadas no ProconSP por área em 2017 Fonte Próprio autor Diagrama de Pareto Para a construção do Diagrama de Pareto utilizaremos também os dados da Tabela 8 1o passo Digitar em uma planilha as respostas da variável em estudo categórica e suas respectivas frequências relativas Figura 36 Entrada dos dados Áreas das reclamações Fonte Próprio autor 101 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 2º passo Selecionamos as colunas A e B sem os títulos das colunas e sem a linha do total Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a segunda opção com linha para o gráfico Histograma Clicar em OK Figura 37 Escolha do tipo de gráfico Histograma com linha Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 38 No ícone vamos escolher Título dos Eixos Figura 38 Diagrama de Pareto sem formatação Fonte Próprio autor 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado 102 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL Figura 39 Diagrama de Pareto para as reclamações fundamentadas no ProconSP por área em 2017 Fonte Próprio autor Histograma O Histograma será feito utilizando os dados da Tabela 24 1o passo Digitar em uma planilha as respostas da variável em estudo numérica e suas respectivas frequências ou frequências relativas Figura 40 Entrada dos dados para a variável Tempo de parada minutos Fonte Próprio autor 103 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 2º passo Selecionamos as colunas A e B ou A e C sem os títulos das colunas e sem a linha do total Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a primeira opção para o gráfico de Coluna Clicar em OK Figura 41 Escolha do tipo de gráfico Coluna Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 42 No ícone vamos escolher Título dos Eixos Figura 42 Histograma sem formatação Fonte Próprio autor 104 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 4º passo Precisamos lembrar que o histograma é um gráfico de colunas sem espaçamento Portanto precisamos juntar as barras Para isso clicamos com o botão direito do mouse em cima de qualquer uma das barras Nisso abrirá uma caixa em que deve ser selecionada a opção Formatar Série de Dados e em seguida devese colocar 0 na Largura do Espaçamento conforme mostra a Figura 43 Figura 43 Histograma sem espaçamento entre as barras Fonte Próprio autor 5º passo Para que as bordas das barras fiquem bem delimitadas clicamos com o botão direito do mouse em cima de qualquer uma das barras Nisso abrirá uma caixa em que deve ser selecionada a opção Formatar Série de Dados e em seguida deve se escolher a opção Linha de Preenchimento baldinho Em seguida em Borda escolher Linha Sólida e a Cor desejada conforme a Figura 44 Figura 44 Histograma sem espaçamento entre as barras e com bordas delimitadas Fonte Próprio autor 6º passo Após as escolhas definidas nos passos anteriores temos o gráfico formatado e finalizado 105 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV Figura 45 Histograma para a variável tempo de parada minutos de um equipamento Fonte Próprio autor Gráfico de dispersão Já estudamos que esse tipo de gráfico é utilizado para se investigar possíveis relacionamentos entre duas variáveis quantitativas Portanto utilizaremos os dados do Exemplo 37 1o passo Digitar em uma planilha os pares ordenados das duas variáveis quantitativas Figura 46 Entrada dos dados preço e demanda de um produto Fonte Próprio autor 106 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 2º passo Selecionamos as colunas A e B sem os títulos das colunas Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a primeira opção para o gráfico de Dispersão Clicar em OK Figura 47 Escolha do tipo de gráfico Dispersão Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 48 No ícone vamos escolher Título dos Eixos Figura 48 Diagrama de dispersão sem formatação Fonte Próprio autor 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado 107 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV Figura 49 Diagrama de dispersão para os dados preço de venda e demanda de um produto Fonte Próprio autor Gráfico de séries temporais O gráfico de séries temporais é utilizado para verificar comportamentos em uma série de dados observados em intervalos de tempo regularmente espaçados Para exemplificá lo utilizaremos os dados do Exemplo 38 1o passo Digitar em uma planilha os tempos regularmente espaçados meses dias semestres etc e seus respectivos valores da variável em estudo Figura 50 Entrada dos dados taxa de desemprego Fonte Próprio autor 108 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 2º passo Selecionamos as colunas A e B sem os títulos das colunas Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher a primeira opção para o gráfico de Linha Clicar em OK Figura 51 Escolha do tipo de gráfico Linha Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 52 No ícone vamos escolher Título dos Eixos e Rótulos de Dados para que as taxas de cada mês apareçam no gráfico Figura 52 Gráfico de linhas sem formatação Fonte Próprio autor 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado 109 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV Figura 53 Gráfico de séries temporais para a taxa de desemprego mensal em seis regiões metropolitanas no ano de 2015 Fonte Próprio autor BoxPlot Para a construção do boxplot utilizaremos os dados do Exemplo 62 1o passo Digitar em uma planilha as respostas das variáveleis em estudo numérica Figura 54 Entrada dos dados número de carros zero quilômetro vendidos Fonte Próprio autor 110 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 2º passo Selecionamos a coluna A sem o título Escolhemos a aba Inserir e depois selecionar o tipo de gráfico a ser elaborado Vamos escolher Gráficos Recomendados Todos os Gráficos e finalmente Caixa e Caixa Estreita Clicar em OK Figura 55 Escolha do tipo de gráfico Caixa estreita Fonte Próprio autor 3 passo O gráfico elaborado está na Figura 56 No ícone vamos escolher Título dos Eixos E vamos marcar o número 1 que aparece ao centro na parte inferior para deletálo Nesse exemplo não há necessidade de colocar título na horizontal A utilização de títulos na horizontal ocorre quando estamos construindo dois ou mais boxplot no mesmo gráfico por exemplo concessionárias Alfa e Beta Figura 56 Boxplot sem formatação Fonte Próprio autor 111 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 4º passo Após as escolhas definidas no 3º passo temos o gráfico formatado e finalizado Figura 57 Boxplot para o número de carros zero quilômetro vendidos diariamente em uma concessionária Fonte Próprio autor Os gráficos construídos neste capítulo são aqueles abordados ao longo dos capítulos 3 e 7 Há outras possibilidades gráficas que estão disponíveis no Excel e que podem ser exploradas de maneira a representar de forma eficiente os dados coletados Após a formatação e finalização da construção do gráfico basta transferilo para o arquivo de destino e interpretar as informações contidas nele No próximo capítulo aprenderemos como utilizar a ferramenta Análise de Dados disponível no Excel com o objetivo de obter medidas descritivas dos dados 112 CAPÍTULO 2 Utilização do Microsoft Excel no cálculo de medidas descritivas As medidas descritivas apresentadas nos capítulos 4 5 e 6 podem ser obtidas utilizando o Excel Para isso a Ferramenta de Análise de Dados deve estar ativa Caso essa ferramenta esteja ativa aparecerá a opção Análise de Dados na aba Dados Caso a ferramenta não esteja ativada seguir os procedimentos Clicar na aba Arquivo escolher Opções e em seguida Suplementos Na caixa Suplementos de Aplicativos Inativos selecionar Ferramenta de Análise e clicar em Ir Na caixa Suplementos clicar no seguinte suplemento disponível Ferramenta de Análise e OK Para ilustrar as ferramentas de análise vamos utilizar os dados do Exemplo 51 Cálculo das medidas de posição central 1o passo Digitar em uma planilha as respostas das variáveleis Figura 58 Entrada dos dados comprimento de peças de duas linhas de produção Fonte Próprio autor 113 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 2º passo Clicar em Dados e em seguida Análise de Dados Aparecerá uma caixa de diálogo com uma lista de Ferramentas de análise Clicar em Estatística descritiva e OK Figura 59 Escolha da ferramenta de análise Estatística descritiva Fonte Próprio autor 3º passo Após a escolha da Ferramenta de análise Estatística descritiva aparecerá uma nova caixa de diálogo Em Intervalo de entrada selecionar os dados arrastando com o mouse desde A1 até B11 Marcar Rótulos na primeira linha desde que os nomes das colunas tenham sido selecionados Em Opções de saída escolher Nova planilha os resultados obtidos sairão em uma planilha diferente daquela utilizada para a entrada dos dados basta identificála no rodapé e por fim escolher Resumo Estatístico e Ok Figura 60 Entrada dos dados para o cálculo do resumo estatístico Fonte Próprio autor 114 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL 4º passo As medidas de posição obtidas através do resumo estatísticos estão destacadas na Figura 61 Figura 61 Medidas de posição central obtidas pelo resumo estatístico Fonte Próprio autor Analisando o conjunto de dados observamos que a Linha 1 não apresenta moda pois todos os valores aparecem duas vezes A Linha 2 apresenta duas modas 70 e 74 Esses valores são diferentes daqueles apresentados no resumo estatístico Portanto para obtermos corretamente o valor da moda vamos utilizar a função MODOMULT 5º passo No ícone Fórmulas escolhemos Mais Funções Estatística MODO MULT Figura 62 Escolha da função para o cálculo da Moda Fonte Próprio autor 115 ANÁLISE DE DADOS USANDO O EXCEL UNIDADE IV 6º passo Em Argumentos da função na caixa Núm1 selecionar os dados arrastando com o mouse desde A2 até A11 e clicar em OK Figura 63 Resultado para a moda da Linha 1 Fonte Próprio autor Observamos pelo resultado apresentado que a função retorna os seguintes valores para a moda 72 73 74 75 e 76 pois todos aparecem com frequência 2 Nesse caso não há moda Seguindo o mesmo procedimento para a Linha 2 temos Figura 64 Resultado para a moda da Linha 2 Fonte Próprio autor 116 UNIDADE IV ANÁLISE DE DADOS USANDO O EXCEL Para a Linha 2 observamos que os resultados apresentados são 70 e 74 pois ambos aparecem com a maior frequência no conjunto de dados duas vezes Portanto a distribuição é bimodal Cálculo das medidas de dispersão Para encontrar as medidas de dispersão seguimos até o 4º passo descrito no item anterior e obtemos os seguintes resultados Figura 65 Medidas de dispersão obtidas pelo resumo estatístico Fonte Próprio autor Vale observar que o Excel apresenta a Amplitude com o nome de Intervalo Não há a resposta direta para o coeficiente de variação mas sabemos que para calculálo basta dividir o desviopadrão pela média e multiplicar por 100 Neste capítulo aprendemos como utilizar a Ferramenta Estatística Descritiva para obter as medidas de posição e dispersão para um ou mais conjunto de dados Não exploramos as funções para os cálculos dos quartis pois não há um consenso universal sobre como calculálos e o Excel utiliza um método diferente do que foi descrito neste material Bons estudos 117 Referências BESSON JeanLouis A ilusão das estatísticas São Paulo Editora da Universidade Estadual Paulista 1995 BUSSAB Wilton de O MORETTIN Pedro A Estatística básica 5 ed São Paulo Saraiva 2002 LEVINE David M STEPHAN David F SZABAT Kathryn A Estatística teoria e aplicações usando Microsoft Excel em português 7 ed Rio de Janeiro LTC 2016 MAGALHÃES Marcos N LIMA Antonio C P de Noções de probabilidade e estatística 6 ed São Paulo Editora da Universidade de São Paulo 2004 TRIOLA Mário F Introdução à estatística 10 ed Rio de Janeiro LTC 2008 VIEIRA Sonia Elementos de estatística 4 ed São Paulo Atlas 2003 Sites Disponível em httpscenso2010ibgegovbrmateriaisguiadocensoapresentacao html Acesso em 15 abr 2018 Disponível em httpwwwibopeinteligenciacomnoticiasepesquisascresce insatisfacaocomeducacaonopais Acesso em 15 abr 2018 Disponível em httpwwwfecapbradmonlineart23tania2htm Acesso em 16 abr 2018 Disponível em httpwwwproconspgovbrpdfrankingfundacaoprocon sp2017pdf Acesso em 3 maio 2018 Disponível em httpwwwbcbgovbrptbrctxjuros Acesso em 25 maio 2018 Disponível emhttpdownloadinepgovbreducacaosuperiorenadeprovas2014 42tecnologiagestaoproducaoindustrialpdf Acesso em 7 jul 2018 Disponível em httpscenso2010ibgegovbrnoticiascensohtmlbusca1id1 idnoticia3106tjaneirotaxadesocupacaovai76viewnoticiahttpdownload inepgovbreducacaosuperiorenadeprovas201442tecnologiagestao producaoindustrialpdf Acesso em 8 jul 2018 118 REFERÊNCIAS Disponível emhttpwwwcespeunbbrconcursosDPRF12ADMINISTRATIVO arquivosDPRF1200306pdf httpdownloadinepgovbreducacaosuperior enadeprovas201442tecnologiagestaoproducaoindustrialpdf Acesso em 9 jul 2018 Disponível em httpwwwcesgranrioorgbrpdfbb0118ESCRITURC381RIO 2020GABARITO201pdf httpdownloadinepgovbreducacaosuperiorenadeprovas201442tecnologia gestaoproducaoindustrialpdf Acesso em 10 jul 2018