·

Economia ·

Métodos Quantitativos Aplicados

Send your question to AI and receive an answer instantly

Ask Question

Preview text

METROLOGIA Estatística aplicada medidas de dispersão Cristiane da Silva OBJETIVOS DE APRENDIZAGEM Reconhecer medidas de dispersão Diferenciar medidas de dispersão e medidas de tendência central Calcular amplitude desviopadrão variância e coeficiente de variação de um conjunto de dados Introdução Cada vez mais recebemos uma gama de informações advindas de meios de comunicação mídias sociais leituras publicidade etc E assim como essa informação é importante para nos inserirmos no meio em que vivemos também se torna fundamental desenvolver a habilidade de lêla Ou seja o domínio de métodos quantitativos como as medidas de dispersão e sua interpretação é es sencial para que tenhamos uma visão mais clara dos fatos e dados observados Nesse contexto esperase por meio deste capítulo apresentar elementos que fundamentem as interpretações de dados que forem analisados nas mais diversas áreas do conhecimento permitindo que o leitor conheça formas de cálculo simples práticas e relevantes para o seu cotidiano Neste capítulo você vai conhecer as medidas de dispersão Iniciase apre sentando os conceitos de dispersão variação e amplitude de forma mais abran gente na segunda seção aprofundamse as definições diferenciando ainda as medidas de dispersão das medidas de tendência central e destacamse as características de cada uma delas Por fim evidenciase como calcular algumas das principais medidas de dispersão por meio de um software livre A variabilidade de um conjunto de dados Sempre que iniciamos uma pesquisa nos interessa conhecer a variabilidade do conjunto de dados em análise Isso porque detectar variabilidades nos leva a buscar explicações para elas fazer conexões tentar compreender o que está causando esse efeito de variabilidade Para ficar mais claro pense em uma pandemia como a da Covid19 O que causou a variabilidade no número de mortes pela doença Será que foi o comportamento das pessoas A elabo ração de vacinas e o avanço do processo de vacinação Foram as mutações da doença As políticas públicas adotadas ou não Houve alguma relação com o sexo a idade a escolaridade a renda ou a região em que reside a população Bom aqui parece haver alguns elementos relevantes para tentar compreender a variabilidade observada bem como o comportamento da doença ao longo do tempo Becker 2015 destaca que se não houver variabilidade em um sentido absoluto não é possível detectar determinado fenômeno Algumas das medidas importantes de variação são a amplitude o desvio padrão a variância e o coeficiente de variação Para além de encontrar seus valores numéricos é fundamental desenvolver a habilidade de interpretar e compreender esses valores TRIOLA 2017 Uma ilustração visual da variação pode ser observada na Figura 1 Renda das famílias do município A R300000 R250000 R200000 R150000 R100000 R50000 R000 A 0 2 4 6 8 10 12 Renda das famílias do município B R300000 R250000 R200000 R150000 R100000 R50000 R000 B 0 2 4 6 8 10 12 Figura 1 Gráficos de dispersão da renda das famílias Na Figura 1a são apresentadas as rendas de dez famílias do município A e na Figura 1b as rendas de dez famílias do município B É possível observar que a renda das famílias do município B tem mais variação do que a renda das famílias do município A O gráfico à direita mostra mais espalhamento do que o gráfico à esquerda Essa característica de espalhamento ou variação ou dispersão é tão importante que a medimos com números As medidas de dispersão indicam o grau de variabilidade dos dados ob servados Em outras palavras o quanto os valores observados são próximos ou distantes entre si A amplitude total é a mais simples dessas medidas pois ela é a diferença entre o maior e o menor valor observado KUYVEN 2010 Um exemplo dessa medida pode ser a amplitude térmica a variação que costuma ocorrer ao longo de um dia na temperatura O desviopadrão é a medida de dispersão mais utilizada porque leva em consideração a totalidade dos valores da variável em estudo O desviopadrão considera os desvios em torno da média aritmética e a sua fórmula básica pode ser expressa como a raiz quadrada da média aritmética dos quadrados dos desvios KUYVEN 2010 É importante mencionar que as fórmulas de cál culo são diferentes em seu denominador quando se trata de desviopadrão amostral ou populacional Triola 2017 explica que o desviopadrão é uma medida de quanto os valores de dados se afastam da média A variância por sua vez é o desviopadrão elevado ao quadrado É uma medida de pouca utilidade para descrever um conjunto de dados mas é muito importante na inferência estatística e em combinações de amostras KUYVEN 2010 TRIOLA 2017 Conforme Triola 2017 a variância tem a desvantagem de usar unidades diferentes das unidades dos dados originais o que torna difícil entender como ela se relaciona com o conjunto de dados original Para compreender melhor o desviopadrão é importante destacar que ao se medir a variação em um conjunto de dados amostrais faz sentido começar com as quantidades individuais pelas quais cada valor se afasta da média Para um valor particular x a quantidade de desvio é x x que é a diferença entre o valor individual x e a média Para obter uma estatística que meça a variação é preciso evitar o cancelamento de números positivos e negativos Sendo assim devese somar os valores absolutos como em x x Se for encontrada a média correspondente a essa soma obtêmse o desvio médio absoluto que é a distância média dos dados até a média TRIOLA 2017 No entanto como o desvio médio absoluto requer o uso de valores ab solutos ele usa uma operação que não é algébrica o que cria dificuldades nos métodos de inferência estatística Outro fator relevante é que ele é um estimador viesado o que significa dizer que quando encontrados os desvios médios absolutos para amostras não se tende a atingir o desvio médio abso luto da população Além disso como o desviopadrão baseiase em uma raiz quadrada de uma soma de quadrados se assemelha às fórmulas de distância encontradas na álgebra o que é mais vantajoso TRIOLA 2017 Outra medida que merece destaque é a amplitude semiinterquartílica também conhecida como desvio quartílico que é indicada por Q e é definida por 3 1 2 em que Q 1 e Q 3 são o primeiro e o terceiro quartis A amplitude interquartílica Q 3 Q 1 é usada algumas vezes mas a amplitude semiinterquartílica é mais comum como medida de dispersão SPIEGEL STEPHENS 2009 Já a amplitude entre os percentis 10 e 90 é definida por P 90 P 10 em que P 10 e P 90 são o 10 e 90 percentis referentes aos dados A semiamplitude 2 90 percentílica entre 10 e 90 1 P P também pode ser usada mas normal 10 mente isso não ocorre SPIEGEL STEPHENS 2009 Nesse contexto a regra empírica ajuda a interpretar o valor de um desvio padrão Conforme Triola 2017 essa regra estabelece que para conjuntos de dados que tenham uma distribuição aproximadamente normal aplicamse as seguintes propriedades i cerca de 68 de todos os valores ficam a até um desviopadrão da média ii cerca de 95 de todos os valores ficam a até dois desviospadrão da média e iii cerca de 997 de todos os valores ficam a até três desviospadrão da média como mostra a Figura 2 Figura 2 Regra empírica Fonte Adaptada de Triola 2017 Cabe ressaltar que quando comparada a variação em dois conjuntos de dados diferentes os desviospadrão só devem ser comparados se os dois conjuntos de dados usarem as mesmas escala e unidades de medida e tiverem aproximadamente a mesma média Quando as médias forem diferentes ou as amostras usarem escalas ou unidades de medida diferentes utilizase o coeficiente de variação TRIOLA 2017 Além de contornar esses problemas para caracterizar a dispersão ou a variabilidade dos dados em termos relativos ao seu valor médio utilizase o coeficiente de variação Você pode saber mais sobre as medidas de dispersão consultando o Capítulo 4 da obra Estatística de Spiegel e Stephens 2009 Nesta seção você conheceu os conceitos de variação dispersão ampli tude entre percentis 10 e 90 e a lógica do cálculo do desviopadrão As ideias apresentadas buscaram estabelecer conexão com o cotidiano por meio de situações com as quais nos deparamos A seguir você aprofundará o estudo ao diferenciar as medidas de tendência central das medidas de dispersão Medidas de tendência central e de dispersão Para conhecer as fórmulas matemáticas das medidas de tendência central e de dispersão é importante primeiramente diferenciálas Conforme Kuyven 2010 as medidas de tendência central indicam o padrão de respostas de uma variável e mostram o valor que se localiza no meio de um conjunto de dados ordenados Já as medidas de dispersão informam o quão distantes estão os dados uns dos outros Dentre as medidas de tendência central que apresentaremos estão a média a mediana e a moda Dentre as medidas de dispersão estão a amplitude total o desviopadrão a variância e o coeficiente de variação Conforme Larson e Farber 2015 a média de um conjunto de dados é dada pela soma dos valores dos dados dividida pelo número de observa ções Downing e Clark 2010 apresentam a fórmula para o cálculo da média considerando n números x 1 x 2 x 3 x n A média amostral é expressa pelo s í m b o l o X e n q u a n t o a m é d i a p o p u l a c i o n a l é e x p r e ss a p o r μ e t e m a s e g u i n t e representação matemática 1 2 3 1 1 Já a mediana é o ponto ou elemento a meio caminho dos dados ou seja metade dos números está acima dela e metade abaixo Um procedimento importante para o cálculo da mediana é ordenar a lista de valores DOWNING CLARK 2010 Nesse contexto Kuyven 2010 define a mediana como um valor que está no meio dos dados quando o conjunto de dados está ordenado A mediana indica o centro de um conjunto de dados ordenado de modo que dividido em duas partes com quantidades iguais de valores temse o resultado da mediana Havendo no conjunto de dados um número ímpar de observações a mediana é o elemento do meio havendo um número par de observações a mediana é a média dos dois elementos que ocupam as posições centrais Existem duas fórmulas para encontrar a posição da mediana que são muito úteis quando o conjunto de dados é extenso Observe Se n for ímpar Se n for par 1 2 2 3 2 2 1 2 onde n é o tamanho da amostra e X é a variável de interesse no estudo A moda é caracterizada pelo valor que ocorre com maior frequência Ha vendo mais de um valor nessas condições todos eles serão denominados modas Em outras palavras uma distribuição pode ter mais do que uma moda no caso em que houver duas modas esta será chamada de distribuição bimodal DOWNING CLARK 2010 LARSON FARBER 2015 A amplitude total é uma medida de dispersão O termo dispersão indica o grau de afastamento de um conjunto de números em relação à sua média Uma das maneiras de medir a dispersão consiste simplesmente em fazer a diferença entre o maior e o menor valor Essa grandeza é denominada am plitude DOWNING CLARK 2010 O desviopadrão mede a variação dos dados com relação à média tendo a mesma unidade de medida que o conjunto de dados Ele é sempre maior ou igual a zero nesse caso igual a zero significa que o conjunto de dados não apresenta variação ou seja todos os elementos têm o mesmo valor À medida que os valores se afastam da média mais dispersos são os dados portanto maior será o desviopadrão LARSON FARBER 2015 A fórmula do desviopadrão amostral é dada por 1 2 4 Dito de outra maneira essa fórmula indica a realização dos seguintes passos Calcular a média do conjunto de dados amostrais Subtrair a média de cada valor de x Elevar ao quadrado cada resultado do passo 2 Somar todos os resultados do passo 3 Dividir a soma do passo 4 por n 1 quando os dados forem amostrais Observação para dados populacionais dividese a soma por N Extrair a raiz quadrada do resultado da soma O cálculo do desviopadrão amostral difere do desviopadrão popula cional No caso do desviopadrão amostral depois de encontrar todos o s v a l o r e s i n d i v i d u a i s X X ² e l e s s ã o c o m b i n a d o s d e a c o r d o c o m s u a s o m a e a seguir divididos por n 1 porque há apenas n 1 valores independentes Dada uma média de n elementos apenas n 1 deles podem ser associados a qualquer número antes que o último valor seja determinado A divisão por n 1 faz com que a variância amostral s 2 tenda para o valor da variância populacional σ 2 ao passo que a divisão apenas por N como é o caso do desviopadrão popu lacional faz com que a variância amostral s 2 subestime a variância populacional σ 2 TRIOLA 2017 A variância é o desviopadrão elevado ao quadrado sendo simbolizada por σ 2 quando se refere à população e por s 2 quando se refere à amostra A variância tem pouca utilidade como estatística descritiva porém é muito importante na inferência estatística e em combinações de amostras A fórmula da variância amostral é dada por 2 2 1 5 O coeficiente de variação é a razão entre o desviopadrão e a média refe rentes a dados de uma mesma série Sua fórmula em percentual é dada por 100 para populações 6 100 para amostras 7 Nesta seção vimos a diferença entre medida de tendência central e medida de dispersão Conhecemos as principais delas em seus conceitos fórmulas e pontos de atenção A seguir aprofundaremos o estudo das medidas de dispersão especialmente no que se refere ao cálculo da amplitude do desvio padrão da variância e do coeficiente de variação de um conjunto de dados Conhecendo o comportamento dos dados Como vimos para conhecer o comportamento de um conjunto de dados faze mos uso das medidas estatísticas Nosso enfoque aqui será para as medidas de dispersão amplitude desviopadrão variância e coeficiente de variação Os dados utilizados são fictícios e referemse a uma amostra da renda de dez famílias dos municípios A e B O Quadro 1 apresenta o conjunto de dados Quadro 1 Renda das famílias Renda das famílias do município A R287000 R280000 R291000 R290500 R289000 R285000 R290500 R289000 R289000 R282000 Renda das famílias do município B R110000 R240000 R115000 R120000 R180000 R250000 R230000 R130000 R260000 R90000 Para calcular as medidas de dispersão será utilizado o Excel Como a amplitude total não possui uma fórmula específica para o seu cálculo no Excel buscamos por meio das funções do Excel quais são os valores máximo e mínimo do conjunto de dados Para encontrar o valor máximo utilizase a função MÁXIMO para cada conjunto de dados separadamente ou seja selecionamse os dados da renda das famílias do município A e depois os dados da renda das famílias do município B como mostra a Figura 3 Figura 3 Encontrando o valor máximo dos conjuntos de dados O cálculo do valor mínimo é análogo ou seja utilizase a função MÍNIMO para cada conjunto de dados separadamente como mostra a Figura 4 Figura 4 Encontrando o valor mínimo dos conjuntos de dados Agora é possível calcular a amplitude dos dados que será a diferença entre o maior valor do conjunto de dados e o menor valor do mesmo conjunto como mostra a Figura 5 Figura 5 Calculando a amplitude total dos conjuntos de dados Com isso constatase que a amplitude da renda das famílias do município A que é igual a R 11000 é menor do que a observada no município B que é de R 170000 Isso significa dizer que existe uma grande variação no município B comparativamente ao A em outras palavras os valores das rendas das famílias do município B são mais distantes umas das outras Seguimos com o cálculo do desviopadrão para cada conjunto de dados A e B O cálculo do desviopadrão é realizado utilizando a função DESVPADA o que indica que será calculado o desviopadrão amostral isso está indicado por A na fórmula Quando o estudo envolve dados de toda a população devese escolher a opção DESVPADP Observe a Figura 6 Figura 6 Calculando o desviopadrão dos conjuntos de dados O desviopadrão nos permite observar que há um afastamento de R 3795 na renda das famílias do município A em relação à média e um afastamento de R 66802 na renda das famílias do município B em relação à média A variância é encontrada utilizandose a função VARA o que indica que será calculada a variância amostral indicado por A na fórmula Quando o estudo envolve dados de toda a população devese escolher a opção VARP Observe a Figura 7 A interpretação da variância absoluta não tem muito sentido prático por se tratar de uma medida quadrática Isso pode ser observado pelos resultados retornados pelo Excel sendo R 144000 a variância da renda das famílias do município A e R 44625000 a variância da renda das famílias do município B Figura 7 Calculando a variância dos conjuntos de dados Assim como a amplitude total o coeficiente de variação também não possui uma fórmula específica para o seu cálculo no Excel mas é sabido que ele é calculado pela divisão do desviopadrão pela média do conjunto de dados e por fim multiplicado por 100 para ter a resposta em percentual como mostra a Figura 8 Figura 8 Calculando o coeficiente de variação dos conjuntos de dados O coeficiente de variação analisa a dispersão em termos relativos por isso é dado em percentual Quanto menor for o valor do coeficiente de variação mais homogêneos serão os dados ou seja menor será a dispersão em torno da média Analisando a renda das famílias do município A verificase que há baixa dispersão nas rendas os dados são homogêneos pois o valor retor nado foi de 132 para o CV Já no caso da renda das famílias do município B observase alta dispersão e os dados são heterogêneos pois o valor retornado foi de 3873 para o CV Você pode saber mais sobre outro software utilizado para calcular as medidas de dispersão consultando o Capítulo 3 da obra Método quantitativo com o uso de software de Raupp 2012 Nesta seção você percebeu a aplicabilidade dos conceitos teóricos estu dados nas duas primeiras seções especialmente no que se refere às medidas de dispersão Pode assim constatar que é possível realizar os cálculos de forma mais eficiente e rápida por meio do Excel bem como identificar a interpretação prática das medidas estatísticas Esta obra apresentou técnicas importantes para a atividade profissional nas mais diversas áreas do conhecimento pois a estatística está presente em tudo o que nos acompanha diariamente Para compreender o mundo que nos cerca precisamos entender o que as informações que nos chegam estão efetivamente expressando É claro que o assunto não se esgota aqui por isso sugerese a continuidade dos estudos Referências BECKER J L Estatística básica transformando dados em informação Porto Alegre Bookman 2015 Série Métodos de Pesquisa Ebook DOWNING D CLARK J Estatística aplicada 2 ed São Paulo Saraiva 2010 KUYVEN P S Raciocínio lógico e métodos quantitativos São Leopoldo Unisinos 2010 LARSON R FARBER B Estatística aplicada São Paulo Pearson 2015 SPIEGEL M R STEPHENS L J Estatística 4 ed Porto Alegre Bookman 2009 Coleção Schaum Ebook TRIOLA M F Introdução à estatística 12 ed Rio de Janeiro LTC 2017 Leitura recomendada RAUPP C A F Método quantitativo com o uso de software São Leopoldo Unisinos 2012 10 E s t a t í s t i c a a p l i c a d a m e d i d a s d e d i s p e r s ã o E s t a t í s t i c a a p l i c a d a m e d i d a s d e d i s p e r s ã o 13