55
Bioestatística
UFMA
41
Bioestatística
UFMA
40
Bioestatística
UFMA
57
Bioestatística
UFMA
43
Bioestatística
UFMA
37
Bioestatística
UFMA
17
Bioestatística
UFMA
61
Bioestatística
UFMA
43
Bioestatística
UFMA
56
Bioestatística
UFMA
Texto de pré-visualização
BIOESTATÍSTICA20252 Aula 2 Prof Antonio Carlos Leal de Castro Medidas de Tendência Central MEDIDAS DE POSIÇÃO Introdução São as estatísticas que representam uma série de dados orientandonos quanto à posição da distribuição em relação ao eixo horizontal do gráfico da curva de frequência Mostram o valor representativo em torno do qual os dados tendem a agruparse com maior ou menor frequência São utilizadas para sintetizar em um único número o conjunto de dados observados As medidas de posições mais importantes são as medidas de tendência central ou promédias verificase uma tendência dos dados observados a se agruparem em torno dos valores centrais As medidas de tendência central mais utilizadas são média aritmética moda e mediana Outros promédios menos usados são as médias geométrica harmônica quadrática cúbica e biquadrática As outras medidas de posição são as separatrizes que englobam a própria mediana os decis os quartis e os percentis MÉDIA ARITMÉTICA É igual ao quociente entre a soma dos valores do conjunto e o número total dos valores onde xi são os valores da variável e n o número de valores Dados nãoagrupados Quando desejamos conhecer a média dos dados nãoagrupados em tabelas de frequências determinamos a média aritmética simples Ex Sabendose que a variação diária de precipitação pluviométrica durante uma semana foi de 10 14 13 15 16 18 e 12 mm temos para média de variação diária na semana de 10141315161812 7 14 mm Desvio em relação à média é a diferença entre cada elemento de um conjunto de valores e a média aritmética ou seja di Xi No exemplo anterior temos sete desvios d1 10 14 4 d2 14 14 0 d3 13 14 1 d4 15 14 1 d5 16 14 2 d6 18 14 4 e d7 12 14 2 Dados agrupados Sem intervalos de classe Consideremos a distribuição relativa a 34 famílias tomando para variável o número de filhos do sexo masculino Calcularemos a quantidade média de meninos por família Nº de meninos freqüência fi 0 2 1 6 2 10 3 12 4 4 total 34 Como as frequências são números indicadores da intensidade de cada valor da variável elas funcionam como fatores de ponderação o que nos leva a calcular a média aritmética ponderada dada pela fórmula xi fi xifi 0 2 0 1 6 6 2 10 20 3 12 36 4 4 16 total 34 78 onde 78 34 23 meninos por família Com intervalos de classe População Amostra μ i1kxifiN X i1kxifin Exemplo Suponha que tenhamos feito uma coleta de dados relativos às estaturas de 40 alunos que compõem uma amostra dos alunos de um colégio A resultando a seguinte tabela de valores i Estaturas cm Fi xi xi Fi 01 150 154 04 152 608 02 154 158 09 156 1404 03 158 162 11 160 1760 04 162 166 08 164 1312 05 166 170 05 168 840 06 170 174 03 172 516 Σ 40 Σ 6440 Temos neste caso i1nxi Fi 6440 e i1nFi 40 Logo X 644040161 X 161cm Ex Calcular a altura média de bebês conforme a tabela abaixo Estaturas cm freqüência fi ponto médio xi xifi 50 54 4 52 208 54 58 9 56 504 58 62 11 60 660 62 66 8 64 512 66 70 5 68 340 70 74 3 72 216 Total 40 2440 Aplicando a fórmula acima temos 2440 40 61 logo 61 cm MODA Mo É o valor que ocorre com maior frequência em uma série de valores Desse modo o salário modal dos empregados de uma fábrica é o salário mais comum isto é o salário recebido pelo maior número de empregados dessa fábrica A Moda quando os dados não estão agrupados A moda é facilmente reconhecida basta de acordo com definição procurar o valor que mais se repete Ex Na série 7 8 9 10 10 10 11 12 a moda é igual a 10 Há séries nas quais não exista valor modal isto é nas quais nenhum valor apareça mais vezes que outros Ex 3 5 8 10 12 não apresenta moda A série é amodal Em outros casos pode haver dois ou mais valores de concentração Dizemos então que a série tem dois ou mais valores modais Ex 2 3 4 4 4 5 6 7 7 7 8 9 apresenta duas modas 4 e 7 A série é bimodal A Moda quando os dados estão agrupados a Sem intervalos de classe Uma vez agrupados os dados é possível determinar imediatamente a moda basta fixar o valor da variável de maior freqüência Ex Qual a temperatura mais comum medida no mês abaixo Resp 2º C é a temperatura modal pois é a de maior freqüência b Com intervalos de classe A classe que apresenta a maior frequência é denominada classe modal Pela definição podemos afirmar que a moda neste caso é o valor dominante que está compreendido entre os limites da classe modal Temperaturas Freqüência 0º C 3 1º C 9 2º C 12 3º C 6 F h F F Li MODA Onde Li limite inferior da classe modal F frequência posterior à classe modal F F frequência anterior à classe modal h intervalo de classe MEDIANA Md A mediana de um conjunto de valores dispostos segundo uma ordem crescente ou decrescente é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos A mediana em dados nãoagrupados Dada uma série de valores como por exemplo 5 2 6 13 9 15 10 De acordo com a definição de mediana o primeiro passo a ser dado é o da ordenação crescente ou decrescente dos valores 2 5 6 9 10 13 15 O valor que divide a série acima em duas partes iguais é igual a 9 logo a Md 9 Método prático para o cálculo da Mediana Se a série dada tiver número ímpar de termos O valor mediano será o termo de ordem dado pela fórmula Md Ex Calcule a mediana da série 1 3 0 0 2 4 1 2 5 1º ordenar a série 0 0 1 1 2 2 3 4 5 n 9 logo n 12 é dado por 91 2 5 ou seja o 5º elemento da série ordenada será a mediana A mediana será o 5º elemento 2 2 x n1 Dados Simples MEDIANA série par MEDIANA série impar Dados Agrupados MEDIANA 2 2 1 2 n n x x 2 n1 x h f F f L a i 2 Se a série dada tiver número par de termos O valor mediano será o termo de ordem dado pela fórmula Md Ex Calcule a mediana da série 1 3 0 0 2 4 1 3 5 6 1º ordenar a série 0 0 1 1 2 3 3 4 5 6 n 10 logo a fórmula ficará 102 102 1 2 5 6 2 será na realidade 5º termo 6º termo 2 5º termo 2 6º termo 3 A mediana será 23 2 ou seja Md 25 A mediana no exemplo será a média aritmética do 5º e 6º termos da série 2 2 1 2 n n x x Notas Quando o número de elementos da série estatística for ímpar haverá coincidência da mediana com um dos elementos da série Quando o número de elementos da série estatística for par nunca haverá coincidência da mediana com um dos elementos da série A mediana será sempre a média aritmética dos 2 elementos centrais da série Em uma série a mediana a média e a moda não têm necessariamente o mesmo valor A mediana depende da posição e não dos valores dos elementos na série ordenada Essa é uma da diferenças marcantes entre mediana e média que se deixa influenciar e muito pelos valores extremos Vejamos Em 5 7 10 13 15 a média 10 e a mediana 10 Em 5 7 10 13 65 a média 20 e a mediana 10 isto é a média do segundo conjunto de valores é maior do que a do primeiro por influência dos valores extremos ao passo que a mediana permanece a mesma A mediana em dados agrupados a Sem intervalos de classe Neste caso é o bastante identificar a freqüência acumulada imediatamente superior à metade da soma das freqüências A mediana será aquele valor da variável que corresponde a tal freqüência acumulada Ex conforme tabela abaixo Quando o somatório das freqüências for ímpar o valor mediano será o termo de ordem dado pela fórmula Como o somatório das freqüências 35 a fórmula ficará 351 2 18º termo 3 Variável xi Freqüência fi Freqüência acumulada 0 2 2 1 6 8 2 9 17 3 13 30 4 5 35 total 35 Quando o somatório das freqüências for par o valor mediano será o termo de ordem dado pela fórmula Ex Calcule Mediana da tabela abaixo Aplicando fórmula acima teremos82 8212 4º termo 5º termo 2 15 16 2 155 Variável xi Freqüência fi Freqüência acumulada 12 1 1 14 2 3 15 1 4 16 2 6 17 1 7 20 1 8 total 8 b Com intervalos de classe Devemos seguir os seguintes passos 1º Determinamos as freqüências acumuladas 2º Calculamos 3º Marcamos a classe correspondente à frequência acumulada imediatamente superior à Tal classe será a classe mediana 4º Calculamos a Mediana pela seguinte fórmula Li é o limite inferior da classe mediana Fa é a frequência acumulada da classe anterior à classe mediana f é a frequência simples da classe mediana h é a amplitude do intervalo da classe mediana h f F f L a i 2 MEDIANA Ex 40 2 20 logoa classe mediana será 58 62 Li 58 Fa 13 f 11 h 4 Substituindo esses valores na fórmula obtemos Md 58 20 13 x 4 11 58 2811 6054 OBS Esta mediana é estimada pois não temos os 40 valores da distribuição Emprego da Mediana Quando desejamos obter o ponto que divide a distribuição em duas partes iguais Quando há valores extremos que afetam de maneira acentuada a média aritmética classes freqüência fi Freqüência acumulada 50 54 4 4 54 58 9 13 58 62 11 24 62 66 8 32 66 70 5 37 70 74 3 40 total 40 Gráficos simétrico e assimétrico à direita e à esquerda Considerações IMPORTANTES sobre as Medidas de Tendência Central 1 A média é a MTC mais influenciada por valores extremos entretanto é a medida mais rica porque considera todos valores do conjunto de dados 2 A mediana não é afetada por valores extremos 3 A moda é a MTC mais pobre porque considera apenas os valores mais frequentes 4 Existem outros tipos de média usadas em ocasiões especiais A média harmônica é muito utilizada em concursos públicos e a geométrica pode ser usada em situações de alta variabilidade visto que ela é mais estável SEPARATRIZES Além das medidas de posição que estudamos há outras que consideradas individualmente não são medidas de tendência central mas estão ligadas à mediana relativamente à sua característica de separar a série em duas partes que apresentam o mesmo número de valores Essas medidas os quartis os decis e os percentis são juntamente com a mediana conhecidas pelo nome genérico de separatrizes QUARTIS Q Denominamos quartis os valores de uma série que a dividem em quatro partes iguais Precisamos portanto de 3 quartis Q1 Q2 e Q3 para dividir a série em quatro partes iguais Obs O quartil 2 Q2 SEMPRE SERÁ IGUAL A MEDIANA DA SÉRIE Quartis em dados não agrupados O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis Na realidade serão calculadas 3 medianas em uma mesma série Ex 1 Calcule os quartis da série 5 2 6 9 10 13 15 O primeiro passo a ser dado é o da ordenação crescente ou decrescente dos valores 2 5 6 9 10 13 15 O valor que divide a série acima em duas partes iguais é igual a 9 logo a Md 9 que será Q2 9 Temos agora 2 5 6 e 10 13 15 como sendo os dois grupos de valores iguais proporcionados pela mediana quartil 2 Para o cálculo do quartil 1 e 3 basta calcular as medianas das partes iguais provenientes da verdadeira Mediana da série quartil 2 Logo em 2 5 6 a mediana é 5 Ou seja será o quartil 1 Q1 5 em 10 13 15 a mediana é 13 Ou seja será o quartil 3 Q 13 Quartis para dados agrupados em classes Usamos a mesma técnica do cálculo da mediana bastando substituir na fórmula da mediana Ʃ fi 2 por k Ʃ fi 4 sendo k o número de ordem do quartil Assim temos Q1 Li Ʃ fi 4 Fa x h f Q2 Li 2 Ʃ fi 4 Fa x h f Q3 Li 3 Ʃ fi 4 Fa x h f Ex Calcule os quartis da tabela abaixo classes freqüência fi Freqüência acumulada 50 54 4 4 54 58 9 13 58 62 11 24 62 66 8 32 66 70 5 37 70 74 3 40 total 40 O quartil 2 Md logo 40 2 20 logoa classe mediana será 58 62 l 58 FAA 13 f 11 h 4 Q2 l 2 Ʃ fi 4 FAA x h f Substituindo esses valores na fórmula obtemos Md 58 20 13 x 4 11 58 2811 6054 Q2 O quartil 1 Ʃ fi 4 10 Q1 l Ʃ fi 4 FAA x h f Q1 54 10 4 x 4 9 54 266 5666 Q1 O quartil 3 3E fi 4 30 Q3 l 3 Ʃ fi 4 FAA x h f Q3 62 30 24 x 4 8 62 3 65 Q3 DECIS D A definição dos decis obedece ao mesmo princípio dos quartis com a modificação da porcentagem de valores que ficam aquém e além do decil que se pretende calcular A fórmula básica será k Ʃ fi 10 onde k é o número de ordem do decil a ser calculado Indicamos os decis D1 D2 D9 Deste modo precisamos de 9 decis para dividirmos uma série em 10 partes iguais De especial interesse é o quinto decil que divide o conjunto em duas partes iguais Assim sendoo QUINTO DECIL É IGUAL AO SEGUNDO QUARTIL que por sua vez É IGUAL À MEDIANA Para D5 temos 5 Ʃ fi 10 Ʃ fi 2 Ex Calcule o 3º decil da tabela anterior com classes k 3 onde 3 Ʃ fi 10 3 x 40 10 12 Este resultado corresponde a 2ª classe D3 54 12 4 x 4 9 54 355 5755 D3 INTERVALO DE CONFIANÇA DA MÉDIA PX 196 σn μ X 196 σn095 IC95 x196 σn e x 196 σn ou x 196 σn Dispersão ou Variabilidade É a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central média ou mediana tomado como ponto de comparação São medidas que complementam as medidas de tendência central trazendo informação sobre a dispersão existente no conjunto de dados A média ainda que considerada como um número que tem a faculdade de representar uma série de valores não pode por si mesma destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto MEDIDAS DE DISPERSÃO OU VARIABILIDADE Consideremos os seguintes conjuntos de valores das variáveis X Y e Z X 70 70 70 70 70 Y 68 69 70 71 72 Z 5 15 50 120 160 Observamos então que os três conjuntos apresentam a mesma média aritmética 3505 70 Entretanto é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z já que todos os valores são iguais à média O conjunto Y por sua vez é mais homogêneo que o conjunto Z pois há menor diversificação entre cada um de seus valores e a média representativa Concluímos então que o conjunto X apresenta DISPERSÃO NULA e que o conjunto Y apresenta uma DISPERSÃO MENOR que o conjunto Z 4 MEDIDAS DE DISPERSÃO ABSOLUTA AMPLITUDE TOTAL É a única medida de dispersão que não tem na média o ponto de referência Quando os dados não estão agrupados a amplitude total é a diferença entrE o maior e o menor valor observado AT X máximo X mínimo Ex Para os valores 40 45 48 62 e 70 a amplitude total será AT 70 40 30 Quando os dados estão agrupados sem intervalos de classe ainda temos AT X máximo X mínimo Ex xi fi 0 2 1 6 3 5 4 3 AT 10 4 6 A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série descuidando do conjunto de valores intermediários Fazse uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia no controle de qualidade ou como uma medida de cálculo rápido sem muita exatidão Classes fi 4 6 6 6 8 2 8 10 3 Com intervalos de classe a AMPLITUDE TOTAL é a diferença entre o limite superior da última classe e o limite inferior da primeira classe Então AT L máximo l mínimo Ex DESVIO PADRÃO s É a medida de dispersão mais geralmente empregada pois leva em consideração a totalidade dos valores da variável em estudo É um indicador de variabilidade bastante estável O desvio padrão baseiase nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida como a raiz quadrada da média aritmética dos quadrados dos desvios e é representada pela letra s A fórmula acima é empregada quando tratamos de uma população de dados nãoagrupados Quando nosso interesse não se restringe à descrição dos dados mas partindo da amostra visamos tirar inferências válidas para a respectiva população convém efetuar uma modificação que consiste em usar o divisor n 1 em lugar de n A fórmula ficará então VARIÂNCIA s2 É o desvio padrão elevado ao quadrado A variância é uma medida que tem pouca utilidade como estatística descritiva porém é extremamente importante na inferência estatística e em combinações de amostras VARIÂNCIA s2 A variância é uma medida da variação em torno da média Por definição variância é a média dos quadrados dos desvios em torno da média A variância ao contrário da Amplitude considera todos elementos do conjunto de dados no seu cálculo Quanto maior for a variação dos valores do conjunto de dados maior será a variância Variância Desvio padrão Desvio padrão populacional Desvio padrão amostral Exemplo Dados simples Tipo A nível de colesterol 233 291 312 250 246 197 268 224 239 239 254 276 234 181 248 252 202 218 212 325 Variância S² 23324505²32524505²19 134237 mg100ml² Desvio padrão S 134237 3664 mg100ml Coeficiente de variação 3664 24505 x 100 1495 Tipo B nível de colesterol 344 185 263 246 224 212 188 250 148 169 226 175 242 252 153 183 137 202 194 213 Variância S² Desvio padrão S Coeficiente de variação ou Cálculo do desvio padrão e da variância Dados agrupados população Variância amostral Desvio padrão amostra Peso Kg f xi fxi xi x2 f xi x2 4044 2 42 84 4250772 2 4250772 4448 5 46 230 4650772 5 4650772 4852 9 50 450 5050772 9 5050772 5256 6 54 324 5450772 6 5450772 5660 4 58 232 5850772 4 5850772 X 5077 Ʃf 26 Ʃfx 1320 Ʃ f xi x2 54461 S2 2178 S 466 Cálculo da Variância Peso de 26 alunos Exemplo Calcule a variância e o desvio padrão da série abaixo representativa de uma população Primeiro calculamos a média X Σi1 to n xᵢFᵢ Σi1 to n Fᵢ 73 20 365 MEDIDAS DE DISPERSÃO RELATIVA Coeficiente de Variação de Pearson Na estatística descritiva o desvio padrão por si só tem grandes limitações Assim um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200 no entanto se a média for igual a 20 o mesmo não pode ser dito Além disso o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores relativamente à sua dispersão ou variabilidade quando expressas em unidades diferentes Para contornar essas dificuldades e limitações podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio medida essa denominada de CVP Coeficiente de Variação de Pearson É A RAZÃO ENTRE O DESVIO PADRÃO E A MÉDIA REFERENTES A DADOS DE UMA MESMA SÉRIE o resultado neste caso é expresso em percentual entretanto pode ser expresso também através de um fator decimal desprezando assim o valor 100 da fórmula Ex Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos Discriminação M É D I A DESVIO PADRÃO ESTATURAS 175 cm 50 cm PESOS 68 kg 20 kg Qual das medidas Estatura ou Peso possui maior homogeneidade Resposta Teremos que calcular o CVP da Estatura e o CVP do Peso O resultado menor será o de maior homogeneidade menor dispersão ou variabilidade CVP estatura 5 175 x 100 285 CVP peso 2 68 x 100 294 Logo nesse grupo de indivíduos as estaturas apresentam menor grau de dispersão que os pesos Considerações sobre as Medidas de Variabilidade MV 1 A Amplitude á a MV mais pobre porque considera apenas os dois valores extremos do conjunto de dados 2 A Variância não é interpretada na prática devido ao problema da unidade que está ao quadrado 3 O Desviopadrão é a MV mais conhecida sendo amplamente utilizada 4 Dentre as MV estudadas sugerese que o CV seja utilizado para comparação da variabilidade entre diferentes conjuntos de dados Por não ter unidade o CV pode ser utilizado até mesmo para comparar a variabilidade entre variáveis expressas em diferentes unidades EXERCÍCIO 1BIOESTATÍSTICA20211 NÍVEL DE RUÍDO NO TRÁFICO DE AUTOMÓVEIS NO MUNICÍPIO DE SÃO LUÍS Agrupar os dados em distribuição de frequência adotando a metodologia auxiliar de Sturges Calcular a frequência absoluta relativa e acumulada Elaborar gráficos na forma de Histograma e Polígono de frequência Calcule a média moda mediana Quartil 1 e Quartil 3 NÍVEL DE RUÍDO NO TRÁFICO DE AUTOMÓVEIS NO MUNICÍPIO DE SÃO LUÍS
55
Bioestatística
UFMA
41
Bioestatística
UFMA
40
Bioestatística
UFMA
57
Bioestatística
UFMA
43
Bioestatística
UFMA
37
Bioestatística
UFMA
17
Bioestatística
UFMA
61
Bioestatística
UFMA
43
Bioestatística
UFMA
56
Bioestatística
UFMA
Texto de pré-visualização
BIOESTATÍSTICA20252 Aula 2 Prof Antonio Carlos Leal de Castro Medidas de Tendência Central MEDIDAS DE POSIÇÃO Introdução São as estatísticas que representam uma série de dados orientandonos quanto à posição da distribuição em relação ao eixo horizontal do gráfico da curva de frequência Mostram o valor representativo em torno do qual os dados tendem a agruparse com maior ou menor frequência São utilizadas para sintetizar em um único número o conjunto de dados observados As medidas de posições mais importantes são as medidas de tendência central ou promédias verificase uma tendência dos dados observados a se agruparem em torno dos valores centrais As medidas de tendência central mais utilizadas são média aritmética moda e mediana Outros promédios menos usados são as médias geométrica harmônica quadrática cúbica e biquadrática As outras medidas de posição são as separatrizes que englobam a própria mediana os decis os quartis e os percentis MÉDIA ARITMÉTICA É igual ao quociente entre a soma dos valores do conjunto e o número total dos valores onde xi são os valores da variável e n o número de valores Dados nãoagrupados Quando desejamos conhecer a média dos dados nãoagrupados em tabelas de frequências determinamos a média aritmética simples Ex Sabendose que a variação diária de precipitação pluviométrica durante uma semana foi de 10 14 13 15 16 18 e 12 mm temos para média de variação diária na semana de 10141315161812 7 14 mm Desvio em relação à média é a diferença entre cada elemento de um conjunto de valores e a média aritmética ou seja di Xi No exemplo anterior temos sete desvios d1 10 14 4 d2 14 14 0 d3 13 14 1 d4 15 14 1 d5 16 14 2 d6 18 14 4 e d7 12 14 2 Dados agrupados Sem intervalos de classe Consideremos a distribuição relativa a 34 famílias tomando para variável o número de filhos do sexo masculino Calcularemos a quantidade média de meninos por família Nº de meninos freqüência fi 0 2 1 6 2 10 3 12 4 4 total 34 Como as frequências são números indicadores da intensidade de cada valor da variável elas funcionam como fatores de ponderação o que nos leva a calcular a média aritmética ponderada dada pela fórmula xi fi xifi 0 2 0 1 6 6 2 10 20 3 12 36 4 4 16 total 34 78 onde 78 34 23 meninos por família Com intervalos de classe População Amostra μ i1kxifiN X i1kxifin Exemplo Suponha que tenhamos feito uma coleta de dados relativos às estaturas de 40 alunos que compõem uma amostra dos alunos de um colégio A resultando a seguinte tabela de valores i Estaturas cm Fi xi xi Fi 01 150 154 04 152 608 02 154 158 09 156 1404 03 158 162 11 160 1760 04 162 166 08 164 1312 05 166 170 05 168 840 06 170 174 03 172 516 Σ 40 Σ 6440 Temos neste caso i1nxi Fi 6440 e i1nFi 40 Logo X 644040161 X 161cm Ex Calcular a altura média de bebês conforme a tabela abaixo Estaturas cm freqüência fi ponto médio xi xifi 50 54 4 52 208 54 58 9 56 504 58 62 11 60 660 62 66 8 64 512 66 70 5 68 340 70 74 3 72 216 Total 40 2440 Aplicando a fórmula acima temos 2440 40 61 logo 61 cm MODA Mo É o valor que ocorre com maior frequência em uma série de valores Desse modo o salário modal dos empregados de uma fábrica é o salário mais comum isto é o salário recebido pelo maior número de empregados dessa fábrica A Moda quando os dados não estão agrupados A moda é facilmente reconhecida basta de acordo com definição procurar o valor que mais se repete Ex Na série 7 8 9 10 10 10 11 12 a moda é igual a 10 Há séries nas quais não exista valor modal isto é nas quais nenhum valor apareça mais vezes que outros Ex 3 5 8 10 12 não apresenta moda A série é amodal Em outros casos pode haver dois ou mais valores de concentração Dizemos então que a série tem dois ou mais valores modais Ex 2 3 4 4 4 5 6 7 7 7 8 9 apresenta duas modas 4 e 7 A série é bimodal A Moda quando os dados estão agrupados a Sem intervalos de classe Uma vez agrupados os dados é possível determinar imediatamente a moda basta fixar o valor da variável de maior freqüência Ex Qual a temperatura mais comum medida no mês abaixo Resp 2º C é a temperatura modal pois é a de maior freqüência b Com intervalos de classe A classe que apresenta a maior frequência é denominada classe modal Pela definição podemos afirmar que a moda neste caso é o valor dominante que está compreendido entre os limites da classe modal Temperaturas Freqüência 0º C 3 1º C 9 2º C 12 3º C 6 F h F F Li MODA Onde Li limite inferior da classe modal F frequência posterior à classe modal F F frequência anterior à classe modal h intervalo de classe MEDIANA Md A mediana de um conjunto de valores dispostos segundo uma ordem crescente ou decrescente é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos A mediana em dados nãoagrupados Dada uma série de valores como por exemplo 5 2 6 13 9 15 10 De acordo com a definição de mediana o primeiro passo a ser dado é o da ordenação crescente ou decrescente dos valores 2 5 6 9 10 13 15 O valor que divide a série acima em duas partes iguais é igual a 9 logo a Md 9 Método prático para o cálculo da Mediana Se a série dada tiver número ímpar de termos O valor mediano será o termo de ordem dado pela fórmula Md Ex Calcule a mediana da série 1 3 0 0 2 4 1 2 5 1º ordenar a série 0 0 1 1 2 2 3 4 5 n 9 logo n 12 é dado por 91 2 5 ou seja o 5º elemento da série ordenada será a mediana A mediana será o 5º elemento 2 2 x n1 Dados Simples MEDIANA série par MEDIANA série impar Dados Agrupados MEDIANA 2 2 1 2 n n x x 2 n1 x h f F f L a i 2 Se a série dada tiver número par de termos O valor mediano será o termo de ordem dado pela fórmula Md Ex Calcule a mediana da série 1 3 0 0 2 4 1 3 5 6 1º ordenar a série 0 0 1 1 2 3 3 4 5 6 n 10 logo a fórmula ficará 102 102 1 2 5 6 2 será na realidade 5º termo 6º termo 2 5º termo 2 6º termo 3 A mediana será 23 2 ou seja Md 25 A mediana no exemplo será a média aritmética do 5º e 6º termos da série 2 2 1 2 n n x x Notas Quando o número de elementos da série estatística for ímpar haverá coincidência da mediana com um dos elementos da série Quando o número de elementos da série estatística for par nunca haverá coincidência da mediana com um dos elementos da série A mediana será sempre a média aritmética dos 2 elementos centrais da série Em uma série a mediana a média e a moda não têm necessariamente o mesmo valor A mediana depende da posição e não dos valores dos elementos na série ordenada Essa é uma da diferenças marcantes entre mediana e média que se deixa influenciar e muito pelos valores extremos Vejamos Em 5 7 10 13 15 a média 10 e a mediana 10 Em 5 7 10 13 65 a média 20 e a mediana 10 isto é a média do segundo conjunto de valores é maior do que a do primeiro por influência dos valores extremos ao passo que a mediana permanece a mesma A mediana em dados agrupados a Sem intervalos de classe Neste caso é o bastante identificar a freqüência acumulada imediatamente superior à metade da soma das freqüências A mediana será aquele valor da variável que corresponde a tal freqüência acumulada Ex conforme tabela abaixo Quando o somatório das freqüências for ímpar o valor mediano será o termo de ordem dado pela fórmula Como o somatório das freqüências 35 a fórmula ficará 351 2 18º termo 3 Variável xi Freqüência fi Freqüência acumulada 0 2 2 1 6 8 2 9 17 3 13 30 4 5 35 total 35 Quando o somatório das freqüências for par o valor mediano será o termo de ordem dado pela fórmula Ex Calcule Mediana da tabela abaixo Aplicando fórmula acima teremos82 8212 4º termo 5º termo 2 15 16 2 155 Variável xi Freqüência fi Freqüência acumulada 12 1 1 14 2 3 15 1 4 16 2 6 17 1 7 20 1 8 total 8 b Com intervalos de classe Devemos seguir os seguintes passos 1º Determinamos as freqüências acumuladas 2º Calculamos 3º Marcamos a classe correspondente à frequência acumulada imediatamente superior à Tal classe será a classe mediana 4º Calculamos a Mediana pela seguinte fórmula Li é o limite inferior da classe mediana Fa é a frequência acumulada da classe anterior à classe mediana f é a frequência simples da classe mediana h é a amplitude do intervalo da classe mediana h f F f L a i 2 MEDIANA Ex 40 2 20 logoa classe mediana será 58 62 Li 58 Fa 13 f 11 h 4 Substituindo esses valores na fórmula obtemos Md 58 20 13 x 4 11 58 2811 6054 OBS Esta mediana é estimada pois não temos os 40 valores da distribuição Emprego da Mediana Quando desejamos obter o ponto que divide a distribuição em duas partes iguais Quando há valores extremos que afetam de maneira acentuada a média aritmética classes freqüência fi Freqüência acumulada 50 54 4 4 54 58 9 13 58 62 11 24 62 66 8 32 66 70 5 37 70 74 3 40 total 40 Gráficos simétrico e assimétrico à direita e à esquerda Considerações IMPORTANTES sobre as Medidas de Tendência Central 1 A média é a MTC mais influenciada por valores extremos entretanto é a medida mais rica porque considera todos valores do conjunto de dados 2 A mediana não é afetada por valores extremos 3 A moda é a MTC mais pobre porque considera apenas os valores mais frequentes 4 Existem outros tipos de média usadas em ocasiões especiais A média harmônica é muito utilizada em concursos públicos e a geométrica pode ser usada em situações de alta variabilidade visto que ela é mais estável SEPARATRIZES Além das medidas de posição que estudamos há outras que consideradas individualmente não são medidas de tendência central mas estão ligadas à mediana relativamente à sua característica de separar a série em duas partes que apresentam o mesmo número de valores Essas medidas os quartis os decis e os percentis são juntamente com a mediana conhecidas pelo nome genérico de separatrizes QUARTIS Q Denominamos quartis os valores de uma série que a dividem em quatro partes iguais Precisamos portanto de 3 quartis Q1 Q2 e Q3 para dividir a série em quatro partes iguais Obs O quartil 2 Q2 SEMPRE SERÁ IGUAL A MEDIANA DA SÉRIE Quartis em dados não agrupados O método mais prático é utilizar o princípio do cálculo da mediana para os 3 quartis Na realidade serão calculadas 3 medianas em uma mesma série Ex 1 Calcule os quartis da série 5 2 6 9 10 13 15 O primeiro passo a ser dado é o da ordenação crescente ou decrescente dos valores 2 5 6 9 10 13 15 O valor que divide a série acima em duas partes iguais é igual a 9 logo a Md 9 que será Q2 9 Temos agora 2 5 6 e 10 13 15 como sendo os dois grupos de valores iguais proporcionados pela mediana quartil 2 Para o cálculo do quartil 1 e 3 basta calcular as medianas das partes iguais provenientes da verdadeira Mediana da série quartil 2 Logo em 2 5 6 a mediana é 5 Ou seja será o quartil 1 Q1 5 em 10 13 15 a mediana é 13 Ou seja será o quartil 3 Q 13 Quartis para dados agrupados em classes Usamos a mesma técnica do cálculo da mediana bastando substituir na fórmula da mediana Ʃ fi 2 por k Ʃ fi 4 sendo k o número de ordem do quartil Assim temos Q1 Li Ʃ fi 4 Fa x h f Q2 Li 2 Ʃ fi 4 Fa x h f Q3 Li 3 Ʃ fi 4 Fa x h f Ex Calcule os quartis da tabela abaixo classes freqüência fi Freqüência acumulada 50 54 4 4 54 58 9 13 58 62 11 24 62 66 8 32 66 70 5 37 70 74 3 40 total 40 O quartil 2 Md logo 40 2 20 logoa classe mediana será 58 62 l 58 FAA 13 f 11 h 4 Q2 l 2 Ʃ fi 4 FAA x h f Substituindo esses valores na fórmula obtemos Md 58 20 13 x 4 11 58 2811 6054 Q2 O quartil 1 Ʃ fi 4 10 Q1 l Ʃ fi 4 FAA x h f Q1 54 10 4 x 4 9 54 266 5666 Q1 O quartil 3 3E fi 4 30 Q3 l 3 Ʃ fi 4 FAA x h f Q3 62 30 24 x 4 8 62 3 65 Q3 DECIS D A definição dos decis obedece ao mesmo princípio dos quartis com a modificação da porcentagem de valores que ficam aquém e além do decil que se pretende calcular A fórmula básica será k Ʃ fi 10 onde k é o número de ordem do decil a ser calculado Indicamos os decis D1 D2 D9 Deste modo precisamos de 9 decis para dividirmos uma série em 10 partes iguais De especial interesse é o quinto decil que divide o conjunto em duas partes iguais Assim sendoo QUINTO DECIL É IGUAL AO SEGUNDO QUARTIL que por sua vez É IGUAL À MEDIANA Para D5 temos 5 Ʃ fi 10 Ʃ fi 2 Ex Calcule o 3º decil da tabela anterior com classes k 3 onde 3 Ʃ fi 10 3 x 40 10 12 Este resultado corresponde a 2ª classe D3 54 12 4 x 4 9 54 355 5755 D3 INTERVALO DE CONFIANÇA DA MÉDIA PX 196 σn μ X 196 σn095 IC95 x196 σn e x 196 σn ou x 196 σn Dispersão ou Variabilidade É a maior ou menor diversificação dos valores de uma variável em torno de um valor de tendência central média ou mediana tomado como ponto de comparação São medidas que complementam as medidas de tendência central trazendo informação sobre a dispersão existente no conjunto de dados A média ainda que considerada como um número que tem a faculdade de representar uma série de valores não pode por si mesma destacar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto MEDIDAS DE DISPERSÃO OU VARIABILIDADE Consideremos os seguintes conjuntos de valores das variáveis X Y e Z X 70 70 70 70 70 Y 68 69 70 71 72 Z 5 15 50 120 160 Observamos então que os três conjuntos apresentam a mesma média aritmética 3505 70 Entretanto é fácil notar que o conjunto X é mais homogêneo que os conjuntos Y e Z já que todos os valores são iguais à média O conjunto Y por sua vez é mais homogêneo que o conjunto Z pois há menor diversificação entre cada um de seus valores e a média representativa Concluímos então que o conjunto X apresenta DISPERSÃO NULA e que o conjunto Y apresenta uma DISPERSÃO MENOR que o conjunto Z 4 MEDIDAS DE DISPERSÃO ABSOLUTA AMPLITUDE TOTAL É a única medida de dispersão que não tem na média o ponto de referência Quando os dados não estão agrupados a amplitude total é a diferença entrE o maior e o menor valor observado AT X máximo X mínimo Ex Para os valores 40 45 48 62 e 70 a amplitude total será AT 70 40 30 Quando os dados estão agrupados sem intervalos de classe ainda temos AT X máximo X mínimo Ex xi fi 0 2 1 6 3 5 4 3 AT 10 4 6 A amplitude total tem o inconveniente de só levar em conta os dois valores extremos da série descuidando do conjunto de valores intermediários Fazse uso da amplitude total quando se quer determinar a amplitude da temperatura em um dia no controle de qualidade ou como uma medida de cálculo rápido sem muita exatidão Classes fi 4 6 6 6 8 2 8 10 3 Com intervalos de classe a AMPLITUDE TOTAL é a diferença entre o limite superior da última classe e o limite inferior da primeira classe Então AT L máximo l mínimo Ex DESVIO PADRÃO s É a medida de dispersão mais geralmente empregada pois leva em consideração a totalidade dos valores da variável em estudo É um indicador de variabilidade bastante estável O desvio padrão baseiase nos desvios em torno da média aritmética e a sua fórmula básica pode ser traduzida como a raiz quadrada da média aritmética dos quadrados dos desvios e é representada pela letra s A fórmula acima é empregada quando tratamos de uma população de dados nãoagrupados Quando nosso interesse não se restringe à descrição dos dados mas partindo da amostra visamos tirar inferências válidas para a respectiva população convém efetuar uma modificação que consiste em usar o divisor n 1 em lugar de n A fórmula ficará então VARIÂNCIA s2 É o desvio padrão elevado ao quadrado A variância é uma medida que tem pouca utilidade como estatística descritiva porém é extremamente importante na inferência estatística e em combinações de amostras VARIÂNCIA s2 A variância é uma medida da variação em torno da média Por definição variância é a média dos quadrados dos desvios em torno da média A variância ao contrário da Amplitude considera todos elementos do conjunto de dados no seu cálculo Quanto maior for a variação dos valores do conjunto de dados maior será a variância Variância Desvio padrão Desvio padrão populacional Desvio padrão amostral Exemplo Dados simples Tipo A nível de colesterol 233 291 312 250 246 197 268 224 239 239 254 276 234 181 248 252 202 218 212 325 Variância S² 23324505²32524505²19 134237 mg100ml² Desvio padrão S 134237 3664 mg100ml Coeficiente de variação 3664 24505 x 100 1495 Tipo B nível de colesterol 344 185 263 246 224 212 188 250 148 169 226 175 242 252 153 183 137 202 194 213 Variância S² Desvio padrão S Coeficiente de variação ou Cálculo do desvio padrão e da variância Dados agrupados população Variância amostral Desvio padrão amostra Peso Kg f xi fxi xi x2 f xi x2 4044 2 42 84 4250772 2 4250772 4448 5 46 230 4650772 5 4650772 4852 9 50 450 5050772 9 5050772 5256 6 54 324 5450772 6 5450772 5660 4 58 232 5850772 4 5850772 X 5077 Ʃf 26 Ʃfx 1320 Ʃ f xi x2 54461 S2 2178 S 466 Cálculo da Variância Peso de 26 alunos Exemplo Calcule a variância e o desvio padrão da série abaixo representativa de uma população Primeiro calculamos a média X Σi1 to n xᵢFᵢ Σi1 to n Fᵢ 73 20 365 MEDIDAS DE DISPERSÃO RELATIVA Coeficiente de Variação de Pearson Na estatística descritiva o desvio padrão por si só tem grandes limitações Assim um desvio padrão de 2 unidades pode ser considerado pequeno para uma série de valores cujo valor médio é 200 no entanto se a média for igual a 20 o mesmo não pode ser dito Além disso o fato de o desvio padrão ser expresso na mesma unidade dos dados limita o seu emprego quando desejamos comparar duas ou mais séries de valores relativamente à sua dispersão ou variabilidade quando expressas em unidades diferentes Para contornar essas dificuldades e limitações podemos caracterizar a dispersão ou variabilidade dos dados em termos relativos a seu valor médio medida essa denominada de CVP Coeficiente de Variação de Pearson É A RAZÃO ENTRE O DESVIO PADRÃO E A MÉDIA REFERENTES A DADOS DE UMA MESMA SÉRIE o resultado neste caso é expresso em percentual entretanto pode ser expresso também através de um fator decimal desprezando assim o valor 100 da fórmula Ex Tomemos os resultados das estaturas e dos pesos de um mesmo grupo de indivíduos Discriminação M É D I A DESVIO PADRÃO ESTATURAS 175 cm 50 cm PESOS 68 kg 20 kg Qual das medidas Estatura ou Peso possui maior homogeneidade Resposta Teremos que calcular o CVP da Estatura e o CVP do Peso O resultado menor será o de maior homogeneidade menor dispersão ou variabilidade CVP estatura 5 175 x 100 285 CVP peso 2 68 x 100 294 Logo nesse grupo de indivíduos as estaturas apresentam menor grau de dispersão que os pesos Considerações sobre as Medidas de Variabilidade MV 1 A Amplitude á a MV mais pobre porque considera apenas os dois valores extremos do conjunto de dados 2 A Variância não é interpretada na prática devido ao problema da unidade que está ao quadrado 3 O Desviopadrão é a MV mais conhecida sendo amplamente utilizada 4 Dentre as MV estudadas sugerese que o CV seja utilizado para comparação da variabilidade entre diferentes conjuntos de dados Por não ter unidade o CV pode ser utilizado até mesmo para comparar a variabilidade entre variáveis expressas em diferentes unidades EXERCÍCIO 1BIOESTATÍSTICA20211 NÍVEL DE RUÍDO NO TRÁFICO DE AUTOMÓVEIS NO MUNICÍPIO DE SÃO LUÍS Agrupar os dados em distribuição de frequência adotando a metodologia auxiliar de Sturges Calcular a frequência absoluta relativa e acumulada Elaborar gráficos na forma de Histograma e Polígono de frequência Calcule a média moda mediana Quartil 1 e Quartil 3 NÍVEL DE RUÍDO NO TRÁFICO DE AUTOMÓVEIS NO MUNICÍPIO DE SÃO LUÍS