· 2023/2
5
Estatística e Probabilidade
UFOP
1
Estatística e Probabilidade
UFOP
13
Estatística e Probabilidade
UFOP
11
Estatística e Probabilidade
UFOP
2
Estatística e Probabilidade
UFOP
14
Estatística e Probabilidade
UFOP
5
Estatística e Probabilidade
UFOP
4
Estatística e Probabilidade
UFOP
1
Estatística e Probabilidade
UFOP
2
Estatística e Probabilidade
UFOP
Texto de pré-visualização
Estatística Descritiva Anderson R. Duarte Anderson R. Duarte Estatística Descritiva 1 / 16 Medidas de Dispersão Introdução O resumo da informação contida nos dados utilizando uma única medida que representa a posição central dos dados não é capaz de capturar um aspecto muito importante: a variabilidade. Por exemplo, suponha que quatro grupos de estudantes realizaram uma prova de estatística e obtiveram as seguintes notas: Grupo A: {2, 3, 4, 5, 6, 7, 8}. Grupo B: {5, 5, 5, 5, 5}. Grupo C: {0, 0, 0, 10, 10, 10} Grupo D: {2, 5, 5, 6, 7} Note que xA = xB = xC = xD = 5. Anderson R. Duarte Estatística Descritiva 2 / 16 Medidas de Dispersão Principais medidas de Dispersão A identificação de tais séries de dados utilizando apenas a média não seria capaz de captar a diferença que existe entre elas. Isso pode ser feito utilizando as medidas de variabilidade. As medidas de variabilidade que trataremos no curso são: Amplitude; Desvio Médio; Variância; Desvio Padrão; Distância interquartílica. Anderson R. Duarte Estatística Descritiva 3 / 16 Medidas de Dispersão Amplitude Amplitude △: Diferença entre o maior e o menor valor do conjunto de dados. Exemplo: {2,79, 4,3, 4,46, 7,64, 7,7, 2,09, 4,94, 5,78, 8,33, 7,45, 5,28, 10, 7,8, 5,56, 4,15} Note que o Mínimo é igual a: 2,09 Note que o Máximo é igual a: 10 Amplitude = 10 - 2,09 = 7,91 Anderson R. Duarte Estatística Descritiva 4 / 16 Distancia em torno da média n do — X) i=1 Considere o seguinte conjunto de dados: {0, 2, 5, 4, 3} oe xX = {2,8} e Distancia: n S (x) — X) =(0 — 2,8) + (2 — 2,8) + (5 — 2,8) + (4 — 2,8) + (3 — 2,8) i=1 =(-2,8) + (-0,8) + (2,2) + (1,2) + (0,2) =0 e@ Para qualquer conjunto de dados, a soma dos desvios é sempre igual a zero. Estatistica Descritiva 5/16 Desvio Médio (dm) e Alternativa 1: considerar o valor absoluto da distancia em torno da média. tim = et i n @ Note que é conveniente trabalharmos em termos de distancias médias, para que seja possivel comparar conjuntos de dados com nimero de observacoes diferentes. 1 dm =5 x {|0 — 2,8] + |2 — 2,8] + |5 — 2,8] + |4 — 2,8] + |3 — 2,8]} 1 =5 % {(2,8) + (0,8) + (2,2) + (1,2) + (0,2) 1 == x7,2=1,44 5 Estatistica Descritiva 6/16 A . 2 Variancia (0*) Alternativa 2: elevar a distancia em torno da média ao quadrado. 2 als — x)? oo = (1) n e@ Nas situacdes em que a variancia for utilizada apenas para descrever a variacao de um conjunto de dados, ela sera caculada conforme a equacdo (1). Estatistica Descritiva 7/16 A . aA? Variancia (6°) Nas situacdes em que a variacdo dos dados de uma amostra sera utilizada para inferir sobre uma populacao, o denominador deve ser dividido por n—1, conforme mostrado na equacao (2). n ( . x)? a2 Loin lXi — X a = (2) n-1 @ o divisor n — 1 faz com que a varidncia possua melhores propriedades estatisticas. e@ Durante esse curso, a menos que seja dito o contrario, utilize a equacdo (2) para calcular a variancia. Estatistica Descritiva 8/16 Medidas de Dispersão Variância (ˆσ2) - Exemplo Considere o seguinte conjunto de dados: {0, 2, 5, 4, 3} x = {2,8} ˆσ2 = 1 5 − 1 × {(0 − 2,8)2 + (2 − 2,8)2 + (5 − 2,8)2 + ... + (3 − 2,8)2} =1 4 × {(7,84) + (0,64) + (4,84) + (1,44) + (0,04)} =1 4 × 14,8 = 3,7 Anderson R. Duarte Estatística Descritiva 9 / 16 . nN Nn Desvio padrao & A variadncia € uma medida cuja dimensao é igual ao quadrado da dimensdo dos dados. Por exemplo, se os dados forem expressos em cm, a variancia sera em cm?. Isso pode gerar problemas de interpretacao. @ O desvio padrao é entdo definido como a raiz quadrada da variancia, sendo assim medido na escala original dos dados. n x)2 Nn Nn — xj — x G= / 52 _ yi 1( ! ) n—1 e@ Para o exemplo anterior, temos que o desvio padrao é: 6=V62 = V3,7 = 1,92 Estatistica Descritiva 10/16 Medidas de Dispersão Coeficiente de Variação O coeficiente de variação (CV) é muito utilizado para comparar grupos de dados que: 1 são medidos em escalas diferentes ou 2 quando as médias dos grupos são muito diferentes. O CV é definido como a razão entre o desvio padrão (ˆσ) e a média amostral (x): CV = ˆσ x × 100%. No caso do exemplo anterior, temos que: CV = 1,92 2,8 × 100 = 69%. Anderson R. Duarte Estatística Descritiva 11 / 16 Percentil A mediana também é conhecida como Percentil 50%, ou q(50). De maneira mais ampla, podemos definir o conceito de percentil amostral. @ Percentil amostral: q(p) é 0 valor tal que p% dos dados ordenados encontram-se abaixo dele e (100-p)% acima, em que 0 < p < 100. Xe ey se L é inteiro; q(p) = . X(fL])s caso contrario. em que: @ X(1) S X(2) Se S Xn). — Py p eL= i00 X 7 @ [a] €0 menor inteiro maior que a. Estatistica Descritiva 12/16 Medidas de Dispersão Quartis Os seguintes percentis são também conhecidos como Quartis: 1 q(25) = Quartil 1 (Q1); 2 q(50) = Quartil 2 (Q2); 3 q(75) = Quartil 3 (Q3). Exemplo. Calcule o (Q1) para o seguinte conjunto de dados: {2,79, 4,3, 4,46, 7,64, 7,7, 2,09, 4,94, 5,78, 8,33, 7,45, 5,28, 10, 7,8, 5,56, 4,15} Passo 1: Ordenar {2,09, 2,79, 4,15, 4,3, 4,46, 4,94, 5,28, 5,56, 5,78, 7,45, 7,64, 7,7, 7,8, 8,33, 10} Calcular L = p 100 × n = 25 100 × 15 = 3,75. Logo ⌈L⌉ = 4 e Q1 = x(4) = 4,3 Anderson R. Duarte Estatística Descritiva 13 / 16 Medidas de Dispersão Distância interquatílica Uma medida de dispersão alternativa, é a distância interquartílica. Distância interquartílica: diferença entre o primeiro e terceiro quartil. dq = Q3 − Q1 Exemplo: Calcule a dq para o conjunto de dados do slide anterior: Dados (já ordenados): {2,09, 2,79, 4,15, 4,3, 4,46, 4,94, 5,28, 5,56, 5,78, 7,45, 7,64, 7,7, 7,8, 8,33, 10} Anteriormente, mostramos que Q1 = x(4) = 4,3 Para calcular Q3 fazemos: L = p 100 × n = 75 100 × 15 = 11,25. Logo ⌈L⌉ = 12 e Q3 = x(12) = 7,7 Por fim, temos que dq = 7,7 - 4,3 = 3,4 Anderson R. Duarte Estatística Descritiva 14 / 16 Medidas de Dispersão Boxplot 0 10 20 30 40 50 60 Valores Mediana 1º Quartil 3º Quartil Outliers Mínimo (Desconsiderando Outiliers) Máximo (Desconsiderando Outiliers) Anderson R. Duarte Estatística Descritiva 15 / 16 Medidas de Dispersão Boxplot O Boxplot é um gráfico que traz informação sobre a dispersão e o nível de assimetria da amostra. 1º Intervalo: Q1 − x(min); 2º Intervalo: Q2 − Q1; 3º Intervalo: Q3 − Q2; 4º Intervalo: x(max) − Q3; Valores atípicos (Outliers): valores abaixo de Q1 − 1, 5 × (Q3 − Q1) ou valores acima de Q3 + 1, 5 × (Q3 − Q1). Anderson R. Duarte Estatística Descritiva 16 / 16
5
Estatística e Probabilidade
UFOP
1
Estatística e Probabilidade
UFOP
13
Estatística e Probabilidade
UFOP
11
Estatística e Probabilidade
UFOP
2
Estatística e Probabilidade
UFOP
14
Estatística e Probabilidade
UFOP
5
Estatística e Probabilidade
UFOP
4
Estatística e Probabilidade
UFOP
1
Estatística e Probabilidade
UFOP
2
Estatística e Probabilidade
UFOP
Texto de pré-visualização
Estatística Descritiva Anderson R. Duarte Anderson R. Duarte Estatística Descritiva 1 / 16 Medidas de Dispersão Introdução O resumo da informação contida nos dados utilizando uma única medida que representa a posição central dos dados não é capaz de capturar um aspecto muito importante: a variabilidade. Por exemplo, suponha que quatro grupos de estudantes realizaram uma prova de estatística e obtiveram as seguintes notas: Grupo A: {2, 3, 4, 5, 6, 7, 8}. Grupo B: {5, 5, 5, 5, 5}. Grupo C: {0, 0, 0, 10, 10, 10} Grupo D: {2, 5, 5, 6, 7} Note que xA = xB = xC = xD = 5. Anderson R. Duarte Estatística Descritiva 2 / 16 Medidas de Dispersão Principais medidas de Dispersão A identificação de tais séries de dados utilizando apenas a média não seria capaz de captar a diferença que existe entre elas. Isso pode ser feito utilizando as medidas de variabilidade. As medidas de variabilidade que trataremos no curso são: Amplitude; Desvio Médio; Variância; Desvio Padrão; Distância interquartílica. Anderson R. Duarte Estatística Descritiva 3 / 16 Medidas de Dispersão Amplitude Amplitude △: Diferença entre o maior e o menor valor do conjunto de dados. Exemplo: {2,79, 4,3, 4,46, 7,64, 7,7, 2,09, 4,94, 5,78, 8,33, 7,45, 5,28, 10, 7,8, 5,56, 4,15} Note que o Mínimo é igual a: 2,09 Note que o Máximo é igual a: 10 Amplitude = 10 - 2,09 = 7,91 Anderson R. Duarte Estatística Descritiva 4 / 16 Distancia em torno da média n do — X) i=1 Considere o seguinte conjunto de dados: {0, 2, 5, 4, 3} oe xX = {2,8} e Distancia: n S (x) — X) =(0 — 2,8) + (2 — 2,8) + (5 — 2,8) + (4 — 2,8) + (3 — 2,8) i=1 =(-2,8) + (-0,8) + (2,2) + (1,2) + (0,2) =0 e@ Para qualquer conjunto de dados, a soma dos desvios é sempre igual a zero. Estatistica Descritiva 5/16 Desvio Médio (dm) e Alternativa 1: considerar o valor absoluto da distancia em torno da média. tim = et i n @ Note que é conveniente trabalharmos em termos de distancias médias, para que seja possivel comparar conjuntos de dados com nimero de observacoes diferentes. 1 dm =5 x {|0 — 2,8] + |2 — 2,8] + |5 — 2,8] + |4 — 2,8] + |3 — 2,8]} 1 =5 % {(2,8) + (0,8) + (2,2) + (1,2) + (0,2) 1 == x7,2=1,44 5 Estatistica Descritiva 6/16 A . 2 Variancia (0*) Alternativa 2: elevar a distancia em torno da média ao quadrado. 2 als — x)? oo = (1) n e@ Nas situacdes em que a variancia for utilizada apenas para descrever a variacao de um conjunto de dados, ela sera caculada conforme a equacdo (1). Estatistica Descritiva 7/16 A . aA? Variancia (6°) Nas situacdes em que a variacdo dos dados de uma amostra sera utilizada para inferir sobre uma populacao, o denominador deve ser dividido por n—1, conforme mostrado na equacao (2). n ( . x)? a2 Loin lXi — X a = (2) n-1 @ o divisor n — 1 faz com que a varidncia possua melhores propriedades estatisticas. e@ Durante esse curso, a menos que seja dito o contrario, utilize a equacdo (2) para calcular a variancia. Estatistica Descritiva 8/16 Medidas de Dispersão Variância (ˆσ2) - Exemplo Considere o seguinte conjunto de dados: {0, 2, 5, 4, 3} x = {2,8} ˆσ2 = 1 5 − 1 × {(0 − 2,8)2 + (2 − 2,8)2 + (5 − 2,8)2 + ... + (3 − 2,8)2} =1 4 × {(7,84) + (0,64) + (4,84) + (1,44) + (0,04)} =1 4 × 14,8 = 3,7 Anderson R. Duarte Estatística Descritiva 9 / 16 . nN Nn Desvio padrao & A variadncia € uma medida cuja dimensao é igual ao quadrado da dimensdo dos dados. Por exemplo, se os dados forem expressos em cm, a variancia sera em cm?. Isso pode gerar problemas de interpretacao. @ O desvio padrao é entdo definido como a raiz quadrada da variancia, sendo assim medido na escala original dos dados. n x)2 Nn Nn — xj — x G= / 52 _ yi 1( ! ) n—1 e@ Para o exemplo anterior, temos que o desvio padrao é: 6=V62 = V3,7 = 1,92 Estatistica Descritiva 10/16 Medidas de Dispersão Coeficiente de Variação O coeficiente de variação (CV) é muito utilizado para comparar grupos de dados que: 1 são medidos em escalas diferentes ou 2 quando as médias dos grupos são muito diferentes. O CV é definido como a razão entre o desvio padrão (ˆσ) e a média amostral (x): CV = ˆσ x × 100%. No caso do exemplo anterior, temos que: CV = 1,92 2,8 × 100 = 69%. Anderson R. Duarte Estatística Descritiva 11 / 16 Percentil A mediana também é conhecida como Percentil 50%, ou q(50). De maneira mais ampla, podemos definir o conceito de percentil amostral. @ Percentil amostral: q(p) é 0 valor tal que p% dos dados ordenados encontram-se abaixo dele e (100-p)% acima, em que 0 < p < 100. Xe ey se L é inteiro; q(p) = . X(fL])s caso contrario. em que: @ X(1) S X(2) Se S Xn). — Py p eL= i00 X 7 @ [a] €0 menor inteiro maior que a. Estatistica Descritiva 12/16 Medidas de Dispersão Quartis Os seguintes percentis são também conhecidos como Quartis: 1 q(25) = Quartil 1 (Q1); 2 q(50) = Quartil 2 (Q2); 3 q(75) = Quartil 3 (Q3). Exemplo. Calcule o (Q1) para o seguinte conjunto de dados: {2,79, 4,3, 4,46, 7,64, 7,7, 2,09, 4,94, 5,78, 8,33, 7,45, 5,28, 10, 7,8, 5,56, 4,15} Passo 1: Ordenar {2,09, 2,79, 4,15, 4,3, 4,46, 4,94, 5,28, 5,56, 5,78, 7,45, 7,64, 7,7, 7,8, 8,33, 10} Calcular L = p 100 × n = 25 100 × 15 = 3,75. Logo ⌈L⌉ = 4 e Q1 = x(4) = 4,3 Anderson R. Duarte Estatística Descritiva 13 / 16 Medidas de Dispersão Distância interquatílica Uma medida de dispersão alternativa, é a distância interquartílica. Distância interquartílica: diferença entre o primeiro e terceiro quartil. dq = Q3 − Q1 Exemplo: Calcule a dq para o conjunto de dados do slide anterior: Dados (já ordenados): {2,09, 2,79, 4,15, 4,3, 4,46, 4,94, 5,28, 5,56, 5,78, 7,45, 7,64, 7,7, 7,8, 8,33, 10} Anteriormente, mostramos que Q1 = x(4) = 4,3 Para calcular Q3 fazemos: L = p 100 × n = 75 100 × 15 = 11,25. Logo ⌈L⌉ = 12 e Q3 = x(12) = 7,7 Por fim, temos que dq = 7,7 - 4,3 = 3,4 Anderson R. Duarte Estatística Descritiva 14 / 16 Medidas de Dispersão Boxplot 0 10 20 30 40 50 60 Valores Mediana 1º Quartil 3º Quartil Outliers Mínimo (Desconsiderando Outiliers) Máximo (Desconsiderando Outiliers) Anderson R. Duarte Estatística Descritiva 15 / 16 Medidas de Dispersão Boxplot O Boxplot é um gráfico que traz informação sobre a dispersão e o nível de assimetria da amostra. 1º Intervalo: Q1 − x(min); 2º Intervalo: Q2 − Q1; 3º Intervalo: Q3 − Q2; 4º Intervalo: x(max) − Q3; Valores atípicos (Outliers): valores abaixo de Q1 − 1, 5 × (Q3 − Q1) ou valores acima de Q3 + 1, 5 × (Q3 − Q1). Anderson R. Duarte Estatística Descritiva 16 / 16