·

Engenharia Ambiental ·

Estatística e Probabilidade

· 2023/2

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta
Equipe Meu Guru

Prefere sua atividade resolvida por um tutor especialista?

  • Receba resolvida até o seu prazo
  • Converse com o tutor pelo chat
  • Garantia de 7 dias contra erros

Texto de pré-visualização

ESTATÍSTICA June 20, 2021 UFOP June 20, 2021 1 / 66 NOME 1 Medidas de Tendência Central Média aritmética Mediana Moda Separatrizes 2 Medidas de Dispersão Amplitude Total Variância e Desvio-padrão Coeficiente de Variação de Pearson 3 Representação Gráfica UFOP June 20, 2021 2 / 66 Medidas de Tendência Central Uma medida de tendência central procura sintetizar as informações da amostra em um único e informativo valor. As principais medidas de posição estão apresentadas a seguir. UFOP June 20, 2021 3 / 66 Média aritmética A média é a principal medida de posição, sendo utilizada principalmente quando os dados apresentam distribuição simétrica ou aproximadamente simétrica, como acontece com a maioria das situações práticas. Simbologia: µ para a média populacional. X para a média amostral. UFOP June 20, 2021 4 / 66 A média populacional é calculada pela expressão a seguir: Para dados brutos \( \mu = \frac{X_1 + X_2 + \cdots + X_n}{N} \Rightarrow \mu = \frac{\sum_{i}^{N} X_i}{N} \) em que, \( N \) é o tamanho da população. O estimador da média populacional é: Para dados brutos \( \overline{X} = \frac{X_1 + X_2 + \cdots + X_n}{n} \Rightarrow \overline{X} = \frac{\sum_{i}^{n} X_i}{n} \) em que, \( n \) é o tamanho da amostra. Para dados agrupados em Tabela de Freqüências \( \overline{X} = \frac{\sum_{i}^{k} X_i f_i}{n} \) em que, \( k \) é o número de classes. Exemplo Dados Brutos Vamos voltar ao exemplo das alturas,expressas em centímetros, de 30 atletas do sexo masculino de uma universidade: 168 172 170 181 169 173 164 175 182 177 176 173 170 186 183 170 168 166 169 180 175 164 181 179 172 169 174 171 178 166 A média aritmética será dada por: X = X1 + X2 + · · · + Xn n ⇒ X = 168 + 172 + · · · + 166 30 X = 173, 37 UFOP June 20, 2021 7 / 66 Exemplo Para dados agrupados em Tabela de Frequências A tabela de distribuição de frequências foi apresentada na aula anterior: UFOP June 20, 2021 8 / 66 Assim, a média aritmética será dada por: \( \overline{X} = \frac{\sum_{i=1}^{5} X_i f_i}{n} \) \( \overline{X} = \frac{166,2 \cdot 6 + 170,6 \cdot 9 + \cdots + 183,8 \cdot 3}{30} = 173,53 \) Hipótese Tabular Básica Alguém pode questionar a razão da diferença observada no uso dos dois estimadores. A resposta é dada pela hipótese tabular básica, a qual considera que todos os elementos de uma classe são representados pelo seu ponto médio, fato este, que não é verdadeiro em praticamente todas as situações. Desta forma, este último resultado é apenas aproximado. No entanto, o erro cometido é mínimo e, portanto, pode ser desprezado. UFOP June 20, 2021 10 / 66 Propriedades da média A soma algébrica dos desvios em relação à média aritmética é nula. \[ \sum_{i}^{n} (X_i - \overline{X}) = 0 \] A soma dos quadrados dos desvios de um conjunto de dados em relação a sua média e um valor mínimo. \[ D = \sum_{i}^{n} (X_i - \overline{X})^2 \] UFOP June 20, 2021 11 / 66 Propriedades da média A média de um conjunto de dados acrescido em cada elemento por uma constante e igual à média original mais essa constante. X ∗ = X + k em que X ∗ é a média do novo conjunto de dados e k é a constante. Multiplicando todos os dados por uma constante a nova média será igual ao produto da média anterior pela constante. X ∗ = X · k A média é influenciada por valores extremos. UFOP June 20, 2021 12 / 66 Mediana A mediana divide as observações ordenadas em partes iguais. Para sua determinação é necessário o conhecimento da posição central. Para dados ordenados, temos basicamente têm-se duas situações distintas: Se n for par: md = X( n 2 ) + X( n+2 2 ) 2 Se n for ímpar: md = X (n+1) 2 UFOP June 20, 2021 13 / 66 Exemplo Dados ordenados No caso dos atletas a posição central está entre o 15o e o 16o elemento. Portanto, a mediana é a média aritmética destas duas observações. Logo, md = X(30/2) + X(30+2)/2 2 ⇒ md = X(15) + X(16) 2 md = 172, 5cm UFOP June 20, 2021 14 / 66 Dados agrupados em Tabela de Frequências No caso de dados agrupados a mediana pode ser calculada de acordo com a seguinte expressão: \[ m_d = LI_{md} + \left[ \frac{n/2 - F_{ant}}{f_{md}} \right] \cdot c_{md} \] em que \( f_{md} \) é a frequência da classe mediana; \( c_{md} \) é a amplitude da classe mediana; \( F_{ant} \) é a frequência acumulada das classes anteriores à classe mediana; \( LI_{md} \) é o limite inferior da classe mediana. A classe mediana é a classe que contém a posição \( n/2 \) (posição mediana) da distribuição de frequência. UFOP June 20, 2021 15 / 66 Exemplo No caso dos atletas temos: Posição mediana = 30/2 = 15 (contida na 2ª classe), \( F_{ant} = 6; \) \( LI_{md} = 168,4, f_{md} = 9 \) e \( c_{md} = 4,40. \) Logo, \[ m_d = 168,4 + \left[ \frac{15 - 6}{9} \right] \cdot 4,40 \] \[ m_d = 172,8cm \] UFOP June 20, 2021 16 / 66 Propriedades da mediana A mediana de um conjunto de dados acrescido em cada elemento por uma constante e igual à mediana original mais essa constante. md∗ = md + k em que md∗ é a mediana do novo conjunto de dados e k é a constante. Multiplicando todos os dados por uma constante a nova mediana será igual ao produto da mediana anterior pela constante. md∗ = md · k UFOP June 20, 2021 17 / 66 Observação Muitas vezes existem dúvidas de qual medida utilizar para sintetizar os dados amostrais. Como uma regra geral, pode-se definir qual medida é mais conveniente para uma dada situação com base na análise do histograma ou do polígono de freqüências. Se a distribuição dos dados for assimétrica, isto é quando valores extremos predominam em uma das caudas da distribuição, deve se preferir a mediana como medida sintetizadora. Isto se deve ao fato da mediana ser pouco sensível a presença de valores extremos, sendo considerada mais robusta que a média. O termo robusto é o termo técnico usado para indicar esta propriedade da mediana em relação à média aritmética, que quando a situação de simetria é violada a mediana é uma medida que sofre menos “interferências” nas suas estimativas. UFOP June 20, 2021 18 / 66 Moda A moda é definida para dados qualitativos ou para quantitativos discretos como sendo o valor de maior freqüência na amostra. Para dados quantitativos contínuos a moda é o valor de maior densidade. Portanto para dados quantitativos contínuos o estimador da moda é baseado na distribuição de freqüências. Esse estimador busca encontrar o ponto de máximo do polígono de freqüências. Um conjunto pode ter mais de uma moda ou até mesmo não ter moda. UFOP June 20, 2021 19 / 66 O estimador da moda para dados quantitativos contínuos é definido a partir da distribuição de freqüência por meio de um método geométrico, o qual conduz a seguinte expressão: mo = LImo + ∆1 ∆1 + ∆2 · cmo em que: LImo : limite inferior da classe modal; ∆1: diferença entre as freqüências da classe modal e a classe anterior; ∆2: diferença entre as freqüências da classe modal e a classe posterior; cmo : amplitude da classe modal. A classe modal é a classe com maior freqüência. UFOP June 20, 2021 20 / 66 Propriedades da moda A moda de um conjunto de dados acrescido em cada elemento por uma constante e igual à moda original mais essa constante. mo∗ = mo + k em que mo∗ é a mediana do novo conjunto de dados e k é a constante. Multiplicando todos os dados por uma constante a nova moda será igual ao produto da moda anterior pela constante. mo∗ = mo · k UFOP June 20, 2021 21 / 66 Relações empíricas entre média, mediana e moda X = md = mo (distribuição simétrica) X > md > mo (distribuição assimétrica à direita) X < md < mo (distribuição assimétrica à esquerda) UFOP June 20, 2021 22 / 66 Separatrizes São as medidas que separam a distribuição de freqüências em partes iguais. Vimos que a mediana divide a distribuição em duas partes iguais quanto ao número de elementos de cada parte. Agora vamos estudar outras medidas que dividem a distribuição em partes iguais, que serão as chamadas separatrizes. Lembrem-se: os dados deves estar ordenados em ordem crescente!!! UFOP June 20, 2021 23 / 66 Quartis Os quartis dividem um conjunto de dados em quatro partes iguais. Assim: Q1: 1o quartil. Deixa 25% dos elementos antes do seu valor Q2: 2o quartil. Deixa 50% dos elementos antes do seu valor. Coincide com a mediana. Q3: 3o quartil. Deixa 75% dos elementos antes do seu valor. UFOP June 20, 2021 24 / 66 Genericamente, para determinar a ordem ou posição do quartil a ser calculado, usaremos a seguinte expressão: EQi = in/4 em que: i é o número do quartil a ser calculado. n é o número de observações. UFOP June 20, 2021 25 / 66 Para dados não agrupados, vejamos um exemplo simples: Considere os dados ordenados: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} Neste caso temos n = 10 Se eu estiver interessado em encontrar o terceiro quartil, temos: EQ3 = 3 · 10/4 = 7, 5 Se o número resultante for decimal, a regra é arredondar sempre para cima. Logo, Q3 = 8. Assim, 75% dos valores estão abaixo de 8 e 25% dos valores estão acima de 8 na distribuição de dados apresentada no exemplo. UFOP June 20, 2021 26 / 66 Para dados agrupados em classes temos: \( Q_i = LI + c \left[\frac{EQ_i - F_{ant}}{f_{Qi}}\right] \) em que \( LI = \) limite inferior da classe que contém o quartil desejado \( c = \) amplitude do intervalo de classe \( EQ_i = \) elemento quartílico \( F_{ant} = \) frequência acumulada até a classe anterior à classe que contém \( EQ_i \) \( f_{Qi} = \) frequência absoluta simples da classe quartílica. Decis Os decis dividem um conjunto de dados em dez partes iguais. De maneira geral, para calcular os decis, recorreremos à expressão que define a ordem em que o decil se encontra: EDi = in/10 em que: i é o número do decil a ser calculado. n é o número de observações. UFOP June 20, 2021 28 / 66 Para dados não agrupados, vejamos o exemplo anterior: Considere os dados ordenados: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} em que n = 10 Se eu estiver interessado em encontrar o D6, temos: ED6 = 6 · 10/10 = 6 Se o número resultante for inteiro, a regra é fazer a média dele com o númeor imediatamente posterior a ele na ordem dos dados. Logo, D6 = 6+7 2 = 6, 5. Assim, 60% dos valores estão abaixo de 6, 5 e 40% dos valores estão acima de 6, 5 na distribuição de dados apresentada no exemplo. UFOP June 20, 2021 29 / 66 Para dados agrupados em classes temos: \( D_i = LI + c \left[\frac{ED_i - F_{ant}}{f_{Di}}\right] \) em que \( LI = \) limite inferior da classe que contém o decil desejado \( c = \) amplitude do intervalo de classe \( F_{ant} = \) frequência acumulada até a classe anterior à classe que contém \( ED_i \) \( f_{Di} = \) frequência absoluta simples da classe que contém \( ED_i \). Percentis ou Centis Os percentis dividem um conjunto de dados em cem partes iguais. O elemento que definirá a ordem do centil será encontrado pelo emprego da expressão: ECi = in/100 em que: i é o número do percentil a ser calculado. n é o número de observações. UFOP June 20, 2021 31 / 66 Para dados não agrupados, consideremos novamente: Considere os dados ordenados: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} Se estivermos interessados em encontrar o P75, temos: EP75 = 75 · 10/100 = 7, 5 Como o número resultante é decimal, temos, P75 = 8. Assim, 75% dos valores estão abaixo de 8 e 25% dos valores estão acima de 8 na distribuição de dados apresentada no exemplo. Note que P75 coincide com Q3 UFOP June 20, 2021 32 / 66 Para dados agrupados em classes temos: \( C_i = LI + c \left[\frac{EC_i - F_{ant}}{f_{Ci}}\right] \) em que \( LI = \) limite inferior da classe que contém o percentil desejado \( c = \) amplitude do intervalo de classe \( F_{ant} = \) frequência acumulada até a classe anterior à classe que contém \( EC_i \) \( f_{Ci} = \) frequência absoluta simples da classe que contém \( EC_i \). Exemplo Com base na tabela de distribuição de frequências abaixo encontre: Primeiro quartil Septuagésimo quinto centil Nono decil UFOP June 20, 2021 34 / 66 Exemplo Tabela 1 - consumo médio de eletricidade (kWh) entre 80 consumidores - RJ - 1980 Consumo (Kwh) fi FA 5 ⊢ 25 4 4 25 ⊢ 45 6 10 45 ⊢ 65 14 24 65 ⊢ 85 26 50 85 ⊢ 105 14 64 105 ⊢ 125 8 72 125 ⊢ 145 6 78 145 ⊢ 165 2 80 UFOP June 20, 2021 35 / 66 Resolução: Encontrar a posição do primeiro quartil: \[ E_{Q_i} = in/4 = \frac{1 \cdot 80}{4} = 20 \] O \( Q_1 \) está localizado na 20ª posição, logo encontra-se na 3ª classe. Então, \[ Q_i = LI + c \left[ \frac{E_{Q_i} - F_{ant}}{f_{Q_i}} \right] = 45 + 20 \left[ \frac{20 - 10}{14} \right] = 59,29 \] Interpretação: 25% dos usuários consomem até 59,59 kwh. De maneira análoga, 75% dos usuários consomem mais de 59,59 kwh. Resolução: Encontrar a posição do septuagésimo quinto percentil: \[ E_{C_i} = in/100 = \frac{75 \cdot 80}{100} = 60 \] O \( C_{75} \) está localizado na 60ª posição, logo encontra-se na 5ª classe. Então, \[ C_i = LI + c \left[ \frac{E_{C_i} - F_{ant}}{f_{C_i}} \right] = 85 + 20 \left[ \frac{60 - 50}{14} \right] = 99,29 \] Interpretação: 75% dos usuários consomem até 99,29 kwh. De maneira análoga, 25% dos usuários consomem mais de 99,29 kwh. Resolução: Encontrar a posição do nono decil: \[ E_{D_i} = in/10 = \frac{9 \cdot 80}{10} = 72 \] O \( d_9 \) está localizado na 72ª posição, logo encontra-se na 6ª classe. Então, \[ D_i = LI + c \left[ \frac{E_{D_i} - F_{ant}}{f_{D_i}} \right] = 105 + 20 \left[ \frac{72 - 64}{8} \right] = 125 \] Interpretação: : 90% dos usuários consomem até 125 kwh. De maneira análoga, 10% dos usuários consomem mais de 125 kwh. Medidas de dispersão ou de variabilidade As medidas de posição não informam sobre a variabilidade dos dados e são insuficientes para sintetizar as informações amostrais. Para exemplificar este fato, tem-se a seguir três amostras com a mesma média: A = {8, 8, 9, 10, 11, 12, 12} XA = 10 B = {5, 6, 8, 10, 12, 14, 15} XB = 10 C = {1, 2, 5, 10, 15, 18, 19} XC = 10 UFOP June 20, 2021 39 / 66 Pode-se observar que as amostras diferem grandemente em variabilidade. Por esta razão torna-se necessário estabelecer medidas que indiquem o grau de dispersão, ou variabilidade em relação ao valor central. Desta forma pode-se afirmar que uma amostra deve ser representada por uma medida de posição e dispersão. As principais medidas de dispersão que são: Amplitude total Variância e Desvio-padrão Coeficiente de Variação de Pearson Erro padrão da média UFOP June 20, 2021 40 / 66 Amplitude total A amplitude total é definida como a diferença entre o maior e o menor valor de uma amostra. A = X(n) − X(1) Note que para os conjuntos de dados A, B, C, temos: AA = 12 − 8 = 4 AB = 15 − 5 = 10 AC = 19 − 1 = 18 UFOP June 20, 2021 41 / 66 Desvantagens A amplitude tem as seguintes desvantagens: só considerar os valores extremos para o seu cálculo, e principalmente se houver outlier ela será grandemente afetada; ser influenciada pelo tamanho da amostra, pois à medida que a amostra aumenta a amplitude tende a ser maior. UFOP June 20, 2021 42 / 66 Variância e Desvio-padrão A variância é uma medida da variabilidade que considera todas as observações e, devido às propriedades que possui, é a mais utilizada na maioria das situações na estatística. A variância relaciona os desvios em torno da média e sua raiz quadrada é conhecida como desvio-padrão. Simbologia σ2 para a variância populacional e σ para o desvio-padrão populacional s2 para a variância amostral e s para o desvio-padrão amostral UFOP June 20, 2021 43 / 66 A variância populacional é dada por: σ² = \frac{\sum_{i=1}^{N}(X_i - μ)^2}{N} em que N é o tamanho da População. A variância amostral é dada por: s² = \frac{\sum_{i=1}^{n}(X_i - \bar{X})^2}{n - 1} em que n é o tamanho da amostra e (n - 1) é denominado graus de liberdade.. Numa amostra de tamanho n deveria ser utilizado este valor (n) como divisor desta soma de quadrados de desvios. No entanto, devido a motivos associados a propriedades dos estimadores, o divisor da variância amostral é dado por n-1 em lugar de n na expressão do estimador da variância. A unidade da variância é igual ao quadrado da unidade dos dados originais. O desvio padrão, por sua vez, é expresso na mesma unidade do conjunto de dados, sendo obtido pela extração da raiz quadrada da variância. UFOP June 20, 2021 46 / 66 Para o cálculo da variância ou desvio padrão amostral a partir dos dados elaborados é preferível utilizar as seguintes expressões: s² = \frac{1}{n-1} \left[\sum_{i=1}^{n} X_i^2 - \left(\frac{\sum_{i=1}^{n} X_i}{n}\right)^2\right] e s = \sqrt{s²} Para dados agrupados temos: s^2 = \frac{1}{n-1} \left[ \sum_{i=1}^{k} f_i X_i^2 - \left( \frac{\sum_{i=1}^{k} f_i \bar{X}_i}{n} \right)^2 \right] em que k é o número de classes. Exemplo Assim, para os conjuntos de dados A, B, C, temos: s_A^2 = 3 \quad s_B^2 = 15 \quad s_C^2 = 56{,}57 s_A \cong 1{,}77 \quad s_B \cong 3{,}87 \quad s_C \cong 7{,}53 O Desvio-padrão A variância é expressa pelo quadrado da unidade de medidad da variável que está sendo estudada. Assim, e a variável sob análise for medida em metro, então a variância será expressa em m2. Para melhr interpretar a dispersão de uma variável, usaremos o desvio padrão, que será expresso na unidade de medida original dos dados. Trata-se da mais importante das medidas de dispersão, pois indica a dispersão média absoluta dos dados em torno da própria média aritmética. UFOP June 20, 2021 49 / 66 Interpretação do Desvio-padrão Numa linguagem mais simplista, devemos ter em mente que o desvio-padrão mede a variação entre valores. Assim: Se os valores estiverem próximos uns dos outros, então o desvio-padrão será pequeno, e conseqüentemente os dados serão homogêneos. Ou seja, haverá uma grande concentração de dados em torno da média. Se os valores estiverem distantes uns dos outros, então o desvio-padrão será grande, e conseqüentemente os dados serão heterogêneos. Ou seja, os valores não se concentrarão com tanta intensidade em torno da média. UFOP June 20, 2021 50 / 66 Propriedades Variância Somando ou subtraindo uma constante aos dados a variância não se altera; Multiplicando todos os dados por uma constante K a nova variância ficara multiplicada por K2. Desvio-padrão Somando ou subtraindo uma constante K aos dados o desvio padrão não se altera; Multiplicando todos os dados por uma constante K o novo desvio padrão fica multiplicado por K. UFOP June 20, 2021 51 / 66 Coeficiente de Variação de Pearson A variância e o desvio padrão medem a variabilidade absoluta de uma amostra. Portanto, a variabilidade de amostras de grandezas diferentes ou de médias diferentes não pode ser comparada diretamente pelas estimativas da variância ou do desvio padrão obtidas. O desvio padrão ou variância permitem a comparação da variabilidade entre conjuntos numéricos que possuem a mesma média e a mesma unidade de medida ou grandeza. Nos casos em que os conjuntos possuem diferentes unidades ou possuem médias diferentes, uma medida de dispersão relativa, como o coeficiente de variação (CV), é indispensável para se comparar à variabilidade. UFOP June 20, 2021 52 / 66 O coeficiente de variação refere-se à variabilidade dos dados mensurada em relação a sua média, sendo obtido pela expressão seguinte: CVp = σ µx100 O estimador do Coediciente de Variação populacional CVp é dado por CV = s X x100 O coeficiente de variação é a expressão do desvio-padrão como porcentagem da média do conjunto de dados. É uma medida adimensional de variabilidade, ou seja, não possui unidade de medida. UFOP June 20, 2021 53 / 66 Algumas regras empíricas para a interpretação do coeficiente de variação Se CV < 15% há baixa dispersão → boa representatividade da média aritmética como medida de posição. Se 15% ≤ CV < 30% há média dispersão → a representatividade da média aritmética como medida de posição é apenas regular. Se CV ≥ 30% há elevada dispersão → a representatividade da média aritmética como medida de posição é ruim. UFOP June 20, 2021 54 / 66 Exemplo A média e o desvio-padrão da produtividade de duas cultivares de milho são: X = 4, 0t/ha e sA = 0, 8t/ha para a variedade de polinização aberta A e X = 8, 0t/ha e sA = 1, 2t/ha para o híbrido simples B. Qual das cultivares possui maior uniformidade de produção? UFOP June 20, 2021 55 / 66 Se ao inspecionar as estatísticas apresentadas, você respondesse que variedade de polinização aberta A seria a de maior uniformidade e que a razão seria o menordesvio padrao apresentado, você teria cometido um engano. Embora as unidades não sejam diferentes, as médias das amostras o são. Assim, não é correto utilizar uma medida de varabilidade absoluta, como o desvio-padrão, para compará-las. O procedimento adequado é calcular o CV para as cultivares e aí sim, proceder a comparação. UFOP June 20, 2021 56 / 66 CVA = 0, 8 4, 0x100 = 20% CVp = 1, 2 8 x100 = 15% Assim, é fácil observar que o milho híbrido simples (B) é o mais uniforme, pois possui menor CV do que a variedade de polinização aberta A. UFOP June 20, 2021 57 / 66 Box-plot Em 1977, John Tukey publicou uma proposta que posteriormente foi reconhecida como sendo um eficiente método para mostrar cinco número que sumarizam qualquer conjunto de dados. O gráfico proposto é chamado de boxplot (também conhecido como gráfico de caixa) e resume as seguintes medidas estatísticas: mediana quantis superior e inferior os valores mínimos e máximos UFOP June 20, 2021 58 / 66 Interpretando o Boxplot A caixa (box) propriamente contém a metade 50% dos data. O limite superior da caixa indica o percentil de 75% dos dados e o limite inferior da caixa indica o percentil de 25%. A distancia entre esses dois quantis é conhecida como interquartil. A linha na caixa indica o valor de mediana dos dados. Se a linha mediana dentro da caixa não é eqüidistante dos extremos, diz-se então que os dados são assimétricos. Os extremos do gráfico indicam os valores mínimo e máximo, a menos que valores outliers estejam presentes. Os pontos fora do gráfico são então outliers ou suspeitos de serem outliers. UFOP June 20, 2021 59 / 66 Vantagens do Boxplot Mostra graficamente a posição central dos dados (mediana) e a tendência. Fornece algum indicativo de simetria ou assimetria dos dados. Ao contrário de muitas outras formas de representar os dados, o boxplots mostra os outliers. Utilizando o boxplot para cada variável categórica lado-a-lado no mesmo gráfico, pode-se facilmente comparar os dados. UFOP June 20, 2021 60 / 66 Observações sobre o Boxplot Um detalhe do box-plot é que ele tende a enfatizar as caudas da distribuição, que são os pontos ao extremo nos dados. Também fornece detalhes da distribuição dos dados. Mostrar o histograma em conjunto com o box-plot ajuda a entender a distribuição dos dados, constituindo estes dos gráficos ferramentas importantes na análise exploratória. UFOP June 20, 2021 61 / 66 O Boxplot Comprimento do Pino Terceiro quartil Mediana Primeiro quartil Exemplo Os dados a seguir referem-se aos dados de amostras de terra de um Latossolo em determinações analíticas realizadas pelo Laboratório de Análise de Solos da UFLA. 4.4 4.4 4.5 4.5 4.6 4.6 4.6 4.7 4.7 4.8 4.8 4.8 4.9 5.1 5.1 5.3 5.3 5.3 5.3 5.4 5.5 5.5 5.5 5.5 5.5 5.5 5.7 6.2 6.4 6.4 Construir um boxplot e interpretar os resultados. UFOP June 20, 2021 63 / 66 Interpretação Avaliando o box plot para os dados de solo, visualizamos que os 25% menores valores referentes aos solos oscilam menos do que os 25% maiores valores referentes aos solos. Além disso percebemos uma assimetria na distribuição desta amostra. Avaliando os 50% dos dados centrais. Os 25% iniciais oscilam mais do que os 25% finais. O que pode ser confirmado com a constução do histograma. UFOP June 20, 2021 65 / 66 Histogram of x Frequency 0 2 4 6 8 10 12 4.0 4.5 5.0 5.5 6.0 6.5 x UFOP June 20, 2021 66 / 66