·

Sistemas de Informação ·

Introdução à Estatística

· 2022/2

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta
Equipe Meu Guru

Prefere sua atividade resolvida por um tutor especialista?

  • Receba resolvida até o seu prazo
  • Converse com o tutor pelo chat
  • Garantia de 7 dias contra erros

Texto de pré-visualização

36 Capítulo 1. Análise Exploratória de Dados em que Fi denota a frequência absoluta e PMi representa o ponto médio da i-ésima classe (i = 1, . . . , k), sendo k o número total de classes. A média aritmética é uma medida que: • Depende de todos os valores observados (seja da amostra ou da população); • É única em um determinado conjunto de dados; • É fortemente afetada por valores extremos; • Nem sempre existe (contexto probabilístico). Em geral, quando um conjunto de dados possui valores muito discrepantes entre si, então a média aritmética não é uma boa medida para representar o mesmo. Exemplo 1.15. Suponha que um estudo tenha sido realizado com n = 8 servidores da UTFPR que foram aleatoriamente selecionados no campus Curitiba. Seja X a variável que representa o número de filhos dos servidores da UTFPR. Supondo que o vetor de valores observados seja x = (3, 2, 0, 4, 1, 3, 2, 1), temos que x = 1 8 (3 + 2 + 0 + 4 + 1 + 3 + 2 + 1) = 16 8 = 2 filhos. R rm(list = ls()) # Dados x <- c(3, 2, 0, 4, 1, 3, 2, 1) # Resultados xb1 <- sum(x = x)/length(x = x) # ou xb2 <- mean(x = x) all.equal(target = xb2, current = xb1) Exemplo 1.16. Considere o conjunto de dados apresentado no Exemplo 1.2. Assumindo que X representa a variável Idade (V6), temos que x = 1 25 (22 + 21 + · · · + 30) = 693 25 = 27, 72 anos. 1.7Medidas Descritivas 37 R rm(list = ls()) # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "^\Desktop\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Resultados xb <- mean(x = V6) detach(name = d) O exemplo a seguir ilustra a obtenção da média aritmética para dados agrupados. Exemplo 1.17. Obtenha a média aritmética da variável Altura (V4) a partir da distribuição de frequências em classes apresentada na Tabela 1.9. Solução. Assumindo que X representa a altura dos indivíduos entrevistados, temos que x = 1 25 (3 · 1, 605 + 7 · 1, 675 + · · · + 2 · 1, 885) = 43, 415 25 = 1, 7366 m. Observe que o valor obtido é ligeiramente diferente de x = 1 25 (1, 77 + 1, 72 + · · · + 1, 69) = 43, 44 25 = 1, 7376 m, uma vez que o agrupamento implica na perda da informação pontual da variável. R rm(list = ls()) # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" 38 Capítulo 1. Análise Exploratória de Dados ## Windows: # path <- "^\Desktop\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Cálculos R <- dist.classes(x = V4, method = "Empírico", config = 1) # Obs. A função "dist.classes" foi definida no Exemplo 1.7 nr <- nrow(x = R$tab) nc <- ncol(x = R$tab) # Resultados xb <- sum(x = R$tab[1:(nr - 1), 1] * R$tab[1:(nr - 1), nc])/R$tab[nr, 1] detach(name = d) Média Geométrica Seja x = (x1, x2, . . . , xn) uma amostra de tamanho n de uma variável quantitativa X que assume somente valores positivos. A média geométrica desta variável é dada por xg = n x1 · x2 · · · · · xn = n i=1 xi = n x1 xi 1/n . Exemplo 1.18. Suponha que você tenha um investimento em renda fixa que rendeu 1% no primeiro ano, 3% no segundo ano, e 4% no terceiro ano. Nesse contexto, determine o rendimento médio desse investimento no referido período. Solução. Inicialmente, note que os índices de crescimento em cada ano são dados, respec- tivamente, por 1,01, 1,03, e 1,04. Consequentemente, xg = 3 1,01 · 1,03 · 1,04 = 1,026591, de onde podemos concluir que o rendimento médio do investimento foi de (1,026591 − 1) · 100 = 0,026591 · 100 ≈ 2,66% no período considerado. R 1.7.2 Medidas Separatrizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 1.7.3 Medidas de Dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 1.7.4 Medidas de Forma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2 Noções de Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 2.2 Modelagem de Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.2.1 Modelos Determinísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.2.2 Modelos Probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 2.3 Análise Combinatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.3.1 Fatorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.3.2 Permutação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.3.3 Arranjo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 2.3.4 Combinação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 2.4 Introdução à Teoria dos Conjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 2.4.1 Operações com Subconjuntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 2.5 Probabilidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 2.5.1 Probabilidade Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 2.5.2 Eventos Independentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 2.6 Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 2.6.1 Função de Distribuição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 2.6.2 Momentos de uma Variável Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 2.6.3 Função Geradora de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 2.7 Modelos Probabilísticos Discretos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 2.7.1 Distribuição Uniforme Discreta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 2.7.2 Distribuição de Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 2.7.3 Distribuição Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 2.7.4 Distribuição Geométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 2.7.5 Distribuição Binomial Negativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 2.7.6 Distribuição Hipergeométrica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 2.7.7 Distribuição de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 2.8 Modelos Probabilísticos Contínuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 2.8.1 Distribuição Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 2.8.2 Distribuição Uniforme Contínua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 2.8.3 Distribuição Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 2.8.4 Distribuição Gama . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 2.8.5 Distribuição Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 2.8.6 Distribuição t-Student . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 2.8.7 Distribuição Chi-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 2.8.8 Distribuição F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 2.9 Introdução às Técnicas de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . . 170 2.9.1 Amostragem Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 2.9.2 Amostragem não Aleatória . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173 3 Inferência Estatística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 3.2 Modelo Estatístico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 3.3 Estatísticas e Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 3.3.1 Informação de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 3.3.2 Eficiência de um Estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 3.3.3 Estatísticas Suficientes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188 3.4 Estimação Pontual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 3.4.1 Método da Máxima Verossimilhança . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190 3.5 Distribuições Amostrais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 3.6 Estimação Intervalar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 3.6.1 Intervalo de Confiança Para a Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210 3.6.2 Intervalo de Confiança Para a Diferença Entre Duas Médias . . . . . . . . . . . . . . . 215 3.6.3 Intervalo de Confiança Para a Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 3.6.4 Intervalo de Confiança Para a Razão Entre Duas Variâncias . . . . . . . . . . . . . . . 227 3.6.5 Intervalo de Confiança Para a Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 3.6.6 Intervalo de Confiança Para a Diferença Entre Duas Proporções . . . . . . . . . . . . 231 3.7 Testes de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 3.7.1 Erros de Decisão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 3.7.2 Nível Descritivo e Poder do Teste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236 3.7.3 Etapas de um Teste de Hipóteses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237 3.7.4 Teste Para a Média . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238 3.7.5 Teste Para a Média em Dados Pareados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 3.7.6 Teste Para a Comparação de Duas Médias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250 3.7.7 Teste Para a Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260 3.7.8 Teste Para a Comparação de Duas Variâncias . . . . . . . . . . . . . . . . . . . . . . . . . . 263 3.7.9 Teste Para a Proporção . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268 3.7.10 Teste Para a Comparação de Duas Proporções . . . . . . . . . . . . . . . . . . . . . . . . . 270 3.7.11 Teste Chi-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 4 Análise de Regressão Linear . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 4.2 Modelo de Regressão Linear Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284 4.2.1 Procedimentos Inferenciais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286 4.2.2 Validação do Modelo Ajustado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291 5 Análise de Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301 5.1.1 Experimentos de Fator Único . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302 5.1.2 Testes de Comparações Múltiplas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312 Referências Bibliográficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317 1. Análise Exploratória de Dados 1.1 Introdução A Análise Exploratória de Dados é um segmento da Estatística que reúne ferramentas úteis para a organização, a exibição e o resumo de dados (informações) provenientes de diversas fontes. Ao contrário da estatística inferencial, que será abordada em detalhes no Capítulo 3, podemos explorar os conceitos de estatística descritiva sem precisar utilizar elementos da teoria de probabilidades (Capítulo 2), uma vez que as técnicas de análise exploratória baseiam-se exclusivamente nas informações disponíveis. Neste capítulo, vamos estudar conceitos importantes, além de explorar as técnicas que podem ser utilizadas no processo de sumarização e visualização do comportamento de um conjunto de dados. Vale ressaltar que a realização de uma boa análise descritiva é fundamental antes de se conduzir qualquer análise estatística mais complexa, uma vez que a primeira, em geral, fornece sugestões sobre quais técnicas e/ou modelos que podem ser adotados na condução da segunda. 1.2 População e Amostra Um conjunto de elementos (eventos, indivíduos, objetos, etc.) que possuem pelo menos uma característica em comum é denominado população. Por outro lado, todo e qualquer subconjunto extraído de uma população é denominado amostra. Quanto ao número de elementos, uma população pode ser classificada como finita ou infi- nita. Uma população é dita finita quando o seu tamanho N é conhecido ou pode ser deter- minado com exatidão em algum intervalo de tempo. Contudo, em muitas situações práticas, 8 Capítulo 1. Análise Exploratória de Dados o tamanho de uma população é desconhecido ou não pode ser determinado. Nesse caso, dizemos que a referida população é infinita. Exemplo 1.1. Alguns conjuntos que representam populações são apresentados a seguir. • Conjunto de alunos da Universidade Tecnológica Federal do Paraná (UTFPR); • Conjunto de habitantes da cidade de Curitiba; • Conjunto de animais que habitam determinada região; • Conjunto de itens produzidos por uma indústria; • Conjunto de bactérias de determinada espécie que circulam pelo ar. Os elementos de uma população são denominados unidades elementares. Por outro lado, as unidades amostrais correspondem aos elementos que serão selecionados no processo de amostragem. O conjunto de elementos para o qual se pretende extrapolar as conclusões obtidas a partir das amostras é denominado população-alvo (ou população amostrada). Em geral, o tamanho (n) de uma amostra é sempre (consideravelmente) menor em relação ao tamanho da população de interesse. Um breve resumo sobre as principais técnicas para seleção de amostras é apresentado na Seção 2.9. ❖ Uma unidade amostral pode ser formada por uma ou mais unidades elementares. 1.3 Variáveis A característica a ser observada em cada um dos elementos de uma população (ou amostra) é denominada variável. Quando os possíveis resultados de uma variável são atributos (categorias, classificações, qualidades, etc) dizemos que se trata de uma variável qualitativa. Por outro lado, se os possíveis resultados forem de natureza numérica, temos então uma variável quantitativa. • Uma variável qualitativa será nominal se não for possível estabelecer, de forma que faça sentido, uma ordem natural entre seus possíveis resultados. Caso contrário, a variável é dita ordinal; • Uma variável quantitativa será discreta se só puder assumir números inteiros. Caso contrário, a variável é dita ser contínua. As planilhas eletrônicas são ferramentas amplamente utilizadas para se trabalhar com informações provenientes de variáveis qualitativas e quantitativas. Uma das plataformas mais conhecidas para o armazenamento e a manipulação de dados brutos é o Microsoft Excel do pacote Office. Por outro lado, existem aplicativos gratuitos, tais como o Calc do pacote LibreOffice, que podem ser utilizados para o mesmo fim. O exemplo a seguir ilustra a estrutura 1.3Variáveis 9 básica de uma planilha eletrônica. ❖ Neste material, utilizaremos a linguagem R para manipulação, análise e visualização de dados qualitativos e quantitativos. Exemplo 1.2. A Figura 1.1 ilustra o armazenamento de um conjunto de dados proveniente de um estudo realizado com n = 25 indivíduos residentes de Curitiba. Além da primeira coluna (ID), que se refere à identificação do indivíduo no conjunto, nesta planilha temos as seguintes variáveis: • V1: Sexo (F: Feminino, M: Masculino); • V2: Grau de Escolaridade (PG: 1º Grau, SG: 2º Grau, TG: 3º Grau); • V3: Meio de Transporte (C: Carro Próprio, P: Público); • V4: Altura (em metros); • V5: Número de Filhos (contagem); • V6: Idade (em anos). | ID | Sexo | Escolaridade | Transporte | Altura | Filhos | Idade | ------------------------------------------------------------------------------------------- | 1 | M | PG | P | 1,77 | 2 | 22 | | 2 | M | SG | C | 1,72 | 1 | 21 | | 3 | F | PG | P | 1,62 | 4 | 45 | | 4 | M | TG | C | 1,83 | 2 | 29 | | 5 | M | SG | C | 1,80 | 3 | 25 | | 6 | F | SG | P | 1,69 | 3 | 23 | | 7 | M | SG | C | 1,78 | 2 | 35 | | 8 | F | PG | P | 1,57 | 0 | 19 | | 9 | M | TG | P | 1,71 | 3 | 25 | | 10 | F | TG | P | 1,85 | 2 | 20 | | 11 | F | PG | C | 1,64 | 0 | 26 | | 12 | M | SG | P | 1,70 | 1 | 30 | | 13 | M | PG | C | 1,77 | 2 | 42 | | 14 | M | TG | P | 1,80 | 0 | 18 | | 15 | F | SG | C | 1,66 | 2 | 28 | | 16 | M | TG | P | 1,80 | 3 | 51 | | 17 | M | SG | C | 1,92 | 1 | 25 | | 18 | F | TG | P | 1,84 | 2 | 27 | | 19 | F | SG | C | 1,68 | 1 | 37 | | 20 | M | PG | C | 1,76 | 3 | 24 | | 21 | M | PG | P | 1,69 | 1 | 20 | | 22 | M | TG | P | 1,75 | 3 | 35 | | 23 | F | SG | C | 1,76 | 2 | 22 | | 24 | M | TG | P | 1,63 | 1 | 34 | | 25 | M | PG | C | 1,69 | 3 | 30 | Figura 1.1: Estrutura de uma planilha eletrônica para armazenamento de dados brutos. 10 Capítulo 1. Análise Exploratória de Dados No que diz respeito à classificação das variáveis, temos que: • V1 e V3 são qualitativas nominais; • V2 é qualitativa ordinal; • V4 é quantitativa contínua; • V5 é quantitativa discreta; • V6 é quantitativa e pode ser classificada como discreta ou contínua. 💻 rm(list = ls()) # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";", stringsAsFactors = F) # Resultados R <- sapply(X = d, FUN = class) Existe uma série de ferramentas que nos auxiliam a descrever/resumir/sumarizar variáveis qualitativas e quantitativas. Na sequência, vamos apresentar as técnicas para elaboração de tabelas e gráficos, que são objetos úteis para o resumo de um conjunto de dados por meio das medidas de frequência. Além disso, vamos apresentar as medidas descritivas mais utilizadas em uma análise exploratória de dados. 1.4 Medidas de Frequência Antes de introduzir os tipos de tabelas e gráficos que podem ser utilizados durante o processo de se resumir variáveis, vamos apresentar as métricas que essas ferramentas sumarizam: as medidas de frequência. Definição 1.1. Seja p o número de possíveis resultados distintos que uma variável pode assumir. Definimos: • Frequência absoluta: Quantidade de vezes em que cada particular possível resultado i foi observado. Notação: Fi (i = 1, 2, ..., p); 1.5 Tabelas • Frequência relativa: \( f_i = \frac{F_i}{n} \) e \( f_i(\%) = \frac{F_i}{n} \cdot 100\); • Frequência acumulada: \( F_{aci} = F_1 \) e \( F_{aci} = F_1 + F_2 + \cdots + F_i = \sum_{k=1}^{i} F_k;\) • Frequência acumulada relativa: \( f_{aci} = \frac{F_{aci}}{n} \) e \( f_{aci}(\%) = \frac{F_{aci}}{n} \cdot 100.\) ❗Caso os dados disponíveis sejam populacionais, basta substituir o tamanho da amostra \( (n) \) pelo tamanho da população \((N)\) em cada uma das formulações. 1.5 Tabelas As tabelas são ferramentas flexíveis que podem utilizadas para apresentar o resumo descritivo de uma variável a partir de suas medidas de frequência. Além disso, também podemos utilizar esta ferramenta para apresentar os dados brutos provenientes de determinado estudo ou experimento (veja a Figura 1.1). Para resumir variáveis qualitativas podemos utilizar uma tabela simples ou uma tabela de dupla entrada, conforme apresentado na sequência. 1.5.1 Tabela Simples Através de uma tabela simples, podemos resumir uma única variável qualitativa em termo de suas medidas frequências. A estrutura de uma tabela simples é apresentada a seguir. Tabela 1.1: Estrutura de uma tabela simples. Variável | Medidas de frequência Atributos, valores ou classes da variável | Frequências observadas Total | ❗De maneira geral, a inclusão do Total é optativa, mas sua utilização é frequentemente recomendada por diversos autores. Exemplo 1.3. Considere o conjunto de dados apresentado no Exemplo 1.2. Construa tabelas simples para as variáveis Sexo e Grau de Escolaridade. Solução. A distribuição de frequências das variáveis Sexo e Grau de Escolaridade são apresentadas a seguir. Capítulo 1. Análise Exploratória de Dados Tabela 1.2: Distribuição de frequências da variável Sexo. Sexo | \( F_i \) | \( f_i \) | \( f_i(\%) \) Feminino | 8 | 0,32 | 32 Masculino | 17 | 0,68 | 68 Total | 25 | 1,00 | 100 Tabela 1.3: Distribuição de frequências da variável Grau de Escolaridade. Escolaridade | \( F_i \) | \( f_i(\%) \) | \( F_{aci} \) | \( fac_{i}(\%) \) 1º Grau | 8 | 32 | 8 | 32 2º Grau | 8 | 32 | 16 | 64 3º Grau | 9 | 36 | 25 | 100 Total | 25 | 100 | - | - ❝ rm(list = ls()) # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Cálculos Fi.1 <- table(V1) Fi.2 <- table(V2) # Resultados ## Tabela 1.2 R1 <- matrix(data = NA, nrow = 3, ncol = 3) 14 Capítulo 1. Análise Exploratória de Dados Exemplo 1.4. Considerando o conjunto de dados apresentado no Exemplo 1.2, podemos construir uma tabela de dupla entrada para ilustrar a distribuição conjunta de frequências das variáveis Sexo e Grau de Escolaridade. Tabela 1.5: Distribuição conjunta das variáveis Sexo e Grau de Escolaridade. Sexo | | Grau de Escolaridade 1º Grau | 2º Grau | 3º Grau | Total Feminino | 1 | 4 | 3 | 8 Masculino | 7 | 4 | 6 | 17 Total | 8 | 8 | 9 | 25 Além disso, podemos resumir conjuntamente as variáveis Sexo e Meio de Transporte. Tabela 1.6: Distribuição conjunta das variáveis Sexo e Meio de Transporte. Sexo | Meio de Transporte | | Carro Próprio | Público | Total Feminino | 3 | 5 | 8 Masculino | 7 | 10 | 17 Total | 10 | 15 | 25 rm(list = ls()) # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Resultados ## Tabela 1.5 R1 <- matrix(data = NA, nrow = 3, ncol = 4) 1.5Tabelas 15 colnames(x = R1) <- c("1º Grau", "2º Grau", "3º Grau", "Total") rownames(x = R1) <- c("Feminino", "Masculino", "Total") R1[1:2, 1:3] <- table(V1, V2) R1[1:2, 4] <- rowSums(x = R1[1:2, 1:3]) R1[3, 1:3] <- colSums(x = R1[1:2, 1:3]) R1[3, 4] <- sum(x = R1[1:2, 4]) ## Tabela 1.6 R2 <- matrix(data = NA, nrow = 3, ncol = 3) colnames(x = R2) <- c("Carro Próprio", "Público", "Total") rownames(x = R2) <- c("Feminino", "Masculino", "Total") R2[1:2, 1:2] <- table(V1, V3) R2[1:2, 3] <- rowSums(x = R2[1:2, 1:2]) R2[3, 1:2] <- colSums(x = R2[1:2, 1:2]) R2[3, 3] <- sum(x = R2[1:2, 3]) detach(name = d) Agora, para resumir variáveis quantitativas, podemos utilizar uma distribuição pontual de frequências ou uma distribuição de frequências em classes. Esses tipos de tabela são apresentadas a seguir. 1.5.3 Distribuição Pontual de Frequências Através de uma distribuição pontual de frequências, podemos resumir uma variável quantita- tiva discreta em termo de suas medidas de frequência. Exemplo 1.5. A distribuição pontual de frequências da variável Número de Filhos (descrita no Exemplo 1.2) é apresentada na Tabela 1.7. Tabela 1.7: Distribuição pontual de frequências da variável Número de Filhos. Nº de Filhos Fi fi(%) Faci faci(%) 0 2 8 2 8 1 7 28 9 36 2 8 32 17 68 3 6 24 23 92 4 2 8 25 100 Total 25 100 - - 16 Capítulo 1. Análise Exploratória de Dados rm(list = ls()) # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Cálculos Fi <- table(V5) x <- sort(x = unique(x = V5)) nx <- length(x = x) # Resultados R <- matrix(data = NA, nrow = nx + 1, ncol = 4) colnames(x = R) <- c("F_i", "f_i(%)", "Fac_i", "fac_i(%)") rownames(x = R) <- c(x, "Total") R[1:nx, 1] <- Fi R[1:nx, 2] <- R[1:nx, 1]/length(x = V5) * 100 R[1:nx, 3] <- cumsum(x = R[1:nx, 1]) R[1:nx, 4] <- cumsum(x = R[1:nx, 2]) R[nx + 1, 1:2] <- colSums(x = R[1:nx, 1:2]) detach(name = d) Podemos resumir conjuntamente duas variáveis quantitativas discretas utilizando a estrutura da tabela de dupla entrada) apresentada anteriormente. Além disso, tal estrutura também pode ser utilizada para o cruzamento de informações de uma variável qualitativa com uma variável quantitativa discreta. Exemplo 1.6. Considerando os dados apresentados no Exemplo 1.2, podemos construir uma tabela de dupla entrada para ilustrar a distribuição conjunta de frequências das variáveis 18 Capítulo 1. Análise Exploratória de Dados 1.5.4 Distribuição de Frequências em Classes Através de uma distribuição de frequências em classes, podemos resumir uma variável quan- titativa em termo de suas frequências agrupadas. Agrupar uma variável discreta ou contínua em classes pode ser uma alternativa útil quando muitos dos diferentes possíveis resultados (valores) da variável de interesse tiverem sido observados. Para construir uma distribuição de frequências em classes devemos determinar: • O número (k) de classes; • A amplitude (h) das classes; • A configuração dos intervalos que definem as classes. Para obter o número de classes necessário para a construção adequada de uma distribuição de frequências para dados amostrais, podemos utilizar os seguintes métodos: • Método empírico: k = √n, se 25 ≤ n ≤ 400 (considerar o número inteiro mais próximo); • Método de Milone: k = 2 log(n) − 1, se 20 ≤ n ≤ 37 (considerar o número inteiro mais próximo); • Método de Sturges: k = ⌈1 + 3,322 log10(n)⌉, em que ⌈·⌉ denota a função teto, que retorna o menor valor inteiro que é maior que o argumento da função (por exemplo, ⌈3,19⌉ = 4). Este método apresenta melhores resultados quando 16 ≤ n ≤ 573. Quando n > 573, esta técnica fornece uma suavização excessiva no número de classes e, nesse caso, o método empírico pode ser utilizado. Por outro lado, quando n < 16, o método tende a fornecer um número de classes maior do que o necessário. ❗ Naturalmente, esses métodos podem ser utilizados se os dados disponíveis forem popu- lacionais. De forma geral, o ideal é que os agrupamentos sejam feitos utilizando entre no mínimo cinco e no máximo 20 classes. Agora, podemos obter a amplitude das classes da seguinte forma h = \frac{AT}{k} = \frac{x_{max} - x_{min}}{k}, em que AT representa a amplitude total, x_{min} denota o menor e x_{max} denota o maior valor observado da variável de interesse. Por fim, devemos escolher uma configuração para as classes. Seja \ell_i o limite inferior e L_i o limite superior da i-ésima classe (i = 1, 2, \ldots, k). Na construção de uma distribuição de 1.5 Tabelas frequências em classes, podemos: • Incluir \ell_i e não incluir L_i: \ell_i ⊢ L_i ou [\ell_i, L_i); • Incluir L_i e não incluir \ell_i: \ell_i ⊣ L_i ou (\ell_i, L_i]. ❗ Podemos combinar as duas configurações anteriores de forma a incluir \ell_i e L_i (\ell_i ⊢⊣ L_i) ou não incluir \ell_i e L_i (\ell_i ⊣⊢ L_i). Sobre tais configurações, vale salientar que é possível: • Utilizar mais de uma configuração em uma mesma distribuição de frequências; • Construir distribuições de frequências com classes de amplitudes distintas. Nesse caso, a interpretação deve basear-se não somente nas frequências absolutas, mas também na densidade (d_i) das classes. Esta medida é dada por d_i = \frac{f_i}{h_i}, em que h_i denota a amplitude da i-ésima classe. A partir da definição dos limites inferior e superior de cada intervalo, podemos obter o ponto médio (PM) da i-ésima classe da seguinte forma PM_i = \frac{1}{2} (\ell_i + L_i). Exemplo 1.7. Considere o conjunto de dados apresentado no Exemplo 1.2 e construa uma distribuição de frequências em classes para a variável Altura (V_4). Utilize o método empírico para determinação do número de classes. Solução. Inicialmente, pelo método empírico temos que k = \sqrt{25} = 5. Se o método sugerido fosse o de Milone, também concluiríamos pela utilização de cinco classes pois k = 2 \log(25) - 1 = 2 · 3,218876 - 1 \approx 5. Consequentemente, a amplitude de cada classe será h = \frac{1,92 - 1,57}{5} = \frac{0,35}{5} = 0,07. Por fim, a Tabela 1.9 apresenta um resumo descritivo da variável Altura, utilizando um agrupamento com cinco classes. 20 Capítulo 1. Análise Exploratória de Dados Tabela 1.9: Distribuição de frequências em classes da variável Altura. Altura F_i f_i(%) Fac_i fac_i(%) d_i PM_i 1,57 ⊣ 1,64 3 12 3 12 1,714 1,605 1,64 ⊣ 1,71 7 28 10 40 4,000 1,675 1,71 ⊣ 1,78 7 28 17 68 4,000 1,745 1,78 ⊣ 1,85 6 24 23 92 3,429 1,815 1,85 ⊣ 1,92 2 8 25 100 1,143 1,885 Total 25 100 - - - - ❜ rm(list = ls()) # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Funções dist.classes <- function(x, method, config = 1) { n <- length(x = x) k <- round(x = sqrt(x = n)) if (method == "Sturges") k <- ceiling(x = 1 + 3.322 * log10(x = n)) else if (method == "Milone") k <- round(x = 2 * log(x = n) - 1) AT <- max(x) - min(x) h <- AT/k br <- seq(from = min(x), to = max(x), by = h) y <- cut(x = x, breaks = br, include.lowest = T, right = F) if (config == 2) { y <- cut(x = x, breaks = br, include.lowest = T, right = T) } Fi <- table(y) nFi <- length(x = Fi) uy <- names(x = Fi) p <- gsub(pattern = "\(|\[|\)|\]", replacement = "", x = uy) l <- as.numeric(x = gsub(pattern = ".*,", replacement = "", x = p)) L <- as.numeric(x = gsub(pattern = ",.*", replacement = "", x = p)) R <- matrix(data = NA, nrow = nFi + 1, ncol = 6) R[1:nFi, 1] <- as.numeric(x = Fi) R[1:nFi, 2] <- R[1:nFi, 1]/n * 100 R[1:nFi, 3] <- cumsum(x = R[1:nFi, 1]) R[1:nFi, 4] <- cumsum(x = R[1:nFi, 2]) R[1:nFi, 5] <- round(x = R[1:nFi, 1]/(n * h), digits = 3) R[1:nFi, 6] <- round(l + L)/2, digits = 3) R[nFi + 1, 1:2] <- c(sum(x = R[1:nFi, 1:2])) colnames(x = R) <- c("F_i", "F_i(%)", "Fac_i", "fac_i(%)", "d_i", "PM_i") rownames(x = R) <- c(uy, "Total") list(tab = R, amplitude = h, inf = l, sup = L) } # Resultados R <- dist.classes(x = V4, method = "Empírico", config = 1) detach(name = d) 🗩 Note que, ao agrupar uma variável quantitativa em classes, estamos realizando um procedimento de categorização da mesma. Nesse contexto, temos que a versão categorizada de uma variável originalmente quantitativa é classificada como sendo uma variável qualitativa ordinal. Exemplo 1.8. Considere o conjunto de dados apresentado no Exemplo 1.2 e construa uma distribuição de frequências em classes para a variável Idade (V6). Utilize o método de Sturges para determinação do número de classes. Solução. Inicialmente, pelo método de Sturges temos que \(\quad\; k = \lbrack 1 + 3,322\log_{10}(25) \rbrack = \lbrack 1 + 3,322 \cdot 1,39794 \rbrack = \lbrack 1 + 4,643957 \rbrack = 6.\) Consequentemente, a amplitude de cada classe será \(\quad\quad h = \frac{51 - 18}{6} = \frac{33}{6} = 5,5.\) Por fim, a Tabela 1.10 apresenta um resumo descritivo da variável Idade, utilizando um agrupamento com seis classes. \[\begin{array}{|c|c|c|c|c|c|c|}\hline \text{Tabela 1.10: Distribuição de frequências em classes da variável Idade.} \ \hline\text{Idade} & F_i & f_i(\%) & Fac_i & fac_i(\%) & d_i & PM_i \ \hline 18,0 \rightarrow 23,5 & 8 & 32 & 8 & 32 & 0,058 & 20,75 \\ \hline 23,5 \rightarrow 29,0 & 9 & 36 & 17 & 68 & 0,065 & 26,25 \\ \hline 29,0 \rightarrow 34,5 & 4 & 16 & 21 & 84 & 0,029 & 31,75 \\ \hline 34,5 \rightarrow 40,0 & 2 & 8 & 23 & 92 & 0,015 & 37,25 \\ \hline 40,0 \rightarrow 45,5 & 1 & 4 & 24 & 96 & 0,007 & 42,75 \ \\ \hline 45,5 \rightarrow 51,0 & 1 & 4 & 25 & 100 & 0,007 & 48,25 \ \\ \hline \text{Total} & 25 & 100 & \text{-} & \text{-} & \text{-} & \text{-} \\ \hline \end{array}\] \begin{minipage}{.5\textwidth} \includegraphics{R} rm(list = ls()) # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Resultados \end{minipage} 1.6Gráficos 23 R <- dist.classes(x = V6, method = "Sturges", config = 2) # Obs. A função "dist.classes" foi definida no Exemplo 1.7 detach(name = d) 1.6 Gráficos Os gráficos também são ferramentas amplamente utilizadas para apresentar o resumo descri- tivo de uma variável, geralmente em termo de suas medidas de frequência. De forma geral, um gráfico “traduz” o conteúdo de uma tabela utilizando recursos visuais que tendem, em muitas situações, a ser mais atrativos para grande parte dos leitores. No que tange o comportamento das variáveis sob investigação, podemos utilizar uma ferra- menta gráfica para detectar uma série de características, tais como: • Padrões; • Tendências; • Oscilações; • Valores discrepantes. De forma geral, para ilustrar o resumo descritivo de variáveis qualitativas podemos utilizar um gráfico de barras, um gráfico de setores ou um gráfico comparativo. Esses tipos de gráficos são apresentados a seguir. 1.6.1 Gráfico de Barras Assim como uma tabela simples, um gráfico de barras (horizontais ou verticais) pode ser utilizado para resumir uma única variável qualitativa em termo de suas medidas frequências. Exemplo 1.9. Considere o conjunto de dados apresentado no Exemplo 1.2. Na Figura 1.2 Feminino Masculino 0 5 10 15 20 Frequência Absoluta 1º Grau 2º Grau 3º Grau 0 2 4 6 8 10 Frequência Absoluta Figura 1.2: Distribuição das frequências absolutas das variáveis Sexo e Grau de Escolari- dade. ilustramos um resumo descritivo das variáveis Sexo e Grau de Escolaridade utilizando gráficos de barras. \includegraphics{R} rm(list = ls()) graphics.off() # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Resultados ## Painel da esquerda par(mar = c(3, 4, 1, .5)) barplot(height = table(V1), ylim = c(0, 20), las = 1, col = "lightgrey", names.arg = c("Feminino", "Masculino"), cex.axis = 1.4, cex.names = 1.4) mtext(text = "Frequência Absoluta", side = 2, line = 2, cex = 1.4) ## Painel da direita par(mar = c(4, 5.2, .5, 1)) barplot(height = table(V2), xlim = c(0, 10), las = 1, col = "lightgrey", names.arg = c("1° Grau", "2° Grau", "3° Grau"), cex.axis = 1.4, cex.names = 1.4, horiz = T) mtext(text = "Frequência Absoluta", side = 1, line = 2.6, cex = 1.4) 1.6Gráficos 25 detach(name = d) 1.6.2 Gráfico de Setores O gráfico de setores é outra ferramenta que pode ser utilizada para resumir uma única variável qualitativa em termo de suas medidas frequências. Uma particularidade deste tipo de gráfico é que sua utilização é recomendada apenas para sumarizar variáveis qualitativas nominais. Para construir um gráfico de setores devemos, primeiramente, obter os ângulos, θi (i = 1, 2, . . . , p), associados a cada um dos possíveis resultados da variável de interesse. Esses ângulos podem ser obtidos a partir da relação θi = 360Fi/n, em que Fi denota a frequência absoluta do i-ésimo particular possível resultado observado e n é o tamanho da amostra. Naturalmente, esta relação também vale para dados populacionais, bastando apenas substituir n por N. Exemplo 1.10. Considerando o conjunto de dados apresentado no Exemplo 1.2, podemos resumir as variáveis Sexo e Meio de Transporte utilizando gráficos de setores. Para a variável Sexo, temos que θ1 ≈ 115° (Feminino) e θ2 = 360° − θ1 ≈ 245° (Masculino). Já para a variável Meio de Transporte, temos que θ1 = 144° (Carro Próprio) e θ2 = 360° − θ1 = 216° (Público). Dessa forma, um resumo descritivo destas variáveis é apresentado na Figura 1.3. Figura 1.3: Distribuição das frequências relativas percentuais das variáveis Sexo e Meio de Transporte. R rm(list = ls()) graphics.off() # Dados 26 Capítulo 1. Análise Exploratória de Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Cálculos slices1 <- table(V1) pcts1 <- round(x = slices1/sum(x = slices1) * 100) labels1 <- paste0(paste(c("Feminino", "Masculino"), "-", pcts1), "%") slices2 <- table(V3) pcts2 <- round(x = slices2/sum(x = slices2) * 100) labels2 <- paste0(paste(c("Carro Próprio", "Público"), "-", pcts2), "%") # Resultados ## Painel da esquerda par(mar = c(.1, .1, .1, 1)) pie(x = slices1, labels = labels1, col = c("lightblue", "lightpink"), cex = 1.4) ## Painel da direita par(mar = c(.1, .1, .1, 1)) pie(x = slices2, labels = labels2, col = c("lightgrey", "azure2"), cex = 1.4) detach(name = d) 1.6.3 Gráfico Comparativo Assim como em uma tabela de dupla entrada, um gráfico comparativo pode ser utilizado resumir duas variáveis qualitativas em termo de suas frequências cruzadas. Exemplo 1.11. Considerando o conjunto de dados apresentado no Exemplo 1.2, podemos construir gráficos comparativos para ilustrar a distribuição conjunta das frequências absolu- 1.6Gráficos 27 tas da variável Sexo em relação às variáveis Meio de Transporte e Grau de Escolaridade. Os gráficos de interesse (utilizando barras verticais) são apresentados na Figura 1.4. Figura 1.4: Distribuição das frequências absolutas da variável Sexo em relação às variáveis Grau de Escolaridade e Meio de Transporte. R rm(list = ls()) graphics.off() # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Resultados ## Painel da esquerda par(mar = c(3, 4, 1, .1)) barplot(height = table(V1, V2), ylim = c(0, 10), las = 1, col = c("lightblue", "lightpink"), names.arg = c("1º Grau", "2º Grau", "3º Grau"), cex.axis = 1.4, cex.names = 1.4, 28 Capítulo 1. Análise Exploratória de Dados beside = T) mtext(text = "Frequência Absoluta", side = 2, line = 2.6, cex = 1.4) legend(x = 6.6, y = 10.3, bty = "n", legend = c("Feminino", "Masculino"), fill = c("lightblue", "lightpink"), cex = 1.4, y.intersp = 1.4) ## Painel da direita par(mar = c(3, 4, .1, .1)) barplot(height = table(V1, V3), ylim = c(0, 16), las = 1, col = c("lightblue", "lightpink"), names.arg = c("Carro Próprio", "Público"), cex.axis = 1.4, cex.names = 1.4, beside = T) mtext(text = "Frequência Absoluta", side = 2, line = 2.6, cex = 1.4) legend(x = 4.5, y = 15.7, bty = "n", legend = c("Feminino", "Masculino"), fill = c("lightblue", "lightpink"), cex = 1.4, y.intersp = 1.4) detach(name = d) Agora, para ilustrar o resumo descritivo de variáveis quantitativas, podemos utilizar um grá- fico de bastões ou um histograma. Além disso, podemos fazer uso de um gráfico de pontos para apresentar dados em sua forma bruta. Esses tipos de gráficos são apresentados a seguir. 1.6.4 Gráfico de Bastões O gráfico de bastões surge como uma alternativa para a visualização de uma distribuição pontual de frequências. Este gráfico é formado por segmentos de retas perpendiculares ao eixo horizontal/vertical, sendo que o comprimento dos segmentos corresponde à frequência absoluta (ou relativa) de cada possível resultado observado. Exemplo 1.12. Considere o conjunto de dados apresentado no Exemplo 1.2. Na Figura 1.5 apresentamos um resumo descritivo da variável Número de Filhos utilizando gráficos de 1.6Gráficos 29 bastões nas estruturas vertical e horizontal, respectivamente. 10 8 6 4 2 0 0 1 2 3 4 Frequência Absoluta Frequência Absoluta 0 2 4 6 8 10 Figura 1.5: Distribuição pontual das frequências absolutas da variável Número de Filhos. R rm(list = ls()) graphics.off() # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Resultados ## Painel da esquerda par(mar = c(3, 4, 1, .5)) bp <- barplot(height = table(V5), ylim = c(0, 10), las = 1, cex.axis = 1.4, cex.names = 1.4, space = 100) mtext(text = "Frequência Absoluta", side = 2, line = 2.6, cex = 1.4) points(x = bp, y = as.numeric(x = table(V5)), pch = 20) ## Painel da direita par(mar = c(4, 2.5, .5, 1.5)) bp <- barplot(height = table(V5), xlim = c(0, 10), las = 1, cex.axis = 1.4, cex.names = 1.4, horiz = T, space = 100) mtext(text = "Frequência Absoluta", side = 1, line = 2.6, cex = 1.4) points(x = as.numeric(x = table(V5)), y = bp, pch = 20) detach(name = d) 1.6.5 Histograma O histograma é uma das ferramentas gráficas mais utilizadas para sumarização de dados nas mais diversas áreas. Trata-se de um recurso bastante versátil, utilizado para ilustrar o comportamento de uma variável quantitativa em termo de suas frequências agrupadas. Exemplo 1.13. Considere o conjunto de dados apresentado no Exemplo 1.2. Podemos construir histogramas para ilustrar as medidas de frequência das categorias criadas para a variável Altura (veja a Tabela 1.9). Na Figura 1.6 apresentamos duas formas possíveis para o histograma da variável em questão. Figura 1.6: Distribuição das frequências absolutas das classes da variável Altura. Podemos observar que os histogramas apresentados diferem apenas na distribuição das barras em relação aos intervalos (classes), sendo que a ilustração no painel da direita obedece exatamente os limites estabelecidos no Exemplo 1.7. rm(list = ls()) 1.6Gráficos 31 graphics.off() # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Cálculos h <- (max(V4) - min(V4))/sqrt(x = length(x = V4)) min.br1 <- round(x = min(V4) - h, digits = 1) max.br1 <- round(x = max(V4) + h, digits = 1) h.br1 <- round(x = h, digits = 1) br1 <- seq(from = min.br1, to = max.br1, by = h.br1) br2 <- seq(from = min(V4), to = max(V4), by = h) # Resultados ## Painel da esquerda par(mar = c(3, 4, .5, .5)) hist(x = V4, main = "", xlab = "", ylab = "", ylim = c(0, 12), las = 1, col = "lightgrey", cex.axis = 1.4, breaks = br1) mtext(text = "Frequência Absoluta", side = 2, line = 2.6, cex = 1.4) ## Painel da direita par(mar = c(3, 4, .5, .5)) hist(x = V4, main = "", xlab = "", 32 Capítulo 1. Análise Exploratória de Dados ylab = "", xlim = c(min.br1, max.br1), ylim = c(0, 12), las = 1, col = "lightgrey", cex.axis = 1.4, breaks = br2, include.lowest = T, right = F) mtext(text = "Frequência Absoluta", side = 2, line = 2.6, cex = 1.4) detach(name = d) 1.6.6 Gráfico de Pontos O gráfico de pontos é uma ferramenta bastante interessante e prática que pode ser utilizada na apresentação dos valores de uma ou mais variáveis quantitativas através de uma linha, responsável por conectar os pontos observados. O gráfico de pontos é amplamente utilizado em diversos contextos para ilustrar o comportamento de dados observados ao longo de um determinado período, ou seja, uma série temporal. Exemplo 1.14. A Tabela 1.11 apresenta as despesas e o lucro líquido anual de uma em- presa de Curitiba durante o período de 2012 a 2021. Os valores apresentados referem-se às despesas e lucros na casa dos milhares de reais. Tabela 1.11: Despesas e lucro líquido anual de uma empresa de Curitiba entre 2012 e 2021. Ano 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 Total Despesas 7 8 10 14 14 14 18 20 21 26 152 Lucro 33 35 42 49 53 48 56 60 55 68 499 5 10 15 20 25 30 Despesas (em milhares de reais) 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 30 40 50 60 70 Lucro (em milhares de reais) 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 Figura 1.7: Despesas e lucro líquido anual de uma empresa de Curitiba entre 2012 e 2021. Para uma melhor visualização do comportamento e da evolução das despesas e dos lucros da empresa durante o período de observação, construímos gráficos de pontos que podem ser visualizados na Figura 1.7. rm(list = ls()) graphics.off() # Dados anos <- 2012:2022 despesas <- c(7, 8, 10, 14, 14, 14, 18, 20, 21, 26) lucro <- c(33, 35, 42, 49, 53, 48, 56, 60, 55, 68) # Informações eixo.y1 <- "Despesas (em milhares de reais)" eixo.y2 <- "Lucro (em milhares de reais)" # Resultados ## Painel da esquerda par(mar = c(4, 4, .5, .5)) plot(x = despesas, xlab = "", ylab = "", ylim = c(5, 30), las = 1, pch = 20, type = "b", cex.axis = 1.4, xaxt = "n") mtext(text = eixo.y1, side = 2, line = 2.7, cex = 1.3) axis(side = 1, at = 1:length(x = anos), labels = F) text(x = 1:length(x = anos), y = par("usr")[3] - 3.6, labels = anos, srt = 90, cex = 1.3, xpd = NA) ## Painel da direita par(mar = c(4, 4, .5, .5)) 34 Capítulo 1. Análise Exploratória de Dados plot(x = lucro, xlab = "", ylab = "", ylim = c(30, 70), las = 1, pch = 20, type = "b", cex.axis = 1.4, xaxt = "n") mtext(text = eixo.y2, side = 2, line = 2.7, cex = 1.3) axis(side = 1, at = 1:length(x = anos), labels = F) text(x = 1:length(x = anos), y = par("usr")[3] - 5.5, labels = anos, srt = 90, cex = 1.3, xpd = NA) 1.7 Medidas Descritivas Para além das tabelas e das ferramentas gráficas, existe uma série de medidas descritivas que nos auxiliam na tarefa de resumir dados de natureza quantitativa. Tais medidas podem ser classificadas da seguinte forma: • Medidas de posição (de tendência central e separatrizes); • Medidas de dispersão (ou de variabilidade); • Medidas de forma. Essas medidas possuem diferentes nomenclaturas, dependendo do conjunto (populacional ou amostral) para o qual elas estão sendo calculadas. Se os dados forem populacionais, tais medidas serão denominadas parâmetros, usualmente denotadas por letras gregas (θ, µ, σ, etc). Por outro lado, se os dados forem amostrais, tais medidas serão denominadas estatísticas. No Capítulo 3, veremos que as estatísticas também podem ser denominadas estimadores. Nesta seção, vamos apresentar as principais medidas descritivas que podem ser utilizadas quando se deseja resumir variáveis de natureza quantitativa. Para estudar tais medidas, vamos convencionar que: • Qualquer que seja a variável de interesse, esta será representada pela letra X; • Uma particular observação da variável X será denotada por x; 1.7 Medidas Descritivas • Um conjunto de observações da variável X será denotado, genericamente, pelo vetor x = (x1, x2, . . . , xr), em que r = n se os dados forem amostrais e r = N se os dados forem populacionais. 1.7.1 Medidas de Tendência Central As medidas de tendência central são valores localizados no centro da distribuição dos dados, e indicam pontos em torno dos quais as observações tendem a se concentrar. As principais medidas de tendência central são: • Média aritmética; • Média geométrica; • Média harmônica; • Mediana; • Moda. Na sequência, apresentamos e ilustramos a aplicação de cada uma dessas medidas. Média Aritmética Seja x = (x1, x2, . . . , xn) uma amostra de tamanho n de uma variável quantitativa X . A média aritmética desta variável é dada por x̄ =\{ 1 \over n \} \sum_{i=1}^{n} x_i = \{ 1 \over n \} (x1 + x2 + · · · + xn) Caso todos os elementos da população (em relação à característica de interesse) tenham sido observados, temos que μ =\{ 1 \over N \} \sum_{i=1}^{N} x_i, em que μ representa o parâmetro de média aritmética populacional. A média aritmética é uma das medidas descritivas mais utilizadas para resumir dados quantitativos. Também podemos obter a média para dados agrupados segundo uma distribuição de frequências em classes. Nesse caso, temos que x̄ = \{ 1 \over n \} \sum_{i=1}^{k} F_i PM_i \hspace{5 cm} e \hspace{5 cm} μ = \{ 1 \over N \} \sum_{i=1}^{k} F_i PM_i, 1.7 Medidas Descritivas 39 rm(list = ls()) # Dados x <- c(1, 3, 4) # Cálculos y <- x/100 + 1 # Resultados xg1 <- (prod(x = y)^(1/length(x = x)) - 1) * 100 # ou xg2 <- (exp(x = mean(x = log(x = y))) - 1) * 100 all.equal(target = xg2, current = xg1) A utilização da média geométrica é recomendada quando se deseja resumir conjuntos de dados cujos valores aumentam de forma sucessiva (crescimento populacional, por exemplo), ou se alteram de forma contínua. Como a nomenclatura sugere, a interpretação dessa medida pode ser feita utilizando argumentos geométricos. Exemplo 1.19. Considere um retângulo com 7 cm de altura e 12 cm de base. Qual a medida dos lados de um quadrado que possui a mesma área do referido retângulo? Solução. A área do retângulo descrito é A_r = 7 * 12 = 84 cm². Como a área de um quadrado é obtida a partir do quadrado de seu lado (l), temos que l = \sqrt{A_r} \approx 9,17. Dessa forma, podemos observar que, para n = 2, a média geométrica equivale ao lado de um quadrado de área A_q = x_1 * x_2. rm(list = ls()) # Informações a <- 7 b <- 12 # Resultados ladoR1 <- sqrt(x = a * b) # ou ladoR2 <- prod(x = c(a, b))^(1/2) 40 Capítulo 1. Análise Exploratória de Dados all.equal(target = ladoR2, current = ladoR1) Média Harmônica Seja x = (x_1, x_2, ..., x_n) uma amostra de tamanho n de uma variável quantitativa X. A média harmônica desta variável é dada por \bar{x}_h = n\left ( \frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n} \right )^{-1} = n\left ( \sum_{i=1}^{n}\frac{1}{x_i} \right )^{-1} . Exemplo 1.20. Um investidor comprou um lote de 450 cotas de ações de uma empresa, totalizando R$11.250,00 de investimento. Após três meses, esse investidor resolveu fazer um novo aporte com o mesmo valor, só que na ocasião conseguiu adquirir apenas 300 cotas. Nesse contexto, determine o preço médio pago pelo investidor em cada ação. Solução. Inicialmente, temos que o valor pago por cada cota na primeira aquisição foi R$25,00. Já na segunda compra, o valor pago foi R$37,50. Consequentemente, \bar{x}_h = 2 \left ( \frac{1}{25,00} + \frac{1}{37,50} \right )^{-1} = 2 \left ( \frac{62,50}{937,50} \right )^{-1} = 2 \left ( \frac{1}{15} \right )^{-1} = R$30,00. rm(list = ls()) # Dados x <- c(25, 37.5) # Resultados xh <- length(x = x)/sum(x = 1/x) A utilização da média harmônica é recomendada quando se deseja resumir dados provenien- tes de estudos que envolvem grandezas inversamente proporcionais (por exemplo, a veloci- dade média). Essa medida é frequentemente utilizada para descrição de dados oriundos de experimentos físicos e químicos. Exemplo 1.21. Suponha que você está viajando de carro e percorre 20 km de uma rodovia a 80 km/h. Na sequência, ao acessar uma rodovia secundária, você percorre novamente 20 km só que trafegando a 30 km/h. Nesse contexto, determine a velocidade média desenvolvida nesse trecho de 40 km. 1.7 Medidas Descritivas 41 Solução. Inicialmente, note que se adotássemos a média aritmética, obteríamos \bar{x} = 55 km/h. Contudo, para esse tipo de problema, recomenda-se a utilização da média harmônica. Consequentemente, \bar{x}_h = 2 \left ( \frac{1}{80} + \frac{1}{30} \right )^{-1} = 2 \left ( \frac{11}{240} \right )^{-1} = \frac{480}{11} = 43,63636 \approx 44 km/h. rm(list = ls()) # Dados x <- c(80, 30) # Resultados xh <- length(x = x)/sum(x = 1/x) Mediana Como o próprio nome sugere, a mediana é o valor que ocupa a posição central em um con- junto de dados ordenado. Em outras palavras, a mediana é o valor que separa um conjunto de dados de tal forma que 50% dos valores estão abaixo e os outros 50% estão acima desta medida. Como motivação para o uso da mediana, vamos averiguar o que aconteceria com a média aritmética calculada no Exemplo 1.15 se um servidor com 11 filhos tivesse sido incluído na amostra. Ora, nesse caso teríamos 16 + 11 = 27, que dividido por n = 9 resulta em \bar{x} = 3 filhos. Observamos, então, que a inclusão do referido servidor na amostra provocaria uma inflação de 50% na média aritmética. Nesse cenário, pode ser interessante utilizar medidas que não sejam afetadas por valores extremos presentes na amostra (ou na população), que é o caso da mediana. Em conjuntos de dados com uma quantidade par de observações, a mediana corresponde à média aritmética entre os dois valores centrais, como veremos em detalhes no exemplo a seguir. Exemplo 1.22. Considere o conjunto de dados apresentado no Exemplo 1.15. A Tabela 1.12 apresenta tais dados na forma bruta e ordenada. 42 Capítulo 1. Análise Exploratória de Dados Tabela 1.12: Número de filhos de oito servidores da UTFPR, campus Curitiba. Dados Observados x_1 x_2 x_3 x_4 x_5 x_6 x_7 x_8 3 2 0 4 1 3 2 1 Dados Ordenados x_(1) x_(2) x_(3) x_(4) x_(5) x_(6) x_(7) x_(8) 0 1 1 2 2 3 3 4 Do conjunto de dados ordenado, temos que a mediana da variável Número de Filhos é M_d = \frac{x_{(4)} + x_{(5)}}{2} = \frac{2 + 2}{2} = 2\;filhos. Agora, considerando a inclusão do servidor com 11 filhos na amostra, notaremos que o valor da mediana não se altera. Nesse caso, em conjuntos de dados com uma quantidade ímpar de observações, podemos obter a mediana simplesmente identificando o valor que ocupa a posição central no rol de dados ordenados, conforme apresentado na Tabela 1.13. Tabela 1.13: Número de filhos de nove servidores da UTFPR, campus Curitiba. Dados Observados x_1 x_2 x_3 x_4 x_5 x_6 x_7 x_8 x_9 3 2 0 4 1 3 2 1 11 Dados Ordenados x_(1) x_(2) x_(3) x_(4) x_(5) x_(6) x_(7) x_(8) x_(9) 0 1 1 2 2 3 3 4 11 R rm(list = ls()) # Dados x1 <- c(3, 2, 0, 4, 1, 3, 2, 1) x2 <- c(x1, 11) # Cálculos 1.7 Medidas Descritivas n1 <- length(x = x1) n2 <- length(x = x2) x1.ord <- sort(x = x1) x2.ord <- sort(x = x2) # Resultados Md1 <- (x1.ord[n1/2] + x1.ord[n1/2 + 1])/2 Md2 <- x2.ord[ceiling(x = n2/2)] all.equal(target = Md2, current = Md1) De forma geral, podemos obter a mediana de um conjunto de dados a partir do seguinte procedimento: 1) Ordenar o conjunto de dados; 2) Determinar a posição (q) que a mediana ocupa da seguinte forma q = \frac{1}{2}(r+1); 3) Obter a mediana (M_d) da seguinte forma M_d = x_{(\alpha)} + \beta \left[ x_{(\alpha+1)} - x_{(\alpha)} \right], em que \alpha denota a parte inteira e \beta parte decimal de q. Exemplo 1.23. Obtenha a mediana da variável apresentada no Exemplo 1.15 utilizando a formulação geral. Solução. Inicialmente, temos que a posição ocupada pela mediana é q = \frac{1}{2}(8 + 1) = \frac{9}{2} = 4,5. Disto, temos que \alpha = 4 e \beta = 0,5. Consequentemente, M_d = x_{(4)} + 0,5 \left[x_{(5)} - x_{(4)}\right] = 2 + 0,5 (2 - 2) = 2\;filhos. R rm(list = ls()) # Dados x <- c(3, 2, 0, 4, 1, 3, 2, 1) # Cálculos x.ord <- sort(x = x) q <- (length(x = x) + 1)/2 alpha <- trunc(x = q) beta <- q - alpha # Resultados Md1 <- x.ord[alpha] + beta * (x.ord[alpha + 1] - x.ord[alpha]) Md2 <- median(x = x) all.equal(target = Md2, current = Md1) Exemplo 1.24. Considere o conjunto de dados apresentado no Exemplo 1.2 e obtenha a mediana da variável Idade (V_6). Solução. Inicialmente, temos que a posição ocupada pela mediana é q = \frac{1}{2} (25 + 1) = \frac{26}{2} = 13. Disto, temos que \alpha = 13 e \beta = 0. Após ordenar os valores da variável, temos que M_d = x_{(13)} + 0 \left[x_{(14)} - x_{(13)}\right] = 25 + 0 (26 - 25) = 25\;anos. R rm(list = ls()) # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "^\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Resultados Md <- R$inf[cl.Md] + R$amp * aux.Md Mo <- R$inf[cl.Mo] + R$amp * aux.Mo detach(name = d) 1.7.2 Medidas Separatrizes As medidas separatrizes são valores que ocupam posições específicas na distribuição de um conjunto de dados ordenado. Tais medidas nos auxiliam a entender melhor o comportamento de uma variável quantitativa, pois indicam valores abaixo ou acima dos quais se encontra determinada porcentagem dos dados. Existem três tipos de medidas separatrizes: os quartis, os decis, e os percentis. Uma breve descrição de cada uma destas medidas é apresentada a seguir. • Os quartis dividem o conjunto de dados em quatro partes iguais (Q_j, j = 1, 2, 3); • Os decis dividem o conjunto de dados em dez partes iguais (D_j, j = 1, 2, ..., 9); • Os percentis dividem o conjunto de dados em cem partes iguais (P_j, j = 1, 2, ..., 99). Os quartis e os decis podem ser generalizados em termos dos percentis, uma vez que o nível de separação das observações no conjunto de dados ordenado é maior quando a divisão é baseada em tal medida. 💡A mediana também é uma medida separatriz (Md = Q_2 = D_5 = P_50). Considerando a generalização em termo dos percentis, podemos obter qualquer medida separatriz utilizando o mesmo procedimento adotado para o cálculo da mediana: 1) Ordenar o conjunto de dados; 2) Determinar a posição (q) que a medida separatriz de interesse ocupa da seguinte forma q = \frac{j}{100}(r + 1), \quad j = 1, 2, ..., 99; 3) Obter a medida separatriz de interesse (P_j) da seguinte forma P_j = x_{(a)} + \beta [x_{(a+1)} - x_{(a)}], em que \alpha denota a parte inteira e \beta a parte decimal de q. 1.7 Medidas Descritivas Exemplo 1.28. Considere o conjunto de dados apresentado no Exemplo 1.2. Obtenha o primeiro e o terceiro quartil da variável Idade (V_6). Solução. Inicialmente, para obter o primeiro quartil, temos que q = \frac{25}{100}(25 + 1) = \frac{650}{100} = 6,5. Consequentemente, Q_1 = P_{25} = x_{(6)} + 0,5 [x_{(7)} - x_{(6)}] = 22 + 0,5(22 - 22) = 22 \text{ anos}. Agora, para obter o terceiro quartil, temos que q = \frac{75}{100}(25 + 1) = \frac{1950}{100} = 19,5. Consequentemente, Q_3 = P_{75} = x_{(19)} + 0,5 [x_{(20)} - x_{(19)}] = 30 + 0,5(33 - 30) = 30 + 1,5 = 31,5 \text{ anos}. A partir dos resultados obtidos, podemos concluir que 25% dos entrevistados têm no máximo 22 anos (ou, analogamente, 75% têm no mínimo 22 anos). Por outro lado, temos que 75% dos entrevistados têm no máximo 31,5 anos (ou, analogamente, 25% têm no mínimo 31,5 anos). 🔢 rm(list = ls()) # Dados ## Linux e Mac: path <- "~/Desktop/dados.csv" ## Windows: # path <- "~\\Desktop\\dados.csv" d <- read.table(file = path, header = T, sep = ";") attach(what = d) # Informações 54 Capítulo 1. Análise Exploratória de Dados mtext(text = "Número de Filhos", side = 2, line = 2.6, cex = 1.4) ## Painel da direita (Sem as cores) par(mar = c(.5, 4, .5, .5)) boxplot(x = x2, ylim = c(0, 12), las = 1, pch = 20, cex.axis = 1.4) mtext(text = "Número de Filhos", side = 2, line = 2.6, cex = 1.4) Utilizaremos o exemplo anterior para apresentar as medidas que compõem um boxplot. • A linha vermelha corresponde à mediana; • As linhas azuis correspondem ao primeiro quartil (inferior) e ao terceiro quartil (supe- rior). Logo, a altura da caixa corresponde à amplitude interquartílica; • As linhas verdes são limites que podem ser obtidos da seguinte forma LI = max {min {x} , Q1 − 1,5AQ} e LS = min {max {x} , Q3 + 1,5AQ} , em que LI denota o limite inferior e LS o limite superior; • O ponto roxo (painel da direita) é denominado outlier, ou seja, um ponto discrepante. Definição 1.2. Um ponto discrepante é um valor x tal que x < Q1 − 1,5AQ ou x > Q3 + 1,5AQ. Gráfico de Dispersão Unidimensional Uma ferramenta bastante utilizada para a visualização do grau de dispersão de uma variável quantitativa é o gráfico de dispersão unidimensional. Nessa representação, o eixo horizon- tal fornece o índice referente a cada uma das unidades amostrais (ou elementos da população), ao passo que o eixo vertical apresenta a magnitude das observações da variável de interesse. Exemplo 1.32. Considere o conjunto de dados apresentado no Exemplo 1.2. A Figura 1.9 0 5 10 15 20 25 1.5 1.6 1.7 1.8 1.9 2.0 Altura 0 5 10 15 20 25 10 20 30 40 50 60 Idade Figura 1.9: Dispersão das variáveis Altura e Idade. 1.7Medidas Descritivas 67 A1 <- sum(x = (V6 - xb)^3)/(n * s^3) A2 <- 3 * (xb - Md)/s A3 <- (sum(x = Q) - 2 * Md)/(Q[2] - Q[1]) C1 <- sum(x = (V6 - xb)^4)/(n * s^4) - 3 C2 <- ASQ/(P[2] - P[1]) - .263 ## Painel da esquerda par(mar = c(2.5, 4.5, .5, .5)) plot(x = density(x = V6), main = "", xlab = "", ylab = "", ylim = c(0, .07), las = 1, lwd = 2, col = "red") mtext(text = "Densidade", side = 2, line = 3.1, cex = 1.3) ## Painel da direita par(mar = c(2.5, 4.5, .5, .5)) hist(x = V6, main = "", xlab = "", ylab = "", xlim = c(min(V6), max(V6)), ylim = c(0, .07), las = 1, col = "lightgrey", xaxt = "n", breaks = br, prob = T) mtext(text = "Densidade", side = 2, line = 3.1, cex = 1.3) axis(side = 1, at = br, labels = br) lines(x = dens, lwd = 2, col = "red") detach(name = d) 2. Noções de Probabilidade 2.1 Introdução Os principais registros citam que a teoria de probabilidades começou a ser explorada pelo polímata Gerolamo Cardano no século XVI, e pelos matemáticos franceses Blaise Pascal e Pierre de Fermat no século XVII. Nessa época, o interesse no desenvolvimento de uma teoria robusta que consolidasse conceitos probabilísticos esteve motivado pelo desejo que muitas pessoas tinham em quantificar as chances de êxito nas apostas. Um dos primeiros livros de probabilidade foi publicado em 1657 pelo matemático holandês Christiaan Huygens, e apresentava alguns conceitos e exemplos clássicos. Naturalmente, considerando os limitados recursos do período, a teoria de probabilidades recebeu uma roupagem mais formal apenas no século XX, por meio da obra do matemático russo Andrey Kolmogorov. É inegável que a teoria de probabilidades é uma das ciências modernas que mais contri- bui para o avanço de diversas áreas, sendo então um importante objeto do conhecimento e desenvolvimento humano. De fato, diversas decisões tomadas por médicos, administradores, engenheiros, pesquisadores, dentre outros, baseiam-se em argumentos probabilísticos e, além disso, podemos citar a célebre frase do matemático francês Pierre-Simon Laplace: “As mais importantes questões da vida são, na verdade, em sua grande maioria, apenas problemas de probabilidade”. A teoria de probabilidades abrange diversas metodologias para a modelagem de experimentos de natureza aleatória. Contudo, nem sempre o resultado de um experimento é consequência de um processo que envolve incertezas. Nesse sentido, podemos abordar o problema de extrair conhecimento a partir de dados experimentais ou observacionais utilizando: 2.2Modelagem de Experimentos 71 # Funções bhaskara <- function (a, b, c) { if (a == 0) return(paste("A equação não é de 2º grau")) else { delta <- b^2 - 4 * a * c if (delta < 0) return(paste("Não existe raiz real")) else if (delta == 0) { x <- (-b + sqrt(x = delta))/(2 * a) return(paste("Existem duas raízes reais iguais a:", x)) } else { x1 <- (-b + sqrt(x = delta))/(2 * a) x2 <- (-b - sqrt(x = delta))/(2 * a) return(paste("Existem duas raízes reais distintas:", x1, "e", x2)) } } } # Resultados R1 <- bhaskara(a = 0, b = -3, c = 2) R2 <- bhaskara(a = 2, b = -1, c = 8) R3 <- bhaskara(a = 1, b = 2, c = 1) R4 <- bhaskara(a = 1, b = 3, c = -4) Exemplo 2.3. Suponha que você tenha investido R$20.000,00 a uma taxa de juros mensal de 1,5% e queira descobrir quanto tempo esta aplicação deve ser mantida para que seja possível resgatar R$32.000,00. Assuma que, neste investimento, a taxa de juros incide sobre o capital acumulado (juros compostos). Solução. Para resolver esse problema, podemos utilizar um modelo puramente determinís- 94 Capítulo 2. Noções de Probabilidade Teorema 2.3. Sejam A, B ⊆ Ω. Se P é uma medida de probabilidade, então temos que: i) P(A ∩ Bc) = P(A) − P(A ∩ B); ii) P(A ∪ B) = P(A) + P(B) − P(A ∩ B); iii) Se B ⊆ A, então P(B) ⩽ P(A). Prova. A prova do item (i) é trivial. Como (A ∩ B) e (A ∩ Bc) são disjuntos, o terceiro axioma garante que probabilidade do evento descrito na Equação (2.1) é dada por P(A) = P(A ∩ B) + P(A ∩ Bc), o que implica em P(A ∩ Bc) = P(A) − P(A ∩ B). Para o item (ii), o procedimento é análogo. Como B e (A ∩ Bc) são disjuntos, o terceiro axioma e o item (i) garantem que probabilidade do evento descrito na Equação (2.2) é dada por P(A ∪ B) = P(B) + P(A ∩ Bc) = P(A) + P(B) − P(A ∩ B). Por fim, para provar o item (iii), devemos considerar que se B ⊆ A, então A ∩ B = B e, assim, P(A ∩ Bc) = P(A) − P(B). Mas, como P é medida de probabilidade, temos que P(A ∩ Bc) ⩾ 0 =⇒ P(A) − P(B) ⩾ 0 =⇒ P(B) ⩽ P(A), como queríamos mostrar. ■ Exemplo 2.20. Considere o experimento aleatório de selecionar uma carta de um baralho de 52 cartas (baralho francês). Nesse contexto, qual a probabilidade de que a carta selecionada seja de reis ou de copas? Solução. Inicialmente, temos que o espaço amostral associado a esse experimento é dado por Ω = {Ao, Ae, Ac, Ap, 2o, 2e, 2c, 2p, . . . , Ko, Ke, Kc, Kp} , em que os subscritos referem-se aos naipes das cartas. Agora, defina A: “A carta selecionada é de reis” e B: “A carta selecionada é de copas”. Os eventos A e B são dados por A = {Ko, Ke, Kc, Kp} e B = {Ac, 2c, 3c, . . . , Kc} . 2.5Probabilidade 97 P2 <- .3 P3 <- .05 P12 <- .08 P13 <- .02 P23 <- .04 P123 <- .01 # Resultados P <- P1 + P2 + P3 - P12 - P13 - P23 + P123 Outra abordagem para o cálculo de probabilidades baseia-se não na cardinalidade ou no li- mite das frequências relativas, mas sim em medidas (área, comprimento, volume, etc.) que caracterizam a estrutura geométrica que define a forma dos eventos aleatórios de interesse (definição geométrica de probabilidade). A ideia de probabilidade do ponto de vista geomé- trico é introduzida no exemplo a seguir. Exemplo 2.22. Suponha que você vai participar de um jogo de dardos. O alvo é composto, conforme ilustrado na Figura 2.2, por círculos concêntricos de raios 1/2, 1 e 3/2, respectiva- mente. Figura 2.2: Exemplo de um jogo de dardos. Supondo que ao arremessar o dardo você acerta o alvo, qual a probabilidade de que a região azul seja atingida? Solução. Assumindo que o alvo está definido na origem do plano cartesiano, temos que 2.5Probabilidade 99 # Resultados PV <- AreaV/AreaOmega PAV <- AreaAV/AreaOmega PA <- PAV - PV 2.5.1 Probabilidade Condicional As probabilidades condicionais podem ser utilizadas para a modelagem de diversas situa- ções práticas nas quais se possui alguma informação parcial a respeito do fenômeno aleatório que está sendo investigado. Contudo, mesmo quando não há informação parcial relacio- nada aos possíveis resultados de um experimento, as probabilidades condicionais podem ser utilizadas para facilitar o cálculo das probabilidades de alguns eventos de interesse em um ambiente de incerteza. Definição 2.12. Sejam A, B ⊆ Ω. Assumindo P(B) > 0, a probabilidade A, condicionada à ocorrência do evento B, pode ser obtida da seguinte forma P(A|B) = P(A ∩ B) P(B) . Corolário 2.1. Sejam A, B ⊆ Ω. Se P(B) = 1, então P(A|B) = P(A). Prova. Pelo item (i) do Teorema 2.3, temos que P(A ∩ Bc) = P(A) − P(A ∩ B). Contudo, como (A ∩ Bc) ⊂ Bc e P(Bc) = 1 − P(B) = 0, então P(A ∩ Bc) = 0. Consequentemente, P(A|B) = P(A ∩ B) P(B) = P(A), como queríamos mostrar. ■ Caso tenhamos P(B) = 0, então P(A|B) pode ser arbitrariamente definida. Em geral, assume-se, nesse caso, que P(A|B) = 0, ainda que possa ser interessante, por independência, assumir que P(A|B) = P(A). Exemplo 2.23. Considere o conjunto de dados apresentado no Exemplo 1.2 e o resumo das frequências cruzadas das variáveis Sexo e Meio de Transporte apresentado no Exemplo 1.4. Suponha que um dos 25 indivíduos que participaram do estudo será aleatoriamente selecionado para uma segunda entrevista. Nesse contexto, qual a probabilidade de que este indivíduo seja do sexo feminino dado que utiliza transporte público? Solução. Inicialmente, defina C: “Selecionar um indivíduo que utiliza transporte público” e 102 Capítulo 2. Noções de Probabilidade # Cálculos Omega <- expand.grid(cartas, naipes) n <- nrow(x = Omega) A <- subset(x = Omega, Omega[, 2] == "e") k <- nrow(x = A) # Resultados P1 <- k/n P2d1 <- (k - 1)/(n - 1) P3d12 <- (k - 2)/(n - 2) P123 <- P1 * P2d1 * P3d12 O princípio aplicado no exemplo anterior é conhecido como regra da multiplicação de pro- babilidades condicionais. Conforme enunciado no Teorema 2.5, esta regra pode ser estendida para qualquer coleção finita de eventos. Teorema 2.5. Seja A1, A2, . . . , An ⊆ Ω. Assumindo que P(A1 ∩ · · · ∩ An−1) > 0, então P(A1 ∩ · · · ∩ An) = P(A1)P(A2|A1)P(A3|A1 ∩ A2) · · · P(An|A1 ∩ · · · ∩ An−1). (2.3) Prova. Utilizando a definição de probabilidade condicional, podemos escrever o lado direito da Equação (2.3) da seguinte forma P(A1) · P(A1 ∩ A2) P(A1) · P(A1 ∩ A2 ∩ A3) P(A1 ∩ A2) · · · P(A1 ∩ · · · ∩ An) P(A1 ∩ · · · ∩ An−1). Como P(A1 ∩ · · · ∩ An−1) > 0, então todos os denominadores da equação anterior são positivos. Além disso, podemos observar que todos os termos do produto se cancelam, com exceção de P(A1 ∩ · · · ∩ An), que é exatamente o lado esquerdo da Equação (2.3). ■ Problemas que envolvem o cálculo de probabilidades podem ser abordados de diversas ma- neiras. Em muitas situações práticas, pode ser interessante trabalhar com partições do espaço amostral, exatamente como apresentado na Equação (2.1). Naturalmente, a escolha dos even- tos para compor uma partição deve ser feita de forma que seja possível reduzir ao máximo a quantidade de incerteza associada ao problema de interesse (por exemplo, selecionar uma partição que contenha um evento que ocorreu). Nesse contexto, a Lei da Probabilidade To- tal, enunciada a seguir, ilustra como as partições podem facilitar o cálculo das probabilidades de determinados eventos aleatórios. 2.5Probabilidade 109 independentes se P(A ∩ B) = P(A)P(B), P(A ∩ C) = P(A)P(C), P(B ∩ C) = P(B)P(C), e P(A ∩ B ∩ C) = P(A)P(B)P(C), ou seja, A, B e C serão independentes se assim o forem dois a dois (para todas as combina- ções) e três a três. Exemplo 2.29. Uma companhia que fura poços artesianos trabalha numa região escolhendo, aleatoriamente, o ponto para perfuração. Não encontrando água na primeira tentativa, sor- teia outro local e, caso também não tenha sucesso, faz uma terceira e última tentativa. Ad- mitindo probabilidade 0,6 de encontrar água em qualquer ponto desta região, qual a proba- bilidade de se: a) Encontrar água na segunda tentativa; b) Encontrar água em até duas tentativas; c) Encontrar água. Solução. Inicialmente, defina Ei: “Encontrar água na i-ésima tentativa” (i = 1, 2, 3). Como a probabilidade de se encontrar água em qualquer ponto da região é fixa, podemos assumir que os Ei’s são independentes. a) Encontrar água na segunda tentativa implica que já foi realizada uma primeira tenta- tiva sem sucesso. Dessa forma, a probabilidade desejada é P(Ec 1 ∩ E2) = P(Ec 1)P(E2) = 0,4 · 0,6 = 0,24. b) A probabilidade de se encontrar água em até duas tentativas é P[E1 ∪ (Ec 1 ∩ E2)] = P(E1) + P(Ec 1 ∩ E2) = 0,6 + 0,24 = 0,84. c) A probabilidade de se encontrar água é P[E1 ∪ (Ec 1 ∩ E2) ∪ (Ec 1 ∩ Ec 2 ∩ E3)] = P[E1 ∪ (Ec 1 ∩ E2)] + P(Ec 1 ∩ Ec 2 ∩ E3) = 0,84 + 0,4 · 0,4 · 0,6 = 0,84 + 0,096 112 Capítulo 2. Noções de Probabilidade B <- c("c", "k") # Informações p <- 3 # Cálculos Omega <- permutations(v = B, n = length(x = B), r = p, repeats = T) q <- apply(X = Omega, MARGIN = 1, FUN = paste, collapse = "") x <- stri_count(str = q, fixed = "k") # Resultados R <- data.frame(omega = q, X.omega = x) R <- R[order(x = R$X.omega), ] 2.6.1 Função de Distribuição Definição 2.16. Seja X uma variável aleatória. Uma função F: R → [0, 1] é denominada função de distribuição (ou função de distribuição acumulada) de X se for dada por F(x) = P(X ⩽ x), ∀ x ∈ R. Propriedades: As principais propriedades de uma função de distribuição são apresentadas a seguir. i) F é uma função não-decrescente, ou seja, se a < b, então F(a) ⩽ F(b); ii) lim x→−∞F(x) = 0; iii) lim x→∞F(x) = 1; iv) A função F é contínua à direita e tem limite à esquerda. Sejam a, b ∈ R, com a < b. Se F é uma função de distribuição, então temos que: • F(x) = F(a), se x ∈ (−∞, a]; • F(x) = 1 − F(a), se x ∈ [a, ∞); • F(x) = F(b) − F(a), se x ∈ [a, b]. 114 Capítulo 2. Noções de Probabilidade library(package = gtools) library(package = stringi) # Dados B <- c("c", "k") # Informações p <- 2 # Cálculos Omega <- permutations(v = B, n = length(x = B), r = p, repeats = T) q <- apply(X = Omega, MARGIN = 1, FUN = paste, collapse = "") x <- sort(x = stri_count(str = q, fixed = "c")) Fx <- c(0, cumsum(x = table(x)/nrow(x = Omega))) # Resultados par(mar = c(4, 4.5, .5, .5)) plot(x = stepfun(x = unique(x = x), y = Fx, f = 0), main = "", xlab = "", ylab = "", las = 1, pch = 20, cex.axis = 1.2, vertical = F) mtext(text = "Número de Caras", side = 1, line = 2.6, cex = 1.2) mtext(text = "Função de Distribuição", side = 2, line = 3, cex = 1.2) abline(h = c(0, 1), lty = 2, col = "lightgrey") Definição 2.17. Uma variável aleatória X é dita discreta se assume, no máximo, uma quan- tidade enumerável de valores, ou seja, se existe um conjunto enumerável {x1, x2, . . .} ⊂ R tal que X(ω) ∈ {x1, x2, . . .} para todo ω ∈ R. A função que atribui probabilidade a cada um dos possíveis valores de uma variável aleatória discreta é denominada função de probabilidade (ou função massa de probabilidade) e é dada por P(X = xi) = pi, i ∈ N, com pi ∈ [0, 1] para todo i. 170 Capítulo 2. Noções de Probabilidade diferentes valores para os parâmetros ν1 e ν2. Proposição 2.17. Seja X uma variável aleatória contínua. Se X ∼ F(ν1,ν2), então sua espe- rança e variância são dadas, respectivamente, por E(X) =    Indefinida, se 0 < ν2 ⩽ 2, ν2 ν2 − 2, se ν > 2, e V(X) =      Indefinida, se 0 < ν2 ⩽ 4, 2ν2 2(ν1 + ν2 − 2) ν1(ν2 − 2)2(ν2 − 4), se ν2 > 4. Prova. Fica a cargo do leitor. ■ 2.9 Introdução às Técnicas de Amostragem Quando se realiza um estudo envolvendo a coleta de dados, raramente os pesquisadores têm acesso a todas as informações sobre determinada população, seja por esta ser muito grande, ou por ser financeiramente inviável observar todos os elementos. Nesse contexto, faz-se ne- cessária a utilização de técnicas de amostragem para a seleção de uma parcela dos elementos da população para compor uma amostra. Para que um determinado levantamento produza resultados válidos, faz-se necessária a ela- boração e condução de um planejamento adequado para a aquisição dos dados que serão analisados. Uma coleta de dados deve ser realizada seguindo uma série de critérios prede- terminados. O procedimento de se observar e estudar todos os elementos de uma população é denominado censo. Por outro lado, um procedimento de amostragem fornece dados para que seja possível estimar quantidades populacionais (parâmetros) de interesse que, na grande maioria das vezes, são desconhecidas. Em geral, um procedimento de amostragem é mais rápido e mais barato do que um censo. Além disso, quando houver a necessidade de se realizar, por exemplo, um teste destrutivo nos elementos, conduzir um censo se torna inviável. Em contrapartida, quando a população for pequena (acessível), quando o tamanho requerido da amostra for grande em relação ao da população, quando a população for extremamente heterogênea, ou quando houver alta exigência de precisão nos resultados, a realização de um censo pode ser mais vantajosa e deve ser considerada pelo pesquisador. Antes da realização de um levantamento amostral, o pesquisador interessado deve definir o tipo e a técnica de amostragem a ser utilizada. Existem dois tipos de amostragem: a aleatória 2.9Introdução às Técnicas de Amostragem 173 2.9.2 Amostragem não Aleatória A amostragem não aleatória é aquela na qual nem todos os elementos da população tem probabilidade positiva de pertencer à amostra. Esse tipo de procedimento é muito utilizado quando não é possível listar todos os elementos da população de interesse. A principal des- vantagem de se conduzir um levantamento utilizando amostragem não aleatória é que tal procedimento pode acarretar diversos vieses de seleção. Os principais tipos de amostragem não aleatória são: • Amostragem por conveniência; • Amostragem intencional; • Amostragem por cotas. De forma geral, levantamentos realizados a partir de técnicas de amostragem aleatória apre- sentam superioridade no que tange a representatividade da população, o que naturalmente implica maior confiabilidade nos resultados obtidos. 3. Inferência Estatística 3.1 Introdução Considere o cenário no qual um pesquisador tenha interesse em estudar determinada carac- terística comum aos elementos de uma população. Suponha que não seja possível ter acesso a todos os elementos de tal população, seja por esta ser muito grande ou ser financeiramente inviável observar todos os elementos que a compõem. Nesse cenário, o pesquisador terá de realizar um procedimento de amostragem para que assim, ao observar uma amostra re- presentativa da população de interesse, consiga extrapolar os resultados e obter conclusões confiáveis para o seu estudo. A tarefa de extrapolar resultados amostrais para o contexto populacional pode ser realizada através de uma série de métodos de inferência estatística. 3.2 Modelo Estatístico Definição 3.1. Definimos modelo estatístico como sendo o conjunto de hipóteses feitas a respeito do mecanismo aleatório responsável por gerar dados experimentais ou observacio- nais. Em outras palavras, um modelo estatístico representa o conjunto de distribuições de probabilidade a partir do qual se assume que os dados disponíveis foram amostrados. Em um contexto na qual se trabalha com dados amostrais, os parâmetros são quantidades desconhecidas, pois são medidas que resumem dados populacionais. Como visto no Capítulo 2, os modelos probabilísticos podem ser indexados por um ou mais parâmetros. Na prá- tica, estaremos interessados em estimar tais parâmetros, assumindo que a característica de interesse em uma determinada população é representada por uma variável aleatória X, cujo modelo estatístico associado é indexado por um, dois ou mais parâmetros desconhecidos. 234 Capítulo 3. Inferência Estatística afirmação feita sobre o parâmetro que caracteriza uma população. A hipótese formulada sobre um parâmetro θ ∈ Θ é denominada hipótese estatística. Nesse contexto, para realizar um teste de hipóteses devemos especificar: • A hipótese nula (H0): Sugere que um valor θ0 é plausível para θ; • A hipótese alternativa (H1): Sugere que um valor θ0 não é plausível para θ. Estatisticamente, as hipóteses podem ser formuladas de três maneiras. São elas:    H0: θ = θ0 H1: θ ̸= θ0 ou    H0: θ = θ0 H1: θ < θ0 ou    H0: θ = θ0 H1: θ > θ0, sendo que a primeira formulação define um teste bilateral, a segunda define um teste unila- teral à esquerda, e a terceira define um teste unilateral à direita. 3.7.1 Erros de Decisão Quando realizamos um teste de hipóteses podemos cometer dois tipos de erros. São eles: • Rejeitar a hipótese nula quando ela é verdadeira; • Não rejeitar a hipótese nula quando ela é falsa. Tabela 3.9: Tipos de erros que podem ser cometidos nos testes de hipóteses. H0 Decisão Rejeitar H0 Não Rejeitar H0 Verdadeira Erro do Tipo I Decisão Correta Falsa Decisão Correta Erro do Tipo II Infelizmente, não é possível controlar, simultaneamente, a probabilidade de ocorrência de ambos os erros. Nesse caso, devemos decidir qual tipo de erro é o menos tolerável durante o processo de tomada de decisão. Na prática, convenciona-se que o Erro do Tipo I é o mais grave, sendo, portanto, aquele que optamos por controlar. Definição 3.17. Definimos nível de significância, denotado pela letra grega α, como sendo a probabilidade de ocorrência do Erro do Tipo I quando um teste de hipóteses é realizado, ou seja, P(Rejeitar H0|H0 Verdadeira) = α, para α ∈ (0, 1). 262 Capítulo 3. Inferência Estatística 0.00 0.05 0.10 0.15 0.20 χ(α) 2 χ(1−α) 2 Densidade Figura 3.10: Região crítica (em cinza) do teste Q unilateral à direita. Exemplo 3.44. Uma Agência dos Correios, localizada no centro de Curitiba, dispõe de qua- tro atendentes para horários de pico, sendo que durante este período os clientes devem for- mar quatro filas, uma para cada guichê. Estudos anteriores realizados nessa agência indicam que tempo de espera na fila em horários de pico pode ser aproximado por uma distribuição Normal com desvio padrão de 5 minutos. Na expectativa de que se for formada apenas uma fila, ao invés de quatro, a variabilidade do tempo de espera diminua significativamente, o ge- rente da agência realizou um estudo no qual observou uma amostra aleatória de 50 clientes que foram atendidos em horários de pico, obtendo uma variância amostral de 16,5 minutos2. Com base nessas informações, podemos afirmar que a adoção de uma fila única implica em uma menor variação do tempo de espera? Considere α = 0,05. Solução. Inicialmente, defina X: “Tempo de espera, em minutos, para ser atendido na agência”. Aqui, o parâmetro de interesse é a variância populacional. De acordo com as informações do problema, existe o interesse em se testar as hipóteses:    H0: σ2 = 25 H1: σ2 < 25. A estatística Q é apropriada para a realização desse teste. Utilizando os dados disponíveis, temos que qc = 49 · 16,5 25 = 32,34. Como se trata de um teste Q unilateral à esquerda com 49 graus de liberdade, temos que a região crítica, para α = 0,05, é dada por 264 Capítulo 3. Inferência Estatística Para qualquer uma destas formulações, podemos utilizar a estatística F = S2 1 S2 2 ∼ F(n1−1,n2−1). A região crítica e o p-valor do teste F com n1−1 e n2−1 graus de liberdade, para a igualdade das variâncias populacionais, podem ser obtidos conforme especificado a seguir. 0.0 0.2 0.4 0.6 0.8 F(α 2) F(1−α 2) Densidade Figura 3.11: Região crítica (em cinza) do teste F bilateral. 0.0 0.2 0.4 0.6 0.8 F(α) F(1−α) Densidade Figura 3.12: Região crítica (em cinza) do teste F unilateral à esquerda. 276 Capítulo 3. Inferência Estatística for (j in 1:k2) { E[i, j] <- sum(x = M[i, ]) * sum(x = M[, j])/sum(x = O) } } E <- as.numeric(x = E) qc <- sum(x = as.numeric(x = M - E)^2/E) q <- qchisq(p = 1 - alpha, df = (k1 - 1) * (k2 - 1)) # Resultados D <- ifelse(test = qc > q, yes = "Rejeitar H0", no = "Não Rejeitar H0") pv <- 1 - pchisq(q = qc, df = (k1 - 1) * (k2 - 1)) # Resultados (Função Específica) R <- chisq.test(x = M) Exemplo 3.49. Uma plataforma de streaming realizou uma pesquisa cujo objetivo era ava- liar se compensaria iniciar as atividades no Brasil. Nesse estudo, 100 indivíduos residentes em cada um dos 27 estados da união, entre capital e interior, foram entrevistados. Durante a pesquisa, os indivíduos foram questionados sobre o hábito de assistir seriados em platafor- mas online. Os dados obtidos para o Estado do Paraná são apresentados na Tabela 3.19. Tabela 3.19: Distribuição conjunta de frequências das variáveis Local de Residência e Há- bito de Assistir Seriados. Local de Assiste Seriados Total Residência Ocasionalmente Frequentemente Capital 52 10 62 Interior 27 11 38 Total 79 21 100 Podemos afirmar que o local de residência está associado ao hábito de assistir seriados? Considere α = 0,10. Solução. Inicialmente, temos que as frequências esperadas são dadas por E11 = 62 · 79 100 = 48,98, E12 = 62 · 21 100 = 13,02, 278 Capítulo 3. Inferência Estatística # Cálculos E <- matrix(data = NA, nrow = k, ncol = k) for (i in 1:k) { for (j in 1:k) { E[i, j] <- sum(x = M[i, ]) * sum(x = M[, j])/sum(x = O) } } E <- as.numeric(x = E) d <- as.numeric(x = M - E) qc <- sum(x = (abs(x = d) - .5)^2/E) q <- qchisq(p = 1 - alpha, df = (k - 1)^2) # Resultados D <- ifelse(test = qc > q, yes = "Rejeitar H0", no = "Não Rejeitar H0") pv <- 1 - pchisq(q = qc, df = (k - 1)^2) # Resultados (Função Específica) R <- chisq.test(x = M) 4. Análise de Regressão Linear 4.1 Introdução Um problema comum em muitas áreas de pesquisa é aquele no qual se deseja investigar se duas ou mais variáveis estão relacionadas de alguma maneira. Para estudar tais relações, existe uma série de modelos estatísticos que se adéquam em diversas situações práticas. Uma estrutura importante nesse contexto é aquela a partir da qual podemos modelar a relação entre uma variável resposta (ou variável dependente) e um conjunto de covariáveis (ou variáveis independentes). Esse tipo de modelagem é conhecido como análise de regressão, sendo uma vertente da Estatística que reúne diversas metodologias que podem ser utilizadas para descrever a relação entre variáveis e predizer o valor de uma variável dependente. Neste capítulo, vamos introduzir um modelo de regressão a partir do qual será possível es- tudar a relação linear entre uma variável resposta quantitativa e uma variável independente (qualitativa ou quantitativa). O termo “regressão” foi proposto inicialmente em 1885 pelo matemático e estatístico inglês Francis Galton, a partir de um estudo no qual demonstrou que a altura dos filhos não tende a refletir a altura dos pais, mas tende a regredir para a média da população ao qual pertencem. O Exemplo a seguir ilustra uma situação prática em que duas variáveis estão relacionadas pela natureza do fenômeno que as envolve. Exemplo 4.1. Um dos analistas de uma grande rede atacadista do Brasil deseja construir um modelo que seja capaz de predizer o faturamento médio mensal das 50 lojas da rede. Para tal, observou o faturamento líquido (em milhões de reais) do último mês, bem como 280 Capítulo 4. Análise de Regressão Linear a quantidade de clientes que frequentaram 20 lojas da rede (aleatoriamente selecionadas) no referido período. Os dados fornecidos pelo financeiro da empresa são apresentados na Tabela 4.1. Tabela 4.1: Faturamento mensal e número de clientes de 20 lojas de uma rede atacadista. Faturamento Mensal 44,80 37,68 28,96 37,84 37,32 44,20 40,32 24,48 30,56 40,92 27,36 37,80 30,52 27,68 47,08 36,84 26,92 37,72 35,80 29,64 Número de Clientes 3628 3156 2116 3696 3176 3704 3556 1680 2428 3376 2024 3496 2716 1808 4040 2964 2040 3488 2916 2484 Nesse caso, podemos definir o faturamento mensal como sendo uma variável aleatória que naturalmente depende do número de clientes que frequentam as lojas da rede. A Figura 4.1 ilustra uma tendência linear entre o faturamento e o número de clientes. Em particular, essa relação é proporcional, ou seja, a medida que número de clientes aumenta, o faturamento cresce no mesmo sentido. 1500 2000 2500 3000 3500 4000 20 25 30 35 40 45 50 Número de Clientes Faturamento (em milhões de reais) Figura 4.1: Faturamento mensal e número de clientes de 20 lojas de uma rede atacadista. Esta é a representação de um gráfico de dispersão bidimensional, amplamente utilizada em análise de regressão, principalmente durante o processo de visualização da relação entre as variáveis que estão sendo estudadas. 286 Capítulo 4. Análise de Regressão Linear em que o coeficiente linear β0 é denominado intercepto e representa o ponto em que a reta regressora intercepta o eixo-y, quando xi = 0. Além disso, o coeficiente angular β1 é de- nominado inclinação da reta regressora. Uma representação dos elementos que compõem a equação que define um modelo de regressão linear simples é apresentada na Figura 4.2. Um pressuposto comum em análise de regressão linear é que os resíduos são normalmente distribuídos com esperança e variância dados na Equação (4.3), ou seja, εi ∼ Normal(0, σε). Como Yi é combinação linear de εi temos, pelo Teorema 2.9, que Yi ∼ Normal(β0 + β1xi, σε). A suposição de normalidade dos resíduos é necessária para a construção de intervalos de confiança e a realização de testes de hipóteses sobre os parâmetros do modelo de regressão linear simples. 4.2.1 Procedimentos Inferenciais Suponha que exista uma relação linear entre uma variável resposta Y e uma covariável X. Nesse contexto, podemos caracterizar tal relação a partir da realização de procedimentos inferenciais sobre os parâmetros β0, β1 e σε do modelo de regressão (4.4). Nesta seção, vamos apresentar a derivação de estimadores para estes parâmetros, bem com os procedimentos para construção de intervalos de confiança e a realização de testes de hipóteses para os coeficientes de regressão (β0 e β1). Estimação Pontual Existe uma série de técnicas que podem ser utilizadas para estimar os coeficientes de regres- são, tais como os métodos de mínimos quadrados ordinários e o da máxima verossimilhança. O método de mínimos quadrados fornece uma estratégia adequada para a estimação destes parâmetros e sua aplicação não é limitada apenas às relações lineares. Já o método da máxima verossimilhança só pode ser utilizado quando se assume uma distribuição para os erros. Vamos adotar o método de mínimos quadrados ordinários para derivar os estimadores dos coeficientes de regressão e do desvio padrão do resíduo. Este método consiste na obtenção de estimadores ˆβ0, ˆβ1 e ˆσε que minimizam as discrepâncias entre os valores observados de Y e a reta que passa por tais pontos (veja a Figura 4.2). Na prática, isto equivale a minimizar o comprimento (norma) do vetor de resíduos ε = (ε1, . . . , εn)⊺ do modelo de regressão linear 296 Capítulo 4. Análise de Regressão Linear disso, o p-valor desse teste é pv = 2 [1 − P(T < |13,6462| |β1 = 0)] = 2 [1 − P(T < 13,6462|β1 = 0)] ≪ 0,01 < 0,05, uma vez que P(T < 13,6462|β1 = 0) ≈ 1. A Figura 4.3 ilustra o comportamento dos resíduos padronizados do modelo ajustado. Note que os resíduos estão flutuando em torno de zero, sem nenhum indicativo de que sua variân- cia não seja constante. Além disso, existem evidências de que o modelo está bem ajustado uma vez que os pontos do gráfico de probabilidade Normal estão dispostos próximos à linha de identidade dos quantis amostrais e teóricos. 0 5 10 15 20 −2 −1 0 1 2 Resíduo Padronizado (a) Dispersão dos Resíduos −2 −1 0 1 2 −2 −1 0 1 2 Resíduo Padronizado (b) Gráfico de Probabilidade Normal Figura 4.3: Comportamento dos resíduos padronizados do modelo ajustado. A Tabela 4.3 apresenta um resumo do ajuste do modelo de regressão linear simples aos dados apresentados no Exemplo 4.1. Tabela 4.3: Resumo descritivo do modelo de regressão ajustado. Parâmetro Estimativa Erro Padrão tc IC 95% Inferior Superior β0 9,6922 1,9239 5,0379 5,6503 13,7341 β1 0,0087 0,0006 13,6462 0,0074 0,0101 σε 2,0060 - - - - R2 a 0,9070 - - - - Por fim, a Figura 4.4 ilustra a reta de regressão ajustada (em vermelho), indicando que o modelo de regressão linear simples pode ser utilizado para predizer o faturamento mensal a partir do número de clientes que frequentam as lojas da rede atacadista. 298 Capítulo 4. Análise de Regressão Linear sxy <- sum(x = x * y) sx2 <- sum(x = x^2) nu <- n - 2 # Cálculos b1 <- (sxy - n * xb * yb)/(sx2 - n * xb^2) b0 <- yb - b1 * xb y.hat <- b0 + b1 * x res <- y - y.hat sigma_e <- sqrt(x = sum(x = res^2)/nu) res.pad <- res/sigma_e SQT <- sum(x = (y - yb)^2) SQR <- sum(x = (y.hat - yb)^2) R2a <- 1 - (n - 1)/(n - 2) * (1 - SQR/SQT) EP_b0 <- sigma_e * sqrt(x = 1/n + xb^2/(sx2 - n * xb^2)) EP_b1 <- sigma_e * sqrt(x = 1/(sx2 - n * xb^2)) tt <- qt(p = 1 - alpha/2, df = nu) IC_b0 <- b0 + c(-1, 1) * tt * EP_b0 IC_b1 <- b1 + c(-1, 1) * tt * EP_b1 tc_b0 <- b0/EP_b0 tc_b1 <- b1/EP_b1 # Resultados info.b0 <- round(x = c(b0, EP_b0, tc_b0, IC_b0), digits = 4) info.b1 <- round(x = c(b1, EP_b1, tc_b1, IC_b1), digits = 4) info.sigma_e <- round(x = sigma_e, digits = 4) info.R2a <- round(x = R2a, digits = 4) ## Tabela 4.3 R <- matrix(data = NA, nrow = 4, ncol = 5) colnames(x = R) <- c("Estimativa", "Erro Padrão", "tc", "Inf.", "Sup.") rownames(x = R) <- c("b0", "b1", "sigma_e", "R2a") R[1:2, ] <- rbind(info.b0, info.b1) R[3:4, 1] <- rbind(info.sigma_e, info.R2a) ## Fig. 4.3(a) par(mar = c(2.5, 4, .5, .5)) plot(x = res.pad, xlab = "", 4.2Modelo de Regressão Linear Simples 299 ylab = "", xlim = c(0, 20), ylim = c(-2, 2), las = 1, pch = 20, cex.axis = 1.2) mtext(text = "Resíduo Padronizado", side = 2, line = 2.6, cex = 1.4) abline(h = 0, col = "red") ## Fig. 4.3(b) par(mar = c(2.5, 4, .5, .5)) qqnorm(y = res.pad, main = "", xlab = "", ylab = "", ylim = c(-2, 2), las = 1, pch = 20, cex.axis = 1.2) mtext(text = "Resíduo Padronizado", side = 2, line = 2.6, cex = 1.4) abline(a = 0, b = 1, col = "red") ## Fig 4.4 par(mar = c(4, 4, .5, .5)) plot(x = x, y = y, xlab = "", ylab = "", xlim = c(1500, 4000), ylim = c(20, 50), las = 1, pch = 20) mtext(text = eixo.x, side = 1, line = 2.6, cex = 1.1) mtext(text = eixo.y, side = 2, line = 2.6, cex = 1.1) abline(a = b0, b = b1, col = "red") # Resultados (Função Específica) fit <- lm(formula = y ~ x) # summary(object = fit) # confint(object = fit, level = 1 - alpha) 5. Análise de Variância 5.1 Introdução Pesquisadores de diversas áreas frequentemente realizam experimentos visando caracterizar o fenômeno que rege um processo ou um sistema. Um experimento nada mais é do que um teste e, através de sua realização, podemos observar (ou preestabelecer) uma série de condições que influenciam diretamente o fenômeno de interesse, além de investigar o quão relevante tais variáveis são para a resposta final do processo. Nesse contexto, muitos experi- mentos são realizados para que o efeito de um ou mais fatores controlados sejam investiga- dos, sendo que cada categoria (subdivisão) de um fator é denominada nível (ou tratamento) e as interações constituem todas as possíveis combinações entre os diversos fatores nos seus diferentes níveis. Em geral, experimentos fatoriais bem planejados são eficientes, pois for- necem dados a partir dos quais se pode avaliar, com maior precisão, o efeito de um ou mais fatores na variável resposta, bem como identificar quais níveis diferem estatisticamente dos demais. No Capítulo 3, discutimos como comparar as médias de duas populações com distribuição Normal, a partir de amostras provenientes da realização de um experimento aleatório. Tra- zendo para o contexto atual, tomamos o Exemplo 3.41 para indicar outra forma de se descre- ver experimentos de fator único de dois níveis. No referido exemplo, que trata sobre dois processos distintos para o endurecimento de um tipo de liga metálica, podemos considerar que “água salgada” e “óleo” são os níveis do fator “imersão”. Neste capítulo, vamos apresentar métodos para análise de experimentos balanceados en- volvendo um fator com a > 2 níveis. Para o desenvolvimento das técnicas discutidas na 302 Capítulo 5. Análise de Variância sequência, assumimos que, no delineamento experimental, os tratamentos foram atribuídos aleatoriamente (por sorteio) à cada uma das unidades experimentais. Além disso, outro as- pecto importante é que os experimentos devem ser conduzidos de forma bastante controlada para que as unidades experimentais sejam as mais uniformes possíveis. Satisfeitas estas con- dições, podemos dizer que o experimento a ser analisado é inteiramente casualizado. 5.1.1 Experimentos de Fator Único Suponha que tenhamos o interesse em comparar a tratamentos de um fator a partir de um estudo experimental que forneceu uma amostra de tamanho n para cada nível. A resposta obtida em cada um dos níveis representa a variável aleatória de interesse, que será denotada por Y . A estrutura dos dados para este tipo de experimento é apresentada na Tabela 5.1. Tabela 5.1: Estrutura dos dados de um experimento evolvendo um fator com a níveis. Nível Observações Totais Médias 1 Y11 Y12 . . . Y1n Y1. Y 1. 2 Y21 Y22 . . . Y2n Y2. Y 2. ... ... ... ... ... ... ... a Ya1 Ya2 . . . Yan Ya. Y a. Na configuração apresentada, Yij denota a j-ésima (j = 1, . . . , n) resposta tomada no i- ésimo nível (i = 1, . . . , a). Podemos descrever as observações de um experimento de fator único a partir da formulação Yij = µi + εij, (5.1) em que µi denota a média do i-ésimo nível e εij é o erro aleatório que incorpora outras fontes de variabilidade do experimento. Assim como na análise de regressão linear clássica, aqui também podemos assumir que os erros têm média igual a zero, portanto, E(Yij) = µi. A Equação (5.1) é denominada modelo de médias. Uma formulação alternativa para se descrever um experimento de fator único é dada por Yij = µ + γi + εij, (5.2) em que µ é a média geral comum a todos os níveis e γi é um parâmetro único que representa o efeito do i-ésimo tratamento. A Equação (5.2) é denominada modelo de análise de variância (ou modelo de efeitos) para experimentos de fator único. Como o objetivo da análise de experimentos fatoriais reside na estimação das médias dos di- 306 Capítulo 5. Análise de Variância de um modelo de análise de variância para experimentos envolvendo um fator com a níveis. Exemplo 5.1. O responsável pelo controle de qualidade de uma indústria deseja testar a durabilidade de quatro tipos de pneu que são produzidos pela empresa. Para tal, cada tipo de pneu foi testado, de maneira aleatória, em sete automóveis idênticos. A variável de interesse nesse estudo é o tempo de vida útil (em milhares de quilômetros) de cada um dos tipos de pneu. Os dados obtidos pelo controle de qualidade da indústria são apresentados na Tabela 5.3. Tabela 5.3: Durabilidade, em milhares de km, de quatro tipos de pneu. Tipo Vida Útil P1 38 36 33 41 30 35 33 P2 34 42 40 38 30 32 39 P3 33 35 37 31 30 35 34 P4 29 32 34 31 33 30 27 Podemos afirmar que existe diferença significativa entre a durabilidade média dos diferentes tipos de pneu? Considere α = 0,05. Solução. Inicialmente, defina Y : “Vida útil dos pneus produzidos pela indústria”. Do enun- ciado, temos a = 4 níveis (tipos de pneu) avaliados em n = 7 automóveis. A Figura 5.1 ilustra a vida útil média de cada um dos tipos de pneu, com base nos dados fornecidos. 30 32 34 36 38 Tipo do Pneu Vida Útil (em milhares de km) 1 2 3 4 Figura 5.1: Vida útil média de cada um dos tipos de pneu. Para investigar se existe diferença significativa entre a vida útil média de cada um dos tipos 310 Capítulo 5. Análise de Variância y <- c(38, 36, 33, 41, 30, 35, 33, 34, 42, 40, 38, 30, 32, 39, 33, 35, 37, 31, 30, 35, 34, 29, 32, 34, 31, 33, 30, 27) # Informações a <- 4 n <- 7 eixo.x <- "Tipo do Pneu" eixo.y <- "Vida Útil (em milhares de km)" # Cálculos N <- a * n x <- rep(x = paste0("P", 1:a), each = n) yb <- mean(x = y) y.. <- aggregate(formula = y ~ x, FUN = sum)[, 2] gamma <- aggregate(formula = y ~ x, FUN = mean)[, 2] - yb SQT <- sum(x = y^2) - sum(x = y)^2/N SQN <- sum(x = y..^2)/n - sum(x = y)^2/N SQE <- SQT - SQN QMN <- SQN/(a - 1) QME <- SQE/(N - a) sigma_e <- sqrt(x = QME) R2 <- SQN/SQT fc <- QMN/QME pv <- 1 - pf(q = fc, df1 = a - 1, df2 = N - a) res.pad <- (y - rep(x = yb + gamma, each = n))/sigma_e # Resultados ## Tabela 5.4 R <- matrix(data = NA, nrow = 3, ncol = 5) colnames(x = R) <- c("Soma Quadrados", "GL", "Quadrado Médio", "fc", "pv") rownames(x = R) <- c("Níveis", "Erro", "Total") R[1, ] <- round(x = c(SQN, a - 1, QMN, fc, pv), digits = 4) R[2, 1:3] <- round(x = c(SQE, N - a, QME), digits = 4) R[3, 1:2] <- round(x = c(SQT, N - 1), digits = 4) 5.1Introdução 311 ## Fig. 5.1 par(mar = c(4, 4, .5, .5)) plot(x = gamma + yb, xlab = "", ylab = "", ylim = c(30, 38), las = 1, pch = 20, type = "b", xaxt = "n", cex.axis = 1.2) mtext(text = eixo.x, side = 1, line = 2.6, cex = 1.2) mtext(text = eixo.y, side = 2, line = 2.6, cex = 1.2) axis(side = 1, at = 1:4, labels = 1:4) ## Fig. 5.2(a) par(mar = c(2.5, 4, .5, .5)) plot(x = res.pad, xlab = "", ylab = "", xlim = c(0, 30), ylim = c(-2, 2), las = 1, pch = 20, cex.axis = 1.2) mtext(text = "Resíduo Padronizado", side = 2, line = 2.6, cex = 1.4) abline(h = 0, col = "red") ## Fig. 5.2(b) par(mar = c(2.5, 4, .5, .5)) qqnorm(y = res.pad, main = "", xlab = "", ylab = "", ylim = c(-2, 2), las = 1, pch = 20, cex.axis = 1.2) mtext(text = "Resíduo Padronizado", side = 2, line = 2.6, cex = 1.4) abline(a = 0, b = 1, col = "red") # Resultados (Função Específica) 5.1Introdução 315 # Resultados R <- as.data.frame(x = matrix(data = NA, nrow = 6, ncol = 5)) colnames(x = R) <- c("Menor", "Maior", "qc", "pv", "Decisão") rownames(x = R) <- c("mu1 c/ mu2", "mu1 c/ mu3", "mu1 c/ mu4", "mu2 c/ mu3", "mu2 c/ mu4", "mu3 c/ mu4") R[, 1] <- round(x = vmin, digits = 2) R[, 2] <- round(x = vmax, digits = 2) R[, 3] <- round(x = qc, digits = 2) R[, 4] <- round(x = pv, digits = 2) R[, 5] <- D # Resultados (Função Específica) R1 <- TukeyHSD(x = fit, conf = 1 - alpha) Referências Bibliográficas [1] BOLFARINE, H. & SANDOVAL, M. C. (2001). Introdução à Inferência Estatística, 2ª edição. Rio de Janeiro: SBM. ISBN: 9788585818821. [2] BOLFARINE, H. & BUSSAB, W. O. (2005). Elementos de Amostragem, 1ª edição. São Paulo: Edgard Blücher. ISBN: 9788521203674. [3] BUSSAB, W. O. & MORETTIN, P. A. (2010). Estatística Básica, 6ª edição. São Paulo: Saraiva. ISBN: 9788502081772. [4] CHARNET, R., FREIRE, C. A. L., CHARNET, E. M. R. & BONVINO, H. (2008). Análise de Modelos de Regressão Linear com Aplicações, 6ª edição. São Paulo: Saraiva. ISBN: 9788502081772. [5] COSTA NETO, P. L. O. (2002). Estatística, 2ª edição. São Paulo: Edgard Blücher. ISBN: 9788521203001. [6] DANTAS, C. A. B. (1997). Probabilidade: Um Curso Introdutório, 3ª edição. São Paulo: EDUSP. ISBN: 9788531403996. [7] DEGROOT, M. H. & SCHERVISH, M. J. (2011). Probability and Statistics, 4ª edição. New York: Addison-Wesley. ISBN: 9780321500465. [8] DRAPER, N. R. & SMITH, H. (1981). Applied Regression Analysis, 2ª edição. New York: Wiley-Blackwell. ISBN: 9780471029953. [9] JAMES, B. R. (1996). Probabilidade: Um Curso em Nível Intermediário, 2ª edição. Rio de Janeiro: IMPA. ISBN: 9788524401015. 318 REFERÊNCIAS BIBLIOGRÁFICAS [10] MAGALHÃES, M. N. (2011). Probabilidade e Variáveis Aleatórias, 3ª edição. São Paulo: EDUSP. ISBN: 9788531409455. [11] MAGALHÃES, M. N. & LIMA, A. C. P. (2011). Noções de Probabilidade e Estatís- tica, 7ª edição. São Paulo: EDUSP. ISBN: 9788531406775. [12] MEYER, P. L. (1987). Probabilidade: Aplicações à Estatística, 2ª edição. Rio de Janeiro: LTC. ISBN: 9788521602941. [13] MOOD, A. M., GRAYBILL, F. A. & BOES, D. C. (1974). Introduction to the Theory of Statistics, 3ª edição. New York: McGraw-Hill Education. ISBN: 9780070854659. [14] MONTGOMERY, D. C. (2000). Design and Analysis of Experiments, 5ª edição. New York: John Wiley & Sons. ISBN: 9780471316497. [15] MONTGOMERY, D. C. & RUNGER, G. C. (2012). Estatística Aplicada e Probabi- lidade para Engenheiros, 5ª edição. Rio de Janeiro: LTC. ISBN: 9788521619024. [16] ROSS, S. M. (2018). A First Course in Probability, 10ª edição. Upper Saddle River: Pearson Prentice Hall. ISBN: 9780134753119.