·
Cursos Gerais ·
Probabilidade e Estatística 2
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
21
Problemas do Capítulo 4
Probabilidade e Estatística 2
UMG
23
Capítulo 6: Problemas e Análises
Probabilidade e Estatística 2
UMG
50
Análise de Regressão Linear Multivariada e Transformações de Variáveis
Probabilidade e Estatística 2
UMG
5
Teoremas Limite e Convergência de Variáveis Aleatórias
Probabilidade e Estatística 2
UMG
7
Capítulo 8: Problemas e Exercícios
Probabilidade e Estatística 2
UMG
11
Capítulo 2: Problemas e Questões
Probabilidade e Estatística 2
UMG
3
Teorema Central do Limite e suas Aplicações em Estatística
Probabilidade e Estatística 2
UMG
9
Exercises on Counting Principles and Assignments
Probabilidade e Estatística 2
UMG
13
Problemas do Capítulo 5 - Exercícios de Cálculo e Probabilidade
Probabilidade e Estatística 2
UMG
36
Capítulo 7: Problemas e Exercícios Estatísticos
Probabilidade e Estatística 2
UMG
Texto de pré-visualização
CIÊNCIAS DE DADOS BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Mário Olímpio de Menezes Sumário I Probabilidade e Inferência Estatística 1 Introdução à Probabilidade 6 Conceitos básicos de Probabilidade 7 Operações com Eventos 10 Operações sobre conjuntos 11 Amostragem Aleatória Exemplos no R 13 Probabilidade clássica frequentista ou a priori 16 Cálculos de probabilidade e combinatória 19 Definições de Probabilidade 21 Teorema de Bayes 27 2 Variáveis Aleatórias 35 Variáveis Aleatórias 35 3 Distribuições de Probabilidade 37 Distribuições de Probabilidade para Variáveis Aleatórias Discretas 37 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 3 4 Inferência Estatística 50 Introdução 50 Finalizando 75 Bibliografia 76 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 4 I 1 Introdução à Probabilidade 6 2 Variáveis Aleatórias 35 3 Distribuições de Probabilidade 37 4 Inferência Estatística 50 Probabilidade e Inferência Estatística 1 Introdução à Probabilidade Corriqueiramente nós tomamos decisões baseados em incertezas Por exemplo você acaba de comprar um novo notebook e ai vem a dúvida comprar ou não a garantia extendida que é oferecida pela loja Sua decisão com certeza vai levar em conta o que você considera como probabilidade de que o notebook vai dar problema durante o período normal de garantia Outra situação comum você tem que chegar no trabalho às 800hs Será que sair com 45 minutos de antecedência é suficiente Ou 35 minutos bastam Utilizando sua experiência anterior você sabe que na maioria das manhãs você consegue chegar e estacionar em 25 minutos ou menos E na maioria das vezes a caminhada do carro até o trabalho é de 5 minutos ou menos Mas o quão frequentemente um destes tempos foi mais do que o usual Quando você leva mais tempo até conseguir estacionar é mais provável que também a caminhada dure mais estacionou mais longe Ou os tempos até estacionar e de caminhada não são correlacionados Algumas questões envolvendo incerteza são mais sérias do que estas Por exemplo se um coração artificial tem quatro partes chaves quão provável é que cada uma falhe Quão provável é que pelo menos uma falhe Nós podemos responder questões como estas utilizando as ideias e métodos da Probabili dade que é o estudo sistemático da incerteza Nesta trilha vamos abordar as ideias básicas da probabilidade e as funções que o R tem Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 6 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística para amostragem aleatória e para lidar com as distribuições teóricas Além desta Introdução o segundo capítulo apresenta os conceitos básicos de Probabi lidade definições e cálculos simples envolvendo probabilidade e combinatória depois ainda no segundo capítulo passamos às distribuições de probabilidade discretas e contínuas e as ferramentas funções que o R tem para cálculos e manipulações de distribuições probabilidades quantis e geração de números aleatórios No último capítulo falamos sobre Inferência Estatística apresentamos os conceitos de teste de hipóteses e diversos exemplos e procedimentos para sua realização Conceitos básicos de Probabilidade Os conceitos de aleatoriedade e probabilidade são centrais à estatística Isso decorre do fato de não conseguimos fazer experimentos perfeitamente reproduzíveis e o grau de irreprodutibilidade pode variar por exemplo Alguns experimentos em física podem gerar dados que são precisos até várias casas decimais Dados de sistemas biológicos tipicamente são muito menos precisos Contudo a visão de dados como algo que resulta de uma distribuição estatística é vital para o entendimento dos métodos estatísticos Amostragem Aleatória Os primeiros trabalhos na teoria da probabilidade foram sobre jogos e problemas de jogos de azar baseados em considerações de simetria HALD 2003 A noção de então era de uma amostra aleatória lidar com um conjunto de cartas bem embaralhadas selecionar bolas numeradas de uma urna bem chacoalhada Experimento aleatório ou fenômeno aleatório Existem situações ou acontecimentos cujos resultados não podem ser previstos com certeza Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 7 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Um experimento ou fenônemo que se for observado em condições idênticas pode apresentar diferentes resultados é chamado de experimento ou fenômeno aleatório A Figura 1 mostra dois dados utilizados para ilustrar o conceito de fenômeno aleatório Figura 1 Exemplo de fenômeno aleatório Fonte MaxPixelnet Exemplos de fenômenos aleatórios são Lançamento de um dado ou de uma moeda Condições climáticas do próximo domingo Taxa de inflação do próximo mês Condição de um item produzido Resultado do lançamento de um dado Tempo de duração de uma lâmpada Observação do número de veículos que passam por um praça de pedágio durante um certo intervalo Quando realizamos um experimento aleatório não temos como saber com certeza o seu resultado Entretanto podemos saber quais são todos os possíveis resultados Este conjunto de resultados possíveis de um experimento aleatório é chamado de espaço Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 8 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística amostral Espaço Amostral Ω Chamamos de Espaço Amostral representado pela letra grega Ômega Ω o conjunto de todos os possíveis resultados de um experimento ou fenômeno aleatório Exemplos Lançamento de um dado Ω 123456 Observação do tipo sangüíneo de um indivíduo Ω A B AB O Condição de um item produzido Ω defeituoso nãodefeituoso Número de veículos que passam por uma praça de pedágio durante um certo intervalo Ω 0 1 2 Tempo de duração de uma lâmpada em h Ω 0 Podemos ter subconjuntos do espaço amostral e os indicamos pelas letras A B C Para o evento do lançamento de um dado o espaço amostral Ω 123456 Exemplos de subconjuntos do evento do lançamento de um dado A Resultado é par A 246 evento composto B Resultado é maior do que 3 B 456 evento composto C Resultado igual a 1 C 1 evento simples D Resultado maior do que 6 D evento impossível E Resultado menor do que 7 D Ω evento certo Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 9 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Operações com Eventos A e B são eventos de Ω Então podemos ter A B união dos eventos A e B Figura 2 Ocorrência de pelo menos um dos eventos A e B Figura 2 União dos eventos A e B Fonte Elaborado pelo autor AB intersecção dos eventos A e B Figura 3 Ocorrência simultânea dos eventos A e B A e B são disjuntos ou mutuamente exclusivos quando não têm elementos em comum isto é A B A e B são complementares se A B e A B Ω O complementar de um evento A é representado por Ac ou A Figura 4 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 10 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 3 Intersecção dos eventos A e B Fonte Elaborado pelo autor Figura 4 Complemento do evento A Fonte Elaborado pelo autor Operações sobre conjuntos Podemos sistematizar as operações possíveis sobre os conjuntos A e B no Quadro 1 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 11 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Quadro 1 Síntese de operações sobre conjuntos Operação Notação Descrição Verbal Intersecção AB Realização simultânea de A e de B União Reunião AB Realização de A ou de B ie e pelo menos um dos dois eventos Diferença BA Realização de B sem que se realize A B excepto A AB Realização de A sem que se realize B A excepto B Complementar A Não realização de A Fonte Elaborado pelo autor As operações sobre eventos gozam de propriedades bem conhecidas como a associati vidade comutatividade etc que são apresentadas no Quadro 2 Quadro 2 Propriedades das operações sobre conjuntos Propriedade Descrição Matemática Associatividade ABC ABC ABC ABC Comutatividade AB BA AB BA Distributividade ABC ACBC ABC ACBC Idempotência AA A AA A Absorção A B AB A A B AB B Modulares AΩ A AΩ Ω A Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 12 Triilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Propriedade Descrição Matemática A B A A B A B Fonte Elaborado pelo autor Amostragem Aleatória Exemplos no R O modelo de probabilidade para um ponto de dado é que ele é uma observação de uma variável aleatória cuja distribuição é descrita pela população pai Para realizar uma inferência estatística sobre a população pai queremos uma amostra da população isto é uma sequência de variáveis aleatórias X₁ X₂ Xn Uma sequência é distribuída identicamente se cada variável aleatória tem a mesma distribuição Uma sequência é independente se saber o valor de alguma das variáveis aleatórias não dá informação adicional sobre a distribuição das outras Uma sequência que é simultaneamente independente e distribuída identicamente iid é chamada amostra aleatória Exemplo Como exemplo tomemos o lançamento de uma moeda Lançe uma moeda n vezes Seja Xᵢ 1 para heads no iésimo lançamento e 0 caso contrário Então claramente X₁ X₂ Xn é uma sequência iid Quando obtemos números aleatórios através da seleção aleatória de uma população finita os valores serão independentes e a amostragem foi feita com substituição Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Isto parece contra intuitivo já que existe a probabilidade de um membro ser selecionado mais de uma vez de modo que os valores parecem ser dependentes Contudo a distribuição das futuras observações não é alterada sabendose uma observação anterior Quando se faz a amostragem sem substituição de n itens as variáveis aleatórias X1X2Xn terão a mesma distribuição mas serão dependentes quando há n coisas para se escolher se você sabe as primeiras n1 então Xn deve ter o valor que ainda não foi escolhido No R podemos simular estas situações com a função sample Por exemplo se queremos selecionar cinco números ao acaso de um conjunto de 1 40 fazemos sample1405 1 17 36 37 35 8 O primeiro argumento x é um vetor de valores a ser amostrado e o segundo size é o tamanho da amostra Poderíamos digitar apenas sample405 já que um único número x seria interpre tado como o tamanho da sequência de inteiros O comportamento padrão de sample é a amostragem sem substituição Isto é as amostras não conterão o mesmo número duas vezes e size obviamente não pode ser maior do que o comprimento do vetor a ser amostrado Se você quer amostrar com substituição então adicione replaceTRUE Para ter um resultado reproduzível defina a semente do gerador aleatório setseedNUM onde NUM é um inteiro A Amostragem com substituição é adequada pexplo para modelar o lançamento de moedas ou de um dado Para simular o lançamento uma moeda ou um dado 10 vezes podemos fazer samplecHT 10 replaceTRUE moeda 10 vezes 1 H T T T T T H H T T sample16 size10 replaceTRUE dado 10 vezes 1 2 3 3 1 5 1 6 6 6 1 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 14 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Com uma moeda balanceada a probabilidade de H cara deveria ser a mesma de T coroa mas um evento aleatório não se restringe a casos simétricos Também podemos aplicar a outros casos tais como o de um resultado de sucesso de um procedimento cirúrgico Podemos simular dados com probabilidades não iguais para os resultados pexplo 90 de probabilidade de sucesso utilizando o argumento prob da função sample samplecsuccfail 10 replaceT probc0901 1 succ succ succ succ fail succ succ succ fail fail Exemplo Pesquisas de opinião pública como amostras aleatórias Pesquisa de opinião pública visa descobrir fatias da população que tem a mesma opinião ou atitude sobre um tema Para isso seleciona uma amostra da população alvo e determinase a proporção da amostra que tem a dada atitude Este tipo de pesquisa pode ser vista como uma amostra aleatória da população alvo se cada pessoa entrevistada é escolhida aleatoriamente da população toda com substituição Por exemplo se sabemos que uma população de 10000 pessoas tem 6800 que respon deram sim à nossa pesquisa Podemos gerar uma amostra de 10 pessoas assim samplerepcnaosimc32006800size10replaceTRUE 1 sim nao nao nao nao sim sim nao sim sim A função rep produz 10000 valores 3200 nãos e 6800 sims Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 15 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Probabilidade clássica frequentista ou a priori Se um experimento aleatório tiver nΩ resultados mutuamente exclusivos e igualmente possíveis e se um evento A tiver nA desses resultados a probabilidade do evento A representada por PA é dada pela equação 1 PA nA nΩ 1 Exemplo 1 Consideremos o lançamento de dois dados balanceados Queremos calcular a probabilidade de 1 se obter soma das faces igual a 7 2 se obter soma maior do que 5 3 que o resultado do primeiro dado seja maior do que o resultado do segundo Resolução Ω 11 12 13 14 15 16 21 22 23 24 25 26 31 32 33 34 35 36 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66 1 A 615243342561 PA nA nΩ 6 36 1 6 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 16 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística 2 PB 2636 3 PC 1536 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 17 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Considere um experimento que é realizado n vezes n grande O evento A ocorre exatamente nA vezes 0 nA n A freqüência relativa de vezes que ocorreu o evento A é uma forma de aproximar a probabilidade do evento A ou seja equação 2 frA nA n 2 Quando n tende a infinito frA se aproxima de PA Exemplo Lançamento de uma moeda balanceada Calcular a probabilidade de A resultado obtido ser cara Ev fr1 fr2 fr3 fr4 PA Cara 25 610 2250 47100 05 n 5 10 50 100 Um exemplo em R p0 12 Moeda balanceada n 1005000 fr mapplyfunctionx sumrbinomx1p0xn dfnfr tibblen n fr fr g ggplotdata dfnfr geomlineaes x n y fr g g geomhlineyintercept 05 linetype 2 color blue g g themepubr labspubr g g themeplotcaption elementtexthjust 01 g g labsx Número de Lançamentos y Frequencia relativa caption Fonte Elaborado pelo autor g Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 18 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 5 Efeito do n em um experimento de lançamentos de uma moeda 040 045 050 055 0 1000 2000 3000 4000 5000 Número de Lançamentos Frequencia relativa Fonte Elaborado pelo autor Cálculos de probabilidade e combinatória Vamos retornar ao exemplo da amostragem sem substituição sample1405 A probabilidade de se obter um dado número como o primeiro da amostra deve ser 140 já o próximo terá probabilidade 139 e assim por diante A probabilidade de se obter uma sequência específica de números deve ser então 14039383736 No R usamos a função prod que calcula o produto de um vetor de números 1prod4036 1 12664e08 Esta é a probabilidade de se obter uma determinada sequência e em uma determinada ordem Mas se for como uma loteria então estamos interessados na probabilidade de se obter um conjunto de números corretamente Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 19 Assim o que precisamos fazer é incluir os casos que dão os mesmos números em uma ordem diferente Como a probabilidade de cada um destes casos será a mesma tudo o que temos que fazer é achar quantos destes casos existem e multiplicar por esta quantidade Existem cinco possibilidades para o primeiro número e para cada um destes haverá quatro possibilidade para o segundo e assim por diante Isto é o número é 5 4 3 2 1 Este número é escrito também como 5 5 fatorial Assim a probabilidade de se ganhar um bilhete de loteria será prod51prod4036 1 15197e06 Existe uma outra maneira de se chegar ao mesmo resultado Primeiro observamos que o conjunto real de números é irrelevante todos os conjuntos de cinco números devem ter a mesma probabilidade De forma genérica seria o número de maneiras que x objetos subconjuntos podem ser escolhidos de n objetos distintos lêse n choose x Isto é denotado como mostrado na equação 3 n x n n xx Assim tudo o que precisamos fazer é calcular o número de maneiras que podemos escolher 5 números de 40 No R a função choose pode ser utilizada para calcular este número e a probabilidade então é 1chose405 1 15197e06 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PABC PAPBPCPABPBCPACPABC Probabilidade Conjunta e Eventos Independentes A figura 6 mostra o diagrama de Venn para dois eventos A e B no universo Ω Figura 6 Dois eventos A e B no universo Ω Fonte Elaborado pelo autor A probabilidade conjunta dos eventos A e B é a probabilidade de que ambos eventos ocorram simultaneamente na mesma repetição de um experimento aleatório Isto é a probabilidade de que o conjunto de resultados estejam tanto no evento A como no evento B ou seja na intersecção AB Em outras palavras a probabilidade conjunta dos eventos A e B é PAB ou seja a probabilidade de sua intersecção Quando os eventos A e B são independentes então temos PAB PAPB ou seja a probabilidade conjunta é o produto das probabilidades individuais Se os eventos são dependentes esta regra não se aplica Distinção entre eventos independentes e eventos mutuamente exclusivos O conceito básico de independência de eventos significa que a ocorrência de um evento não afeta a ocorrência ou não ocorrência de outros eventos Já o conceito de mutuamente exclusivo indica que dois eventos não contém nenhum elemento em comum Dois eventos mutuamente exclusivos com probabilidades diferentes de zero não podem ser Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 22 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística independentes A intersecção é o conjunto vazio assim ela deve ter probabilidade zero que não pode vir do produto das probabilidades destes dois eventos pois são diferentes de zero Probabilidade Marginal Considere os eventos A e B como mostrados na figura 6 A probabilidade de um dos eventos por exemplo A em uma situação de evento conjunto é chamada probabilidade marginal Encontramos esta probabilidade através da soma de PA B e PA Bc utilizando os axiomas da probabilidade A ABABc e eles são disjuntos pelo axioma 3 PA PA B PA Bc A probabilidade marginal de um evento A é encontrada pela soma das partes disjuntas Probabilidade Condicional e Independência de Eventos A e B são dois eventos em um mesmo espaço amostral Ω A probabilidade condicional de A dado que ocorreu o evento B denotada por PAB é definida como mostrado na equação 4 PAB PAB PB se PB 0 4 Exemplo 2 Selecionamos dois itens ao acaso um a um e sem reposição de um lote que contém 10 itens do tipo A e 5 do tipo B Qual é a probabilidade que a o primeiro item seja do tipo A b o segundo seja do tipo B se o primeiro item foi do tipo A Definimos os eventos V1 o 1o item é do tipo A V2 o 2o item é do tipo A a PV1 10 15 2 3 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 23 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística b PV c 2 V1 5 14 Essas probabilidades podem ser representadas em uma árvore de probabilidades como mostrado na figura 7 Figura 7 Árvore de Probabilidades Fonte Elaborado pelo autor Da expressão de probabilidade condicional anterior obtemos a seguinte relação muito útil equação 5 PAB PBPAB 5 conhecida como regra do produto de probabilidades ou probabilidade da inter seção Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 24 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Exemplo 3 No exemplo anterior suponha que temos interesse em determinar a proba bilidade de que os dois itens selecionados sejam do tipo B O evento é V c 1 V c 2 o 1º e o 2º itens são do tipo B PV c 1 V c 2 PV c 1 PV c 2 V c 1 5 15 4 14 2 21 Teorema 1 Se B é um evento em Ω tal que PB 0 então 1 PB 0 2 Se A Ω então PAcB 1PAB ou PAB 1PAcB 3 Se AC Ω então PACB PABPCBPACB Exemplo 4 Na cidade de São Pepe a probabilidade de chuva no primeiro dia de setembro é de 050 e a probabilidade de chuva nos dois primeiros dias de setembro é de 040 Se choveu no primeiro dia de setembro qual a probabilidade de que no dia seguinte não chova Solução Sejam os eventos A chove em 0109e B chove em 0209 Do enunciado do problema temos PA 050 e PA B 040 A probabilidade pedida é PBcA 1PAB 1 PAB PA 1 040 050 020 Pelo teorema 1 Independência de eventos Dois eventos A e B em Ω são independentes se a informação da ocorrência ou não de B não altera a probabilidade de ocorrência de A isto é Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 25 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PAB PAPB 0 Logo dois eventos A e B são independentes se e somente se PAB PAPB Exemplo 5 Em uma fábrica 20 dos lotes produzidos têm componentes do fornecedor A 8 tem componentes do fornecedor V e 4 têm componentes de ambos Selecionamos ao acaso um item produzido nesta fábrica a Os eventos relacionados aos dois fornecedores são independentes b Se o lote selecionado tem componentes do fornecedor V qual a probabilidade de que tenha componentes do fornecedor A c Qual é a probabilidade de um lote não ter componentes destes dois fornecedores Solução A o lote tem componentes do fornecedor A V o lote tem componentes do fornecedor V Do enunciado temos PA 020 PV 008 e PAV 004 a PVPA 00802 0016 e PV A 004 como PV A PVPA A e V não são independentes b PAV PAV PV 004 008 050 c PV Ac 1PV A 1PVPAPV A 100802004 076 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 26 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Teorema 2 Se A e B são eventos independentes em Ω então i A e Bc são independentes ii Ac e B são independentes iii Ac e Bc independentes Exemplo 6 Um atirador acerta 80 de seus disparos e outro nas mesmas condições de tiro 70 Qual a probabilidade de o alvo ser acertado se ambos os atiradores disparam simultaneamente Sejam os eventos Bi o atirador i acerta o alvo i 12 PB1 08 e PB2 07 Logo PB1 B2 PB1PB2PB1 B2 PB1PB2PB1PB2 08070807 094 Outra solução PB1 B2 1PB1 B2c 1PBc 1 Bc 2 1PBc 1PBc 2 11PB11PB2 1108107 094 Teorema de Bayes Vamos retomar a definição de probabilidade condicional dada pela expressão 4 acima isto é PBA PAB PA Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 27 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Utilizamos aqui a definição de probabilidade marginal do evento A isto é a soma das probabilidades das partes disjuntas Como A ABABc e claramente AB e ABc são disjuntas temos PA PABPABc Utilizando a definição de probabilidade condicional acima obtemos então PBA PAB PABPABc Através da regra da multiplicação encontramos cada uma das probabilidades conjuntas chegando então ao teorema de Bayes para um evento único BOLSTAD CURRAN 2017 PBA PABPB PABPBPABcPBc 6 Olhando o teorema de Bayes à vista do que vimos sobre probabilidade condicional concluimos que ele faz uma reafirmação da probabilidade condicional de PBA onde A probabilidade de A é encontrada como a soma das probabilidades das suas partes disjuntas AB e ABc Cada uma das probabilidades conjuntas é encontrada utilizando a regra da multipli cação A partir destas observações podemos entender que a união dos eventos B e Bc re presenta o universo completo Ω e que eles são disjuntos Ou seja os eventos B e Bc particionam o universo Frequentemente temos mais do que dois eventos que particionam o universo ou seja se temos n eventos B1B2Bn tais que A união B1 B2 Bn Ω ie o universo e Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 28 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Cada par distinto de eventos são disjuntos Bi Bk for i 1n k 1n e i k Podemos dizer então que o conjunto de eventos B1B2Bn particionam o universo como ilustrado na figura 8 A probabilidade condicional PBiA para i 1n é encontrada dividindose cada probabilidade conjunta pela probabilidade do evento A isto é PBiA PABi PA Utilizando a regra da multiplicação para encontrar a probabilidade conjunta no numerador juntamente com a lei de probabilidade total no denominador chegamos à expressão conhecida do Teorema de Bayes PBiA PBiPABi k i1 PBiPABi 7 Exemplo 7 A figura 8 ilustra o particionamento do universo Ω por quatro eventos não observáveis B1B2B3 e B4 e um evento observável A Agora considere que o evento A tenha ocorrido A figura 9 mostra o universo reduzido Ωr e as probabilidades condicionais de cada evento Bi são dadas pela equação 7 acima neste universo reduzido estas probabilidades somam 1 Exemplo 8 Em um programa de televisão são mostradas três portas 1 2 e 3 fechadas e apenas uma delas guarda um valioso prêmio O apresentador do programa sabe qual é a porta que leva ao prêmio Um participante deve escolher uma das portas Em seguida o apresentador informa o número de uma porta diferente da escolha do participante e que não guarda o prêmio SELVIN et al 1975 Consideremos que o participante tenha escolhido a porta 1 O apresentador informa que a porta 3 não guarda o prêmio e pergunta ao participante se ele gostaria de mudar sua escolha Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 29 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 8 Quatro eventos Bi para i 14 que particionam o universo Ω juntamente com o evento A Fonte Elaborado pelo autor Figura 9 O universo reduzido Ωr dado que o evento A ocorreu juntamente com os quatro eventos que particionam o universo Fonte Elaborado pelo autor Se você fosse o participante qual seria sua decisão Vale a pena mudar de escolha Solução Eventos Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 30 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Xi a porta número i guarda o prêmioe Yj apresentador informa que porta número j não guarda o prêmio Observe que PX1 PX2 PX3 13 A pergunta pode ser respondida comparando PX1Y3 e PX2Y3 pois PX3Y3 0 Levando em conta que o participante escolheu a porta 1 temos PY2X1 PY3X1 12 Também sabemos que o apresentador não informará que determinada porta não guarda o prêmio se o prêmio estiver nesta porta premissa do problema de que o apresentador não mente isto é PY2X2 PY3X3 0 Se o prêmio está na porta 3 ou seja temos X3 com certeza o apresentador informará que a porta 2 não guarda o prêmio ou seja Y2 ocorrerá PY2X3 1 Do mesmo modo se o prêmio está na porta 2 ou seja X2 o apresentador informará que a porta 3 não guarda o prêmio ou seja Y3 ocorrerá PY3X2 1 Ou seja PY2X3 PY3X2 1 de modo que PY3 PY3X1PX1PY3X2PX2PY3X3PX3 1213113013 12 Dado que o prêmio não está na porta 3 podemos calcular agora a probabilidade de que ele esteja na porta 1 PX1Y3 PX1 Y3 PY3 PY3X1PX1 PY3 1 2 1 3 1 2 1 3 Igualmente dado que o prêmio não está na porta 3 vamos calcular a probabilidade de que ele esteja na porta 2 PX2Y3 PX2 Y3 PY3 PY3X2PX2 PY3 1 1 3 1 2 13 12 2 3 Vale a pena mudar a escolha Este problema chamado de Monty Hall é baseado em um famoso programa de televisão norte americano chamado Lets make a deal Algumas histórias sobre ele são muito interessantes e mostram como probabilidade e estatística podem ser desafiadoras Veja um destes relatos em VAZSONYI 1999 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 31 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Analisando o problema sem calculeira podemos pensar da seguinte forma de início o prêmio tem 13 de probabilidade de estar em qualquer porta assim ao escolher uma porta esta é a probabilidade de se ganhar as portas não escolhidas tem os outros 23 de probabilidade de conter o prêmio considerando que uma das portas não escolhidas não contém o prêmio a que permaneceu fechada é que passa a ter 23 de probabilidade restantes Também podemos pensar assim a escolha inicial é aleatória e tem 13 de probabilidade de acertar assim o único modo de se errar ao mudar de porta é se você tiver escolhido a porta correta de início e esta probabilidade é de 13 ou seja se você muda está saindo de uma probabilidade de 13 para uma proba bilidade de 23 O Quadro 3 mostra uma solução apresentada na revista Parade Magazine que lista todos os resultados possíveis de se permanecer ou de trocar a porta tendo selecionado a Porta 1 inicialmente Quadro 3 Todos os resultados do jogo das portas Na Porta Na Porta Na Porta Permanecendo Trocando 1 2 3 com a 1 Prêmio Bode Bode Prêmio Bode Bode Prêmio Bode Bode Prêmio Bode Bode Prêmio Bode Prêmio Fonte httpswwwstatisticshowtodatasciencecentralcomprobabilityandstatisticsmontyhallproblem Permanecendo Você seleciona a porta 1 Apresentador abre uma porta com o Bode Você permanece No cenário 1 você ganharia E para os outros dois cenários você perderia Isto te dá uma probabilidade de 13 de ganhar para todos os cenários Trocando Você seleciona a porta 1 Apresentador abre uma porta com o Bode Você troca Para o cenário 1 você perderia E desta vez para os outros dois cenários você Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 32 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística ganharia Isto te dá uma probabilidade de 23 de ganhar Exemplo 9 Uma montadora trabalha com dois fornecedores A e B de uma determi nada peça Sabese que 10 e 5 das peças dos fornecedores A e B respectivamente estão fora das especificações A montadora recebe 30 das peças do fornecedor A e 70 de B Se uma peça do estoque inteiro é escolhida ao acaso a Calcule a probabilidade de que ela esteja fora das especificações b Se uma peça escolhida ao acaso está fora das especificações qual é a probabilidade de que tenha sido fornecida por A Eventos A peça selecionada foi fornecida por A B peça selecionada foi fornecida por B e E peça selecionada não atende às especificações Figura 10 Espaço de eventos para o exemplo 9 Fonte Elaborado pelo autor Solução Do enunciado do problema temos PA 030 PB 070 PEA 010 e PEB 005 a Fórmula da probabilidade total Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 33 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PE PAPEAPBPEB 030010070005 0065 b PAE Pelo Teorema de Bayes temos PAE PAPEA PAPEAPBPEB 030010 030010070005 003 0065 046 A compreensão da solução do deste exemplo é facilitada pela árvore de probabilidades mostrada na figura 11 Figura 11 Árvore de probabilidades para exemplo 9 Fonte Elaborado pelo autor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 34 2 Variáveis Aleatórias Em um experimento aleatório frequentemente estamos interessados em algum aspecto numérico do resultado Por exemplo um cientista ambiental que obtém uma amostra de ar de uma localização específica pode estar especialmente interessado com a concen tração de Ozônio um dos principais constituintes da poluição atmosférica Um inspetor de qualidade que precisa decidir se aceita um grande carregamento de componentes pode basear sua decisão no número de componentes com defeito em um grupo de 20 componentes selecionados aleatoriamente do carregamento Quando o valor de uma variável quantitativa tal como a concentração de Ozônio ou o número de componentes com defeito está sujeito a incerteza tais variáveis são chamadas variáveis aleatórias Variáveis Aleatórias Na maioria dos experimentos aleatórios o pesquisador fixa sua atenção em uma ou mais quantidades variáveis Por exemplo considere um consultor administrativo que está estudando a operação de um supermercado O experimento aleatório pode envolver a seleção aleatória de um cliente que esteja saindo da loja Uma variável numérica de interesse pode ser o número de itens comprados pelo cliente Nós podemos denotar esta variável utilizando uma letra tal como x Os possíveis valores desta variável são 0 um cliente frustrado 1 2 3 e assim por diante Até que um cliente seja selecionado e o número de itens seja contado o valor de x é incerto Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 35 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Uma outra variável de potencial interesse pode ser o tempo y em minutos gasto na fila do caixa Um possível valor de y é 30 minutos e outro é 40 minutos mas qualquer outro número entre 30 e 40 também é possível Neste exemplo os valores possíveis de x são pontos isolados em uma linha numérica e os valores possíveis de y formam um intervalo completo um contínuo na linha numérica Variável Aleatória uma variável numérica cujo valor depende do resultado de um experimento aleatório Uma variável aleatória associa um valor numérico com cada resultado de um experimetno aleatório Uma variável aleatória é discreta se o seu conjunto de valores possíveis é uma coleção de pontos isolados ao longo de uma linha numérica Uma variável aleatória é contínua se o seu conjunto de valores possíveis inclue um intervalo completo de uma linha numérica Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 36 3 Distribuições de Probabilidade Distribuições de Probabilidade para Variáveis Aleatórias Discre tas A distribuição de probabilidade para uma variável aleatória é um modelo que descreve o comportamento de longo prazo da variável Por exemplo suponha que um órgão municipal ligado à proteção animal esteja interessado em estudar a variável x número de cachorros ou gatos regularizados para uma residência A regulamentação municipal proibe mais do que cinco cachorros ou gatos por residência Se nós considerarmos o experimento aleatório de selecionarmos aleatoriamente uma residência neste município então x é uma variável aleatória discreta porque ela associa um valor numérico 0 1 2 3 4 ou 5 com cada um dos possíveis resultados residências no espaço amostral Apesar de sabermos quais são os possíveis valores de x é também útil saber como esta variável se comporta em observações repetidas Qual seria o valor mais comum Que proporção de vezes x 5 seria observado Uma distribuição de probabilidade provê este tipo de informação sobre o comportamento de longo prazo de uma variável aleatória A distribuição de probabilidade de uma variável aleatória discreta x dá a pro babilidade associada com cada possível valor x Cada probabilidade é a frequência relativa de longo prazo da ocorrência de um valor x correspondente quando o experi mento aleatório é realizado um grande número de vezes Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 37 Distribuição Binomial Quando examinamos as replicações independentes de um experimento binário não estamos interessados apenas no resultado de um caso mas no número total de sucessos ou falhas Obviamente este número é aleatório pois depende dos resultados aleatórios individuais por isso é uma variável aleatória Neste caso é uma variável aleatória discreta que pode assumir valores 0 1 n onde n é o número de replicações Uma variável aleatória X tem uma distribuição de probabilidade que pode ser descrita utilizando as probabilidades pontuais fx PX x ou a função de probabilidade acumulada Fx PX x Neste caso a distribuição pode ser expressa como tendo probabilidades dadas pela equação 8 PX x n x px1 pnx Esta distribuição é conhecida como distribuição binomial O termo n x são conhecidos como coeficientes binomiais O parâmetro p é a probabilidade de um resultado de sucesso em uma tentativa n é o número de replicações do experimento ou o número de tentativas Exemplo 10 Número de heads em quatro lançamentos de uma moeda Qual é a distribuição de probabilidade da variável aleatória discreta X que conta o número de heads em quatro lançamentos de uma moeda Podemos derivar esta distribuição a partir de algumas premissas razoáveis Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística A moeda é balanceada isto é tem a mesma probabilidade de dar H ou T A moeda não tem memória assim os lançamentos são independentes O resultado de quatro lançamentos é uma sequência de heads e tails tal como HTTH Existem 16 possíveis resultados mostrados na figura 12 A regra da multiplicação de eventos independentes resulta em PHTTH 1 2 1 2 1 2 1 2 1 16 Figura 12 Possíveis resultados de 4 lançamentos de uma moeda Cada um dos 16 resultados possíveis tem a mesma probabilidade 116 Isto é são igualmente prováveis O número de heads X tem os valores possíveis 0123 e 4 Estes valores não são igualmente possíveis Como podemos ver na figura 12 há somente uma maneira de X 0 ocorrer isto é quando o resultado é TTTT Assim PX 0 1 16 00625 O evento X 2 pode ocorrer em seis diferentes maneiras assim Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 39 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PX 2 contagem de quantos X 2 podem ocorrer 16 6 16 0375 Podemos achar a probabilidade de cada valor de X da figura 12 da mesma maneira O resultado é Valor de X 0 1 2 3 4 Probabilidade 00625 025 0375 025 00625 No R podemos chegar nestes resultados da seguinte maneira dbinom04 size4 prob050 função de probabilidade de massa 1 00625 02500 03750 02500 00625 pbinom04 size4 prob050 função de prob acumulada 1 00625 03125 06875 09375 10000 Exemplo 11 Probabilidade de no mínimo dois heads Qualquer evento envolvendo o número de heads observadas pode ser expresso em termos de X e sua probabilidade pode ser encontrada a partir da distribuição de X Por exemplo a probabilidade de se lançar no mínimo dois heads PX 2 037502500625 06875 A probabilidade de no mínimo um head é mais simplesmente encontrada pelo uso da regra do complemento PX 1 1PX 0 100625 09375 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 40 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Lembrando que lançar uma moeda n vezes é similar a escolher uma amostra aleatória simples SRS de tamanho n de uma população grande e fazer uma pergunta do tipo sim ou não No R fazemos dbinom24 size4 prob050 1 03750 02500 00625 sumdbinom24 size4 prob050 1 06875 1 pbinom0size4prob050 1 09375 Distribuições Contínuas Alguns dados vêem de medidas em escalas essencialmente contínuas tais como temperatura concentrações etc Na prática eles são registrados com precisão limitada mas em geral desconsideramos isso na modelagem Não é o caso dos físicos ou químicos Tais medidas terão usualmente um componente de variação aleatória que os torna menos do que perfeitamente reproduzíveis Contudo estas flutuações aleatórias tenderão a seguir padrões tipicamente vão se agrupar em torno de um valor central com grandes variações sendo mais raras do que as menores Para modelar dados contínuos nós precisamos definir variáveis aleatórias que podem assumir os valores de quaiquer números reais Como há infinitamente muitos números infinitamente perto a probabilidade de qualquer valor particular será zero assim não há tal coisa como uma probabilidade pontual como para as variáveis aleatórias discretas Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 41 Ao contrário nós temos o conceito de densidade isto é a probabilidade infinitesimal de se atingir uma pequena região em torno de x dividida pelo tamanho da região A função de distribuição acumulada pode ser definida como antes e temos a equação 9 Fx x fxdx Há um número de distribuições padrão que ocorrem na teoria estatística que estão disponíveis no R Não vamos descrevêlas todas aqui exceto algumas de exemplo Distribuição uniforme A distribuição uniforme tem uma densidade constante sobre um intervalo especificado por padrão 01 Distribuição normal A distribuição normal também conhecida como a distribuição Gaussiana tem densidade dada pela equação 10 fx 12πσ exp xμ²2σ² dependendo da sua média μ e do desvio padrão σ A distribuição normal tem uma forma característica de sino e modificando μ e σ provoca uma translação e achata ou afina a distribuição Ela é um componente muito importante na construção da teoria estatística onde é empregada comumente para descrever pexplo a variação de erro Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Exemplos Números aleatórios uniformes O gerador de números aleatórios vai espalhar seu resultado uniformemente ao longo de todo o intervalo de 0 a 1 conforme se gera uma sequência bem longa de números Os resultados de muitas tentativas são representados pela curva de densidade de uma distribuição uniforme na figura 13 Ela tem uma altura de 1 em todo o intervalo de 0 a 1 e altura 0 nos demais lugares A área sob a curva de densidade é 1 A área de um quadrado com base 1 e altura 1 A probabilidade de qualquer evento é a área sob a curva de densidade e acima do evento em questão A figura 13 ilustra a probabilidade do gerador de números aleatórios produzir um número X entre 03 e 07 P03 07 04 Figura 13 Probabilidades de geração de números aleatórios em intervalos específicos distribuição uniforme Fonte MOORE MCCABE AND CRAIG 2009 Similarmente podemos calcular a probabilidade de um número ser Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 43 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PX 05 PX 08 PX 05 ou X 08 punif07 min0 max1 1 07 punif03 min0 max1 1 03 punif07 min0 max1 punif03 min0 max1 1 04 1 punif05 min0 max1 1 05 1 punif08 min0 max1 1 02 1 punif05 min0 max1 1 punif08 min0 max1 1 07 Estudos de simulações também podem ser feitos randnums runif10000 min 0 max 1 proptabletablerandnums 03 randnums 07 FALSE TRUE 05986 04014 Distribuições builtin no R As distribuições padrão que são utilizadas na construção de modelos e testes estatísticos estão presentes no R e podem ser utilizadas em substituição às tabelas estatísticas tradicionais Nós vamos examinar a distribuição normal e a binomial mas outras seguem exatamente o mesmo padrão Quatro itens fundamentais podem ser calculados para uma distribuição estatística Densidade de Probabilidade ou Probabilidade Pontual Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 44 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Probabilidade Acumulada ou Função de Distribuição Quantis Números pseudoaleatórios Para todas as distribuições implementadas no R há uma função para cada um dos quatro itens listados acima Por exemplo para a distribuição normal elas são denominadas dnorm pnorm qnorm e rnorm densidade probabilidade quantis e random respectivamente Densidades A densidade para uma distribuição contínua é a medida da probabilidade relativa de se conseguir um valor próximo a x A probabilidade de se obter um valor em um intervalo particular é a área sob a parte correspondente da curva Para distribuições discretas utilizamos o termo probabilidade pontual ao invés de densi dade pois temos a probabilidade de obter exatamente o valor de x Uma função de densidade é apresentada na figura 14 Apesar de ser um dos quatro tipos que é menos utilizado na prática mas se queremos plotar a tão conhecida curva sino da distribuição normal podemos fazer assim x seq4401 ggplotdata tibblex x y dnormx geomlineaesxxyy labspubr themepubr themeplotcaption elementtexthjust 0 labsxx yDensidade de Probabilidade caption Fonte Elaborado pelo autor Uma maneira alternativa de se criar o mesmo gráfico é utilizar a função curve como segue curvednormx from4 to4 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 45 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 14 Função Densidade de Probabilidade Normal 00 01 02 03 04 4 2 0 2 4 x Densidade de Probabilidade Fonte Elaborado pelo autor Para distribuições discretas onde as variáveis podem assumir apenas alguns valores distintos é preferido fazer um diagrama de pinos Aqui um exemplo para a distribuição binomial com n 50 e p 033 x 050 ggplotdata tibblex x y dbinomx size 50 prob 033 geombaraesx x y yfill white color black stat identity position dodge labspubr labsx x y Probabilidade Pontual caption Fonte Elaborado pelo autor themepubr themeplotcaption elementtexthjust 0 Para a função dbinom precisamos especificar três argumentos Além do x temos que especificar o número de tentativas n e o parâmetro de probabilidade p A distribuição plotada corresponde a por exemplo o número de 5s ou 6s em 50 lança mentos de um dado simétrico Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 46 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 15 Distribuição de Probabilidade Binomial 0000 0025 0050 0075 0100 0 10 20 30 40 50 x Probabilidade Pontual Fonte Elaborado pelo autor Na realidade dnorm também pode receber mais de um argumento a saber a média e o desvio padrão mas eles tem valor padrão de 0 e 1 já que é o mais utilizado para a distribuição normal Funções de Distribuição Cumulativas A função de distribuição cumulativa descreve a probabilidade de atingir x ou menos em uma dada distribuição As funções do R correspondentes começam com p probabilidade por convenção Assim como para as densidades podemos também plotar uma função de distribuição cumulativa mas não é muito informativo Mais frequentemente estamos interessados em números Digamos que seja conhecido que alguma medida biomédica em indivíduos saudáveis seja bem descrita por uma distribuição normal com uma média de 132 e um desvio padrão de 13 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 47 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Então se um paciente tem um valor de 160 vamos calcular a probabilidade de sua ocorrência na população 1 pnorm160mean132sd13 1 0015626 Ou seja há somente cerca de 15 da população em geral que tenha este valor ou maior A função pnorm retorna a probabilidade de se obter um valor menor do que o seu primeiro argumento em uma distribuição normal com a dada média e desvio padrão Quantis A função quantile é o inverso da função de distribuição acumulada O pquantil é o valor com a propriedade de que há uma probabilidade p de se obter um valor menor ou igual a ele A mediana é por definição o quantil 50 Se nós temos n observações distribuídas normalmente com média µ e desvio padrão σ então sabemos que a média amostral x é normalmente distribuída em torno de µ com um desvio padrão σn desvio padrão da média amostral Um intervalo de confiança de 95 para a µ pode ser obtido pela equação 11 xσnN0025 µ xσnN0975 11 onde N0025 é o quantil 25 na distribuição normal Se σ 12 e medimos n 5 pessoas e encontramos uma média amostral x 83 então podemos calcular o intervalo de confiança isto é o intervalo que contém a média da população µ com 95 de confiança No trecho de código abaixo sem significa standard error of the mean ou erro padrão da média ou seja σn Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 48 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística xbar 83 sigma 12 n 5 sem sigmasqrtn 1 53666 xbar sem qnorm0025 1 72482 xbar sem qnorm0975 1 93518 E assim encontramos um intervalo de confiança de 95 para a µ que vai de 7248 a 9352 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 49 4 Inferência Estatística Introdução Inferir significa fazer afirmações sobre algo desconhecido A inferência estatística tem como objetivo fazer afirmações sobre uma característica de uma população a partir do conhecimento de dados de uma parte desta população uma amostra de n observações Também podemos dizer que a inferência estatística descreve qualquer procedimento para se extrair informação sobre uma distribuição de probabilidade de uma amostra observada A população é representada por uma distribuição de probabilidade com parâmetros cujos valores é são desconhecidos Fazemos inferências sobre os parâmetros Se θ é um parâmetro da distribuição de uma va X por exemplo a média e X1Xn é uma amostra desta distribuição temos três tipos de inferência estatística que podemos fazer sobre este parâmetro da população estimação pontual estimação intervalar e teste de hipótese Os tipos de inferência que abordaremos tomam como ponto de partida as seguintes premissas 1 X1Xn são variáveis aleatórias independentes e identicamente distribuídas Nós observamos uma amostrax x1xn 2 Tanto EXi µ e VarXi σ2 existem e são finitos Nós estamos interessados em fazer inferências sobre a média da população µ uma quantidade que é fixa mas Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 50 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística desconhecida 3 O tamanho da amostra n é suficientemente grande de modo que podemos usar a aproximação normal provida pelo Teorema do Limite Central 1 Estimação pontual O objetivo é apresentar um valor uma estimativa razoável para θ que é uma função da amostra X1Xn cálculo de θ chamada de estimador de θ Esperase que o estimador tenha boas propriedades i em média esteja próximo de θ ii o estimador se aproxima de θ quando n aumenta Os estimadores estão relacionados com as distribuições da variável aleatória que es tamos querendo estimar Para cada tipo de distribuição temos um tipo de estimador Apresentamos a seguir alguns estimadores para distribuições típicas a Distribuição binomial X Bn p temos que EX np Um estimador para p X 1 n n i1 Xi proporção amostral de sucessos b Distribuição de Poisson X Pµ temos que EX µ Um estimador para µ X Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 51 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística c Distribuição exponencial X Eλ temos que EX 1λ Um estimador para λ 1 X d Distribuição Normal X Nμ σ² temos que EX μ e VarX σ² Um estimador para μ X Um estimador para σ² S² 1n1 Σi1 to nXiX² Obs Existem outros métodos de estimação 2 Estimativa intervalar conjunto de valores Neste tipo de inferência estatística nosso objetivo é apresentar um intervalo de possíveis valores para θ chamado de intervalo de confiança Os limites do intervalo são funções da amostra X1 Xn são aleatórios Limite Inferior θ Limite Superior LX1Xn UX1Xn A probabilidade de que o intervalo contenha θ deve ser alta A amplitude do intervalo de ser tão pequena quanto possível intervalo mais preciso Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 52 Universidade Presbiteriana Mackenzie Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística 3 Teste de hipóteses Teste de hipótese é apropriado para situações onde se quer estimar qual de duas possíveis afirmações sobre uma população é correta Por exemplo em um experimento de lançar uma moeda consideramos a possibilidade de a moeda ser justa p 05 contra a possibilidade de a moeda não ser justa p 05 A lógica do teste de hipóteses é algo como Se uma ocorrência dita como coincidência parece ser muito implausível então nós tendemos a acreditar que ela não foi na verdade uma coincidência Outra afirmação que captura a essência do teste de hipóteses é o dito popular que diz Onde há fumaça há fogo De modo geral com o teste de hipóteses uma decisão binária é tomada baseada no nível de crédito de uma evidência probabilística Conceitualmente este nível pode ser quantificado como probabilidade de significância p que interpretamos como a probabi lidade de que a aleatoriedade produziria uma coincidência no mínimo tão extraordinária como o fenômeno observado Esta definição apresenta outra questão óbvia o quão pequena deve ser uma probabili dade de significância para se concluir que um fenômeno não é uma concidência Simplificadamente vamos explorar estas questões No teste de hipóteses de certa forma dividimos os estados possíveis do fenômeno observado em duas partições ou hipóteses O objetivo do teste de hipóteses é decidir qual hipótese é correta ou seja qual hipótese contém o estado verdadeiro da natureza fenônemo observado Mais genericamente os cientistas usualmente particionam os estados da natureza fenô meno observado em uma hipótese que corresponde à teoria que o experimento é projetado para investigar e uma hipótese que corresponde a uma explicação aleatória o objetivo do teste de hipóteses neste caso é decidir qual explicação é a correta Assim uma hipótese estatística H é uma afirmação sobre o valor do parâmetro da população que estamos estimando θ Pode ser verdadeira ou falsa Para aprofundarmos nosso estudo do teste de hipóteses vamos distinguir as duas hipó Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 53 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística teses que são feitas A primeira hipótese é chamada de hipótese nula H0 e a outra a hipótese alternativa H1 De modo simplificado a lógica para se determinar qual hipótese é H0 e qual é H1 é a seguinte H0 deve ser a hipótese aceita no caso de a evidência ser equivocada e H1 deve ser a hipótese que se requer evidências fortes para se adotar Tipos de erros Quando estamos fazendo um teste de hipótese estamos sujeitos a dois tipos de erro Erro tipo I rejeitar H0 quando H0 é verdadeira Erro tipo II não rejeitar aceitar H0 quando H0 é falsa As situações e os erros envolvidos no teste de hipótese podem ser montados em forma tabular como mostrado no quadro 4 Quadro 4 Tipos de Erros no Teste de Hipóteses Situação real e desconhecida Decisão H0 verdadeira H0 falsa Não Rejeitar H0 Decisão Correta Erro Tipo II Rejeitar H0 Erro Tipo I Decisão Correta Fonte Elaborado pelo autor Definese um limite superior para a probabilidade máxima de Erro Tipo I que deve ser tolerada Este limite é o nível de significância denotado por convenção como α O nível de significância é especificado antes de se examinar os dados e somente consideramse as regras de decisão para as quais a probabilidade de erro Tipo I não seja maior do que α O nível de significância especifica o quão pequena deve ser a probabilidade de signifi cância para se concluir que um fenômeno não é uma coincidência Os valores típicos de níveis de significância são α 005 e α 001 Assim tomando p como a probabilidade de signifância e α o nível de significância consideramos a regra que a hipótese nula deve ser rejeitada se e somente se p α Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 54 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Hipóteses bilateral e unilaterais Sejam as hipóteses nula e alterantiva H0 µ µ0 H1 µ µ0 em que µ0 é uma constante conhecida valor de teste o teste é chamado de bilateral Podemos ter também as hipóteses H0 µ µ0 H1 µ µ0 unilateral à esquerda ou H0 µ µ0 H1 µ µ0 unilateral à direita É interessante expressar H0 em forma de igualdade ou seja fazer teste bilateral mas as outras expressões são também aceitável Exemplo de formulação de hipóteses Um fabricante de um certo componente afirma que o tempo médio de vida dos compo nentes produzidos é de 1000 horas Engenheiros de produto têm interesse em verificar se uma modificação do processo de fabricação aumenta a duração dos componentes Hipóteses H0 µ 1000 horas H1 µ 1000 horas sendo µ o tempo médio de duração dos componentes Nível de Significância e Poder do Teste Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 55 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PErro tipo I α nível de significância α PRejeitar H0H0 verdadeira PErro tipo II β PNão rejeitar H0H0 falsa β P Não rejeitar H0H1 verdadeira 1β P Rejeitar H0H0 é falsa poder do teste Obs Quanto maior o poder melhor o teste Exemplo 12 Retomando o exemplo do lançamento de uma moeda consideramos a possibilidade de a moeda ser justa p 05 contra a possibilidade de não ser justa p 05 Em um experimento para verificar estas possibiliades Arlen nossa personagem fictícia faz o lançamento da moeda 100 vezes e observa o resultado Em 68 vezes ela obteve Coroa Tails contra 32 Caras Heads Cada lançamento da moeda é um experimento de Bernoulli onde somente dois resultados são possíveis Cara ou Coroa Seja Xi o resulado do lançamento i onde Xi 1 se Cara for observado e Xi 0 se Coroa for observado Então X1X100 Bernoullip onde p é a probabilidade fixa mas desconhecida de Arlen de que um lançamento único resultará em Cara Neste experimento a distribuição de probabilidade Bernoullip é nossa abstração matemática de uma população e o parâmetro da população que queremos estimar é µ EXi p a média da população Seja Y 100 i1 Xi o número total de Caras obtidas em n 100 lançamentos De acordo com o modelo matemático proposto Y Binomialp Lêse Y segue uma distribuição Binomial de p O que é observado por Arlen no experimento isto é em cada lançamento representamos Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 56 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística por x x1xn Ela então calcula y 100 i1 xi que é o número total de Caras na sua amostra ou seja y 32 Enfatizamos que p 01 é fixa mas desconhecida O objetivo de Arlen é fazer inferências sobre esta quantidade fixa mas desconhecida Consideremos três questões que ela pode perguntar 1 Qual é o valor verdadeiro de p Mais precisamente qual seria uma boa estimativa para o valor verdadeiro de p 2 Será que p 05 Especificamente há alguma evidência forte de que p 05 de modo que Arlen pode ficar confortável em recusar a moeda como sendo justa 3 Quais são os valores plausíveis de p Em particular há algum subconjunto de 01 que Arlen possa confiantemente afirmar que contem o valor verdadeiro de p A primeira destas questões pode ser abordada com a Estimação Pontual Fazemos então uma estimativa do valor teórico da probabilidade de sucesso p calculando a proporção de sucessos observada por Arlen p y n 32 100 032 Com esta estimativa passamos à segunda questão que é respondida através do Teste de Hipóteses Já obtivemos nossa estimativa p 032 05 Com isso Arlen está inclinada a crer que p 05 Mas será que esta evidência é forte o suficiente Talvez realmente p 05 mas por acaso nosso experimento produziu somente y 32 ao invés de um valor mais próximo ao esperado EY np 10005 50 Esta possibilidade nós podemos quantificar Sabendo que Y Binomialn 100 p 05 então a probabilidade de que Y vai desviar do seu valor esperado por pelo menos 5032 18 é Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 57 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística p PY 50 18 PY 32ouY 68 PY 32PY 68 PY 321PY 67 p 0000408772 No R calculamos assim p pbinom321005 1 pbinom671005 p 1 000040878 Ou seja a probabilidade de significância obtida é p 0000409 Este valor é menor que α 005 ou seja a hipótese nula deve ser rejeitada Lembrando a hipótese nula é que a moeda é justa O experimento mostrou que a probabilidade de se obter um valor de p 05 com esta moeda é menor do que o nível de significância estipulado A terceira questão de Arlen diz respeito a Estimação Intervalar que será abordada mais à frente Exemplo 13 Uma indústria adquire de um certo fabricante pinos cuja resistência média à ruptura é especificada em 60 unid valor nominal da especificação Em um determinado dia a indústria recebeu um grande lote de pinos e a equipe técnica da indústria deseja verificar se o lote atende às especificações Para ter mais credibilidade os técnicos formulam então as hipóteses estatísticas do teste H0 O lote atende às especificações Hipótese nula H1 O lote não atende às especificações Hipótese alternativa A va X resistência à ruptura é tal que X Nµ25 O problema pode ser resolvido testando as hipóteses Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 58 H0 μ 60 hipótese nula e H1 μ 60 hipótese alternativa A equipe técnica da indústria decidiu retirar uma amostra aleatória de tamanho n 16 do lote recebido A resistências de cada pino foi medida e foi calculada a resistência média X 62 estimator de μ que será utilizada para realizar o teste estatística de teste Podemos afirmar que X Nμ 2516 Lêse X segue uma distribuição Normal com média μ e variância 2516 Lembrando Se X1 X2 Xn é uma amostra de uma distribuição Nμ σ² então a média amostral X tem distribuição Nμ σ²n Lembrando das questões feitas por Arlen no exemplo anterior podemos generalizar da seguinte maneira 1 Fazemos a Estimativa Pontual neste caso a resistência média X obtida 2 Fazemos o Teste de Hipóteses utilizando um nível de significância α 005 3 Fazemos a Estimativa Intervalar para achar os valores plausíveis do estimador pontual resistência média para os quais devemos aceitar a hipótese nula A equipe técnica decidiu adotar um nível de significância α 005 para o teste A estatística de teste é a média amostral X e a distribuição é X Nμ 2516 Com esta amostra n 16 X 62 qual a decisão a ser tomada Primeiro calculamos a probabilidade de significância para este valor Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística z xbar mu0sigmasqrtn p 2pnormabsz p 1 01096 Assim como p 01096 é maior que α não podemos rejeitar a hipótese nula Definição Chamamos de Região Crítica Rc ou região de rejeição o conjunto de valores assumidos pela estatística de teste para os quais a hipótese nula é rejeitada Seu complementar é a região de aceitação Ra O gráfico da figura 16 mostra uma distribuição normal a área destacada em vermelho é a região crítica Em azul é a região de aceitação O valor de z calculado acima 16 também é mostrado Figura 16 Região de Aceitação e Região Crítica z z α2 α2 Região de Aceitação Região Crítica Região Crítica Região Crítica 00 01 02 03 04 4035302520151005 00 05 10 15 20 25 30 35 40 X Densidade de Probabilidade Fonte Elaborado pelo autor A figura 17 mostra um zoom da figura 16 gráfico apenas na parte inferior para melhor visualização Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 61 p Pμ0 Xn μ0 Xn μ0 α Elaboramos esta definição considerando que a variância da população é conhecida ou especificada pela hipótese nula Definimos duas novas quantidades a variável aleatória Zn Xn μ0σn e o número real z Xn μ0σn Sob a hipótese nula H0 μ μ0 Zn Normal0 1 pelo Teorema do Limite Central Portanto p Pμ0 Xn μ0 Xn μ0 1 Pμ0Xn μ0 Xn μ0 Xn μ0 1 Pμ0 Xn μ0σn Xn μ0σn Xn μ0σn 1 Pμ0z Zn z 1 Φz Φz p 2Φz Que podemos calcular no R da seguinte forma xbar 62 mu0 60 Var 25 sigma sqrtVar n 16 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 60 Universidade Presbiteriana Mackenzie Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 17 Zoom na parte inferior da Região de Aceitação e Região Crítica z α2 Região Crítica Região de Aceitação 000 005 010 015 020 025 40383634323028262422201816141210 X Densidade de Probabilidade Fonte Elaborado pelo autor Como vemos o valor de z 16 está dentro da região de aceitação da hipótese nula Estimação Intervalar esta é a terceira pergunta Para quais valores de X a equipe técnica deve rejeitar H0 e portanto rejeitar o lote Esta faixa de valores faz parte da Estimação Intervalar isto é determinamos o intervalo de confiança dos valores da variável aleatória Xn Ra µ0 zα σ n X µ0 zα σ n Ou então escrevemos xn µ0 zα σ n Podemos calcular estes limites no R liminf mu0 qnorm1 alpha2 sigmasqrtn limsup mu0 qnorm1 alpha2 sigmasqrtn Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 62 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Então nosso intervalo de confiança região de aceitação dos valores de Xn são 5755 6245 Este intervalo de confiança é mostrado na figura Figura 18 Região de Aceitação e Regiões Críticas com os valores do intervalo de confiança α2 α2 Região Crítica Região Crítica Região de Aceitação 00 01 02 03 55 56 57 58 59 60 61 62 63 64 65 X Densidade de Probabilidade Fonte Elaborado pelo autor Outra abordagem para este problema seria a equipe técnica adotar a seguinte regra rejeitar H0 se X for maior do que 625 unid ou menor do que 575 unid Ou seja partimos dos limites da Região Crítica ou o seu complemento a Região de Aceitação e fazemos as análises As duas regiões são Rc X 625 ou X 575 região de rejeição de H0 e Ra 575 X 625 região de aceitação de H0 Procedimento do teste de hipótese Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 63 Se x Rc rejeitase H0 Se x Rc não se rejeita aceitase H0 Lembrando nossas hipóteses H0 O lote atende às especificações H1 O lote não atende às especificações Categorizando os erros Erro tipo I rejeitar o lote sendo que ele está de acordo com as especificações Erro tipo II não rejeitar aceitar o lote sendo que ele não está de acordo com as especificações As hipóteses são H0 µ 60 e H1 µ 60 Logo α PX 625 ou X 575 H0 µ 60 Se H0 for verdadeira então X N602516 Neste caso como partimos da especificação dos limites da região de aceitação calculamos o nível de significância α PX 625 H0 µ 60 PX 575 H0 µ 60 P X 602516 625602516 P X 602516 575602516 PZ 200 PZ 200 002275 002275 00455 sem sigmasqrtn z xbar mu0sigmasqrt16 A figura 19 mostra as regiões de aceitação e críticas com a indicação do valor de α calculado Figura 19 Região de Aceitação e Regiões Críticas para os valores calculados de alfa Cálculo de β ou seja a probabilidade de se cometer Erro Tipo II β PNão rejeitar H0 H1 verdadeira P575 X 625 H1 µ 60 Para o cálculo de β precisamos definir um valor alternativo para a média da população que será o valor da hipótese alternativa H1 µ 635 Também assumimos que X N635 2516 e β P575 X 625 H1 µ 635 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Cálculo de β efetuando o cálculo no R n 16 sigma sqrt25 sem sigmasqrtn alpha calculado anteriormente mu0 60 I calpha2 1alpha2 q qnormI meanmu0 sdsem q 1 575 625 mu 635 p pnormq meanmu sdsem p 1 79333e07 21186e01 diffp 1 021185 poder 1 diffp poder 1 078815 Na figura 20 são mostrados β o Poder do Teste área em azul e o nível de significância α Se a média verdadeira for 635 a probabilidade que nós rejeitemos a hipótese nula é de aproximadamente 7881 Lembrese sob H0 a média é 600 com o intervalo de aceitação definido como Ra 575 X 625 Assim se a média verdadeira for 635 nós vamos aceitar valores que sejam na parte superior menores do que 625 porque estariam dentro da Região de Aceitação de H0 Mas todos os outros valores que ainda estão dentro da Região de Aceitação da média verdadeira 635 isto é entre 625 66 seriam rejeitados sob H0 Exemplo de Teste de hipóteses unilateral à esquerda Considere uma amostra aleatória de tamanho n de uma população normal com média µ desconhecida e variância σ2 conhecida Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 66 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 20 Poder do Teste e Beta β 021185 Poder do Teste 078815 α H0 µ 60 H1 µ 635 00 01 02 03 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 X Densidade de Probabilidade Fonte Elaborado pelo autor i H0 µ µ0 H1 µ µ0 ii A estatística de teste é a média amostral X estimador pontual de µ Se a distribuição da população é normal ou se a amostra é grande n 30 mesmo que a distribuição da população não seja normal a distribuição de X Nµσ2n Se H0 for verdadeira então Z n X µ0 σ N01 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 67 Rejeitamos H0 em favor de H1 se a média amostral X é pequena em relação a µ0 A região crítica é obtida selecionandose um k tal que Rc X k sendo que PX k H0 µ µ0 α Ou seja sob H0 PX µ0σn P Z kµ0σn α kµ0σn zα k µ0 zασn Rc X µ0 zασn Obs zα 0 Figura 21 Região de Aceitação e Região Crítica para teste unilateral se overlinex in Rc overlineX mu0 zalpha imes fracsigmasqrtn rejeitase H0 caso contrário não se rejeita H0 Exemplo 14 Um comprador de tijolos suspeita de uma diminuição na resistência A estatística de teste é a média amostral overlineX A região crítica pode ser obtida selecionando k de maneira que Rc overlineX k sendo que PoverlineX k H0 mu mu0 alpha 005 Z 200 k 5 200 k 195 k Pk 005 k qnorm005mean200 k 1 19836 Rightarrow Rc overlineX 1983551 a média amostral vale 195 Logo overlinex 195 in Rc overlineX 1983551 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística iii Região crítica para um nível de significância α escolhido Rc Z zα iv Se z Rc Z zα rejeitase H0 caso contrário não se rejeita H0 A região de aceitação e região crítica são mostradas na figura 22 Figura 22 Região de Aceitação e Região Crítica para teste unilateral α k zα µ0 0 1 α Fonte Elaborado pelo autor Considere o seguinte exemplo numérico feito diretamente no R Neste exemplo o teste é unilateral à esquerda xbar 195 mu0 200 sigma 10 n 100 z xbar mu0sigmasqrtnz 1 5 alpha 005 este é o valor que divide a curva em 005 e 095 rc qnormalpharc 1 16449 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 71 Método alternativo Um método alternativo prático trabalhar diretamente na escala Z i H0 mu mu0 contra H1 mu mu0 Z fracsqrtnoverlineXmu0sigma sim N01 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística A estatística de teste z 5 está fora do intervalo da região de aceitação ou seja está na região crítica 5 Rc 5 1645 Portanto a um nível de significância de 5 nós rejeitamos a hipótese nula que a média seja igual a 200 Exemplo 15 Suponha que o peso médio dos Pinguins Reis encontrados em uma colônia na Antártica no último ano foi 154 kg Em uma amostra de 35 pinguins na mesma época neste ano na mesma colônia o peso médio foi 146kg Assuma que o desvio padrão da população seja 25kg podemos afirmar que o peso médio dos pinguins se manteve em relação ao último ano Solução padrão Hipóteses H0 µ0 154kg H1 µ0 154kg Estatística de Teste xbar 146 media da amostra mu0 154 valor da hipótese sigma 25 desvio padrão da população n 35 tamanho da amostra z xbarmu0sigmasqrtn estatística de teste z 1 18931 Teste de Hipóteses Agora os valores críticos em um nível de significância α 005 alpha 005 zhalfalpha qnorm1 alpha2 czhalfalphazhalfalpha 1 196 196 A estatística de teste z 18931 está entre os valores críticos 196 196 ou seja está dentro da região de aceitação Portanto a um nível de significância de 005 nós não Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 72 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística rejeitamos a hipótese nula de que o peso médio dos pinguins se manteve em relação ao último ano Solução alternativa Ao invés de se utilizar o valor crítico nós aplicamos a função pnorm para calcular o pvalue bilateral da estatística de teste Ele dobra o pvalue inferior pois o teste é menor que o valor hipotetizado Se ele for maior do que o nível de significância nós não rejeitamos a hipótese nula de que µ 154 pval 2 pnormz cauda inferior dobrada pval 1 0058339 Como o valor p 00583 é maior do que o nível de significância α nós não rejeitamos a hipótese nula de que a média seja 154 Distribuião T de Student Quando não conhecemos a variância da população σ2 mas apenas a variância da amostra selecionada S2 devemos utilizar a distribuição T de Student para a realização dos cálculos PECK OLSEN DEVORE 2012 Considere os seguintes exemplos de cálculo no R Exemplo 1 Se n 12 são 11 graus de liberdade Se tivermos H1 µ µ0 escolhendo α 005 temos p2 α2 ou seja p 005 teste bilateral alpha 005 df 11 tc qtalpha2df dftc 1 2201 Observamos que o valor de tc é ligeiramente diferente para este tamanho de amostra e Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 73 número de graus de liberdade em relação ao valor crítico calculado quando temos uma distribuição normal Exemplo 2 Se n 28 são 27 graus de liberdade Se tivermos H1 mu mu0 escolhido alpha 001 temos fracp2 alpha ou seja p 2alpha 002 teste unilateral tc qtalpha2df dftc 1 24727 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística mu0 115 xbar 118 tc qtalpha2dfdf tc 1 2093 Tt sqrtnxbar mu0S Tt 1 067082 O valor da estatística de teste T 06708 está fora da Região Crítica ou seja T 2093 Portanto não rejeitamos a H0 a um nível de significância de 5 A diferença não é significativa Finalizando Como vimos neste capítulo os conceitos de Probabilidade e de Inferência Estatística são essenciais quando precisamos tirar conclusões sobre parâmetros de uma população Este capítulo apresentou uma Introdução a estes conceitos sugerimos que o aluno reforce estes conceitos com livros textos de Probabilidade e Estatística que podem ser encontrados na biblioteca digital Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 75 Bibliografia BOLSTAD W M CURRAN J M Introduction To Bayesian Statistics 3rd ed Hoboken New Jersey USA John Wiley Sons Inc 2017 HALD A A History of Probability and Statistics and Their Applications before 1750 Wiley Series in Probability and Statistics 1 ed Hoboken New Jersey USA WileyInterscience 2003 MOORE D S MCCABE G P CRAIG B A Introduction to the Practice of Statistics New York NY USA W H Freeman Company 2009 PECK R OLSEN C DEVORE J L Introduction to Statistics and Data Analysis 4th ed Boston MA USA BrooksCole CENGAGE Learning 2012 SELVIN S et al Letters to the Editor The American Statistician v 29 n 1 p 6771 1975 VAZSONYI A Which door has the Cadillac Decision Line v 30 n 1 p 1719 1999 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 76 eadmackenziebr
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
21
Problemas do Capítulo 4
Probabilidade e Estatística 2
UMG
23
Capítulo 6: Problemas e Análises
Probabilidade e Estatística 2
UMG
50
Análise de Regressão Linear Multivariada e Transformações de Variáveis
Probabilidade e Estatística 2
UMG
5
Teoremas Limite e Convergência de Variáveis Aleatórias
Probabilidade e Estatística 2
UMG
7
Capítulo 8: Problemas e Exercícios
Probabilidade e Estatística 2
UMG
11
Capítulo 2: Problemas e Questões
Probabilidade e Estatística 2
UMG
3
Teorema Central do Limite e suas Aplicações em Estatística
Probabilidade e Estatística 2
UMG
9
Exercises on Counting Principles and Assignments
Probabilidade e Estatística 2
UMG
13
Problemas do Capítulo 5 - Exercícios de Cálculo e Probabilidade
Probabilidade e Estatística 2
UMG
36
Capítulo 7: Problemas e Exercícios Estatísticos
Probabilidade e Estatística 2
UMG
Texto de pré-visualização
CIÊNCIAS DE DADOS BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Mário Olímpio de Menezes Sumário I Probabilidade e Inferência Estatística 1 Introdução à Probabilidade 6 Conceitos básicos de Probabilidade 7 Operações com Eventos 10 Operações sobre conjuntos 11 Amostragem Aleatória Exemplos no R 13 Probabilidade clássica frequentista ou a priori 16 Cálculos de probabilidade e combinatória 19 Definições de Probabilidade 21 Teorema de Bayes 27 2 Variáveis Aleatórias 35 Variáveis Aleatórias 35 3 Distribuições de Probabilidade 37 Distribuições de Probabilidade para Variáveis Aleatórias Discretas 37 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 3 4 Inferência Estatística 50 Introdução 50 Finalizando 75 Bibliografia 76 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 4 I 1 Introdução à Probabilidade 6 2 Variáveis Aleatórias 35 3 Distribuições de Probabilidade 37 4 Inferência Estatística 50 Probabilidade e Inferência Estatística 1 Introdução à Probabilidade Corriqueiramente nós tomamos decisões baseados em incertezas Por exemplo você acaba de comprar um novo notebook e ai vem a dúvida comprar ou não a garantia extendida que é oferecida pela loja Sua decisão com certeza vai levar em conta o que você considera como probabilidade de que o notebook vai dar problema durante o período normal de garantia Outra situação comum você tem que chegar no trabalho às 800hs Será que sair com 45 minutos de antecedência é suficiente Ou 35 minutos bastam Utilizando sua experiência anterior você sabe que na maioria das manhãs você consegue chegar e estacionar em 25 minutos ou menos E na maioria das vezes a caminhada do carro até o trabalho é de 5 minutos ou menos Mas o quão frequentemente um destes tempos foi mais do que o usual Quando você leva mais tempo até conseguir estacionar é mais provável que também a caminhada dure mais estacionou mais longe Ou os tempos até estacionar e de caminhada não são correlacionados Algumas questões envolvendo incerteza são mais sérias do que estas Por exemplo se um coração artificial tem quatro partes chaves quão provável é que cada uma falhe Quão provável é que pelo menos uma falhe Nós podemos responder questões como estas utilizando as ideias e métodos da Probabili dade que é o estudo sistemático da incerteza Nesta trilha vamos abordar as ideias básicas da probabilidade e as funções que o R tem Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 6 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística para amostragem aleatória e para lidar com as distribuições teóricas Além desta Introdução o segundo capítulo apresenta os conceitos básicos de Probabi lidade definições e cálculos simples envolvendo probabilidade e combinatória depois ainda no segundo capítulo passamos às distribuições de probabilidade discretas e contínuas e as ferramentas funções que o R tem para cálculos e manipulações de distribuições probabilidades quantis e geração de números aleatórios No último capítulo falamos sobre Inferência Estatística apresentamos os conceitos de teste de hipóteses e diversos exemplos e procedimentos para sua realização Conceitos básicos de Probabilidade Os conceitos de aleatoriedade e probabilidade são centrais à estatística Isso decorre do fato de não conseguimos fazer experimentos perfeitamente reproduzíveis e o grau de irreprodutibilidade pode variar por exemplo Alguns experimentos em física podem gerar dados que são precisos até várias casas decimais Dados de sistemas biológicos tipicamente são muito menos precisos Contudo a visão de dados como algo que resulta de uma distribuição estatística é vital para o entendimento dos métodos estatísticos Amostragem Aleatória Os primeiros trabalhos na teoria da probabilidade foram sobre jogos e problemas de jogos de azar baseados em considerações de simetria HALD 2003 A noção de então era de uma amostra aleatória lidar com um conjunto de cartas bem embaralhadas selecionar bolas numeradas de uma urna bem chacoalhada Experimento aleatório ou fenômeno aleatório Existem situações ou acontecimentos cujos resultados não podem ser previstos com certeza Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 7 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Um experimento ou fenônemo que se for observado em condições idênticas pode apresentar diferentes resultados é chamado de experimento ou fenômeno aleatório A Figura 1 mostra dois dados utilizados para ilustrar o conceito de fenômeno aleatório Figura 1 Exemplo de fenômeno aleatório Fonte MaxPixelnet Exemplos de fenômenos aleatórios são Lançamento de um dado ou de uma moeda Condições climáticas do próximo domingo Taxa de inflação do próximo mês Condição de um item produzido Resultado do lançamento de um dado Tempo de duração de uma lâmpada Observação do número de veículos que passam por um praça de pedágio durante um certo intervalo Quando realizamos um experimento aleatório não temos como saber com certeza o seu resultado Entretanto podemos saber quais são todos os possíveis resultados Este conjunto de resultados possíveis de um experimento aleatório é chamado de espaço Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 8 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística amostral Espaço Amostral Ω Chamamos de Espaço Amostral representado pela letra grega Ômega Ω o conjunto de todos os possíveis resultados de um experimento ou fenômeno aleatório Exemplos Lançamento de um dado Ω 123456 Observação do tipo sangüíneo de um indivíduo Ω A B AB O Condição de um item produzido Ω defeituoso nãodefeituoso Número de veículos que passam por uma praça de pedágio durante um certo intervalo Ω 0 1 2 Tempo de duração de uma lâmpada em h Ω 0 Podemos ter subconjuntos do espaço amostral e os indicamos pelas letras A B C Para o evento do lançamento de um dado o espaço amostral Ω 123456 Exemplos de subconjuntos do evento do lançamento de um dado A Resultado é par A 246 evento composto B Resultado é maior do que 3 B 456 evento composto C Resultado igual a 1 C 1 evento simples D Resultado maior do que 6 D evento impossível E Resultado menor do que 7 D Ω evento certo Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 9 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Operações com Eventos A e B são eventos de Ω Então podemos ter A B união dos eventos A e B Figura 2 Ocorrência de pelo menos um dos eventos A e B Figura 2 União dos eventos A e B Fonte Elaborado pelo autor AB intersecção dos eventos A e B Figura 3 Ocorrência simultânea dos eventos A e B A e B são disjuntos ou mutuamente exclusivos quando não têm elementos em comum isto é A B A e B são complementares se A B e A B Ω O complementar de um evento A é representado por Ac ou A Figura 4 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 10 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 3 Intersecção dos eventos A e B Fonte Elaborado pelo autor Figura 4 Complemento do evento A Fonte Elaborado pelo autor Operações sobre conjuntos Podemos sistematizar as operações possíveis sobre os conjuntos A e B no Quadro 1 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 11 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Quadro 1 Síntese de operações sobre conjuntos Operação Notação Descrição Verbal Intersecção AB Realização simultânea de A e de B União Reunião AB Realização de A ou de B ie e pelo menos um dos dois eventos Diferença BA Realização de B sem que se realize A B excepto A AB Realização de A sem que se realize B A excepto B Complementar A Não realização de A Fonte Elaborado pelo autor As operações sobre eventos gozam de propriedades bem conhecidas como a associati vidade comutatividade etc que são apresentadas no Quadro 2 Quadro 2 Propriedades das operações sobre conjuntos Propriedade Descrição Matemática Associatividade ABC ABC ABC ABC Comutatividade AB BA AB BA Distributividade ABC ACBC ABC ACBC Idempotência AA A AA A Absorção A B AB A A B AB B Modulares AΩ A AΩ Ω A Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 12 Triilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Propriedade Descrição Matemática A B A A B A B Fonte Elaborado pelo autor Amostragem Aleatória Exemplos no R O modelo de probabilidade para um ponto de dado é que ele é uma observação de uma variável aleatória cuja distribuição é descrita pela população pai Para realizar uma inferência estatística sobre a população pai queremos uma amostra da população isto é uma sequência de variáveis aleatórias X₁ X₂ Xn Uma sequência é distribuída identicamente se cada variável aleatória tem a mesma distribuição Uma sequência é independente se saber o valor de alguma das variáveis aleatórias não dá informação adicional sobre a distribuição das outras Uma sequência que é simultaneamente independente e distribuída identicamente iid é chamada amostra aleatória Exemplo Como exemplo tomemos o lançamento de uma moeda Lançe uma moeda n vezes Seja Xᵢ 1 para heads no iésimo lançamento e 0 caso contrário Então claramente X₁ X₂ Xn é uma sequência iid Quando obtemos números aleatórios através da seleção aleatória de uma população finita os valores serão independentes e a amostragem foi feita com substituição Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Isto parece contra intuitivo já que existe a probabilidade de um membro ser selecionado mais de uma vez de modo que os valores parecem ser dependentes Contudo a distribuição das futuras observações não é alterada sabendose uma observação anterior Quando se faz a amostragem sem substituição de n itens as variáveis aleatórias X1X2Xn terão a mesma distribuição mas serão dependentes quando há n coisas para se escolher se você sabe as primeiras n1 então Xn deve ter o valor que ainda não foi escolhido No R podemos simular estas situações com a função sample Por exemplo se queremos selecionar cinco números ao acaso de um conjunto de 1 40 fazemos sample1405 1 17 36 37 35 8 O primeiro argumento x é um vetor de valores a ser amostrado e o segundo size é o tamanho da amostra Poderíamos digitar apenas sample405 já que um único número x seria interpre tado como o tamanho da sequência de inteiros O comportamento padrão de sample é a amostragem sem substituição Isto é as amostras não conterão o mesmo número duas vezes e size obviamente não pode ser maior do que o comprimento do vetor a ser amostrado Se você quer amostrar com substituição então adicione replaceTRUE Para ter um resultado reproduzível defina a semente do gerador aleatório setseedNUM onde NUM é um inteiro A Amostragem com substituição é adequada pexplo para modelar o lançamento de moedas ou de um dado Para simular o lançamento uma moeda ou um dado 10 vezes podemos fazer samplecHT 10 replaceTRUE moeda 10 vezes 1 H T T T T T H H T T sample16 size10 replaceTRUE dado 10 vezes 1 2 3 3 1 5 1 6 6 6 1 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 14 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Com uma moeda balanceada a probabilidade de H cara deveria ser a mesma de T coroa mas um evento aleatório não se restringe a casos simétricos Também podemos aplicar a outros casos tais como o de um resultado de sucesso de um procedimento cirúrgico Podemos simular dados com probabilidades não iguais para os resultados pexplo 90 de probabilidade de sucesso utilizando o argumento prob da função sample samplecsuccfail 10 replaceT probc0901 1 succ succ succ succ fail succ succ succ fail fail Exemplo Pesquisas de opinião pública como amostras aleatórias Pesquisa de opinião pública visa descobrir fatias da população que tem a mesma opinião ou atitude sobre um tema Para isso seleciona uma amostra da população alvo e determinase a proporção da amostra que tem a dada atitude Este tipo de pesquisa pode ser vista como uma amostra aleatória da população alvo se cada pessoa entrevistada é escolhida aleatoriamente da população toda com substituição Por exemplo se sabemos que uma população de 10000 pessoas tem 6800 que respon deram sim à nossa pesquisa Podemos gerar uma amostra de 10 pessoas assim samplerepcnaosimc32006800size10replaceTRUE 1 sim nao nao nao nao sim sim nao sim sim A função rep produz 10000 valores 3200 nãos e 6800 sims Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 15 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Probabilidade clássica frequentista ou a priori Se um experimento aleatório tiver nΩ resultados mutuamente exclusivos e igualmente possíveis e se um evento A tiver nA desses resultados a probabilidade do evento A representada por PA é dada pela equação 1 PA nA nΩ 1 Exemplo 1 Consideremos o lançamento de dois dados balanceados Queremos calcular a probabilidade de 1 se obter soma das faces igual a 7 2 se obter soma maior do que 5 3 que o resultado do primeiro dado seja maior do que o resultado do segundo Resolução Ω 11 12 13 14 15 16 21 22 23 24 25 26 31 32 33 34 35 36 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66 1 A 615243342561 PA nA nΩ 6 36 1 6 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 16 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística 2 PB 2636 3 PC 1536 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 17 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Considere um experimento que é realizado n vezes n grande O evento A ocorre exatamente nA vezes 0 nA n A freqüência relativa de vezes que ocorreu o evento A é uma forma de aproximar a probabilidade do evento A ou seja equação 2 frA nA n 2 Quando n tende a infinito frA se aproxima de PA Exemplo Lançamento de uma moeda balanceada Calcular a probabilidade de A resultado obtido ser cara Ev fr1 fr2 fr3 fr4 PA Cara 25 610 2250 47100 05 n 5 10 50 100 Um exemplo em R p0 12 Moeda balanceada n 1005000 fr mapplyfunctionx sumrbinomx1p0xn dfnfr tibblen n fr fr g ggplotdata dfnfr geomlineaes x n y fr g g geomhlineyintercept 05 linetype 2 color blue g g themepubr labspubr g g themeplotcaption elementtexthjust 01 g g labsx Número de Lançamentos y Frequencia relativa caption Fonte Elaborado pelo autor g Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 18 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 5 Efeito do n em um experimento de lançamentos de uma moeda 040 045 050 055 0 1000 2000 3000 4000 5000 Número de Lançamentos Frequencia relativa Fonte Elaborado pelo autor Cálculos de probabilidade e combinatória Vamos retornar ao exemplo da amostragem sem substituição sample1405 A probabilidade de se obter um dado número como o primeiro da amostra deve ser 140 já o próximo terá probabilidade 139 e assim por diante A probabilidade de se obter uma sequência específica de números deve ser então 14039383736 No R usamos a função prod que calcula o produto de um vetor de números 1prod4036 1 12664e08 Esta é a probabilidade de se obter uma determinada sequência e em uma determinada ordem Mas se for como uma loteria então estamos interessados na probabilidade de se obter um conjunto de números corretamente Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 19 Assim o que precisamos fazer é incluir os casos que dão os mesmos números em uma ordem diferente Como a probabilidade de cada um destes casos será a mesma tudo o que temos que fazer é achar quantos destes casos existem e multiplicar por esta quantidade Existem cinco possibilidades para o primeiro número e para cada um destes haverá quatro possibilidade para o segundo e assim por diante Isto é o número é 5 4 3 2 1 Este número é escrito também como 5 5 fatorial Assim a probabilidade de se ganhar um bilhete de loteria será prod51prod4036 1 15197e06 Existe uma outra maneira de se chegar ao mesmo resultado Primeiro observamos que o conjunto real de números é irrelevante todos os conjuntos de cinco números devem ter a mesma probabilidade De forma genérica seria o número de maneiras que x objetos subconjuntos podem ser escolhidos de n objetos distintos lêse n choose x Isto é denotado como mostrado na equação 3 n x n n xx Assim tudo o que precisamos fazer é calcular o número de maneiras que podemos escolher 5 números de 40 No R a função choose pode ser utilizada para calcular este número e a probabilidade então é 1chose405 1 15197e06 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PABC PAPBPCPABPBCPACPABC Probabilidade Conjunta e Eventos Independentes A figura 6 mostra o diagrama de Venn para dois eventos A e B no universo Ω Figura 6 Dois eventos A e B no universo Ω Fonte Elaborado pelo autor A probabilidade conjunta dos eventos A e B é a probabilidade de que ambos eventos ocorram simultaneamente na mesma repetição de um experimento aleatório Isto é a probabilidade de que o conjunto de resultados estejam tanto no evento A como no evento B ou seja na intersecção AB Em outras palavras a probabilidade conjunta dos eventos A e B é PAB ou seja a probabilidade de sua intersecção Quando os eventos A e B são independentes então temos PAB PAPB ou seja a probabilidade conjunta é o produto das probabilidades individuais Se os eventos são dependentes esta regra não se aplica Distinção entre eventos independentes e eventos mutuamente exclusivos O conceito básico de independência de eventos significa que a ocorrência de um evento não afeta a ocorrência ou não ocorrência de outros eventos Já o conceito de mutuamente exclusivo indica que dois eventos não contém nenhum elemento em comum Dois eventos mutuamente exclusivos com probabilidades diferentes de zero não podem ser Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 22 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística independentes A intersecção é o conjunto vazio assim ela deve ter probabilidade zero que não pode vir do produto das probabilidades destes dois eventos pois são diferentes de zero Probabilidade Marginal Considere os eventos A e B como mostrados na figura 6 A probabilidade de um dos eventos por exemplo A em uma situação de evento conjunto é chamada probabilidade marginal Encontramos esta probabilidade através da soma de PA B e PA Bc utilizando os axiomas da probabilidade A ABABc e eles são disjuntos pelo axioma 3 PA PA B PA Bc A probabilidade marginal de um evento A é encontrada pela soma das partes disjuntas Probabilidade Condicional e Independência de Eventos A e B são dois eventos em um mesmo espaço amostral Ω A probabilidade condicional de A dado que ocorreu o evento B denotada por PAB é definida como mostrado na equação 4 PAB PAB PB se PB 0 4 Exemplo 2 Selecionamos dois itens ao acaso um a um e sem reposição de um lote que contém 10 itens do tipo A e 5 do tipo B Qual é a probabilidade que a o primeiro item seja do tipo A b o segundo seja do tipo B se o primeiro item foi do tipo A Definimos os eventos V1 o 1o item é do tipo A V2 o 2o item é do tipo A a PV1 10 15 2 3 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 23 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística b PV c 2 V1 5 14 Essas probabilidades podem ser representadas em uma árvore de probabilidades como mostrado na figura 7 Figura 7 Árvore de Probabilidades Fonte Elaborado pelo autor Da expressão de probabilidade condicional anterior obtemos a seguinte relação muito útil equação 5 PAB PBPAB 5 conhecida como regra do produto de probabilidades ou probabilidade da inter seção Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 24 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Exemplo 3 No exemplo anterior suponha que temos interesse em determinar a proba bilidade de que os dois itens selecionados sejam do tipo B O evento é V c 1 V c 2 o 1º e o 2º itens são do tipo B PV c 1 V c 2 PV c 1 PV c 2 V c 1 5 15 4 14 2 21 Teorema 1 Se B é um evento em Ω tal que PB 0 então 1 PB 0 2 Se A Ω então PAcB 1PAB ou PAB 1PAcB 3 Se AC Ω então PACB PABPCBPACB Exemplo 4 Na cidade de São Pepe a probabilidade de chuva no primeiro dia de setembro é de 050 e a probabilidade de chuva nos dois primeiros dias de setembro é de 040 Se choveu no primeiro dia de setembro qual a probabilidade de que no dia seguinte não chova Solução Sejam os eventos A chove em 0109e B chove em 0209 Do enunciado do problema temos PA 050 e PA B 040 A probabilidade pedida é PBcA 1PAB 1 PAB PA 1 040 050 020 Pelo teorema 1 Independência de eventos Dois eventos A e B em Ω são independentes se a informação da ocorrência ou não de B não altera a probabilidade de ocorrência de A isto é Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 25 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PAB PAPB 0 Logo dois eventos A e B são independentes se e somente se PAB PAPB Exemplo 5 Em uma fábrica 20 dos lotes produzidos têm componentes do fornecedor A 8 tem componentes do fornecedor V e 4 têm componentes de ambos Selecionamos ao acaso um item produzido nesta fábrica a Os eventos relacionados aos dois fornecedores são independentes b Se o lote selecionado tem componentes do fornecedor V qual a probabilidade de que tenha componentes do fornecedor A c Qual é a probabilidade de um lote não ter componentes destes dois fornecedores Solução A o lote tem componentes do fornecedor A V o lote tem componentes do fornecedor V Do enunciado temos PA 020 PV 008 e PAV 004 a PVPA 00802 0016 e PV A 004 como PV A PVPA A e V não são independentes b PAV PAV PV 004 008 050 c PV Ac 1PV A 1PVPAPV A 100802004 076 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 26 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Teorema 2 Se A e B são eventos independentes em Ω então i A e Bc são independentes ii Ac e B são independentes iii Ac e Bc independentes Exemplo 6 Um atirador acerta 80 de seus disparos e outro nas mesmas condições de tiro 70 Qual a probabilidade de o alvo ser acertado se ambos os atiradores disparam simultaneamente Sejam os eventos Bi o atirador i acerta o alvo i 12 PB1 08 e PB2 07 Logo PB1 B2 PB1PB2PB1 B2 PB1PB2PB1PB2 08070807 094 Outra solução PB1 B2 1PB1 B2c 1PBc 1 Bc 2 1PBc 1PBc 2 11PB11PB2 1108107 094 Teorema de Bayes Vamos retomar a definição de probabilidade condicional dada pela expressão 4 acima isto é PBA PAB PA Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 27 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Utilizamos aqui a definição de probabilidade marginal do evento A isto é a soma das probabilidades das partes disjuntas Como A ABABc e claramente AB e ABc são disjuntas temos PA PABPABc Utilizando a definição de probabilidade condicional acima obtemos então PBA PAB PABPABc Através da regra da multiplicação encontramos cada uma das probabilidades conjuntas chegando então ao teorema de Bayes para um evento único BOLSTAD CURRAN 2017 PBA PABPB PABPBPABcPBc 6 Olhando o teorema de Bayes à vista do que vimos sobre probabilidade condicional concluimos que ele faz uma reafirmação da probabilidade condicional de PBA onde A probabilidade de A é encontrada como a soma das probabilidades das suas partes disjuntas AB e ABc Cada uma das probabilidades conjuntas é encontrada utilizando a regra da multipli cação A partir destas observações podemos entender que a união dos eventos B e Bc re presenta o universo completo Ω e que eles são disjuntos Ou seja os eventos B e Bc particionam o universo Frequentemente temos mais do que dois eventos que particionam o universo ou seja se temos n eventos B1B2Bn tais que A união B1 B2 Bn Ω ie o universo e Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 28 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Cada par distinto de eventos são disjuntos Bi Bk for i 1n k 1n e i k Podemos dizer então que o conjunto de eventos B1B2Bn particionam o universo como ilustrado na figura 8 A probabilidade condicional PBiA para i 1n é encontrada dividindose cada probabilidade conjunta pela probabilidade do evento A isto é PBiA PABi PA Utilizando a regra da multiplicação para encontrar a probabilidade conjunta no numerador juntamente com a lei de probabilidade total no denominador chegamos à expressão conhecida do Teorema de Bayes PBiA PBiPABi k i1 PBiPABi 7 Exemplo 7 A figura 8 ilustra o particionamento do universo Ω por quatro eventos não observáveis B1B2B3 e B4 e um evento observável A Agora considere que o evento A tenha ocorrido A figura 9 mostra o universo reduzido Ωr e as probabilidades condicionais de cada evento Bi são dadas pela equação 7 acima neste universo reduzido estas probabilidades somam 1 Exemplo 8 Em um programa de televisão são mostradas três portas 1 2 e 3 fechadas e apenas uma delas guarda um valioso prêmio O apresentador do programa sabe qual é a porta que leva ao prêmio Um participante deve escolher uma das portas Em seguida o apresentador informa o número de uma porta diferente da escolha do participante e que não guarda o prêmio SELVIN et al 1975 Consideremos que o participante tenha escolhido a porta 1 O apresentador informa que a porta 3 não guarda o prêmio e pergunta ao participante se ele gostaria de mudar sua escolha Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 29 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 8 Quatro eventos Bi para i 14 que particionam o universo Ω juntamente com o evento A Fonte Elaborado pelo autor Figura 9 O universo reduzido Ωr dado que o evento A ocorreu juntamente com os quatro eventos que particionam o universo Fonte Elaborado pelo autor Se você fosse o participante qual seria sua decisão Vale a pena mudar de escolha Solução Eventos Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 30 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Xi a porta número i guarda o prêmioe Yj apresentador informa que porta número j não guarda o prêmio Observe que PX1 PX2 PX3 13 A pergunta pode ser respondida comparando PX1Y3 e PX2Y3 pois PX3Y3 0 Levando em conta que o participante escolheu a porta 1 temos PY2X1 PY3X1 12 Também sabemos que o apresentador não informará que determinada porta não guarda o prêmio se o prêmio estiver nesta porta premissa do problema de que o apresentador não mente isto é PY2X2 PY3X3 0 Se o prêmio está na porta 3 ou seja temos X3 com certeza o apresentador informará que a porta 2 não guarda o prêmio ou seja Y2 ocorrerá PY2X3 1 Do mesmo modo se o prêmio está na porta 2 ou seja X2 o apresentador informará que a porta 3 não guarda o prêmio ou seja Y3 ocorrerá PY3X2 1 Ou seja PY2X3 PY3X2 1 de modo que PY3 PY3X1PX1PY3X2PX2PY3X3PX3 1213113013 12 Dado que o prêmio não está na porta 3 podemos calcular agora a probabilidade de que ele esteja na porta 1 PX1Y3 PX1 Y3 PY3 PY3X1PX1 PY3 1 2 1 3 1 2 1 3 Igualmente dado que o prêmio não está na porta 3 vamos calcular a probabilidade de que ele esteja na porta 2 PX2Y3 PX2 Y3 PY3 PY3X2PX2 PY3 1 1 3 1 2 13 12 2 3 Vale a pena mudar a escolha Este problema chamado de Monty Hall é baseado em um famoso programa de televisão norte americano chamado Lets make a deal Algumas histórias sobre ele são muito interessantes e mostram como probabilidade e estatística podem ser desafiadoras Veja um destes relatos em VAZSONYI 1999 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 31 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Analisando o problema sem calculeira podemos pensar da seguinte forma de início o prêmio tem 13 de probabilidade de estar em qualquer porta assim ao escolher uma porta esta é a probabilidade de se ganhar as portas não escolhidas tem os outros 23 de probabilidade de conter o prêmio considerando que uma das portas não escolhidas não contém o prêmio a que permaneceu fechada é que passa a ter 23 de probabilidade restantes Também podemos pensar assim a escolha inicial é aleatória e tem 13 de probabilidade de acertar assim o único modo de se errar ao mudar de porta é se você tiver escolhido a porta correta de início e esta probabilidade é de 13 ou seja se você muda está saindo de uma probabilidade de 13 para uma proba bilidade de 23 O Quadro 3 mostra uma solução apresentada na revista Parade Magazine que lista todos os resultados possíveis de se permanecer ou de trocar a porta tendo selecionado a Porta 1 inicialmente Quadro 3 Todos os resultados do jogo das portas Na Porta Na Porta Na Porta Permanecendo Trocando 1 2 3 com a 1 Prêmio Bode Bode Prêmio Bode Bode Prêmio Bode Bode Prêmio Bode Bode Prêmio Bode Prêmio Fonte httpswwwstatisticshowtodatasciencecentralcomprobabilityandstatisticsmontyhallproblem Permanecendo Você seleciona a porta 1 Apresentador abre uma porta com o Bode Você permanece No cenário 1 você ganharia E para os outros dois cenários você perderia Isto te dá uma probabilidade de 13 de ganhar para todos os cenários Trocando Você seleciona a porta 1 Apresentador abre uma porta com o Bode Você troca Para o cenário 1 você perderia E desta vez para os outros dois cenários você Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 32 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística ganharia Isto te dá uma probabilidade de 23 de ganhar Exemplo 9 Uma montadora trabalha com dois fornecedores A e B de uma determi nada peça Sabese que 10 e 5 das peças dos fornecedores A e B respectivamente estão fora das especificações A montadora recebe 30 das peças do fornecedor A e 70 de B Se uma peça do estoque inteiro é escolhida ao acaso a Calcule a probabilidade de que ela esteja fora das especificações b Se uma peça escolhida ao acaso está fora das especificações qual é a probabilidade de que tenha sido fornecida por A Eventos A peça selecionada foi fornecida por A B peça selecionada foi fornecida por B e E peça selecionada não atende às especificações Figura 10 Espaço de eventos para o exemplo 9 Fonte Elaborado pelo autor Solução Do enunciado do problema temos PA 030 PB 070 PEA 010 e PEB 005 a Fórmula da probabilidade total Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 33 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PE PAPEAPBPEB 030010070005 0065 b PAE Pelo Teorema de Bayes temos PAE PAPEA PAPEAPBPEB 030010 030010070005 003 0065 046 A compreensão da solução do deste exemplo é facilitada pela árvore de probabilidades mostrada na figura 11 Figura 11 Árvore de probabilidades para exemplo 9 Fonte Elaborado pelo autor Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 34 2 Variáveis Aleatórias Em um experimento aleatório frequentemente estamos interessados em algum aspecto numérico do resultado Por exemplo um cientista ambiental que obtém uma amostra de ar de uma localização específica pode estar especialmente interessado com a concen tração de Ozônio um dos principais constituintes da poluição atmosférica Um inspetor de qualidade que precisa decidir se aceita um grande carregamento de componentes pode basear sua decisão no número de componentes com defeito em um grupo de 20 componentes selecionados aleatoriamente do carregamento Quando o valor de uma variável quantitativa tal como a concentração de Ozônio ou o número de componentes com defeito está sujeito a incerteza tais variáveis são chamadas variáveis aleatórias Variáveis Aleatórias Na maioria dos experimentos aleatórios o pesquisador fixa sua atenção em uma ou mais quantidades variáveis Por exemplo considere um consultor administrativo que está estudando a operação de um supermercado O experimento aleatório pode envolver a seleção aleatória de um cliente que esteja saindo da loja Uma variável numérica de interesse pode ser o número de itens comprados pelo cliente Nós podemos denotar esta variável utilizando uma letra tal como x Os possíveis valores desta variável são 0 um cliente frustrado 1 2 3 e assim por diante Até que um cliente seja selecionado e o número de itens seja contado o valor de x é incerto Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 35 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Uma outra variável de potencial interesse pode ser o tempo y em minutos gasto na fila do caixa Um possível valor de y é 30 minutos e outro é 40 minutos mas qualquer outro número entre 30 e 40 também é possível Neste exemplo os valores possíveis de x são pontos isolados em uma linha numérica e os valores possíveis de y formam um intervalo completo um contínuo na linha numérica Variável Aleatória uma variável numérica cujo valor depende do resultado de um experimento aleatório Uma variável aleatória associa um valor numérico com cada resultado de um experimetno aleatório Uma variável aleatória é discreta se o seu conjunto de valores possíveis é uma coleção de pontos isolados ao longo de uma linha numérica Uma variável aleatória é contínua se o seu conjunto de valores possíveis inclue um intervalo completo de uma linha numérica Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 36 3 Distribuições de Probabilidade Distribuições de Probabilidade para Variáveis Aleatórias Discre tas A distribuição de probabilidade para uma variável aleatória é um modelo que descreve o comportamento de longo prazo da variável Por exemplo suponha que um órgão municipal ligado à proteção animal esteja interessado em estudar a variável x número de cachorros ou gatos regularizados para uma residência A regulamentação municipal proibe mais do que cinco cachorros ou gatos por residência Se nós considerarmos o experimento aleatório de selecionarmos aleatoriamente uma residência neste município então x é uma variável aleatória discreta porque ela associa um valor numérico 0 1 2 3 4 ou 5 com cada um dos possíveis resultados residências no espaço amostral Apesar de sabermos quais são os possíveis valores de x é também útil saber como esta variável se comporta em observações repetidas Qual seria o valor mais comum Que proporção de vezes x 5 seria observado Uma distribuição de probabilidade provê este tipo de informação sobre o comportamento de longo prazo de uma variável aleatória A distribuição de probabilidade de uma variável aleatória discreta x dá a pro babilidade associada com cada possível valor x Cada probabilidade é a frequência relativa de longo prazo da ocorrência de um valor x correspondente quando o experi mento aleatório é realizado um grande número de vezes Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 37 Distribuição Binomial Quando examinamos as replicações independentes de um experimento binário não estamos interessados apenas no resultado de um caso mas no número total de sucessos ou falhas Obviamente este número é aleatório pois depende dos resultados aleatórios individuais por isso é uma variável aleatória Neste caso é uma variável aleatória discreta que pode assumir valores 0 1 n onde n é o número de replicações Uma variável aleatória X tem uma distribuição de probabilidade que pode ser descrita utilizando as probabilidades pontuais fx PX x ou a função de probabilidade acumulada Fx PX x Neste caso a distribuição pode ser expressa como tendo probabilidades dadas pela equação 8 PX x n x px1 pnx Esta distribuição é conhecida como distribuição binomial O termo n x são conhecidos como coeficientes binomiais O parâmetro p é a probabilidade de um resultado de sucesso em uma tentativa n é o número de replicações do experimento ou o número de tentativas Exemplo 10 Número de heads em quatro lançamentos de uma moeda Qual é a distribuição de probabilidade da variável aleatória discreta X que conta o número de heads em quatro lançamentos de uma moeda Podemos derivar esta distribuição a partir de algumas premissas razoáveis Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística A moeda é balanceada isto é tem a mesma probabilidade de dar H ou T A moeda não tem memória assim os lançamentos são independentes O resultado de quatro lançamentos é uma sequência de heads e tails tal como HTTH Existem 16 possíveis resultados mostrados na figura 12 A regra da multiplicação de eventos independentes resulta em PHTTH 1 2 1 2 1 2 1 2 1 16 Figura 12 Possíveis resultados de 4 lançamentos de uma moeda Cada um dos 16 resultados possíveis tem a mesma probabilidade 116 Isto é são igualmente prováveis O número de heads X tem os valores possíveis 0123 e 4 Estes valores não são igualmente possíveis Como podemos ver na figura 12 há somente uma maneira de X 0 ocorrer isto é quando o resultado é TTTT Assim PX 0 1 16 00625 O evento X 2 pode ocorrer em seis diferentes maneiras assim Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 39 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PX 2 contagem de quantos X 2 podem ocorrer 16 6 16 0375 Podemos achar a probabilidade de cada valor de X da figura 12 da mesma maneira O resultado é Valor de X 0 1 2 3 4 Probabilidade 00625 025 0375 025 00625 No R podemos chegar nestes resultados da seguinte maneira dbinom04 size4 prob050 função de probabilidade de massa 1 00625 02500 03750 02500 00625 pbinom04 size4 prob050 função de prob acumulada 1 00625 03125 06875 09375 10000 Exemplo 11 Probabilidade de no mínimo dois heads Qualquer evento envolvendo o número de heads observadas pode ser expresso em termos de X e sua probabilidade pode ser encontrada a partir da distribuição de X Por exemplo a probabilidade de se lançar no mínimo dois heads PX 2 037502500625 06875 A probabilidade de no mínimo um head é mais simplesmente encontrada pelo uso da regra do complemento PX 1 1PX 0 100625 09375 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 40 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Lembrando que lançar uma moeda n vezes é similar a escolher uma amostra aleatória simples SRS de tamanho n de uma população grande e fazer uma pergunta do tipo sim ou não No R fazemos dbinom24 size4 prob050 1 03750 02500 00625 sumdbinom24 size4 prob050 1 06875 1 pbinom0size4prob050 1 09375 Distribuições Contínuas Alguns dados vêem de medidas em escalas essencialmente contínuas tais como temperatura concentrações etc Na prática eles são registrados com precisão limitada mas em geral desconsideramos isso na modelagem Não é o caso dos físicos ou químicos Tais medidas terão usualmente um componente de variação aleatória que os torna menos do que perfeitamente reproduzíveis Contudo estas flutuações aleatórias tenderão a seguir padrões tipicamente vão se agrupar em torno de um valor central com grandes variações sendo mais raras do que as menores Para modelar dados contínuos nós precisamos definir variáveis aleatórias que podem assumir os valores de quaiquer números reais Como há infinitamente muitos números infinitamente perto a probabilidade de qualquer valor particular será zero assim não há tal coisa como uma probabilidade pontual como para as variáveis aleatórias discretas Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 41 Ao contrário nós temos o conceito de densidade isto é a probabilidade infinitesimal de se atingir uma pequena região em torno de x dividida pelo tamanho da região A função de distribuição acumulada pode ser definida como antes e temos a equação 9 Fx x fxdx Há um número de distribuições padrão que ocorrem na teoria estatística que estão disponíveis no R Não vamos descrevêlas todas aqui exceto algumas de exemplo Distribuição uniforme A distribuição uniforme tem uma densidade constante sobre um intervalo especificado por padrão 01 Distribuição normal A distribuição normal também conhecida como a distribuição Gaussiana tem densidade dada pela equação 10 fx 12πσ exp xμ²2σ² dependendo da sua média μ e do desvio padrão σ A distribuição normal tem uma forma característica de sino e modificando μ e σ provoca uma translação e achata ou afina a distribuição Ela é um componente muito importante na construção da teoria estatística onde é empregada comumente para descrever pexplo a variação de erro Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Exemplos Números aleatórios uniformes O gerador de números aleatórios vai espalhar seu resultado uniformemente ao longo de todo o intervalo de 0 a 1 conforme se gera uma sequência bem longa de números Os resultados de muitas tentativas são representados pela curva de densidade de uma distribuição uniforme na figura 13 Ela tem uma altura de 1 em todo o intervalo de 0 a 1 e altura 0 nos demais lugares A área sob a curva de densidade é 1 A área de um quadrado com base 1 e altura 1 A probabilidade de qualquer evento é a área sob a curva de densidade e acima do evento em questão A figura 13 ilustra a probabilidade do gerador de números aleatórios produzir um número X entre 03 e 07 P03 07 04 Figura 13 Probabilidades de geração de números aleatórios em intervalos específicos distribuição uniforme Fonte MOORE MCCABE AND CRAIG 2009 Similarmente podemos calcular a probabilidade de um número ser Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 43 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PX 05 PX 08 PX 05 ou X 08 punif07 min0 max1 1 07 punif03 min0 max1 1 03 punif07 min0 max1 punif03 min0 max1 1 04 1 punif05 min0 max1 1 05 1 punif08 min0 max1 1 02 1 punif05 min0 max1 1 punif08 min0 max1 1 07 Estudos de simulações também podem ser feitos randnums runif10000 min 0 max 1 proptabletablerandnums 03 randnums 07 FALSE TRUE 05986 04014 Distribuições builtin no R As distribuições padrão que são utilizadas na construção de modelos e testes estatísticos estão presentes no R e podem ser utilizadas em substituição às tabelas estatísticas tradicionais Nós vamos examinar a distribuição normal e a binomial mas outras seguem exatamente o mesmo padrão Quatro itens fundamentais podem ser calculados para uma distribuição estatística Densidade de Probabilidade ou Probabilidade Pontual Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 44 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Probabilidade Acumulada ou Função de Distribuição Quantis Números pseudoaleatórios Para todas as distribuições implementadas no R há uma função para cada um dos quatro itens listados acima Por exemplo para a distribuição normal elas são denominadas dnorm pnorm qnorm e rnorm densidade probabilidade quantis e random respectivamente Densidades A densidade para uma distribuição contínua é a medida da probabilidade relativa de se conseguir um valor próximo a x A probabilidade de se obter um valor em um intervalo particular é a área sob a parte correspondente da curva Para distribuições discretas utilizamos o termo probabilidade pontual ao invés de densi dade pois temos a probabilidade de obter exatamente o valor de x Uma função de densidade é apresentada na figura 14 Apesar de ser um dos quatro tipos que é menos utilizado na prática mas se queremos plotar a tão conhecida curva sino da distribuição normal podemos fazer assim x seq4401 ggplotdata tibblex x y dnormx geomlineaesxxyy labspubr themepubr themeplotcaption elementtexthjust 0 labsxx yDensidade de Probabilidade caption Fonte Elaborado pelo autor Uma maneira alternativa de se criar o mesmo gráfico é utilizar a função curve como segue curvednormx from4 to4 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 45 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 14 Função Densidade de Probabilidade Normal 00 01 02 03 04 4 2 0 2 4 x Densidade de Probabilidade Fonte Elaborado pelo autor Para distribuições discretas onde as variáveis podem assumir apenas alguns valores distintos é preferido fazer um diagrama de pinos Aqui um exemplo para a distribuição binomial com n 50 e p 033 x 050 ggplotdata tibblex x y dbinomx size 50 prob 033 geombaraesx x y yfill white color black stat identity position dodge labspubr labsx x y Probabilidade Pontual caption Fonte Elaborado pelo autor themepubr themeplotcaption elementtexthjust 0 Para a função dbinom precisamos especificar três argumentos Além do x temos que especificar o número de tentativas n e o parâmetro de probabilidade p A distribuição plotada corresponde a por exemplo o número de 5s ou 6s em 50 lança mentos de um dado simétrico Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 46 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 15 Distribuição de Probabilidade Binomial 0000 0025 0050 0075 0100 0 10 20 30 40 50 x Probabilidade Pontual Fonte Elaborado pelo autor Na realidade dnorm também pode receber mais de um argumento a saber a média e o desvio padrão mas eles tem valor padrão de 0 e 1 já que é o mais utilizado para a distribuição normal Funções de Distribuição Cumulativas A função de distribuição cumulativa descreve a probabilidade de atingir x ou menos em uma dada distribuição As funções do R correspondentes começam com p probabilidade por convenção Assim como para as densidades podemos também plotar uma função de distribuição cumulativa mas não é muito informativo Mais frequentemente estamos interessados em números Digamos que seja conhecido que alguma medida biomédica em indivíduos saudáveis seja bem descrita por uma distribuição normal com uma média de 132 e um desvio padrão de 13 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 47 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Então se um paciente tem um valor de 160 vamos calcular a probabilidade de sua ocorrência na população 1 pnorm160mean132sd13 1 0015626 Ou seja há somente cerca de 15 da população em geral que tenha este valor ou maior A função pnorm retorna a probabilidade de se obter um valor menor do que o seu primeiro argumento em uma distribuição normal com a dada média e desvio padrão Quantis A função quantile é o inverso da função de distribuição acumulada O pquantil é o valor com a propriedade de que há uma probabilidade p de se obter um valor menor ou igual a ele A mediana é por definição o quantil 50 Se nós temos n observações distribuídas normalmente com média µ e desvio padrão σ então sabemos que a média amostral x é normalmente distribuída em torno de µ com um desvio padrão σn desvio padrão da média amostral Um intervalo de confiança de 95 para a µ pode ser obtido pela equação 11 xσnN0025 µ xσnN0975 11 onde N0025 é o quantil 25 na distribuição normal Se σ 12 e medimos n 5 pessoas e encontramos uma média amostral x 83 então podemos calcular o intervalo de confiança isto é o intervalo que contém a média da população µ com 95 de confiança No trecho de código abaixo sem significa standard error of the mean ou erro padrão da média ou seja σn Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 48 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística xbar 83 sigma 12 n 5 sem sigmasqrtn 1 53666 xbar sem qnorm0025 1 72482 xbar sem qnorm0975 1 93518 E assim encontramos um intervalo de confiança de 95 para a µ que vai de 7248 a 9352 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 49 4 Inferência Estatística Introdução Inferir significa fazer afirmações sobre algo desconhecido A inferência estatística tem como objetivo fazer afirmações sobre uma característica de uma população a partir do conhecimento de dados de uma parte desta população uma amostra de n observações Também podemos dizer que a inferência estatística descreve qualquer procedimento para se extrair informação sobre uma distribuição de probabilidade de uma amostra observada A população é representada por uma distribuição de probabilidade com parâmetros cujos valores é são desconhecidos Fazemos inferências sobre os parâmetros Se θ é um parâmetro da distribuição de uma va X por exemplo a média e X1Xn é uma amostra desta distribuição temos três tipos de inferência estatística que podemos fazer sobre este parâmetro da população estimação pontual estimação intervalar e teste de hipótese Os tipos de inferência que abordaremos tomam como ponto de partida as seguintes premissas 1 X1Xn são variáveis aleatórias independentes e identicamente distribuídas Nós observamos uma amostrax x1xn 2 Tanto EXi µ e VarXi σ2 existem e são finitos Nós estamos interessados em fazer inferências sobre a média da população µ uma quantidade que é fixa mas Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 50 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística desconhecida 3 O tamanho da amostra n é suficientemente grande de modo que podemos usar a aproximação normal provida pelo Teorema do Limite Central 1 Estimação pontual O objetivo é apresentar um valor uma estimativa razoável para θ que é uma função da amostra X1Xn cálculo de θ chamada de estimador de θ Esperase que o estimador tenha boas propriedades i em média esteja próximo de θ ii o estimador se aproxima de θ quando n aumenta Os estimadores estão relacionados com as distribuições da variável aleatória que es tamos querendo estimar Para cada tipo de distribuição temos um tipo de estimador Apresentamos a seguir alguns estimadores para distribuições típicas a Distribuição binomial X Bn p temos que EX np Um estimador para p X 1 n n i1 Xi proporção amostral de sucessos b Distribuição de Poisson X Pµ temos que EX µ Um estimador para µ X Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 51 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística c Distribuição exponencial X Eλ temos que EX 1λ Um estimador para λ 1 X d Distribuição Normal X Nμ σ² temos que EX μ e VarX σ² Um estimador para μ X Um estimador para σ² S² 1n1 Σi1 to nXiX² Obs Existem outros métodos de estimação 2 Estimativa intervalar conjunto de valores Neste tipo de inferência estatística nosso objetivo é apresentar um intervalo de possíveis valores para θ chamado de intervalo de confiança Os limites do intervalo são funções da amostra X1 Xn são aleatórios Limite Inferior θ Limite Superior LX1Xn UX1Xn A probabilidade de que o intervalo contenha θ deve ser alta A amplitude do intervalo de ser tão pequena quanto possível intervalo mais preciso Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 52 Universidade Presbiteriana Mackenzie Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística 3 Teste de hipóteses Teste de hipótese é apropriado para situações onde se quer estimar qual de duas possíveis afirmações sobre uma população é correta Por exemplo em um experimento de lançar uma moeda consideramos a possibilidade de a moeda ser justa p 05 contra a possibilidade de a moeda não ser justa p 05 A lógica do teste de hipóteses é algo como Se uma ocorrência dita como coincidência parece ser muito implausível então nós tendemos a acreditar que ela não foi na verdade uma coincidência Outra afirmação que captura a essência do teste de hipóteses é o dito popular que diz Onde há fumaça há fogo De modo geral com o teste de hipóteses uma decisão binária é tomada baseada no nível de crédito de uma evidência probabilística Conceitualmente este nível pode ser quantificado como probabilidade de significância p que interpretamos como a probabi lidade de que a aleatoriedade produziria uma coincidência no mínimo tão extraordinária como o fenômeno observado Esta definição apresenta outra questão óbvia o quão pequena deve ser uma probabili dade de significância para se concluir que um fenômeno não é uma concidência Simplificadamente vamos explorar estas questões No teste de hipóteses de certa forma dividimos os estados possíveis do fenômeno observado em duas partições ou hipóteses O objetivo do teste de hipóteses é decidir qual hipótese é correta ou seja qual hipótese contém o estado verdadeiro da natureza fenônemo observado Mais genericamente os cientistas usualmente particionam os estados da natureza fenô meno observado em uma hipótese que corresponde à teoria que o experimento é projetado para investigar e uma hipótese que corresponde a uma explicação aleatória o objetivo do teste de hipóteses neste caso é decidir qual explicação é a correta Assim uma hipótese estatística H é uma afirmação sobre o valor do parâmetro da população que estamos estimando θ Pode ser verdadeira ou falsa Para aprofundarmos nosso estudo do teste de hipóteses vamos distinguir as duas hipó Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 53 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística teses que são feitas A primeira hipótese é chamada de hipótese nula H0 e a outra a hipótese alternativa H1 De modo simplificado a lógica para se determinar qual hipótese é H0 e qual é H1 é a seguinte H0 deve ser a hipótese aceita no caso de a evidência ser equivocada e H1 deve ser a hipótese que se requer evidências fortes para se adotar Tipos de erros Quando estamos fazendo um teste de hipótese estamos sujeitos a dois tipos de erro Erro tipo I rejeitar H0 quando H0 é verdadeira Erro tipo II não rejeitar aceitar H0 quando H0 é falsa As situações e os erros envolvidos no teste de hipótese podem ser montados em forma tabular como mostrado no quadro 4 Quadro 4 Tipos de Erros no Teste de Hipóteses Situação real e desconhecida Decisão H0 verdadeira H0 falsa Não Rejeitar H0 Decisão Correta Erro Tipo II Rejeitar H0 Erro Tipo I Decisão Correta Fonte Elaborado pelo autor Definese um limite superior para a probabilidade máxima de Erro Tipo I que deve ser tolerada Este limite é o nível de significância denotado por convenção como α O nível de significância é especificado antes de se examinar os dados e somente consideramse as regras de decisão para as quais a probabilidade de erro Tipo I não seja maior do que α O nível de significância especifica o quão pequena deve ser a probabilidade de signifi cância para se concluir que um fenômeno não é uma coincidência Os valores típicos de níveis de significância são α 005 e α 001 Assim tomando p como a probabilidade de signifância e α o nível de significância consideramos a regra que a hipótese nula deve ser rejeitada se e somente se p α Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 54 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Hipóteses bilateral e unilaterais Sejam as hipóteses nula e alterantiva H0 µ µ0 H1 µ µ0 em que µ0 é uma constante conhecida valor de teste o teste é chamado de bilateral Podemos ter também as hipóteses H0 µ µ0 H1 µ µ0 unilateral à esquerda ou H0 µ µ0 H1 µ µ0 unilateral à direita É interessante expressar H0 em forma de igualdade ou seja fazer teste bilateral mas as outras expressões são também aceitável Exemplo de formulação de hipóteses Um fabricante de um certo componente afirma que o tempo médio de vida dos compo nentes produzidos é de 1000 horas Engenheiros de produto têm interesse em verificar se uma modificação do processo de fabricação aumenta a duração dos componentes Hipóteses H0 µ 1000 horas H1 µ 1000 horas sendo µ o tempo médio de duração dos componentes Nível de Significância e Poder do Teste Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 55 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística PErro tipo I α nível de significância α PRejeitar H0H0 verdadeira PErro tipo II β PNão rejeitar H0H0 falsa β P Não rejeitar H0H1 verdadeira 1β P Rejeitar H0H0 é falsa poder do teste Obs Quanto maior o poder melhor o teste Exemplo 12 Retomando o exemplo do lançamento de uma moeda consideramos a possibilidade de a moeda ser justa p 05 contra a possibilidade de não ser justa p 05 Em um experimento para verificar estas possibiliades Arlen nossa personagem fictícia faz o lançamento da moeda 100 vezes e observa o resultado Em 68 vezes ela obteve Coroa Tails contra 32 Caras Heads Cada lançamento da moeda é um experimento de Bernoulli onde somente dois resultados são possíveis Cara ou Coroa Seja Xi o resulado do lançamento i onde Xi 1 se Cara for observado e Xi 0 se Coroa for observado Então X1X100 Bernoullip onde p é a probabilidade fixa mas desconhecida de Arlen de que um lançamento único resultará em Cara Neste experimento a distribuição de probabilidade Bernoullip é nossa abstração matemática de uma população e o parâmetro da população que queremos estimar é µ EXi p a média da população Seja Y 100 i1 Xi o número total de Caras obtidas em n 100 lançamentos De acordo com o modelo matemático proposto Y Binomialp Lêse Y segue uma distribuição Binomial de p O que é observado por Arlen no experimento isto é em cada lançamento representamos Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 56 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística por x x1xn Ela então calcula y 100 i1 xi que é o número total de Caras na sua amostra ou seja y 32 Enfatizamos que p 01 é fixa mas desconhecida O objetivo de Arlen é fazer inferências sobre esta quantidade fixa mas desconhecida Consideremos três questões que ela pode perguntar 1 Qual é o valor verdadeiro de p Mais precisamente qual seria uma boa estimativa para o valor verdadeiro de p 2 Será que p 05 Especificamente há alguma evidência forte de que p 05 de modo que Arlen pode ficar confortável em recusar a moeda como sendo justa 3 Quais são os valores plausíveis de p Em particular há algum subconjunto de 01 que Arlen possa confiantemente afirmar que contem o valor verdadeiro de p A primeira destas questões pode ser abordada com a Estimação Pontual Fazemos então uma estimativa do valor teórico da probabilidade de sucesso p calculando a proporção de sucessos observada por Arlen p y n 32 100 032 Com esta estimativa passamos à segunda questão que é respondida através do Teste de Hipóteses Já obtivemos nossa estimativa p 032 05 Com isso Arlen está inclinada a crer que p 05 Mas será que esta evidência é forte o suficiente Talvez realmente p 05 mas por acaso nosso experimento produziu somente y 32 ao invés de um valor mais próximo ao esperado EY np 10005 50 Esta possibilidade nós podemos quantificar Sabendo que Y Binomialn 100 p 05 então a probabilidade de que Y vai desviar do seu valor esperado por pelo menos 5032 18 é Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 57 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística p PY 50 18 PY 32ouY 68 PY 32PY 68 PY 321PY 67 p 0000408772 No R calculamos assim p pbinom321005 1 pbinom671005 p 1 000040878 Ou seja a probabilidade de significância obtida é p 0000409 Este valor é menor que α 005 ou seja a hipótese nula deve ser rejeitada Lembrando a hipótese nula é que a moeda é justa O experimento mostrou que a probabilidade de se obter um valor de p 05 com esta moeda é menor do que o nível de significância estipulado A terceira questão de Arlen diz respeito a Estimação Intervalar que será abordada mais à frente Exemplo 13 Uma indústria adquire de um certo fabricante pinos cuja resistência média à ruptura é especificada em 60 unid valor nominal da especificação Em um determinado dia a indústria recebeu um grande lote de pinos e a equipe técnica da indústria deseja verificar se o lote atende às especificações Para ter mais credibilidade os técnicos formulam então as hipóteses estatísticas do teste H0 O lote atende às especificações Hipótese nula H1 O lote não atende às especificações Hipótese alternativa A va X resistência à ruptura é tal que X Nµ25 O problema pode ser resolvido testando as hipóteses Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 58 H0 μ 60 hipótese nula e H1 μ 60 hipótese alternativa A equipe técnica da indústria decidiu retirar uma amostra aleatória de tamanho n 16 do lote recebido A resistências de cada pino foi medida e foi calculada a resistência média X 62 estimator de μ que será utilizada para realizar o teste estatística de teste Podemos afirmar que X Nμ 2516 Lêse X segue uma distribuição Normal com média μ e variância 2516 Lembrando Se X1 X2 Xn é uma amostra de uma distribuição Nμ σ² então a média amostral X tem distribuição Nμ σ²n Lembrando das questões feitas por Arlen no exemplo anterior podemos generalizar da seguinte maneira 1 Fazemos a Estimativa Pontual neste caso a resistência média X obtida 2 Fazemos o Teste de Hipóteses utilizando um nível de significância α 005 3 Fazemos a Estimativa Intervalar para achar os valores plausíveis do estimador pontual resistência média para os quais devemos aceitar a hipótese nula A equipe técnica decidiu adotar um nível de significância α 005 para o teste A estatística de teste é a média amostral X e a distribuição é X Nμ 2516 Com esta amostra n 16 X 62 qual a decisão a ser tomada Primeiro calculamos a probabilidade de significância para este valor Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística z xbar mu0sigmasqrtn p 2pnormabsz p 1 01096 Assim como p 01096 é maior que α não podemos rejeitar a hipótese nula Definição Chamamos de Região Crítica Rc ou região de rejeição o conjunto de valores assumidos pela estatística de teste para os quais a hipótese nula é rejeitada Seu complementar é a região de aceitação Ra O gráfico da figura 16 mostra uma distribuição normal a área destacada em vermelho é a região crítica Em azul é a região de aceitação O valor de z calculado acima 16 também é mostrado Figura 16 Região de Aceitação e Região Crítica z z α2 α2 Região de Aceitação Região Crítica Região Crítica Região Crítica 00 01 02 03 04 4035302520151005 00 05 10 15 20 25 30 35 40 X Densidade de Probabilidade Fonte Elaborado pelo autor A figura 17 mostra um zoom da figura 16 gráfico apenas na parte inferior para melhor visualização Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 61 p Pμ0 Xn μ0 Xn μ0 α Elaboramos esta definição considerando que a variância da população é conhecida ou especificada pela hipótese nula Definimos duas novas quantidades a variável aleatória Zn Xn μ0σn e o número real z Xn μ0σn Sob a hipótese nula H0 μ μ0 Zn Normal0 1 pelo Teorema do Limite Central Portanto p Pμ0 Xn μ0 Xn μ0 1 Pμ0Xn μ0 Xn μ0 Xn μ0 1 Pμ0 Xn μ0σn Xn μ0σn Xn μ0σn 1 Pμ0z Zn z 1 Φz Φz p 2Φz Que podemos calcular no R da seguinte forma xbar 62 mu0 60 Var 25 sigma sqrtVar n 16 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 60 Universidade Presbiteriana Mackenzie Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 17 Zoom na parte inferior da Região de Aceitação e Região Crítica z α2 Região Crítica Região de Aceitação 000 005 010 015 020 025 40383634323028262422201816141210 X Densidade de Probabilidade Fonte Elaborado pelo autor Como vemos o valor de z 16 está dentro da região de aceitação da hipótese nula Estimação Intervalar esta é a terceira pergunta Para quais valores de X a equipe técnica deve rejeitar H0 e portanto rejeitar o lote Esta faixa de valores faz parte da Estimação Intervalar isto é determinamos o intervalo de confiança dos valores da variável aleatória Xn Ra µ0 zα σ n X µ0 zα σ n Ou então escrevemos xn µ0 zα σ n Podemos calcular estes limites no R liminf mu0 qnorm1 alpha2 sigmasqrtn limsup mu0 qnorm1 alpha2 sigmasqrtn Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 62 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Então nosso intervalo de confiança região de aceitação dos valores de Xn são 5755 6245 Este intervalo de confiança é mostrado na figura Figura 18 Região de Aceitação e Regiões Críticas com os valores do intervalo de confiança α2 α2 Região Crítica Região Crítica Região de Aceitação 00 01 02 03 55 56 57 58 59 60 61 62 63 64 65 X Densidade de Probabilidade Fonte Elaborado pelo autor Outra abordagem para este problema seria a equipe técnica adotar a seguinte regra rejeitar H0 se X for maior do que 625 unid ou menor do que 575 unid Ou seja partimos dos limites da Região Crítica ou o seu complemento a Região de Aceitação e fazemos as análises As duas regiões são Rc X 625 ou X 575 região de rejeição de H0 e Ra 575 X 625 região de aceitação de H0 Procedimento do teste de hipótese Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 63 Se x Rc rejeitase H0 Se x Rc não se rejeita aceitase H0 Lembrando nossas hipóteses H0 O lote atende às especificações H1 O lote não atende às especificações Categorizando os erros Erro tipo I rejeitar o lote sendo que ele está de acordo com as especificações Erro tipo II não rejeitar aceitar o lote sendo que ele não está de acordo com as especificações As hipóteses são H0 µ 60 e H1 µ 60 Logo α PX 625 ou X 575 H0 µ 60 Se H0 for verdadeira então X N602516 Neste caso como partimos da especificação dos limites da região de aceitação calculamos o nível de significância α PX 625 H0 µ 60 PX 575 H0 µ 60 P X 602516 625602516 P X 602516 575602516 PZ 200 PZ 200 002275 002275 00455 sem sigmasqrtn z xbar mu0sigmasqrt16 A figura 19 mostra as regiões de aceitação e críticas com a indicação do valor de α calculado Figura 19 Região de Aceitação e Regiões Críticas para os valores calculados de alfa Cálculo de β ou seja a probabilidade de se cometer Erro Tipo II β PNão rejeitar H0 H1 verdadeira P575 X 625 H1 µ 60 Para o cálculo de β precisamos definir um valor alternativo para a média da população que será o valor da hipótese alternativa H1 µ 635 Também assumimos que X N635 2516 e β P575 X 625 H1 µ 635 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Cálculo de β efetuando o cálculo no R n 16 sigma sqrt25 sem sigmasqrtn alpha calculado anteriormente mu0 60 I calpha2 1alpha2 q qnormI meanmu0 sdsem q 1 575 625 mu 635 p pnormq meanmu sdsem p 1 79333e07 21186e01 diffp 1 021185 poder 1 diffp poder 1 078815 Na figura 20 são mostrados β o Poder do Teste área em azul e o nível de significância α Se a média verdadeira for 635 a probabilidade que nós rejeitemos a hipótese nula é de aproximadamente 7881 Lembrese sob H0 a média é 600 com o intervalo de aceitação definido como Ra 575 X 625 Assim se a média verdadeira for 635 nós vamos aceitar valores que sejam na parte superior menores do que 625 porque estariam dentro da Região de Aceitação de H0 Mas todos os outros valores que ainda estão dentro da Região de Aceitação da média verdadeira 635 isto é entre 625 66 seriam rejeitados sob H0 Exemplo de Teste de hipóteses unilateral à esquerda Considere uma amostra aleatória de tamanho n de uma população normal com média µ desconhecida e variância σ2 conhecida Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 66 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística Figura 20 Poder do Teste e Beta β 021185 Poder do Teste 078815 α H0 µ 60 H1 µ 635 00 01 02 03 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 X Densidade de Probabilidade Fonte Elaborado pelo autor i H0 µ µ0 H1 µ µ0 ii A estatística de teste é a média amostral X estimador pontual de µ Se a distribuição da população é normal ou se a amostra é grande n 30 mesmo que a distribuição da população não seja normal a distribuição de X Nµσ2n Se H0 for verdadeira então Z n X µ0 σ N01 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 67 Rejeitamos H0 em favor de H1 se a média amostral X é pequena em relação a µ0 A região crítica é obtida selecionandose um k tal que Rc X k sendo que PX k H0 µ µ0 α Ou seja sob H0 PX µ0σn P Z kµ0σn α kµ0σn zα k µ0 zασn Rc X µ0 zασn Obs zα 0 Figura 21 Região de Aceitação e Região Crítica para teste unilateral se overlinex in Rc overlineX mu0 zalpha imes fracsigmasqrtn rejeitase H0 caso contrário não se rejeita H0 Exemplo 14 Um comprador de tijolos suspeita de uma diminuição na resistência A estatística de teste é a média amostral overlineX A região crítica pode ser obtida selecionando k de maneira que Rc overlineX k sendo que PoverlineX k H0 mu mu0 alpha 005 Z 200 k 5 200 k 195 k Pk 005 k qnorm005mean200 k 1 19836 Rightarrow Rc overlineX 1983551 a média amostral vale 195 Logo overlinex 195 in Rc overlineX 1983551 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística iii Região crítica para um nível de significância α escolhido Rc Z zα iv Se z Rc Z zα rejeitase H0 caso contrário não se rejeita H0 A região de aceitação e região crítica são mostradas na figura 22 Figura 22 Região de Aceitação e Região Crítica para teste unilateral α k zα µ0 0 1 α Fonte Elaborado pelo autor Considere o seguinte exemplo numérico feito diretamente no R Neste exemplo o teste é unilateral à esquerda xbar 195 mu0 200 sigma 10 n 100 z xbar mu0sigmasqrtnz 1 5 alpha 005 este é o valor que divide a curva em 005 e 095 rc qnormalpharc 1 16449 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 71 Método alternativo Um método alternativo prático trabalhar diretamente na escala Z i H0 mu mu0 contra H1 mu mu0 Z fracsqrtnoverlineXmu0sigma sim N01 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística A estatística de teste z 5 está fora do intervalo da região de aceitação ou seja está na região crítica 5 Rc 5 1645 Portanto a um nível de significância de 5 nós rejeitamos a hipótese nula que a média seja igual a 200 Exemplo 15 Suponha que o peso médio dos Pinguins Reis encontrados em uma colônia na Antártica no último ano foi 154 kg Em uma amostra de 35 pinguins na mesma época neste ano na mesma colônia o peso médio foi 146kg Assuma que o desvio padrão da população seja 25kg podemos afirmar que o peso médio dos pinguins se manteve em relação ao último ano Solução padrão Hipóteses H0 µ0 154kg H1 µ0 154kg Estatística de Teste xbar 146 media da amostra mu0 154 valor da hipótese sigma 25 desvio padrão da população n 35 tamanho da amostra z xbarmu0sigmasqrtn estatística de teste z 1 18931 Teste de Hipóteses Agora os valores críticos em um nível de significância α 005 alpha 005 zhalfalpha qnorm1 alpha2 czhalfalphazhalfalpha 1 196 196 A estatística de teste z 18931 está entre os valores críticos 196 196 ou seja está dentro da região de aceitação Portanto a um nível de significância de 005 nós não Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 72 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística rejeitamos a hipótese nula de que o peso médio dos pinguins se manteve em relação ao último ano Solução alternativa Ao invés de se utilizar o valor crítico nós aplicamos a função pnorm para calcular o pvalue bilateral da estatística de teste Ele dobra o pvalue inferior pois o teste é menor que o valor hipotetizado Se ele for maior do que o nível de significância nós não rejeitamos a hipótese nula de que µ 154 pval 2 pnormz cauda inferior dobrada pval 1 0058339 Como o valor p 00583 é maior do que o nível de significância α nós não rejeitamos a hipótese nula de que a média seja 154 Distribuião T de Student Quando não conhecemos a variância da população σ2 mas apenas a variância da amostra selecionada S2 devemos utilizar a distribuição T de Student para a realização dos cálculos PECK OLSEN DEVORE 2012 Considere os seguintes exemplos de cálculo no R Exemplo 1 Se n 12 são 11 graus de liberdade Se tivermos H1 µ µ0 escolhendo α 005 temos p2 α2 ou seja p 005 teste bilateral alpha 005 df 11 tc qtalpha2df dftc 1 2201 Observamos que o valor de tc é ligeiramente diferente para este tamanho de amostra e Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 73 número de graus de liberdade em relação ao valor crítico calculado quando temos uma distribuição normal Exemplo 2 Se n 28 são 27 graus de liberdade Se tivermos H1 mu mu0 escolhido alpha 001 temos fracp2 alpha ou seja p 2alpha 002 teste unilateral tc qtalpha2df dftc 1 24727 Trilha de Aprendizagem 02 Introdução à Probabilidade e Inferência Estatística mu0 115 xbar 118 tc qtalpha2dfdf tc 1 2093 Tt sqrtnxbar mu0S Tt 1 067082 O valor da estatística de teste T 06708 está fora da Região Crítica ou seja T 2093 Portanto não rejeitamos a H0 a um nível de significância de 5 A diferença não é significativa Finalizando Como vimos neste capítulo os conceitos de Probabilidade e de Inferência Estatística são essenciais quando precisamos tirar conclusões sobre parâmetros de uma população Este capítulo apresentou uma Introdução a estes conceitos sugerimos que o aluno reforce estes conceitos com livros textos de Probabilidade e Estatística que podem ser encontrados na biblioteca digital Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 75 Bibliografia BOLSTAD W M CURRAN J M Introduction To Bayesian Statistics 3rd ed Hoboken New Jersey USA John Wiley Sons Inc 2017 HALD A A History of Probability and Statistics and Their Applications before 1750 Wiley Series in Probability and Statistics 1 ed Hoboken New Jersey USA WileyInterscience 2003 MOORE D S MCCABE G P CRAIG B A Introduction to the Practice of Statistics New York NY USA W H Freeman Company 2009 PECK R OLSEN C DEVORE J L Introduction to Statistics and Data Analysis 4th ed Boston MA USA BrooksCole CENGAGE Learning 2012 SELVIN S et al Letters to the Editor The American Statistician v 29 n 1 p 6771 1975 VAZSONYI A Which door has the Cadillac Decision Line v 30 n 1 p 1719 1999 Ciência de Dados BIG DATA ANALYTICS BIG DATA Analytics Análise Estatística 76 eadmackenziebr