·

Engenharia de Produção ·

Probabilidade e Estatística 2

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta

Texto de pré-visualização

UNIVERSIDADE FEDERAL DO PIAUÍ UFPI CENTRO DE CIÊNCIAS DA NATUREZA CCN II DEPARTAMENTO DE BACHARELADO EM ESTATÍSTICA PROBABILIDADE E ESTATÍSTICA PROF MAX BRANDÃO DE OLIVEIRA Plano de ensino 2 Conteúdo programático 1 Conceitos iniciais 2 Tabelas e gráficos 3 Medidas de posição e de dispersão 4 Distribuição de frequências 5 Álgebra Booleana e simbologia lógica 6 Probabilidade 7 Variáveis Aleatórias discretas e contínuas 8 Principais variáveis aleatórias 9 Confiabilidade 10 Conceitos e fatores de perda 11 Vetores Aleatórios 12 Amostragem 13 Distribuições Amostrais 14 Métodos de estimação 15 Eficiência Consistência e Suficiência 16Intervalo de confiança 17 Testes de hipóteses 18 Análise de regressão 19 Análise de Variância Referências 3 BUSSAB W O MORETTIN P A Estatística Básica 5 ed São Paulo Saraiva 2003 FONSECA J S da MARTINS G TOLEDO G Estatística aplicada 2 ed São Paulo Atlas 1995 1 CONCEITOS INICIAIS 1 Conceitos iniciais 5 O que é Estatística Matemática aplicada aos dados de observação PIMENTEL GOMES 2009 Técnicas para coletar organizar descrever analisar e interpretar dados ou provenientes de experimentos ou vindos de estudos observacionais BARBETTA et al 2010 É um sistema científico para coleta organização análise interpretação e apresentação de informações que possam ser colocadas sob forma numérica 1 Conceitos iniciais 6 Aonde é utilizada Empresa farmacêutica Avalição de novos medicamentos Pesquisa eleitoral Levantamento da receita e das despesas de uma empresa Pesquisa de mercado local de instalação aceitação de um produto etc Indústria Controle da qualidade Instituições públicas controle e previsão de demandas Educação saúde segurança etc 1 Conceitos iniciais 7 CUIDADO Amostras não representativas Amostras pequenas Números imprecisos Perguntas tendenciosas Gráficos enganosos Distorções deliberadas 1 Conceitos iniciais 8 CUIDADO Numa sala de aula com 100 alunos sendo 60 homens e 40 mulheres o professor afirmou que os homens apresentaram melhor desempenho pois 40 homens foram aprovados por média enquanto apenas 35 mulheres conseguiram ser aprovadas Entretanto o professor não deveria considerar apenas o número de aprovados deveria examinar também por exemplo as proporções de aprovação Homens 4060 0667 Mulheres 3540 0875 1 Conceitos iniciais 9 Divisão da estatística Estatística Descritiva ou Dedutiva trata da apuração apresentação análise e interpretação dos dados observados descreve as amostras ou a população Geral Particular Todos os homens são mortais Sócrates é homem Sócrates é mortal Estatística Indutiva ou Inferência Estatística método que parte do particular para o geral ou seja o processo pelo qual são feitas generalizações para a população à partir da amostra Particular Geral cobre é condutor de eletricidade ouro ferro zinco e prata também são Todo metal é condutor 1 Conceitos iniciais 10 Inferência Vs Censo IBGE Realizado a cada 10 anos atualizações a cada 3 Alta demanda de tempo Alto custo Descritivo Erro praticamente inexistente 1 Conceitos iniciais 11 Conceitos importantes População É a totalidade dos elementos de características comuns pertencentes a um universo sobre o qual se deseja estabelecer conclusões ou exercer ações Finita É a população onde se consegue contar todos os elementos que a formam ou seja possui um número limitado de elementos Ex Número de funcionários entre 2010 e 2013 na UFPI Infinita Não se consegue contar todos os elementos que a formam Geralmente está associada à processos e o número de observações tende a ser infinito Ex Jogadas sucessivas de uma moeda 1 Conceitos iniciais 12 Conceitos importantes Amostra É um subconjunto uma parte selecionada da totalidade de observações abrangidas pela população através do qual se faz um juízo ou inferência sobre as características da população 1 Conceitos iniciais 13 Conceitos importantes Exemplos a Estudo sobre o conteúdo de ferro natural exportado por um navio População Todo o minério de ferro a ser exportado Amostra Parte do minério a ser exportado b Estudo sobre os alunos da disciplina Estatística na UFPI 20201 População Alunos matriculados em Prob e Est Amostra 50 dos alunos de Estatística escolhidos aleatoriamente 1 Conceitos iniciais 14 Conceitos importantes Amostragem É a técnica de extrair amostras de uma população Existem 2 tipos de amostragem Probabilística e Não Probabilística Probabilística Uso de técnicas que usam mecanismos aleatórios de seleção dos elementos da amostra atribuindo a cada um deles uma probabilidade conhecida a priori de pertencer à amostra Não Probabilística Amostras intencionais onde os elementos são selecionados com o auxílio de especialistas Amostras de voluntários como ocorre com alguns testes sobre novos remédios 15 Experimento aleatório Fenômenos que quando repetidos inúmeras vezes sob as mesmas condições possuem resultados imprevisíveis Lançamento de uma moeda ou de um dado 1 Conceitos iniciais 16 Espaço amostral S ou 𝛀 É o conjunto de todos os resultados possíveis do experimento aleatório Lançamento de uma moeda cara ou coroa Lançamento de um dado 1 2 3 4 5 6 1 Conceitos iniciais 17 Evento Um conjunto de resultados do experimento Em termos de conjuntos é um subconjunto S S ou Ω é dito o evento certo Φ o evento impossível 1 Conceitos iniciais 1 Conceitos iniciais 18 Conceitos importantes Estatística Função da amostra que não depende de parâmetros desconhecidos mínimo máximo mediana média variância etc Parâmetro São as características da população os quais são valores fixos e ordinariamente desconhecidos Estatística Variável aleatória Em qualquer estudo envolvendo indivíduos objetos fenômenos da natureza etc estamos interessados em algumas características dos mesmos Qualitativas Quantitativas 1 Conceitos iniciais 19 Conceitos importantes Seja um espaço amostral Ω associado a um experimento aleatório uma Variável aleatória X é uma Função que associa os elementos de Ω a valores numéricos ao conjunto dos reais Ex Lançamento simultâneo de 3 modeas C Coroa k Cara Ω CCCCCKCKCKCCCKKKCKKKCKKK X a va contabilizando o número de caras X 0 1 2 3 Associase a cada valor de X uma probabilidade Ω ℝ 1 Conceitos iniciais 20 Variável Aleatória Qualitativa Nominal O dado se apresenta sob o aspecto qualitativo Ex Sexo cor estado civil profissão etc Ordinal Quando os valores são atribuídos para denotar uma ordenação natural Ex Grau de instrução estágio de uma doença patente militar etc Variável Aleatória Quantitativa Discreta Pode assumir valores que podem ser contados Contradomínio ℕ São aquelas cujos valores são obtidos através de contagem Ex nº de alunos nº de pessoas numa família etc Contínua Assumem uma quantidade infinita de valores contradomínio ℝ𝑋 Geralmente são obtidas por mensuração Ex Peso altura temperatura área volume etc 1 Conceitos iniciais 21 Séries estatísticas É toda e qualquer coleção de dados estatísticos referidos a uma mesma ordem de classificação quantitativa Fenômeno é o fato que foi investigado cujos valores numéricos estão sendo apresentados na tabela Local é o espaço geográfico onde ocorreu Tempo tempo em que o fenômeno foi observado 1 Conceitos iniciais 22 Séries estatísticas Série Temporal A variável é o tempo permanecendo fixos o local e o fenômeno Ano Renda R 2000 348031 2001 518003 2002 598697 2003 630755 Tab 1 Renda per capita anual Brasil 2000 2003 Fonte IBGE 2003 1 Conceitos iniciais 23 Séries estatísticas Série Geográfica A variável é o local permanecendo fixos o tempo e o fenômeno Estado Renda R Minas Gerais 400000 Paraná 223000 São Paulo 1009000 TOTAL 1632000 Tab 2 Vendas por Estado Indústria XYL 2014 Fonte Departamento de análise de mercado 2014 1 Conceitos iniciais 24 Séries estatísticas Série Específica A ocorrência do fenômeno é variável permanecendo fixos o local e o tempo Causas de morte Nº de mortes Hemorragias 212 Doenças Cardíacas 102 Aborto 47 Tab 3 Causas mais comuns de morte materna na gravidez Brasil 2002 Fonte SUS 2014 1 Conceitos iniciais 25 Séries estatísticas Série Mista Corresponde à fusão de 2 ou mais séries simples Ano Nº de mortes Masculino Feminino 1995 700540 1059163 1996 735427 1133102 1997 759182 1186433 1998 804729 1321229 Tab 4 Causas mais comuns de morte materna na gravidez Brasil 2002 Fonte Ministério da Saúde 2003 2 TABELAS E GRÁFICOS 2 Tabelas e gráficos 27 Representação tabular A finalidade da tabela é poder apresentar os dados de modo ordenado simples e de fácil percepção A tabela deve ser construída de modo a fornecer o máximo de esclarecimento com um mínimo de espaço Deve conter alguns elementos básicos a Título Deve vir na parte superior da tabela e indicar o quê fenômeno onde local e quando época 2 Tabelas e gráficos 28 Representação tabular b Corpo caselas ou células onde são registrados os dados Zona designativa logo abaixo do título e compreende o chamado cabeçalho Zona indicativa situase ao lado esquerdo servindo para a colocação vertical de valores ou nomes que especificam o conteúdo das linhas Zona enumerativa são as expressões numéricas do fato estudado compondose de colunas linhas e células ou casas 2 Tabelas e gráficos 29 Representação gráfica Tem por finalidade uma melhor visualização do conteúdo das tabelas expondo sempre que possível as mesmas informações nelas contidas Além disso permite Necessidades de apuração da tendência dos dados Importância de apuração de correlação Destaque para alguns dados expressivos Ênfase às diferenças entre alguns valores Melhor entendimento da magnitude mediante escala visual Apresentação simplificada de dados complexos 2 Tabelas e gráficos 30 Representação gráfica Para alcançar seu objetivo todo gráfico deve ter Simplicidade Clareza Veracidade Elementos essenciais dos gráficos Título Fonte Legenda em alguns casos 2 Tabelas e gráficos 31 Representação gráfica Gráfico de dispersão pontos É feito nos eixos cartesianos onde representamos as informações nas duas ordenadas É usado para visualizar o comportamento dos dados 2 Tabelas e gráficos 32 Representação gráfica Gráfico de dispersão pontos Fig 1 Valores preditos e observados para os modelos ajustados para os dados simulados com diferentes distribuições 2 Tabelas e gráficos 33 Representação gráfica Diagrama de linha Depois de feito o diagrama por pontos unimos os pontos formando uma linha Usamos quando desejamos dar a ideia da evolução do fenômeno 2 Tabelas e gráficos 34 Fig 2 NMA21 para o GG com k 3 5 10 r 0 1 0 5 0 9 e uma perturbação na média com 𝛿 0 1 0 3 0 5 1 0 2 0 3 0 2 Tabelas e gráficos 35 Representação gráfica Diagrama de barrascolunas As variações quantitativas da tabela são representadas por colunas dispostas verticalmente ou horizontalmente É usado para representar qualquer tipo de série As bases são iguais Os espaços existentes entre cada barracoluna devem ser iguais entre si e corresponder a no mínimo 13 e no máximo 23 da medida adotada para a base da coluna ou barra 2 Tabelas e gráficos 36 Fig 3 Gráfico de colunas para o grau de escolaridade dos funcionários da empresa XYZ no ano de 2020 2 Tabelas e gráficos 37 Representação gráfica Diagrama de setores pizza São usados para representar valores absolutos ou porcentagens complementares O gráfico em setores deve ser evitado para representar numerosas parcelas por dividir o círculo em muitos setores Fig 4 Gráfico de setores para os tipos de investimentos na agência X 2020 2 Tabelas e gráficos 38 Representação gráfica Diagrama de Pareto Gráfico de barras que ordena as frequências de ocorrências da maior para a menor Permite a priorização dos problemas Fig 5 Diagrama de Pareto para os problemas mecânicos no carro X 2020 2 Tabelas e gráficos 39 Representação gráfica Cartograma É a representação de um fenômeno com o auxílio do mapa geográfico em estudo Sua utilidade é limitada à representação simplificada dos dados geográficos Fig 6 Cartograma da área de pastagem em Mato grosso do Sul 2020 2 Tabelas e gráficos 40 Representação gráfica Boxplot diagrama de caixa Contém as informações dos três quartis 025 050 e 075 juntamente com os limites superior e inferior LS q75 15q75 q25 LI q25 15q75 q25 Detecção de outliers Fig 8 Esquema de compreensão de um boxplot 2 Tabelas e gráficos 41 Representação gráfica Histograma diagrama de caixa Utilizado para plotar a distribuição de frequências Fig 8 Histograma dos salários dos funcionários da empresa X 2020 3 MEDIDAS DE POSIÇÃO E DE DISPERSÃO 42 3 Medidas de posição e de dispersão 43 Média aritmética Populacional 𝜇 Amostral ത𝑋 1 Dados apresentados em forma bruta ത𝑋 σ𝑖1 𝑛 𝑥𝑖 𝑛 ou 𝜇 σ𝑖1 𝑁 𝑥𝑖 𝑁 É a soma de todos os elementos dividida pela quantidade de elementos 3 Medidas de posição e de dispersão 44 Média aritmética Populacional 𝜇 Amostral ത𝑋 Ex Peso em gramas de ratos 50 62 70 86 60 64 66 77 58 55 82 74 ത𝑋 50 62 70 86 60 64 66 77 58 55 82 74 12 67 3 Medidas de posição e de dispersão 45 Média aritmética Populacional 𝜇 Amostral ത𝑋 2 Dados apresentados em uma distribuição de frequência simples ത𝑋 σ𝑖1 𝑛 𝑥𝑖𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 É a soma do produto de cada elemento pela sua frequência absoluta dividida pela soma das frequências absolutas 3 Medidas de posição e de dispersão 46 Média aritmética Populacional 𝜇 Amostral ത𝑋 2 Dados de uma distribuição de frequências simples Análise Verificase que o número médio de cáries das 27 crianças observadas no estudo é de 23 ത𝑋 σ𝑖1 𝑛 𝑥𝑖𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 2𝑥0 1𝑥4 2𝑥10 3𝑥6 4𝑥5 27 23 X 0 1 2 3 4 Total f 2 4 10 6 5 27 3 Medidas de posição e de dispersão 47 Média aritmética Populacional 𝜇 Amostral ത𝑋 3 Dados apresentados em uma distribuição de frequências em classes ത𝑋 σ𝑖1 𝑛 𝑃𝑚𝑖𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 A fórmula será a mesma do item anterior sendo o 𝑃𝑚 representado pelo ponto médio de cada classe 𝑃𝑚𝑖 Ponto médio da classe 𝑖 𝑷𝒎 𝑳𝒊 𝑳𝒔𝟐 3 Medidas de posição e de dispersão 48 Média aritmética Populacional 𝜇 Amostral ത𝑋 3 Dados apresentados em uma distribuição de frequências em classes Análise Verificase que o peso médio dos 100 nascidos vivos observados é de 3 kg ത𝑋 σ𝑖1 𝑛 𝑃𝑚𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 175𝑥3225𝑥16425𝑥4475𝑥1 100 3 Classes Pm fi 15 20 175 3 20 25 225 16 25 30 275 31 30 35 325 34 35 40 375 11 40 45 425 4 45 50 475 1 Total 100 3 Medidas de posição e de dispersão 49 Mediana Valor que divide a distribuição em duas partes iguais em relação à quantidade de elementos Dispor os dados em rol n ímpar nesse caso a mediana corresponde ao valor central do rol Determinase o posto ou posição do elemento central através da posição n 12 cujo resultado será denominado de elemento mediano e corresponderá à mediana Ex1 Seja a amostra 1 2 3 4 5 O Elemento mediano 512 3º elemento Med 3 3 Medidas de posição e de dispersão 50 Mediana Valor que divide a distribuição em duas partes iguais em relação à quantidade de elementos Dispor os dados em rol Sendo n par nesse caso a mediana corresponde à média aritmética dos dois valores centrais O posto ou posição do 1º elemento central é determinado por n2 e o do 2º por n2 1 A mediana será a média aritmética desses dois elementos Ex2 Seja a amostra 1 2 3 4 Elemento mediano 42 2º elemento e 421 3º elem Med 232 25 3 Medidas de posição e de dispersão 51 Mediana Para dados dispostos em uma distribuição de frequências simples a ideia é exatamente a mesma X fi Fi 1 1 1 2 3 4 3 5 9 4 2 11 Total 11 n 11 ímpar Elemento mediano n12º 6º elemento 3ª classe contém o 6º elemento Med 3 3 Medidas de posição e de dispersão 52 Mediana Para dados dispostos em uma distribuição de frequências simples a ideia é exatamente a mesma X fi Fi 82 5 5 85 10 15 87 15 30 89 8 38 90 4 42 Total 42 n 42 par Elemento mediano n2 21º elemento n2 1 22º elemento 3ª classe contém os elementos 21 e 22 Med 87 872 87 53 Mediana Para dados dispostos em uma distribuição de frequências em classes 𝑀𝑒 𝐿𝑖𝑀𝑒 𝑃𝑀𝑒𝑑 𝐹 𝑓𝑀𝑒 𝑖𝑀𝑒 𝑃𝑀𝑒𝑑 posição da Mediana σ𝑓2 𝐿𝑖𝑀𝑒 limite inferior da classe que contém a mediana 𝐹 freq abs acum Abaixo da classe anterior à classe que contém a mediana 𝑓𝑀𝑒 frequência absoluta da classe que contém a mediana 𝑖𝑀𝑒 intervalo da classe que contém a mediana 3 Medidas de posição e de dispersão 54 Mediana Para dados dispostos em uma distribuição de frequências em classes 3 Medidas de posição e de dispersão Classes Pm fi Fi 15 20 175 3 3 20 25 225 16 19 25 30 275 31 50 30 35 325 34 84 35 40 375 11 95 40 45 425 4 99 45 50 475 1 100 Pmed 50º elemento n2 1002 50 Med 𝐿𝑖𝑀𝑒 𝑃𝑀𝑒𝑑 𝐹 𝑓𝑀𝑒 𝑖𝑀𝑒 Med 25 50 19 31 05 3 55 Moda Valor que ocorre com maior frequência na amostra Série Unimodal Uma única moda Ex Na série 3 5 6 6 6 7 8 Mo 6 Série Bimodal ocorrem duas modas Ex Na série 2 5 5 5 6 7 9 9 9 10 10 Mo1 5 e Mo2 9 Série Trimodal ocorrem três modas Ex Na série 4 4 4 5 6 7 7 7 8 9 9 9 Mo1 4 Mo2 7 e Mo3 9 Série Polimodal ocorrem quatro ou mais modas Ex 0 0 1 3 3 4 7 8 8 11 12 12 13 13 Mo1 0 Mo2 3 Mo3 9 Mo4 12 e Mo5 13 Série Amodal não existe moda Ex Na série 0 1 3 4 7 8 não existe moda 3 Medidas de posição e de dispersão 56 Moda Valor que ocorre com maior frequência na amostra Para dados que se apresentam em uma distribuição de frequências simples A moda é o elemento de maior frequência simples 3 Medidas de posição e de dispersão X fi 1 13 3 15 6 25 10 8 Total 61 Tipo de Sangue fi O 547 A 441 B 123 AB 25 Total 1136 57 Moda Valor que ocorre com maior frequência na amostra Para dados que se apresentam em uma distribuição de frequências em classes A moda é obtida pela expressão 𝑀𝑜 𝐿𝑖 𝐿𝑠 2 𝐿𝑖 Limite inferior da classe modal 𝐿𝑠 Limite superior da classe modal Ex 𝑀𝑜 144162 2 153 3 Medidas de posição e de dispersão Classes fi 108 126 5 126 144 13 144 162 32 162 180 18 180 198 11 198 216 2 216 234 3 58 Moda Valor que ocorre com maior frequência na amostra Para dados que se apresentam em uma distribuição de frequências em classes A moda de King é obtida pela expressão 𝑀𝑜 𝐿𝑖𝑀𝑜 𝑓𝑝𝑜𝑠𝑡 𝑓𝑎𝑛𝑡 𝑓𝑝𝑜𝑠𝑡 𝑖𝑀𝑜 𝐿𝑖𝑀𝑜 Limite inferior da classe modal 𝑓𝑝𝑜𝑠𝑡 frequência absoluta da classe posterior a classe modal 𝑓𝑎𝑛𝑡 frequência absoluta da classe anterior a classe modal 𝑖𝑀𝑜 intervalo ou amplitude da classe modal 3 Medidas de posição e de dispersão 59 Moda Valor que ocorre com maior frequência na amostra Para dados que se apresentam em uma distribuição de frequências em classes A moda de King será obtida pela expressão 𝑀𝑜 𝐿𝑖𝑀𝑜 𝑓𝑝𝑜𝑠𝑡 𝑓𝑎𝑛𝑡𝑓𝑝𝑜𝑠𝑡 𝑖𝑀𝑜 𝑀𝑜 144 18 1318 018 15445 3 Medidas de posição e de dispersão Classes fi 108 126 5 126 144 13 144 162 32 162 180 18 180 198 11 198 216 2 216 234 3 60 Moda Valor que ocorre com maior frequência na amostra Para dados que se apresentam em uma distribuição de frequências em classes A moda de Czuber é obtida pela expressão 𝑀𝑜 𝐿𝑖𝑀𝑜 𝑑1 𝑑1 𝑑2 𝑖𝑀𝑜 𝐿𝑖𝑀𝑜 Limite inferior da classe modal 𝑑1 𝑓𝑀𝑜 𝑓𝑎𝑛𝑡 𝑑2 𝑓𝑀𝑜 𝑓𝑝𝑜𝑠𝑡 𝑖𝑀𝑜 intervalo ou amplitude da classe modal 3 Medidas de posição e de dispersão 61 Moda Valor que ocorre com maior frequência na amostra Para dados que se apresentam em uma distribuição de frequências em classes A moda de King será obtida pela expressão 𝑀𝑜 𝐿𝑖𝑀𝑜 𝑑1 𝑑1𝑑2 𝑖𝑀𝑜 𝑀𝑜 144 3213 32133218 018 𝑀𝑜 144 19 1914 018 15436 3 Medidas de posição e de dispersão Classes fi 108 126 5 126 144 13 144 162 32 162 180 18 180 198 11 198 216 2 216 234 3 62 Moda Valor que ocorre com maior frequência na amostra Para dados que se apresentam em uma distribuição de frequências em classes A moda de Pearson é obtida pela expressão 𝑀𝑜 3𝑀𝑒 2 ത𝑋 Ex Calcule a moda de Pearson para os seguintes dados 161 e Med 157 𝑀o 3157 2161 149 3 Medidas de posição e de dispersão 63 Medidas de dispersão Amplitude total Dá apenas uma ideia do campo de variação dos elementos Corresponde à diferença entre os valores máximo e mínimo 𝐴𝑡 𝑀á𝑥 𝑀í𝑛 Desviomédio Corresponde em módulo à média aritmética da diferença entre cada elemento e sua média aritmética 𝑑𝑚 σ𝑖1 𝑛 𝑑𝑖 𝑛 𝑑𝑖 𝑥𝑖 ത𝑋 𝑜𝑢 𝜇 Para dados resumidos numa distribuição de frequências simples ou em classes 𝑑𝑚 σ𝑖1 𝑛 𝑑𝑖 𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 3 Medidas de posição e de dispersão 64 Medidas de dispersão Desviopadrão Medida de variabilidade absoluta expressa na mesma unidade dos valores originais Quanto maior maior dispersão em torno da média É a raiz quadrada positiva do quociente entre a soma dos quadrados dos desvios e o número de elementos 𝜎 σ𝑖1 𝑁 𝑑𝑖 2 𝑁 σ𝑖1 𝑁 𝑥𝑖 𝜇 2 𝑁 Populacional 𝑠 σ𝑖1 𝑛 𝑑𝑖 2 𝑛 1 σ𝑖1 𝑛 𝑥𝑖 ത𝑋 2 𝑛 1 Amostral 3 Medidas de posição e de dispersão 65 Medidas de dispersão Desviopadrão Para distribuição de frequências têmse 𝜎 σ𝑖1 𝑁 𝑑𝑖 2𝑓𝑖 σ𝑖1 𝑁 𝑓𝑖 σ𝑖1 𝑁 𝑥𝑖 𝜇 2𝑓𝑖 σ𝑖1 𝑁 𝑓𝑖 Populacional 𝑆 σ𝑖1 𝑛 𝑑𝑖 2𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 1 σ𝑖1 𝑛 𝑥𝑖 ത𝑋 2𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 1 Amostral Variância 𝝈𝟐 e 𝑺𝟐 Corresponde ao quadrado do desviopadrão Unidade também será elevada ao quadrado 3 Medidas de posição e de dispersão 66 Medidas de dispersão Coeficiente de Variação Quando as medidas são expressas em unidades diferentes como pesoaltura capacidadecomprimento etc não se pode comparálas através do desvio padrão por ser este uma medida absoluta de variabilidade O CV é uma medida relativa que expressa o desvio padrão como uma percentagem da média aritmética Quanto mais próximo de zero mais homogênea é a distribuição e quanto mais distante mais dispersa 𝐶𝑉 𝜎𝜇100 Populacional e 𝐶𝑉 𝑆 ത𝑋100 Amostral 3 Medidas de posição e de dispersão 3 Medidas de posição e de dispersão 67 Medidas de dispersão Dados brutos Ex Peso em gramas de ratos 50 62 70 86 60 64 66 77 58 55 82 74 ത𝑋 50 62 70 86 60 64 66 77 58 55 82 74 12 67g At 86 50 36g 𝑑𝑚 σ𝑖1 𝑛 𝑑𝑖 𝑛 50 67 62 67 74 67 12 9g 𝑠 σ𝑖1 12 𝑥𝑖 ത𝑋 2 12 1 50 67 2 62 67 2 74 67 2 11 1104g 3 Medidas de posição e de dispersão 68 Medidas de dispersão Distribuição de frequências simples Distribuição do número de cáries de 27 crianças 𝑑𝑚 σ𝑖1 𝑛 𝑑𝑖 𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 0 23 𝑥2 1 23 𝑥4 4 23 𝑥5 27 125 𝑆 σ𝑖1 𝑛 𝑑𝑖 2𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 1 0 23 22 1 23 24 4 23 25 26 063 X 0 1 2 3 4 Total f 2 4 10 6 5 27 3 Medidas de posição e de dispersão 69 Medidas de dispersão Distribuição de frequências em classes ത𝑋 σ𝑖1 𝑛 𝑃𝑚𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 175𝑥3 225𝑥16 425𝑥4 475𝑥1 100 3 𝑑𝑚 σ𝑖1 𝑛 𝑑𝑖 𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 175 3 3 225 3 16 475 3 1 100 0063 𝑆 σ𝑖1 𝑛 𝑑𝑖 2𝑓𝑖 σ𝑖1 𝑛 𝑓𝑖 1 175 3 23 225 3 216 474 3 21 99 058 Classes Pm fi 15 20 175 3 20 25 225 16 25 30 275 31 30 35 325 34 35 40 375 11 40 45 425 4 45 50 475 1 Total 100 70 Assimetria Uma Distribuição é dita simétrica quando ത𝑋 𝑀𝑒 𝑀𝑜𝑃 ou seja há uma maior concentração nos valores centrais da distribuição Uma distribuição é dita assimétrica à esquerda quando ത𝑋 𝑀𝑒 𝑀𝑜𝑃 ou seja há uma maior concentração nos valores maiores Uma distribuição é dotada assimétrica à direita quando ത𝑋 𝑀𝑒 𝑀𝑜𝑃 com maior concentração nos valores menores Mostra a forma da distribuição visualizada pelo histograma alisado e quantifica o quanto ela se distancia da condição de normalidade 3 Medidas de posição e de dispersão 71 Assimetria Medese através do índice de assimetria de Pearson segundo a fórmula 𝑎 ത𝑋𝑀0 𝑆 ou 𝑎 3 ത𝑋𝑀𝑒 𝑆 Análise Se a 0 a distribuição é assimétrica a esquerda ou negativa Se a 0 a distribuição é assimétrica à direita ou positiva Se a 0 a distribuição é simétrica 3 Medidas de posição e de dispersão 72 3 Medidas de posição e de dispersão Dist Assimétrica à Direita Positiva Dist Simétrica Dist Assimétrica à Esquerda Negativa 4 DISTRIBUIÇÃO DE FREQUÊNCIAS 4 Distribuição de frequências 74 É a série estatística em que os dados são agrupados em classes com suas respectivas frequências absolutas relativas e percentuais Facilita a visualização dos dados e da distribuição dos dados Para construir uma distribuição de frequências calculase 1 Amplitude total At Máx Mín 2 Número de classes Sturges k 1 33log10n ou se 25 n 200 utilizase n 3 Amplitude ou intervalo de cada classe h At k 4 Distribuição de frequências 75 Notação 1 5 Traço vertical indica que o valor pertence à classe no caso 1 pertence à classe mas o 5 não Com os dados em ordem rol começa do menor valor e vai adicionando o valor da amplitude em cada classe até contemplar todos os dados Após a construção a distribuição é plotada em um histograma Desvantagem A informação dentro das classe é perdida 4 Distribuição de frequências 76 Construção de uma distribuição de frequências em classes Ex Número de acertos nas provas objetivas do Vestibular2014 por candidatos de Engenharia 55 57 66 45 48 92 85 63 56 48 46 54 70 90 76 63 48 50 58 60 82 61 90 72 101 59 52 49 54 80 95 82 70 58 70 67 75 58 68 68 70 63 71 56 65 52 76 68 45 46 48 48 48 49 50 52 52 54 54 55 56 56 57 58 58 58 59 60 61 63 63 63 65 66 67 68 68 68 70 70 70 70 71 72 75 76 76 80 82 82 85 90 90 92 95 101 ROL 1 Amplitude Total Li 45 e Ls 101 At 101 45 56 2 Classes k 1 33 log 48 k 65 7 3 Intervalo de classes h 567 h 8 acertos 4 Distribuição de frequências 77 Acertos Nº de candidatos f fR f F F F F x 45 53 9 1875 01875 9 188 48 100 49 53 61 11 2292 02292 20 417 39 812 57 61 69 10 2083 02083 30 625 28 583 65 69 77 9 1875 01875 39 813 18 375 73 77 85 3 625 00625 42 875 9 187 81 85 93 4 833 00833 46 958 6 125 89 93 101 2 417 00417 48 100 2 42 97 48 100 4 Distribuição de frequências 78 Construção de uma distribuição de frequências em classes Histograma Polígono de Frequências Histograma Alisado ou polido Ogiva de Galton 4 Distribuição de frequências 79 Melhor colocar a classe pois o símbolo permite saber qual número pertence ou não à classe 4 Distribuição de frequências 4 Distribuição de frequências 4 Distribuição de frequências 4 Distribuição de frequências 83 9 20 30 39 42 46 48 0 10 20 30 40 50 60 1 2 3 4 5 6 7 Polígono de Frequências Acumulada Ogiva de Galton 5 ÁLGEBRA BOOLEANA E SIMBOLOGIA LÓGICA 84 5 Álg Booleana e simbologia lógica 85 A álgebra Booleana foi desenvolvida pelo matemático George Boole para o estudo da lógica Permitem aclarar e simplificar problemas complexos Útil em eventos dicotômicos 0 ou 1 Ampla aplicabilidade computadores e outras montagens eletromecânicas Segurança de sistemas Representada por 0 e 1 Não quantitativos Operações lógicas portas lógicas 86 Principais portas lógicas e simbologia ҧ𝐴 𝐴 𝐵 𝐴 𝐵 𝐴 𝐵 𝐴 𝐵 5 Álg Booleana e simbologia lógica 87 𝐴𝐵 XOR OuExclusivo 5 Álg Booleana e simbologia lógica 88 𝐴𝐵 XNOR Coincidência A B AB 0 0 1 0 1 0 1 0 0 1 1 1 Álgebra Booleana empregada na teoria da decisão Está diretamente associada à teoria de conjuntos Relacionada com probabilidade 5 Álg Booleana e simbologia lógica 89 Leis de Morgan 5 Álg Booleana e simbologia lógica 90 Teoria dos conjuntos 5 Álg Booleana e simbologia lógica 6 PROBABILIDADE 92 Definição de Kolmogorov Para um experimento aleatório com espaço amostral Ω e classe de eventos 𝒜 a probabilidade denotada por 𝑃 é uma função que tem domínio na classe de eventos 𝒜 e tem como imagem valores numéricos entre 0 e 1 Além disso a probabilidade deve satisfazer os seguintes axiomas i 𝑃 Ω 1 e 𝑃 𝜙 0 ii 0 𝑃 𝐴 1 para todo evento 𝐴 iii 𝑃ڂ𝑖1 𝐴𝑖 σ𝑖1 𝑃 𝐴𝑖 𝐴𝑖 𝒜 𝐴𝑖𝐴𝑗 𝜙 e 𝑖 𝑗 6 Probabilidade 93 Definição frequentista Para um experimento aleatório com espaço amostral Ω e classe de eventos 𝒜 a probabilidade denotada por 𝑃 é 𝑃 𝐴𝑖 lim 𝑛 𝑛 𝐴𝑖 𝑛 Ω 𝐴𝑖 𝒜 𝑛 𝐴𝑖 é o número de elementos favoráveis ao evento 𝐴𝑖 𝑛 Ω é o número de elementos do espaço amostral 6 Probabilidade 94 Propriedades I Se 𝐴𝑐 ҧ𝐴 é complementar a 𝐴 𝑃 𝐴𝑐 1 𝑃𝐴 II Se 𝐴 e 𝐵 Ω então 𝑃 𝐴ڂ𝐵 𝑃 𝐴 𝑃 𝐵 𝑃 𝐴𝐵 6 Probabilidade 95 B 6 Probabilidade Propriedades III Se B A então 𝑃 𝐵 𝑃 𝐴 IV Se 𝐴 𝐵 𝐴 ത𝐵 V 𝑃 𝐴𝐵 𝑛 𝐴𝐵 𝑛 Ω VI 𝑃 𝐴ڂ𝐵ڂ𝐶 𝑃 𝐴 𝑃 𝐵 𝑃 𝐶 𝑃 𝐴𝐵 𝑃 𝐴𝐶 𝑃 𝐵𝐶 𝑃 𝐴𝐵𝐶 96 Independência entre eventos P 𝐴𝐵 𝑃 𝐴 𝑃 𝐵 Probabilidade condicional 𝑃 𝐴𝐵 𝑃 𝐴𝐵 𝑃 𝐵 𝑃 𝑖1 𝑛 𝐴𝑖 𝑃 𝐴1 𝑃 𝐴1𝐴2 𝑃 𝐴1 𝑃 𝐴1𝐴2𝐴3 𝑃 𝐴1𝐴2 𝑃 𝑖1 𝑛 𝐴𝑖 𝑃 𝑖1 𝑛1 𝐴𝑖 𝑃 𝑖1 𝐴𝑖 𝑃 𝐴1 𝑃 𝐴2𝐴1 𝑃 𝐴3𝐴1𝐴2 𝑃 𝐴𝑛 𝑖1 𝑛1 𝐴𝑖 Eventos mutuamente exclusivos Se 𝐴𝐵 𝜙 𝑃 𝐴𝐵 0 𝑃 𝐴ڂ𝐵 𝑃 𝐴 𝑃𝐵 6 Probabilidade 97 Exercícios 1 Uma moeda é lançada 3 vezes Determine a probabilidade de a Sair exatamente 1 coroa 38 b Sair pelo menos 1 coroa 78 2 Dois dados são lançados Qual a probabilidade da soma das faces obtidas ser a Igual a 8 536 6226533544 b Superior a 8 518 54456336556446655666 6 Probabilidade 98 Exercícios 3 Considere o conjunto dos dias do ano D 1 2 3 365 e o conjunto H formado por todos os subconjuntos de D com 2 elementos sem reposição Escolhendose ao acaso um elemento B H qual a probabilidade da soma de seus elementos ser 183 1730 1823651364 4 Uma urna contém 6 bolas pretas 2 brancas e 10 amarelas Uma bola é escolhida ao acaso na urna Qual a probabilidade de a A bola não ser amarela 49 818 6 Probabilidade 99 Exercícios 4 b A bola ser branca ou preta 49 6218 c A bola não ser branca nem amarela 13 618 5 De um grupo de 200 pessoas 160 têm fator Rh positivo 100 têm sangue tipo O e 80 têm fator Rh positivo e sangue tipo O Se uma dessas pessoas for selecionada ao acaso qual a probabilidade de a Seu sangue ter fator Rh positivo 45 160200 b Seu sangue ter fator Rh positivo ou ser tipo O 910 160200 100200 80200 180200 1820 910 6 Probabilidade 100 Exercícios 6 Com os dígitos 1 2 3 4 5 são formados números de 4 algarismos Um deles é escolhido ao acaso Qual a probabilidade de ele ser a Par 25 b Ímpar 35 7 De um lote de 200 peças sendo 180 boas e 20 defeituosas 10 peças são selecionadas ao acaso sem reposição Qual a probabilidade de a As 10 peças serem boas 180 10 20 0 200 10 6 Probabilidade 101 Exercícios 7 b As 10 peças serem defeituosas 180 0 20 10 200 10 c 5 peças serem boas e 5 defeituosas 180 5 20 5 200 10 8 Numa sala existem 6 casais Entre estas 12 pessoas 2 são selecionadas ao acaso a Qual a probabilidade de selecionarmos um homem e sua esposa 111 1212111 b Qual a probabilidade de selecionarmos 2 homens 522 612511 6 Probabilidade 102 Exercícios 9 Oito pessoas entre elas Pedro e Silvia são dispostas ao acaso numa fila Qual a probabilidade de a Pedro e Silvia ficarem juntas 278 14 b Pedro e Silvia ficarem separados 1PA 34 10 Na loteria são sorteadas 6 dezenas distintas pertencentes ao conjunto A 160 O apostador escolhe 6 números A probabilidade de ganhar é 54 0 6 6 60 6 19108 6 Probabilidade 103 Exercícios 11 Um casal tem 2 filhos Qual a probabilidade de que ambas crianças sejam meninas se a maior for menina 12 ½½ ½½ ½½ 12 Considere 3 urnas A urna A contém 2 bolas brancas e 4 bolas vermelhas a urna B contém 8 bolas brancas e 4 bolas vermelhas e a urna C contém 1 bola branca e 3 bolas vermelhas Uma bola é escolhida aleatoriamente de cada urna Qual a probabilidade de que bola escolhida da urna A seja branca dado que a amostra retirada possua exatamente 2 bolas brancas 711 6 Probabilidade 104 Exercícios 12 2 6 8 12 3 4 2 6 4 12 1 4 2 6 8 12 3 4 2 6 4 12 1 4 4 6 8 12 1 4 7 11 13 Em uma comunidade 36 das famílias possuem um cachorro e 22 dessas famílias são donas de um gato também Sabese que 30 das famílias têm um gato a Qual a probabilidade de que uma família escolhida aleatoriamente seja dona de um gato e de um cachorro 00792 022036 6 Probabilidade 105 Exercícios 13 b Qual a probabilidade condicional de que família escolhida aleatoriamente seja dona de um cachorro dado que é dona de um gato 0264 02203603 14 Um total de 46 dos eleitores de uma cidade se declaram Independentes enquanto que 30 se declaram Liberais e 24 se declaram conservadores Em uma eleição recente 35 dos independentes 62 dos liberais e 58 dos conservadores votaram Um eleitor é escolhido ao acaso Dado que esta pessoa votou na eleição local qual a probabilidade de que seja 6 Probabilidade 106 Exercícios 14 a Independente 03311 035046 03504603062024058 b Liberal 03826 03062 03504603062024058 c Conservador 02863 024058 03504603062024058 d qual a porcentagem de eleitores que participaram da eleição local 04862 035 046 062 03 058 024 6 Probabilidade 107 15 52 dos estudantes da UFPI são do sexo feminino 5 dos estudantes desta universidade são formandos em Matemática 2 dos estudantes são mulheres formandas no curso de Matemática Se um estudante é escolhido aleatoriamente calcule a probabilidade de que a Seja do sexo feminino dado que o estudante selecionado é formando em Matemática 25 002005 b Este estudante seja formando em matemática dado que o estudante escolhido é do sexo feminino 126 002052 6 Probabilidade 7 VARIÁVEIS ALEATÓRIAS DISCRETAS E CONTÍNUAS 108 109 Seja um espaço amostral Ω associado a um experimento aleatório uma variável aleatória é uma função que relaciona o espaço amostral ao conjunto dos reais 𝑋 Ω ℝ É uma função mensurável de um espaço de probabilidade cujo contradomínio é o corpo dos números reais 7 V A Discretas e Contínuas 110 Ex Lançamos um moeda 3 vezes experimento X Número observado de caras nos lançamentos 𝑋 0 𝐶𝐶𝐶 𝑋 1 ቐ 𝐾𝐶𝐶 𝐶𝐾𝐶 𝐶𝐶𝐾 𝑋 2 ቐ 𝐾𝐾𝐶 𝐾𝐶𝐾 𝐶𝐾𝐾 𝑋 3 𝐾𝐾𝐾 Associase a cada 𝑋 𝑥 uma probabilidade 𝑃 𝑋 𝑥 Tipos Discretas e Contínuas 7 V A Discretas e Contínuas 111 Uma va discreta pode assumir valores que podem ser contados Contradomínio ℕ É uma variável para a qual o conjunto A é um conjunto finito ou infinito enumerável Ex 𝐴 12345 ou 𝐴 012 O conjunto das probabilidades 𝑃 𝑋 𝑥 associadas a 𝑋 é chamado de distribuição de probabilidade Ex 𝑋 Número de caras ao lançarmos uma moeda 3 vezes 7 V A Discretas e Contínuas 112 X 0 1 2 3 𝑃 𝑋 𝑥 18 38 38 18 Distribuição de probabilidade de X Para que a função de probabilidade de X 𝑃 𝑋 𝑥 seja legítima deve satisfazer as condições I 𝑃 𝑋 𝑥 0 𝑥 𝑋 II σ𝑥𝑋 𝑃 𝑋 𝑥 1 7 V A Discretas e Contínuas 113 Esperança ou valor esperado 𝐸 𝑋 𝐸 𝑋 𝑥𝑋 𝑥𝑃 𝑋 𝑥 Variância 𝑉 𝑋 𝑉 𝑋 𝐸 𝑋 𝐸 𝑋 2 𝑥𝑋 𝑋 𝐸 𝑋 2𝑃 𝑋 𝑥 𝑉 𝑋 𝐸 𝑋2 𝐸 𝑋 2 𝑥𝑋 𝑥2𝑃 𝑋 𝑥 𝐸 𝑋 2 7 V A Discretas e Contínuas 114 X 0 1 2 3 𝑃 𝑋 𝑥 18 38 38 18 Distribuição de probabilidade de X 𝐸 𝑋 0 1 8 1 3 8 2 3 8 3 1 8 12 8 15 𝐸 𝑋2 02 1 8 12 3 8 22 3 8 32 1 8 24 8 3 𝑉 𝑋 3 15 2 3 225 075 7 V A Discretas e Contínuas 115 Seja 𝑋 uma va com o contradomínio ℝ𝑋 𝑋 é uma va contínua e pode assumir um conjunto infinito de valores Se 𝑋 é uma va absolutamente contínua se existe uma função 𝑓𝑋 ℝ 0 chamada função densidade de probabilidade que satisfaz I 𝑓𝑋 𝑥 0 𝑥 ℝ𝑋 II 𝑓𝑋 𝑥 𝑑𝑥 1 7 V A Discretas e Contínuas 116 Diferente das va discretas 𝑓𝑋 𝑥 não representa uma probabilidade Então para quaisquer 𝑐 𝑑 ℝ𝑋 tal que 𝑐 𝑑 𝑃 𝑐 𝑋 𝑑 න 𝑐 𝑑 𝑓𝑋 𝑥 𝑑𝑥 A probabilidade em um ponto é nula 𝑃 𝑋 𝑥 0 Definese a função de distribuição acumulada 𝐹𝑋 𝑥 𝑥 𝑓𝑋 𝑡 𝑑𝑡 tal que 𝐹𝑋 𝑥 𝑥 𝑓𝑋 𝑥 7 V A Discretas e Contínuas 117 Ex Seja a vac 𝑋 com 𝑓 𝑥 2𝑥 0 𝑥 1 A função de distribuição acumulada é 𝐹 𝑥 න 0 𝑥 2𝑡 𝑑𝑡 𝑥2 0 𝑥 1 Então a probabilidade de 𝑋 está entre 02 e 06 é 𝐹 06 𝐹 02 062 022 036 004 032 7 V A Discretas e Contínuas 118 Propriedades da esperança 1 𝐸 𝑎 𝑎 se 𝑎 é uma constante 2 𝐸 𝑎𝑋 𝑎𝐸 𝑋 3 𝐸 𝑋 𝑎 𝑎 𝐸 𝑋 4 𝐸 𝑎𝑋 𝑏 𝑎𝐸 𝑋 𝑏 em 𝑎 e 𝑏 são constantes 5 𝐸 𝑋 𝑌 𝐸 𝑋 𝐸 𝑌 6 𝐸 𝑔 𝑋 σ𝑥𝑋 𝑔 𝑥 𝑃 𝑋 𝑥 ou 𝑥𝑋 𝑔 𝑥 𝑓 𝑥 𝑑𝑥 7 V A Discretas e Contínuas 119 Propriedades da variância 1 V 𝑋 𝑎 𝑉 𝑋 se 𝑎 é uma constante 2 V 𝑎𝑋 𝑏 𝑎2𝑉 𝑋 3 V 𝑋 𝑌 𝑉 𝑋 𝑉 𝑌 2𝑐𝑜𝑣 𝑋 𝑌 4 𝑉 σ𝑖1 𝑁 𝑎𝑖𝑋𝑖 σ𝑖1 𝑁 𝑎𝑖 2𝑉 𝑋𝑖 2 σ1𝑖𝑗𝑁 𝑎𝑖𝑎𝑗𝑐𝑜𝑣 𝑋𝑖 𝑋𝑗 𝑐𝑜𝑣 𝑋 𝑌 𝐸 𝑋 𝐸 𝑋 𝑌 𝐸 𝑌 𝐸 𝑋𝑌 𝐸 𝑋 𝐸 𝑌 7 V A Discretas e Contínuas 8 PRINCIPAIS VARIÁVEIS ALEATÓRIAS 120 121 Variáveis aleatórias discretas Binomial 𝑋 𝐵 𝑛 𝑝 Sequência de ensaios de Bernoulli Ensaios independentes Ocorrência ou não de um evento S ou F Probabilidade de sucesso 𝑝 é constante em cada ensaio 𝑋 conta o número de sucessos nos 𝑛 ensaios 8 Principais variáveis aleatórias 122 Variáveis aleatórias discretas Binomial 𝑋 𝐵 𝑛 𝑝 a função de probabilidade 𝑃 𝑋 𝑥 𝑛 𝑥 𝑝𝑥 1 𝑝 𝑛𝑥 0 𝑥 𝑛 Esperança 𝐸 𝑋 𝑛𝑝 e Variância 𝑉 𝑋 𝑛𝑝 1 𝑝 Ex 1 Suponha uma prova com 60 questões de múltipla escolha com 5 itens Qual a probabilidade de acertar pelo menos 50 questões no palpite 𝑃 𝑋 50 𝑥50 60 60 𝑥 02𝑥 1 02 60𝑥 961026 8 Principais variáveis aleatórias 123 Variáveis aleatórias discretas Binomial 𝑋 𝐵 𝑛 𝑝 Ex 1 O número esperado de questões certas é 12 Ex 2 10 dados honestos são lançados Qual a probabilidade de que ocorram pelo menos 7 faces 6 nos 10 lançamentos 𝑃 𝑋 7 𝑥7 10 10 𝑥 1 6 𝑥 1 1 6 10𝑥 0000267 8 Principais variáveis aleatórias 124 Variáveis aleatórias discretas Binomial 𝑋 𝐵 𝑛 𝑝 No EXCEL podemos calcular os valores 1 DISTRBINOM𝑥 𝑛 16 VERDADEIRO Ex 1 1 DISTRBINOM496015VERDADEIRO Ex 2 1 DISTRBINOM61016VERDADEIRO Se FALSO 𝑃𝑋 𝑥 8 Principais variáveis aleatórias 125 Variáveis aleatórias discretas Hipergeométrica 𝑋 𝐻𝑖𝑝𝑒𝑟 𝑛 𝑟 𝑁 𝑋 conta o número de sucessos nas 𝑛 extrações Ensaios dependentes sem reposição Ocorrência ou não de um evento S ou F Probabilidade de sucesso 𝑝 é variável em cada ensaio F de probabilidade 𝑃 𝑋 𝑥 𝑟 𝑥 𝑁𝑟 𝑛𝑥 𝑁 𝑛 0 𝑥 𝑛 8 Principais variáveis aleatórias 126 Variáveis aleatórias discretas Hipergeométrica 𝑋 𝐻𝑖𝑝𝑒𝑟 𝑛 𝑟 𝑁 𝑛 é tamanho da amostra 𝑁 o da população e 𝑟 é o número de elementos com a característica desejada Esperança 𝐸 𝑋 𝑛 𝑟 𝑁 Variância 𝑉 𝑋 𝑛 𝑟 𝑁 1 𝑟 𝑁 𝑁𝑛 𝑁1 Ex 1 Seja uma urna com 20 bolas brancas e 25 pretas Retiram se 10 bolas sem reposição dessa urna Qual a probabilidade de termos pelo menos 4 bolas brancas 8 Principais variáveis aleatórias 127 Variáveis aleatórias discretas Hipergeométrica 𝑋 𝐻𝑖𝑝𝑒𝑟 𝑛 𝑟 𝑁 Ex 1 𝑃 𝑋 4 σ𝑥4 10 20 𝑥 4520 10𝑥 45 10 07499 1DISTHIPERGEOMN3102045VERDADEIRO 1DISTHIPERGEOMNx n r N VERDADEIRO Ex 2 Na loteria são sorteadas 6 dezenas distintas de 1 a 60 O apostador escolhe 6 números A probabilidade de ganhar é 54 0 6 6 60 6 19974108 DISTHIPERGEOMN6 6 6 60 FALSO 8 Principais variáveis aleatórias 128 Variáveis aleatórias discretas Poisson 𝑋 𝑃 𝜆 Quando o número de ensaios é muito grande 𝑛 e 𝑝 é pequeno 𝑝 0 Função de probabilidade 𝑃 𝑋 𝑥 𝑒𝜆𝜆𝑥 𝑥 𝑥 0 O parâmetro 𝜆 indica taxa de ocorrência por unidade de medida Esperança e variância iguais 𝐸 𝑋 𝑉 𝑋 𝜆 Ex 1 Suponha que a aplicação de tinta em um automóvel tenha em média um defeito por carro 𝜆 1 8 Principais variáveis aleatórias 129 Variáveis aleatórias discretas Poisson 𝑋 𝑃 𝜆 Ex 1 A probabilidade de apresentar pelo menos um defeito em um carro é 𝑃 𝑋 1 1 𝑃𝑋 0 𝑃 𝑋 1 1 𝑒110 0 06321 𝑥1 𝑒11𝑥 𝑥 EXCEL 1 DISTPOISSON0 1 FALSO Ex 2 Uma central de atendimento recebe em média 20 ligações por dia Qual a probabilidade de receber pelo menos 15 ligações em um dia 8 Principais variáveis aleatórias 130 Variáveis aleatórias discretas Poisson 𝑋 𝑃 𝜆 Ex 2 𝑃 𝑋 15 σ𝑥15 𝑒2020𝑥 𝑥 08951 EXCEL 1 DISTPOISSON14 20 VERDADEIRO Ex 3 Na produção de chapas de metal encontrase em média um defeito a cada metro quadrado Qual a probabilidade serem detectados mais de 4 por m2 𝑃 𝑋 5 σ𝑥5 𝑒11𝑥 𝑥 00036 1 DISTPOISSON4 1 VERDADEIRO 8 Principais variáveis aleatórias 131 Variáveis aleatórias discretas Geométrica 𝑋 𝐺𝑒𝑜 𝑝 Conta o número de ensaios até a ocorrência do sucesso F de probabilidade 𝑃 𝑋 𝑥 𝑝 1 𝑝 𝑥1 𝑥 1 Sucesso ou fracasso em cada ensaio Ensaios independentes Probabilidade constante em cada ensaio Esperança 𝐸 𝑋 1𝑝 e variância 𝑉 𝑋 1𝑝 𝑝2 8 Principais variáveis aleatórias 132 Variáveis aleatórias discretas Geométrica 𝑋 𝐺𝑒𝑜 𝑝 Ex 1 Um dado é lançado Qual a probabilidade da face 6 sair a partir do 6º lançamento 𝑃 𝑋 7 𝑥7 1 6 5 6 𝑥1 02790 Ex 2 Um atirador acerta o alvo com 001 de probabilidade Qual a probabilidade acertar o alvo a partir do 7º disparo 𝑃 𝑋 8 𝑥7 001 099 𝑥1 09227 8 Principais variáveis aleatórias 133 Variáveis aleatórias contínuas Exponencial 𝑋 𝐸𝑥𝑝 𝜃 A va X tem distribuição exponencial com parâmetro 𝜃 se sua densidade for 𝑓 𝑥 𝜃𝑒𝜃𝑥 𝑥 0 𝜃 0 𝜃 é o tempo médio de vida e 𝑥 é um tempo de falha Esperança 𝐸 𝑋 1𝜃 e variância 𝑉 𝑋 1𝜃2 Função de distribuição acumulada 𝐹 𝑥 𝑃 𝑋 𝑥 𝐹 𝑥 න 0 𝑥 𝜃𝑒𝜃𝑡𝑑𝑡 1 𝑒𝜃𝑥 𝑥 0 8 Principais variáveis aleatórias 134 𝑋 𝐸𝑥𝑝 𝜃 8 Principais variáveis aleatórias 135 Variáveis aleatórias contínuas Exponencial 𝑋 𝐸𝑥𝑝 𝜃 Ex 1 O tempo de falha de um sistema tem distribuição exponencial com 𝜃 130000 horas Qual a probabilidade do sistema falhar nas primeiras 25000 horas 𝑃 𝑋 25000 1 𝑒25000 30000 05654 DISTREXPON25000 130000VERDADEIRO 8 Principais variáveis aleatórias 136 Variáveis aleatórias contínuas Exponencial 𝑋 𝐸𝑥𝑝 𝜃 Ex 2 O tempo de falha de um ventilador tem distribuição exponencial com 𝜃 110000 horas Qual a probabilidade do sistema falhar nas primeiras 5000 horas 𝑃 𝑋 5000 1 𝑒 5000 10000 03934 DISTREXPON5000 110000VERDADEIRO 8 Principais variáveis aleatórias 137 Variáveis aleatórias contínuas Normal 𝑋 𝑁 𝜇 𝜎2 Seja X uma vac Normal com média 𝜇 e variância 𝜎2 então sua densidade é 𝑓 𝑥 1 2𝜋𝜎 𝑒 𝑥𝜇 2 2𝜎2 𝑥 𝜇 ℝ 𝜎2 0 Esperança 𝐸 𝑋 𝜇 e variância 𝑉 𝑋 𝜎2 F de distribuição acumulada 𝐹 𝑥 𝜙 𝑥 𝑃 𝑋 𝑥 න 𝑥 1 2𝜋𝜎 𝑒 𝑡𝜇 2 2𝜎2 𝑑𝑡 8 Principais variáveis aleatórias 138 8 Principais variáveis aleatórias 139 Variáveis aleatórias contínuas Normal padrão 𝑍 𝑁 01 Seja Z uma vac Normal com média 0 e variância 1 com densidade 𝑓 𝑧 1 2𝜋 𝑒 𝑧 2 2 𝑧 ℝ 𝑃 𝑋 𝑥 𝑃 𝑍 𝑋𝜇 𝜎 Equivalentes Utilizase a tabela para calcular 𝑃 𝑋 𝑥 Preferível o uso de softwares 8 Principais variáveis aleatórias 140 8 Principais variáveis aleatórias 141 8 Principais variáveis aleatórias 142 Variáveis aleatórias contínuas Normal X 𝑁 𝜇 𝜎2 Ex 1 O peso de um rebanho ovino tem distribuição normal com média 80kg e variância 4kg2 Qual a probabilidade de uma ovelha ter mais de 78 quilos 𝑃 𝑋 78 08413 𝑃 𝑍 78 80 2 𝑃 𝑍 1 1 DISTNORMN78 80 2 VERDADEIRO 8 Principais variáveis aleatórias 143 Variáveis aleatórias contínuas Normal X 𝑁 𝜇 𝜎2 Ex 2 A temperatura de Teresina tem distribuição normal com média 34C e variância 4C2 Qual a probabilidade de uma temperatura atingir valores maiores que 30 𝑃 𝑋 30 09772 𝑃 𝑍 30 34 2 𝑃 𝑍 2 1 DISTNORMN30 34 2 VERDADEIRO 8 Principais variáveis aleatórias 144 Variáveis aleatórias contínuas Distribuição tStudent 𝑡𝑣 Seja Z uma vac tStudent com v graus de liberdade 𝑓 𝑥 Γ 𝑣 1 2 𝜋𝑣Γ 𝑣 2 1 𝑥2 𝑣 𝑣1 2 𝑥 ℝ 𝑛 ℕ Assumese 𝑣 𝑛 1 𝐸 𝑋 0 e 𝑉 𝑋 Τ 𝑣 𝑣 2 Quando a amostra é grande 𝑛 30 a distribuição t converge para a distribuição normal 8 Principais variáveis aleatórias 145 Variáveis aleatórias contínuas Distribuição tStudent 𝑡𝑣 A distribuição pode ser obtida pela transformação 𝑡 ത𝑋𝜇 𝑆Τ 𝑛 Tem o mesmo formato da distribuição normal mas tem caudas pesadas expressa uma maior dispersão A ideia para se obter as probabilidade é análoga a da distribuição normal através de uma tabela Utilizase os graus de liberdade e o valor da probabilidade 8 Principais variáveis aleatórias 146 Variáveis aleatórias contínuas Comandos no R x seq4545000001 plotxdnormxtypelxlabx ylabfx linesxdtx3lty2 ablinev0colgraylty2 legendtoprightcZt3ltyc12 8 Principais variáveis aleatórias TABELA Distribuição t de Student Unicaudal e Bicaudal φ graus de liberdade α 25 10 5 25 1 05 26 06840 13150 17056 20555 24786 27787 71 06780 12936 16663 19939 23800 26469 9 CONFIABILIDADE 150 Confiabilidade R é a probabilidade de um equipamento ou sistema desempenhar de forma satisfatória suas funções específicas por um período de tempo sob um dado conjunto de condições operacionais Difere do Controle de Qualidade Independe do tempo 9 Confiabilidade 151 A probabilidade de falha Q 1 R até certa data t é denominada não confiabilidade Exemplo Se a probabilidade de falha de um sistema é 5 Q 005 a probabilidade de não haver falha confiabilidade é R 1 005 095 ou 95 A freqüência com que as falhas ocorrem num certo intervalo de tempo é chamada taxa de falha 𝝀 Exemplo 4 falhas em 1000h de operação representa uma taxa de falha de 0004 por hora O inverso da taxa de falha 𝟏𝝀 denomina se Tempo Médio Entre Falhas TMEF ExTMEF 250 horas 9 Confiabilidade 152 Tipos de falhas Prematuras Ocorrem durante o período de depuração ou queima devido a montagens pobres ou fracas ou componentes abaixo do padrão que falham logo depois de postos em funcionamento Os componentes vão sendo substituídos gradualmente verificando se a diminuição da taxa de falha prematura até a taxa de falha total atingir um nível praticamente constante Este nível é atribuído às falhas casuais 9 Confiabilidade 153 Tipos de falhas Casuais Resultam de causas complexas incontroláveis e algumas vezes desconhecidas O período durante o qual as falhas são devidas principalmente a falhas causais é a vida útil do componente ou sistema Por Desgaste Iniciase quando os componentes tenham ultrapassado seus períodos de vida útil A taxa de falha aumenta rapidamente devido ao tempo e a algumas falhas causais 9 Confiabilidade 154 Curva da Taxa de Falha x Tempo Curva da banheira 9 Confiabilidade 155 Cálculo da Confiabilidade É dado pela expressão matemática que indica a probabilidade com que os componentes operarão sem falhas num sistema de taxa de falhas constante até a data t 𝑅 𝑒𝜆𝑡 ou 𝑅 𝑒𝑡 𝑇 Exponencial 𝑅 Confiabilidade 𝑒 Número de Euler 𝑒 2718 𝜆 Taxa de falhas 𝑡 Tempo de operações 𝑇 Tempo médio entre as falhas 9 Confiabilidade 156 Cálculo da Confiabilidade Para aumentar 𝑅 é necessário que a proporção 𝑡𝑇 seja diminuída Quando o TMEF for aumentado a taxa de falha que é o inverso será reduzida Ex Considere uma máquina com TMEF T 025x105 horas Qual a confiabilidade da mesma para um período de 1000 horas Confiabilidade R PT 1000 𝑒𝑡 𝑇 𝑒 1000 025𝑥105 09608 Prob de Falha Q 1 R 00392 Se T 04x106h R 09975 e Q 00025 9 Confiabilidade 157 157 Sistemas de componentes em série Considere um equipamento ou sistema composto de n componentes em série A falha de qualquer um dos componentes significa a quebra do equipamento ou do sistema Sejam 𝑅1 𝑅2 𝑅𝑛 as confiabilidades associadas aos componentes 𝑖s A confiabilidade do sistema é 𝑅 ς𝑖1 𝑛 𝑅𝑖 denominada lei do produto de confiabilidade A probabilidade de falha é 𝑄 1 𝑅 1 2 n 9 Confiabilidade 158 Sistemas de componentes em série Ex 1 Considere um sistema composto de 5 componentes em série A confiabilidade total R 0905 059 Ex 2 Considere um sistema composto de 20 componentes em série com confiabilidades iguais a 080 A confiabilidade total R 08020 00115 Quanto maior o número de componentes em série menor a confiabilidade total R1 090 R2 090 R5 090 9 Confiabilidade Sistemas de redundância paralela Considere um equipamento ou sistema composto de n componentes em paralelo Para que haja a paralisação do sistema é necessário que todos os componentes do sistema falhem Sejam 𝑄1 𝑄2 𝑄𝑛 as probabilidades de falha associadas aos componentes 𝑖s 159 1 2 n 9 Confiabilidade Sistemas de redundância paralela A probabilidade de falha do equipamento é 𝑄 𝑄1 𝑄2 𝑄𝑛 A confiabilidade ou probabilidade de não falhar é 𝑅 1 𝑄 Generalizando 𝑄 ς𝑖1 𝑛 𝑄𝑖 𝑅 1 ς𝑖1 𝑛 𝑄𝑖 A redundância paralela é uma ferramenta de projeto para aumentar a confiabilidade de um sistema ou equipamento Para se conservar as vantagens devem existir recursos que detectem os componentes que falham e os meios que garantam a substituição desses componentes o mais breve possível Desvantagens Aumento de custo peso volume complexidade Maior manutenção 160 9 Confiabilidade Sistemas de redundância paralela Ex Um sistema com dois componentes em paralelo com confiabilidades r1 09 e r2 080 e probabilidades de falha q1 010 e q2 020 A prob de falha total é Q q1xq2 002 A confiabilidade total é R 1 Q 098 maior do que r1 e r2 Ex De maneira geral a prob de falha total é Q q1xq2 002 A confiabilidade total é R 1 Q 098 maior do que r1 e r2 161 9 Confiabilidade 10 CONCEITOS E FATORES DE PERDA Finalidade de prevenir todos os fatos negativos que distorcem um processo de trabalho impedindo que se cumpra o programado e que podem provocar danos eou perdas às pessoas e aos elementos materiais Objetivo Reduzir ou eliminar todos os acidentes que possam interferir ou paralisar um sistema 163 10 Conceitos e fatores de perda Diretrizes da prevenção e controle de perdas 31 Eliminar ações e condições inseguras que poderão ser causas de acidentes com lesões 32 Reconhecer a importância desta ação para melhorar a qualidade dos produtos e evitar os atrasos na produção 33 Assegurar o financiamento de atividades preventivas relacionadas a custos de acidentes com danos humanos eou materiais 164 10 Conceitos e fatores de perda Diretrizes da prevenção e controle de perdas 34 Reconhecer a importância da participação dos especialistas na prevenção Melhor utilização dos recursos disponíveis Ação mais eficiente da empresa 35 Constituir ferramenta dinâmica para medir e avaliar as possibilidades reais da redução no custo dos danos materiais visando despertar o interesse da administração 165 10 Conceitos e fatores de perda Perda desperdício toda e qualquer inutilização de bens materiais e imateriais que direta ou indiretamente causa prejuízos de qualquer natureza para os indivíduos para as organizações e para a sociedade A FAO calcula que a safra mundial de grãos sofra uma perda média de 15 entre a colheita e o consumo por problemas na colheita armazenagem e transporte 166 10 Conceitos e fatores de perda Classificação das perdas Perdas inevitáveis São previsíveis e decorrentes do desbaste da matériaprima para se obter o produto acabado Podem ser reduzidas a um valor mínimo Não são configuradas como desperdícios Ex Produção de roupas peças de madeira chapas de aço 167 10 Conceitos e fatores de perda Classificação das perdas Perdas evitáveis não significa que sejam facilmente identificadas eliminadas ou pelo menos reduzidas Muitas vezes uma perda evitável ocorre simplesmente porque vem mascarada por um fenômeno de perda inevitável Ex Calibração de pneu ou manutenção de uma peça 168 10 Conceitos e fatores de perda Classificação das perdas Perdas evitáveis Visíveis Inadmissíveis e inaceitáveis Perceptíveis evidentes indiscutíveis Acabam sendo admitidas como naturais e aceitáveis ou até mesmo padrões Estabelecidas de ocorrência e de aceitação como se fossem perdas inevitáveis 169 10 Conceitos e fatores de perda Classificação das perdas Perdas evitáveis Visíveis Exemplos garrafas de bebidas que se quebrarão no transporte entrem a fábrica e o revendedor número de peças que não irão atender às especificações do comprador quantidade de embalagens que conterão o produto em peso ou volume inferior ao declarado no rótulo 170 10 Conceitos e fatores de perda Classificação das perdas Perdas evitáveis Visíveis Necessário elaborar criterioso balanço entre o custo da perda e o custo de evitar a perda Distribuidoras de gasolina e álcool sabem que uma parte não desprezível do produto entre 2 a 6 se evapora no transporte Perda poderia ser evitada se o transporte fosse feito à noite 171 10 Conceitos e fatores de perda Classificação das perdas Perdas evitáveis Invisíveis Na primeira análise não se configuram como perdas Compra de materiais com especificações acima das mínimas necessárias Conserto de equipamentos obsoletos Vs Substituição por equipamentos novos Perdas de natureza material cedo ou tarde são descobertas e são rapidamente eliminadas 172 10 Conceitos e fatores de perda Classificação das perdas Perdas evitáveis Invisíveis Perdas invisíveis de natureza comportamental mais difíceis de se descobrir e muito mais difíceis de se eliminar Estão ligadas aos hábitos das pessoas São danosas porque contribuem para a deterioração da eficácia organizacional e da competência dos recursos humanos 173 10 Conceitos e fatores de perda Classificação das perdas Perdas evitáveis Perdas de segurança Decorrente da mobilização de recursos superiores aos necessários para alcançar um resultado Exemplo Estoques de segurança Perdas de segurança gastos com segurança Geralmente provocadas por uma necessidade de se garantir contra possíveis problemas futuros escassez do material ou dificuldades na sua aquisição 174 10 Conceitos e fatores de perda Classificação das perdas Perdas evitáveis Tecnológicas Quando uma necessidade é satisfeita pelo uso de um recurso sem levar em conta a possibilidade de outro às vezes mais aceitável e barato tão ou mais eficiente que o recurso atualmente em uso Reciclagem Ociosidade Substituição Fatores afetados pelas perdas Recursos financeiros Materiais Espaço físico Tempo 175 10 Conceitos e fatores de perda 11 Vetores Aleatórios Vetores Aleatórios Discretos VAD Seja uma experimento aleatório 𝜀 qualquer com espaço amostral Ω Um vetor aleatório é uma função que associa cada ponto do Ω a um vetor no ℝ𝑝 ℝ ℝ ℝ em que 𝑝 é o número de dimensões ou variáveis Letras maiúsculas são usadas para representar as variáveis 𝑋 𝑌 𝑍 Como notação utilizaremos NEGRITO para representar um vetor aleatório p dimensional 𝑿 𝑋1 𝑋2 𝑋𝑝 Se todas as variáveis de 𝑿 forem discretas então 𝑿 é um VAD 177 11 Vetores Aleatórios Vetores Aleatórios Discretos VAD A cada ponto do espaço amostral Ω temos uma probabilidade associada chamada de função de probabilidade discreta e denotada por 𝑃 𝑿 𝒙 𝑃𝑋1 𝑥1 𝑋2 𝑥2 𝑋𝑝 𝑥𝑝 Que deve satisfazer as duas condições para ser uma legítima distribuição de probabilidade conjunta I 0 𝑃 𝑿 𝒙 1 II σ𝑿 𝑃 𝑿 𝒙 σ𝑋1 σ𝑋2 σ𝑋𝑝 𝑃 𝑿 𝒙 1 178 11 Vetores Aleatórios Vetores Aleatórios Discretos VAD De posse da distribuição conjunta é possível obtermos as distribuições marginais de 𝑋𝑖 𝑖 123 𝑝 excluindo as demais variáveis isto é 𝑃 𝑋𝑖 𝑥𝑖 𝑋1 𝑋2 𝑋𝑖1 𝑋𝑖1 𝑋𝑝 𝑃 𝑿 𝒙 𝑝1 Cada marginal expressa a distribuição de probabilidade de 𝑋𝑖 independente das demais 𝑝 1 variáveis Facilita a obtenção da probabilidade de 𝑥𝑖 179 11 Vetores Aleatórios Vetores Aleatórios Discretos VAD Podemos ainda obter as distribuições condicionais que usam o teorema de Bayes como fundamento 𝑃 𝐴 𝐵 Τ 𝑃𝐴 𝐵 𝑃𝐵 Τ 𝑛𝐴 𝐵 𝑛 𝐵 Desta forma podemos obter uma condicional 𝑋𝑖𝑋𝑗 da forma 𝑃 𝑋𝑖𝑋𝑗 𝑥𝑗 𝑃 𝑋𝑖 𝑥𝑖 𝑋𝑗 𝑥𝑗 𝑃 𝑋𝑗 𝑥𝑗 σ𝑋1 σ𝑋2 σ𝑋𝑖1 σ𝑋𝑖1 σ𝑋𝑗1 σ𝑋𝑗1 σ𝑋𝑝 𝑃 𝑿 𝒙 σ𝑋1 σ𝑋2 σ𝑋𝑗1 σ𝑋𝑗1 σ𝑋𝑝 𝑃 𝑿 𝒙 Cada condicional retrata a informação de umaumas variávelis dado outraas variávelis Informação de alta relevância de acordo com a condução da pesquisa 180 11 Vetores Aleatórios Vetores Aleatórios Discretos VAD Tanto as distribuições marginais como as condicionais devem satisfazer as duas propriedades básicas para uma legítimas distribuição de probabilidade Para as marginais I 0 𝑃 𝑋𝑖 𝑥𝑖 1 𝑖 II σ𝑋𝑖 𝑃 𝑋𝑖 𝑥𝑖 1 𝑖 Para as condicionais I 0 𝑃 𝑋𝑖𝑋𝑗 𝑥𝑗 1 𝑖 𝑗 II σ𝑋𝑖 𝑃 𝑋𝑖𝑋𝑗 𝑥𝑗 1 𝑖 𝑗 Podem ser utilizadas como novas distribuições de probabilidade 181 11 Vetores Aleatórios Vetores Aleatórios Discretos VAD Como qualquer distribuição de probabilidade podemos obter a esperança para a conjunta para as marginais e para as condicionais Para a conjunta 𝐸 𝑿 𝑿 𝒙𝑃 𝑿 𝒙 𝑋1 𝑋2 𝑋𝑝 𝑥1𝑥2 𝑥𝑝𝑃 𝑿 𝒙 Para as marginais 𝐸 𝑋𝑖 𝑋𝑖 𝑥𝑖𝑃 𝑋𝑖 𝑥𝑖 𝑖 182 11 Vetores Aleatórios Vetores Aleatórios Discretos VAD Para as condicionais 𝐸 𝑋𝑖𝑋𝑗 𝑥𝑗 𝑋𝑖 𝑥𝑖𝑃 𝑋𝑖𝑋𝑗 𝑥𝑗 𝑖 𝑗 No caso a esperança ou valor esperado pode ser estendida ou generalizada para qualquer função Generalização para a conjunta 𝐸 𝑔𝑿 𝑿 𝑔𝒙𝑃 𝑿 𝒙 𝑋1 𝑋2 𝑋𝑝 𝑔𝑥1 𝑥2 𝑥𝑝𝑃 𝑿 𝒙 183 11 Vetores Aleatórios Vetores Aleatórios Discretos VAD Generalização para as marginais 𝐸 𝑔𝑋𝑖 𝑋𝑖 𝑔𝑥𝑖𝑃 𝑋𝑖 𝑥𝑖 𝑖 Generalização para as condicionais 𝐸 𝑔𝑋𝑖𝑋𝑗 𝑥𝑗 𝑋𝑖 𝑔𝑥𝑖𝑃 𝑋𝑖𝑋𝑗 𝑥𝑗 𝑖 𝑗 Com as generalizações podemos obter a variância definida como 𝑉 𝑋 𝐸 𝑋 𝐸 𝑋 2 E X2 𝐸𝑋 2 184 11 Vetores Aleatórios Vetores Aleatórios Discretos VAD E a covariância que quantifica o grau de associação linear entre 2 variáveis 𝐶𝑂𝑉 𝑋𝑖 𝑋𝑗 𝐸 𝑋𝑖 𝐸𝑋𝑖 𝑋𝑗 𝐸𝑋𝑗 𝑖 𝑗 𝐶𝑂𝑉 𝑋𝑖 𝑋𝑗 𝑋𝑖 𝑋𝑗 𝑥𝑖𝑥𝑗𝑃 𝑋𝑖 𝑥𝑖 𝑋𝑗 𝑥𝑗 𝑋𝑖 𝑥𝑖𝑃 𝑋𝑖 𝑥𝑖 𝑋𝑗 𝑥𝑗𝑃 𝑋𝑗 𝑥𝑗 Para valores maiores do que 0 há relação positiva entre as variáveis Caso contrário elas são inversamente proporcionais Vamos fazer um exemplo 185 11 Vetores Aleatórios Vetores Aleatórios Discretos VAD EXEMPLO Distribuição de Probabilidade Conjunta entre 𝑋 e 𝑌 186 11 Vetores Aleatórios 𝑌𝑋 1 2 3 4 𝑃𝑌 𝑦 0 007 017 023 005 052 1 004 014 023 007 048 𝑃𝑋 𝑥 011 031 046 012 100 𝑋 Nível de satisfação de uma série 𝑌 Se assistiu 5 temporadas ou mais 𝑦 1 Vetores Aleatórios Contínuos VAC Seja uma experimento aleatório 𝜀 qualquer com espaço amostral Ω Um vetor aleatório é uma função que associa cada ponto do Ω a um vetor no ℝ𝑝 ℝ ℝ ℝ em que 𝑝 é o número de dimensões ou variáveis Letras maiúsculas são usadas para representar as variáveis 𝑋 𝑌 𝑍 Como notação utilizaremos NEGRITO para representar um vetor aleatório p dimensional 𝑿 𝑋1 𝑋2 𝑋𝑝 Se todas as variáveis de 𝑿 forem contínuas então 𝑿 é um VAC 187 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC A cada ponto do espaço amostral Ω temos uma densidade sobre a curva chamada de função densidade conjunta denotada por 𝑓𝑿 𝒙 𝑓 𝒙 𝑓𝑥1 𝑥2 𝑥𝑝 Que deve satisfazer as duas condições para ser uma legítima função densidade de probabilidade conjunta I 𝑓 𝒙 𝑓 𝑥1 𝑥2 𝑥𝑝 0 II 𝑋1 𝑋2 𝑋𝑝 𝑓 𝑥1 𝑥2 𝑥𝑝 𝑑𝑥𝑝 𝑑𝑥2𝑑𝑥1 1 188 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC Para De posse da densidade conjunta é possível obtermos as densidades marginais de 𝑋𝑖 𝑖 123 𝑝 excluindo as demais variáveis isto é 𝑓𝑥𝑖 න 𝑋1 න 𝑋2 න 𝑋𝑖1 න 𝑋𝑖1 න 𝑋𝑝 𝑓 𝑥1 𝑥2 𝑥𝑝 𝑑𝑥𝑝 𝑑𝑥𝑖1𝑑𝑥𝑖1 𝑑𝑥2𝑑𝑥1 𝑝1 Cada marginal expressa a densidade de 𝑋𝑖 independente das demais 𝑝 1 variáveis Diferente dos VADs a densidade conjunta não expressa probabilidade 189 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC A probabilidade 𝑃 𝑿 𝒙 0 pois se trata da área sobre a curva de 𝑓𝒙 Desta forma existe apenas a probabilidade acumulada 𝑃 𝑿 𝒙 𝐹 𝒙 que é a chamada função de distribuição acumulada conjunta denotada por 𝑃 𝑿 𝒙 𝐹 𝒙 න 𝑥1 න 𝑥2 න 𝑥𝑝 𝑓 𝑥1 𝑥2 𝑥𝑝 𝑑𝑥𝑝 𝑑𝑥2𝑑𝑥1 Então temos uma distribuição de probabilidade acumulada conjunta de 𝐹 𝒙 Por ser acumulada seu comportamento vai de 0 a 1 de forma crescente 190 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC Podemos ainda obter as densidades condicionais que usam o teorema de Bayes como fundamento 𝑃 𝐴 𝐵 Τ 𝑃𝐴 𝐵 𝑃𝐵 Τ 𝑛𝐴 𝐵 𝑛 𝐵 Desta forma podemos obter uma condicional 𝑋𝑗𝑋𝑖 da forma 𝑓 𝑥𝑗𝑥𝑖 𝑓 𝑥𝑖𝑥𝑗 𝑓 𝑥𝑖 𝑋1 𝑋2 𝑋𝑖1 𝑋𝑖1 𝑥𝑗1 𝑥𝑗1 𝑋𝑝 𝑓 𝒙 𝑑𝑥𝑝 𝑑𝑥𝑖1𝑑𝑥𝑖1 𝑑𝑥𝑗1𝑑𝑥𝑗1 𝑑𝑥2𝑑𝑥1 𝑋1 𝑋2 𝑋𝑖1 𝑋𝑖1 𝑋𝑝 𝑓 𝑥1 𝑥2 𝑥𝑝 𝑑𝑥𝑝 𝑑𝑥𝑖1𝑑𝑥𝑖1 𝑑𝑥2𝑑𝑥1 Cada condicional retrata a informação de umaumas variávelis dado outraas variávelis Informação de alta relevância de acordo com a condução da pesquisa 191 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC Tanto as densidades marginais como as condicionais devem satisfazer as duas propriedades básicas para uma legítimas distribuição de probabilidade Para as marginais I 𝑓 𝑥𝑖 0 𝑖 II 𝑋𝑖 𝑓 𝑥𝑖 𝑑𝑥𝑖 1 𝑖 Para as condicionais I 𝑓 𝑥𝑖𝑥𝑗 0 𝑖 II𝑋𝑖 𝑓 𝑥𝑖𝑥𝑗 𝑑𝑥𝑖 1 𝑖 𝑗 Podem ser utilizadas como novas distribuições de probabilidade 192 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC Como qualquer densidade podemos obter a esperança para a conjunta para as marginais e para as condicionais Para a conjunta 𝐸 𝑿 න 𝑋1 න 𝑋2 න 𝑋𝑝 𝑥1𝑥2 𝑥𝑝𝑓 𝑥1 𝑥2 𝑥𝑝 𝑑𝑥𝑝 𝑑𝑥2𝑑𝑥1 Para as marginais 𝐸 𝑋𝑖 න 𝑋𝑖 𝑥𝑖𝑓 𝑥𝑖 𝑑𝑥𝑖 𝑖 193 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC Para as condicionais 𝐸 𝑋𝑖𝑋𝑗 න 𝑋𝑖 𝑥𝑖𝑓 𝑥𝑖𝑥𝑗 𝑑𝑥𝑖 𝑖 𝑗 No caso a esperança ou valor esperado pode ser estendida ou generalizada para qualquer função Generalização para a conjunta 𝐸 𝑔𝑿 න 𝑋1 න 𝑋2 න 𝑋𝑝 𝑔𝑥1𝑥2 𝑥𝑝𝑓 𝑥1 𝑥2 𝑥𝑝 𝑑𝑥𝑝 𝑑𝑥2𝑑𝑥1 194 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC Generalização para as marginais 𝐸 𝑔𝑋𝑖 න 𝑋𝑖 𝑔𝑥𝑖𝑓 𝑥𝑖 𝑑𝑥𝑖 𝑖 Generalização para as condicionais 𝐸 𝑔𝑋𝑖𝑋𝑗 න 𝑋𝑖 𝑔𝑥𝑖𝑓 𝑥𝑖𝑥𝑗 𝑑𝑥𝑖 𝑖 𝑗 Com as generalizações podemos obter a variância definida como 𝑉 𝑋 𝐸 𝑋 𝐸 𝑋 2 E X2 𝐸𝑋 2 195 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC E a covariância que quantifica o grau de associação linear entre 2 variáveis 𝐶𝑂𝑉 𝑋𝑖 𝑋𝑗 𝐸 𝑋𝑖 𝐸𝑋𝑖 𝑋𝑗 𝐸𝑋𝑗 𝑖 𝑗 𝐶𝑂𝑉 𝑋𝑖 𝑋𝑗 න 𝑋𝑖 න 𝑋𝑗 𝑥𝑖𝑥𝑗𝑓 𝑥𝑖 𝑥𝑗 𝑑𝑥𝑖𝑥𝑗 න 𝑋𝑖 𝑥𝑖𝑓 𝑥𝑖 𝑑𝑥𝑖 න 𝑋𝑗 𝑥𝑗𝑓 𝑥𝑗 𝑑𝑥𝑗 Para valores maiores do que 0 há relação positiva entre as variáveis Caso contrário elas são inversamente proporcionais Ex Seja 𝑓 𝑥 𝑦 𝑐 𝑥 𝑦 2 0 𝑥 𝑦 1 determinar o valor de 𝑐 as marginais as condicionais 196 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC Ex Seja 𝑓 𝑥 𝑦 𝑐 𝑥 𝑦 2 0 𝑥 𝑦 1 determinar o valor de 𝑐 as marginais as condicionais Valor de 𝑐 0 1 0 1 𝑐 𝑥 𝑦 2𝑑𝑥𝑑𝑦 1 𝑐 0 1 0 1 𝑥 𝑦 2𝑑𝑥𝑑𝑦 1 𝑐 න 0 1 න 0 1 𝑥2 2𝑥𝑦 𝑦2𝑑𝑥𝑑𝑦 𝑐 න 0 1 න 0 1 𝑥2𝑑𝑥𝑑𝑦 න 0 1 න 0 1 2𝑥𝑦𝑑𝑥𝑑𝑦 න 0 1 න 0 1 𝑦2𝑑𝑥𝑑𝑦 𝑐 න 0 1 𝑥3 3 𝑑𝑦 න 0 1 𝑥2𝑦𝑑𝑦 න 0 1 𝑥𝑦2 𝑑𝑦 𝑐 𝑥3𝑦 3 𝑥2𝑦2 2 𝑥𝑦3 3 0 1 1 𝑐 1 3 1 2 1 3 1 197 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC Ex Seja 𝑓 𝑥 𝑦 𝑐 𝑥 𝑦 2 0 𝑥 𝑦 1 determinar o valor de 𝑐 as marginais as condicionais Valor de 𝑐 𝑐7 6 1 𝑐 6 7 𝑓 𝑥 𝑦 6 7 𝑥 𝑦 2 0 𝑥 𝑦 1 Marginal de 𝑋 𝑓 𝑥 0 1 6 7 𝑥 𝑦 2𝑑𝑦 6 7 0 1 𝑥2 2𝑥𝑦 𝑦2 𝑑𝑦 𝑓 𝑥 6 7 න 0 1 𝑥2𝑑𝑦 න 0 1 2𝑥𝑦𝑑𝑦 න 0 1 𝑦2𝑑𝑦 6 7 𝑥2 𝑥 1 3 0 𝑥 1 198 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC Ex Seja 𝑓 𝑥 𝑦 6 7 𝑥 𝑦 2 0 𝑥 𝑦 1 determinar o valor de 𝑐 as marginais as condicionais Marginal de Y 𝑓 𝑦 0 1 6 7 𝑥 𝑦 2𝑑𝑥 6 7 0 1 𝑥2 2𝑥𝑦 𝑦2 𝑑𝑥 𝑓 𝑦 6 7 න 0 1 𝑥2𝑑𝑥 න 0 1 2𝑥𝑦𝑑𝑥 න 0 1 𝑦2𝑑𝑥 6 7 𝑥2 3 𝑥2𝑦 𝑥𝑦2 0 𝑦 1 𝑓 𝑦 6 7 1 3 𝑦 𝑦2 0 𝑦 1 199 11 Vetores Aleatórios Vetores Aleatórios Contínuos VAC Ex Seja 𝑓 𝑥 𝑦 67 𝑥 𝑦 2 0 𝑥 𝑦 1 determinar o valor de 𝑐 as marginais as condicionais Condicional de YX 𝑓 𝑦𝑥 𝑓 𝑥 𝑦 𝑓 𝑥 𝑥 𝑦 2 𝑥2 𝑥 1 3 0 𝑦 1 Condicional de XY 𝑓 𝑥𝑦 𝑓 𝑥 𝑦 𝑓 𝑦 𝑥 𝑦 2 1 3 𝑦 𝑦2 0 𝑥 1 200 11 Vetores Aleatórios 12 AMOSTRAGEM População Finita x Infinita Infinita Jogadas sucessivas de uma moeda Finita Número de alunos matriculados na disciplina em 20201 Amostra x Amostragem Amostragem Probabilística x Não Probabilística 202 12 Amostragem Probabilística Uso de técnicas que usam mecanismos aleatórios de seleção dos elementos da amostra atribuindo a cada um deles uma probabilidade conhecida a priori de pertencer à amostra Não Probabilística Amostras intencionais onde os elementos são selecionados com o auxílio de especialistas Amostras de voluntários como ocorre com alguns testes sobre novos remédios 203 12 Amostragem Probabilística Amostragem Aleatória Simples AAS Indivíduos selecionados aleatóriamente Todos elementos têm a mesma probabilidade Com AASc e sem AASs reposição Métodos para aleatorizar Excel aleatórioentre1100 R samplex size replace FALSE 204 12 Amostragem Probabilística Amostragem Sistemática AS Conveniente quando a população está organizada sob algum critério fichas de um fichário lista telefônica Calculase o intervalo de amostragem Nn aproximandose para o inteiro mais próximo Sorteiase um número aleatório x entre 1 e a Nn x x a x 2a x na 205 12 Amostragem Probabilística Amostragem Estratificada AE A população é particionada em estratos e a AAS é feita em cada um Populações com estratos homogêneos internamente mas heterogêneos entre si Tamanhos de amostra para alocação proporcional 𝑛𝑖 𝑁𝑖 𝑁 𝑛 𝑖 12 𝑘 𝑘 é o número de estratos 206 12 Amostragem Probabilística Amostragem por Conglomerados AC A população é particionada em conglomerados Alguns conglomerados são selecionados aleatoriamente para integrar a amostra global Conglomerados heterogêneos e homogêneos entre si Podese selecionar todos ou alguns elementos Amostragem em múltiplos estágios 207 12 Amostragem Não Probabilística Amostragem por Conveniêcia Participação voluntária Elementos escolhidos por uma questão de conveniência ou simplicidade A amostra não é representativa Empregada somente em casos especiais 208 12 Amostragem Não Probabilística Amostragem por Julgamento Amostra é selecionada segundo a opinião de um especialista Não é representativa Exemplo em uma pesquisa sobre os livros mais relevantes para a pósgraduação um especialista elaborou a lista dos alunos a serem entrevistados 209 12 Amostragem Não Probabilística Amostragem por Quotas Difere da AE pelo fato da seleção dos elementos não ser aleatória Vantagem Rapidez Economia e Facilidade de administração Exemplo uma empresa deseja lançar um novo produto de emagrecimento e o públicoalvo são mulheres entre 15 e 40 anos das classes sociais A e B A população é dividida em categorias de acordo com as variáveis de controle idade e classe social Uma amostra de 5 da população recebe uma amostra grátis do produto 210 12 Amostragem Não Probabilística Amostragem por Bola de Neve Identifique possíveis sujeitos na população Muitas vezes apenas um ou dois assuntos podem ser encontrados inicialmente Os sujeitos selecionados recrutam a outras pessoas Os participantes devem estar cientes de que não precisam fornecer nenhum outro nome 211 12 Amostragem Não Probabilística Amostragem por Bola de Neve 212 12 Amostragem Tamanho amostral População infinita Variável quantitativa 𝑛 𝑍𝛼2𝜎 𝜀 2 𝑛 Tamanho amostral 𝑍𝛼2 Quantil da normal padrão com 𝛼 desejado 𝜎 Desviopadrão da variável quantitativa 𝜀 Erro máximo de estimativa 213 12 Amostragem Tamanho amostral População infinita Variável quantitativa Exemplo Um economista deseja estimar a renda média para o primeiro ano de trabalho de um bacharel em estatística Quantos valores de renda devem ser tomados se o economista deseja ter 95 de confiança em que a média amostral esteja a menos de 50000 reais da verdadeira média populacional Suponha que saibamos por um estudo piloto que para tais rendas 𝜎 625000 𝑛 𝑍𝛼2𝜎 𝜀 2 196 𝑥 6250 500 2 60025 601 214 12 Amostragem Tamanho amostral População infinita Variável qualitativa 𝑛 𝑍𝛼2 𝜀 2 𝑝 1 𝑝 𝑛 Tamanho amostral 𝑍𝛼2 Quantil da normal padrão com 𝛼 desejado 𝑝 Proporção de resultados favoráveis da variável em estudo 𝜀 Erro máximo de estimativa 215 12 Amostragem Tamanho amostral População infinita Variável quantitativa Exemplo Um assistente social deseja saber o tamanho da amostra n necessário para determinar a proporção da população atendida por uma Unidade de Saúde que pertence ao município de Campo Maior Não foi feito um levantamento prévio da proporção amostral e portanto seu valor é desconhecido Ela quer ter 90 de confiança e que seu erro máximo de estimativa seja de 5 005 Quantas pessoas necessitam ser entrevistadas 𝑛 𝑍𝛼2 𝜀 2 𝑝 1 𝑝 1645 005 2 05 1 05 2706 271 216 12 Amostragem Tamanho amostral População finita Variável quantitativa 𝑛 𝑁𝑍 Τ 𝛼 2 2 𝜎2 𝑁 1 𝜀2 𝑍 Τ 𝛼 2 2 𝜎2 𝑛 Tamanho amostral 𝑁 Tamanho da população 𝑍𝛼2 Quantil da normal padrão com 𝛼 desejado 𝜎 Desviopadrão da variável quantitativa 𝜀 Erro máximo de estimativa 217 12 Amostragem Tamanho amostral População finita Variável quantitativa Exemplo Um economista deseja estimar a renda média para o primeiro ano de trabalho de um bacharel em estatística Supondo uma população de tamanho 10000 Quantos valores de renda devem ser tomados se o economista deseja ter 90 de confiança em que a média amostral esteja a menos de 75000 reais da verdadeira média populacional Suponha que saibamos por um estudo piloto que para tais rendas 𝜎 400000 𝑛 𝑁𝑍 Τ 𝛼 2 2 𝜎2 𝑁 1 𝜀2 𝑍 Τ 𝛼 2 2 𝜎2 1000016452 40002 9999 7502 16452 40002 7639 77 218 12 Amostragem Tamanho amostral População finita Variável quantitativa 𝑛 𝑁𝑝 1 𝑝 𝑍 Τ 𝛼 2 2 𝑁 1 𝜀2 𝑝1 𝑝𝑍 Τ 𝛼 2 2 𝑛 Tamanho amostral 𝑁 Tamanho da população 𝑍𝛼2 Quantil da normal padrão com 𝛼 desejado 𝑝 Proporção de resultados favoráveis da variável em estudo 𝜀 Erro máximo de estimativa 219 12 Amostragem Tamanho amostral População infinita Variável quantitativa Exemplo Um assistente social deseja saber o tamanho da amostra n necessário para determinar a proporção da população atendida por uma Unidade de Saúde que pertence ao município de Campo Maior Não foi feito um levantamento prévio da proporção amostral e portanto seu valor é desconhecido Ela quer ter 95 de confiança e que seu erro máximo de estimativa seja de 4 004 Quantas pessoas necessitam ser entrevistadas Admita N 100000 𝑛 𝑁𝑝 1 𝑝 𝑍 Τ 𝛼 2 2 𝑁 1 𝜀2 𝑝1 𝑝𝑍 Τ 𝛼 2 2 100000 025 1962 99999 0042 025 1962 5967 597 220 12 Amostragem 12 DISTRIBUIÇÕES AMOSTRAIS 12 Distribuições Amostrais 222 Parâmetro As quantidades da população em geral desconhecidas sobre as quais temos interesse são denominadas parâmetros e são representadas por letras gregas Exemplos 𝜇 média de var quantitativa na população 𝜎2 variância na população 𝑝 proporção na população 223 Estatística Uma Estatística é uma característica da amostra ou seja uma estatística T é uma função de 𝑋1 𝑋2 𝑋𝑛 e portanto é uma variável aleatória São exemplos de Estatísticas T𝑋1 𝑋2 𝑋𝑛 ത𝑋 σ𝑖1 𝑛 𝑋𝑖 𝑛 média amostral T𝑋1 𝑋2 𝑋𝑛 𝑆2 1 𝑛 1 σ𝑖1 𝑛 𝑋𝑖 ത𝑋 variância amostral T𝑋1 𝑋2 𝑋𝑛 𝑋1 Mín𝑋1 𝑋2 𝑋𝑛 menor valor na amostra 12 Distribuições Amostrais 224 Estimador Pontual é uma estatística construída com a finalidade de representar ou estimar um parâmetro de interesse na população São exemplos de Estimadores Pontuais Ƹ𝜇 ത𝑋 a média amostral é estimador da média na população 𝜇 𝜎2 𝑆2 a variância amostral é estimador de 𝜎2 variância da população Ƹ𝑝 a proporção amostral é estimador da proporção de unidades com a característica de interesse na população 𝑝 12 Distribuições Amostrais 225 Propriedades de Estimadores Vício um estimador 𝜃 é não viciado ou não viesado para o parâmetro 𝜃 se 𝐸 𝜃 𝜃 A média amostral ത𝑋 é estimador não viesado de 𝜇 e a variância amostral 𝑆2 é estimador não viesado de 𝜎2 Consistência Um estimador 𝜃 é consistente para 𝜃 se à medida que o tamanho da amostra aumenta seu valor esperado converge para o parâmetro de interesse e sua variância converge para zero lim 𝑛 𝐸 𝜃 𝜃 lim 𝑛 𝑉𝑎𝑟 𝜃 0 12 Distribuições Amostrais 226 Estimativa É um valor numérico assumido pelo estimador São exemplos de Estimativas ത𝑋 122 é o valor de ത𝑋 para uma dada amostra observada 𝑆2 144 é o valor de 𝑆2 para uma dada amostra observada Ƹ𝑝 59 é o valor de Ƹ𝑝 para uma dada amostra observada Distribuições Amostrais Um estimador é uma função de variáveis aleatórias e portanto também é variável aleatória com uma distribuição de probabilidade denominada Distribuição Amostral 12 Distribuições Amostrais 227 12 Distribuições Amostrais Bussab e Morettin 2013 228 Ex Consideremos uma população em que a variável 𝑋 pode assumir um dos valores do conjunto 1 3 5 5 7 A distribuição de probabilidade de 𝑋 é 12 Distribuições Amostrais 𝑋 1 3 5 7 𝑃 𝑋 𝑥 1 5 1 5 2 5 1 5 Esperança e Variância E 𝑋 𝜇𝑋 42 𝑉𝑎𝑟 𝑋 𝐸 𝑋 𝜇 2 𝜎𝑋 2 416 229 Figura 1 Distribuição amostral de ത𝑋 para amostras de tamanho 1 12 Distribuições Amostrais 230 Ex Vamos selecionar todas as amostras aleatórias simples de tamanho 2 𝑛 2 selecionadas ao acaso e com reposição da população 𝑋 e encontrar a distribuição do estimador pontual Ƹ𝜇𝑋 ത𝑋 ou seja vamos encontrar a distribuição da média amostral ത𝑋 𝑋1 𝑋2 2 em que 𝑋1 é o valor selecionado na primeira extração 𝑋2 é o valor selecionado na segunda extração 12 Distribuições Amostrais 231 12 Distribuições Amostrais Amostra 𝑋1 𝑋2 Probabilidade Média Amostral 11 125 1 13 125 2 15 225 3 17 125 4 31 125 2 33 125 3 35 225 4 37 125 5 51 225 3 53 225 4 55 425 5 57 225 6 71 125 4 73 125 5 75 225 6 77 125 7 232 Distribuição de ത𝑋 para 𝑛 2 12 Distribuições Amostrais ത𝑋 1 2 3 4 5 6 7 𝑃 ത𝑋 ҧ𝑥 1 25 2 25 5 25 6 25 6 25 4 25 1 25 Esperança e Variância de ത𝑋 𝑛 2 𝐸 ത𝑋 𝜇𝑥 42 𝑉𝑎𝑟 ത𝑋 208 𝜎𝑋 2 2 233 Distribuição de ത𝑋 para 𝑛 3 Esperança e Variância de ത𝑋 para 𝑛 3 𝐸 ത𝑋 𝜇𝑋 42 e 𝑉𝑎𝑟 ത𝑋 139 𝜎𝑋 2 3 12 Distribuições Amostrais ത𝑋 𝑃 ത𝑋 ҧ𝑥 1 53 73 3 11 133 5 173 193 1 1125 3125 9125 16125 24125 27125 23125 15125 6125 1125 234 Figura 2 Histogramas correspondentes às distribuições de X e ത𝑋 para diferentes amostras da população 13557 235 Análise dos Histogramas Conforme o tamanho da amostra aumenta 𝑛 os valores de ത𝑋 tendem a concentrarse cada vez mais em torno de 𝐸 ത𝑋 𝜇𝑋 4 2 A variância diminui à medida em que o tamanho da amostra aumenta Para suficientemente grande a forma do histograma aproximase de uma distribuição normal Os gráficos acima sugerem que quando o tamanho da amostra aumenta independentemente da forma da distribuição de 𝑋 a distribuição de probabilidade da média amostral ത𝑋 aproximase de uma distribuição normal 12 Distribuições Amostrais 236 Figura 3 Histogramas correspondentes às distribuições de ത𝑋 para amostras de tamanho 1 de algumas populações 237 Figura 4 Histogramas correspondentes às distribuições de ത𝑋 para amostras de tamanho 50 de algumas populações 238 Teorema Central do Limite TCL Para amostras aleatórias simples 𝑋1 𝑋2 𝑋𝑛 retiradas de uma população com média 𝜇 e variância 𝜎2 finita a distribuição amostral da média ത𝑋 aproximase para 𝑛 grande de uma distribuição normal com média 𝜇 e variância 𝜎2 𝑛 e ത𝑋 𝜇 Τ 𝜎 𝑛 𝑛 Dist 𝑍 𝑁 01 A variável 𝑒 ത𝑋 𝜇 é denominada erro amostral da média O desvio padrão 𝜎 𝑛 é denominado erro padrão da média 12 Distribuições Amostrais 239 Altman 𝑝 153 𝜇 35𝑔𝑙 𝜎 6 𝑔𝑙 12 Distribuições Amostrais 240 Altman p155 Serum Bilirubin 𝜇 6073 𝜎 7791 Log Serum Bilirubin parece 𝑁36 1 12 241 Ex Sabese que o gasto diário com internações segue uma distribuição de média 20 mil e desvio padrão 2 mil Qual é a probabilidade de que num período de 60 dias o gasto total ultrapasse R 123000000 Seja 𝑋 o gasto diário em milhares de reais e sejam os gastos diários independentes Sabemos que 𝐸𝑋 𝜇𝑋 20 e 𝜎𝑋 𝑉𝑎𝑟 𝑋 2 Obtendo uma amostra de 60 valores denotada por 𝑋1 𝑋2 𝑋60 com 𝑋𝑖 representando o gasto no dia 𝑖 1 2 3 60 Então 𝑃 𝑋1 𝑋2 𝑋60 1230 𝑃 𝑋1 𝑋2 𝑋60 60 1230 60 𝑃 ത𝑋 205 𝑃 𝑍 60 205 20 Τ 2 00262 12 Distribuições Amostrais 13 MÉTODOS DE ESTIMAÇÃO 243 Após descoberto o estimador a inferência é baseada nele mas como obter um estimador Existem métodos empregados na estimação dos parâmetros Os principais são Máxima verossimilhança Momentos Mínimos quadrados 13 Métodos de Estimação 244 Máxima verossimilhança Definição Seja 𝑋1 𝑋2 𝑋𝑛 uma amostra aleatória da variável aleatória X com fdp ou fp 𝑓𝑥𝜃 com 𝜃 Θ a função de verossimilhança é 𝐿𝜃 𝑥 𝑖1 𝑛 𝑓𝑥𝑖 𝜃 Aplicase o logaritmo 𝑙 𝜃 𝑥 log 𝐿 𝜃 𝑥 logverossimilhança O estimador de máxima verossimilhança é dado pela raiz da equação 𝑙𝜃 𝑥 𝛿𝑙𝜃 𝑥 𝛿𝜃 0 13 Métodos de Estimação 245 Máxima verossimilhança Podese necessitar de métodos numéricos Para se concluir que é ponto de máximo fazse o teste 𝑙𝜃 𝑥 อ 𝛿2 𝑙 𝜃 𝑥 𝛿𝜃2 𝜃 𝜃 0 Desta forma obtém o estimador de máxima verossimilhança 𝜃 para 𝜃 13 Métodos de Estimação 246 Ex 1 Sejam 𝑋1 𝑋2 𝑋𝑛 uma amostra aleatória da variável aleatória 𝑋 𝑁µ 𝜎2 determine o estimador de máxima verossimilhança de µ Ex 2 Sejam 𝑋1 𝑋2 𝑋𝑛 uma amostra aleatória da variável aleatória 𝑋 𝐵𝐸𝑅𝜃 determine o estimador de máxima verossimilhança de 𝜃 Ex 3 Sejam 𝑋1 𝑋2 𝑋𝑛 uma amostra aleatória da variável aleatória 𝑋 com fdp 𝑓𝑥𝜃 1 2𝜋𝜃 exp 𝑥2 2𝜃 determine o estimador de máxima verossimilhança de 𝜃 Ex 4 Sejam 𝑋1 𝑋2 𝑋𝑛 uma aa da va 𝑋 com fp 𝑓𝑥𝜃 𝜃 𝑥 1 𝜃1 𝐼 𝑥 01 determine o estimador de máxima verossimilhança de 𝜃 13 Métodos de Estimação 247 Momentos O método dos momentos é o mais simples Sistema entre os momentos amostral 𝑀𝑟 ത𝑋 e populacional µ𝑟 𝐸𝑋𝑟 Ex Seja a fp 𝑓𝑥𝑁 1 𝑁 𝐼 𝑥 01𝑁 ache o estimador 𝑁 pelos métodos dos momentos µ𝑟 𝑁 1 2 ത𝑋 𝑁 2 ത𝑋 1 Mínimos Quadrados Minimiza o erro experimental Análise de regressão 13 Métodos de Estimação 14 EFICIÊNCIA CONSISTÊNCIA E SUFICIÊNCIA 248 14 Eficiência Consistência e Suficiência 249 Estimadores eficientes Estimador eficiente é aquele que atinge o limite inferior da variância dos estimadores não viciados São obtidos apenas para a família exponencial de distribuições Definição 1 A eficiência de um estimador 𝜃 não viciado para 𝜃 é dada por 𝑒 𝜃 𝐿𝐼 𝜃 𝑉 𝜃 𝐿𝐼𝜃 é o limite inferior da variância dos estimadores não viciados de 𝜃 250 Estimadores eficientes Família Exponencial Uma va X com fdp ou fp 𝑓𝑥𝜃 pertence à família exponencial se for possível reescrever sua função como 𝑓 𝑥 𝜃 exp 𝐶 𝜃 𝑇 𝑋 𝑑 𝜃 𝑆 𝑋 Ex Se X é binomial com 5 ensaios e parâmetro 𝜃 𝑓 𝑥 𝜃 exp ln 5 𝑥 𝑥𝑙𝑛 𝜃 1 𝜃 5ln1 𝜃 T σ𝑖1 𝑛 𝑇 𝑥𝑖 é uma estatística suficiente 14 Eficiência Consistência e Suficiência 251 Estimadores eficientes Família Exponencial Se X Nµ 𝜎2 então 𝑓 𝑥 µ 𝜎 1 2𝜋𝜎 exp 𝑥 𝜇 2 2𝜎2 𝑥 ℝ Cµ 𝜇 𝜎2 T𝑥 𝑥 d µ 𝜇2 2𝜎2 S𝑥 𝑥2 2𝜎2 𝑙𝑛 2𝜋𝜎2 14 Eficiência Consistência e Suficiência 252 Estimadores eficientes 1 O estimador é eficiente quando 𝑒 𝜃 1 𝐿𝐼𝜃 1 𝑛𝐸 𝛿 log 𝑓 𝑥𝜃 𝛿𝜃 2 𝐿𝐼𝜃 deve atender as condições de regularidade Suporte de X independente de 𝜃 Inversão da ordem de derivação e integração de 𝑓 𝑥 𝜃 Logaritmo é calculado na base 𝑒 14 Eficiência Consistência e Suficiência 253 Estimadores eficientes Ex 1 Sejam 𝑋1 𝑋2 𝑋𝑛 uma amostra aleatória de 𝑋 𝑁µ 𝜎2 determine a eficiência de µ 𝑒 Ƹ𝜇 Ex 2 Sejam 𝑋1 𝑋2 𝑋𝑛 uma amostra aleatória de 𝑋 𝑃𝜆 determine a eficiência de λ 𝑒 መ𝜆 14 Eficiência Consistência e Suficiência 254 Estimadores eficientes A quantidade 𝛿 log 𝑓𝑥𝜃 𝛿𝜃 é chamada função escore e tem a propriedade 𝐸 𝛿 log 𝑓𝑥𝜃 𝛿𝜃 0 A esperança da função escore é nula A quantidade 𝐼𝐹𝜃 𝐸 𝛿𝑙𝑜𝑔𝑓 𝑥 𝜃 δθ 2 Conhecida como informação de Fisher de 𝜃 14 Eficiência Consistência e Suficiência 255 Estimadores eficientes Como consequência da Definição 2 𝐼𝐹 𝜃 𝑉 𝛿 log 𝑓𝑥𝜃 𝛿𝜃 𝐸 𝛿 log 𝑓𝑥𝜃 𝛿𝜃 2 E δ2 log 𝑓𝑥𝜃 δθ2 𝐼𝐹𝜃 forma de medir a informação que uma va possui sobre 𝜃 Usando 𝐿𝜃 𝑋no lugar de 𝑓 𝑥 𝜃 desigualdade da informação Quando as condições de regularidade são satisfeitas a variância de qualquer estimador não viciado de 𝜃 satisfaz a chamada desigualdade de CramérRao 𝑉 𝜃 1 𝑛𝐼𝐹𝜃 14 Eficiência Consistência e Suficiência 256 Estimadores eficientes Ex Sejam 𝑋1 𝑋2 𝑋𝑛 uma amostra aleatória de 𝑋 𝑃𝜆 calcule da desigualdade de CramérRao 14 Eficiência Consistência e Suficiência 257 Estimadores consistentes Sejam 𝑋1 𝑋2 𝑋𝑛 uma amostra aleatória da va X com fdp ou fp 𝑓𝑥𝜃 Dizemos que o estimador 𝜃 é consistente para 𝜃 se lim 𝑛 𝑃 𝜃 𝜃 0 Utilizase a desigualdade de Chebyshev para demonstração 𝑃𝑋 𝑎 𝐸 𝑋 𝑎 14 Eficiência Consistência e Suficiência 258 Estimadores consistentes Ex Sejam 𝑋1 𝑋2 𝑋𝑛 uma amostra aleatória da va X com média µ e variância 𝜎2 Temos que pela desigualdade de Chebyshev 𝑃 ത𝑋 𝜃 𝜖 𝜎2 𝑛𝜖2 0 Assim lim 𝑛 𝑃 ത𝑋 𝜃 𝜖 0 ത𝑋 é consistente 14 Eficiência Consistência e Suficiência 259 Estatísticas suficientes Condensam a informação dos dados sem perder nenhuma informação contida neles São tão informativos para o parâmetro quanto a amostra Todo estimador ótimo é função de uma estatística suficiente 14 Eficiência Consistência e Suficiência 260 Estatísticas suficientes Condensam a informação dos dados sem perder nenhuma informação contida neles São tão informativos para o parâmetro quanto a amostra Todo estimador ótimo é função de uma estatística suficiente Definição Uma estatística 𝑇 𝑇𝑋1 𝑋2 𝑋𝑛 é suficiente para 𝜃 quando a distribuição condicional de 𝑋1 𝑋2 𝑋𝑛 dado 𝑇 for independente de 𝜃 14 Eficiência Consistência e Suficiência 261 Estatísticas suficientes Ex Sejam 𝑋1 𝑋2 𝑋𝑛 uma amostra aleatória da distribuição binomial 𝐵1 𝜃 a estatística 𝑇 σ𝑖1 𝑛 𝑋𝑖 é suficiente 𝑃 𝑋1 𝑥1 𝑋𝑛 𝑥𝑛 𝑇 𝑡 𝑃𝑋1 𝑥1 𝑋𝑛 𝑥𝑛 𝑃𝑇 𝑡 𝑃𝑋1 𝑥1 𝑋𝑛 𝑥𝑛 𝑃𝑇 𝑡 𝜃𝑥1 1 𝜃 𝑋1 𝜃𝑋𝑛 1 𝜃 𝑋𝑛 𝑛 𝑡 𝜃 𝑡 1 𝜃 𝑛𝑡 1 𝑛 𝑡 14 Eficiência Consistência e Suficiência 262 Estatísticas suficientes Ex Sejam 𝑋1 𝑋2 𝑋𝑛 uma amostra aleatória da distribuição poisson 𝑃𝜃 a estatística 𝑇 σ𝑖1 𝑛 𝑋𝑖 é suficiente 14 Eficiência Consistência e Suficiência 14 Eficiência Consistência e Suficiência 263 Demonstração Temse interesse em demonstrar 𝐸 ln 𝑓 𝑦 𝜃 0 e E 2 ln 𝑓 𝑦 𝜃2 𝐸 ln 𝑓 𝑦 𝜃 2 Na 1ª igualdade E ln 𝑓𝑦 𝜃 න 𝐴 ln 𝑓 𝑦 𝜃 𝑓 𝑦 𝑑𝑦 න 𝐴 𝑓 𝑦 𝜃 1 𝑓 𝑦 𝑓 𝑦 𝑑𝑦 න 𝐴 𝑓 𝑦 𝜃 𝑑𝑦 𝜃 න 𝐴 𝑓 𝑦 𝑑𝑦 𝜃 1 0 264 Demonstração Na 2ª igualdade derivada do quociente 2 ln 𝑓𝑦 𝜃 𝜃 ln 𝑓𝑦 𝜃 𝜃 𝑓𝑦 𝜃 1 𝑓𝑦 2𝑓 𝑦 𝜃2 𝑓𝑦 𝑓 𝑦 𝜃 2 1 𝑓 𝑦 2 2𝑓 𝑦 𝜃2 1 𝑓𝑦 𝑓 𝑦 𝜃 2 1 𝑓 𝑦 2 2𝑓 𝑦 𝜃2 1 𝑓 𝑦 𝑓 𝑦 𝜃 2 3 14 Eficiência Consistência e Suficiência 265 Demonstração Usando o valor esperado de 3 cond Regularidades E 2 ln 𝑓 𝑦 𝜃2 න 𝐴 2 ln 𝑓 𝑦 𝜃2 𝑓 𝑦 𝑑𝑦 න 𝐴 2𝑓 𝑦 𝜃2 1 𝑓 𝑦 ln 𝑓 𝑦 𝜃 2 𝑓 𝑦 𝑑𝑦 න 𝐴 2𝑓 𝑦 𝜃2 𝑑𝑦 න 𝐴 ln 𝑓 𝑦 𝜃 2 𝑓 𝑦 𝑑𝑦 2 2𝜃 න 𝐴 𝑓 𝑦 𝑑𝑦 1 𝐸 ln 𝑓 𝑦 𝜃 2 2 𝜃2 1 𝐸 ln 𝑓 𝑦 𝜃 2 𝐸 ln 𝑓 𝑦 𝜃 2 4 14 Eficiência Consistência e Suficiência 266 Demonstração Por 2 temse também que 𝑉 ln 𝐹 𝑦 𝜃 𝐸 ln 𝐹 𝑦 𝜃 2 𝐸 ln 𝑓 𝑦 𝜃 2 0 𝐸 ln 𝐹 𝑦 𝜃 2 𝐸 ln 𝐹 𝑦 𝜃2 5 14 Eficiência Consistência e Suficiência 267 Demonstração Desigualdade da informação Quando as condições de regularidade são satisfeitas a variância de qualquer estimador nãoviciado para 𝜃 satisfaz a desigualdade 𝑉 𝜃 1 𝑛𝐼𝐹 𝜃 PROVA Seja X uma va contínua e uma amostra aleatória de tamanho n tem se que 𝐈 න න න 𝐿 𝜃 𝒙 𝑑𝑥 𝑑𝑥𝑛1𝑑𝑥𝑛 1 𝐿 𝜃 𝑥 𝑖1 𝑛 𝑥𝑖𝜃 14 Eficiência Consistência e Suficiência 268 Demonstração 𝑰𝑰 𝐸 𝜃 න න න 𝜃𝐿 𝜃 𝒙 𝑑𝑥1 𝑑𝑥𝑛1𝑑𝑥𝑛 𝜃 Derivase ambos os lados de 𝑰 ൘ 𝐿 𝜃 𝒙 𝑑𝑥1 𝑑𝑥𝑛1𝑑𝑥𝑛 𝜃 0 න න න 𝐿 𝜃 𝒙 𝜃 𝑑𝑥1 𝑑𝑥𝑛1𝑑𝑥𝑛 0 14 Eficiência Consistência e Suficiência 269 Demonstração Fazendo o mesmo em 𝑰𝑰 temse 𝑰𝑰𝑰 න න න 𝜃 𝐿 𝜃 𝒙 𝜃 𝑑𝑥1 𝑑𝑥𝑛1𝑑𝑥𝑛 1 Em que 𝐿 𝜃𝒙 𝜃 𝑡 𝜃 𝑥 L 𝜃 𝒙 onde 𝑡 𝜃 𝑥 log L 𝜃 𝒙 Τ 𝜃 Como 𝐸 𝑡 𝜃 𝒙 0 e 𝐸 𝜃𝑡 𝜃 𝒙 1 utilizase 𝜌𝜃𝑡 2 𝐸 𝜃𝑡 𝜃 𝒙 𝐸 𝑡 𝜃 𝒙 𝐸 𝜃 𝑉 𝜃 𝑉 𝑡 𝜃 𝒙 14 Eficiência Consistência e Suficiência 270 Demonstração Como 𝜌𝜃𝑡 2 1 então 𝜌𝜃𝑡 2 1 𝑉 𝜃 𝑉 𝑡 𝜃 𝒙 1 𝑉 𝜃 𝟏 𝑉 𝑡 𝜃 𝒙 𝑉 𝑡 𝜃 𝒙 𝑛𝐼𝐹 𝜃 𝑉 log L 𝜃 𝒙 𝜃 14 Eficiência Consistência e Suficiência 271 Demonstração Questão 24 Bolfarine 𝑃 𝑋1 𝑥1 𝑋2 𝑥2𝑋1 2𝑋2 𝑡 ൝ 𝑃 𝑋1 𝑥1𝑋2𝑥2 𝑃 𝑋12𝑋2𝑡 0 𝑐 𝑐 𝑠𝑒 𝑥1 2𝑥2 𝑡 Fazendo 𝑃 𝑋1 0 𝑋2 1𝑋1 2𝑋2 2 𝑃 𝑋10𝑋21 𝑃 𝑋12𝑋22 𝑃 𝑋1 0 𝑋2 1 𝑃 𝑋1 2𝑋2 2 𝑃 𝑋1 0 𝑃 𝑋2 1 𝑃 𝑋1 0 𝑃 𝑋2 1 𝑃 𝑋1 1 𝑃 𝑋2 0 14 Eficiência Consistência e Suficiência 272 Demonstração Questão 24 Bolfarine 𝑒𝜃𝜃𝑒𝜃 𝜃𝑒𝜃 𝜃2 2 𝑒𝜃 𝜃𝑒2𝜃 𝜃𝑒2𝜃 1 𝜃 2 1 1 𝜃 2 Como a probabilidade depende de 𝜃 a estatística não é suficiente 14 Eficiência Consistência e Suficiência 273 Demonstração Questão 27 Bolfarine Seja uma amostra aleatória de X tal que 𝑓 𝑥𝜃 𝑒 𝑥𝜃 𝑥 𝜃 𝜃 0 i Estatística suficiente para 𝜃 𝑓 𝑥1 𝑥𝑛𝜃 𝑖1 𝑛 𝑓 𝑥𝑖𝜃 𝑒 σ𝑖1 𝑛 𝑥𝑖 ℎ 𝑥 𝑒𝑛𝜃Ι 𝑥1 𝜃 𝑔𝜃 𝑥1 Pelo Teorema da fatoração S 𝑋 𝑋1 é suficiente para 𝜃 14 Eficiência Consistência e Suficiência 274 Demonstração Questão 27 Bolfarine Seja uma amostra aleatória de X tal que 𝑓 𝑥𝜃 𝑒 𝑥𝜃 𝑥 𝜃 𝜃 0 ii Baseado na estatística obtenha um estimador não viciado para 𝜃 𝐸 𝑋1 𝜃 1 𝑛 𝐸 𝑋1 1 𝑛 𝜃 𝑋1 1 𝑛 É um estimador não viciado para 𝜃 14 Eficiência Consistência e Suficiência 275 Demonstração Questão 27 Bolfarine Observação110 𝑖 Θ 𝜃 ℝ𝜃 0 𝐴 𝑥 𝑥 ℝ𝑥 𝜃 𝜃 𝑖𝑖 Ε 𝑋 න 𝜃 𝑥 𝑒 𝑥𝜃 𝑑𝑥 𝑒𝜃 𝑥𝜃𝑥 𝜃 න 𝜃 𝑒𝑥𝑑𝑥 𝑒𝜃 𝜃𝑒𝜃 𝑒𝑥 𝜃 𝑒𝜃 𝜃𝑒𝜃 𝑒𝜃 𝜃 1 𝐸 𝜃1 𝐸 σ𝑖1 𝑛 𝑋𝑖 𝑛 σ𝑖1 𝑛 𝐸 𝑋𝑖 𝑛 𝜃 1 logo 𝜃1 é viciado para 𝜃1 14 Eficiência Consistência e Suficiência 276 Demonstração Questão 27 Bolfarine Observação Defina 𝑊 𝑋1 𝐹𝑊 𝑤 Ρ 𝑋1 𝑤 1 𝑃 𝑋 1 𝑤 1 𝑃 𝑋1 𝑤 𝑛 𝑃 𝑋1 𝑤 න 𝑤 𝑒𝑥𝜃𝑑𝑥 𝑒𝜃 1 𝑒𝑥 ቚ 𝑤 𝑒𝑤𝜃 𝑤 𝜃 Assim 𝐹𝑤 𝑤 1 𝑒 𝑛𝑤𝑛𝜃 𝑤 𝜃 𝑓𝑊 𝑤 𝑑 𝑑𝑤 𝐹𝑊 𝑤 𝑛𝑒𝑛𝑤𝑛𝜃 𝑤 𝜃 14 Eficiência Consistência e Suficiência 277 Demonstração Questão 27 Bolfarine Observação 𝐸 𝜃2 𝐸 𝑊 න 𝜃 𝑤𝑛𝑒𝑛𝑤𝑛𝜃𝑑𝑤 𝑛𝑒𝑛𝜃 𝑤 𝑛 𝑒𝑛𝑤 𝜃 1 𝑛 න 𝜃 𝑒𝑛𝑤𝑑𝑤 𝑛𝑒𝑛𝜃 𝜃 𝑛 𝑒𝑛𝜃 1 𝑛 𝑒𝑛𝑤 𝜃 Assim 𝜃 1 𝑛 𝜃2 é viciado para 𝜃 14 Eficiência Consistência e Suficiência 278 Demonstração Questão 29 Bolfarine Seja uma amostra aleatória de X tal que 𝑋 𝑁𝜇 1 e ത𝑋 𝑁 𝜇 1 𝑛 i Como 𝐸 ത𝑋2 𝑉 ത𝑋 𝐸 ത𝑋 2 𝜇2 1 𝑛 então 𝐸 𝛾 𝐸 ത𝑋2 1 𝑛 𝜇2 logo 𝛾 ത𝑋2 1 𝑛 é não viciado para 𝜇2 ii 𝑓 𝑥𝜇 1 2𝜋 exp 1 2 𝑥 𝜇 2 aplicando o produtório temos 𝑓 𝑥𝜇 2𝜋 𝑛 2 exp 1 2 𝑛𝜇2 𝑑 𝜇 exp 1 2 𝑖1 𝑛 𝑥𝑖 2 𝑆𝒙 exp 𝜇 𝑖1 𝑛 𝑥𝑖 𝑐 𝜇 𝑇 𝒙 14 Eficiência Consistência e Suficiência 279 Demonstração Questão 29 Bolfarine Seja uma amostra aleatória de X tal que 𝑋 𝑁𝜇 1 e ത𝑋 𝑁 𝜇 1 𝑛 ii Como pertence à família exponencial 𝑇 𝑋 é suficiente ou também 𝑓 𝑥𝜇 2𝜋 𝑛 2 exp 1 2 𝑖1 𝑛 𝑥𝑖 ത𝑋 2 ℎ 𝒙 exp 𝑛 2 𝑖1 𝑛 ത𝑋 𝜇 2 𝑔𝜇 𝑇 𝒙 Pelo critério da fatoração temse o mesmo resultado e ainda pelo teorema 14 Eficiência Consistência e Suficiência 280 Demonstração Questão 29 Bolfarine Seja uma amostra aleatória de X tal que 𝑋 𝑁𝜇 1 e ത𝑋 𝑁 𝜇 1 𝑛 ii Pelo critério da fatoração temse o mesmo resultado e ainda pelo teorema de RaoBlackwell e de LehmanScheffé temse que 𝑇 𝛾𝑇 𝐸 ത𝑋2 1 𝑛 ത𝑋 é um ENVVUN iii log 𝑓 𝑥𝜇 1 2 log 2𝜋 1 2 𝑥 𝜇 2 log 𝑓 𝑥𝜇 𝜇 𝑥𝑖 𝜇 IF 𝜇 2 log 𝑓 𝑥𝜇 𝜇2 1 14 Eficiência Consistência e Suficiência 281 Demonstração Questão 29 Bolfarine iii Então IF 𝜇 1 𝑛𝐼𝐹𝜇 1 𝑛 é importante saber que 𝐿𝐼 𝑓𝜇 𝑓 𝜇 Τ 𝜇 2 𝑛 então 𝐿𝐼 𝜇2 4𝜇2 𝑛 Desta forma 𝑉 𝛾 𝑉 ത𝑋2 1 𝑛 𝐸 ത𝑋4 𝐸 ത𝑋2 2 𝑉 ത𝑋2 1 𝑛 𝐸 ത𝑋4 𝑉 ത𝑋 𝐸 ത𝑋 2 2 𝐸 ത𝑋4 1 𝑛 𝜇2 2 𝑉 ത𝑋2 1 𝑛 𝐸 ത𝑋4 1 𝑛2 2𝜇2 𝑛 𝜇4 14 Eficiência Consistência e Suficiência 282 Demonstração Questão 29 Bolfarine iii 𝐸 ത𝑋4 Usaremos o Lema de Stein Se 𝑋 𝑁𝜇 𝜎2 então 𝐸 𝑔𝑋𝑋 𝜇 𝜎2𝐸 𝑔 𝑋 𝐸 ത𝑋4 𝐸 ത𝑋3 ത𝑋 𝜇 𝜇 𝐸 ത𝑋3 ത𝑋 𝜇 𝐸 ത𝑋3𝜇 Lema de Stein 𝐸 ത𝑋3 ത𝑋 𝜇 1 𝑛 𝐸 3 ത𝑋2 3 𝑛 1 𝑛 𝜇2 3 𝑛2 3𝜇2 𝑛 𝐸 ത𝑋3𝜇 𝜇 𝐸 ത𝑋2 ത𝑋 𝜇 𝜇 𝜇 𝐸 ത𝑋2 ത𝑋 𝜇 𝐸 ത𝑋2 𝜇 1 𝑛 𝐸 2 ത𝑋 𝜇 1 𝑛 𝜇2 3𝜇2 𝑛 𝜇4 14 Eficiência Consistência e Suficiência 283 Demonstração Questão 29 Bolfarine iii Voltando 𝑉 ത𝑋2 1 𝑛 𝐸 ത𝑋4 1 𝑛2 2𝜇2 𝑛 𝜇4 então 𝑉 ത𝑋2 1 𝑛 3 𝑛2 3𝜇2 𝑛 3𝜇2 𝑛 𝜇4 1 𝑛2 2𝜇2 𝑛 𝜇4 2 𝑛2 4𝜇2 𝑛 𝐿𝐼 𝜇2 4𝜇2 𝑛 𝑉 ത𝑋2 1 𝑛 2 𝑛2 4𝜇2 𝑛 Então 𝛾 ത𝑋2 1 𝑛 não é um estimador eficiente para 𝜇2 14 Eficiência Consistência e Suficiência 15 INTERVALO DE CONFIANÇA Objetivo da amostra retratar um possível cenário da população Amostra margem de incerteza Amostra n População N Erro Amostras grandes também têm variações Esta variação provoca uma margem de erro Se um candidato tem 52 de intenção de voto com margem de erro de 2 ele provavelmente terá entre 50 e 54 na população 285 15 Intervalo de confiança Estimadores apresentados foram pontuais Especificam um único valor para o estimador 𝜇 ത𝑋 Não se pode julgar qual a possível magnitude do erro cometido Ideia construir os intervalos de confiança Baseados na distribuição amostral do estimador pontual Probabilidade de se cometer um erro 𝛼 na estimativa 𝜇 ത𝑋 N 𝜇 𝜎2 𝑛 Distribuição amostral da média 286 15 Intervalo de confiança 1 𝛼 Nível de confiança 𝛼 Nível de significância Probabilidade do Erro do Tipo I 𝛼 𝑃 Rejeitar 𝐻0 𝐻0 Verdadeira Considere a amostra aleatória aa 𝑋1 𝑋2 𝑋3 𝑋𝑛 X D 𝜃 Desejase construir um IC para 𝜃 com nível de significância 𝛼 287 15 Intervalo de confiança O IC para 𝜃 com nível de significância 𝛼 é dado por መ𝜃 𝑎 መ𝜃 𝑎 Construídos com uma probabilidade de 1 𝛼 do verdadeiro valor de 𝜃 desta população pertencer ao intervalo Confiança probabilidade de erro e o tamanho do intervalo tamanho da amostra o tamanho do intervalo Podese construir um intervalo de confiança para qualquer parâmetro princiapis 𝜇 e 𝑝 288 15 Intervalo de confiança IC para 𝝁 Seja uma aa de tamanho 𝑛 𝑋1 𝑋2 𝑋𝑛 tal que 𝑋 𝑁 𝜇 𝜎2 Denotado por 𝐼𝐶 𝜇 1 𝛼 ത𝑋 𝑍 Τ 𝛼 2𝜎 ത𝑋 ത𝑋 𝑍 Τ 𝛼 2𝜎 ത𝑋 Como Ƹ𝜇 ത𝑋 N 𝜇 𝜎2 𝑛 então 𝐼𝐶 𝜇 1 𝛼 ത𝑋 𝑍 Τ 𝛼 2 𝜎 𝑛 ത𝑋 𝑍 Τ 𝛼 2 𝜎 𝑛 Utilizase o estimador pontual para 𝜇 Confiança maior o valor de 𝑍 Τ 𝛼 2 𝜎2 intervalo tamanho da amostra o tamanho do intervalo 289 15 Intervalo de confiança IC para 𝝁 Seja uma aa de tamanho 𝑛 𝑋1 𝑋2 𝑋𝑛 tal que 𝑋 𝑁 𝜇 𝜎2 De forma geral temse o erro 𝑒 ത𝑋 𝜇 então 𝑃 𝑒 𝑍 Τ 𝛼 2 𝜎 𝑛 1 𝛼 𝑃 ത𝑋 𝜇 𝑍 Τ 𝛼 2 𝜎 𝑛 𝑃 𝑍 Τ 𝛼 2 𝜎 𝑛 ത𝑋 𝜇 𝑍 Τ 𝛼 2 𝜎 𝑛 𝑃 ത𝑋 𝑍 Τ 𝛼 2 𝜎 𝑛 𝜇 ത𝑋 𝑍 Τ 𝛼 2 𝜎 𝑛 1 𝛼 Destacase que se conhece aqui a variância populacional 𝜎2 290 15 Intervalo de confiança IC para 𝝁 Ex Calcule o intervalo de confiança para uma média de 𝑋 𝑁 𝜇 𝜎2 em cada um dos casos Caso 1 𝐼𝐶 𝜇 95 170 196 15 100 Caso 2 𝐼𝐶 𝜇 85 165 144 30 184 Façam o próximo 291 15 Intervalo de confiança X n 𝝈 𝟏 𝜶 170 cm 100 15 cm 95 165 cm 184 30 cm 85 180 cm 225 30 cm 70 IC para 𝝁 Ex De 50000 ampolas produzidas em uma indústria retirase uma amostra de 400 e obtémse uma média de 800 mL e um desviopadrão de 100 mL a Construa um IC para a média com 99 de confiança b Com que confiança é possível afirmar que a média está entre 800 098 c Qual o tamanho amostral para que a estimativa 800 784 𝛼 5 292 15 Intervalo de confiança IC para 𝝁 a Construa um IC para a média com 99 de confiança 𝐼𝐶 𝜇 99 800 257 100 400 b Com que confiança é possível afirmar que a média está entre 800 098 098 𝑍 Τ 𝛼 2 100 400 098 20 100 𝑍 Τ 𝛼 2 0196 1 𝛼 1554 c Qual o tamanho amostral para que a estimativa 800 784 𝛼 5 784 196 100 𝑛 𝑛 196 100 784 2 625 293 15 Intervalo de confiança IC para 𝝁 Quando 𝜎2 é desconhecido estimase 𝜎2 por 𝑆2 Então usase a distribuição t no lugar da distribuição normal Se 𝑋 𝑡𝑣 𝑣 graus de liberdade 𝑓 𝑥 Γ 𝑣 1 2 𝜋𝑣Γ 𝑣 2 1 𝑥2 𝑣 𝑣1 2 𝑥 ℝ 𝑣 ℕ Assumese 𝑣 𝑛 1 Quando a amostra é grande 𝑛 30 a distribuição t converge para a distribuição normal 294 15 Intervalo de confiança IC para 𝝁 Quando 𝜎2 é desconhecido estimase 𝜎2 por 𝑆2 A distribuição pode ser obtida pela transformação 𝑡 ത𝑋𝜇 𝑆Τ 𝑛 No caso do intervalo basta substitui o quantil 𝑍 Τ 𝛼 2 por 𝑡 Τ 𝛼 2 De forma geral usase a distribuição t quando não se conhece 𝜎2 Ex Retirase uma amostra de 25 rolhas metálicas e obtémse um diâmetro médio de 15 mm e um desvio de 2 mm Construa um IC para 𝜇 com 𝛼 5 Para 𝑛 25 𝑣 24 𝒕 Τ 𝟓 𝟐 𝟐 𝟎𝟔 𝒕 Τ 𝟏𝟎 𝟐 𝟏 𝟕𝟏 𝒕 Τ 𝟏 𝟐 𝟐 𝟖 Então 𝐼𝐶 𝜇 95 15 206 2 25 Basta ver na tabela 295 15 Intervalo de confiança IC para 𝒑 Podese também construir um intervalo de confiança para proporção 1 Proporção de homens ou mulheres 2 Proporção de pessoas com câncer 3 Proporção de pessoas fumantes 4 Proporção de pessoas que foram ao dentista no último ano A proporção na amostra é obtida por 𝑝 número de indivíduos com a característica estudada 𝑛 Um IC para a proporção é dado por 𝑝 𝑎 𝑝 𝑎 296 15 Intervalo de confiança IC para 𝒑 Utilizase a distribuição amostral 𝑍 𝑛 𝑝𝑝 Ƹ𝑝 1 Ƹ𝑝 𝑁 01 𝑃 𝑍 Τ 𝛼 2 𝑛 Ƹ𝑝 𝑝 Ƹ𝑝 1 Ƹ𝑝 𝑍 Τ 𝛼 2 1 𝛼 𝑃 Ƹ𝑝 𝑍 Τ 𝛼 2 Ƹ𝑝 1 Ƹ𝑝 𝑛 𝑝 Ƹ𝑝 𝑍 Τ 𝛼 2 Ƹ𝑝 1 Ƹ𝑝 𝑛 1 𝛼 𝐼𝐶 𝑝 1 𝛼 Ƹ𝑝 𝑍 Τ 𝛼 2 Ƹ𝑝 1 Ƹ𝑝 𝑛 Ƹ𝑝 𝑍 Τ 𝛼 2 Ƹ𝑝 1 Ƹ𝑝 𝑛 297 15 Intervalo de confiança IC para 𝒑 Ex Suponha que em 400 provas obtemos 80 sucessos alunos acima da média Construa um intervalo de confiança para a proporção de alunos aprovados com 95 de confiança Ƹ𝑝 80 400 02 𝐼𝐶 𝑝 95 02 196 02 102 400 Ex Antes de uma eleição um determinado partido está interessado em estimar a proporção de eleitores favoráveis ao seu candidato Uma amostra piloto de tamanho 100 revelou que 60 dos eleitores eram favoráveis ao candidato em questão 1 Construa o IC para p com 5 de significância 298 15 Intervalo de confiança IC para 𝒑 1 Construa o IC para p com 5 𝐼𝐶 𝑝 95 06 196 06 106 100 2 Determine o tamanho da amostra necessário para que o erro cometido de estimação seja de no máximo 001 com 80 de confiança 001 128 06 1 06 𝑛 𝑛 0604 001128 2 146485 1465 299 15 Intervalo de confiança Se 𝑁 for conhecido e se n for maior do que 5 da população de tamanho N podese usar o fator de correção 𝑁𝑛 𝑁1 assim IC para 𝝁 𝐼𝐶 𝜇 1 𝛼 ത𝑋 𝑍 Τ 𝛼 2 𝜎 𝑛 𝑁 𝑛 𝑁 1 ത𝑋 𝑍 Τ 𝛼 2 𝜎 𝑛 𝑁 𝑛 𝑁 1 IC para 𝒑 𝐼𝐶 𝑝 1 𝛼 Ƹ𝑝 𝑍 Τ 𝛼 2 Ƹ𝑝 1 Ƹ𝑝 𝑛 𝑁 𝑛 𝑁 1 Ƹ𝑝 𝑍 Τ 𝛼 2 Ƹ𝑝 1 Ƹ𝑝 𝑛 𝑁 𝑛 𝑁 1 300 15 Intervalo de confiança 16 TESTES DE HIPÓTESES 16 Testes de Hipóteses 302 Hipótese Estatística Suposição ou afirmação feita sobre um valor de um parâmetro populacional 1 Em 20 de pacientes uma cirurgia cardíaca é feita com sucesso 2 Um remédio baixa em media 33mgl o nível de glicose no sangue 3 O tratamento A tem mais eficácia que o tratamento convencional 4 O nível de colesterol aumenta em média 23mgl a cada ano em que um indivíduo envelhece 5 Pessoas que fumam tem maior incidência de câncer de intestino 303 Um dos problemas de inferência é o de testar uma hipótese O primeiro passo é realizar uma afirmação sobre uma população geralmente sobre um parâmetro dessa Em seguida temse o interesse em saber se os resultados experimentais provenientes de uma amostra contrariam a afirmação Assumese uma variável 𝑋 associada à população e uma hipótese associada ao parâmetro 𝜃 𝜃0 Coletase uma amostra de tamanho 𝑛 para comprovar ou não essa hipótese 16 Testes de Hipóteses 304 Designase por 𝐻0 a hipótese nula Designase por 𝐻1 a hipótese alternativa uma hipótese nova que levará a novas afirmações para a população em estudo 𝐻0 retrata que um procedimento novo é igual a um usual ou que os grupos são iguais A Hipótese alternativa é uma afirmação que o pesquisador quer provar que é verdadeira Nem sempre o que se quer provar será verdade 16 Testes de Hipóteses 305 Avaliar se a proporção de pessoas que reagem bem a uma cirurgia é maior que 50 𝐻0 𝑝 0 5 vs 𝐻1 𝑝 05 Entre três enxaguantes bucais se existe alguma diferença significativa 𝐻0 µ1 µ2 µ3 vs 𝐻1 Existe alguma diferença Existe uma relação significativa entre fumo e aumento de pressão 𝐻0 Não existe relação vs 𝐻1 Pessoas que fumam tem maior pressão 16 Testes de Hipóteses 306 Passos para a construção de um teste 1 Fixar as hipóteses a serem testadas ቊ𝐻0 𝜃 𝜃0 Hipótese nula 𝐻1 𝜃 𝜃0 Hipótese alternativa 2 Decidir a estatística estimador para testar 𝐻0 e obter as propriedades desse estimador 3 Fixar o nível de significância 𝛼 e construir a região crítica 4 Utilizar os valores amostrais para calcular a estatística do teste 5 Se o valor obtido no passo anterior estiver na região crítica rejeitase 𝐻0 16 Testes de Hipóteses 307 Estatísticas do teste para a média populacional 𝜇0 𝜎 conhecido 𝑍𝑐𝑎𝑙𝑐 ത𝑋𝜇0 𝜎 𝑛 𝑁 𝜇 𝜎2 𝑛 𝜎 desconhecido e para pequenas amostras 𝑡𝑐𝑎𝑙𝑐 ത𝑋 𝜇0 𝑆 𝑛 𝑡𝑛1 Distribuição 𝑡𝑛1 tem cauda pesada 16 Testes de Hipóteses 308 Passos para a construção de um teste para µ Fixar as hipóteses a serem testadas ቊ𝐻0 𝜇 𝜇0 Hipótese nula 𝐻1 𝜇 𝜇0 Hipótese Alternativa Decidir a estatística estimador para testar 𝐻0 e obter as propriedades desse estimador Fixar o nível de significância 𝛼 e construir a região crítica Utilizar os valores amostrais para calcular a estatística 𝑍𝑐𝑎𝑙𝑐 ou 𝑇𝑐𝑎𝑙𝑐 Se 𝑍𝑐𝑎𝑙𝑐 ou 𝑇𝑐𝑎𝑙𝑐 RC rejeitase 𝐻0 16 Testes de Hipóteses 309 Ex Uma máquina enche pacotes de café segundo um distribuição normal com média µ e variância 400𝑔2 A máquina foi regulada para µ 500g Uma amostra de 16 pacotes foi coletada para avaliar se a produção está atendendo ao valor alvo especificado em projeto µ 500g A amostra forneceu uma média ത𝑋 492 O processo está dentro das especificações 16 Testes de Hipóteses 310 Solução Fixar as hipóteses a serem testadas ቊ𝐻0 𝜇 500 Hipótese nula 𝐻1 𝜇 500 Hipótese alternativa ത𝑋 𝑁µ 40016 Se 𝐻0 verdadeira ത𝑋 𝑁500 25 Nível de significância 𝛼 5 e RA 196 196 Estatística do teste 𝑍𝑐𝑎𝑙𝑐 492500 5 1 6 Como 𝑍𝑐𝑎𝑙𝑐 1 6 RC então não rejeitase 𝐻0 16 Testes de Hipóteses fx RA H0 RR H0 RR H0 ZCALC 16 x 312 x seq3 3 length 10000 parmarc4450505 curvednormx01xlimc33cexlab17ylabfxmain main é o título do gráfico x1 xx qnorm975 y1 dnormx1 x2 c13 x1 x1lengthx1 115 y2 c00 y1 0 polygonx2 y2 col red x3 xx qnorm025 y3 dnormx3 x4 c5 x3 x3lengthx3 3 y4 c0y300 polygonx4 y4 col red text002expressionpasteRA H0cex2 text2301expressionpasteRR H0cex2 text2301expressionpasteRR H0cex2 text11505expressionpasteZCALC 16cex17 ablinev16lty2lwd2colgrey 16 Testes de Hipóteses 313 Ex Um engenheiro de produção quer testar para um nível de significância 𝛼 0 05 se a altura média de uma haste está próxima do valor nominal de 1055 mm Uma amostra de 20 hastes foi analisada e forneceu uma média ത𝑋 1019 37 e um desviopadrão de s 91 37 Considere 𝑡𝛼 2 2093 16 Testes de Hipóteses 314 Solução Fixar as hipóteses a serem testadas ቊ𝐻0 𝜇 1055 Hipótese nula 𝐻1 𝜇 1055 Hipótese alternativa Aproximase para a distribuição 𝑡19 Nível de significância 𝛼 5 e RA 2093 2093 Estatística do teste 𝑡𝑐𝑎𝑙𝑐 1019371055 9135 20 1 74 Como 𝑡𝑐𝑎𝑙𝑐 1 74 RC então não rejeitase 𝐻0 16 Testes de Hipóteses 315 Estatísticas do teste para a proporção 𝒑 Considerando que ത𝑋 𝑁 𝑝 𝑝 1 𝑝 𝑛 Como Ƹ𝑝 ത𝑋 então Ƹ𝑝 𝑁 𝑝 𝑝 1 𝑝 𝑛 𝑍 Ƹ𝑝 𝑝 𝑝 1 𝑝 𝑛 𝑁01 16 Testes de Hipóteses 316 Estatísticas do teste para a proporção 𝒑 Fixar as hipóteses a serem testadas ቊ𝐻0 𝑝 𝑝0 Hipótese nula 𝐻1 𝑝 𝑝0 Hipótese alternativa Decidir a estatística estimador para testar 𝐻0 Fixar o nível de significância 𝛼 e construir a região crítica Utilizar os valores amostrais para calcular a estatística 𝑍𝑐𝑎𝑙𝑐 Ƹ𝑝 𝑝0 𝑝01 𝑝0 𝑛 Se 𝑍𝑐𝑎𝑙𝑐 RC rejeitase 𝐻0 16 Testes de Hipóteses 317 Ex Um fabricante garante que 90 das peças que fornece à linha de produção de uma determinada fábrica estão de acordo com as especificações exigidas A análise de uma amostra de 200 peças revelou 25 defeituosas A um nível de 5 podemos dizer que é verdadeira a afirmação do fabricante 16 Testes de Hipóteses 318 Solução Fixar as hipóteses a serem testadas ቊ𝐻0 𝑝 09 Hipótese nula 𝐻1 𝑝 09 Hipótese alternativa Aproximase para a distribuição normal pela distribuição amostral Nível de significância 𝛼 5 e RA 164 Estatística do teste 𝑍𝑐𝑎𝑙𝑐 087509 0901200 1 178 Como 𝑍𝑐𝑎𝑙𝑐 1 178 RC então não rejeitase 𝐻0 16 Testes de Hipóteses ZCALC 1178 320 x seq3 3 length 10000 parmarc4450505 curvednormx01xlimc33cexlab17ylabfxmain x3 xx qnorm05 y3 dnormx3 x4 c5 x3 x3lengthx3 3 y4 c0y300 polygonx4 y4 col red text002expressionpasteRA H0cex2 text2301expressionpasteRR H0cex2 text05505expressionpasteZCALC 1178cex17 ablinev1178lty2lwd2colgrey 16 Testes de Hipóteses 321 Teste para comparação de duas médias Desejase comparar duas médias de duas populações independentes Ambas seguindo distribuição Normal Da população 1 temse uma amostra aleatória 𝑋1 𝑋2 𝑋𝑛1 de tamanho 𝑛1 Da população 2 temse uma amostra aleatória 𝑌1 𝑌2 𝑌𝑛2 de tamanho 𝑛2 Supõese 𝑋 𝑁µ1 𝜎1 2 e 𝑌 𝑁µ2 𝜎2 2 16 Testes de Hipóteses 322 Teste para comparação de duas médias ത𝑋 𝑁 𝜇1 𝜎12 𝑛1 e ത𝑌 𝑁 𝜇2 𝜎22 𝑛2 ത𝑋 ത𝑌 𝑁 𝜇1 𝜇2 𝜎1 2 𝑛1 𝜎2 2 𝑛2 Consideramse dois casos distintos 1 Variâncias das populações desconhecidas porém iguais 2 Variâncias desconhecidas e distintas 16 Testes de Hipóteses 323 Teste para comparação de 2 médias Variâncias desconhecidas e iguais Variâncias das populações são consideradas iguais e desconhecidas 𝜎1 2 𝜎2 2 𝜎2 Para testar a igualdade das médias vamos considerar a variável 𝑇 ത𝑋 ത𝑌 𝜇1 𝜇2 𝑆𝑝 1 𝑛1 1 𝑛2 Tem distribuição 𝑡 de Student com 𝑛1 𝑛2 2 graus de liberdade 16 Testes de Hipóteses 324 Teste para comparação de 2 médias Variâncias desconhecidas e iguais 𝑆𝑝 é o desvio padrão agrupado ou combinado pooled 𝑆𝑝 𝑛1 1 𝑠1 2 𝑛2 1 𝑠2 2 𝑛1 𝑛2 2 𝑠1 2 variância da amostra proveniente da população 1 𝑠2 2 variância da amostra proveniente da população 2 16 Testes de Hipóteses 325 Teste para comparação de 2 médias Variâncias desconhecidas e iguais Sob 𝐻0 verdade 𝑇 ത𝑋 ത𝑌 𝑆𝑝 1 𝑛1 1 𝑛2 Ex Considere os dados de duas amostras de tamanhos 25 e 30 e a um nível de significância 𝛼 0 05 decida se existe diferença significativa entre as médias populacionais µ1 𝑒 µ2 Assuma ത𝑋1 19 32 ത𝑋2 22 60 𝑆1 1 36 e 𝑆2 1 43 16 Testes de Hipóteses 326 Solução 1 Fixar as hipóteses a serem testadas ቊ𝐻0 𝜇1 𝜇2 0 Hipótese nula 𝐻1 𝜇1 𝜇2 0 Hipótese alternativa 2 Aproximase para a distribuição 𝑡 com 𝜈 gl 3 Nível de significância 𝛼 5 e RA 2 005 2 005 4 Estatística do teste 𝑆𝑝 251 136228 2 301 143822 2 25302 140434 16 Testes de Hipóteses 327 Solução 𝑡𝑐𝑎𝑙𝑐 193267 226055 140434 1 25 1 30 8 62 Como 𝑡𝑐𝑎𝑙𝑐 RC então rejeitase 𝐻0 16 Testes de Hipóteses 328 Teste para comparação de 2 médias Var desconhecidas e diferentes O teste assumindo 𝜎1 2 𝜎2 2 utiliza a estatística 𝑇 ത𝑋 ത𝑌 𝜇1 𝜇2 𝑠1 2 𝑛1 𝑠2 2 𝑛2 𝑡𝑣 𝑇 tem distribuição 𝑡 de Student com 𝜈 gl 𝑣 𝑠12 𝑛1 𝑠22 𝑛2 2 𝑠12 𝑛1 𝑛11 2 𝑠22 𝑛2 2 𝑛21 16 Testes de Hipóteses 329 Teste para comparação de 2 médias Var desconhecidas e diferentes Ex Considere duas amostras de hastes de madeira em que cada uma é oriunda de uma máquina diferente Foi medido o comprimeto em cm de cada uma Temse que a média e o desvio padrão da amostra 1 são ത𝑋 19 3267 e 𝑆1 1 36228 A média e o desvio padrão da amostra 2 são ത𝑌 24 4729 e 𝑆2 2 8876 O tamanho de cada amostra é 𝑛1 25 e 𝑛2 30 Teste se as máquinas produzem hastes semelhantes 16 Testes de Hipóteses 330 Teste para comparação de 2 médias Var desconhecidas e diferentes Solução Fixar as hipóteses a serem testadas ቊ𝐻0 𝜇1 𝜇2 0 Hipótese nula 𝐻1 𝜇1 𝜇2 0 Hipótese alternativa Aproximase para a distribuição 𝑡 com 𝜈 gl 𝜈 136228 2 25 28876 2 30 2 136288 2 25 25 1 28876 2 30 2 30 1 42 86563 16 Testes de Hipóteses 331 Teste para comparação de 2 médias Var desconhecidas e diferentes Solução Nível de significância 𝛼 5 e RA 2017 2017 A estatística do teste é 𝑡𝑐𝑎𝑙𝑐 193267 244729 136228 2 25 28876 2 30 8 6734 Como 𝑡𝑐𝑎𝑙𝑐 RC então rejeitase 𝐻0 16 Testes de Hipóteses 332 16 Testes de Hipóteses Teste Quiquadrado Variáveis qualitativas 1 Doenças cardíacas x Atividade física 2 Fumo x Dentes amarelados 3 Câncer x Exposição à radiação Tabela de dupla entrada como forma de organização tabela de contingência Fornece informações importantes Associação entre as variáveis 333 16 Testes de Hipóteses Teste Quiquadrado O teste quiquadrado avalia se a associação é significativa Existe evidência de relação Utilizamse os valores esperados Aprox distribuição quiquadrado Cardiopatia Fuma Total Sim Não Sim 46 6 52 Não 8 40 48 TOTAL 54 46 100 334 16 Testes de Hipóteses Teste Quiquadrado A vac 𝑋 tem distribuição quiquadrado com 𝜈 gl com fdp dada por 𝑓 𝑥 1 2𝑣 2 Γ𝑣 2 𝑥 𝑣 2 1 exp 𝑥 2 𝑣 0 𝑥 0 Γ 𝜔 න 0 𝑥𝜔1𝑒𝑥𝑑𝑥 𝜔 0 Denotase 𝑋 𝜒𝑣2 curvedchisqx4015 col blueylabfx 335 16 Testes de Hipóteses Figura Função densidade da quiquadrado com 4 gl 336 16 Testes de Hipóteses Teste Quiquadrado Hipóteses ቊ𝐻0 Variáveis independentes 𝐻1 Variáveis dependentes Ou ቊ𝐻0 Não existe relação entre as variáveis 𝐻1 Uma variável influencia a outra A estatística do teste 𝜒𝑣2 𝑖1 𝐿 𝑗1 𝐶 𝑜𝑖𝑗 𝑒𝑖𝑗 2 𝑒𝑖𝑗 337 14 Testes de Hipóteses Teste Quiquadrado 𝜒v2 tem 𝜈 L 1C 1 graus de liberdade Se 𝐻0 é verdadeira a estatística 𝜒v2 tem que ser pequena 𝜒v2 a evidência para rejeitar 𝐻0 𝜒v2 𝑂𝑖 Ei e as variáveis são independentes Teste nãoparamétrico 338 16 Testes de Hipóteses Teste Quiquadrado Ex Um pesquisador deseja identificar se há dependência no consumo de seus chocolates e as cidades de sua região SABOR CIDADE TOTAL A B C D Caju 60 30 20 40 150 Amendoim 45 35 20 10 110 Flocos 55 25 47 13 140 Passas 70 35 25 20 150 Total 230 125 112 83 550 339 16 Testes de Hipóteses Teste Quiquadrado Fixar as hipóteses a serem testadas ቊ𝐻0 Existe independência 𝐻1 Existe dependência Aproximase para a distribuição 𝜒2 com 𝜈 4 14 1 9 gl Nível de significância 𝛼 5 e RC 1691 Estatística do teste 𝑥 41 41 2 𝑖1 4 𝑗1 3 𝑜𝑖𝑗 𝑒𝑖𝑗 2 𝑒𝑖𝑗 4372 Como 43 72 16 91 rejeitase 𝐻0 ZCALC 4372 341 16 Testes de Hipóteses x seq0 25 length 1000 parmarc4450505 curvedchisqx9xlimc025cexlab17ylabfxmain x3 xx qchisq959 y3 dchisqx39 x4 c0 x3 x3lengthx3 25 y4 c00y30 polygonx4 y4 col red text8003expressionpasteRA H0cex2 text20003expressionpasteRR H0cex2 text16007expressionpasteZCALC 4372cex17 text16006expressionpasteZTAB 1691cex17 342 16 Testes de Hipóteses Parâmetros de um teste Um teste está sujeito a dois tipos de erro Erro Tipo I Rejeitar a hipótese nula quando ela é verdadeira PETI 𝛼 alarme falso 1 𝛼 Alarme verdadeiro Erro Tipo II Não rejeitar 𝐻0 quando ela é falsa PETII 𝛽 Não detecção 1 𝛽 Poder do teste Detecção Quadro 1 Tipos de erro em um teste Subgrupo Não Rejeitar 𝐻0 Rejeitar 𝐻0 𝐻0 verdadeira Decisão correta Erro Tipo I 𝛼 𝐻0 falsa Erro Tipo II 𝛽 Decisão correta 343 16 Testes de Hipóteses Parâmetros de um teste 𝛼 e 𝛽 são utilizados para avaliar o desempenho de um teste Em algumas situações são utilizados para como medida de desempenho Um conceito importante associado a 𝛽 é o de Poder do teste denotado por 1 𝛽 O poder é usado para avaliar um teste Para comparar testes de hipóteses pelo poder mantémse um mesmo nível 𝛼 344 16 Testes de Hipóteses Parâmetros de um teste Valor p Também chamado de nível descritivo do teste Uma maneira alternativa de tomar uma decisão A principal diferença está em não construir a região crítica A ideia é indicar a probabilidade de ocorrer valores mais extremos da estatística do teste do que o observado sob 𝐻0 verdadeira Quanto menor o pvalor mais significante ele é e maior a evidência de rejeitar 𝐻0 345 16 Testes de Hipóteses Testes realizados no R Teste t para a média populacional amostra c149134145135150139149164146154 ttestamostramu15 One Sample ttest data amostra t 12252 df 9 pvalue 02516 alternative hypothesis true mean is not equal to 15 95 percent Confidence interval 1400375 1529625 Sample estimates mean of x 1465 2pt122529 02515961 346 16 Testes de Hipóteses Testes realizados no R Teste t para comparação de duas médias com variâncias iguais amostra1 c166134146151129152140166154130 amostra2 c158179182202181178183186170184 ttestamostra1 amostra2 varequal TRUE Two Sample ttest data amostra1 and amostra2 t 60257 df 18 pvalue 1069e05 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval 4518003 2181997 sample estimates mean of x mean of y 1468 1803 2pt6025718 1069258e05 347 16 Testes de Hipóteses Testes realizados no R Teste t pareado antes c166134146151129152140166154130 depois c158179182202181178183186170184 ttestantesdepoispairedTRUE Paired ttest data antes and depois t 53231 df 9 pvalue 0000479 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval 4773642 1926358 sample estimates mean of the differences 335 2pt53231 9 00004790218 348 16 Testes de Hipóteses Testes realizados no R Teste Quiquadrado Amatrixc60455570303525352020472540101320nrow4 A chisqtestA Pearsons Chisquared test data A Xsquared 43449 df 9 pvalue 1783e06 1pchisq434499 1 1782722e06 16 Testes de Hipóteses 350 16 Testes de Hipóteses Fig Poder do teste de um gráfico de controle 17 ANÁLISE DE REGRESSÃO 352 17 Análise de Regressão Correlação 𝝆 ou 𝒓 Medida adimensional que mede o grau de relação linear entre duas variáveis X e Y A correlação de Pearson populacional é dada por 𝜌𝑋𝑌 corr 𝑋 𝑌 cov𝑋 𝑌 𝜎𝑋𝜎𝑌 𝐸 𝑋 𝜇𝑋 𝑌 𝜇𝑌 𝜎𝑋𝜎𝑌 Pode se estimada por 𝑟𝑋𝑌 cov𝑋 𝑌 𝑆𝑋𝑆𝑌 σ𝑖1 𝑛 𝑋𝑖𝑌𝑖 𝑛 ത𝑋ത𝑌 𝑛𝑆𝑋𝑆𝑌 353 17 Análise de Regressão Correlação 𝝆 ou 𝒓 Por ser escrita como 𝑟𝑋𝑌 σ𝑖1 𝑛 𝑋𝑖𝑌𝑖 𝑛 ത𝑋 ത𝑌 𝑛 σ𝑖1 𝑛 𝑋𝑖 2 σ𝑖1 𝑛 𝑋𝑖 2 𝑛 σ𝑖1 𝑛 𝑌𝑖 2 σ𝑖1 𝑛 𝑌𝑖 2 𝜌𝑋𝑌 0 Não existe relação linear entre X e Y 𝜌𝑋𝑌 1 Relação linear perfeita positiva entre X e Y 𝜌𝑋𝑌 1 Relação linear perfeita negativa entre X e Y 𝜌𝑋𝑌 0 Relação linear positiva entre X e Y 𝜌𝑋𝑌 0 Relação linear positiva perfeita entre X e Y r 1 355 17 Análise de Regressão Correlação 𝝆 ou 𝒓 Por ser escrita como 356 17 Análise de Regressão Correlação 𝝆 ou 𝒓 Ex 𝑆𝑃𝐷𝑋𝑌 σ𝑖1 𝑛 𝑋𝑖𝑌𝑖 σ𝑖1 𝑛 𝑋𝑖 σ𝑖1 𝑛 𝑌𝑖 𝑛 252 3636 6 36 𝑆𝑄𝐷𝑋 σ𝑖1 𝑛 𝑋𝑖 σ𝑖1 𝑛 𝑋𝑖 2 𝑛 244 362 6 28 𝑆𝑄𝐷𝑌 σ𝑖1 𝑛 𝑌𝑖 σ𝑖1 𝑛 𝑌𝑖 2 𝑛 356 362 6 140 𝑟𝑋𝑌 𝑆𝑃𝐷𝑋𝑌 𝑆𝑄𝐷𝑋𝑆𝑄𝐷𝑌 36 28140 𝟎 𝟓𝟕𝟓𝟎 X 4 8 3 9 7 5 Y 1 5 2 14 3 11 357 17 Análise de Regressão Regressão Objetivo de avaliar a existência de uma relação linear entre uma variável dependente e uma ou mais independentes Estimação de uma equação que tenta explicar a variação da v dependente pela variação das independentes O diagrama de dispersão auxilia na visualização da relação O modelo é definido como 𝒀𝒊 𝜷𝟎 𝜷𝟏 𝑿𝒊 𝒆𝒊 𝑌𝑖 é a variável dependente 𝑋𝑖 é a independente 𝛽0 é a constante de regressão intercepto 𝛽1 é o coeficiente de regressão angular e 𝑒𝑖 é o erro resíduo do modelo 358 17 Análise de Regressão Regressão Para estimação dos parâmetros 𝛽𝑖s minimizase o quadrado do resíduo 𝑒𝑖 𝑌𝑖 𝛽0 𝛽1 𝑋𝑖 Método dos Mínimos Quadrados Então derivase a quantidade 𝑆𝑄 𝛽0 𝛽1 𝑖1 𝑛 𝑌𝑖 𝛽0 𝛽1 𝑋𝑖 2 ൞ ቚ 𝑆𝑄 𝛽0𝛽1 𝛽0 𝛽0𝛽0 0 ቚ 𝑆𝑄 𝛽0𝛽1 𝛽1 𝛽1𝛽1 0 ቐ σ𝑖1 𝑛 𝑦𝑖 መ𝛽0 መ𝛽1𝑥𝑖 0 σ𝑖1 𝑛 𝑥𝑖 𝑦𝑖 መ𝛽0 መ𝛽1𝑥𝑖 0 359 17 Análise de Regressão Regressão 𝑖1 𝑛 𝑦𝑖 𝑛 መ𝛽0 መ𝛽1 𝑖1 𝑛 𝑥𝑖 𝑖1 𝑛 𝑦𝑖𝑥𝑖 መ𝛽0 𝑖1 𝑛 𝑥𝑖 መ𝛽1 𝑖1 𝑛 𝑥𝑖 2 ൞ መ𝛽0 ത𝑌 መ𝛽1 ത𝑋 መ𝛽1 σ𝑖1 𝑛 𝑦𝑖𝑥𝑖 σ𝑖1 𝑛 𝑥𝑖 2 𝑛 ത𝑋2 Definem as quantidades 𝑆𝑋𝑌 𝑖1 𝑛 𝑦𝑖𝑥𝑖 𝑛 ത𝑋 ത𝑌 𝑆𝑋𝑋 𝑖1 𝑛 𝑥𝑖 2 𝑛 ത𝑋2 𝑆𝑌𝑌 𝑖1 𝑛 𝑦𝑖 2 𝑛ത𝑌2 Então obtêmse as estimativas መ𝛽1 SXY SXX e መ𝛽0 ത𝑌 መ𝛽1 ത𝑋 360 17 Análise de Regressão Regressão Para obtermos um estimador não enviesado de 𝜎2 analisase a dispersão em torno da reta de regressão 𝑆𝑄𝑅𝑒𝑠 𝑖1 𝑛 𝑒𝑖 2 𝑖1 𝑛 𝑌𝑖 𝑌 2 Então o estimador não viciado é 𝐸 𝑆𝑄𝑅𝑒𝑠 𝑛 2 𝜎2 𝜎2 𝑄𝑀𝑅𝑒𝑠 𝑆𝑄𝑅𝑒𝑠 𝑛 2 As somas de quadrados favorecem à construção do quadro de ANOVA Além disso as somas de quadrados são usadas para estimar as medidas de dispersão associadas aos parâmetros 361 Fonte de variação Graus de liberdade DF Soma de Quadrados SQ Quadrado Médio QM Regressão 1 𝑆𝑄𝑅𝐸𝐺 𝑖1 𝑛 𝑦𝑖 ത𝑌 2 𝑄𝑀𝑅𝐸𝐺 𝑆𝑄𝑅𝐸𝐺 1 Residual 𝑛 2 𝑆𝑄𝑅𝐸𝑆 𝑖1 𝑛 𝑦𝑖 𝑦𝑖 2 𝑄𝑀𝑅𝐸𝑆 𝑆𝑄𝑅𝐸𝑆 𝑛 2 Total 𝑛 1 𝑆𝑄𝑇𝑂𝑇 𝑖1 𝑛 𝑦𝑖 ത𝑌 2 𝑄𝑀𝑇𝑂𝑇 𝑆𝑄𝑇𝑂𝑇 𝑛 1 Quadro Análise de variância para a regressão linear simples 362 17 Análise de Regressão Regressão Pressupostos A variável X é controlada pelo experimentador Os erros não devem ser correlacionados 𝐸 𝑒 0 e 𝑉 𝑒 𝜎2 Os erros têm distribuição normal 𝑒𝑖 𝑁0 𝜎2 e 𝑌𝑖 𝑁 𝛽0 𝛽1𝑋𝑖 𝜎2 Distribuições dos estimadores መ𝛽1 𝑁 𝛽1 𝜎2 𝑆𝑋𝑋 𝛽1𝛽1 𝜎 𝑆𝑋𝑋 𝑁 01 መ𝛽0 𝑁 𝛽0 𝜎2 σ𝑖1 𝑛 𝑥𝑖 2 𝑛𝑆𝑋𝑋 𝛽0𝛽0 𝜎 𝑛𝑆𝑋𝑋 σ𝑖1 𝑛 𝑥𝑖 2 𝑁 01 363 17 Análise de Regressão Regressão Distribuições dos estimadores Sendo 𝜎2 𝑄𝑀𝑅𝐸𝑆 መ𝛽1 𝛽1 𝑆𝑋𝑋 𝑄𝑀𝑅𝐸𝑆 𝑡 𝑛2 መ𝛽0 𝛽0 𝑛𝑆𝑋𝑋 𝑄𝑀𝑅𝐸𝑆 σ𝑖1 𝑛 𝑥𝑖 2 𝑡 𝑛2 Sendo σ𝑖1 𝑛 𝑥𝑖 2 𝑆𝑋𝑋 𝑛 ത𝑋2 podemos obter os intervalos de confiança 𝐼𝐶 𝛽0 1 𝛼 መ𝛽0 𝑡 𝑛2 𝛼 2 𝑄𝑀𝑅𝐸𝑆 1 𝑛 ത𝑋2 𝑆𝑋𝑋 𝐼𝐶 𝛽1 1 𝛼 መ𝛽1 𝑡 𝑛2 𝛼 2 𝑄𝑀𝑅𝐸𝑆𝑆𝑋𝑋 364 17 Análise de Regressão Regressão Distribuições dos estimadores 𝑇 𝜇 𝑥𝑖 𝜇 𝑥𝑖 𝑄𝑀𝑅𝐸𝑆 1 𝑛 𝑥𝑖 ത𝑋 2 𝑆𝑋𝑋 𝑡𝑛2 Intervalo de confiança para 𝜇 𝑥𝑖 com 1 𝛼 de confiança é 𝐼𝐶 𝜇 𝑥𝑖 1 𝛼 𝑦𝑖 𝑡 𝑛2 𝛼 2 𝑄𝑀𝑅𝐸𝑆 1 𝑛 𝑥𝑖 ത𝑋 2 𝑆𝑋𝑋 365 17 Análise de Regressão Regressão Predição Após a estimação dos parâmetros é possível predizer os valores de 𝑌 em ralação a 𝑋 𝑦 መ𝛽0 መ𝛽1 𝑥 O erro de previsão é dado por 𝑦 𝑦 O Intervalo de confiança para y com 1 𝛼 de confiança é 𝐼𝐶 𝑦𝑒 1 𝛼 𝑦𝑒 𝑡 𝑛2 𝛼 2 𝑄𝑀𝑅𝐸𝑆 1 1 𝑛 𝑥𝑓 ത𝑋 2 𝑆𝑋𝑋 366 17 Análise de Regressão Regressão Coeficiente de determinação 𝑟2 A razão entre o 𝑆𝑄𝑅𝐸𝐺 e o 𝑆𝑄𝑇𝑂𝑇 fornece uma medida da proporção total explicada pelo modelo de regressão linear simples 𝑟2 𝑆𝑄𝑅𝐸𝐺 𝑆𝑄𝑇𝑂𝑇 1 𝑆𝑄𝑅𝐸𝑆 𝑆𝑄𝑇𝑂𝑇 0 𝑟2 1 𝑟2 0 Modelo linear pouco adequado 𝑟2 0 Modelo linear pouco adequado 367 17 Análise de Regressão Ex Dureza 𝑦 em relação à temperatura 𝑥 de um material Dureza c137137137136135135 1331321331331281241261291261221 22122119122 Temperatura c220220220220220 2252252252252252302302302302302 35 235235235235 modelo lmDureza Temperatura summarymodelo i Y X i Y X 1 137 220 11 128 230 2 137 220 12 124 230 3 137 220 13 126 230 4 136 220 14 129 230 5 135 220 15 126 230 6 135 225 16 122 235 7 133 225 17 122 235 8 132 225 18 122 235 9 133 225 19 119 235 10 133 225 20 122 235 368 17 Análise de Regressão Call lmformula Dureza Temperatura Residuals Min 1Q Median 3Q Max 282 082 018 102 302 Coefficients Estimate Std Error t value Prt Intercept 36418000 1376493 2646 734e16 Temperatura 103200 006049 1706 147e12 Residual standard error 1512 on 18 degrees of freedom Multiple Rsquared 09418 Adjusted Rsquared 09385 Fstatistic 2911 on 1 and 18 DF pvalue 1468e12 18 ANÁLISE DE VARIÂNCIA ANOVA 369 370 18 Análise de Variância ANOVA A ANOVA com um fator é ajustada pelo modelo 𝑦𝑖𝑗 𝜇 𝜏𝑖 𝜀𝑖𝑗 𝑗 12 𝑛𝑖 e 𝑖 12 𝑟 𝑦𝑖𝑗 é a jésima observação do tratamento 𝑖 𝜇 é a média global 𝜏𝑖 é o efeito do iésimo tratamento 𝜀𝑖𝑗 é erro aleatório do modelo 371 18 Análise de Variância ANOVA Comparandose as médias de r populações ou tratamentos 1 2 r 1 1 E X 2 2 E X r r E X Pressuposições Todas r va X1 Xr são normalmente distribuídas Têm a mesma variância homocedasticidade 𝑋1 𝑁 𝜇1 𝜎2 𝑋2 𝑁 𝜇2 𝜎2 𝑋𝑟 𝑁 𝜇𝑟 𝜎2 372 18 Análise de Variância ANOVA 373 18 Análise de Variância ANOVA xseq550001 parmarc5511 plotxdnormxtyplcol1ylabfxcexlab2 linesxdnormx11col2 linesxdnormx21col4 legendtoprightcexpression pasteNmu1 0sigma2 1 expression pasteNmu2 1sigma2 1 expression pasteNmur 2sigma2 1 lwdc111ltyc111 colc124 cex17 374 18 Análise de Variância ANOVA Comparandose as médias de r populações ou tratamentos A partir do ajuste da ANOVA têmse os resíduos 𝑋1 𝑁 𝜇1 𝜎2 𝜀1 𝑋1 𝜇1 𝑋2 𝑁 𝜇2 𝜎2 𝜀2 𝑋𝑟 𝜇𝑟 𝑋𝑟 𝑁 𝜇𝑟 𝜎2 𝜀𝑟 𝑋𝑟 𝜇𝑟 𝜀𝑗 𝑁 0 𝜎2 Distribuição dos resíduos Esperase que o resíduos se distribuam em torno de 0 e com a dispersão dos tratamentos 𝜎2 2 1 N 1 2 2 N 2 r N 2 r 375 18 Análise de Variância ANOVA 1 2 r 1 1 E X 2 2 E X r r E X 1 X n1 2 X n2 r X nr 376 18 Análise de Variância ANOVA T1 T2 T3 T4 12 14 19 24 18 12 17 30 13 21 Total Total 30 39 57 54 180 Média 15 13 19 27 18 nj 2 3 3 2 10 T1 T2 T3 T4 X11 X12 X13 X14 X21 X22 X23 X24 X32 X33 Total Total X1 X2 X3 X4 X Média ത𝑋1 ത𝑋2 ത𝑋3 ത𝑋4 ത𝑋𝑟 nj N1 n2 n3 n4 nr 𝑥𝑖 σ𝑗1 𝑛𝑖 𝑥𝑖𝑗 ҧ𝑥𝑖 σ𝑗1 𝑛𝑖 𝑥𝑖𝑗 𝑛𝑖 𝑥 σ𝑖1 𝑟 σ𝑗1 𝑛𝑖 𝑥𝑖𝑗 ҧ𝑥 σ𝑖1 𝑟 σ𝑗1 𝑛𝑖 𝑥𝑖𝑗 𝑁 𝑁 σ𝑖1 𝑟 𝑛𝑖 377 18 Análise de Variância ANOVA T1 T2 T3 T4 12 14 19 24 18 12 17 30 13 21 Total Total 30 39 57 54 180 Média 15 13 19 27 18 nj 2 3 3 2 10 erro em relação à média global T1 T2 T3 T4 10 20 30 15 25 T X 32 5 T X X 378 18 Análise de Variância ANOVA T1 T2 T3 T4 12 14 19 24 18 12 17 30 13 21 Total Total 30 39 57 54 180 Média 15 13 19 27 18 nj 2 3 3 2 10 erro em relação à média global T1 T2 T3 T4 10 20 30 15 25 14 4 3 X X ത𝑋1 ത𝑋2 ത𝑋3 ത𝑋4 379 18 Análise de Variância ANOVA Fonte de Variação Soma dos Quadrados Graus de Liberdade Quadrado Médio Tratamento 𝑆𝑄𝑇 𝑗1 𝑟 𝑖1 𝑛𝑖 ത𝑋𝑗 ത𝑋 2 𝑟 1 𝑄𝑀𝑇 𝑆𝑄𝑇 𝑟 1 Erro 𝑆𝑄𝑅 𝑗1 𝑟 𝑖1 𝑛𝑖 𝑋𝑖𝑗 ത𝑋𝑗 2 𝑁 𝑟 𝑄𝑀𝑅 𝑆𝑄𝑅 𝑁 𝑟 Total 𝑆𝑄𝑇𝑂 𝑗1 𝑟 𝑖1 𝑛𝑖 𝑋𝑖𝑗 ത𝑋 2 𝑁 1 380 18 Análise de Variância ANOVA 𝑆𝑄𝑇𝑂 Soma de Quadrados Total 𝑆𝑄𝑇 Soma de quadrados dos tratamentos 𝑆𝑄𝑅 Soma de Quadrados do Resíduo ou do Erro 𝐸 𝑄𝑀𝑅 𝜎2 É um estimador não tendencioso para 𝜎2 Utilizase o modelo da ANOVA para detectar estatisticamente uma diferença entre as médias dos tratamentos isto é ቊ𝐻0 𝜇1 𝜇2 𝜇𝑟 𝐻1 Pelo menos um é diferente 381 18 Análise de Variância ANOVA Para realizar o teste utilizase a estatística 𝑄𝑀𝑇 𝑄𝑀𝑅 𝐹 𝑟1𝑁𝑟 Se H0 for verdadeira a razão deverá ser baixa Se 𝑄𝑀𝑇 𝑄𝑀𝑅 for alta o valor tenderá a cair na região de rejeição de H0 Fonte de Variação Soma dos Quadrados Graus de Liberdade Quadrado Médio Tratamento 258 3 86 Erro 46 6 767 Total 304 9 382 18 Análise de Variância ANOVA Rejeitase H0 383 18 Análise de Variância ANOVA x seq0 115 length 100000 y dfx36 parmarc3511 plotx y axes FALSE cexlab 16type l ylab expressionpastefx X F36 ablineh 0 ablinev 0lty2colgrey ablinev 112lty2colred x1 xx qf9536 y1 dfx136 x2 c13 x1 x1lengthx1 115 y2 c00 y1 0 1pf11236 polygonx2 y2 col grey90 axis1 at cqf9536 115cexaxis12 font 8 vfont cserifitalic labels c475 expressioninfinity text9503expressionFCALC112cex15 text503expressionPF361120007162cex15 text5035Valorpcex15 384 18 Análise de Variância ANOVA PRESSUPOSIÇÕES Cada observação deve ser independente das demais Garantida pelo processo de amostragem Cada tratamento deve ter distribuição normal O teste F para ANOVA de 1 fator é pouco afetado pela falta de normalidade dos dados neste caso em geral o nível de significância real é ligeiramente diferente que o especificado 385 18 Análise de Variância ANOVA PRESSUPOSIÇÕES Todos os tratamentos devem ter a mesma variância Se todos tratamentos possuírem o mesmo tamanho de amostra nj n o teste F será pouco afetado pelo fato das variâncias dos tratamentos não serem iguais também neste caso o nível de significância real é apenas ligeiramente diferente que o especificado Teste alternativo KruskalWallis teste não paramétrico 386 18 Análise de Variância ANOVA Teste de normalidade DAgostino K2 JarqueBera e ShapiroWilk Testam se a curtose e a assimetria amostral podem ser obtidas a partir de uma distribuição normal Anderson Darling Cramérvon Mises Lilliefors KolmogorovSmirnov Comparam a distribuição acumulada empírica obtida a partir de uma amostra com uma distribuição acumulada teórica qualquer 𝜒2 de Pearson Teste de aderência 387 18 Análise de Variância ANOVA Teste de igualdade de variâncias Bartlett baseiase na comparação entre a média ponderada e a média geométrica das variâncias amostrais Hartley baseiase na comparação entre os valores máximo e mínimo das variâncias amostrais Cochran baseiase na comparação entre o máximo e a soma das variâncias amostrais Levene modificado compara os desvios médios absolutos entre e dentro de cada grupo 388 18 Análise de Variância ANOVA Teste de Bartlett Se 𝑆1 𝑆2 𝑆𝑟 são os desvios das 𝑟 populações com distribuição normal 𝑄𝑀𝐸 σ𝑗1 𝑟 𝑛𝑗1 𝑆𝑗 2 𝑁𝑟 Média aritmética ponderada 𝐺𝑄𝑀𝐸 ς𝑗1 𝑟 𝑆𝑗 2 𝑛𝑗1 1 𝑁𝑟 Média geométrica ponderada 𝐺𝑄𝑀𝐸 𝑄𝑀𝐸 𝐺𝑄𝑀𝐸 𝑄𝑀𝐸 Se todas as variâncias forem iguais 𝐵 2302585 𝐶 𝑁 𝑟 log10 𝑄𝑀𝐸 log10 𝐺𝑄𝑀𝐸 𝐶 1 1 3 𝑟 1 𝑗1 𝑟 1 𝑛𝑗 1 1 𝑁 𝑟 389 18 Análise de Variância ANOVA Teste de Bartlett Se 𝑆1 𝑆2 𝑆𝑟 são os desvios das 𝑟 populações com distribuição normal 𝑄𝑀𝐸 σ𝑗1 𝑟 𝑛𝑗1 𝑆𝑗 2 𝑁𝑟 Média aritmética ponderada 𝐺𝑄𝑀𝐸 ς𝑗1 𝑟 𝑆𝑗 2 𝑛𝑗1 1 𝑁𝑟 Média geométrica ponderada 𝐺𝑄𝑀𝐸 𝑄𝑀𝐸 𝐺𝑄𝑀𝐸 𝑄𝑀𝐸 Se todas as variâncias forem iguais 𝐵 2302585 𝐶 𝑁 𝑟 log10 𝑄𝑀𝐸 log10 𝐺𝑄𝑀𝐸 𝐶 1 1 3 𝑟 1 𝑗1 𝑟 1 𝑛𝑗 1 1 𝑁 𝑟 390 18 Análise de Variância ANOVA Teste de Bartlett 𝐺𝑄𝑀𝐸 𝑄𝑀𝐸 𝐺𝑄𝑀𝐸 𝑄𝑀𝐸 Se todas as variâncias forem iguais 𝐵 2302585 𝐶 𝑁 𝑟 log10 𝑄𝑀𝐸 𝑗1 𝑟 𝑛𝑗 1 log10 𝑆𝑗 2 𝜒𝑟1 2 T1 T2 T3 T4 12 14 19 24 18 12 17 30 13 21 Total Total 30 39 57 54 180 Média 15 13 19 27 18 Desvio 18 1 4 18 nj 2 3 3 2 10 391 18 Análise de Variância ANOVA Hipóteses a serem testadas 𝐻0 𝜎1 2 𝜎2 2 𝜎3 2 𝜎4 2 𝐻1 Pelo menos uma é diferente 𝐶 1 1 9 1 1 1 2 1 2 1 1 1 6 13148 𝐵 2302585 13148 53076 37147 27897 Como 𝜒3 2 𝑇𝐴𝐵 781 não rejeitase a hipótese nula de homocedasticidade T1 T2 T3 T4 12 14 19 24 18 12 17 30 13 21 Total Total 30 39 57 54 180 Média 15 13 19 27 18 Desvio 18 1 4 18 nj 2 3 3 2 10 392 18 Análise de Variância ANOVA dadosc12181412131917212430 tratfactorct1t1t2t2t2t3t3t3t4t4 resultadoaovdadostrat analise de variancia anovaresultado tabela ANOVA Analysis of Variance Table Response dados Df Sum Sq Mean Sq F value PrF trat 3 258 86000 11217 0007135 Residuals 6 46 7667 Signif codes 0 0001 001 005 01 1 393 18 Análise de Variância ANOVA 394 18 Análise de Variância ANOVA Teste de normalidade dos resíduos A hipótese nula testa se os resíduos têm distribuição normal shapirotestresidualsresultado teste de ShapiroWilk ShapiroWilk normality test data residualsresultado W 092388 pvalue 03905 Os resíduos têm distribuição normal 395 18 Análise de Variância ANOVA Teste de normalidade dos resíduos A hipótese nula testa se as variâncias são estatisticamente iguais bartletttestdadostrat teste de Bartlett Bartlett test of homogeneity of variances data dados by trat Bartletts Ksquared 27897 df 3 pvalue 04252 Não rejeitase H0 isto é as variâncias são estatisticamente iguais 396 18 Análise de Variância ANOVA Quando a ANOVA indica a aceitação de H0 concluise que todas as médias dos tratamentos são estatisticamente iguais entre si Quando H0 é rejeitada a ANOVA não é capaz de identificar quais as médias são diferentes entre si Basta que apenas uma média seja diferente para que a ANOVA indique a rejeição da H0 Testes de comparação múltipla das médias Tukey Duncan Dunnet Scheffe Bonferroni 397 18 Análise de Variância ANOVA Teste de normalidade dos resíduos A hipótese nula testa se as médias dos tratamentos são estatisticamente iguais ൝𝐻0 𝜇𝑖 𝜇𝑗 𝐻1 𝜇𝑖 𝜇𝑗 𝑖 𝑗 O teste consiste em calcular um valor Dcrít acima do qual a diferença entre duas médias amostrais em absoluto é significativamente diferente de zero 398 18 Análise de Variância ANOVA Teste de normalidade dos resíduos A hipótese nula testa se as médias dos tratamentos são estatisticamente iguais 𝐷𝑐𝑟í𝑡 𝑞𝑟𝑁𝑟 2 𝑄𝑀𝑅 1 𝑛𝑖 1 𝑛𝑗 Onde 𝐷𝑐𝑟í𝑡 representa o valor tabelado vindo de uma distribuição da amplitude studentizada associado ao nível de significância adotado 399 18 Análise de Variância ANOVA 001 r g tab P q q r g 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 90024 135041 164258 185575 202210 215769 227166 236966 245542 253151 259979 266165 271812 277003 281803 286263 290426 294328 297997 2 14036 19019 22294 24717 26629 28201 29530 30679 31689 32589 33398 34134 34806 35426 36000 36534 37034 37502 37943 3 8260 10619 12170 13324 14241 14998 15641 16199 16691 17130 17526 17887 18217 18522 18805 19068 19315 19546 19765 4 6511 8120 9173 9958 10583 11101 11542 11925 12264 12567 12840 13090 13318 13530 13726 13909 14081 14242 14394 5 5702 6976 7804 8421 8913 9321 9669 9971 10239 10479 10696 10894 11076 11244 11400 11545 11682 11811 11932 6 5243 6331 7033 7556 7972 8318 8612 8869 9097 9300 9485 9653 9808 9951 10084 10208 10325 10434 10538 7 4949 5919 6542 7005 7373 7678 7939 8166 8367 8548 8711 8860 8997 9124 9242 9353 9456 9553 9645 8 4745 5635 6204 6625 6959 7237 7474 7680 7863 8027 8176 8311 8436 8552 8659 8760 8854 8943 9027 9 4596 5428 5957 6347 6657 6915 7134 7325 7494 7646 7784 7910 8025 8132 8232 8325 8412 8495 8573 10 4482 5270 5769 6136 6428 6669 6875 7054 7213 7356 7485 7603 7712 7812 7906 7993 8075 8153 8226 11 4392 5146 5621 5970 6247 6476 6671 6841 6992 7127 7250 7362 7464 7560 7648 7731 7809 7883 7952 12 4320 5046 5502 5836 6101 6320 6507 6670 6814 6943 7060 7166 7265 7356 7441 7520 7594 7664 7730 13 4260 4964 5404 5726 5981 6192 6372 6528 6666 6791 6903 7006 7100 7188 7269 7345 7417 7484 7548 14 4210 4895 5322 5634 5881 6085 6258 6409 6543 6663 6772 6871 6962 7047 7125 7199 7268 7333 7394 15 4167 4836 5252 5556 5796 5994 6162 6309 6438 6555 6660 6756 6845 6927 7003 7074 7141 7204 7264 16 4131 4786 5192 5489 5722 5915 6079 6222 6348 6461 6564 6658 6744 6823 6897 6967 7032 7093 7151 17 4099 4742 5140 5430 5659 5847 6007 6147 6270 6380 6480 6572 6656 6733 6806 6873 6937 6997 7053 18 4071 4703 5094 5379 5603 5787 5944 6081 6201 6309 6407 6496 6579 6655 6725 6791 6854 6912 6967 19 4046 4669 5054 5334 5553 5735 5889 6022 6141 6246 6342 6430 6510 6585 6654 6719 6780 6837 6891 20 4024 4639 5018 5293 5510 5688 5839 5970 6086 6190 6285 6370 6449 6523 6591 6654 6714 6770 6823 25 3942 4527 4885 5144 5347 5513 5655 5778 5886 5983 6070 6150 6224 6292 6355 6414 6469 6522 6571 30 3889 4455 4799 5048 5242 5401 5536 5653 5756 5848 5932 6008 6078 6142 6202 6258 6311 6361 6407 40 3825 4367 4695 4931 5114 5265 5392 5502 5599 5685 5764 5835 5900 5961 6017 6069 6118 6165 6208 60 3762 4282 4594 4818 4991 5133 5253 5356 5447 5528 5601 5667 5728 5784 5837 5886 5931 5974 6015 120 3702 4200 4497 4709 4872 5005 5118 5214 5299 5375 5443 5505 5561 5614 5662 5708 5750 5790 5827 3643 4120 4403 4603 4757 4882 4987 5078 5157 5227 5290 5348 5400 5448 5493 5535 5574 5611 5645 400 18 Análise de Variância ANOVA 005 r g tab P q q r g 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1 17969 26976 32819 37082 40408 43119 45397 47357 49071 50592 51957 53194 54323 55361 56320 57212 58044 58824 59558 2 6085 8331 9798 10881 11734 12435 13027 13539 13988 14389 14749 15076 15375 15650 15905 16143 16365 16573 16769 3 4501 5910 6825 7502 8037 8478 8852 9177 9462 9717 9946 10155 10346 10522 10686 10838 10980 11114 11240 4 3926 5040 5757 6287 6706 7053 7347 7602 7826 8027 8208 8373 8524 8664 8793 8914 9027 9133 9233 5 3635 4602 5218 5673 6033 6330 6582 6801 6995 7167 7323 7466 7596 7716 7828 7932 8030 8122 8208 6 3460 4339 4896 5305 5628 5895 6122 6319 6493 6649 6789 6917 7034 7143 7244 7338 7426 7508 7586 7 3344 4165 4681 5060 5359 5606 5815 5997 6158 6302 6431 6550 6658 6759 6852 6939 7020 7097 7169 8 3261 4041 4529 4886 5167 5399 5596 5767 5918 6053 6175 6287 6389 6483 6571 6653 6729 6801 6869 9 3199 3948 4415 4755 5024 5244 5432 5595 5738 5867 5983 6089 6186 6276 6359 6437 6510 6579 6643 10 3151 3877 4327 4654 4912 5124 5304 5460 5598 5722 5833 5935 6028 6114 6194 6269 6339 6405 6467 11 3113 3820 4256 4574 4823 5028 5202 5353 5486 5605 5713 5811 5901 5984 6062 6134 6202 6265 6325 12 3081 3773 4199 4508 4750 4950 5119 5265 5395 5510 5615 5710 5797 5878 5953 6023 6089 6151 6209 13 3055 3734 4151 4453 4690 4884 5049 5192 5318 5431 5533 5625 5711 5789 5862 5931 5995 6055 6112 14 3033 3701 4111 4407 4639 4829 4990 5130 5253 5364 5463 5554 5637 5714 5785 5852 5915 5973 6029 15 3014 3673 4076 4367 4595 4782 4940 5077 5198 5306 5403 5492 5574 5649 5719 5785 5846 5904 5958 16 2998 3649 4046 4333 4557 4741 4896 5031 5150 5256 5352 5439 5519 5593 5662 5726 5786 5843 5896 17 2984 3628 4020 4303 4524 4705 4858 4991 5108 5212 5306 5392 5471 5544 5612 5675 5734 5790 5842 18 2971 3609 3997 4276 4494 4673 4824 4955 5071 5173 5266 5351 5429 5501 5567 5629 5688 5743 5794 19 2960 3593 3977 4253 4468 4645 4794 4924 5037 5139 5231 5314 5391 5462 5528 5589 5647 5701 5752 20 2950 3578 3958 4232 4445 4620 4768 4895 5008 5108 5199 5282 5357 5427 5492 5553 5610 5663 5714 25 2913 3523 3890 4153 4358 4526 4667 4789 4897 4993 5079 5158 5230 5297 5359 5417 5471 5522 5570 30 2888 3486 3845 4102 4301 4464 4601 4720 4824 4917 5001 5077 5147 5211 5271 5327 5379 5429 5475 40 2858 3442 3791 4039 4232 4388 4521 4634 4735 4824 4904 4977 5044 5106 5163 5216 5266 5313 5358 60 2829 3399 3737 3977 4163 4314 4441 4550 4646 4732 4808 4878 4942 5001 5056 5107 5154 5199 5241 120 2800 3356 3685 3917 4096 4241 4363 4468 4560 4641 4714 4781 4842 4898 4950 4998 5043 5086 5126 2772 3314 3633 3858 4030 4170 4286 4387 4474 4552 4622 4685 4743 4796 4845 4891 4934 4974 5012 401 18 Análise de Variância ANOVA T1 T2 T3 T4 12 14 19 24 18 12 17 30 13 21 Total Total 30 39 57 54 180 Média 15 13 19 27 18 Desvio 18 1 4 18 nj 2 3 3 2 10 𝐷𝑐𝑟í𝑡 𝑞46 2 𝑄𝑀𝑅 1 𝑛𝑖 1 𝑛𝑗 𝑞46 49 𝛼 5 ത𝑋𝑗 13 15 1927 em ordem 𝐷𝑐𝑟í𝑡12 49 2 767 1 2 1 3 876 𝐷𝑐𝑟í𝑡22 49 2 767 1 3 1 3 783 Se a diferença entre as médias for maior do que 876 há diferença 402 18 Análise de Variância ANOVA 13𝑎 15𝑎 19𝑎𝑏 27𝑎𝑏 2 4 8 6 12 14 0 5 10 15 20 25 30 35 A B C D a a ab b T2 T1 T3 T4 T2 T1 T3 T4 10 20 30 tukey TukeyHSDresultadoorderedTRUE conflevel095 plottukey 403 18 Análise de Variância ANOVA tukey TukeyHSDresultadoorderedTRUE conflevel095 tukey Tukey multiple comparisons of means 95 familywise confidence level factor levels have been ordered Fit aovformula dados trat diff lwr upr p adj t1t2 2 67499087 1074991 08561049 t3t2 6 18261563 1382616 01304578 t4t2 14 52500913 2274991 00058766 t3t1 4 47499087 1274991 04522099 t4t1 12 24149552 2158504 00190946 t4t3 8 07499087 1674991 00707158 Universidade Federal do Piauí Departamento de Estatística maxbrandaoufpiedubr 404