4
Probabilidade e Estatística 1
UFGD
5
Probabilidade e Estatística 1
UFGD
14
Probabilidade e Estatística 1
UFGD
19
Probabilidade e Estatística 1
UFGD
5
Probabilidade e Estatística 1
UFGD
20
Probabilidade e Estatística 1
UFGD
21
Probabilidade e Estatística 1
UFGD
2
Probabilidade e Estatística 1
UFGD
6
Probabilidade e Estatística 1
UFGD
4
Probabilidade e Estatística 1
UFGD
Texto de pré-visualização
INFERÊNCIA ESTATÍSTICA 01 Introdução a Inferência Estatística Vamos definir alguns conceitos a seguir Definição 1 Inferência estatística Fazer afirmações sobre características de uma população a partir de informações colhidas de uma parte da população amostra Definição 2 População Conjunto de indivíduos ou objetos tendo pelo menos uma variável comum observável Definição 3 Amostra Qualquer subconjunto da população Exemplo 01 Queremos estudar a proporção de indivíduos numa certa cidade que são favoráveis a um certo projeto da Prefeitura Uma amostra de 200 pessoas é sorteada e a opinião de cada uma é registrada Então a variável de interesse é a resposta a favor ou contra o projeto A população consiste de todos os moradores da cidade e a amostra é formada pelas 200 pessoas selecionadas Podemos considerar xi 1 se a iésima pessoa selecionada é favorável ao projeto e xi 0 se a iésima pessoa é contra o projeto 011 Problemas de Inferência A característica da população na qual estamos interessados em geral pode ser re presentado por uma variável aleatória X Todavia na grande maioria das vezes não temos qualquer informação a respeito dessa variável ou ela é apenas parcial Assim por exemplo podemos conhecer a forma da distribuição em estudo mas des conhecermos os parâmetros que a caracterizam média e variância ou inversamente i ii podemos ter uma ideia da média e da variância mas desconhecermos a distribui ção da variável ou o que é muito comum não possuirmos informação nem sobe os parâmetros nem sobre a distribuição da variável Exemplo 02 Para investigar a honestidade de uma moeda nós a lançamos 50 vezes e contamos o número de caras observadas Indicando por X o número de caras observadas nos 50 lançamentos sabemos que X Bin50 p Lançada a moeda vamos supor que tenham ocorrido 36 caras Perguntas Esse resultado evidencia algo sobre a honestidade da moeda Se partimos do princípio que p 1 2 podemos encontrar com este parâmetro No modelo binomial qual a probabilidade de se obter 36 caras ou mais isto é PX 36 e tal número nos ajudaria a tomar a decisão Suponha que tenhamos sido levados a rejeitar a honestidade da moeda qual a melhor estimativa para p baseandose no resultado observado 012 Amostragem Casual Simples ACS com reposição Na amostragem casula simples com reposição atribuímos a cada elemento da po pulação a mesma probabilidade de seleção para a amostra e repomos o elemento sorteado antes do próximo sorteio Definição 4 Uma amostra casual simples de tamanho n de uma variável aleatória X com uma dada distribuição é o conjunto de n variáveis aleatórias independentes X1 X2 Xn cada uma com a mesma distribuição de X ou seja a amostra será n upla ordenada X1 X2 Xn onde Xi indica a observação do iésimo elemento sorteado iii 013 Estatística Uma estatística é uma característica da amostra ou seja uma estatística T é uma função de X1 X2 Xn T fX1 X2 Xn As estatísticas mais comuns são x 1 n n i1 Xi média da amostra S2 1 n 1 n i1 Xi X2 variância da amostra X1 minX1 X2 Xn menor valor da amostra Xn maxX1 X2 Xn maior valor da amostra W Xn X1 amplitude da amostra ˆσ2 1 n n i1 Xi X2 estimativa da variância populacional 014 Parâmetro Medida usada para descrever uma característica da população Por exemplo uma variável aleatória X associada a uma certa população µx e σ2 são parâmetros Os símbolos mais comuns para estatística e parâmetros são dados na tabela abaixo Estatística Parâmetro Média x µ Variância S2 σ2 N o de elem n N Proporção ˆp p 015 Distribuições Amostrais O intuito da inferência estatística é fazer afirmações da população sobre parâmetros da população através da amostra Indicase por θ o parâmetro populacional média iv variância etc ou seja θ µ σ2 p Utilizase uma ACS com reposição de n elementos sorteados dessa população com o objetivo de estimar θ Nossa decisão será baseada na estatística T fX1 X2 Xn Assim colhida a amostra teremos observado um particular valor de T digamos t0 e baseado nesse valor é que faremos a afirmação sobre θ o parâmetro populacional A validade da nossa resposta seria melhor compreendida se soubéssemos o que acontece com a estatística T quando retiramos todas as amostras de uma população conhecida segundo o plano amostral adotado Isto é qual a distribuição de T quando X1 X2 Xn assume todos os valores possíveis Esta distribuição é chamada distribuição amostral da estatística T Em resumo teremos i Uma população X de tamanho N com um certo parâmetro θ de interesse ii Todas as possíveis amostras de tamanho n retiradas da população de acordo com um certo procedimento iii Para cada amostra calculamos o valor de t da estatística T vi Os valores de t formam uma nova população cuja distribuição recebe o nome de distribuição amostral T Exemplo 03 Seja X uma população com N 5 elementos assumindo os valores 1 3 5 5 7 Considerando todas as possíveis amostras de tamanho n 2 obtidas com reposição dessa população teremos um total de 25 amostras Indicando por X1 o primeiro número da amostra e por X2 o segundo número da amostra teremos que a distribuição conjunta de X1 X2 v Tabela 1 Distribuição conjunta de X1 X2 X2X1 1 3 5 7 PX2 1 1 25 1 25 2 25 1 25 1 5 3 1 25 1 25 2 25 1 25 1 5 5 2 25 2 25 4 25 2 25 2 5 7 1 25 1 25 2 25 1 25 1 5 PX1 1 5 1 5 2 5 1 5 1 Considere a distribuição amostral da estatística X X1X2 2 Tabela 2 Distribuição da estatística X x 1 2 3 4 5 6 7 Total P X x 1 25 2 25 5 25 6 25 6 25 4 25 1 25 1 Para mostrar como foram calculado as probabilidades vamos considerar o caso em que X 3 lembrando que o número de elementos do espaço amostral Ω é 25 P X 3 P1 5 5 1 3 3 1 5 5 1 5 25 Analogamente teremos a distribuição amostral da amplitude W bem como a variância S2 dadas abaixo Tabela 3 Distribuição da estatística W w 0 2 4 6 Total PW w 7 25 10 25 6 25 2 25 1 vi Tabela 4 Distribuição da estatística S2 s2 0 2 8 18 Total PS2 s2 7 25 10 25 6 25 2 25 1 Para mostrar como a tabela da distribuição amostral da variância S2 foi cons truído vamos considerar os casos 1 7 7 1 Assim S2 1 2 1 4 1 xi 42 1 42 7 42 9 9 18 016 Distribuição Amostral da Média Seja X uma variável aleatória associada a uma população cujos parâmetros EX µX e V arX σ2 X são supostos conhecidos Vamos retirar todas as possíveis amostras casuais simples de tamanho n dessa população e para cada uma calcular a média X A seguir vamos construir a distribuição amostral de X e estudar suas propriedades Exemplo 04 Vamos considerar a seguinte população 1 3 5 5 7 que possui mé dia µX 4 2 e variância σ2 X 4 16 pois µX 1 5 5 i1 Xi 21 5 4 2 σ2 X n i1Xi µi2 5 20 8 5 4 16 Considerar os dados da tabela 92 da distribuição de X1 verificando que EX 7 i1 xi pxi 1 1 25 2 2 25 3 5 25 4 6 25 5 6 25 6 4 25 7 1 25 105 25 42 vii De modo análogo encontramos V arX EX2 EX2 7 i1 x2 i pxi µ2 X 1 1 25 4 2 25 9 5 25 16 6 25 25 6 25 36 4 25 49 1 25 4 22 493 25 17 64 19 72 17 64 208 Observe que o valor esperado das médias EX é igual ao valor da média popula cional µX e a variância das médias V arX é igual ao valor da variância populacional σX dividido por 2 pois o número de amostras n 2 Assim V arX σ2 X 2 416 2 Concluímos que EX µX e V arX σ2 X n O seguinte teorema nos mostra que o fato da média valor esperado das médias ter coincidindo com a média populacional e a variância de X ser igual a V arX dividida por 2 não foi coincidência mas sempre acontece Teorema 01 Seja X uma variável aleatória com média µX e variância σ2 X e seja X1 X2 Xn uma amostra casual simples de X Então se X X1 X2 Xn n 1 n n i1 Xi temos EX µX e V arX σ2 X n viii Demonstração EX E X1 X2 Xn n 1 nEX1 EX2 EXn 1 nEX1 µX EX2 µX EXn µX 1 n nµX µX V arX V ar X1 X2 Xn n 1 n 2 V arX1 σ2 X V arX2 σ2 X V arXn σ2 X 1 n2 nσ2 X σ2 X n Teorema 02 Teorema do Limite Central Para amostras casuais simples X1 X2 Xn retiradas de uma população com média µ e variância σ2 a distribuição amostral da média X 1 n n i1 Xi aproximase de uma distribuição normal com média µ e va riância σ2 n quando n tende a infinito n 30 Corolário 021 Se X1 X2 Xn uma amostra casual simples da população X com média µ variância σ2 e X 1 n n i1 Xi então Z X µ σ n Nµ 0 σ2 1 Corolário 022 Se e x µ isto é e é uma variável aleatória que mede a diferença entre a estatistica x e o parâmetro µ então e N µ 0 σ2 n 017 Distribuição Amostral da Proporção Vamos considerar uma população em que a proporção de indivíduosportadores de uma certa característica é p Assim essa população pode ser considerada como uma variável aleatória X tal que X 1 se o indivíduo é portador da característica e X 0 se o indivíduo não é portador da característica ix Logo µ EX p σ2 p 1 p Retirando uma amostra casual simples ACS com reposição X1 X2 Xn dessa população é indicado por 02 Estimação 021 Intervalo de Confiança Os estimadores que foram apresentados anteriormente são estimadores pontuais isto é especificam um único valor para o parâmetro Este procedimento não permite jugar qual a possível magnitude do erro que estamos cometendo Daí surge a ideia de construir os intervalos de confiança que são baseados na distribuição amostral do estimador pontual Exemplo 05 A estimativa pontual da média populacional µ será feita por x Qualquer que seja a amostra teremos um erro que será x µ De acordo com o Teorema do Limite Central TLC teremos e X µ N0 σ2 x onde σ2 x σ2 n Assim podemos determinar qual a probabilidade de cometer erros de determi nadas magnitudes Exemplo 06 De acordo com a tabela normal padrão para z 1 69 temos que Φz 095 Pe 1 96 σx 0 95 Px µ 1 96 σx 0 95 P1 96 σx x µ 1 96 σx 0 95 Px 1 96 σx µ x 1 96 σx 0 95 x Convém lembrar que µ não é uma variável aleatória mas um parâmetro e a expressão acima deve ser interpretada do seguinte modo Construídos todos os intervalos da forma x 1 96 σx 95 deles possuirão o parâmetro µ Dessa forma sorteada uma amostra e encontrada sua média x0 e admitindo conhecido σx podemos construir o intervalo x0 1 96 σx o qual poderá ou não conter o parâmetro µ mas temos 95 de confiança que contenha Desse modo se T é um estimador de θ e conhecida a distribuição amostral de T sempre será possível encontrar dois valores t1 e t2 tal que Pt1 θ t2 γ onde 0 γ 1 é um valor fixado o qual é denominado nível de confiança e indicaremos intervalo de confiança de θ com γ de nível de confiança por ICθ γ t1 t2 Exemplo 07 ICµ γ x zσx x zσx Exemplo 08 Uma máquina enche pacotes de café com uma variância igual a 100 g2 Ela estava regulada para encher com 500 g em média Agora ela se desregu lou e queremos saber qual a nova média µ Uma amostra de 25 pacotes apresentou uma média igual a 485 g Construir o intervalo de confiança para µ com nível de confiança de 95 Solução Sabemos que µ 500g σ2 100g2 n 25 e x 485 Logo σ2 100g2 σx σ n 10 25 10 5 2 σx 2 Calculando o intervalo de confiança temos ICµ 95 485 1 96 2 481 489 Concluímos com 95 de confiança que a média é diferente de 500 g pois o intervalo de confiança 481 489 não contém o parâmetro µ 500g Exemplo 09 Vamos obter um intervalo de confiança IC para p do exemplo do início deste capítulo onde uma amostra de 500 pessoas de uma cidade é escolhida xi para se manifestar sobre um problema municipal Sabemos que X número de su cessos nas n pessoas tem uma distribuição aproximadamente normal com média µ np e variância σ2 npq e q 1 p Consequentemente z X np npq N0 1 ou ainda z X n p pq n ˆp p pq n N0 1 Assim se γ 0 95 temos que P1 96 X 1 96 0 95 ou seja P 1 96 ˆp p pq n 1 96 0 95 daí P 1 96 pq n ˆp p 1 96 pq n 0 95 P ˆp 1 96 pq n p ˆp 1 96 pq n 0 95 Portanto com probabilidade de 95 temos que ˆp 1 96 pq n p ˆp 1 96 pq n Como não conhecemos p usamos o fato de que pq 1 4 e portanto pq n 1 4n obtendo ˆp 196 4n p ˆp 196 4n Então ˆp 1 96 4n ˆp 1 96 4n é um intervalo de confiança IC para γ com coeficiente de confiança de 95 Para um coeficiente de confiança γ qualquer 0 γ 1 a expressão do intervalo de confiança para p fica ˆp zγ 4n p ˆp zγ 4n onde zγ é tal que Pzγ z zγ γ xii Exemplo 010 Numa pesquisa de mercado n 400 pessoas foram entrevistadas sobre produto e 60 destas pessoas preferiram a marca A Determine um intervalo de confiança IC para p proporção de preferência por A com coeficiente de confiança cc γ 0 99 ICp 0 99 0 6 2 58 1600 ou ICp 0 99 0 5355 0 6645 Observação 021 O intervalo para p dado acima é chamado consecutivo pois se p for igual a 1 2 e estiver próximo de 0 ou 1 então ele fornecerá um intervalo de amplitude desnecessariamente grande pois substituímos pq pelo valor máximo 1 4 A menos que ˆp 1 2 podemos proceder como no exemplo abaixo Exemplo 011 Suponhamos que uma amostra de 500 donas de casa revela que 100 delas preferem a marca X de detergente Construir um IC para p a proporção de donas de casa que preferem a marca X com γ 0 90 Neste caso usaremos ˆpˆq onde ˆq 1 ˆp como estimador de pq Dessa forma o intervalo ficará ˆp zγ ˆpˆq n p ˆp σγ ˆpˆq n Sendo ˆp 100 500 0 20 e ˆq 1 ˆp 0 80 temse 0 20 1 64 0 2 0 8 500 0 20 0 0293 ou seja ICp 0 90 0 171 0 229 Usando o intervalo conservativo teremos 0 2 1 645 2000 0 2 0 0368 ou seja ICp 0 90 0 1632 0 2368 xiii 022 Distribuição Amostral da Estatística n 1 σ2 S2 Suponha que se tenha n variável aleatória normais padronizadas e independentes entre si isto é Zi N0 1 i 1 2 n então se tem o seguinte resultado Teorema 03 Seja Z1 Z2 Zn uma amostra aleatória de uma variável alea tória Z N0 1 Então a variável Y n i1 Z2 i Z2 1 Z2 2 Z2 n χ2 n tem distribuição quiquadrado com n graus de liberdade e cada Z2 i χ2 1 A função densidade de probabilidade dessa variável é fy 1 Γ n 2 2 n 2 y n 2 1 e y 2 y 0 O parâmetro n recebe o nome de graus de liberdade e corresponde ao número de variáveis normais padrão independentes ao quadrado somadas Denotaremos por Y χ2 n Podese mostrar que EY n e V arY 2n Propriedades χ2 p χ2 q χ2 pq xiv Exemplo 012 Para n 12 temos que PY 18 549 0 10 0 5 10 15 20 25 30 000 002 004 006 008 010 PY 18544 010 Quiquadrado Exemplo 013 Seja X X1 Xn uma amostra aleatória aa de X Nµ σ2 temos que Xi µ σ N0 1 i 1 2 n Daí X1 µ σ 2 X2 µ σ 2 Xn µ σ 2 χ2 n Definindo σ2 1 n n i1Xi µ2 e verificase que Y n σ2 σ2 n σ2 1 n n i1 Xi µ2 1 σ2 n i1 Xi µ2 n i1 Xi µ σ 2 Y χ2 n Observação 031 Observe que σ2 é muito parecido com o estimador ˆσ2 com µ tomando o lugar de x Resultado n i1 Xi µ2 n i1 Xi X X µ2 n i1 Xi X X µ 2 n i1 Xi X2 2 X µ n i1 Xi X n X µ2 xv Como n i1 Xi X n i1 Xi n i1 X nX nX 0 temos que n i1 Xi µ2 n i1 Xi X2 n X µ2 fazendo a divisão de σ2 nos dois lados da equação temos n i1 Xi µ σ 2 χ2 n n i1 Xi X σ 2 X µ σ n 2 χ2 1 Mas sabemos que X tem distribuição normal com média µ e variância σ2 n Por tanto é razoável supormos que n i1 Xi X σ 2 χ2 n1 Observe que n 1S2 σ2 n 1 σ2 1 n 1 n i1 Xi X2 n i1 Xi X σ 2 Portanto n 1S2 σ2 χ2 n1 ou seja n1S2 σ2 tem distribuição qui quadrado com n 1 graus de liberdade 023 Intervalo de Confiança par a variância de uma Nµ σ2 Temos que n 1 σ2 S2 χ2 n1 Então o intervalo de confiança IC para σ2 com coeficiente de confiança γ será xvi Distribuição Quiquadrado P χ2 1 n 1 σ2 S2 χ2 2 γ P χ2 1 n 1S2 1 σ2 χ2 2 n 1S2 γ P n 1S2 χ2 1 σ2 1 n 1S2 χ2 2 γ E portanto ICσ2 γ n 1 χ2 2 S2 n 1 χ2 1 S2 Exemplo 014 Os dados abaixo referemse as vendas diárias em unidade de me dida durante uma semana de carros de uma revendedora Dados 253 187 96 450 320 105 a Obtenha um estimador pontual não viesado para σ2 a variância populacional das vendas diárias b Construa um ICσ2 90 xvii 024 A Distribuição t de Student Teorema 04 Seja Z uma va com distribuição Z N0 1 e Y outra va com distribuição Y χ2 n com Z e Y independentes Então a variável aleatória t Z Y n tem distribuição t com n graus de liberdade gl A função densidade de probabilidade fdp de uma variável aleatória t é dada por ft Γ n1 2 Γ n 2 πn 1 t2 n n1 2 t O parâmetro n chamase número de graus de liberdade e depende do número de graus de liberdade da variável aleatória do denominador Indicaremos uma distri buição t com n graus de liberdade por tn Podese mostrar que Et 0 e V art n n 2 e que o gráfico da fdp da t aproximase muito da distribuição N0 1 quando n é grande Esta distribuição também está tabelada Em geral estas tabelas fornecem valores de tc tais que Ptc t tc 1 p para alguns valores de p e n 1 2 30 35 40 50 60 120 Para valores de n muito grandes podese usar a distribuição N0 1 Por exemplo se n 15 e p 5 0 05 então tc 2 131 Exemplo 015 Uma aplicação imediata desta distribuição é na obtenção da dis tribuição amostral da estatística X µ S n Temos que X µ S n Z X µ σ n σ S Z S σ N0 1 S σ xviii mas sabemos que n 1 S2 σ2 Y χ2 n1 S2 σ2 Y n 1 S σ Y n 1 Portanto X µ S n Z Y n1 tn1 025 Intervalo de Confiança para a média µ de uma Nµ σ2 σ2 desconhecido Vimos que X µ S n tn1 Logo o ICµ γ cujo aspecto gráfico é dado abaixo será obtido de Ptc t tc γ P tc X µ S n tc γ P X tc S n µ X tc S n γ P X tc S n µ X tc S n γ Portanto ICµ γ X t S n Exemplo 016 Numa linha de produção é muito importante que o tempo gasto numa determinada operação não varie muito de empregado para empregado i Que parâmetro estatístico poderia ser usado para avaliar esse fato ii Se 11 empregados apresentam os tempos abaixo para realizar essa operação qual seria a estimativa para o parâmetro acima xix Com base nessa amostra construa um ICµ 95 125 135 115 120 150 130 125 145 125 140 130 Solução i σ o parâmetro desvio padrão ii σˆ S S2 1 n 1 Xi X2 10 6813 ou σˆ 1 n 1 Xi X2 10 6813 Calculando a média e grau de liberdade temos x 130 90901 130 91 e gl 11 1 10 Assim ICµ 95 130 91 2 228 10 6813 11 130 91 2 228 10 6813 11 ICµ 95 123 734 138 084 Exemplo 017 Bussab Morettin pag 228 De 50000 válvulas fabricadas por uma companhia retirase uma amostra de 400 válvulas e obtémse a vida média do 800 horas e o desvio padrão de 100 horas a Qual o intervalo de confiança de 99 para a vida média da população b Com que confiança você diria que a vida média é 800 0 98 c Que tamanho deve ser a amostra par que seja de 95 a confiança na estimativa 800 7 84 Que suposições você fez para responder as questões acima Solução xx a Qual a IC de 99 para a vida média da população ICµ 99 X t S n X t S n Temos que x 800 s 100 e t 2 58 Assim ICµ 99 800 2 58 100 400 800 2 58 100 400 787 1 812 9 b t S n 0 98 t 100 400 0 98 5t 0 98 t 0 196 0 20 Dessa forma temos γ 0 07926 0 07926 16
4
Probabilidade e Estatística 1
UFGD
5
Probabilidade e Estatística 1
UFGD
14
Probabilidade e Estatística 1
UFGD
19
Probabilidade e Estatística 1
UFGD
5
Probabilidade e Estatística 1
UFGD
20
Probabilidade e Estatística 1
UFGD
21
Probabilidade e Estatística 1
UFGD
2
Probabilidade e Estatística 1
UFGD
6
Probabilidade e Estatística 1
UFGD
4
Probabilidade e Estatística 1
UFGD
Texto de pré-visualização
INFERÊNCIA ESTATÍSTICA 01 Introdução a Inferência Estatística Vamos definir alguns conceitos a seguir Definição 1 Inferência estatística Fazer afirmações sobre características de uma população a partir de informações colhidas de uma parte da população amostra Definição 2 População Conjunto de indivíduos ou objetos tendo pelo menos uma variável comum observável Definição 3 Amostra Qualquer subconjunto da população Exemplo 01 Queremos estudar a proporção de indivíduos numa certa cidade que são favoráveis a um certo projeto da Prefeitura Uma amostra de 200 pessoas é sorteada e a opinião de cada uma é registrada Então a variável de interesse é a resposta a favor ou contra o projeto A população consiste de todos os moradores da cidade e a amostra é formada pelas 200 pessoas selecionadas Podemos considerar xi 1 se a iésima pessoa selecionada é favorável ao projeto e xi 0 se a iésima pessoa é contra o projeto 011 Problemas de Inferência A característica da população na qual estamos interessados em geral pode ser re presentado por uma variável aleatória X Todavia na grande maioria das vezes não temos qualquer informação a respeito dessa variável ou ela é apenas parcial Assim por exemplo podemos conhecer a forma da distribuição em estudo mas des conhecermos os parâmetros que a caracterizam média e variância ou inversamente i ii podemos ter uma ideia da média e da variância mas desconhecermos a distribui ção da variável ou o que é muito comum não possuirmos informação nem sobe os parâmetros nem sobre a distribuição da variável Exemplo 02 Para investigar a honestidade de uma moeda nós a lançamos 50 vezes e contamos o número de caras observadas Indicando por X o número de caras observadas nos 50 lançamentos sabemos que X Bin50 p Lançada a moeda vamos supor que tenham ocorrido 36 caras Perguntas Esse resultado evidencia algo sobre a honestidade da moeda Se partimos do princípio que p 1 2 podemos encontrar com este parâmetro No modelo binomial qual a probabilidade de se obter 36 caras ou mais isto é PX 36 e tal número nos ajudaria a tomar a decisão Suponha que tenhamos sido levados a rejeitar a honestidade da moeda qual a melhor estimativa para p baseandose no resultado observado 012 Amostragem Casual Simples ACS com reposição Na amostragem casula simples com reposição atribuímos a cada elemento da po pulação a mesma probabilidade de seleção para a amostra e repomos o elemento sorteado antes do próximo sorteio Definição 4 Uma amostra casual simples de tamanho n de uma variável aleatória X com uma dada distribuição é o conjunto de n variáveis aleatórias independentes X1 X2 Xn cada uma com a mesma distribuição de X ou seja a amostra será n upla ordenada X1 X2 Xn onde Xi indica a observação do iésimo elemento sorteado iii 013 Estatística Uma estatística é uma característica da amostra ou seja uma estatística T é uma função de X1 X2 Xn T fX1 X2 Xn As estatísticas mais comuns são x 1 n n i1 Xi média da amostra S2 1 n 1 n i1 Xi X2 variância da amostra X1 minX1 X2 Xn menor valor da amostra Xn maxX1 X2 Xn maior valor da amostra W Xn X1 amplitude da amostra ˆσ2 1 n n i1 Xi X2 estimativa da variância populacional 014 Parâmetro Medida usada para descrever uma característica da população Por exemplo uma variável aleatória X associada a uma certa população µx e σ2 são parâmetros Os símbolos mais comuns para estatística e parâmetros são dados na tabela abaixo Estatística Parâmetro Média x µ Variância S2 σ2 N o de elem n N Proporção ˆp p 015 Distribuições Amostrais O intuito da inferência estatística é fazer afirmações da população sobre parâmetros da população através da amostra Indicase por θ o parâmetro populacional média iv variância etc ou seja θ µ σ2 p Utilizase uma ACS com reposição de n elementos sorteados dessa população com o objetivo de estimar θ Nossa decisão será baseada na estatística T fX1 X2 Xn Assim colhida a amostra teremos observado um particular valor de T digamos t0 e baseado nesse valor é que faremos a afirmação sobre θ o parâmetro populacional A validade da nossa resposta seria melhor compreendida se soubéssemos o que acontece com a estatística T quando retiramos todas as amostras de uma população conhecida segundo o plano amostral adotado Isto é qual a distribuição de T quando X1 X2 Xn assume todos os valores possíveis Esta distribuição é chamada distribuição amostral da estatística T Em resumo teremos i Uma população X de tamanho N com um certo parâmetro θ de interesse ii Todas as possíveis amostras de tamanho n retiradas da população de acordo com um certo procedimento iii Para cada amostra calculamos o valor de t da estatística T vi Os valores de t formam uma nova população cuja distribuição recebe o nome de distribuição amostral T Exemplo 03 Seja X uma população com N 5 elementos assumindo os valores 1 3 5 5 7 Considerando todas as possíveis amostras de tamanho n 2 obtidas com reposição dessa população teremos um total de 25 amostras Indicando por X1 o primeiro número da amostra e por X2 o segundo número da amostra teremos que a distribuição conjunta de X1 X2 v Tabela 1 Distribuição conjunta de X1 X2 X2X1 1 3 5 7 PX2 1 1 25 1 25 2 25 1 25 1 5 3 1 25 1 25 2 25 1 25 1 5 5 2 25 2 25 4 25 2 25 2 5 7 1 25 1 25 2 25 1 25 1 5 PX1 1 5 1 5 2 5 1 5 1 Considere a distribuição amostral da estatística X X1X2 2 Tabela 2 Distribuição da estatística X x 1 2 3 4 5 6 7 Total P X x 1 25 2 25 5 25 6 25 6 25 4 25 1 25 1 Para mostrar como foram calculado as probabilidades vamos considerar o caso em que X 3 lembrando que o número de elementos do espaço amostral Ω é 25 P X 3 P1 5 5 1 3 3 1 5 5 1 5 25 Analogamente teremos a distribuição amostral da amplitude W bem como a variância S2 dadas abaixo Tabela 3 Distribuição da estatística W w 0 2 4 6 Total PW w 7 25 10 25 6 25 2 25 1 vi Tabela 4 Distribuição da estatística S2 s2 0 2 8 18 Total PS2 s2 7 25 10 25 6 25 2 25 1 Para mostrar como a tabela da distribuição amostral da variância S2 foi cons truído vamos considerar os casos 1 7 7 1 Assim S2 1 2 1 4 1 xi 42 1 42 7 42 9 9 18 016 Distribuição Amostral da Média Seja X uma variável aleatória associada a uma população cujos parâmetros EX µX e V arX σ2 X são supostos conhecidos Vamos retirar todas as possíveis amostras casuais simples de tamanho n dessa população e para cada uma calcular a média X A seguir vamos construir a distribuição amostral de X e estudar suas propriedades Exemplo 04 Vamos considerar a seguinte população 1 3 5 5 7 que possui mé dia µX 4 2 e variância σ2 X 4 16 pois µX 1 5 5 i1 Xi 21 5 4 2 σ2 X n i1Xi µi2 5 20 8 5 4 16 Considerar os dados da tabela 92 da distribuição de X1 verificando que EX 7 i1 xi pxi 1 1 25 2 2 25 3 5 25 4 6 25 5 6 25 6 4 25 7 1 25 105 25 42 vii De modo análogo encontramos V arX EX2 EX2 7 i1 x2 i pxi µ2 X 1 1 25 4 2 25 9 5 25 16 6 25 25 6 25 36 4 25 49 1 25 4 22 493 25 17 64 19 72 17 64 208 Observe que o valor esperado das médias EX é igual ao valor da média popula cional µX e a variância das médias V arX é igual ao valor da variância populacional σX dividido por 2 pois o número de amostras n 2 Assim V arX σ2 X 2 416 2 Concluímos que EX µX e V arX σ2 X n O seguinte teorema nos mostra que o fato da média valor esperado das médias ter coincidindo com a média populacional e a variância de X ser igual a V arX dividida por 2 não foi coincidência mas sempre acontece Teorema 01 Seja X uma variável aleatória com média µX e variância σ2 X e seja X1 X2 Xn uma amostra casual simples de X Então se X X1 X2 Xn n 1 n n i1 Xi temos EX µX e V arX σ2 X n viii Demonstração EX E X1 X2 Xn n 1 nEX1 EX2 EXn 1 nEX1 µX EX2 µX EXn µX 1 n nµX µX V arX V ar X1 X2 Xn n 1 n 2 V arX1 σ2 X V arX2 σ2 X V arXn σ2 X 1 n2 nσ2 X σ2 X n Teorema 02 Teorema do Limite Central Para amostras casuais simples X1 X2 Xn retiradas de uma população com média µ e variância σ2 a distribuição amostral da média X 1 n n i1 Xi aproximase de uma distribuição normal com média µ e va riância σ2 n quando n tende a infinito n 30 Corolário 021 Se X1 X2 Xn uma amostra casual simples da população X com média µ variância σ2 e X 1 n n i1 Xi então Z X µ σ n Nµ 0 σ2 1 Corolário 022 Se e x µ isto é e é uma variável aleatória que mede a diferença entre a estatistica x e o parâmetro µ então e N µ 0 σ2 n 017 Distribuição Amostral da Proporção Vamos considerar uma população em que a proporção de indivíduosportadores de uma certa característica é p Assim essa população pode ser considerada como uma variável aleatória X tal que X 1 se o indivíduo é portador da característica e X 0 se o indivíduo não é portador da característica ix Logo µ EX p σ2 p 1 p Retirando uma amostra casual simples ACS com reposição X1 X2 Xn dessa população é indicado por 02 Estimação 021 Intervalo de Confiança Os estimadores que foram apresentados anteriormente são estimadores pontuais isto é especificam um único valor para o parâmetro Este procedimento não permite jugar qual a possível magnitude do erro que estamos cometendo Daí surge a ideia de construir os intervalos de confiança que são baseados na distribuição amostral do estimador pontual Exemplo 05 A estimativa pontual da média populacional µ será feita por x Qualquer que seja a amostra teremos um erro que será x µ De acordo com o Teorema do Limite Central TLC teremos e X µ N0 σ2 x onde σ2 x σ2 n Assim podemos determinar qual a probabilidade de cometer erros de determi nadas magnitudes Exemplo 06 De acordo com a tabela normal padrão para z 1 69 temos que Φz 095 Pe 1 96 σx 0 95 Px µ 1 96 σx 0 95 P1 96 σx x µ 1 96 σx 0 95 Px 1 96 σx µ x 1 96 σx 0 95 x Convém lembrar que µ não é uma variável aleatória mas um parâmetro e a expressão acima deve ser interpretada do seguinte modo Construídos todos os intervalos da forma x 1 96 σx 95 deles possuirão o parâmetro µ Dessa forma sorteada uma amostra e encontrada sua média x0 e admitindo conhecido σx podemos construir o intervalo x0 1 96 σx o qual poderá ou não conter o parâmetro µ mas temos 95 de confiança que contenha Desse modo se T é um estimador de θ e conhecida a distribuição amostral de T sempre será possível encontrar dois valores t1 e t2 tal que Pt1 θ t2 γ onde 0 γ 1 é um valor fixado o qual é denominado nível de confiança e indicaremos intervalo de confiança de θ com γ de nível de confiança por ICθ γ t1 t2 Exemplo 07 ICµ γ x zσx x zσx Exemplo 08 Uma máquina enche pacotes de café com uma variância igual a 100 g2 Ela estava regulada para encher com 500 g em média Agora ela se desregu lou e queremos saber qual a nova média µ Uma amostra de 25 pacotes apresentou uma média igual a 485 g Construir o intervalo de confiança para µ com nível de confiança de 95 Solução Sabemos que µ 500g σ2 100g2 n 25 e x 485 Logo σ2 100g2 σx σ n 10 25 10 5 2 σx 2 Calculando o intervalo de confiança temos ICµ 95 485 1 96 2 481 489 Concluímos com 95 de confiança que a média é diferente de 500 g pois o intervalo de confiança 481 489 não contém o parâmetro µ 500g Exemplo 09 Vamos obter um intervalo de confiança IC para p do exemplo do início deste capítulo onde uma amostra de 500 pessoas de uma cidade é escolhida xi para se manifestar sobre um problema municipal Sabemos que X número de su cessos nas n pessoas tem uma distribuição aproximadamente normal com média µ np e variância σ2 npq e q 1 p Consequentemente z X np npq N0 1 ou ainda z X n p pq n ˆp p pq n N0 1 Assim se γ 0 95 temos que P1 96 X 1 96 0 95 ou seja P 1 96 ˆp p pq n 1 96 0 95 daí P 1 96 pq n ˆp p 1 96 pq n 0 95 P ˆp 1 96 pq n p ˆp 1 96 pq n 0 95 Portanto com probabilidade de 95 temos que ˆp 1 96 pq n p ˆp 1 96 pq n Como não conhecemos p usamos o fato de que pq 1 4 e portanto pq n 1 4n obtendo ˆp 196 4n p ˆp 196 4n Então ˆp 1 96 4n ˆp 1 96 4n é um intervalo de confiança IC para γ com coeficiente de confiança de 95 Para um coeficiente de confiança γ qualquer 0 γ 1 a expressão do intervalo de confiança para p fica ˆp zγ 4n p ˆp zγ 4n onde zγ é tal que Pzγ z zγ γ xii Exemplo 010 Numa pesquisa de mercado n 400 pessoas foram entrevistadas sobre produto e 60 destas pessoas preferiram a marca A Determine um intervalo de confiança IC para p proporção de preferência por A com coeficiente de confiança cc γ 0 99 ICp 0 99 0 6 2 58 1600 ou ICp 0 99 0 5355 0 6645 Observação 021 O intervalo para p dado acima é chamado consecutivo pois se p for igual a 1 2 e estiver próximo de 0 ou 1 então ele fornecerá um intervalo de amplitude desnecessariamente grande pois substituímos pq pelo valor máximo 1 4 A menos que ˆp 1 2 podemos proceder como no exemplo abaixo Exemplo 011 Suponhamos que uma amostra de 500 donas de casa revela que 100 delas preferem a marca X de detergente Construir um IC para p a proporção de donas de casa que preferem a marca X com γ 0 90 Neste caso usaremos ˆpˆq onde ˆq 1 ˆp como estimador de pq Dessa forma o intervalo ficará ˆp zγ ˆpˆq n p ˆp σγ ˆpˆq n Sendo ˆp 100 500 0 20 e ˆq 1 ˆp 0 80 temse 0 20 1 64 0 2 0 8 500 0 20 0 0293 ou seja ICp 0 90 0 171 0 229 Usando o intervalo conservativo teremos 0 2 1 645 2000 0 2 0 0368 ou seja ICp 0 90 0 1632 0 2368 xiii 022 Distribuição Amostral da Estatística n 1 σ2 S2 Suponha que se tenha n variável aleatória normais padronizadas e independentes entre si isto é Zi N0 1 i 1 2 n então se tem o seguinte resultado Teorema 03 Seja Z1 Z2 Zn uma amostra aleatória de uma variável alea tória Z N0 1 Então a variável Y n i1 Z2 i Z2 1 Z2 2 Z2 n χ2 n tem distribuição quiquadrado com n graus de liberdade e cada Z2 i χ2 1 A função densidade de probabilidade dessa variável é fy 1 Γ n 2 2 n 2 y n 2 1 e y 2 y 0 O parâmetro n recebe o nome de graus de liberdade e corresponde ao número de variáveis normais padrão independentes ao quadrado somadas Denotaremos por Y χ2 n Podese mostrar que EY n e V arY 2n Propriedades χ2 p χ2 q χ2 pq xiv Exemplo 012 Para n 12 temos que PY 18 549 0 10 0 5 10 15 20 25 30 000 002 004 006 008 010 PY 18544 010 Quiquadrado Exemplo 013 Seja X X1 Xn uma amostra aleatória aa de X Nµ σ2 temos que Xi µ σ N0 1 i 1 2 n Daí X1 µ σ 2 X2 µ σ 2 Xn µ σ 2 χ2 n Definindo σ2 1 n n i1Xi µ2 e verificase que Y n σ2 σ2 n σ2 1 n n i1 Xi µ2 1 σ2 n i1 Xi µ2 n i1 Xi µ σ 2 Y χ2 n Observação 031 Observe que σ2 é muito parecido com o estimador ˆσ2 com µ tomando o lugar de x Resultado n i1 Xi µ2 n i1 Xi X X µ2 n i1 Xi X X µ 2 n i1 Xi X2 2 X µ n i1 Xi X n X µ2 xv Como n i1 Xi X n i1 Xi n i1 X nX nX 0 temos que n i1 Xi µ2 n i1 Xi X2 n X µ2 fazendo a divisão de σ2 nos dois lados da equação temos n i1 Xi µ σ 2 χ2 n n i1 Xi X σ 2 X µ σ n 2 χ2 1 Mas sabemos que X tem distribuição normal com média µ e variância σ2 n Por tanto é razoável supormos que n i1 Xi X σ 2 χ2 n1 Observe que n 1S2 σ2 n 1 σ2 1 n 1 n i1 Xi X2 n i1 Xi X σ 2 Portanto n 1S2 σ2 χ2 n1 ou seja n1S2 σ2 tem distribuição qui quadrado com n 1 graus de liberdade 023 Intervalo de Confiança par a variância de uma Nµ σ2 Temos que n 1 σ2 S2 χ2 n1 Então o intervalo de confiança IC para σ2 com coeficiente de confiança γ será xvi Distribuição Quiquadrado P χ2 1 n 1 σ2 S2 χ2 2 γ P χ2 1 n 1S2 1 σ2 χ2 2 n 1S2 γ P n 1S2 χ2 1 σ2 1 n 1S2 χ2 2 γ E portanto ICσ2 γ n 1 χ2 2 S2 n 1 χ2 1 S2 Exemplo 014 Os dados abaixo referemse as vendas diárias em unidade de me dida durante uma semana de carros de uma revendedora Dados 253 187 96 450 320 105 a Obtenha um estimador pontual não viesado para σ2 a variância populacional das vendas diárias b Construa um ICσ2 90 xvii 024 A Distribuição t de Student Teorema 04 Seja Z uma va com distribuição Z N0 1 e Y outra va com distribuição Y χ2 n com Z e Y independentes Então a variável aleatória t Z Y n tem distribuição t com n graus de liberdade gl A função densidade de probabilidade fdp de uma variável aleatória t é dada por ft Γ n1 2 Γ n 2 πn 1 t2 n n1 2 t O parâmetro n chamase número de graus de liberdade e depende do número de graus de liberdade da variável aleatória do denominador Indicaremos uma distri buição t com n graus de liberdade por tn Podese mostrar que Et 0 e V art n n 2 e que o gráfico da fdp da t aproximase muito da distribuição N0 1 quando n é grande Esta distribuição também está tabelada Em geral estas tabelas fornecem valores de tc tais que Ptc t tc 1 p para alguns valores de p e n 1 2 30 35 40 50 60 120 Para valores de n muito grandes podese usar a distribuição N0 1 Por exemplo se n 15 e p 5 0 05 então tc 2 131 Exemplo 015 Uma aplicação imediata desta distribuição é na obtenção da dis tribuição amostral da estatística X µ S n Temos que X µ S n Z X µ σ n σ S Z S σ N0 1 S σ xviii mas sabemos que n 1 S2 σ2 Y χ2 n1 S2 σ2 Y n 1 S σ Y n 1 Portanto X µ S n Z Y n1 tn1 025 Intervalo de Confiança para a média µ de uma Nµ σ2 σ2 desconhecido Vimos que X µ S n tn1 Logo o ICµ γ cujo aspecto gráfico é dado abaixo será obtido de Ptc t tc γ P tc X µ S n tc γ P X tc S n µ X tc S n γ P X tc S n µ X tc S n γ Portanto ICµ γ X t S n Exemplo 016 Numa linha de produção é muito importante que o tempo gasto numa determinada operação não varie muito de empregado para empregado i Que parâmetro estatístico poderia ser usado para avaliar esse fato ii Se 11 empregados apresentam os tempos abaixo para realizar essa operação qual seria a estimativa para o parâmetro acima xix Com base nessa amostra construa um ICµ 95 125 135 115 120 150 130 125 145 125 140 130 Solução i σ o parâmetro desvio padrão ii σˆ S S2 1 n 1 Xi X2 10 6813 ou σˆ 1 n 1 Xi X2 10 6813 Calculando a média e grau de liberdade temos x 130 90901 130 91 e gl 11 1 10 Assim ICµ 95 130 91 2 228 10 6813 11 130 91 2 228 10 6813 11 ICµ 95 123 734 138 084 Exemplo 017 Bussab Morettin pag 228 De 50000 válvulas fabricadas por uma companhia retirase uma amostra de 400 válvulas e obtémse a vida média do 800 horas e o desvio padrão de 100 horas a Qual o intervalo de confiança de 99 para a vida média da população b Com que confiança você diria que a vida média é 800 0 98 c Que tamanho deve ser a amostra par que seja de 95 a confiança na estimativa 800 7 84 Que suposições você fez para responder as questões acima Solução xx a Qual a IC de 99 para a vida média da população ICµ 99 X t S n X t S n Temos que x 800 s 100 e t 2 58 Assim ICµ 99 800 2 58 100 400 800 2 58 100 400 787 1 812 9 b t S n 0 98 t 100 400 0 98 5t 0 98 t 0 196 0 20 Dessa forma temos γ 0 07926 0 07926 16