·
Cursos Gerais ·
Estatística Econômica e Introdução à Econometria
Send your question to AI and receive an answer instantly
Recommended for you
22
Análise do Erro Quadrático Médio e Métodos de Estimação
Estatística Econômica e Introdução à Econometria
UMG
7
Amostragem Estratificada: Fundamentos e Cálculos
Estatística Econômica e Introdução à Econometria
UMG
42
Exercícios Computacionais Capitulo 02 - Introdução a Econometria de Wooldridge
Estatística Econômica e Introdução à Econometria
UMG
4
Exercícios Computacionais Capitulo 02 - Introdução a Econometria de Wooldridge
Estatística Econômica e Introdução à Econometria
UMG
1
Regressão Linear e Política Monetária - Análise de Dados Históricos
Estatística Econômica e Introdução à Econometria
UMG
5
Análise Exploratória de Dados e Pesquisa Matrimonial - Exercícios Estatísticos
Estatística Econômica e Introdução à Econometria
UMG
4
Exercícios Computacionais Capitulo 02 - Introdução a Econometria de Wooldridge
Estatística Econômica e Introdução à Econometria
UMG
5
Exercícios Computacionais Capitulo 02 - Introdução a Econometria de Wooldridge
Estatística Econômica e Introdução à Econometria
UMG
25
Elementos Fundamentais dos Testes de Hipóteses
Estatística Econômica e Introdução à Econometria
UMG
12
Estatísticas e Parâmetros Momentos Amostrais
Estatística Econômica e Introdução à Econometria
UMG
Preview text
VI INTERVALOS DE CONFIANÇA Um enfoque alternativo à estimação pontual de um parâmetro populacional desconhecido consiste em se obter uma cobertura para o parâmetro ou seja uma vizinhança para o seu valor que apresente elevada probabilidade de ocorrência No caso de um parâmetro unidimensional a construção dos Intervalos de Confiança constitue uma estimação intervalar para este parâmetro Todo ao longo da exposição trataremos o grau de confiança ou tamanho da cobertura como um parâmetro a ser escolhido pelo pesquisador Normalmente os valores mais usuais são 090 095 099 Também consideraremos apenas a construção de Intervalos de Confiança ou seja de coberturas unidimensionais de tamanho préfixado A construção dos Intervalos de Confiança para um parâmetro requer o conhecimento da distribuição de probabilidade de um estimador n obtido à partir de uma amostra de tamanho n Considere o intervalo I t1 t2 tal que P n I Ou seja a probabilidade que o estimador esteja no intervalo I é de 100 Vamos supor sem perda de generalidade que os limites t1 e t2 sejam funções decrescentes do verdadeiro valor Então t1 n t2 t1 1 n t2 1 n Assim o Intervalo de Confiança para será IC t1 1 n t2 1 n 1 Interpretação O intervalo de confiança dado em 1 não significa que existe 100 que o parâmetro esteja dentro do intervalo t1 1 n t2 1 npois é um parâmetro não uma variável aleatória Calculase probabilidades para variáveis aleatórias e não para parâmetros Hugo Boff Estatística II 2021 2 O que a expressão 1 nos diz é que se uma sequência de amostras forem tomadas todas de tamanho n e se para cada amostra uma estimativa para for obtida e um intervalo do tipo t1 1 n t2 1 n para o estimador n for calculado então 100 destes intervalos conterão o verdadeiro valor de 1 Intervalos de Confiança em populações Normais Com base em amostras X1X2Xn extraídas de populações normais X N2 podemos calcular explícitamente intervalos de confiança tanto para a média como para a variância 2 A Intervalos de Confiança para a média Sabemos que o estimador MVU de é a média amostral Xn Por outro lado sabemos que Xn N2n Padronizando a va Xn vem Z Xn n N01 2 a 2 conhecida Neste caso de acôrdo com 2 a estatística do IC é a normalpadrão Dado vamos determinar na tabela da normalpadrão o valor de z2 tal que PZ z2 3 O gráfico abaixo ilustra o caso de um intervalo de confiança 095 caso este em que lemos na tabela o valor z2 196 ou seja PZ 196 095 z Density Normal 1 3 0 1 3 196 196 Hugo Boff Estatística II 2021 3 Então avaliando 2 na estimativa amostral da média x e usando o resultado em 3 obtemos x n z2 ou seja x n z2 4 ou ainda x n z2 x n z2 Logo IC x n z2 x n z2 4 Uma estimação intervalar será tanto melhor quanto menor a amplitude do intervalo para um dado nível de confiança Nas expressões 4 4 acima vemos que a estimação intervalar da média será tanto melhor quanto menor o desviopadrão A amplitude do intervalo 2 n z2 também diminui com o aumento do tamanho da amostra n b 2 desconhecida Neste caso 2 deverá ser estimado A estatística do IC é a vaT Student padrão No Capítulo V vimos que o estimador MVU deste parâmetro é Sn1 2 1 n 1 i1 n Xi Xn 2 e que esta estatística é independente de Xn Vimos também no Capítulo II que n 1Sn1 2 2 2n 1 5 Por outro lado da Estatística I vimos que a variável aleatória T Z 2 tem distribuição T Student com graus de liberdade quando Z e 2 são independentes Combinando 2 com 5 temos então que Xn n n 1Sn1 2 2 n 1 Xn Sn1 n tem distribuição t Student com n 1 graus de liberdade Ou seja Hugo Boff Estatística II 2021 4 Xn Sn1 n Tn 1 6 Comparandose 6 com 2 vemos que o desconhecimento da variância tem simplesmente o efeito de substituir na estatística da estimação intervalar mutatis mutandis o desviopadrão populacional pela sua estimativa amostral s Dado vamos determinar na tabela da Studentpadrão com n 1 graus de liberdade o valor de t2 tal que PT t2 7 O gráfico abaixo ilustra o caso de um intervalo de confiança 095 caso este em que para n 1 20 lemos na tabela o valor t2 208 ou seja PT 208 095 t Student Density 0 1 1 3 208 208 A densidade da va T padrão com 20 gl é fTt20 21 2 1 2 20 2 1 18 121 1 18 t2 21 2 onde como vimos em Estatística I x 0 ux1eudu é a função gama Integrandose por partes obtemos a recorrência x x 1x 1 Em particular 1 2 e se x for inteiro n 1 n Obs A densidade da T tabulada é fT tabt 1 2 1 2 2 1 121 1 t2 1 2 t Como ETtab 0 e a variância é VTtab 2 obtemos a T padrão fazendo a transformação T Ttab 2 Hugo Boff Estatística II 2021 5 Para o caso 20 esta expressão resulta na densidade dada acima Esta é a densidade que deve ser usada para comparações com a Normalpadrão Então avaliando 6 na estimativa amostral da média sn1 e usando o resultado em 7 obtemos xn s n t2 ou seja xn s n t2 8 ou ainda xn s n t2 xn s n t2 Logo IC xn s n t2 xn s n t2 8 Como mencionamos acima a estimação intervalar será tanto melhor quanto menor a amplitude do intervalo para um dado nível de confiança Nas expressões 8 8 acima vemos que a estimação intervalar da média será tanto melhor quanto menor o desviopadrão amostral A amplitude do intervalo é 2 s n t2 Comparação Comparando a situação a em que a variância é conhecida vemos que a amplitude do intervalo é aqui maior pois para elevado temos t2 z2 Com efeito sendo T leptocúrtica as caudas da sua distribuição são mais altas que as caudas da va Normal Lembre da Estatística I que o curtose da distribuição Normal é igual à 3 ao passo que o curtose T é igual à 3 6 4 Deste modo para s a amplitude do IC 2 s n t2 é maior que a sua amplitude quando é conhecida 2 n z2 A maior imprecisão incorrida na estimação intervalar é um custo a suportar por não se conhecer a variância populacional havendo a necessidade de substituíla pela sua estimativa amostral Exemplo 1 A receita mensal em R1000 das farmácias da Capital é uma va X com distribuição Normal com média desconhecida e variância 2Uma amostragem com 25 farmácias sorteadas aleatoriamente mostrou x 270 s2 225 Hugo Boff Estatística II 2021 6 Vamos fazer a estimação intervalar de para os níveis de confiança 9095 e 99 a Se 2 225 conhecida O intervalo de Confiança é dado por 270 15 5 z2 Os percentis relevantes da Normal padrão são z 165 90 196 95 258 99 Deste modo teremos 270 3165 para 090 270 3196 para 095 e 270 3258 para 099 Os intervalos de confiança correspondentes são IC90 26505 27495 IC95 26412 27588 IC99 26226 27774 b Se 2 for estimada por s2 225 O intervalo de Confiança é dado por 270 15 5 t2 Os percentis relevantes da Student padrão são t 1711 90 2064 95 2797 99 Deste modo teremos 270 31711 para 090 270 32064 para 095 e 270 32797 para 099 E o intervalos de confiança correspondentes são IC90 26487 27513 IC95 26381 27619 IC99 26161 27839 Vemos que a amplitude do IC95 é igual à 27619 26381 1238 Este valor é a comparar com o comprimento do mesmo intervalo quando a variância é conhecida cuja amplitude é menor 27588 26412 1176 reais Ou seja o desconhecimento da variância trouxe uma perda de eficiência na estimação intervalar de 53 Para a interpretação se uma sequência de amostras aleatórias de 25 farmácias for tomada e para cada amostra for calculado um Intervalo com confiança 095 dos quais 2381 27619 é um deles 95 destes intervalos conterão a receita média Hugo Boff Estatística II 2021 7 B Intervalos de Confiança para a Variância A distribuição do estimador amostral da variância dada em 5 permite que se construa intervalos de confiança para a variância usando os percentis da va 2n 1 Pela tabela da 2 achamos os percentis q1 e q2 tais que Pq1 2n 1 q2 9 A curva abaixo representa os pontos da 224 ou seja com 24 gl cuja densidade é a de uma va gama 1 2 n1 2 f2q24 q 24 2 1 2 24 2 24 2 e 1 2 q Os percentis indicados correspondem à um intervalo de confiança 095 q1 124 e q2 394 q C hisqu are 124 20 30 394 Então avaliando 5 na estimativa amostral sn1 2 e usando 9 temos q1 n 1s2 2 q2 1q2 2 n 1s2 1q1 ou n 1s2 q2 2 n 1s2 q1 10 Temos enfim o intervalo de confiança para a variância IC2 n 1s2 q2 n 1s2 q1 10 Exemplo 2 No contexto do Exemplo 1 anterior temos n 1 24 e s2 225 Vamos efetuar a estimação intervalar da variância 2 para três níveis de confiança 90 95 e 98 Hugo Boff Estatística II 2021 8 Os percentis correspondentes à estes níveis mostrados na tabela da 224 são os seguintes Confiança 090 095 098 q1 1385 1240 1085 q2 3641 3936 4298 IC902 24225 3641 24225 1385 14831 38989 IC952 24225 3936 24225 1240 13719 43548 IC982 24225 4298 24225 1085 12563 49769 Observe que amplitude dos intervalos cresce com o aumento do nível de confiança O aumento na confiabilidade do intervalo tem como preço uma menor precisão da estimativa intervalar 2 Intervalos de Confiança em populações Não Normais No item anterior construimos intervalos de confiança para a média e a variância de populações normais Em muitos casos podese fazer a estimação paramétrica intervalar também em populações não normais Os exemplos dados aqui ilustram como isto acontece A racionalidade destes intervalos é a mesma e sua construção segue exatamente o mesmo método empregado para a distribuição normal A População Gama Temos uma amostra X1X2Xn de uma população X 1 Temos EX 1 e VX 1 2 de modo que os dois primeiros momentos desta variável são funções de 0 Vimos no Capítulo II que S X1 X2 Xn é uma estatística suficiente para e que n 1 S é o seu estimador pontual MVU Capítulo V Hugo Boff Estatística II 2021 9 Para obtermos um estimação intervalar de lembramos da Estatística I que 2Sn 22n 11 Assim dado o nível de confiança e sendo os percentis q1 e q2 tais que Pq1 22n q2 teremos q1 2Sn q2 q1 2Sn q2 2Sn Assim substituindo a va S pela sua realização amostral s x1 x2 xn e levando em conta que s nx obtemos o intervalo desejado IC q1 2nx q2 2nx 12 E o intervalo de confiança para a média será IC 1 2nx q2 2nx q1 12 Exemplo 3 O tempo de vida de um ponto de iluminação pública em noites de 10h tem distribuição Exponencial com média 1 desconhecida Uma amostragem aleatória em 50 pontos mostrou o tempo de vida médio x 180 Vamos calcular IC95 1 Da tabela da 2100 encontramos q1 7422 e q2 1296 O intervalo dado em 12 fica IC95 1 250180 1296 250180 7422 13888 24252 Ou seja esta amostra em particular indica que a duração média das luminárias fica entre 13888 noites 4 meses e 18 dias e 24252 noites 8 meses e 2 dias com 95 de probabilidade A amplitude do intervalo é de 24252 13888 10364 noites Lembrête do significado Se uma sequência de amostras aleatórias for realizada todas com 50 pontos de iluminação e se para cada amostra for calculada a estimativa para a duração média das luminárias e o intervalo de confiança 095 dado em 12 para a duração média populacional 95 destes intervalos conterão o tempo de vida médio de todos os pontos de iluminação pública da cidade B População Uniforme Temos uma amostra X1X2Xn de uma população X Unif b Hugo Boff Estatística II 2021 10 Vimos no Capítulo V que se b é conhecido a estatística suficiente para é o mínimo amostral X1 Supondo b conhecido b vamos usar a distribuição desta estatística para construir um estimação intervalar de confiança para o mínimo populacional Sabemos que PX1 x b x b n x b Então dado 01 vamos buscar os percentis u1 e u2 tais que Pu1 X1 u2 13 Assim u2 é tal que PX1 u2 1 2 o que implica b u2 b n 1 2 e então u2 b b 1 2 1 n 13 Análogamente u1 é tal que PX1 u1 1 2 o que implica 1 b u1 b n 1 2 Ou seja u1 b b 1 2 1 n 13 Avaliando as desigualdades em 13 para a realização amostral x1 e substituindo ali os percentis dados em 13 e 13 vem u1 x1 u2 b b 1 2 1 n x1 u2 b b 1 2 1 n b b x1 1 2 1 n b b x1 1 2 1 n o que nos leva ao intervalo IC b b x1 1 2 1 n b b x1 1 2 1 n 14 Observe que o limite superior do intervalo de confiança em 14 é inferior à x1 pois b x1 b x1 1 2 1 n Isto implica que o intervalo não inclui o valor observado x1 Isto ocorre porque a estatística X1 superestima o mínimo populacional Com efeito não é difícil checar que EX1 b n 1 Exemplo 4 O preço da limpeza completa nos lavajatos da cidade em R é uma va Uniforme no intervalo 100 Em 40 postos sorteados o menor preço observado foi de 28 reais Calculemos um intervalo de confiança 090 para o preço mínimo Hugo Boff Estatística II 2021 11 Com base em 14 o intervalo fica IC 100 100 28 1090 2 1 40 100 100 28 1090 2 1 40 IC 2240 2790 Ou seja a amostra indica com 90 de confiança que o preço mínimo do lavajato na cidade está entre 22 reais e 40 centavos e 27 reais e 90 centavos Observe que o intervalo não inclui o valor observado x1 28 C População Exponencial Truncada Temos n vas Exponenciais independentes Xi ExpAi i 12n Observe que estas variáveis não são idênticamente distribuídas de modo que X1X2Xn não é uma amostra aleatória simples Seja Y minX1X2Xn a menor dentre as n vas Vamos determinar a distribuição de Y PY y PX1 yX2 yXn y i1 n PXi y i1 n eiyA e1yAe2yAenyA e12nyA Ou seja colocando 1 2 n temos FYy 0 se y A 1 eyA se y A 15 Está claro assim que Y ExpA com EY A 1 e VY 1 2 Apesar de Y superestimar o mínimo populacional A podemos usar uma realização y de Y para construir um intervalo de confiança para A Seguindo o caminho percorrido no item anterior para o nível de confiança vamos achar os percentis e1 e e2 tais que Pe1 Y e2 16 Hugo Boff Estatística II 2021 12 Será fácil verificar que PY e2 1 2 ee2A 1 2 Resolvendo em e2 obtemos e2 A 1 ln 2 1 16 Análogamente PY e1 1 2 1 ee1A 1 2 o que dá e1 A 1 ln 2 1 16 Avaliando as desigualdades em 16 para a realização amostral y e substituindo aos percentis de 16 e 16 vem e1 y e2 A 1 ln 2 1 y A 1 ln 2 1 y 1 ln 2 1 A y 1 ln 2 1 o que leva ao intervalo ICA y 1 ln 2 1 y 1 ln 2 1 17 Observe que o limite superior do intervalo de confiança em 17 é inferior à y Assim como no caso anterior o intervalo não inclui o valor observado yuma vez que como vimos acima estatística Y superestima o mínimo populacional A Exemplo 5 A produtividade das lavouras de trigo do RS tonhectare tem distribuição Exponencial com produtividade mínima garantida A a qual é desconhecida Para as 5 regiões produtoras do Estado uma estimativa histórica obtida para foi 2 e a região menos produtiva apresentou a produção média de 25 tonhec Com estas informações vamos calcular um intervalo de confiança 090 para a produção mínima garantida em cada uma das regiões do Estado Substituindo os valores dados em 17 obtemos ICA 25 1 2 ln 2 010 25 1 2 ln 2 190 ou seja 10 2474 Assim a informação obtida indica que a produtividade mínima garantida no Estado se situa entre 1 ton e 2 ton e 474 kg por hectare com confiança 90 Hugo Boff Estatística II 2021 13 3 Intervalos de Confiança com Aproximação Normal A existência do Teorema Central do Limite TCL permite a construção de intervalos de confiança para a média populacional à partir da média amostral extraída de qualquer população As restrições à sua aplicação são bastante fracas o que permite a sua aplicação em ampla escala A qualidade da aproximação normal depende em grande medida do tamanho amostral n Ceteris Paribus quanto maior for este tamanho melhor será a aproximação A velocidade da convergência também depende naturalmente dos graus de assimetria e curtose da distribuição original Quanto menor o grau de assimetria e quanto mais próximo de 3 estiver o grau de curtose da distribuição original mais rápida será a convergência para a distribuição normal O TCL já foi apresentado em Estatística I Por isso vamos aqui apenas relembrar o seu enunciado Teorema Central do Limite Lindeberg1922 Feller1935 Seja uma sequência infinita de vas independentes X1X2Xncom fdas F1F2Fn médias 12 n e variâncias 1 22 2n2 Considere as somas parciais de ordem n Sn X1 X2 Xn n 1 2 n n2 1 2 2 2 n2 Dado 0 considere também as variâncias restritas i 2 in in x i2dFix e sua soma parcial n2 1 2 2 2 n2 Por fim construa a sequência das vas padronizadas Zn Sn n n 18 As condições necessárias e suficientes para que Hugo Boff Estatística II 2021 14 n lim PZn z 1 2 z e 1 2 t2dt 19 são C1 n lim n2 C2 n lim n2 n2 1 0 Uma demonstração didática deste teorema para o caso iid envolve a função característica da va Xt EeitX a qual não será vista neste curso Por isso sua prova será omitida Observações 1Lindeberg estabeleceu a suficiência das condições C1 e C2 Anos depois Feller estabeleceu sua necessidade 2O teorema garante a convergência das funções de distribuição das somas padronizadas Zn para a função de distribuição de uma va Normalpadrão ou seja n lim FZnz FZz onde Z N01 Isto é uma convegência em distribuição notada Zn n d N01 3O atendimento da condição C2 requer que as funções de distribuição sejam razoávelmente suavizadas no sentido que não possuam fortes descontinuidades locais na vizinhança da média 4 Nas situações mais usuais em que a sequência dos Xi é iid como amostras simples de uma população as condições C1 e C2 são facilmente atendidas Com efeito neste caso Fi FX i i e i 2 2 Deste modo n2 n2 e a condição C1 é atendida Por outro lado n2 n i n i n x 2dFXx Assim a condição C2 fica n2 n2 i n i n x 2dFXx 2 Exceção feita de casos patológicos o numerador deste quociente converge para x 2dFXx quando n Hugo Boff Estatística II 2021 15 Então n2 n2 n x 2dFXx 2 2 2 1 e a condição C2 também é atendida 5 O resultado anterior assegura a convergência para a va normalpadrão das médias amostrais padronizadas das populações estatísticas mais usuais E não apenas das médias de ordem 1 mas também das médias de ordem k tipo 1n i1 n Xi k k 123 desde que os momentos populacionais correspondentes EXk e VXk também existam 6Grosseiramente falando sempre que temos um fenômeno aleatório que é resultado da ação de inúmeros fatores independentes a lei de probabilidade da padronização deste fenômeno pode ser aproximada pela distribuição normalpadrão Em sequência aos comentários 4 e 5 acima no caso de uma amostra simples de uma população com média e variância 2 como Sn nXn a expressão Zn em 18 fica Zn nXn n n2 nXn n n Xn 18 Deste modo pelo TCL em 19 teremos n Xn n d N01 19 Na sequência usaremos o TCL para obter intervalos de confiança aproximados pela Normal de parâmetros da média de algumas populações não normais A Aplicações Aproximação Normal do IC na População Gama Vamos construir um IC aproximado para o parâmetro da distribuição Gama e para sua média 1 usando o resultado 11 2Sn 22n Como E22n 2n e V22n 4n temos 2Sn 2n 4n 2nSn 1 2 n n Xn 1 Assim pelo TCL Hugo Boff Estatística II 2021 16 n Xn 1 n d N01 20 Então dado o nível de confiança temos pela tabela da normalpadrão z2 tal que PZ z2 Logo avaliandose 20 na estimativa amostral x para a média teremos n x 1 z2 n x 1 z2 1 1 n z2 x 1 1 n z2 de modo que os intervalos de confiança aproximados pela normal para e para a média populacional 1 serão respectivamente IC aprox 1 1 n z2 x 1 1 n z2 x 20 IC aprox 1 x 1 1 n z2 x 1 1 n z2 20 Estes intervalos podem ser confrontados com os intervalos obtidos em 12 e 12 da sessão anterior os quais por serem exatos devem exibir uma amplitude menor que os da aproximação normal Exemplo 6 Vamos calcular o intervalo 20 com os dados do Exemplo 3 para o tempo de vida médio dos pontos de iluminação pública Temos ali 095 n 50 x 180 IC aprox 1 180 1 1 50 196 180 1 1 50 196 é 14093 24902 A amplitude deste intervalo é de 24902 14093 10809 noites Hugo Boff Estatística II 2021 17 Comparandose com a amplitude do intervalo exato calculada no Exemplo 3 10364 noites como esperado o intervalo aproximado apresenta uma amplitude maior Apesar da distribuição gama apresentar assimetria à direita vemos todavia que para o tamanho da amostra considerado n 50 a perda de acurácia na estimação intervalar da média é relativamente modesta na ordem de 100 10809 1036410364 43 B Aplicações Aproximação Normal do IC na População Poisson Se temos a amostra X1X2Xn de X P e a média amostral Xn então pelo TCL temos Xn n n d N01 21 Dado o nível de confiança e o percentil correspondente z2 da Normalpadrão e substituindo o estimador amostral da média pela estimativa amostral x temos então x n z2 x n z2 ou x 2 n z2 2 2x z2 n x2 0 Coloquemos 2 2x z2 n x2 O discriminante desta quadrática é positivo 2x z2 n 2 4x2 4x z2 n z2 n 2 0 de modo que suas raízes são reais Por outro lado lim e 0 x2 0 de sorte que ambas as raízes são positivas É fácil checar que as raízes são x z2 2n z 2n z2 4nx Deste modo o intervalo de confiança é IC aprox 22 Hugo Boff Estatística II 2021 18 IC aprox x z2 2n z 2n z2 4nx x z2 2n z 2n z2 4nx 22 Exemplo 7 O número de veículos que diariamente ficam na estrada em um trecho de uma rodovia movimentada é uma va Poisson com média desconhecida Nos últimos 30 dias o número médio de veículos que apresentaram problemas mecânicos durante o percurso foi de 4 veículosdia Vamos usa o TCL para construir um Intervalo de Confiança 95 para a média populacional Usando estes valores na função quadrática obtemos 2 8 1962 30 42 As raízes são 3 3455 e 4 7826 1 2 3 4 5 6 7 0 5 10 15 lambda quadrática O intervalo de confiança 95 de acôrdo com 22 será IC95 aprox 35 Ou seja a amostra indica que o número médio de sinistros é de 1 ocorrência abaixo 1 ocorrência acima da média amostral calculada Método Delta Existe um método para obter a distribuição assintótica Normal de funções contínuas e deriváveis de variáveis aleatórias assintóticamente normais a qual determina explícitamente seus momentos assintóticos Lehmann1999 Hugo Boff Estatística II 2021 19 Este método é chamado método delta em razão do resíduo utilizado para a aproximação linear da função considerada O teorema seguinte resume um dos seus resultados principais Teorema Sendo Xn uma sequência infinita de vas tal que n Xn n d N02 Se g é uma função contínua diferenciável em com g 0 então n gXn g n d N02g2 23 Grosseiramente falando se Xn é assintóticamente normal com média e variância 2n então gXn será assintóticamente normal com média g e variância 2g2n Ou seja VasgXn VasXng2 onde Vas designa a variância assintótica Aplicação Considere novamente o processo de X Poisson A probabilidade que não haja nenhuma ocorrência no intervalo de tempo unitário é PX 0 e Vamos então usar o método delta para aproximar um intervalo assintótico para esta probabilidade Coloque gXn eXn Observe que g é contínua e diferenciável com derivada que nunca se anula Por outro lado de 21 sabemos que n Xn n d N0 Então pelo método delta obtemos n eXn e n d N0e2 visto que eXn X 2 e2 Dado o grau de confiança e o quantil z2 correspondente substituindo o estimador de pela sua estimativa o intervalo assintótico para e sai da desigualdade ex e e2n z2 Um intervalo aproximado é obtido avaliandose o desviopadrão assintótico de eX na estimativa amostral de que é a média amostral x ex e z2ex xn Hugo Boff Estatística II 2021 20 Deste modo o intervalo assintótico aproximado para e a probabilidade que não haja sinistros no intervalo de tempo considerado tem extremidades ex xn exz2 Utilizando os valores do Exemplo 7 achamos o intervalo e4 430 e4196 001831 001341 ou seja o intervalo assintótico com 95 de confiança é IC95 as e 00052 00321 Lembre que x 4 é a estimativa MV Máxima Verossimilhança do número médio de sinistros Logo ex e4 00183 183 é a estimativa MV da probabilidade que não haja sinistros em um dia qualquer O intervalo acima indica que esta probabilidade se situa entre 052 e 321 com a confiança 95 C Aplicações Aproximação Normal do IC para a proporção Seja X1X2Xn uma amostra de X Bernp com EX p e VX p1 p Por outro lado sabemos que o número de sucessos nas n provas Sn X1 X2 Xn tem distribuição Binomial com média np e variância np1 p O estimador MVU de p é Xn 1n Sn o qual tem valor esperado p e variância p1 p n Então pelo TCL temos n Xn p p1 p n d N01 24 Dado o nível de confiança e o percentil correspondente z2 da normalpadrão e substituindo o estimador amostral da proporção pela estimativa amostral p teremos então p p p1 pn z2 Hugo Boff Estatística II 2021 21 p p z2 p1 pn 25 Ou seja os desvios absolutos entre as proporções populacional e amostral dependem diretamente do desviopadrão da proporção amostral e do percentil de confiança A maneira como a desigualdade 25 é resolvida conduz a diferentes soluções para o Intervalo de Confiança da proporção Veremos na sequência 3 tratamentos distintos dados à desigualdade acima os quais conduzem a três Intervalos de Confiança o Correto o Estimado e o Conservador Os dois últimos são intervalos convencionais que figuram em todos os livrostexto de Estatística 1 IC Correto Elevandose ao quadrado de ambos os lados de 25 p p2 1n p1 pz2 p2 p2 2pp 1 n z2p 1 n z2p2 0 1 1 n z2p2 2p 1 n z2p p2 0 26 Vamos agora buscar as raízes da quadrática p 1 1 n z2p2 2p 1 n z2p p2 26 O discriminante é 2p 1 n z22 4p2 4 n z2p 1 n z22 o qual é positivo de modo que as raízes são reais As raízes são escritas abaixo em duas formas equivalentes p 2p 1 n z2 21 1 n z2 2p 1 n z2 2p 1 n z22 4p2 21 1 n z2 ou p 2p 1 n z2 21 1 n z2 1 1 2p 2p 1 n z2 2 27 Hugo Boff Estatística II 2021 22 A expressão 27 evidencia que as raízes são ambas positivas Também ambas as raizes são menores ou iguais à 1 Para ver isso observe à partir de 26 que 0 p2 0 e que 1 1 p2 0 Ou seja teremos uma raiz nula se p 0 e uma raiz unitária se p 1 Pela desigualdade 26 o intervalo é uma região na qual a quadrática é negativa Deste modo p intercepta o eixo da abcissa no intervalo 01 Assim o intervalo de confiança Correto para a proporção p será ICcorp p p 28 Para ilustrar a construção do intervalo tomamos 095 n 30 p 08 A quadrática p 1 1 30 1962p2 16 1 30 1962p 064 1 1281p2 1 728p 064 é representada abaixo 04 05 06 07 08 09 10 11 12 002 000 002 004 006 008 010 p quadrática p n 30 p 08 095 As raízes são p 0627 e p 0904 de modo que o intervalo é IC95 corp 0627 0904 Hugo Boff Estatística II 2021 23 Amplitude 0904 0627 0277 Mantendose os valores 095 e n 30 mas aumentandose o valor de proporção amostral para p 09 obtemos a quadrática p 1 1 30 1962p2 18 1 30 1962p 081 1 1281p2 1 9281p 081 representada abaixo 06 07 08 09 10 11 12 000 002 004 006 008 010 012 p quadrática p n 30 p 09 095 com as raízes p 0743 e p 0965 O intervalo correto fica IC95 corp 0743 0965 A amplitude do intervalo é 0965 0743 0222 2 IC Estimado A construção de um IC estimado utiliza a estimativa amostral do desviopadrão da proporção amostral ou seja p1 pn Assim a desigualdade 26 fica p p p1 pn z2 Hugo Boff Estatística II 2021 24 Deste modo o IC estimado será ICestp p p1 pn z2 p p1 pn z2 29 Como ilustração numérica usando os mesmos valores anteriores 095 n 30 p 08 o Intervalo Estimado fica ICestp 08 080230 196 08 080230 196 ICestp 0657 0943 Amplitude 0943 0657 0286 Observe que a amplitude do IC estimado é maior que a do IC correto 3 IC Conservador A construção do Intervalo Conservador usa o fato de que para 0 p 1 o termo p1 p alcança seu valor máximo 14 quando p 12 Deste modo para o desviopadrão da proporção amostral teremos um limite superior p1 pn 1 4n Assim o Intervalo Conservador usa para os desvios absolutos entre proporções populacional e amostral dada em 25 o maior valor possível para o desviopadrão p p 1 4n z2 30 Dado o desconhecimento sobre o verdadeiro valor de p a idéia é a de adotar a estratégia mais conservadora tomando o intervalo de maior amplitude possível O Intervalo Conservador fica ICconsp p 1 4n z2 p 1 4n z2 29 Ilustrando numéricamente para 095 n 30 p 08 obtemos Hugo Boff Estatística II 2021 25 IC95 consp 08 1 120 196 08 1 120 196 0621 0979 Amplitude 0979 0621 0358 Como vemos a amplitude do intervalo Conservador é bem maior que aquela do intervalo Estimado Tamanho da Amostra Quid para o tamanho amostral n Nas pesquisas empíricas envolvendo a proporção p particularmente em sondagens de opinião a expressão 30 é utilizada para se determinar o tamanho da amostra compatível com diferentes níveis de acurácia na estimativa desta proporção Resolvendose 30 em n com igualdade obtemos n z2 2p p 2 31 Lembremos que p p é o erro amostral absoluto da proporção de modo que a igualdade p p 002 significa que na estimativa de p toleramos uma margem de erro de 2 para mais ou para menos A tabela abaixo fornece os diferentes valores de n compatíveis com as margens de erro de 5 2 e 1 na estimativa de p de acôrdo com os graus de confiança desejados 90 95 e 99 segundo a fórmula 31 Graus de Confiança Erro Amostral n 90 95 99 5 272 384 665 2 1701 2401 4160 1 6806 9604 16641 Observase na tabela que o tamanho amostral requerido cresce com a redução do erro amostral da proporção e do grau de confiança desejados Hugo Boff Estatística II 2021
Send your question to AI and receive an answer instantly
Recommended for you
22
Análise do Erro Quadrático Médio e Métodos de Estimação
Estatística Econômica e Introdução à Econometria
UMG
7
Amostragem Estratificada: Fundamentos e Cálculos
Estatística Econômica e Introdução à Econometria
UMG
42
Exercícios Computacionais Capitulo 02 - Introdução a Econometria de Wooldridge
Estatística Econômica e Introdução à Econometria
UMG
4
Exercícios Computacionais Capitulo 02 - Introdução a Econometria de Wooldridge
Estatística Econômica e Introdução à Econometria
UMG
1
Regressão Linear e Política Monetária - Análise de Dados Históricos
Estatística Econômica e Introdução à Econometria
UMG
5
Análise Exploratória de Dados e Pesquisa Matrimonial - Exercícios Estatísticos
Estatística Econômica e Introdução à Econometria
UMG
4
Exercícios Computacionais Capitulo 02 - Introdução a Econometria de Wooldridge
Estatística Econômica e Introdução à Econometria
UMG
5
Exercícios Computacionais Capitulo 02 - Introdução a Econometria de Wooldridge
Estatística Econômica e Introdução à Econometria
UMG
25
Elementos Fundamentais dos Testes de Hipóteses
Estatística Econômica e Introdução à Econometria
UMG
12
Estatísticas e Parâmetros Momentos Amostrais
Estatística Econômica e Introdução à Econometria
UMG
Preview text
VI INTERVALOS DE CONFIANÇA Um enfoque alternativo à estimação pontual de um parâmetro populacional desconhecido consiste em se obter uma cobertura para o parâmetro ou seja uma vizinhança para o seu valor que apresente elevada probabilidade de ocorrência No caso de um parâmetro unidimensional a construção dos Intervalos de Confiança constitue uma estimação intervalar para este parâmetro Todo ao longo da exposição trataremos o grau de confiança ou tamanho da cobertura como um parâmetro a ser escolhido pelo pesquisador Normalmente os valores mais usuais são 090 095 099 Também consideraremos apenas a construção de Intervalos de Confiança ou seja de coberturas unidimensionais de tamanho préfixado A construção dos Intervalos de Confiança para um parâmetro requer o conhecimento da distribuição de probabilidade de um estimador n obtido à partir de uma amostra de tamanho n Considere o intervalo I t1 t2 tal que P n I Ou seja a probabilidade que o estimador esteja no intervalo I é de 100 Vamos supor sem perda de generalidade que os limites t1 e t2 sejam funções decrescentes do verdadeiro valor Então t1 n t2 t1 1 n t2 1 n Assim o Intervalo de Confiança para será IC t1 1 n t2 1 n 1 Interpretação O intervalo de confiança dado em 1 não significa que existe 100 que o parâmetro esteja dentro do intervalo t1 1 n t2 1 npois é um parâmetro não uma variável aleatória Calculase probabilidades para variáveis aleatórias e não para parâmetros Hugo Boff Estatística II 2021 2 O que a expressão 1 nos diz é que se uma sequência de amostras forem tomadas todas de tamanho n e se para cada amostra uma estimativa para for obtida e um intervalo do tipo t1 1 n t2 1 n para o estimador n for calculado então 100 destes intervalos conterão o verdadeiro valor de 1 Intervalos de Confiança em populações Normais Com base em amostras X1X2Xn extraídas de populações normais X N2 podemos calcular explícitamente intervalos de confiança tanto para a média como para a variância 2 A Intervalos de Confiança para a média Sabemos que o estimador MVU de é a média amostral Xn Por outro lado sabemos que Xn N2n Padronizando a va Xn vem Z Xn n N01 2 a 2 conhecida Neste caso de acôrdo com 2 a estatística do IC é a normalpadrão Dado vamos determinar na tabela da normalpadrão o valor de z2 tal que PZ z2 3 O gráfico abaixo ilustra o caso de um intervalo de confiança 095 caso este em que lemos na tabela o valor z2 196 ou seja PZ 196 095 z Density Normal 1 3 0 1 3 196 196 Hugo Boff Estatística II 2021 3 Então avaliando 2 na estimativa amostral da média x e usando o resultado em 3 obtemos x n z2 ou seja x n z2 4 ou ainda x n z2 x n z2 Logo IC x n z2 x n z2 4 Uma estimação intervalar será tanto melhor quanto menor a amplitude do intervalo para um dado nível de confiança Nas expressões 4 4 acima vemos que a estimação intervalar da média será tanto melhor quanto menor o desviopadrão A amplitude do intervalo 2 n z2 também diminui com o aumento do tamanho da amostra n b 2 desconhecida Neste caso 2 deverá ser estimado A estatística do IC é a vaT Student padrão No Capítulo V vimos que o estimador MVU deste parâmetro é Sn1 2 1 n 1 i1 n Xi Xn 2 e que esta estatística é independente de Xn Vimos também no Capítulo II que n 1Sn1 2 2 2n 1 5 Por outro lado da Estatística I vimos que a variável aleatória T Z 2 tem distribuição T Student com graus de liberdade quando Z e 2 são independentes Combinando 2 com 5 temos então que Xn n n 1Sn1 2 2 n 1 Xn Sn1 n tem distribuição t Student com n 1 graus de liberdade Ou seja Hugo Boff Estatística II 2021 4 Xn Sn1 n Tn 1 6 Comparandose 6 com 2 vemos que o desconhecimento da variância tem simplesmente o efeito de substituir na estatística da estimação intervalar mutatis mutandis o desviopadrão populacional pela sua estimativa amostral s Dado vamos determinar na tabela da Studentpadrão com n 1 graus de liberdade o valor de t2 tal que PT t2 7 O gráfico abaixo ilustra o caso de um intervalo de confiança 095 caso este em que para n 1 20 lemos na tabela o valor t2 208 ou seja PT 208 095 t Student Density 0 1 1 3 208 208 A densidade da va T padrão com 20 gl é fTt20 21 2 1 2 20 2 1 18 121 1 18 t2 21 2 onde como vimos em Estatística I x 0 ux1eudu é a função gama Integrandose por partes obtemos a recorrência x x 1x 1 Em particular 1 2 e se x for inteiro n 1 n Obs A densidade da T tabulada é fT tabt 1 2 1 2 2 1 121 1 t2 1 2 t Como ETtab 0 e a variância é VTtab 2 obtemos a T padrão fazendo a transformação T Ttab 2 Hugo Boff Estatística II 2021 5 Para o caso 20 esta expressão resulta na densidade dada acima Esta é a densidade que deve ser usada para comparações com a Normalpadrão Então avaliando 6 na estimativa amostral da média sn1 e usando o resultado em 7 obtemos xn s n t2 ou seja xn s n t2 8 ou ainda xn s n t2 xn s n t2 Logo IC xn s n t2 xn s n t2 8 Como mencionamos acima a estimação intervalar será tanto melhor quanto menor a amplitude do intervalo para um dado nível de confiança Nas expressões 8 8 acima vemos que a estimação intervalar da média será tanto melhor quanto menor o desviopadrão amostral A amplitude do intervalo é 2 s n t2 Comparação Comparando a situação a em que a variância é conhecida vemos que a amplitude do intervalo é aqui maior pois para elevado temos t2 z2 Com efeito sendo T leptocúrtica as caudas da sua distribuição são mais altas que as caudas da va Normal Lembre da Estatística I que o curtose da distribuição Normal é igual à 3 ao passo que o curtose T é igual à 3 6 4 Deste modo para s a amplitude do IC 2 s n t2 é maior que a sua amplitude quando é conhecida 2 n z2 A maior imprecisão incorrida na estimação intervalar é um custo a suportar por não se conhecer a variância populacional havendo a necessidade de substituíla pela sua estimativa amostral Exemplo 1 A receita mensal em R1000 das farmácias da Capital é uma va X com distribuição Normal com média desconhecida e variância 2Uma amostragem com 25 farmácias sorteadas aleatoriamente mostrou x 270 s2 225 Hugo Boff Estatística II 2021 6 Vamos fazer a estimação intervalar de para os níveis de confiança 9095 e 99 a Se 2 225 conhecida O intervalo de Confiança é dado por 270 15 5 z2 Os percentis relevantes da Normal padrão são z 165 90 196 95 258 99 Deste modo teremos 270 3165 para 090 270 3196 para 095 e 270 3258 para 099 Os intervalos de confiança correspondentes são IC90 26505 27495 IC95 26412 27588 IC99 26226 27774 b Se 2 for estimada por s2 225 O intervalo de Confiança é dado por 270 15 5 t2 Os percentis relevantes da Student padrão são t 1711 90 2064 95 2797 99 Deste modo teremos 270 31711 para 090 270 32064 para 095 e 270 32797 para 099 E o intervalos de confiança correspondentes são IC90 26487 27513 IC95 26381 27619 IC99 26161 27839 Vemos que a amplitude do IC95 é igual à 27619 26381 1238 Este valor é a comparar com o comprimento do mesmo intervalo quando a variância é conhecida cuja amplitude é menor 27588 26412 1176 reais Ou seja o desconhecimento da variância trouxe uma perda de eficiência na estimação intervalar de 53 Para a interpretação se uma sequência de amostras aleatórias de 25 farmácias for tomada e para cada amostra for calculado um Intervalo com confiança 095 dos quais 2381 27619 é um deles 95 destes intervalos conterão a receita média Hugo Boff Estatística II 2021 7 B Intervalos de Confiança para a Variância A distribuição do estimador amostral da variância dada em 5 permite que se construa intervalos de confiança para a variância usando os percentis da va 2n 1 Pela tabela da 2 achamos os percentis q1 e q2 tais que Pq1 2n 1 q2 9 A curva abaixo representa os pontos da 224 ou seja com 24 gl cuja densidade é a de uma va gama 1 2 n1 2 f2q24 q 24 2 1 2 24 2 24 2 e 1 2 q Os percentis indicados correspondem à um intervalo de confiança 095 q1 124 e q2 394 q C hisqu are 124 20 30 394 Então avaliando 5 na estimativa amostral sn1 2 e usando 9 temos q1 n 1s2 2 q2 1q2 2 n 1s2 1q1 ou n 1s2 q2 2 n 1s2 q1 10 Temos enfim o intervalo de confiança para a variância IC2 n 1s2 q2 n 1s2 q1 10 Exemplo 2 No contexto do Exemplo 1 anterior temos n 1 24 e s2 225 Vamos efetuar a estimação intervalar da variância 2 para três níveis de confiança 90 95 e 98 Hugo Boff Estatística II 2021 8 Os percentis correspondentes à estes níveis mostrados na tabela da 224 são os seguintes Confiança 090 095 098 q1 1385 1240 1085 q2 3641 3936 4298 IC902 24225 3641 24225 1385 14831 38989 IC952 24225 3936 24225 1240 13719 43548 IC982 24225 4298 24225 1085 12563 49769 Observe que amplitude dos intervalos cresce com o aumento do nível de confiança O aumento na confiabilidade do intervalo tem como preço uma menor precisão da estimativa intervalar 2 Intervalos de Confiança em populações Não Normais No item anterior construimos intervalos de confiança para a média e a variância de populações normais Em muitos casos podese fazer a estimação paramétrica intervalar também em populações não normais Os exemplos dados aqui ilustram como isto acontece A racionalidade destes intervalos é a mesma e sua construção segue exatamente o mesmo método empregado para a distribuição normal A População Gama Temos uma amostra X1X2Xn de uma população X 1 Temos EX 1 e VX 1 2 de modo que os dois primeiros momentos desta variável são funções de 0 Vimos no Capítulo II que S X1 X2 Xn é uma estatística suficiente para e que n 1 S é o seu estimador pontual MVU Capítulo V Hugo Boff Estatística II 2021 9 Para obtermos um estimação intervalar de lembramos da Estatística I que 2Sn 22n 11 Assim dado o nível de confiança e sendo os percentis q1 e q2 tais que Pq1 22n q2 teremos q1 2Sn q2 q1 2Sn q2 2Sn Assim substituindo a va S pela sua realização amostral s x1 x2 xn e levando em conta que s nx obtemos o intervalo desejado IC q1 2nx q2 2nx 12 E o intervalo de confiança para a média será IC 1 2nx q2 2nx q1 12 Exemplo 3 O tempo de vida de um ponto de iluminação pública em noites de 10h tem distribuição Exponencial com média 1 desconhecida Uma amostragem aleatória em 50 pontos mostrou o tempo de vida médio x 180 Vamos calcular IC95 1 Da tabela da 2100 encontramos q1 7422 e q2 1296 O intervalo dado em 12 fica IC95 1 250180 1296 250180 7422 13888 24252 Ou seja esta amostra em particular indica que a duração média das luminárias fica entre 13888 noites 4 meses e 18 dias e 24252 noites 8 meses e 2 dias com 95 de probabilidade A amplitude do intervalo é de 24252 13888 10364 noites Lembrête do significado Se uma sequência de amostras aleatórias for realizada todas com 50 pontos de iluminação e se para cada amostra for calculada a estimativa para a duração média das luminárias e o intervalo de confiança 095 dado em 12 para a duração média populacional 95 destes intervalos conterão o tempo de vida médio de todos os pontos de iluminação pública da cidade B População Uniforme Temos uma amostra X1X2Xn de uma população X Unif b Hugo Boff Estatística II 2021 10 Vimos no Capítulo V que se b é conhecido a estatística suficiente para é o mínimo amostral X1 Supondo b conhecido b vamos usar a distribuição desta estatística para construir um estimação intervalar de confiança para o mínimo populacional Sabemos que PX1 x b x b n x b Então dado 01 vamos buscar os percentis u1 e u2 tais que Pu1 X1 u2 13 Assim u2 é tal que PX1 u2 1 2 o que implica b u2 b n 1 2 e então u2 b b 1 2 1 n 13 Análogamente u1 é tal que PX1 u1 1 2 o que implica 1 b u1 b n 1 2 Ou seja u1 b b 1 2 1 n 13 Avaliando as desigualdades em 13 para a realização amostral x1 e substituindo ali os percentis dados em 13 e 13 vem u1 x1 u2 b b 1 2 1 n x1 u2 b b 1 2 1 n b b x1 1 2 1 n b b x1 1 2 1 n o que nos leva ao intervalo IC b b x1 1 2 1 n b b x1 1 2 1 n 14 Observe que o limite superior do intervalo de confiança em 14 é inferior à x1 pois b x1 b x1 1 2 1 n Isto implica que o intervalo não inclui o valor observado x1 Isto ocorre porque a estatística X1 superestima o mínimo populacional Com efeito não é difícil checar que EX1 b n 1 Exemplo 4 O preço da limpeza completa nos lavajatos da cidade em R é uma va Uniforme no intervalo 100 Em 40 postos sorteados o menor preço observado foi de 28 reais Calculemos um intervalo de confiança 090 para o preço mínimo Hugo Boff Estatística II 2021 11 Com base em 14 o intervalo fica IC 100 100 28 1090 2 1 40 100 100 28 1090 2 1 40 IC 2240 2790 Ou seja a amostra indica com 90 de confiança que o preço mínimo do lavajato na cidade está entre 22 reais e 40 centavos e 27 reais e 90 centavos Observe que o intervalo não inclui o valor observado x1 28 C População Exponencial Truncada Temos n vas Exponenciais independentes Xi ExpAi i 12n Observe que estas variáveis não são idênticamente distribuídas de modo que X1X2Xn não é uma amostra aleatória simples Seja Y minX1X2Xn a menor dentre as n vas Vamos determinar a distribuição de Y PY y PX1 yX2 yXn y i1 n PXi y i1 n eiyA e1yAe2yAenyA e12nyA Ou seja colocando 1 2 n temos FYy 0 se y A 1 eyA se y A 15 Está claro assim que Y ExpA com EY A 1 e VY 1 2 Apesar de Y superestimar o mínimo populacional A podemos usar uma realização y de Y para construir um intervalo de confiança para A Seguindo o caminho percorrido no item anterior para o nível de confiança vamos achar os percentis e1 e e2 tais que Pe1 Y e2 16 Hugo Boff Estatística II 2021 12 Será fácil verificar que PY e2 1 2 ee2A 1 2 Resolvendo em e2 obtemos e2 A 1 ln 2 1 16 Análogamente PY e1 1 2 1 ee1A 1 2 o que dá e1 A 1 ln 2 1 16 Avaliando as desigualdades em 16 para a realização amostral y e substituindo aos percentis de 16 e 16 vem e1 y e2 A 1 ln 2 1 y A 1 ln 2 1 y 1 ln 2 1 A y 1 ln 2 1 o que leva ao intervalo ICA y 1 ln 2 1 y 1 ln 2 1 17 Observe que o limite superior do intervalo de confiança em 17 é inferior à y Assim como no caso anterior o intervalo não inclui o valor observado yuma vez que como vimos acima estatística Y superestima o mínimo populacional A Exemplo 5 A produtividade das lavouras de trigo do RS tonhectare tem distribuição Exponencial com produtividade mínima garantida A a qual é desconhecida Para as 5 regiões produtoras do Estado uma estimativa histórica obtida para foi 2 e a região menos produtiva apresentou a produção média de 25 tonhec Com estas informações vamos calcular um intervalo de confiança 090 para a produção mínima garantida em cada uma das regiões do Estado Substituindo os valores dados em 17 obtemos ICA 25 1 2 ln 2 010 25 1 2 ln 2 190 ou seja 10 2474 Assim a informação obtida indica que a produtividade mínima garantida no Estado se situa entre 1 ton e 2 ton e 474 kg por hectare com confiança 90 Hugo Boff Estatística II 2021 13 3 Intervalos de Confiança com Aproximação Normal A existência do Teorema Central do Limite TCL permite a construção de intervalos de confiança para a média populacional à partir da média amostral extraída de qualquer população As restrições à sua aplicação são bastante fracas o que permite a sua aplicação em ampla escala A qualidade da aproximação normal depende em grande medida do tamanho amostral n Ceteris Paribus quanto maior for este tamanho melhor será a aproximação A velocidade da convergência também depende naturalmente dos graus de assimetria e curtose da distribuição original Quanto menor o grau de assimetria e quanto mais próximo de 3 estiver o grau de curtose da distribuição original mais rápida será a convergência para a distribuição normal O TCL já foi apresentado em Estatística I Por isso vamos aqui apenas relembrar o seu enunciado Teorema Central do Limite Lindeberg1922 Feller1935 Seja uma sequência infinita de vas independentes X1X2Xncom fdas F1F2Fn médias 12 n e variâncias 1 22 2n2 Considere as somas parciais de ordem n Sn X1 X2 Xn n 1 2 n n2 1 2 2 2 n2 Dado 0 considere também as variâncias restritas i 2 in in x i2dFix e sua soma parcial n2 1 2 2 2 n2 Por fim construa a sequência das vas padronizadas Zn Sn n n 18 As condições necessárias e suficientes para que Hugo Boff Estatística II 2021 14 n lim PZn z 1 2 z e 1 2 t2dt 19 são C1 n lim n2 C2 n lim n2 n2 1 0 Uma demonstração didática deste teorema para o caso iid envolve a função característica da va Xt EeitX a qual não será vista neste curso Por isso sua prova será omitida Observações 1Lindeberg estabeleceu a suficiência das condições C1 e C2 Anos depois Feller estabeleceu sua necessidade 2O teorema garante a convergência das funções de distribuição das somas padronizadas Zn para a função de distribuição de uma va Normalpadrão ou seja n lim FZnz FZz onde Z N01 Isto é uma convegência em distribuição notada Zn n d N01 3O atendimento da condição C2 requer que as funções de distribuição sejam razoávelmente suavizadas no sentido que não possuam fortes descontinuidades locais na vizinhança da média 4 Nas situações mais usuais em que a sequência dos Xi é iid como amostras simples de uma população as condições C1 e C2 são facilmente atendidas Com efeito neste caso Fi FX i i e i 2 2 Deste modo n2 n2 e a condição C1 é atendida Por outro lado n2 n i n i n x 2dFXx Assim a condição C2 fica n2 n2 i n i n x 2dFXx 2 Exceção feita de casos patológicos o numerador deste quociente converge para x 2dFXx quando n Hugo Boff Estatística II 2021 15 Então n2 n2 n x 2dFXx 2 2 2 1 e a condição C2 também é atendida 5 O resultado anterior assegura a convergência para a va normalpadrão das médias amostrais padronizadas das populações estatísticas mais usuais E não apenas das médias de ordem 1 mas também das médias de ordem k tipo 1n i1 n Xi k k 123 desde que os momentos populacionais correspondentes EXk e VXk também existam 6Grosseiramente falando sempre que temos um fenômeno aleatório que é resultado da ação de inúmeros fatores independentes a lei de probabilidade da padronização deste fenômeno pode ser aproximada pela distribuição normalpadrão Em sequência aos comentários 4 e 5 acima no caso de uma amostra simples de uma população com média e variância 2 como Sn nXn a expressão Zn em 18 fica Zn nXn n n2 nXn n n Xn 18 Deste modo pelo TCL em 19 teremos n Xn n d N01 19 Na sequência usaremos o TCL para obter intervalos de confiança aproximados pela Normal de parâmetros da média de algumas populações não normais A Aplicações Aproximação Normal do IC na População Gama Vamos construir um IC aproximado para o parâmetro da distribuição Gama e para sua média 1 usando o resultado 11 2Sn 22n Como E22n 2n e V22n 4n temos 2Sn 2n 4n 2nSn 1 2 n n Xn 1 Assim pelo TCL Hugo Boff Estatística II 2021 16 n Xn 1 n d N01 20 Então dado o nível de confiança temos pela tabela da normalpadrão z2 tal que PZ z2 Logo avaliandose 20 na estimativa amostral x para a média teremos n x 1 z2 n x 1 z2 1 1 n z2 x 1 1 n z2 de modo que os intervalos de confiança aproximados pela normal para e para a média populacional 1 serão respectivamente IC aprox 1 1 n z2 x 1 1 n z2 x 20 IC aprox 1 x 1 1 n z2 x 1 1 n z2 20 Estes intervalos podem ser confrontados com os intervalos obtidos em 12 e 12 da sessão anterior os quais por serem exatos devem exibir uma amplitude menor que os da aproximação normal Exemplo 6 Vamos calcular o intervalo 20 com os dados do Exemplo 3 para o tempo de vida médio dos pontos de iluminação pública Temos ali 095 n 50 x 180 IC aprox 1 180 1 1 50 196 180 1 1 50 196 é 14093 24902 A amplitude deste intervalo é de 24902 14093 10809 noites Hugo Boff Estatística II 2021 17 Comparandose com a amplitude do intervalo exato calculada no Exemplo 3 10364 noites como esperado o intervalo aproximado apresenta uma amplitude maior Apesar da distribuição gama apresentar assimetria à direita vemos todavia que para o tamanho da amostra considerado n 50 a perda de acurácia na estimação intervalar da média é relativamente modesta na ordem de 100 10809 1036410364 43 B Aplicações Aproximação Normal do IC na População Poisson Se temos a amostra X1X2Xn de X P e a média amostral Xn então pelo TCL temos Xn n n d N01 21 Dado o nível de confiança e o percentil correspondente z2 da Normalpadrão e substituindo o estimador amostral da média pela estimativa amostral x temos então x n z2 x n z2 ou x 2 n z2 2 2x z2 n x2 0 Coloquemos 2 2x z2 n x2 O discriminante desta quadrática é positivo 2x z2 n 2 4x2 4x z2 n z2 n 2 0 de modo que suas raízes são reais Por outro lado lim e 0 x2 0 de sorte que ambas as raízes são positivas É fácil checar que as raízes são x z2 2n z 2n z2 4nx Deste modo o intervalo de confiança é IC aprox 22 Hugo Boff Estatística II 2021 18 IC aprox x z2 2n z 2n z2 4nx x z2 2n z 2n z2 4nx 22 Exemplo 7 O número de veículos que diariamente ficam na estrada em um trecho de uma rodovia movimentada é uma va Poisson com média desconhecida Nos últimos 30 dias o número médio de veículos que apresentaram problemas mecânicos durante o percurso foi de 4 veículosdia Vamos usa o TCL para construir um Intervalo de Confiança 95 para a média populacional Usando estes valores na função quadrática obtemos 2 8 1962 30 42 As raízes são 3 3455 e 4 7826 1 2 3 4 5 6 7 0 5 10 15 lambda quadrática O intervalo de confiança 95 de acôrdo com 22 será IC95 aprox 35 Ou seja a amostra indica que o número médio de sinistros é de 1 ocorrência abaixo 1 ocorrência acima da média amostral calculada Método Delta Existe um método para obter a distribuição assintótica Normal de funções contínuas e deriváveis de variáveis aleatórias assintóticamente normais a qual determina explícitamente seus momentos assintóticos Lehmann1999 Hugo Boff Estatística II 2021 19 Este método é chamado método delta em razão do resíduo utilizado para a aproximação linear da função considerada O teorema seguinte resume um dos seus resultados principais Teorema Sendo Xn uma sequência infinita de vas tal que n Xn n d N02 Se g é uma função contínua diferenciável em com g 0 então n gXn g n d N02g2 23 Grosseiramente falando se Xn é assintóticamente normal com média e variância 2n então gXn será assintóticamente normal com média g e variância 2g2n Ou seja VasgXn VasXng2 onde Vas designa a variância assintótica Aplicação Considere novamente o processo de X Poisson A probabilidade que não haja nenhuma ocorrência no intervalo de tempo unitário é PX 0 e Vamos então usar o método delta para aproximar um intervalo assintótico para esta probabilidade Coloque gXn eXn Observe que g é contínua e diferenciável com derivada que nunca se anula Por outro lado de 21 sabemos que n Xn n d N0 Então pelo método delta obtemos n eXn e n d N0e2 visto que eXn X 2 e2 Dado o grau de confiança e o quantil z2 correspondente substituindo o estimador de pela sua estimativa o intervalo assintótico para e sai da desigualdade ex e e2n z2 Um intervalo aproximado é obtido avaliandose o desviopadrão assintótico de eX na estimativa amostral de que é a média amostral x ex e z2ex xn Hugo Boff Estatística II 2021 20 Deste modo o intervalo assintótico aproximado para e a probabilidade que não haja sinistros no intervalo de tempo considerado tem extremidades ex xn exz2 Utilizando os valores do Exemplo 7 achamos o intervalo e4 430 e4196 001831 001341 ou seja o intervalo assintótico com 95 de confiança é IC95 as e 00052 00321 Lembre que x 4 é a estimativa MV Máxima Verossimilhança do número médio de sinistros Logo ex e4 00183 183 é a estimativa MV da probabilidade que não haja sinistros em um dia qualquer O intervalo acima indica que esta probabilidade se situa entre 052 e 321 com a confiança 95 C Aplicações Aproximação Normal do IC para a proporção Seja X1X2Xn uma amostra de X Bernp com EX p e VX p1 p Por outro lado sabemos que o número de sucessos nas n provas Sn X1 X2 Xn tem distribuição Binomial com média np e variância np1 p O estimador MVU de p é Xn 1n Sn o qual tem valor esperado p e variância p1 p n Então pelo TCL temos n Xn p p1 p n d N01 24 Dado o nível de confiança e o percentil correspondente z2 da normalpadrão e substituindo o estimador amostral da proporção pela estimativa amostral p teremos então p p p1 pn z2 Hugo Boff Estatística II 2021 21 p p z2 p1 pn 25 Ou seja os desvios absolutos entre as proporções populacional e amostral dependem diretamente do desviopadrão da proporção amostral e do percentil de confiança A maneira como a desigualdade 25 é resolvida conduz a diferentes soluções para o Intervalo de Confiança da proporção Veremos na sequência 3 tratamentos distintos dados à desigualdade acima os quais conduzem a três Intervalos de Confiança o Correto o Estimado e o Conservador Os dois últimos são intervalos convencionais que figuram em todos os livrostexto de Estatística 1 IC Correto Elevandose ao quadrado de ambos os lados de 25 p p2 1n p1 pz2 p2 p2 2pp 1 n z2p 1 n z2p2 0 1 1 n z2p2 2p 1 n z2p p2 0 26 Vamos agora buscar as raízes da quadrática p 1 1 n z2p2 2p 1 n z2p p2 26 O discriminante é 2p 1 n z22 4p2 4 n z2p 1 n z22 o qual é positivo de modo que as raízes são reais As raízes são escritas abaixo em duas formas equivalentes p 2p 1 n z2 21 1 n z2 2p 1 n z2 2p 1 n z22 4p2 21 1 n z2 ou p 2p 1 n z2 21 1 n z2 1 1 2p 2p 1 n z2 2 27 Hugo Boff Estatística II 2021 22 A expressão 27 evidencia que as raízes são ambas positivas Também ambas as raizes são menores ou iguais à 1 Para ver isso observe à partir de 26 que 0 p2 0 e que 1 1 p2 0 Ou seja teremos uma raiz nula se p 0 e uma raiz unitária se p 1 Pela desigualdade 26 o intervalo é uma região na qual a quadrática é negativa Deste modo p intercepta o eixo da abcissa no intervalo 01 Assim o intervalo de confiança Correto para a proporção p será ICcorp p p 28 Para ilustrar a construção do intervalo tomamos 095 n 30 p 08 A quadrática p 1 1 30 1962p2 16 1 30 1962p 064 1 1281p2 1 728p 064 é representada abaixo 04 05 06 07 08 09 10 11 12 002 000 002 004 006 008 010 p quadrática p n 30 p 08 095 As raízes são p 0627 e p 0904 de modo que o intervalo é IC95 corp 0627 0904 Hugo Boff Estatística II 2021 23 Amplitude 0904 0627 0277 Mantendose os valores 095 e n 30 mas aumentandose o valor de proporção amostral para p 09 obtemos a quadrática p 1 1 30 1962p2 18 1 30 1962p 081 1 1281p2 1 9281p 081 representada abaixo 06 07 08 09 10 11 12 000 002 004 006 008 010 012 p quadrática p n 30 p 09 095 com as raízes p 0743 e p 0965 O intervalo correto fica IC95 corp 0743 0965 A amplitude do intervalo é 0965 0743 0222 2 IC Estimado A construção de um IC estimado utiliza a estimativa amostral do desviopadrão da proporção amostral ou seja p1 pn Assim a desigualdade 26 fica p p p1 pn z2 Hugo Boff Estatística II 2021 24 Deste modo o IC estimado será ICestp p p1 pn z2 p p1 pn z2 29 Como ilustração numérica usando os mesmos valores anteriores 095 n 30 p 08 o Intervalo Estimado fica ICestp 08 080230 196 08 080230 196 ICestp 0657 0943 Amplitude 0943 0657 0286 Observe que a amplitude do IC estimado é maior que a do IC correto 3 IC Conservador A construção do Intervalo Conservador usa o fato de que para 0 p 1 o termo p1 p alcança seu valor máximo 14 quando p 12 Deste modo para o desviopadrão da proporção amostral teremos um limite superior p1 pn 1 4n Assim o Intervalo Conservador usa para os desvios absolutos entre proporções populacional e amostral dada em 25 o maior valor possível para o desviopadrão p p 1 4n z2 30 Dado o desconhecimento sobre o verdadeiro valor de p a idéia é a de adotar a estratégia mais conservadora tomando o intervalo de maior amplitude possível O Intervalo Conservador fica ICconsp p 1 4n z2 p 1 4n z2 29 Ilustrando numéricamente para 095 n 30 p 08 obtemos Hugo Boff Estatística II 2021 25 IC95 consp 08 1 120 196 08 1 120 196 0621 0979 Amplitude 0979 0621 0358 Como vemos a amplitude do intervalo Conservador é bem maior que aquela do intervalo Estimado Tamanho da Amostra Quid para o tamanho amostral n Nas pesquisas empíricas envolvendo a proporção p particularmente em sondagens de opinião a expressão 30 é utilizada para se determinar o tamanho da amostra compatível com diferentes níveis de acurácia na estimativa desta proporção Resolvendose 30 em n com igualdade obtemos n z2 2p p 2 31 Lembremos que p p é o erro amostral absoluto da proporção de modo que a igualdade p p 002 significa que na estimativa de p toleramos uma margem de erro de 2 para mais ou para menos A tabela abaixo fornece os diferentes valores de n compatíveis com as margens de erro de 5 2 e 1 na estimativa de p de acôrdo com os graus de confiança desejados 90 95 e 99 segundo a fórmula 31 Graus de Confiança Erro Amostral n 90 95 99 5 272 384 665 2 1701 2401 4160 1 6806 9604 16641 Observase na tabela que o tamanho amostral requerido cresce com a redução do erro amostral da proporção e do grau de confiança desejados Hugo Boff Estatística II 2021