·
Cursos Gerais ·
Estatística Econômica e Introdução à Econometria
Send your question to AI and receive an answer instantly
Recommended for you
25
Intervalos de Confiança: Conceitos e Cálculos
Estatística Econômica e Introdução à Econometria
UMG
22
Análise do Erro Quadrático Médio e Métodos de Estimação
Estatística Econômica e Introdução à Econometria
UMG
7
Amostragem Estratificada: Fundamentos e Cálculos
Estatística Econômica e Introdução à Econometria
UMG
13
Teorema Central do Limite: Fundamentos e Aplicações
Estatística Econômica e Introdução à Econometria
UMG
25
Elementos Fundamentais dos Testes de Hipóteses
Estatística Econômica e Introdução à Econometria
UMG
5
Tabela de Limites Unilaterais da Distribuição F de Fisher-Snedecor aos 10% de Probabilidade
Estatística Econômica e Introdução à Econometria
UMG
8
Intervalos de Confiança para Populações Normais e Outros Modelos Estatísticos
Estatística Econômica e Introdução à Econometria
UMG
9
Amostras e Distribuições Amostrais em Estatística
Estatística Econômica e Introdução à Econometria
UMG
10
Teste de Hipóteses: Análise de Evidências e Cálculos de P-Valor
Estatística Econômica e Introdução à Econometria
UMG
12
Teoria da Informação Estatística: Mensuração e Suficiência das Estatísticas Amostrais
Estatística Econômica e Introdução à Econometria
UMG
Preview text
II ESTATÍSTICAS e PARÂMETROS MOMENTOS AMOSTRAIS SUFICIÊNCIA 1 Estatística Paramétrica Na Estatística Paramétrica hipotizase que o fenômeno aleatório X a ser estudado possui uma determinada distribuição de probabilidade FXfX a qual depende de parâmetros desconhecidos Estes parâmetros pode ser um vetor aparecem nas expressões dos momentos populacionais EX EX2Assim as características desta população que são descritas através destes momentos não poderão ser plenamente conhecidas sem o conhecimento do valor dos parâmetros Amostras X1X2Xn da população X são então realizadas com o intuito precípuo de à partir dos valores observados na amostra estimar o valor des parâmetros Em todas as situações consideradas em Estatística II o tamanho da amostra n é considerado um número prefixado Todavia existem situações em que seu valor é deixado em aberto o tamanho amostral é modelado como uma va N cujo valor esperado n é estimado durante a implementação do plano experimental Em muitas situações usarseá os momentos amostrais média mediana variância etc para estimar os momentos populacionais desconhecidos Estatísticas e Parâmetros Partimos então de uma população X cuja função de probabilidade fX depende do parâmetro desconhecido Notaremos fX O parâmetro possui naturalmente um conjunto de valores que lhe são admissíveis Por exemplo se ele for uma proporção seus valores deverão estar no intervalo 01 O conjunto dos valores admissíveis para é chamado espaço paramétrico e será notado Exemplos 1 X Bnp Binomial fXxp n x px1 pnx x 012n Aqui o parâmetro é p a probabilidade de sucesso e 01 Hugo Boff Estatística II 2021 2 2 X é uma proporção com densidade fXx x1 x 01 Como a densidade não pode ser negativa devemos ter 0 ou seja Por exemplo X pode ser a utilização da capacidade instalada das empresas indústriais A utilização média é EX 0 1 xx1dx 1 a qual é inteiramente determinada em função de 3 X ExpA Exponencial truncada fXx A exA x A e fXx A 0 cc 0 1 2 3 4 5 6 7 8 9 10 00 01 02 03 04 05 06 x y Exp1 1 2 Aqui também devemos ter 0 e A de modo que A Por exemplo X são as vendas mensais das firmas industriais que tem contrato de fornecimento no valor de A Neste caso 2 Os dois primeiros momentos populacionais são EX A 1 EX2 2 2 2A A2 de modo que VX EX2 EX2 1 2 Ou seja se conhecemos o valor de saberemos o valor da variância das vendas Mas para conhecer as vendas médias precisamos também do valor de A 4 X N2 Normal Neste caso fXx 2 212212e 1 22 x2 x Temos aqui EX EX2 2 2 de modo que VX 2 0 onde Hugo Boff Estatística II 2021 3 2 Estatísticas Dada a amostra X1X2Xn extraída da população X uma estatística é qualquer função mensurável da amostra Ou seja genéricamente TX1X2Xn é uma estatística se T depender de pelo menos um dos valores amostrais Xi excuise a possibilidade de T ser uma constante Observem que sendo função de uma amostra aleatória a estatística é uma variável aleatória Exemplos de estatísticas a TX1Xn X1 primeiro valor amostrado b TX1Xn X1 X2 Xn n X média amostral c TX1Xn X1 mínimo amostral d TX1Xn Xn máximo amostral e TX1Xn X n1 2 se n é ímpar 1 2 X n 2 X n 2 1 se n é par mediana amostral f TX1Xn X1 X2 X2 X2 Xn X2 n Sn2 variância amostral etc Observem que quando avaliadas no ponto amostral observado x1x2xn as expressões Tx1x2xn t não são mais estatísticas são apenas números De um modo geral dada uma amostra X1X2Xn extraída da população X uma infinidade de estatísticas podem ser construídas No entanto nem todas elas são de interesse Estimadores e Estimativas Se a estatística TX1X2Xn é usada para estimar um certo parâmetro desconhecido da população esta estatística T é dita um estimador de e o valor desta estatística avaliada no ponto amostral Tx1x2xn é dita uma estimativa de Hugo Boff Estatística II 2021 4 Assim o estimador de um parâmetro sempre é uma estatística ou seja uma variável aleatória ao passo que uma estimativa não é uma variável aleatória é apenas um número Por exemplo se a população X tem valor mínimo A média EX variância VX 2 e mediana MX e estes parâmetros forem todos distintos e desconhecidos as estatísticas amostrais correspondentes a serem consideradas para estimálos são dadas respectivamente pelos estimadores definidos em c b f e e mostrados acima O importante a entender neste nível é que sendo variáveis aleatórias os estimadores também possuem suas distribuições de probabilidade com seus momentos média variância etc Assim se a estatística TX1X2Xn é uma candidata para estimar o parâmetro populacional é razoável se garantir que em média este seja um estimador não viesado de ou seja tal que ET Sendo e T o erro amostral dizer que o estimador não tem viés equivale dizer que o seu erro amostral tem média 0 Ee 0 Estimadores amostrais da Média e Variância populacionais Sendo a população X qualquer com média EX e variância VX 2 vamos obter os estimadores amostrais não viesados destes parâmetros Média amostral Olhando para o caso b acima temos EX 1 n EX1 X2 Xn 1 n EX1 EX2 EXn 1 n nEX EX ou seja EX 1 Vemos que a média amostral é um estimador não viesado da média populacional Variância da média amostral EX 2 VX V X1 X2 Xn n 1 n2 VX1 X2 Xn 1 n2 VX1 VX2 VXn independência Hugo Boff Estatística II 2021 5 1 n2 VX VX VX mesma distribuição 1 n2 n2 ou seja VX 2 n 2 Vemos que a variância da média de uma amostra de tamanho n é igual à nésima parcela da variância populacional Ou seja quanto maior o tamanho da amostra menor será a variância da média amostral e em consequência melhor será a estimação amostral da média populacional Variância amostral olhando para a estatística f acima considere Xi 2 Xi X X 2 Xi X2 X 2 2X Xi X Observe que EXi 2 2 e como vimos acima EX 2 2n Somando à esquerda e a direita a equação acima obtemos então i1 n Xi 2 i1 n Xi X2 nX 2 2X i1 n Xi X Ora i1 n Xi X i1 n Xi i1 n X nX nX 0 Assim sempre vale a equação i1 n Xi 2 i1 n Xi X2 nX 2 3 Tomando então o valor esperado de ambos os lados obtemos i1 n EXi 2 Ei1 n Xi X2 nEX 2 Ou seja i1 n 2 Ei1 n Xi X2 n 2 n Ou ainda n 12 Ei1 n Xi X2 Esta última equação implica que 2 E i1 n Xi X2 n 1 Em conclusão se definirmos Sn1 2 i1 n Xi X2 n 1 4 Hugo Boff Estatística II 2021 6 obtemos um estimador não viesado da variância populacional Assim o estimador da variância amostral é a soma dos desvios quadráticos com relação à media amostral dividida por n 1 A divisão n 1 e não por n decorre do fato que ao estimar a variância da população com os dados amostrais precisamos também usar um estimador para a média da população Há assim perda de um grau de liberdade como veremos abaixo no caso de populações Normais Tal perda não ocorreria se a média da população fosse conhecida digamos 0 Neste caso Ei1 n Xi 02 n2 de modo que i1 n Xi02 n seria o estimador não viesado de 2 Com a média da população desconhecida o desenvolvimento acima mostra que a estatística amostral Sn2 dada em f é um estimador viesado da variância populacional pois ESn2 E n1 n Sn1 2 n1 n ESn1 2 n 1 n 2 2 Ou seja Sn2 subestima a variância populacional Quid para a variância da variância amostral VSn1 2 Os resultados obtidos até aqui são verdadeiros para todas as populações pois eles foram obtidos sem nenhuma hipótese particular sobre a distribuição de X Vamos obter agora explicitament VSn1 2 no caso de populações normais X N2 Da Estatística I sabemos que Zi Xi e Z0 X n são ambas variáveis aleatórias normaispadrão N01 e que por definição Zi 2 e Z0 2 são ambas variáveis aleatórias quiquadrado com 1 grau de liberdade 21 Por outro lado em razão da independência da amostra pela propriedade reprodutiva da quiquadrado sabemos que i1 n Zi 2 2n Dividindo todos os termos de 3 por 2 de ambos os lados vem i1 n Xi 2 1 2 i1 n Xi X2 X n 2 ou seja usando 4 Hugo Boff Estatística II 2021 7 i1 n Zi 2 n 1Sn1 2 2 Z0 2 5 É possível mostrar que a variância amostral é idependente da média amostral ou seja que as estatísticas i1 n Xi X2 e X são independentes Assim sendo o termo à esquerda de 5 uma va 2n e o segundo termo à direita uma va 21 o primeiro termo à direita de 5 sendo independente do segundo também deverá ser uma va quiquadrado só que com n 1 graus de liberdade gl n 1Sn1 2 2 2n 1 6 Ainda da Estatística I sabemos que uma va quiquadrado com gl tem média variância 2 Deste modo E n 1Sn1 2 2 n 1 ESn1 2 2 e V n 1Sn1 2 2 2n 1 n 1 2 2VSn1 2 2n 1 ou seja VSn1 2 24 n 1 7 Concluímos então que emm populações normais o estimador não viesado da variância populacional tem variância dada pela expressão 7 Suficiência Seja X uma população com função de probabilidade fX dependente de um parâmetro e X1X2Xn uma amostra de X A estatística TX1X2Xn é dita suficiente para se a densidade da amostra condicionada à esta estatística não depende de Ou seja T é suficiente se fX1XnTx1x2xn T t não depende de 8 A lógica desta definição é a seguinte O que é fX1XnTx1x2xn T t Esta expressão mede a informação adicional sobre que está presente na amostra X1Xnmas não em T Hugo Boff Estatística II 2021 8 Se esta probabilidade condicional não depende de isto significa que não há informação adicional ou seja que a amostra não contém mais informação sobre o parâmetro que aquela presente na própria estatística T De um modo geral uma estatística é suficiente para o parâmetro se ela resume toda a informação contida na amostra sobre este parâmetro Daí vem a importancia do pesquisador sempre trabalhar com estatísticas que sejam suficientes Observe que pela regra da probabilidade condicional temos fX1XnT fX1XnT fT Como T é função da amostra o numerador desta expressão é simplesmente a densidade da amostra avaliada no ponto amostral t Tx1x2xn O denominador é a densidade de T Assim para checar se T é suficiente basta verificar que o quociente entre a densidade da amostra e a densidade da estatística não depende de Exemplo Considere a amostra X1X2Xn de uma população Poisson e a estatística S X1 X2 Xn Sabemos da Estatística I que S Poissonn Logo PX1 x1X2 x2Xn xn S s ens x1x2xn enns s s nsx1x2xn x1 x2 xn s Como vemos a probabilidade da amostra condicionada à estatística não depende de de modo que a soma S X1 X2 Xn é uma estatística suficiente para Além da eficiência informacional proporcionada por uma estatística suficiente o que o seu uso representa para a pesquisa prática Ou seja qual é a economia que uma estatística suficiente proporciona No exemplo acima suponha que X é o numero de acidentes diários que ocorrem em determinado trecho de uma rodovia de grande tráfego e que em n dias escolhidos ao acaso obtenhase as ocorrências X1 no primeiro dia X2 no segundo dia etc Hugo Boff Estatística II 2021 9 O fato de S ser suficiente significa que para estimar o número médio de ocorrências neste processo de Poisson o pesquisador não precisará conhecer cada uma das ocorrências X1X2Xn observadas diariamente O conhecimento do número total delas S é suficiente Ou seja com a suficiência da estatística um conjunto ndimensional de dados x1x2xn pode ser eficientemente resumido por um único dadounidimensional s No exemplo acima partimos de uma dada estatística e mostramos que ela era suficiente Mas dada uma amostra como poderemos identificar as estatísticas suficientes admissíveis para esta amostra O teorema seguinte conhecido como Teorema da fatoração de Neyman alguns o atribuem a Halmos e Savage 1949 permitirá identificar as estatísticas suficientes elas sempre existem Teorema da Fatoração Seja fX1Xnx1x2xn a densidade da amostra A estatística TX1X2Xn é suficiente para se e somente se existem funções não negativas gt e hx1x2xn tais que para todo ponto amostral x1x2xn t Tx1x2xn e para todo vale a fatoração fX1Xnx1x2xn gthx1x2xn onde h não depende de 9 Observem que a função g não precisa ser a densidade de T O importante é que a densidade da amostra possa ser fatorada como o produto de duas funções Uma g que depende da estatistica T e de e outra h que não depende do parâmetro Exemplo 1 X1X2Xn amostra de uma população uniforme Unif0 0 Densidade da amostra fX1Xnx1xn 1 n se xn 0 cc Considere a função indicadora Ix 1 se x e Ix 0 se x Podemos assim escrever a densidade da amostra como fX1Xnx1xn 1 nIxn Hugo Boff Estatística II 2021 10 Assim na equação da fatoração definimos gxn 1 nIxn e hx1xn 1 Deste modoa densidade da amostra se fatora como gxnhx1xn e a estatística suficiente para o máximo populacional é o máximo amostral Xn Exemplo 2 X1X2Xn amostra de uma população normal N2 Densidade da amostra fX1Xnx1xn2 2n22n2e 1 22 i1 n xi2 Ora substituindo 4 em 3 vem i1 n Xi 2 n 1Sn1 2 nX 2 Deste modo fX1Xnx1xn2 2n22n2e 1 22 n1sn1 2 nx Colocando T XSn1 2 t xsn1 2 gt 2n2e 1 22 n1sn1 2 nx hx1xn 2n2 teremos fX1Xnx1xn2 gthx1xn Assim o par T XSn1 2 é uma estatística suficiente para 2 Existem populações à partir das quais nenhuma amostra admite estatísticas suficientes outras que a amostra inteira O caso abaixo fornece um exemplo existe uma infinidade de outros Exemplo 3 X1X2Xn amostra de uma população Cauchy CH A densidade da população é fXx 1 1 x 2 x O gráfico acima representa a densidade Cauchy centrada em 0 em vermelho e a densidade da Normalpadrão tracejada azul Percebese que a densidade Cauchy possui caudas mais altas que a Normal Hugo Boff Estatística II 2021 11 3 2 1 0 1 2 3 01 02 03 04 05 x fx Cauchy 0 N01 Esta variável não admite nenhum momento finitoSendo a densidade simétrica ao redor do parâmetro este é a mediana da distribuição A densidade da amostra é fX1Xnx1xn 1 n 1 i1 n 1 xi 2 Como vemos não é possível reunir todas as observações xi como argumentos de uma função assumindo valores reais unidimensionais de modo que a densidade da amostra não pode ser colocada no formato requerido pelo teorema da fatoração Neste caso a única estatística suficiente para é a amostra inteira X1X2Xn Isto tem uma explicação sendo a mediana da população uma medida de posição a identificação da mediana amostral depende de fato do ordenamento da amostra inteira Enunciamos agora uma propriedade útil Proposição Toda transformação bijetora de uma estatística suficiente é uma estatística suficiente Prova Visto que a estatística SX1X2Xn é uma estatítica suficiente para pelo teorema da fatoração existem as funções g e h tais que fX1XnX1X2Xn gShX1X2Xn Hugo Boff Estatística II 2021 12 Seja T S onde é uma função bijetora Então S 1T Colocando T g1Tteremos fX1XnX1X2Xn ThX1X2Xn e assim T é suficiente Exemplo 4 X1X2Xn é uma amostra da proporção X com densidade fXx x1 x 01 já apresentada acima A densidade da amostra é i1 n xi 1 ni1 n xi1 ni1 n xii1 n xi1 de maneira que pelo teorema da fatoração i1 n Xi é uma estatística suficiente para Sendo lnx uma função bijetora temos lni1 n Xi i1 n lnXi de modo que T i1 n lnXi também é uma estatística suficiente para como lnXi é neste caso um número negativo multiplicamos por 1 para obtermos uma estatística positiva Hugo Boff Estatística II 2021
Send your question to AI and receive an answer instantly
Recommended for you
25
Intervalos de Confiança: Conceitos e Cálculos
Estatística Econômica e Introdução à Econometria
UMG
22
Análise do Erro Quadrático Médio e Métodos de Estimação
Estatística Econômica e Introdução à Econometria
UMG
7
Amostragem Estratificada: Fundamentos e Cálculos
Estatística Econômica e Introdução à Econometria
UMG
13
Teorema Central do Limite: Fundamentos e Aplicações
Estatística Econômica e Introdução à Econometria
UMG
25
Elementos Fundamentais dos Testes de Hipóteses
Estatística Econômica e Introdução à Econometria
UMG
5
Tabela de Limites Unilaterais da Distribuição F de Fisher-Snedecor aos 10% de Probabilidade
Estatística Econômica e Introdução à Econometria
UMG
8
Intervalos de Confiança para Populações Normais e Outros Modelos Estatísticos
Estatística Econômica e Introdução à Econometria
UMG
9
Amostras e Distribuições Amostrais em Estatística
Estatística Econômica e Introdução à Econometria
UMG
10
Teste de Hipóteses: Análise de Evidências e Cálculos de P-Valor
Estatística Econômica e Introdução à Econometria
UMG
12
Teoria da Informação Estatística: Mensuração e Suficiência das Estatísticas Amostrais
Estatística Econômica e Introdução à Econometria
UMG
Preview text
II ESTATÍSTICAS e PARÂMETROS MOMENTOS AMOSTRAIS SUFICIÊNCIA 1 Estatística Paramétrica Na Estatística Paramétrica hipotizase que o fenômeno aleatório X a ser estudado possui uma determinada distribuição de probabilidade FXfX a qual depende de parâmetros desconhecidos Estes parâmetros pode ser um vetor aparecem nas expressões dos momentos populacionais EX EX2Assim as características desta população que são descritas através destes momentos não poderão ser plenamente conhecidas sem o conhecimento do valor dos parâmetros Amostras X1X2Xn da população X são então realizadas com o intuito precípuo de à partir dos valores observados na amostra estimar o valor des parâmetros Em todas as situações consideradas em Estatística II o tamanho da amostra n é considerado um número prefixado Todavia existem situações em que seu valor é deixado em aberto o tamanho amostral é modelado como uma va N cujo valor esperado n é estimado durante a implementação do plano experimental Em muitas situações usarseá os momentos amostrais média mediana variância etc para estimar os momentos populacionais desconhecidos Estatísticas e Parâmetros Partimos então de uma população X cuja função de probabilidade fX depende do parâmetro desconhecido Notaremos fX O parâmetro possui naturalmente um conjunto de valores que lhe são admissíveis Por exemplo se ele for uma proporção seus valores deverão estar no intervalo 01 O conjunto dos valores admissíveis para é chamado espaço paramétrico e será notado Exemplos 1 X Bnp Binomial fXxp n x px1 pnx x 012n Aqui o parâmetro é p a probabilidade de sucesso e 01 Hugo Boff Estatística II 2021 2 2 X é uma proporção com densidade fXx x1 x 01 Como a densidade não pode ser negativa devemos ter 0 ou seja Por exemplo X pode ser a utilização da capacidade instalada das empresas indústriais A utilização média é EX 0 1 xx1dx 1 a qual é inteiramente determinada em função de 3 X ExpA Exponencial truncada fXx A exA x A e fXx A 0 cc 0 1 2 3 4 5 6 7 8 9 10 00 01 02 03 04 05 06 x y Exp1 1 2 Aqui também devemos ter 0 e A de modo que A Por exemplo X são as vendas mensais das firmas industriais que tem contrato de fornecimento no valor de A Neste caso 2 Os dois primeiros momentos populacionais são EX A 1 EX2 2 2 2A A2 de modo que VX EX2 EX2 1 2 Ou seja se conhecemos o valor de saberemos o valor da variância das vendas Mas para conhecer as vendas médias precisamos também do valor de A 4 X N2 Normal Neste caso fXx 2 212212e 1 22 x2 x Temos aqui EX EX2 2 2 de modo que VX 2 0 onde Hugo Boff Estatística II 2021 3 2 Estatísticas Dada a amostra X1X2Xn extraída da população X uma estatística é qualquer função mensurável da amostra Ou seja genéricamente TX1X2Xn é uma estatística se T depender de pelo menos um dos valores amostrais Xi excuise a possibilidade de T ser uma constante Observem que sendo função de uma amostra aleatória a estatística é uma variável aleatória Exemplos de estatísticas a TX1Xn X1 primeiro valor amostrado b TX1Xn X1 X2 Xn n X média amostral c TX1Xn X1 mínimo amostral d TX1Xn Xn máximo amostral e TX1Xn X n1 2 se n é ímpar 1 2 X n 2 X n 2 1 se n é par mediana amostral f TX1Xn X1 X2 X2 X2 Xn X2 n Sn2 variância amostral etc Observem que quando avaliadas no ponto amostral observado x1x2xn as expressões Tx1x2xn t não são mais estatísticas são apenas números De um modo geral dada uma amostra X1X2Xn extraída da população X uma infinidade de estatísticas podem ser construídas No entanto nem todas elas são de interesse Estimadores e Estimativas Se a estatística TX1X2Xn é usada para estimar um certo parâmetro desconhecido da população esta estatística T é dita um estimador de e o valor desta estatística avaliada no ponto amostral Tx1x2xn é dita uma estimativa de Hugo Boff Estatística II 2021 4 Assim o estimador de um parâmetro sempre é uma estatística ou seja uma variável aleatória ao passo que uma estimativa não é uma variável aleatória é apenas um número Por exemplo se a população X tem valor mínimo A média EX variância VX 2 e mediana MX e estes parâmetros forem todos distintos e desconhecidos as estatísticas amostrais correspondentes a serem consideradas para estimálos são dadas respectivamente pelos estimadores definidos em c b f e e mostrados acima O importante a entender neste nível é que sendo variáveis aleatórias os estimadores também possuem suas distribuições de probabilidade com seus momentos média variância etc Assim se a estatística TX1X2Xn é uma candidata para estimar o parâmetro populacional é razoável se garantir que em média este seja um estimador não viesado de ou seja tal que ET Sendo e T o erro amostral dizer que o estimador não tem viés equivale dizer que o seu erro amostral tem média 0 Ee 0 Estimadores amostrais da Média e Variância populacionais Sendo a população X qualquer com média EX e variância VX 2 vamos obter os estimadores amostrais não viesados destes parâmetros Média amostral Olhando para o caso b acima temos EX 1 n EX1 X2 Xn 1 n EX1 EX2 EXn 1 n nEX EX ou seja EX 1 Vemos que a média amostral é um estimador não viesado da média populacional Variância da média amostral EX 2 VX V X1 X2 Xn n 1 n2 VX1 X2 Xn 1 n2 VX1 VX2 VXn independência Hugo Boff Estatística II 2021 5 1 n2 VX VX VX mesma distribuição 1 n2 n2 ou seja VX 2 n 2 Vemos que a variância da média de uma amostra de tamanho n é igual à nésima parcela da variância populacional Ou seja quanto maior o tamanho da amostra menor será a variância da média amostral e em consequência melhor será a estimação amostral da média populacional Variância amostral olhando para a estatística f acima considere Xi 2 Xi X X 2 Xi X2 X 2 2X Xi X Observe que EXi 2 2 e como vimos acima EX 2 2n Somando à esquerda e a direita a equação acima obtemos então i1 n Xi 2 i1 n Xi X2 nX 2 2X i1 n Xi X Ora i1 n Xi X i1 n Xi i1 n X nX nX 0 Assim sempre vale a equação i1 n Xi 2 i1 n Xi X2 nX 2 3 Tomando então o valor esperado de ambos os lados obtemos i1 n EXi 2 Ei1 n Xi X2 nEX 2 Ou seja i1 n 2 Ei1 n Xi X2 n 2 n Ou ainda n 12 Ei1 n Xi X2 Esta última equação implica que 2 E i1 n Xi X2 n 1 Em conclusão se definirmos Sn1 2 i1 n Xi X2 n 1 4 Hugo Boff Estatística II 2021 6 obtemos um estimador não viesado da variância populacional Assim o estimador da variância amostral é a soma dos desvios quadráticos com relação à media amostral dividida por n 1 A divisão n 1 e não por n decorre do fato que ao estimar a variância da população com os dados amostrais precisamos também usar um estimador para a média da população Há assim perda de um grau de liberdade como veremos abaixo no caso de populações Normais Tal perda não ocorreria se a média da população fosse conhecida digamos 0 Neste caso Ei1 n Xi 02 n2 de modo que i1 n Xi02 n seria o estimador não viesado de 2 Com a média da população desconhecida o desenvolvimento acima mostra que a estatística amostral Sn2 dada em f é um estimador viesado da variância populacional pois ESn2 E n1 n Sn1 2 n1 n ESn1 2 n 1 n 2 2 Ou seja Sn2 subestima a variância populacional Quid para a variância da variância amostral VSn1 2 Os resultados obtidos até aqui são verdadeiros para todas as populações pois eles foram obtidos sem nenhuma hipótese particular sobre a distribuição de X Vamos obter agora explicitament VSn1 2 no caso de populações normais X N2 Da Estatística I sabemos que Zi Xi e Z0 X n são ambas variáveis aleatórias normaispadrão N01 e que por definição Zi 2 e Z0 2 são ambas variáveis aleatórias quiquadrado com 1 grau de liberdade 21 Por outro lado em razão da independência da amostra pela propriedade reprodutiva da quiquadrado sabemos que i1 n Zi 2 2n Dividindo todos os termos de 3 por 2 de ambos os lados vem i1 n Xi 2 1 2 i1 n Xi X2 X n 2 ou seja usando 4 Hugo Boff Estatística II 2021 7 i1 n Zi 2 n 1Sn1 2 2 Z0 2 5 É possível mostrar que a variância amostral é idependente da média amostral ou seja que as estatísticas i1 n Xi X2 e X são independentes Assim sendo o termo à esquerda de 5 uma va 2n e o segundo termo à direita uma va 21 o primeiro termo à direita de 5 sendo independente do segundo também deverá ser uma va quiquadrado só que com n 1 graus de liberdade gl n 1Sn1 2 2 2n 1 6 Ainda da Estatística I sabemos que uma va quiquadrado com gl tem média variância 2 Deste modo E n 1Sn1 2 2 n 1 ESn1 2 2 e V n 1Sn1 2 2 2n 1 n 1 2 2VSn1 2 2n 1 ou seja VSn1 2 24 n 1 7 Concluímos então que emm populações normais o estimador não viesado da variância populacional tem variância dada pela expressão 7 Suficiência Seja X uma população com função de probabilidade fX dependente de um parâmetro e X1X2Xn uma amostra de X A estatística TX1X2Xn é dita suficiente para se a densidade da amostra condicionada à esta estatística não depende de Ou seja T é suficiente se fX1XnTx1x2xn T t não depende de 8 A lógica desta definição é a seguinte O que é fX1XnTx1x2xn T t Esta expressão mede a informação adicional sobre que está presente na amostra X1Xnmas não em T Hugo Boff Estatística II 2021 8 Se esta probabilidade condicional não depende de isto significa que não há informação adicional ou seja que a amostra não contém mais informação sobre o parâmetro que aquela presente na própria estatística T De um modo geral uma estatística é suficiente para o parâmetro se ela resume toda a informação contida na amostra sobre este parâmetro Daí vem a importancia do pesquisador sempre trabalhar com estatísticas que sejam suficientes Observe que pela regra da probabilidade condicional temos fX1XnT fX1XnT fT Como T é função da amostra o numerador desta expressão é simplesmente a densidade da amostra avaliada no ponto amostral t Tx1x2xn O denominador é a densidade de T Assim para checar se T é suficiente basta verificar que o quociente entre a densidade da amostra e a densidade da estatística não depende de Exemplo Considere a amostra X1X2Xn de uma população Poisson e a estatística S X1 X2 Xn Sabemos da Estatística I que S Poissonn Logo PX1 x1X2 x2Xn xn S s ens x1x2xn enns s s nsx1x2xn x1 x2 xn s Como vemos a probabilidade da amostra condicionada à estatística não depende de de modo que a soma S X1 X2 Xn é uma estatística suficiente para Além da eficiência informacional proporcionada por uma estatística suficiente o que o seu uso representa para a pesquisa prática Ou seja qual é a economia que uma estatística suficiente proporciona No exemplo acima suponha que X é o numero de acidentes diários que ocorrem em determinado trecho de uma rodovia de grande tráfego e que em n dias escolhidos ao acaso obtenhase as ocorrências X1 no primeiro dia X2 no segundo dia etc Hugo Boff Estatística II 2021 9 O fato de S ser suficiente significa que para estimar o número médio de ocorrências neste processo de Poisson o pesquisador não precisará conhecer cada uma das ocorrências X1X2Xn observadas diariamente O conhecimento do número total delas S é suficiente Ou seja com a suficiência da estatística um conjunto ndimensional de dados x1x2xn pode ser eficientemente resumido por um único dadounidimensional s No exemplo acima partimos de uma dada estatística e mostramos que ela era suficiente Mas dada uma amostra como poderemos identificar as estatísticas suficientes admissíveis para esta amostra O teorema seguinte conhecido como Teorema da fatoração de Neyman alguns o atribuem a Halmos e Savage 1949 permitirá identificar as estatísticas suficientes elas sempre existem Teorema da Fatoração Seja fX1Xnx1x2xn a densidade da amostra A estatística TX1X2Xn é suficiente para se e somente se existem funções não negativas gt e hx1x2xn tais que para todo ponto amostral x1x2xn t Tx1x2xn e para todo vale a fatoração fX1Xnx1x2xn gthx1x2xn onde h não depende de 9 Observem que a função g não precisa ser a densidade de T O importante é que a densidade da amostra possa ser fatorada como o produto de duas funções Uma g que depende da estatistica T e de e outra h que não depende do parâmetro Exemplo 1 X1X2Xn amostra de uma população uniforme Unif0 0 Densidade da amostra fX1Xnx1xn 1 n se xn 0 cc Considere a função indicadora Ix 1 se x e Ix 0 se x Podemos assim escrever a densidade da amostra como fX1Xnx1xn 1 nIxn Hugo Boff Estatística II 2021 10 Assim na equação da fatoração definimos gxn 1 nIxn e hx1xn 1 Deste modoa densidade da amostra se fatora como gxnhx1xn e a estatística suficiente para o máximo populacional é o máximo amostral Xn Exemplo 2 X1X2Xn amostra de uma população normal N2 Densidade da amostra fX1Xnx1xn2 2n22n2e 1 22 i1 n xi2 Ora substituindo 4 em 3 vem i1 n Xi 2 n 1Sn1 2 nX 2 Deste modo fX1Xnx1xn2 2n22n2e 1 22 n1sn1 2 nx Colocando T XSn1 2 t xsn1 2 gt 2n2e 1 22 n1sn1 2 nx hx1xn 2n2 teremos fX1Xnx1xn2 gthx1xn Assim o par T XSn1 2 é uma estatística suficiente para 2 Existem populações à partir das quais nenhuma amostra admite estatísticas suficientes outras que a amostra inteira O caso abaixo fornece um exemplo existe uma infinidade de outros Exemplo 3 X1X2Xn amostra de uma população Cauchy CH A densidade da população é fXx 1 1 x 2 x O gráfico acima representa a densidade Cauchy centrada em 0 em vermelho e a densidade da Normalpadrão tracejada azul Percebese que a densidade Cauchy possui caudas mais altas que a Normal Hugo Boff Estatística II 2021 11 3 2 1 0 1 2 3 01 02 03 04 05 x fx Cauchy 0 N01 Esta variável não admite nenhum momento finitoSendo a densidade simétrica ao redor do parâmetro este é a mediana da distribuição A densidade da amostra é fX1Xnx1xn 1 n 1 i1 n 1 xi 2 Como vemos não é possível reunir todas as observações xi como argumentos de uma função assumindo valores reais unidimensionais de modo que a densidade da amostra não pode ser colocada no formato requerido pelo teorema da fatoração Neste caso a única estatística suficiente para é a amostra inteira X1X2Xn Isto tem uma explicação sendo a mediana da população uma medida de posição a identificação da mediana amostral depende de fato do ordenamento da amostra inteira Enunciamos agora uma propriedade útil Proposição Toda transformação bijetora de uma estatística suficiente é uma estatística suficiente Prova Visto que a estatística SX1X2Xn é uma estatítica suficiente para pelo teorema da fatoração existem as funções g e h tais que fX1XnX1X2Xn gShX1X2Xn Hugo Boff Estatística II 2021 12 Seja T S onde é uma função bijetora Então S 1T Colocando T g1Tteremos fX1XnX1X2Xn ThX1X2Xn e assim T é suficiente Exemplo 4 X1X2Xn é uma amostra da proporção X com densidade fXx x1 x 01 já apresentada acima A densidade da amostra é i1 n xi 1 ni1 n xi1 ni1 n xii1 n xi1 de maneira que pelo teorema da fatoração i1 n Xi é uma estatística suficiente para Sendo lnx uma função bijetora temos lni1 n Xi i1 n lnXi de modo que T i1 n lnXi também é uma estatística suficiente para como lnXi é neste caso um número negativo multiplicamos por 1 para obtermos uma estatística positiva Hugo Boff Estatística II 2021