·

Cursos Gerais ·

Estatística Econômica e Introdução à Econometria

Send your question to AI and receive an answer instantly

Ask Question

Preview text

IV TEORIA DA INFORMAÇÃO ESTATÍSTICA No Capítulo II introduzimos o conceito de suficiência e apresentamos o teorema da fatoração o qual permite identificar se uma dada estatística é ou não suficiente ou seja se ela contém ou não toda a informação contida na amostra Neste capítulo vamos além Estudaremos a mensuração da informação presente nas estatísticas amostrais sobre os parâmetros desconhecidos da população De um modo geral a quantidade de informação presente em uma dada estatística tal como definida neste capítulo será função dos parâmetros do modelo os quais na maioria das vezes são desconhecidos Ou seja tratase de uma medida adimensional que tem apenas valor analítico Todavia veremos que esta mensuração se relaciona diretamente com a suficiência das estatísticas de modo que esta teoria fornecerá um outro meio capaz de identificar as estatísticas com esta propriedade Last but not least a quantidade de informação aqui definida também terá participação importante na mensuração da qualidade dos estimadores Com efeito a desigualdade de Rao e Cramér apresentada adiante mostrará como a eficiência dos estimadores está diretamente e positivamente relacionada com a quantidade da informação amostral que está contida neles Seja X1X2Xn uma amostra extraída de uma população X com função de probabilidade densidade fX com O suporte de X notado X é o conjunto dos valores que a variável X tem probabilidade positiva de assumir X x fXx 0 Observe que o suporte de X pode ou não depender do parâmetro A dependência ou não do parâmetro é importante para a sequência da apresentação Por exemplo se X N2 o suporte é o qual não depende dos parâmetros 2 Mas se X Unif0 o suporte é X 0 o qual depende do parâmetro Dada uma estatística TX1X2Xn é possível medir a quantidade de informação sobre contida na amostra X1X2Xn ou na estatística T Função Escore e Informação de Fisher A função escore Sc é definida pela taxa de variação da densidade ou probabilidade com relação ao seu parâmetro Hugo Boff Estatística II 2021I 2 ScX lnfXX 1 Note na definição acima que a densidade é avaliada na variável aleatória X e não em um ponto amostral x Isto torna o escore Sc uma variável aleatória Na maioria das vezes ele também depende do parâmetro de modo que Sc não será uma estatística nestes casos Observe que ESc X lnfXx fXxdx X 1 fXx fXx fXxdx X fXx dx X fXxdx visto que X não depende de 1 0 Assim a variância do escore será VSc ESc2 Seja X1 uma observação alatória de X A quantidade de informação sobre contida na observação X1 notada I1 é definida pela variância do escore ou seja I1 E lnfXX1 2 2 A idéia por trás desta definição é quanto maior a sensibilidade da probabilidade à variações no parâmetro maior será a informação sobre este parâmetro que está contida em uma observação extraída da população Esta sensibilidade é a volatilidade medida pela variância do escore Exemplo 1 X Bernouillip fXX1p pX11 p1X1 X 01 01 lnfX X1 lnp 1 X1ln1 p S lnfX p X1p 1 X1 1 p X1 p p1 p Assim a informação é I1p ES2 E X1 p p1 p 2 1 p1 p 2EX1 p2 1 p1 p 2p1 p I1p 1 p1 p 3 Hugo Boff Estatística II 2021I 3 00 01 02 03 04 05 06 07 08 09 0 10 20 30 p Ip I1p 1 p1p O gráfico acima ilustra a informação sobre a proporção p contida em uma observação Vemos que se a indefinição sobre o verdadeiro valor da probabilidade de sucesso é elevada por exemplo 03 p 07 as dúvidas de que o candidato vai ganhar no 20 turno das eleições são grandes a informação contida em uma observação a resposta de um eleitor escolhido ao acaso é relativamente baixa A informação cresce à medida que a indefinição diminui ou para baixo p abaixo de 05o candidato não se elege ou para cima p acima de 05 o candidato se elege Apresentamos abaixo uma proposição que facilitará o cálculo da quantidade de informação em muitas situações Proposição 1 Se o suporte X não depende do parâmetro então I1 E 2 lnfX 2 4 Prova Temos 2 lnfX 2 lnfX 1 fX fX 1 fX fX 2 1 fX 2fX 2 lnfX 2 1 fX 2fX 2 Logo E 2 lnfX 2 E lnfX 2 X 1 fXx 2fXx 2 fXxdx I1 X 2fXx 2 dx I1 2 2 X fXxdx Hugo Boff Estatística II 2021I 4 I1 2 2 1 I1 Exemplo 2 X Normal2 fXX12 212212e 1 22 X12 X lnfX 1 2 ln2 1 2 ln2 1 22 X1 2 Informação sobre S lnfX X1 2 I1 ES2 E X1 2 2 1 2 2EX1 2 1 2 22 I1 1 2 5 Informação sobre 2 S lnfX 2 1 22 X1 2 24 Usando 4 2 lnfX 4 1 24 22 28 X1 2 1 24 X1 2 6 Então E 2 lnfX 4 1 24 EX1 2 6 1 24 2 6 1 24 I12 1 24 6 As expressões obtidas em 5 e 6 são elucidativas Em 5 vemos que a informação para a média é constante não depende do valor deste parâmetro apenas da variância Quanto maior a variância da população menor a informação contida em uma observação sobre a média desta população A expressão 6 mostra que a informação sobre a variância da população decresce como o quadrado desta variância Quanto maior a dispersão da população menor a informação sobre a variância que é possível obter com uma amostra da população A proposição abaixo generaliza o cálculo da informação contida em amostras de n observações Proposição 2 Se X1X2Xn é uma amostra de X e se o suporte X não depende do parâmetro então a informação contida na amostra é n vezes a informação contida em uma observação Hugo Boff Estatística II 2021I 5 I1n nI1 7 Prova Usando a Proposição 1 temos I1n E 2 lnfX1Xn 2 E 2 lni1 n fXi 2 E 2 i1 n lnfXi 2 i1 n E 2 lnfXi 2 i1 n E 2 lnfX 2 i1 n I1 Logo I1n nI1 Exemplo 3 Considere a população uniforme X Unif0 A densidade de X é fXX1 1 X 0 Neste caso o suporte de X depende de e não estão valendo as Proposições 1 e 2 Informação contida em X1 Temos S lnfX ln 1 Logo ES2 E 1 2 1 2 X1 I1 1 2 X1 8 Informação contida na amostra X1X2Xn fX1XnX1X2 1 n Xn lnfX1XnX1X2 nln Logo I1 n E lnfX1XnX1X2 2 E nln 2 E n 2 I1 n n 2 Xn 9 Comparando 9 com 8 vemos que a quantidade de informação contida na amostra é maior que n vezes a quantidade contida em uma observação Hugo Boff Estatística II 2021I 6 I1n n 2 n2 2 n 2 nI1 Informação e Suficiência A informação de Fischer presente em uma estatística assume valor extremo quando esta estatística é suficiente Este valor extremo é a informação contida na amostra inteira Com efeito sendo X independente de é possível mostrar que a informação contida em qualquer estatística TX1X2Xn nunca é maior que a informação contida na amostra como um todo Além disso mesmo quando X é dependente de a informação presente na estatística T coincide com a informação contida na amostra se e somente se T é uma estatística suficiente Com efeito sempre é possível fatorar a densidade da amostra como fX1XnX1Xn fTThX1Xn onde fT é a densidade da estatística T Então ln fX1XnX1Xn lnfTT lnhX1Xn 10 lnfX1XnX1Xn lnfTT lnhX1Xn ou E 2 lnfX1XnX1Xn 2 E 2 lnfTT 2 E 2 lnhX1Xn 2 Ora sendo X independente de vimos acima que E 2 lnhX1Xn 2 E lnhX1Xn 2 de modo que I1n IT E lnhX1Xn 2 IT 11 Assim na desigualdade 11 vemos que IT a informação contida na estatística T nunca é maior que a informação contida na amostra Hugo Boff Estatística II 2021I 7 Por outro lado se T é suficiente sabemos do teorema da fatoração que a função h em 10 não depende de de modo que teremos lnfX1XnX1Xn lnfTT Então E lnfX1XnX1Xn 2 E lnfTT 2 ou seja I1n IT 12 Exemplo 4 Na população Unif0 do exemplo anterior vimos no capítulo II que uma estatística suficiente para o máximo populacional é o máximo amostralXn A fda de Xn é FXnx x n x Deste modo a densidade é fXnx n xn1 n x Então lnfXnX lnn n 1lnX nln Logo lnfXnX n ln n Deste modo IXn n 2 n 2 13 Comparando com 9 vemos que a informação contida em Xn é idêntica à informação contida na amostra Obviamente isso ocorre porque a estatística é suficiente Informação e Variância Os exemplos 13 dados acima ilustram um fato geral existe uma relação inversa entre a informação sobre o parâmetro que está contida em uma observação I1 e a variância da população VX Quanto menor a variância da população mais informativa sobre o parâmetro desconhecido do modelo será a observação amostral A mesma relação inversa se mantém para os estimadores que são estatísticas suficientes Existe uma relação inversa entre a variância do estimador V e a quantidade de informação I que ela carrega sobre o parâmetro Quanto menor a variância do estimador suficiente mais informativo ele será sobre o parâmetro desconhecido que ele estima Este é o fundamento estatístico para a busca de estimadores de menor variância na teoria da estimação Hugo Boff Estatística II 2021I 8 Podemos ver claramente esta relação inversa no exemplo 4 acima do máximo amostral Xn Esta estatística é um estimador natural para o máximo populacional É fácil checar que VXn n n 2n 12 2 de modo que VXnIXn n3 n 2n 12 é uma constante para um dado n mostrando neste caso que variância e informação são inversamente proporcionais Nas populações nas quais o suporte da distribuição de probabilidade não depende do parâmetro desconhecido veremos que existe um limite inferior para a variância de qualquer estatística regular construida para este parâmetro Este limite inferior é função inversa da quantidade de informação contida na amostra Ou seja quanto maior a quantidade de informação menor será o limite inferior da variância da estatística Desigualdade Rao e Cramér Seja X1X2Xn uma amostra simples de uma população X X com função de probabilidade fX e TX1X2Xn uma estatística para Suponha que o suporte X não dependa de Então em condições regulares existência da informação de Fisher e dos momentos de T e de fX e TfX temos VT ET2 I1 n 14 Prova Notemos x x1x2xn dx dx1dx2dxn Temos X n fXxdx 1 15 X n TxfXxdx ET 16 Derivando15 e 16 com relação à vem X n fXx dx 0 15 X n Tx fXx dx ET 16 Multiplicando 15 por ET e subtraindo o resultado de 16 vem Hugo Boff Estatística II 2021I 9 X n Tx ET fXx dx ET 17 Ora fXx fXx lnfXx de modo que a equação acima pode se escrever X n Tx ET lnfXx fXxdx ET 17 Coloquemos kx Tx ETfX 12x e mx lnfXx fX 12x Deste modo 17 se escreve como X n kxmxdx ET Elevando ao quadrado de ambos os lados vem X n kxmxdx2 ET 2 17 Pela desigualdade Cauchy e Schwarz temos f2xdxg2xdx fxgxdx2 Ou seja aplicando esta desigualdade em 17 obtemos X n k2xdx X n m2xdx ET 2 17 Ora X n k2xdx X n Tx ET2fXxdx VT e X n m2xdx X n lnfXx 2fXxdx E lnfXx 2 I1 n Assim a desigualdade 17 fica VTI1n ET 2 ou ainda VT ET2 I1 n que é o 14 Observe que sendo X independente de pela equação 7 da Proposição 2 temos I1 n nI1 Além disso se T é uma estatística não viesada de temos ET 1 de modo que a desigualdade de Rao e Cramér em 14 fica VT 1 nI1 14 Hugo Boff Estatística II 2021I 10 Naturalmente uma estatística cuja variância alcança o limite inferior de Rao e Cramér é dita eficiente O grau de eficiência de uma estatística T para pode então ser medido por efT ET2 nI1VT 18 Temos bem 0 efT 1 Quando efT 1 T é um estimador eficiente de A fórmula 18 mostra que a eficiência Rao e Cramér de uma estatística suficiente é uma medida complexa envolvendo a sensibilidade do seu viés eventual sua variância VT e a quantidade de informação contida na amostra nI1 sobre o parâmetro a estimar Exemplo 5 População normal N2 a Vimos que o estimador não viesado da média é a média amostral X a qual tem variância VX 2n A informação contida em uma observação sobre é dada em 5 I1 1 2 Logo efX 1 n 1 2 2 n 1 de modo que X é um estimador eficiente de b Vimos que o estimador não viesado de 2 é Sn1 2 o qual tem variância 24 n1 Por outro lado por 6 temos I12 1 24 Assim efSn1 2 1 n 1 24 24 n1 n 1 n 1 Vemos que Sn1 2 não é 100 eficiente Por exemplo se n 10 efSn1 2 910 e a eficiência é de 90 Se n 100 a eficiência é de 99 etc Ou seja existe eficiência assintótica obtida com um tamanho de amostra suficientemente grande c Será que o estimador viesado Sn 2 tem eficência maior Vimos que ESn 2 n1 n 2 de modo que 2 ESn2 n1 n Por outro lado Sn 2 n1 n Sn1 2 de modo que VSn 2 n 1 n 2VSn1 2 n 1 n 2 24 n1 2n1 n2 4 Assim usando 18 obtemos efSn2 n1 n 2 n 24 2n1 n2 4 n 1 n Ou seja o estimador viesado da variância populacional tem a mesma eficiência Rao e Cramér que o estimador não viesado Os itens b e c apresentam dois estimadores para a variância populacional o primeiro Sn1 2 é não viesado e o segundo Sn2 é viesado mas este apresenta variância menor que o primeiro Hugo Boff Estatística II 2021I 11 O fato de ambos terem a mesma eficiência RaoCramér é bastante instrutiva pois ela explicita que a A eficiência Rao e Cramér é um conceito independente do nível do viés b O viés que um estimador apresenta no caso Sn2 pode ser compensado pela menor variância que ele apresenta relativamente à um outro estimador não viesado no caso Sn1 2 de modo que ambos podem ser considerados equivalentes em grandes amostras no caso n lim efSn2 n lim efSn1 2 n lim n 1 n 1 No próximo capítulo apresentamos o critério do menor Erro Quadrático Médio EQM o qual pode ser utilizado em pequenas amostras para a escolha entre dois estimadores alternativos para o parâmetro da população No exemplo anterior examinamos a eficiência de dois estimadores para o parâmetro Mas a desigualdade Rao e Cramér como mostra o enunciado se aplica a qualquer estatística mesmo que esta não seja um estimador direto do parâmetro Exemplo 6 Seja X1X2Xn uma amostra de uma população X com densidade fXx x1 x 01 0 É fácil mostrar que a informação contida na amostra sobre é dada por I1n n 2 Vimos no Exemplo 4 da Aula II que a estatística S i1 n lnXi é uma estatística suficiente para Vamos agora mostrar que esta é uma estatística eficiente no sentido que efS 1 Com efeito para calcularmos o primeiro e o segundo momentos de T considere as vas Ti lnXi Então FTit PTi t PlnXi t PXi et Ora PXi x 0 x v1dv x Assim FTit 1 et 1 et Esta última expressão não é outra que a fda de uma va Exponencial com parâmetro Ou seja Ti Exp Hugo Boff Estatística II 2021I 12 Assim como as vas Ti são independentes e como temos S i1 n Ti pela propriedade reprodutiva da exponencial vem que S n Ou seja S tem distribuição gama com parâmetros n e Da Estatística I sabemos que ES n e VS n 2 Logo ES n 2 Temos então todos os ingredientes para calcularmos a eficiência RaoCramér dada em 18 efS ES2 nI1VS n 2 2 n 2 n 2 1 Ou seja S é uma estatística eficiente para a estimação de Observe que neste caso a informação contida na estatística S n2 é idêntica à sua variância Também a relação inversamente proporcional entre estas grandezas mencionada antes não ocorre aqui A razão disso é que S é apenas uma estatística suficiente para não um estimador de No próximo capítulo veremos que o estimador não viesado de menor variância MVUE de é n 1S Veremos que a variância deste estimador é sim proporcional à 2 modo que a relação inversa entre a variância e a informação de fato se verifica Hugo Boff Estatística II 2021I