·
Cursos Gerais ·
Inferência Estatística 1
Send your question to AI and receive an answer instantly
Recommended for you
Preview text
Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 1 Aula sobre o curso Contents 1 Instrutores 1 2 Estrutura 1 3 Principais objetivos 1 1 Instrutores Professor Philip Thompson philipthompsonfgvbr Monitor Ezequiel de Braga Santos ezequielbragasantosgmailcom 2 Estrutura O livro texto de referencia será Morris DeGroot Mark Schervish Probability and Statistics Fourth Edition 2012 Os capitulos 15 introducao a Probabilidade 10 e 12 nao serao cobertos O aluno é encorajado a ler o livro texto em paralelo as aulas Como livros suplementares recomendamos George Casella and Roger L Berger Statistical Inference 2nd Edition e Larry Wasserman All of Statistics Distribuirei notas referentes ao conteudo das aulas A avaliacao será constituida de 2 provas sendo a nota final a media aritmetica das duas notas Apesar de nao haver listas de exercicios o aluno é encorajado a fazer os exercicios do livro texto de DeGroot uma boa parte das questoes da prova será baseada nestes exercicios 3 Principais objetivos Este curso tem como principal objetivo introduzir elementos da teoria de inferencia estatistica para um curso de graduacao Apos uma breve revisao de probabilidade iniciaremos o estudo de esti madores sobre o ponto de vistas frequentista e Bayesiano Cobriremos os topicos de Método de Momentos Estimador de Máxima Verossimilhanca Estimador de Bayes e distribuicoes a priori e a posteriori Discutiremos também estisticas suficientes e eficiencia de estimadores Este será o principal conteudo da primeira prova Para a segunda prova cobriremos tipos clássicos de intervalos de confianca e testes de hipótese dois métodos de inferencia mais conhecidos Daremos uma Prepared by Philip Thompson on August 5 2023 Aula sobre o curso Page 2 of 1 introducao a regressao linear no caso Gaussiano e daremos uma breve comparacao entre o ponto de vista frequentista e Bayesiano Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 5 Aula revisao de Probabilidade Contents 1 Objetivos da aula 1 2 Desigualdades 1 3 Media empirica amostral 2 4 Leis dos Grandes Numeros 3 5 Teorema Central do Limite 4 1 Objetivos da aula Veja Capitulo 6 do livro nao veremos a secao 64 e exercicios correspondentes Revisaremos as desigualdades de Markov e Chebyshev e fazemos referencia ao método de Chernoff no livro Re visaremos as Leis Fraca e Forte dos Grandes Numeros e a aplicamos a convergencia de histogramas Concluimos com o Teorema Central do Limite 2 Desigualdades Uma das principais desigualdades usadas em Probabilidade e Estatística é a seguinte Theorem 1 Seja ϕ R R uma funcao crescente Seja X R uma variavel aleatoria tal que EϕX Entao para todo t 0 PϕX t EϕX ϕt Prova EϕX EϕX1Xt EϕX1Xt EϕX1ϕXϕt ϕtPϕX ϕt ϕtPX t Prepared by Philip Thompson on August 1 2023 Aula revisao de Probabilidade Page 2 of 5 Remark 1 Markov and Chebyshev inequalities No Teorema 1 quando yt t temos a De sigualdade de Markov Quando yt t temos a Desigualdade de Chebyshev Outras funcoes muito usadas sao yt t p 1 e wt e O leitor é convidado a ler o Teorema 627 e Exemplos 626 e 627 do livro texto onde a cota de Chernoff é explicada 3 Media empirica amostral Theorem 2 Seja X uma amostra iid de uma distribuicao com media i e variancia 0 bem definidas Defina a media empirica 1 Xp i Xi i1 Entao o2 EX u VXr Prova Por linearidade do valor esperado 1 EXn EX 5 m 11 Agora usaremos um resultado visto em Probabilidade a variancia da soma de variaveis aleatorias independentes a soma das variancias Seja X X w Segue que n F 2 n F 2 2 2 Xi Xi oO wi 2202 324 De a i1 i1 LJ A principal interpretacao do teorema anterior que 1 a media empirica nao enviesada 2 quanto o maior nimero de pontos amostrados menor a variancia da media empirica Podemos usar os Teoremas 1 e 2 para construir intervalos de confianca para a media empirica assumindo que sabemos variancia populacional o7 para todo t 0 o2 PX wl t 1 nt Em geral nao temos conhecimento de o Futuramente iremos melhorar este resultado tornandoo mais pratico Veja os Exemplos 621623 do livro texto Em outras palavras precisao média a mesma da distribuicao amostrada 2Em alguns casos em que nao sabemos a temos conhecimento de uma cota superior isto é util em muitos casos mas pode ser uma estimativa conservadora para a margem de erro Aula revisao de Probabilidade Page 3 of 5 4 Leis dos Grandes Numeros Theorem 3 Lei fraca dos grandes numeros Seja X7 uma amostra lid de uma distribuicao com media mt e variancia 0 oo Entao para todo t 0 lim PX t 0 2 noo Prova A prova uma consequencia facil de 1 XO Quando acontece 2 dizemos que a sequencia aleatoria X converge ao numero yw em proba bilidade e usamos a notacao X 4 ut Uma nocao mais forte de convergencia a convergencia quasecerta ou convergencia com probabilidade 1 P lim X 0 1 3 noo De fato podese mostrar que convergencia quasecerta implica convergencia em probabilidade Enunciaremos o seguinte resultado sem prova vista num curso de Probabilidade Theorem 4 Lei forte dos grandes numeros Seja X uma amostra iid de uma distribuicao com media 4 Entao X convergence quasecertamente a Note que em particular tanto nos Teoremas 3 e 4 a hipotese de variancia finita nao necessaria Theorem 5 Se Z be g uma funcao continua em b entao gZn gb Prova Veja Exercicio 615 LJ Theorem 6 Histogramas Seja X uma amostra lid Sejam c Co e defina o histograma de intervalo c C2 1 Yn n Llaxjo 11 Entao Y 4 Pc Xi Co Mais ainda Yn Converge quasecertamente a Pcy X1 Prova Seja Yj laxc Por construcao Yj uma amostra iid de uma Bernolli com parametro pPc X c O resultado segue do Teoremas 3 e 4 C Example 1 Seja Z a taxa comm que consumidores sao atendidos e seja Xjicn OS instantes em que consumidores sao sucessivamente atendidos Assumimos que Xien Sao Condicionalmente iid dado Z z com pdf ze xQ0 gxZ 0 xX 0 3Voce consegue entender por que Y define um histograma Aula revisao de Probabilidade Page 4 of 5 A figura abaixo representa o histograma com z 0446 c1 0 e c2 10 junto com a pdf neste intervalo Note que o histograma e pdf se aproximam bastante 5 Teorema Central do Limite Theorem 7 TCL de LindebergLévy Seja Xin i1 uma amostra iid de uma distribuicao com media µ e variancia σ2 bem definidas Seja Zn Xn µ σn Entao para todo t R lim n PZn t Φt 4 onde Φ é a pdf de N0 1 Este famoso teorema justifica a afirmacao de que para uma grande parte de distribuicoes com dados empiricos pode ser aproximada a uma normal Conforme exemplo 631 Quando 4 acontece dizemos que a sequencia aleatoria Zn converge em distribuicao a variavel aleatoria Z de pdf Φ As vezes usamos a notacao Zn d Z Note que ela difere significadamente da definicao de convergencia em probabilidade ou convergencia quasecerta de fato esta definicao explicita aproximadamente a pdf de Zn para n suficientemente grande fixado o intervalo t4 4Um comentario técnico a parte Em muitas aplicacoes é desejavel uma nocao relacionada mas mais forte uma que Aula revisao de Probabilidade Page 5 of 5 Veja os exemplos 632 633 e 634 a aplicacao do TCL para variaveis Bernoulli uniform e Poisson Delta Method Example 638 Reading TCL de Lyapunov e Bernoulli Rascunho da prova do TCL ignore Section 64 valha uniformemente a todo intervalo Em outros cursos de probabilidade ou estatistica este tipo de convergencia pode ser obtido com as chamadas desigualdades de concentracao no entanto em geral nao podemos obter constantes numericas tao precisas como no TCL Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 5 Aula Modelos estatistico e Inferencia Contents 1 Objetivos da aula 1 2 Modelos Estatisticos 1 3 Estimadores e inferencia 3 1 Objetivos da aula Definir o que é um modelo estatistico tanto do ponto de vista frequentista como Bayesiano Con ceituar inferencia estatistica introduzindo o conceito de estimadores intervalos de confianca e testes de hipoteses futuramente iremos aprofundar tais conceitos matematicamente e com procedi mentos concretos 2 Modelos Estatisticos Definition 1 Modelo Estatistico Formalmente um modelo estatistico é qualquer colecao PθθΘ de distribuicoes Pθ definidas num espaco X equivalentemente uma funcao P Θ PX onde PX denota a familia de distribuicoes sobre X1 Quando Θ Rd para algum natural d dizemos que o modelo estatistico é parametrico neste caso Θ é denominado conjunto de parametros Remark 1 Se X X é uma variavel aleatoria com distribuicao Pθ escrevemos PθX A PθA e Eθ denota o valor esperado referente a medida de probabilidade Pθ Sem perda de generalidade um modelo paramétrico pode ser descrito como uma familia de pdfs da forma F f θ θ Θ onde Θ Rd para algum d N Neste curso iremos considerar sempre modelos parametricos Example 1 Estimacao de parametro unidimensional Dado p 0 1 considere distribuicoes Pp do tipo Bernoulli isto é definidas sobre 0 1 com massa f 1p PX 1 p Este é um modelo paramétrico unidimensional d 1 1Mais comumente X R X Rd X Z ou um subconjunto destes Prepared by Philip Thompson on August 2 2023 Aula Modelos estatistico e Inferencia Page 2 of 5 Example 2 Estimacao de parametro bidimensional Dados θ µ σ R 0 considere distribuicoes Pθ definidas sobre R com pdfs f xµ σ 1 σ 2πe 1 2σ2 xµ2 Este é um modelo paramétrico bidimensional d 2 Example 3 Estimacao naoparametrica Seja F o conjunto de todas as pdfs definidas sobre R Sem hipóteses adicionais o modelo estatistico definido por todas as distribuicoes com densidades em F nao é paramétrico Example 4 Predicao regresssao e classificacao Suponha que observamos uma amostra iid de pares de pontos Xi Yiin por exemplo Xi poderia ser a pressao sanguinea do iézimo paciente e Yi o seu tempo de vida Em modelos deste tipo X é chamado de preditor regressor feature ou variavel independente Y é chamado de output resposta ou variavel dependente Neste modelo inferir sobre a distribuicao conjunta de X Y nao é o mais relevante mas sim inferir sobre a distribuicao de Y condicional a X No modelo paramétrico PY X x é caracterizada integralmente por um parametro θ Rd Por exemplo no modelo linear gaussiano PY X NXθ σ2 1 O objetivo de predizer Y a partir do valor de X é chamado predicao Quando Y R este modelo chamase regressao Quando Y 0 1 este modelo chamase classificacao Podemos generalizar este modelo para incluir o caso em que Y é multidimensional Existem outros modelos que fazem predicao também Veja Exemplos 711 e 713 Modelos da Definicao 1 sao denominados frequentistas já que o parametro θ Θ é fundamen talmente um valor fixo A modelagem Bayesiana considera que parametros sao também variaveis aleatorias Veja p aginas 382384 do livro texto Definition 2 Modelo estatistico Bayesiano paramétrico Um modelo Bayesiano paramétrico consiste numa distribuicao π sobre Θ denominada distribuicao a priori e numa familia de densidades F f θ θ Θ estas definem a distribuicao sobre X condicionalmente a θ Remark 2 No modelo frequentista a notacao f xθ nao referese a uma densidade condicional θ é um parametro fixo De forma informal podemos dizer que o ponto de vista frequentista se baseia nos seguintes axiomas F1 Probabilidades sao limites de frequencia relativa Probabilidades sao propriedades objetivas do mundo real Aula Modelos estatistico e Inferencia Page 3 of 5 F2 Parametros sao constantes fixas e nao conhecidas F3 Procedimentos estatisticos devem ser construidos de maneira a ter um bom comportamento em frequencias limite Por exemplo um 95intervalo de confianca deve conter o parametro real com frequencia limite pelo menos 95 das vezes Já o ponto de vista Bayesiano se baseia nos seguintes axiomas B1 Probabilidades representam graus de esperanca nao frequencias limites Portanto podemos fazer afirmacoes probabilisticas para várias coisas nao apenas dados sujeitos à variacoes B2 Podemos fazer afirmacoes probabilisticas sobre parametros mesmo eles sendo constantes fixas B3 Fazemos inferencia sobre um parametro associandoo uma distribuicao Inferencias como estimativas pontuais ou intervalos de confianca podem ser extraidas desta distribuicao As Definicoes 1 e 2 descrevem formalmente a seguinte afirmacao Um modelo estatístico consiste na identificacao de variáveis aleatórias de interesse ob serváveis e potencialmente observáveis na especificacao de uma distribuicao conjunta para as variáveis aleatórias observáveis e na identificacao dos parametros θ desta dis tribuicao conjunta As vezes é conveniente assumir que os parametros sao variáveis aleatórias também mas para isso é preciso especificar uma distribuicao conjunta para θ 3 Estimadores e inferencia Resumidamente fazer inferencia ou aprendizagem termo usado em Ciencia da Computacao é o processo de usar dados para inferir sobre a distribuicao gerando tais dados Uma pergunta típica de inferencia é Dada uma amostra Xiin de uma distribuicao P com cdf F como inferir F Aula Modelos estatistico e Inferencia Page 4 of 5 Em alguns casos queremos inferir apenas alguma caracteristica de P Por exemplo responder de maneira estatisticamente precisa afirmacoes probabilisticas do tipo 1 Qual a média de P 2 No Exemplo 1 com quanta certeza podemos inferir que a moeda é justa p 12 3 No Exemplo 2 dada uma amostra lid da distribuicao Py 5 Como estimar u0 4 No Exemplo 3 como estimar f F dada uma amostra iid da distribuicao P desconhecida 5 No Exemplo 4 tal que 1 como estimar 6 6 No Exemplo 4 tal que 1 com que certeza podemos garantir que X um preditor significativo isto é 0 0 Filosoficamente Inferencia Estatistica 0 problema inverso de Probabilidade na segunda area sabemos a distribuicao do modelo e perguntamos que propriedades satisfaz uma amostra aleatoria desta distribuicao A seguir discutiremos brevemente alguns conceitos fundamentais em inferencia sobre 0 ponto de vista frequentista Futuramente iremos aprofundar tais conceitos e tamber discutir o caso Bayesiano Definition 3 Estimador Dada uma amostra tid Xjictn Pe um estimador pontual de 6 é qualquer funcao mensuravel 6 gX1 Xn Também chamamos de estatistica qualquer funcao mensuravel de uma amostra Uma estimativa é 0 valor 9x1Xn referente a realizacao X X1Xp Xp Um estimador e a teoria que veremos futuramente tenta formalizar os itens 1 e 35 acima Exemplos de estatiisticas 1 Asoma y Xj 2 A média empirica X 07 Xj 3 O minimo minXX e maximo maxX Xp 4 A funcao constante gX1X a Definition 4 Intervalo de confianca Um 1intervalo de confianca para um parametro 0 é um intervalo C an by com extremos an aX1Xn by BX1X tal que Po9EC 1aVOEO Aula Modelos estatistico e Inferencia Page 5 of 5 Example 5 Seja uma amostra lid Xjicn de uma Bernoullip By 2 Xi Recorde que Vp Pane em particular 6 p Portanto B1 p 1 ge Pn Pn ag PUL P n n Usando o TCL é possivel mostrar que PnP 4 W01 se Podemos usar este fato para construir um intervalo de confianca assintoticamente valido Defina z 11 a isto é se Z N0 1 entao PZ z a Defina An Pa Zu28 Dy Py Zq28k Entao lim Ppa p by 1a noo CO Definition 5 Teste de Hipdteses Um teste de hipoteses para um parametro 8 éuma afirmacao do tipo Hyp 90OQ vs H9EC OQ onde 9 UO é uma particao do conjunto de parametros Ho é chamada de hipotese nula e H é chamada hipotese alternativa Testes de hipoteses sao utilizados no contexto de Problemas de Decisao Estatistica Veja paginas 380381 do livro texto Example 6 Seja uma amostra lid Xj icn de uma Bernoullip Um teste de hipotese para verificar se a moeda é Justa seria da forma Ho p12 vs Hp12 Veremos que uma estatistica de testes razoavel a quantidade T 6 12 rejeitando Ho quando T é muito grande LJ As definicoes de intervalo de confianca e testes de hipoteses tentam formalizar os itens 1 e 5 acima Futuramente iremos formalizar como quantificar tais definicoes e iremos ver exemplos concretos Muitas vezes a construcao de estimadores esta intimamente ligada a construcao de intervalos de confianca e testes de hipotese Veremos também que existe uma dualidade entre intervalos de confianca e testes de hipoteses Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 20 Aula Método dos Momentos e Estimadores de Máxima Verossimilhanca Contents 1 Objetivos da aula 1 2 Método de Momentos 2 3 Estimador de Máxima Verossimilhanca 3 4 Consistencia do MLE 5 5 Invariancia do MLE 7 6 Normalidade assintotica do MLE 8 7 Apêndice 11 71 Familia Exponencial 11 72 MLE para familias exponenciais 14 73 Computacao numérica e o algoritmo EM 16 731 Método de Newton 16 732 Algoritmo EM 17 74 Limitacoes do MLE 20 1 Objetivos da aula Veremos dois métodos para construir estimadores em modelos frequentistas O método de mo mentos MM e o estimador de máxima verossimilhanca MLE Veremos diferentes propriedades do MLE como consistencia invariancia e normalidade assimtotica Resumidamente podese dizer que o MLE é um bom estimador para modelos estatisticos regulares1 Em especial a familia de distribuicoes exponencial define uma classe de modelos estatisticos em que o MLE funciona bem Um exemplo pratico em que o MLE nao é bem definido sao as misturas Gaussianans Raramente o MLE tem expressao analitica apresentamos uma introducao ao método de Newton e o algoritmo EM 1Dentro destas classes de modelos veremos em aulas futuras que este é o estimador com menor variancia Prepared by Philip Thompson on August 10 2023 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 2 of 20 2 Método de Momentos Definition 1 Método de Momentos Para cada 6 R seja Pg a distribuicao associada no modelo estatistico com pdf f Para Jj k defina a funcao jézimo momento 6 aj0 EgX F010ax Defina a aplicacao a com coordenadas a Dada uma amostra lid Xjicn defina o Jézimo momento empirico ly aj S Xi i1 Defina 1 Ax O estimador do método de momentos 6 é a solucao de a0 G isto é 0 valor de tal que a16n 1 A 8p Qo ag6n Ak Na definicao anterior esta implicito a hipotese de que o sistema acima tem solucao Nos exemplos a seguir nao so isso é verdade como a aplicacao 8 a tem inversa A motivacao para a construcao do estimador do método de momentos é razoalvemente clara assumindo bem definida a heuristica de estimar valores esperados por médias empiricas o Método de Momentos MM busca um estimador que mapeie os momentos aos momentos empiricos Example 1 Seja Xjeqnq iid Bernoullip Temos a1p pe X Logo 0 método de momentos nos da 1 Pn n Xi i1 LI Example 2 Seja Xjieqn iid Nu 07 Temos aiuo e Q2U 0 EoX VoX EoX 07 w Temos que resolver o sistema 1 Pp p dX i1 1 Pp C i dX Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 3 of 20 A solucao é lL ad py2 i 7 Xi or 5 LX fi i1 i1 CI Anunciaremos o seguinte metateorema sem prova Theorem 1 Seja 6 o estimador do método de momentos Assumindo condicoes apropriadas do modelo as seguintes afirmacoes sao verdadeiras 1 6 existe quase certamente 2 6 6 3 Jn6 6 4 N0 2 onde Y GEYY G onde Y XXX eG gi ga a matriz com jézima coluna Va 6 Remark 1 Dizemos que um estimador 6 de um parametro 6 é consistente se 6 O item 2 do Teorema 1 garante sob determinadas hipoteses que o estimador do método de momentos é consistente O item 3 do Teorema 1 vai além de consistencia Sua principal funcao é permitir construir intervalos de confianca assintoticamente precisos No futuro veremos resultados similares com mais detalhes E dese esperar que a grandeza da matriz de covariancia influencie o comprimento do intervalo de confianca para cada n Futuramente veremos critérios relacionados que permitem comparar estimadores em termos da variancia X 3 Estimador de Maxima Verossimilhanca Definition 2 Estimador de Maxima Verossimilhanca Seja Xiien uma amostra lid e denote X X1Xp Para cada O seja Pg a distribuicao associada com pdf f A funcao de verossimilhanca é definida por n 036 FX FXiI9 i1 O estimador de maxima verossimilhanca MLE é a solucao do problema 6 max fX n max FX6 Pela hipotese iid note que se a amostra Xi ietn vem de uma distribuicao com parametro verdadeiro fixado entao fX é a pdf conjunta de X Atencao o mesmo nao é verdade se X vem de uma distribuicao com valor distinto de 0 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 4 of 20 Como veremos em exemplos a seguir util definir a funcao de logverossimilhanca 3 XK log fK Obviamente tanto faz maximizar fX0 ou X Example 3 Seja Xiejrj iid Bernoullip Temos fxp p1 p logo FXp pa p p py i1 onde S 7 X Em particular Xp Slogp n Slog1 p Resolvendo d0X dp 0 0 obtemos a solucao fy Sn Example 4 Seja Xjien iid Mu 07 com 6 u0 Temos ii x p fx10 exp logo 7 1 X w fX0 X18 az oo 207 n Xi jn 270 exp eee nS nXp 12 270 exp se exp a onde X 110 X e S 11 X Xn Em particular nS nX LW Xp 27n nl Xp mn nloga 552 Resolvendo déX u0 0 du uo déX do LL c 0 obtemos a solucao fin Xn Gy S Utilizandose de derivadas de ordem 2 podese provar que de fato este ponto estacionario um maximo global 3Aqui assumimos 0 1 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 5 of 20 Note que o conjunto de parametros é importante na definicao do MLE Example 5 Seja Xjicn iid Nu 1 com 0 00 Podese mostrar que neste caso o MLE é dado por An Xn Xn 0 Ln 0 CC Agora damos um exemplo mais dificil Veja Exemplo 757 e comentario no Exemplo 758 Example 6 Seja Xjicn iid Unif0 0 Temos 16 Ox 8 Fx0 S 0 CC Em particular 1 O X6VIE FbFx 4 ela 0 Cc Segue que o MLE é 6 maxX1 Xp 4 Consistencia do MLE Diferentemente do MM a motivacao para a construcao do MLE nao parece tao clara A seguir iremos motivar sua construcao dando um rascunho da prova de sua consistencia Para isso neces sitamos de uma definicao bem técnica Definition 3 Divergente de KullbackLeibler Dadas as pdfs f eg o divergente de KullbackLeibler entre f eg é definido como FX fx Dfg Exn tos 3 fre jog 2 dx Fl19 Bxxr flog 3 xloa 775 Podese provar que Dfg 0 e Dff 0 Infelizmente o divergente de KullbackLeibler nao define uma distancia no espaco de distribuicoes Durante todo o resto destas notas assumiremos que o modelo estatistico é identificavel segundo o divergente de KullbackLeibler Com isso queremos dizer que para todos 60 O7 646 DFOF8 0 Por exemplo ele nao é simetrico Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 6 of 20 Para facilitar usaremos a notacao D66 D fFC6 Seja 6 o parametro verdadeiro the ground truth Maximizar a funcao de logverossimilhanca X equivalente a maximizar a funcao Lys FXi8 M log 7d l9 5 XI0 Pela lei dos grandes nimeros M converge para fX6 f x Eg log fxd ora f Fare Mee f x8 f x0 9 Fay 109 D60 Portanto M D que maximizado em 6 de fato D66 0 e D0 0 para todo 6 6 Portanto é de esperar que o MLE be argmaxgeq M convirja para 6 Isto motiva a definicao do MLE Ha um porém A prova formal necessita mais do que M0 4 D60 para cada 6 Necessita mos de uma convergéncia uniforme j4 que necessitamos approximar toda uma funcao Theorem 2 Seja 6 o parametro verdadeiro Seja uma amostra Xjien lid de Pe Defina as funcoes iN fX8 M log 8 5 D109 FX ig e M D60 Suponha que 1 supgeo Mn M6 0 2 Para todo 0 SUDg99 M M6 Seja o MLE de 6 Entao 6 9 O item 1 pede que a convergencia é uniformemente em probabilidade O item 2 pede que 6 é um ponto maximo local estrito Prova do Teorema 2 Por definicao de 6 M M6 Portanto M6 M6 M6 M M6 M6 M M8 M6 M6 sup M8 M8 M M8 0 0 Esta funcao é do tipo 2 Xi 8 Num contexto mais geral existe uma teoria estatistica chamada Empirical Risk Minimization que usa estimativas deste tipo para estimar parametros satisfazendo 6 argmin EéX 6 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 7 of 20 Em particular para todo 6 0 PM6 M 5 0 Seja e 0 Existe 6 0 tal que para 0 6 temos M0 M6 6 Entao P6 6 PM6 M6 5 3 0 O 5 Invariancia do MLE Uma pergunta natural como o MLE se comporta por uma transformacao de parametros Quando a transformacao nao é bijetiva necessitamos de uma modificacao da funcao de maxima verossimil hanca Definition 4 Seja uma funcao g 0 A com G gQ Dada uma amostra lid Xj icn de Poe defina a funcao de verossimilhanca induzida FXA f X XA max FXI6 O estimador de maxima verossimilhanca MLE de X g0 é definido como d argmax fXA AEG Theorem 3 Considere a Definicao 4 Se 6 0 MLE de 6 entao o MLE de d g6 X g6 Prova Por simplicidade defina G 8 g A Em primeiro lugar afirmamos que VAEG FXJA FX4 De fato por definicao de 6 temos que V8 O FXK fX6 isto implica em particular VA G maxeco FX FX6 provando a afirmacao acima Em segundo lugar afirmamos que fX fXg De fato fX6 fXg6 porque de Gaia fX6 fXg6 pela primeira afirmacao Concluimos das duas afirmacoes que VA G fXA fXg6 concluindo a prova O Notemos que se g é bijetora entao dado A tais que A g temos que fXA FX Em particular d argmax f Xg1A AEA E mais pratico no entanto obter be aplicar A g6 Example 7 Seja Xicn iid Nu 07 com 6 ua Recorde que o MLE de pu 0 dado por fi X and 6 40 X X Pelo Teorema 3 temos que o MLE de o G Qual o MLE do segundo momento EX LJ Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 8 of 20 6 Normalidade assintotica do MLE A seguir iremos provar a normalidade assimtotica do MLE Daremos a prova apenas no caso uni dimensional Para tanto sera Util darmos algumas definicoes Assumiremos que a funcao de logverossimilhanca x log fx duas vezes diferenciavel e que fx 0 a menos de um conjunto de medida nula Definition 5 Definimos a funcao 0eX 10 6 0 Ve EO Dada uma amostra lid Xicn definimos oeX 0 6 0 V6 Futuramente retornaremos a essa definicao quando estudarmos uma teoria que compara esti madores de acordo com sua variancia De fato veremos que a variancia do limite normal do MLE é inversamente propocional a esta funcao no parametro verdadeiro 6 Antes anunciamos o seguinte resultado que da uma expressao mais facil para a funcao Theorem 4 Temos que Eg Ses 6 O0e OLX 7 OrX 18 Es Po oy Finalmente nl Prova Note que f fxdx 1 para todo Derivando obtemos 0 55 feieex OF x log fF x Clog Fxl og 6 Fx8dx eX E 0 re onde usamos que dros Fal g op we 8 Em particular concluimos que O0X 10 Eg Ao Como veremos a funcao chamada de informacao de Fisher Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 9 of 20 Derivando mais uma vez temos também que Of x Em seguida notemos que 2 Fx xt 2 BUx 4 FOO 920 226 nC 2 Fx ee OLN gy f x0 00 Multiplicando a expressao acima por fx e integrando em dx obtemos que 0x ALXI Ee oe E s9 9 Seja uma amostra Xjicn Como para todo 6 x8 Xil8 i1 temos que 0eX LXI I0 8 ye og m0 L A seguir assumimos que R k 1 O teorema seguinte necessita de algumas hipoteses de regularidade sobre a funcao de logverossimilhanca e que o MLE seja consistente isto 6 6 Por simplicidade nao as enunciaremos explicitamente e daremos um rascunho da prova Theorem 5 Normalidade assintotica do MLE caso unidimensional Seja uma amostra lid Xiien de Po e seja 60MLE correspondente Sobre hipoteses apropriadas de regularidade tem se que 166 6 4 N0 1 Rascunho da prova Usaremos a notacao simplificada X0 Pela formula de Taylor e optimalidade de 6 temos numa vizinhanca de 6 0 0 20 8 e6 Por exemplo convergencia uniform em probabilidade para invocar a formula de Taylor Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 10 of 20 Como 6 4 0 podemos usar essa aproximacao em Rearranjando 1 A os vay Tn8 0 vO OS tara Bul Comecamos com T6 Seja Y Plog FOL gr Recorde que EgY 0 pelo Teorema 4 Também 6 VoYj Portanto pelo TCL T6 1n Sy Vn 0 4 N0 16 Em seguida consideramos B0 Seja Seja Aj Clog XL ge Pelo Teorema 4 EgA 6 portanto pela lei dos grandes numeros B6 1S 16 n n a i Agora usaremos o seguinte resultado de probabilidade se X 4 Xe Zn Ke c uma constante entao ZXpy 4 ex Concluimos que A T8 d LJ A prova anterior pode ser generalizada para parametros multidimensionais Anunciaremos sem prova Definition 6 Seja 6 Hx R a Hessiana da funcao de logverossimilhanca 6 x assumida aqui continua isto é Hx é a matriz de entradas 0ex Hx 6 Definimos a aplicacao 10 EgHX 6 Theorem 6 Normalidade assintotica do MLE caso multidimensional Seja uma amostra lid Xiien de Po e seja 6 o MLE correspondente Assumindo que 0 é inversivel e sobre hipoteses apropriadas de regularidade temse que JVn6 6 4 0 16 8 Aqui tomase o valor esperado entrada por entrada Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 11 of 20 Apéndice 71 Familia Exponencial Grande parte das distribuicoes que vemos na verdade fazem parte de uma mesma classe de dis tribuicoes Definition 7 Familia Exponencial de distribuicoes Uma familia de distribuicoes Poece sobre X com Cc R éuma familia exponencial kdimensional se existe aplicacoesn OQ RK eT X R e funcoeseBOReh X R tals que a pdf em é dada por f x hx exp nTx B x Example 8 Podemos reescrever a pdf de numa Bernoullip como fxp p1 p ellogpxlog1p1x ellog plog1px log1p Temos uma familia exponencial unidimensional com Bp log1 p np log p log1 p hx 1 Tx x Example 9 Gaussian distribution Podemos reescrever a pdf de uma Nu 07 com u 0 2 2 L x 1 u 2 f x0 exp a 55275 4 log210 Temos uma familia exponencial bidimensional com 1 py B6 log2107 0 5 B loal2no LL 1 0 0 m o n29 G2 Ax 1 Tix x Tox x Por motivos técnicos em muitos casos mais conveniente estimar na variavel 7 n inves de Isso motiva a seguinte definicao Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 12 of 20 Definition 8 Familia Exponencial Canonica de distribuicoes Uma familia de distribuicoes Pr nerk sobre X define uma familia exponencial canonica kdimensional se existe aplicacao T X R e funcoes A RK Reh X R tais que a pdf em n R é dada por qxn hx exp n Tx An x O conjunto de parametros canonicos é definido por E n R cw An oo Example 10 Considere a Definicao 8 e seja uma amostra lid Xj icn de P Temos que qX AXi exp a TXi van i1 i1 Portanto a familia de distribuicao produto de uma familia exponencial canonica 6 também uma familia exponencial canonica com funcoes hax TAGs i1 Trx 2 Tx i1 Ann nAn Example 11 A distribuicao de Poisson com média 6 0 tem pdf em Y N dada por oxe Reescrevendoa como 1 fx xl expx log 6 6 temos uma familia exponencial unidimensional com BO 8 n log 1 hx xl Tx x Tomando 7 log a forma canonica é 1 qxin 5 expixn expn Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 13 of 20 com A expn 1 hx x Tx x Uma vantagem pratica da forma canonica é dada a seguir Proposition 1 Considere uma familia exponencial canonica kdimensional com aplicacao Tx e funcoes hx e An Se X P entao ETXAn ValTX An onde An VAn e An denota a Hessiana de A em n Prova Daremos uma prova apenas para 0 caso k 1 Recorde que a funcao geradora de momentos de uma variavel aleatoria T é definida por Rsts M7s Eee A seguir invocaremos um resultado classico de probabilidade M0 ET M0 ET No nosso caso T TX Note que Mrs x exols nT Anex expAs n Al hx expls n Tx Als nex expAs 7 An onde usamos que a Ultima integral é igual a 1 ja que é a integral de uma densidade Portanto Ms expAs n AnAs 0 Mys expAs 7 An As As 0 Temse que ET M10 An e ET MZ0 An An Como VT ET ET provamos o enunciado da proposicao C Retornaremos a este ponto quando mostrarmos que TX é uma estatistica suficiente para uma familia exponencial Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 14 of 20 Example 12 A distribuicao de Rayleigh tem pdf x 04 0 fx x6 expx267 Podemos reescrever fx x exp ae log 6 26 Tomamos hx x Tx x n 126 e An log 6 log2n Usando a proposicao anterior temos que EX 1n 26 e VX 1n 46 O calculo direto 6 mais complicado Sem entrar em muitos detalhes agora podemos salientar algumas importancias da familia expo nencial 1 E uma familia bem regular em que o MLE é bem definido e 6timo isto é o melhor es timador no sentido de ter menor variancia Isto se deve pela concavidade da funcao de logverossimilhanca no parametro canonico Esta concavidade também implica que o MLE pode ser computado mais facilmente para familias exponenciais 2 Esta familia surge naturalmente quando estudarmos suficiencia de estimadores 3 Possuem uma forma especial de conjugadas da distribuicao a priori 4 Elas permitem definir uma classe de modelos estatisticos chamados Modelos Lineares Gener alizados dentre eles inlcuimos regressao logistica 72 MLE para familias exponenciais Dicutiremos sem prova muito precisa porque o MLE para familias exponenciais é bem definido sobre condicoes razoavelmente gerais A seguir seja uma familia exponencial canonica kdimensional com aplicacao Tx e funcoes hx e An fxn hx exp n Tx An Assuma que 0 conjunto de parametros canonico é aberto e convexo Temos que xn log hx n Tx An Note que o termo log hx ndo influencia o calculo do parametro Derivando Vnexn Tx VAn 1 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 15 of 20 Derivando mais uma vez temos pela Proposicao 1 que para k FUN py PA 9 Cova TX THX Cov7X T AniOn AniOn Concluimos que a Hessiana de 7 xn simétrica naopositiva definida portanto n xn Gma funcao concava O mesmo argumento funciona para uma amostra lid X XX para a funcao de logverossimilhanca X7 Hipotéses suficientes para que uma funcao concava definida num conjunto convexo tenha maximo global é que o seja limitado ou que a funcao seja coerciva Para uma funcao concava todo maximo local é global Um funcao estritamente concava no caso em que a Hessiana é negativa definida pode ter ao menos um maximo neste caso o MLE unico Recomendamos como leitura extra a secao 23 do livro 2001 Peter J Bickel Kjell A Doksum Mathematical Statistics Basic Ideas and Selected Topics Vol 1 No caso em que 7 Xn tem um maximo 4 isto é existe o MLE a expressao do gradiente em 1 e a Proposicao 1 permitem expressar uma equacao para obter 7 De fato para obter o maximo global basta derivar e igualar a zero Recordando o Exemplo 11 n 0 VnXn TrX VAnn 57 Xi ng TX i1 isto o MLE do parametro canonico verdadeiro n a solucao em 7 de 1 n SOT Xi EnlTX i1 Este sistema de equacoes as vezes chamado de equacoes de Iikelihood Example 13 Considere a distribuicao Gamma de parametros positivos a 6 Brxe fxa B e xlo8 FT 1 x Ox ta log x Bx alog 6 logla Temos entao que n n TX Sot Xi i1 i1 Podese mostrar que Eq logX a logB onde w denota a funcao digamma Temse também que Eva X aB 1lsto quer dizer que a funcao tende a oo para pontos que tendem ao infinito l1Note que isto uma versao generalizada de um método de momentos Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 16 of 20 Concluimos que o MLE pode ser obtido resolvendo o sistema n 5 log Xi nlya log 6 i1 n So Xi naB i1 obtendo 1 n 7 S log X log X Wa loga i1 Qa B xX Podemos resolver numericamente Pergunta voce pode comparar esta solucao com a solucao para obtida pelo método de momentos C 73 Computacao numérica e o algoritmo EM 731 Método de Newton Em alguns casos o MLE 6 pode ser computado analiticamente Mais comumente o MLE deve ser resolvido numericamente Um método classico de otimizacao numerica o Método de Newton Este método é estudado com detalhes num curso de métodos numericos de otimizacao Damos aqui apenas uma breve motivacao informal A seguir usamos a notacao simplificada da funcao de logverossimilhanca 8 0X Considere o caso unidimensional Sendo um maximo temos que 6 0 Dado iterado 6 pela formula de Taylor 0 6 6 6 0 e6 Portanto Lo8 6x6 ee 0t Isto sugere o seguinte método Iterativo gttl gt 8 8t No caso multidimensional podese generalizar tal método como ott 9t H16V26 onde H6 define a Hessiana de no ponto 6 assumindo que ela é naosingular na trajetoria do algoritmo Veja também paginas 428430 do livro texto Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 17 of 20 732 Algoritmo EM O algoritmo ExpectationMaximization EM um algoritmo usado para computar MLE de uma familia de pdfs fy parametrizada em 6 que tem a seguinte forma Fxie Fl yi8ay 2 onde fx y a pdf conjunta nas variaveis x y parametrizada em 9 Em outras palavras o modelo de interesse vem da distribuicao marginal de uma distribuicao conjunta A variavel x modela o dado observado enquanto que a variavel y modela dados fatantes ou atentes Infelizmente computar a integral é extramente dificil mas assumimos que é facil computar fx y Na Secao 4 em que motivamos a construcao do MLE vimos que o parametro verdadeiro 6 pode ser computado maximizando a funcao fX O M Eg log D68 3 8 Be log FTE 006I 3 onde D60 Df6F o divergente de KullbackLeibler entre f6 e f In felizmente no nosso caso nao podemos nem computar fx0 apesar de termos disponivel a pdf conjunta fx y O Algoritmo EM é iterativo e portanto se inicia com um iterado 9 de escolha Na primeira fase da iteracao Expectation step dado um iterado anterior 6 computamos a funcao fx Y 6 M60 Eo lo aan x t Or g fx YO Conforme acima computamos o valor esperado na variavel faltante Y condicionalmente a variavel observada X na distribuicao condicional fyx com parametro 6 Na segunda fase da iteracao Maximization step tomamos o proximo iterado resolvendo o problema de maximizacao O41 argmax M66 6 Remark 2 Note que M60 Eo log Fx 6x x Ky log Fx Y 164X x Como o segundo termo nao depende de na verdade é equivalente na segunda fase maximizar a funcao J60 Eo log Fx 9x x O 12Compare com 3 no caso em que temos disponivel fx Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 18 of 20 A seguir enunciamos um resultado afirmando que a sequencia de iterados do algoritmo EM nunca diminui a funcao de logverossimilhanca original x log fx Isto da uma indicacao de porque o algoritmo EM funciona em uma vasta classe de problemas Theorem 7 Seja 8 a sequencia de iterados do algoritmo EM Entao x611 x0 para todot 012 Prova Recorde que fx y0 fyx fx onde denotamos por fyx a pdf de Y condi cional a X no parametro Portanto fx y Me6 log f 91d 618 f tog Ervin 8edy Fx fF yx 8 lo fyx 0 d 109 zea Fey any O8Y Fyx 8 log fx log Fx log f 0 09 f x18 log Fxl6e f toa EX Fix Body x6 x D Fx BeITFC x 8 Temos sempre que D fx 0fx 0 Como 64 maximiza M66 temos que M 624194 M06 0 Concluimos do display anterior que x041 x6 O Remark 3 O argumento anterior 6 o mesmo se utilizamos a amostra observada X X1 Xn e a amostra latente Y Y1 Y Notemos que em varios casos como no exemplo a seguir podemos computar explicitamente a funcao J60 Alem disso assim como feito no caso do estimador MLE podemos tambem utilizar umaa versao empirica J00 da funcao J66 Example 14 Mistura de normais Seja xu0 a pdf de uma normal Nu07 A pdf de uma mistura de normais N to 06 N 1 07 tem a forma fy 1 pOxHo 0 POXH1 01 para algum p 01 Neste modelo a ideia 6 que os dados sao amostrados de uma normal com probabilidade p e da outra normal com probabilidade 1 p entretanto nao sabemos de qual normal amostrada O parametro é 6 Uo Oo Mi 01 P a funcao de verossimilhanca com dados Xj Xp é G 2 bXiu0 00 PbXiHa 01 i1 Maximizar esta funcao é bem dificil Equivalentemente podemos completar este modelo usando uma variavel latente Y com distribuicao Bernoullip tal que Z 0 se escolhemos N Uo 09 Z 1 se escolhemos NV 1 07 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 19 of 20 A seguir assumiremos por simplicidade que sabemos p 12 09 0 1 de forma que O parametro é 6 Uo U1 Observamos a amostra X1X associamos correspondente mente a amostra nao observada Yj Y Veremos a seguir que a funcao verossimilhanca do dado completado X1Y1Xn Yn mais facil de computar e usaremos isso no algoritmo EM Sabemos entao que X N uo 1 dado que Y O e X N 11 dado que Y 1 A seguir iremos omitir a dependencia no parametro Uo 41 para simplificar a notacao Em outras palavras FxY 0 xMo 1 e FXY 1 OxH1 1 Alem disso fy PY y 12 para y 0 1 Podemos escrever 1 Fx FV FOdY SOCxHo 1 xl Ha 1 de modo que a funcao de verossimilhanca conjunta ignorando fatores constantes é n FX Y oXiluo 1 OXisba 1 i1 e portanto a funcao de logverossimilhanca conjunta é 1d 1 XY 5 1 i bo 5 1 Xi ta Concluimos que 1 1d 10818 DL Boe VPA i to 5 DCL Bor fD 6 oa i i Para ter uma expressao explicida da funcao acima temos que computar EgYX Po 1X Para tanto usamos o Teorema de Bayes4 fXIY 16PY 1 Pgt 1X FXY 1 6PY 1 FXIY 0 6PY 0 oXilut 15 OXius 15 Xu 15 a PXilMG 1 XiH4 1 13Uma das razoes de porque podemos computar J6 que temos a expressao da distribuicao da variavel latente Y e das distribuicoes de X condicionalmente a Y usando o Teorema de Bayes Na segunda igualdade usamos que fXY y 6 fXi y O Tyz FX18 JA que podemos assumimos que Xi Yidietn é iid Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 20 of 20 Derivando 6 J6 separadamente em relacao a Lo 1 igualando a zero obtemos t 145 44 dados pelas médias ponderadas yitt iat Te Xi iar Te yitt ia Tr1Xi Via 7e7 LJ Convidamos ao leitor para ler as paginas 434439 do livro texto incluindo os exemplos 7615 e 7616 Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 5 Aula Distribuicoes a priori e a posteriori distribuicoes a priori conjugadas Contents 1 Objetivos da aula 1 2 Distribuicoes a priori e a posteriori predicao Bayesiana 1 3 Distribuicoes a priori conjugadas 3 4 Distribuicoes a priori improprias 5 1 Objetivos da aula Definir e exemplificar distribuicoes a priori e a posteriori e como fazer predicoes via o ponto de vista Bayesiano Definir e exemplificar distribuicoes a priori conjugadas Breve discussao sobre distribuicao a priori improprias 2 Distribuicoes a priori e a posteriori predicao Bayesiana Nestas notas iremos estudar o ponto de vista Bayesiano para estimacao Recorde que no ponto de vista frequentista θ Θ não é uma variável aleatória f θθΘ representa uma classe de distribuicoes parametrizadas por cada θ fixo chamadas de funcoes de verossimilhanca É assumido a existencia de um parametro verdadeiro θ assumido fixo e que os dados isto é uma amostra iid Xiin vem da distribuicao com pdf f θ No modelo Bayesiano assumimos a existencia de uma distribuicao ξ sobre o conjunto de paramet ros Θ isto é o parametro não é fixo mas uma variável aleatória com valores em Θ e distribuicao ξ A distribuicao conjunta em X Θ é denotada por f x θ e f xθ isto é a funcao de verossimilhanca denota a distribuicao sobre X condicional a θ Formalmente Definition 1 Distribuicao a priori e a posteriori Um modelo Bayesiano paramétrico consiste numa distribuicao com pdf ξθ sobre Θ denominada distribuicao a priori e numa familia de densidades F f θ θ Θ Prepared by Philip Thompson on August 10 2023 Aula Distribuicoes a priori e a posteriori distribuicoes a priori conjugadas Page 2 of 5 denominadas funcoes de verossimilhanca estas definem a distribuicao sobre X condicional a Neste modelo assumese que uma amostra Xjicn com valores em lid condicionalmente a dado e que a pdf condicional amostrada é f A distribuicao de condicionalmente 4 X Xjien denotada por X chamada distribuicao a posteriori Theorem 1 Teorema de Bayes Referente 4 Definicao 1 temos FxE Fa 8 FxnlE8 8x Aa oe ee gx gx Alem disso gx f fxEd8 Como o denominador gx nao depende de usase a notacao 0x fxE8 Prova Sabemos de um curso de probabilidade que fx0 fx De forma analoga fx 8 8xgx onde g é a pdf marginal de X Portanto segue que fxE8 0x OP glx Também foi visto num curso de probabilidade que a pdf marginal gx fx dé Como Xjien lid condicionalmente a 6 segue que fx fx1 Fxn8 L A distribuicao a priori assumida ou conhecida ela modela o conjunto de parametros antes de qualquer observacao de dados A distribuicao a posteriori 6 desconhecida e busca modelar a informacao atualizada do parametro apos a coleta de dados A funcao de verossimilhanca modela a distribuicao condicional dado 6 O Teorema de Bayes dizque a menos de um fator normalizador a pdf a posteriori 6 a pdf de verossimilhanca vezes a pdf a priori Example 1 Exemplo 726 Falta eR ERE KE A seguir introduzimos uma maneira de computar a distribuicao a posteriori de forma sequencial isto dtil case os pontos amostrais sdo revelados um a um Note que como Xjficn lid condicionalmente a 0 EOX1Xn x EO FOG Xn9 0fx Xp18 FXn0 ox Ox1 Xp Fx 8 Assim podemos atualizar a distribuicao a posteriori sequencialmente EAx1 x 0 Fx18 Ox1 X2 x 8x1 x21 EOX1 X2 3 a EOx1 Xo F0e8 EOxX1 Xn o EOX1 Xn1 Xn Aula Distribuicoes a priori e a posteriori distribuicoes a priori conjugadas Page 3 of 5 Na metodologia Bayesiana a obtencao da distribuicao a posteriori um dos principals objetivos para estimacao Podese fazer predicao para dados de teste isto novos dados amostrados a partir da distribuicao posteriori que é construida a partir dos dados amostrados anteriormente De fato se temos a distribuicao a posterior 0x1 Xn construida com dados xien Xnt41 UM dado fresco entao PXn411 Ax1 nae Xn FXn418 X1y ee XnEOX1 ne Xn f Xn i AEOX1 Xn onde usamos que Xp41 independente de xX condicionalmente a Portanto Bl nesin 0 f BG mnea Bs Xo fF ses10E0a 1 d8 que pode ser calculada usandose a distribuicao a posteriori 6xX a funcao de verossim ilhanca fXp41 para o dado fresco Xp41 Veja o Exemplo 7218 para a aplicacao deste método 3 Distribuicoes a priori conjugadas No método Bayesiano temos que definir a distribuicao a priori Dada uma classe de funcoes de verossimilhanca se a distribuicao a posteriori pertence 4 mesma classe de distribuicoes entao dizemos a classe de distribuicoes a priori conjugada Formalmente Definition 2 Fixe uma classe de distribuicao de verossimilhanca f Seja uma classe de dis tribuicoes com pdfs DIGPrH Vy G0 Re f g9648 1 parametrizadas por chamados de hiperparametros Dizemos que 5 Vg define uma classe de distribuicoes a priori conjugadas se para toda amostra X lid de f condicionalmente a 0 e toda pdf a priori Ey Vg temse que a pdf a posteriori correspondente 40X FXO Vgx para algum GX A seguir descreveremos a classe de distribuicoes a priori conjugadas para quando a funcao de verossimilhanca Bernoulli cuja conjugada é a distribuicao Beta Poisson cuja conjugada é a distribuicao Gamma Normal cuja conjugada é a distribuicao Normal e Exponencial cuja conjugada a distribuicao Gamma Recomendamos a leitura dos Exemplos 7317312 e a aplicacao da computacao da distribuicao a posteriori para desenhar experimentos a partir de amostragem Aula Distribuicoes a priori e a posteriori distribuicoes a priori conjugadas Page 4 of 5 Theorem 2 Bernoulli Seja X X am amostra lid de f0 Bernoulli condicionalmente ae01 Suponha que a pdf a priori Betaa B com a6 0 Entao a pdf a posteriori 6X Betaa S77 X6 n Yy Xi Prova Veja Exemplo 583 de DeGroot LI Theorem 3 Poisson Seja X Xj am amostra tid de f Poisson condicionalmente a 6 0 Suponha que a pdf a priori 8 Gammaa B com a6 0 Entao a pdf a posteriori 6X Gammaa 377 Xi 6 n Prova Seja S X Temos para 0 FX0 x e 6 E0 x 0 te PP Portanto pelo Teorema de Bayes E8X ox EB FXO x XFS te OH que define uma pdf Gamma a yor Xi B n a menos de um fator de normalizacao C Theorem 4 Normal Seja X X am amostra iid de f N6 07 condicionalmente a assumindo que 0 0 é conhecido Suponha que a pdf a priori 8 N Uo 0 Entao a pdf a posteriori O7Ug noZX 7709 61X NV onop 0no6 Prova Usando que X 6 n Xn 37 X Xn temse que 1 2 fn 7 2 FX oc exp sis x 6 x exp s56 X Temos tambem que 1 2 8 x exp 292 8 po Segue pelo Teorema de Bayes que 1 nX 8 Uo OX oc FXIAE x exp 5 CS Coe o 0 Definindo O Uo NOEXn M1 a7 o NOG oo8 a o NOG Aula Distribuicoes a priori e a posteriori distribuicoes a priori conjugadas Page 5 of 5 temos apos completarse os quadrados nXn bo 1 n Y SO 8 pt 5X Uo o2 a8 g L1 a2 4 nop n Lo Concluimos que E8X cc exp 558 ma a menos de um fator de normalizacao nao dependente em Isto conclui a prova L Theorem 5 Exponencial Seja X X am amostra lid de f Exponencial condicional mente a 0 Suponha que a pdf a priori 8 Gammaa B com a6 0 Entao a pdf a posteriori X Gammaa n 6 sumXj Prova Veja prova do Teorema 734 a prova é similar as anteriores L 4 Distribuicoes a priori improprias Considere por exemplo o caso em que fx Bernoulli e tomamos a pdf a priori constante 6 1 Podese mostrar que a pdf a posteriori é pK BetaS7 Xi 1n 07 Xi 1 Dizemos que 1 uma flat prior por ser a funcao constante ela expressa desinformacao sobre o parametro Poderiamos utilizar 0 mesmo raciocinio para o caso em que fxu0 Nu07 com o 0 conhecida Entretanto a pdf a priori fw c para alguma constante c 0 ndo é bem definida ja que f fwdu co Entretanto se ainda assim usarmos o Teorema de Bayes formalmente concluimos que uX NX07n notando que a estimacao obtida coincide com o modelo frequentista Dizemos neste caso que fz c define uma distribuicao a priori impropria Desde que o resultado do Teorema de Bayes defina uma distribuicao a posteriori bem definida distribuicoes a priori improprias podem ser usadas Veja exemplos 73137316 do Livro Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 9 Aula Suficiencia Admissibilidade e Informacao de Fisher Contents 1 Objetivos da aula 1 2 Estatistica Suficiente 1 3 Estatistica de ordem é suficiente 4 4 Teorema de BlackwellRao Suficiencia e Admissibilidade 4 5 Informacao de Fisher e Desigualdade de CrámerRao 6 51 Normalidade assintotica de um estimador eficiente 8 52 Desigualdade de CramérRao revisitando normalidade assintotica de MLE 9 1 Objetivos da aula Iremos definir estatistica suficiente e suficiente minima Teorema de Fatorizacao para caracterizar uma estatistica suficiente e aplicacao deste teorema para familias exponencias Relacionar esta tistica suficiente com um criterio de performance de estimadores chamado Admissibilidade via o Teorema de BlackwellRao Introduzir o conceito de Informacao de Fischer e como ele se relaciona com a variancia de estimadores desigualdade de CrámerRao TCL para estimadores eficientes e comparacao com TCL para o MLE que nem sempre é eficiente 2 Estatistica Suficiente Na busca de estimadoresestatisticas a partir de uma amostra num modelo estatistico f xθ é intuitivo perguntarnos qual estatistica contem toda a informacao dos dados isto é qual é suficiente Por exemplo dada amostra X é de esperar que a estatistica TX X contenha toda informacao da amostra Mas talvez para certos modelos estatisticos haja uma estatistica suficiente mais enxuta Exemplifiquemos com o seguinte exemplo Example 1 Seja o modelo f xθ Nµ σ2 com parametro θ µ σ2 Recordemos que a funcao de verossimilhanca pode ser reescrita em termos da media empirica x e variancia empirica s2 x Prepared by Philip Thompson on August 10 2023 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 2 of 9 da amostra x X1 Xn 1 nS2 nX f Ul 0 ay oo 352 oo 332 Note entao que a pdf fxw a depende da amostra x somente via Tx 71x Tox onde T1x X e Tox S Sendo mais precisos se definamos a pdf 1 nts nt 1 t t as qt talu 7 o Vom oo sez e0 G2 temse que qT x fx0 Notemos tambem que a verossimilhanca fx com parametro 6 poderia ser recuperada por qT x se tivessemos apenas qT x Cxfx para algum fator Cx de normalizacao independente de 8 A seguinte definicao formaliza as observacoes do exemplo anterior Definition 1 Estatistica suficiente Seja um modelo estatistico com pdfs de verossimilhanca fx Uma estatistica Tx é dita suficiente se para todo 0 a distribuicao condicional XT X no parametro 6 tem pdf da forma fxT x hx onde h é uma funcao independente de O resultado a seguir justifica a definicao conforme o exemplo anterior Theorem 1 Teorema de Fatorizacao para suficiencia Seja um modelo estatistico com pdfs de verossimilhanca fx Uma estatistica Tx é suficiente se e somente se existem funcoes gt e hx independente de tal que para todo 6 e todo x Fx hxgT x8 1 Prova Provamos apenas no caso discreto Seja qt a pdf de T e fxTx a distribuicao condicional X7X no parametro 6 Temos que FxT x 0 PoX xTX Tx PeX x TX Tx PeTX Tx PoX x PoT X Tx f x gTx6 2 qT x Suponha primeiro que Tx é suficiente Temse para alguma funcao hx independente de que hx fxT x e a afirmacao seque de 2 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 3 of 9 Suponha agora que vale 1 nao podemos afirmar a principio que qt gt Temos que qT xO PoTX Tx S PeX y yTyTx do fy yTyTx So AtygTyI yTyTx 9Tx YS Aly yTyTx Temos entao que f x fxT x 8 aT x8 hx gT x8 gTx yy Tx hy hx dey tyrx MY que mostra o resultado Ja que a razao acima é independente de C O Teorema de Fatorizacao implica imediatamente uma estatistica suficiente de uma familia exponencial de distribuicoes Corollary 1 Familia Exponencial Seja familia de distribuicoes Peece sobre X com C RK dada por uma familia exponencial kdimensional com aplicacoes n R eT X RK e funcoes BO4Reh X R Isto é a pdf para cada 8 é dada por f x hx exp n Tx B x A Entao a estatistica TX é suficiente Prova Basta tomar gt expnt B C Pelo Teorema da Fatorizacao nao é dificil mostrar quea identidade e qualquer composicao de uma estatistica suficiente com uma aplicacao bijetiva é também suficiente Ha portanto infinitas estatisticas suficientes Qual a menor Example 2 Recorde o Exemplo 1 Vimos que 7X X e T2X X Sx sao suficientes T3X X Sx X3 também é suficiente Mas para caracterizar a pdf fXu0 vemos que Ty e T3 sao redundantes quando comparadas a 7 notando que T é funcao de T e de T3 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 4 of 9 A definicao a seguir formaliza reduzir ao maximo uma estatistica suficiente Definition 2 Estatistica suficiente minima Uma estatistica é suficiente minima se i é suficiente é li funcao de qualquer outra estatistica suficiente Theorem 2 Seja um modelo estatistico com pdfs de verossimilhanca f x Uma estatistica T x é suficiente se para todos xy f x 0 éconstante TxTy 3 fy Prova Veja prova do Teorema 6213 em Casella e Berger Statistical Inference LJ Remark 1 Para o leitor interessado leia a Secao 624 de Casella e Berger Statistical Inference sobre os conceitos de ancillary statistics e estatistica completa e como estes se relacionam com suficiencia e suficiencia minima 3 Estatistica de ordem suficiente Dada uma amostra X a estatistica de ordem 0 vetor X Xj cujas coordenadas definem o arranjo naodecrescente de X isto é Xa LX ea S LX Theorem 3 A ordem estatistica é suficiente Prova Veja Teorema 782 do DeGroot LI Remark 2 Um resultado interessante que um modelo com verossimilhanca igual a distribuicao de Cauchy qualquer suficiencia estatistica dada pela composicao de uma aplicacao bijetora com a estatistica de ordem 4 Teorema de BlackwellRao Suficiencia e Admissibilidade Suficiencia uma metodologia para reduzir os dados sem perder informacao Até agora nao apresentamos nenhuma relacao entre suficiencia de uma estatistica e sua a performance como estimador de um parametro Em Teoria de Decisao Estatistica comparamos estimadores comparando seus riscos Por exemplo 0 risco quadratico médio MSE de um estimador 6 de um parametro é definido como R6 6 Ee 6 E natural pensar que referente a um parametro 6 um estimador é melhor do que outro se tem um menor MSE em Entretanto como nao conhecemos o parametro verdadeiro uma definicao Aula Suficiencia Admissibilidade e Informacao de Fisher Page 5 of 9 deste tipo deve englobar todo o o conjunto de parametros No contexto destas notas um tipo de criterio de performance de estimadores a Admissibilidade Definition 3 Admissibilidade Um estimador é dito inadmissivel se existe outro estimador 6 tal que 1 R206 R26 6 V8 2 R266 R6 6 for some 8 Um estimador é dito admissivel se nao é inadmissivel O resultado a seguir relaciona suficiencia e admissibilidade Theorem 4 Teorema de BlackwellRao Seja um estimador 6X e seja TX uma estatistica suficiente Defina a estatistica GoX E8XT X 4 Entao 1 R20 80 R20 6 VO 2 Suponha que 6X nao é funcao de TX Entao R69 R28 para algum tal que Ro00 oo Em outras palavras para que um estimador seja admissivel ele deve ser funcao de uma estatistica suficiente acima note que se 6X é funcao de TX entao 6X X Prova do Teorema 4 Veja prova do Teorema 791 em DeGroot CJ A seguir damos um exemplo concreto em que é possivel computar o estimador melhorado 4 Example 3 Exemplo 792 Seja X X uma amostra iid de uma Poisson 6 0 Usando o Teorema de Fatorizacao podemos facilmente mostrar que TX X é uma estatistica suficiente Por sua vez podemos mostrar que T Poissonn logo e7 née t pT t 2 t nformalmente a eficiencia de um estimador admissivel significa que nao podemos achar outro estimador que reduza o MSE uniformemente no conjunto de parametros Veremos outros conceitos de performance de estimadores Um exemplo é 0 criterio minimax com custo MSE Para que um estimador 6 seja minimax otimo é suficiente que haja um parametro 6 tal que Ro6 6 Ro 6 Ro6 6 para todos 6 e todos estimadores 6 Como se pode ver os conceitos de admissibilidade e criterio minimax sao distintos 2Nao precisamos especificar pois a estatistica é suficiente 3De fato argumento similar vale para varias familias exponenciais Aula Suficiencia Admissibilidade e Informacao de Fisher Page 6 of 9 Defina Y 1x1 e Tj ii Xj t1 Temos que EY7 t P 1T t PX 1T t 7 PT t PX 1 ix t 1 7 PT t PX 1PT t1 7 PT t Usando tambem que 7 Poissonn 1 podemos concluir a formula para EY7 t e portanto para a Y Y e usarmos 8X EYT O Teorema 4 garante que 6X melhor do que 6X Y no sentido do item 1 CO Remark 3 Para o leitor interessado veja tambem a secoes 733 e 753 de Casella e Berger Statistical Inference sobre suficiencia estimadores naoenviesados e completude 5 Informacao de Fisher e Desigualdade de CramerRao Seja 6X um estimador Usando 0 biasvariance tradeoff podemos escrever seu MSE no parametro 8 como Ro0 Eo6 6 Vo6 Ey 6 O numero biasg6 Eg6 8 chamado viés do estimador 6 de Se Eg6 6 dizemos que 6 é um estimador naoenviesado de 6 Como discutido anteriormente estimadores com MSE menores sao considerados melhores Entre estimadores com mesmo viés a principio poderiamos melhorar o MSE se diminuissemos sua varian cia resultado a seguir da uma cota inferior na variancia de qualquer estimador assumindo condicoes de diferenciabilidade razoaveis Antes recordemos a definicao de Informacao de Fisher Assumiremos que a funcao de logverossimilhanca x log fx duas vezes diferenciavel e que fx 0 a menos de um conjunto de medida nula Definition 4 Definimos a funcao Informacao de Fisher 0eX 0 Ve 6 0 Ve EO Para uma amostra lid K Xj ien definimos a Informacao de Fisher como oeX Ve 8 6 Ve 4Idealmente gostariamos de ter viés nulo mas nem sempre isso é possivel Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 9 Aula Suficiencia Admissibilidade e Informacao de Fisher Contents 1 Objetivos da aula 1 2 Estatistica Suficiente 1 3 Estatistica de ordem é suficiente 4 4 Teorema de BlackwellRao Suficiencia e Admissibilidade 4 5 Informacao de Fisher e Desigualdade de CrámerRao 6 51 Normalidade assintotica de um estimador eficiente 8 52 Desigualdade de CramérRao revisitando normalidade assintotica de MLE 9 1 Objetivos da aula Iremos definir estatistica suficiente e suficiente minima Teorema de Fatorizacao para caracterizar uma estatistica suficiente e aplicacao deste teorema para familias exponencias Relacionar esta tistica suficiente com um criterio de performance de estimadores chamado Admissibilidade via o Teorema de BlackwellRao Introduzir o conceito de Informacao de Fischer e como ele se relaciona com a variancia de estimadores desigualdade de CrámerRao TCL para estimadores eficientes e comparacao com TCL para o MLE que nem sempre é eficiente 2 Estatistica Suficiente Na busca de estimadoresestatisticas a partir de uma amostra num modelo estatistico f xθ é intuitivo perguntarnos qual estatistica contem toda a informacao dos dados isto é qual é suficiente Por exemplo dada amostra X é de esperar que a estatistica TX X contenha toda informacao da amostra Mas talvez para certos modelos estatisticos haja uma estatistica suficiente mais enxuta Exemplifiquemos com o seguinte exemplo Example 1 Seja o modelo f xθ Nµ σ2 com parametro θ µ σ2 Recordemos que a funcao de verossimilhanca pode ser reescrita em termos da media empirica x e variancia empirica s2 x Prepared by Philip Thompson on September 6 2023 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 2 of 9 da amostra x X1 Xn 1 nS2 nX f Ul 0 ay oo 352 oo 332 Note entao que a pdf fxw a depende da amostra x somente via Tx 71x Tox onde T1x X e Tox S Sendo mais precisos se definamos a pdf 1 nts nt 1 t t as qt talu 7 o Vom oo sez e0 G2 temse que qT x fx0 Notemos tambem que a verossimilhanca fx com parametro 6 poderia ser recuperada por qT x se tivessemos apenas qT x Cxfx para algum fator Cx de normalizacao independente de 8 A seguinte definicao formaliza as observacoes do exemplo anterior Definition 1 Estatistica suficiente Seja um modelo estatistico com pdfs de verossimilhanca fx Uma estatistica Tx é dita suficiente se para todo 0 a distribuicao condicional XT X no parametro 6 tem pdf da forma fxT x hx onde h é uma funcao independente de O resultado a seguir justifica a definicao conforme o exemplo anterior Theorem 1 Teorema de Fatorizacao para suficiencia Seja um modelo estatistico com pdfs de verossimilhanca fx Uma estatistica Tx é suficiente se e somente se existem funcoes gt e hx independente de tal que para todo 6 e todo x Fx hxgT x8 1 Prova Provamos apenas no caso discreto Seja qt a pdf de T e fxTx a distribuicao condicional X7X no parametro 6 Temos que FxT x 0 PoX xTX Tx PeX x TX Tx PeTX Tx PoX x PoT X Tx f x gTx6 2 qT x Suponha primeiro que Tx é suficiente Temse para alguma funcao hx independente de que hx fxT x e a afirmacao seque de 2 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 3 of 9 Suponha agora que vale 1 nao podemos afirmar a principio que qt gt Temos que qT xO PoTX Tx S PeX y yTyTx do fy yTyTx So AtygTyI yTyTx 9Tx YS Aly yTyTx Temos entao que f x fxT x 8 aT x8 hx gT x8 gTx yy Tx hy hx dey tyrx MY que mostra o resultado Ja que a razao acima é independente de C O Teorema de Fatorizacao implica imediatamente uma estatistica suficiente de uma familia exponencial de distribuicoes Corollary 1 Familia Exponencial Seja familia de distribuicoes Peece sobre X com C RK dada por uma familia exponencial kdimensional com aplicacoes n R eT X RK e funcoes BO4Reh X R Isto é a pdf para cada 8 é dada por f x hx exp n Tx B x A Entao a estatistica TX é suficiente Prova Basta tomar gt expnt B C Pelo Teorema da Fatorizacao nao é dificil mostrar quea identidade e qualquer composicao de uma estatistica suficiente com uma aplicacao bijetiva é também suficiente Ha portanto infinitas estatisticas suficientes Qual a menor Example 2 Recorde o Exemplo 1 Vimos que 7X X e T2X X Sx sao suficientes T3X X Sx X3 também é suficiente Mas para caracterizar a pdf fXu0 vemos que Ty e T3 sao redundantes quando comparadas a 7 notando que T é funcao de T e de T3 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 4 of 9 A definicao a seguir formaliza reduzir ao maximo uma estatistica suficiente Definition 2 Estatistica suficiente minima Uma estatistica é suficiente minima se i é suficiente é li funcao de qualquer outra estatistica suficiente Theorem 2 Seja um modelo estatistico com pdfs de verossimilhanca f x Uma estatistica T x é suficiente se para todos xy f x 0 éconstante TxTy 3 fy Prova Veja prova do Teorema 6213 em Casella e Berger Statistical Inference LJ Remark 1 Para o leitor interessado leia a Secao 624 de Casella e Berger Statistical Inference sobre os conceitos de ancillary statistics e estatistica completa e como estes se relacionam com suficiencia e suficiencia minima 3 Estatistica de ordem suficiente Dada uma amostra X a estatistica de ordem 0 vetor X Xj cujas coordenadas definem o arranjo naodecrescente de X isto é Xa LX ea S LX Theorem 3 A ordem estatistica é suficiente Prova Veja Teorema 782 do DeGroot LI Remark 2 Um resultado interessante que um modelo com verossimilhanca igual a distribuicao de Cauchy qualquer suficiencia estatistica dada pela composicao de uma aplicacao bijetora com a estatistica de ordem 4 Teorema de BlackwellRao Suficiencia e Admissibilidade Suficiencia uma metodologia para reduzir os dados sem perder informacao Até agora nao apresentamos nenhuma relacao entre suficiencia de uma estatistica e sua a performance como estimador de um parametro Em Teoria de Decisao Estatistica comparamos estimadores comparando seus riscos Por exemplo 0 risco quadratico médio MSE de um estimador 6 de um parametro é definido como R6 6 Ee 6 E natural pensar que referente a um parametro 6 um estimador é melhor do que outro se tem um menor MSE em Entretanto como nao conhecemos o parametro verdadeiro uma definicao Aula Suficiencia Admissibilidade e Informacao de Fisher Page 5 of 9 deste tipo deve englobar todo o o conjunto de parametros No contexto destas notas um tipo de criterio de performance de estimadores a Admissibilidade Definition 3 Admissibilidade Um estimador é dito inadmissivel se existe outro estimador 6 tal que 1 R206 R26 6 V8 2 R266 R6 6 for some 8 Um estimador é dito admissivel se nao é inadmissivel O resultado a seguir relaciona suficiencia e admissibilidade Theorem 4 Teorema de BlackwellRao Seja um estimador 6X e seja TX uma estatistica suficiente Defina a estatistica GoX E8XT X 4 Entao 1 R20 80 R20 6 VO 2 Suponha que 6X nao é funcao de TX Entao R69 R28 para algum tal que Ro00 oo Em outras palavras para que um estimador seja admissivel ele deve ser funcao de uma estatistica suficiente acima note que se 6X é funcao de TX entao 6X X Prova do Teorema 4 Veja prova do Teorema 791 em DeGroot CJ A seguir damos um exemplo concreto em que é possivel computar o estimador melhorado 4 Example 3 Exemplo 792 Seja X X uma amostra iid de uma Poisson 6 0 Usando o Teorema de Fatorizacao podemos facilmente mostrar que TX X é uma estatistica suficiente Por sua vez podemos mostrar que T Poissonn logo e7 née t pT t 2 t nformalmente a eficiencia de um estimador admissivel significa que nao podemos achar outro estimador que reduza o MSE uniformemente no conjunto de parametros Veremos outros conceitos de performance de estimadores Um exemplo é 0 criterio minimax com custo MSE Para que um estimador 6 seja minimax otimo é suficiente que haja um parametro 6 tal que Ro6 6 Ro 6 Ro6 6 para todos 6 e todos estimadores 6 Como se pode ver os conceitos de admissibilidade e criterio minimax sao distintos 2Nao precisamos especificar pois a estatistica é suficiente 3De fato argumento similar vale para varias familias exponenciais Aula Suficiencia Admissibilidade e Informacao de Fisher Page 6 of 9 Defina Y 1x1 e Tj ii Xj t1 Temos que EY7 t P 1T t PX 1T t 7 PT t PX 1 ix t 1 7 PT t PX 1PT t1 7 PT t Usando tambem que 7 Poissonn 1 podemos concluir a formula para EY7 t e portanto para a Y Y e usarmos 8X EYT O Teorema 4 garante que 6X melhor do que 6X Y no sentido do item 1 CO Remark 3 Para o leitor interessado veja tambem a secoes 733 e 753 de Casella e Berger Statistical Inference sobre suficiencia estimadores naoenviesados e completude 5 Informacao de Fisher e Desigualdade de CramerRao Seja 6X um estimador Usando 0 biasvariance tradeoff podemos escrever seu MSE no parametro 8 como Ro0 Eo6 6 Vo6 Ey 6 O numero biasg6 Eg6 8 chamado viés do estimador 6 de Se Eg6 6 dizemos que 6 é um estimador naoenviesado de 6 Como discutido anteriormente estimadores com MSE menores sao considerados melhores Entre estimadores com mesmo viés a principio poderiamos melhorar o MSE se diminuissemos sua varian cia resultado a seguir da uma cota inferior na variancia de qualquer estimador assumindo condicoes de diferenciabilidade razoaveis Antes recordemos a definicao de Informacao de Fisher Assumiremos que a funcao de logverossimilhanca x log fx duas vezes diferenciavel e que fx 0 a menos de um conjunto de medida nula Definition 4 Definimos a funcao Informacao de Fisher 0eX 0 Ve 6 0 Ve EO Para uma amostra lid K Xj ien definimos a Informacao de Fisher como oeX Ve 8 6 Ve 4Idealmente gostariamos de ter viés nulo mas nem sempre isso é possivel Aula Suficiencia Admissibilidade e Informacao de Fisher Page 7 of 9 Vimos que Theorem 5 Temse que Eg Ses 8 O0e OLX 7 OrX 18 Es 2 5 PEN o Finalmente nl Theorem 6 Desigualdade de CramerRao Seja uma amostra lid X Xi n um modelo estatistico com verossimilhanca fx e x log fx Seja um estimador 6X tal que 1 a funcao m Ee8X é diferenciavel e m f 2 8x Fx6dx 2 V9OX oo Entao m8 6X VolAX 5 Assumindo que tanto 6X m como 6X6 sejam naonulos temse com igualdade em 5 se e somente se existe a 0 tal que A 0 a8X m8 ap eXI8 Prova Seja Z 6X eW ZX6 Do teorema anterior temos que EgW 0 Portanto O m 0 Pegg lieax 3 f X8 Ey 6x OP 0X8 E ax 2 log f X Ke 0 g EZW EoZ EZW EW CoveZ W Por CauchySchwarz CoveZW m 6X VZ Vo Vol a VW 18 onde usamos VoW conforme o teorema anterior A desigualdade de CauchySchwarz vira igualdade se e somente Z EZ aW para algum a finalizando a prova C Recorde que a menos de um conjunto de medida nula XY CovX Y define um produto interno com norma Euclidiana associada X CovX X Aula Suficiencia Admissibilidade e Informacao de Fisher Page 8 of 9 Remark 4 No contexto da Desigualdade de CramerRao estimadores de sao ditos eficientes se tem a menor variancia em 6 isto é atingem a igualdade em 5 Remark 5 Veja pg 525 de DeGroot para a versao da Desigualdade de CramerRao quando o parametro é multidimensional 51 Normalidade assintotica de um estimador eficiente Theorem 7 TCL para estimadores eficientes Considere as hipoteses do Teorema 6 Assuma que um estimador 6X é eficiente e que m 0 para todo Entao V1n0 d 6X 0 1 may 0 9 2 NO1 Prova Sabemos que para todo 6 X 5 X e portanto ax0 So eX8 i1 Do Teorema 5 temse que X9 tem média 0 e variancia Temos do TCL que 1 d EKI8 N0 1 6 nl0 Sendo 6X um estimador eficiente de média Ee4X temos do Teorema 6 que ary in9 VoOX 78 X AX m a8 para alguma funcao a 0 Tomando o valor esperado do quadrado da segunda equacao acima usando a primeira equacao e o Teorema 5 concluimos que a aes Sem perda de generali dade podemos escolher a ae e portanto ry X0 6X m6 m8 Substituindo esta expressao em 6 finalizamos a prova L Remark 6 Estes resultados também podem ser generalizados para 0 caso em que o parametro é multidimensional Veja pg 525 no DeGroot Aula Suficiencia Admissibilidade e Informacao de Fisher Page 9 of 9 52 Desigualdade de CramérRao revisitando normalidade assintotica de MLE Nem sempre o MLE eficiente no sentido da Desigualdade de CramerRao Mas recorde que mostramos a normalidade assintotica do MLE Theorem 8 Normalidade assintotica do MLE caso unidimensional Seja uma amostra lid Xifietn de Pe e seja 60MLE correspondente Sobre hipoteses apropriadas de regularidade tem se que V1n66 6 N0 1 7 Note no entanto que nas condicoes do teorema anterior o MLE é assintoticamente eficiente e naoenviesado no sentido de que a normalidade assintotica do MLE é a mesma de um estimador eficiente e naoenviesado conforme Teorema 7 Recorde que se o estimador naoenviesado m 6 e logo m 1 Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 9 Aula Uma leve discussao sobre Teoria de Decisao Estatistica Contents 1 Objetivos da aula 1 2 Preludio eficiencia do MLE 1 3 Custos e riscos 2 4 Comparando riscos 3 5 Estimador de Bayes 5 6 Estimador de Bayes com custo quadratico 6 7 MLE e a distribuicao a posteriori 7 8 Estimador de Bayes com risco constante é minimax 7 9 Algumas consideracoes finais 8 91 MLE minimax e Bayes 8 92 Admissibilidade 8 93 Suficiencia 9 1 Objetivos da aula Estas notas sao baseadas em grande parte no Capitulo 12 de Larry Wasserman All of Statistics Funcoes custo e risco de estimadores Estimadores minimax e de Bayes O estimador de Bayes com custo quadratico é a media a posteriori Relacao entre MLE e a distribuicao a posteriori Algumas consideracoes finais 2 Preludio eficiencia do MLE Vimos que Prepared by Philip Thompson on September 11 2023 Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 2 of 9 Theorem 1 Normalidade assintotica do MLE caso unidimensional Seja uma amostra lid Xiien de Pe e seja 8 o MLE correspondente Sobre hipoteses apropriadas de regularidade tem se que oN x d V 186 6 N0 1 1 Vimos que nas condicoes do teorema anterior o MLE assintoticamente eficiente e nao enviesado no sentido de que a normalidade assintotica do MLE é a mesma de um estimador eficiente e naoenviesado Suponha que X uma amostra iid 6 0 assumindo que o é conhecido Vimos que o MLE de 6 a média empirica 6 X Um outro estimador razoavel seria a mediana 6 Usando o teorema de normalidade assintotica do MLE sabemos que sob certas condicoes de regularidade Jn6 6 4 N0 02 Podese provar que a mediana satisfaz A x d wv 2 Jn 6 N0 50 Portanto assintoticamente o MLE é melhor pois possue menor variancia Em geral se temos dois estimadores 7 e U satisfazendo wy d VnT 6 N0 t xy d VnU 6 N0 u definimos a razao assintotica relativa de U sobre T como AREU T tu Theorem 2 Sob certas condicoes de otimalidade se 6 denota o MLE e 6 qualquer outro estimador ARE6 0 1 Portanto o MLE tem a menor variancia assintotica e dizemos que ele é assintoticamente eficiente ou otimo Recordando as observacoes da aula 6 notemos que esta discussao esta relacionada a eficiencia referente ao risco quadratico medio MSE de um estimador mas num sentido assintotico Obser vamos também que o MLE assintoticamente eficiente assumindo que 1 0 modelo é correto 2 o MLE é bem definido e 3 determinadas hipoteses de regularidade se satisfazem 3 Custos e riscos A Teoria de Decisao estatistica tenta formalizar criterios para comparar estimadores de modo a escolher o melhor Para tanto definese o risco de um estimador associado a uma funcao custo 1De fato o MSE a soma da variancia mais 0 vies ao quadrado por exemplo estimadores eficientes nao enviesados tem variancia é igual a 1 Além disso se o estimador é consistente seu bias tende a zero quando n oo Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 3 of 9 Exemplos de funcao custo L66 06 L66 4 L66 6 Definition 1 O risco médio de um estimador 6 associado a uma funcao custo L 6 a funcao 6 R6 6 EoL6 6 H08x10ax Recorde que quando o custo é quadratico L temos o MSE R6 6 Eo0 6 Vo6 bias3 4 4 Comparando riscos A funcao de risco pode ser utilizada para comparar estimadores Entretanto seu valor geralmente depende do valor do parametro Example 1 Seja X uma amostra iid Bernoullip Tomaremos a funcao custo quadratico Para o estimador 6 X temos que seu vies nulo logo o Pp1 Rp Ps VpXq PP Um outro estimador é a Pao 64n onde S 7 X a B sao constantes positivas2 Temos Rp B2 VpX2 biass 62 Sa Sa v biasz s2555 lasg 2 np1 p 4 npa p a 6 n aBn Tomando a 6 n4 temos Strn4 n Rp p2 p 2 An 4 Jn De fato fo a média a posteriori quando a distribuicao a priori é Betaa B Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 4 of 9 Como nenhum dos riscos Rp 61 e Rp 62 domina o outro sendo um maior do que o outro dependendo do valor de p 0 1 ad QB P Oo Isto mostra que necessitamos de criterios para comparar funcoes de risco A seguir daremos dois criterios Definition 2 Risco maximo e risco de Bayes O risco maximo o numero R6 sup R 8 O risco de Bayes para um pdf a priori 8 o numero re0 R6 60d8 3 Example 2 Considere o Exemplo 1 Temos plp 1 R max Pr pe0 1 n 4n n R po Po Foy np Portanto R62 R6 Entretanto quando n é grande Rf é estritamente menor do que Rf2 a menos de um intervalo bem pequeno em torno de p 12 Por isso 6 costuma ser preferido a fo Isto mostra que um criterio envolvendo apenas um valor como o criterio minimax nao é perfeito Calculemos o risco de Bayes com pdf a priori constante p 1 Temse n p1 p 1 lr Rppidp dp P1 p Pdp dp P Rp bad if é P2 PD Poap An n 3Isto 0 risco médio segundo a pdf Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 5 of 9 Para n 20 refo refi sugerindo preferencia por 6 Entretanto isto depende da pdf a priori escolhida apesar de sua imperfeicao o criterio minimax independe desta escolha C Definition 3 Criterio minimax e criterio de Bayes Um estimador 6 satisfaz o criterio minimax ou simplesmente é o estimador minimax se ele minimiza o risco maximo Isto é se R6 minsup R 6 6 86 onde o infimo é tomado sobre o conjunto de todos os estimadores 6 Dada pdf a priori um estimador 6 satisfaz o criterio de Bayes ou simplesmente é o estimador de Bayes se ele minimiza o risco de Bayes isto é se re8 min 6 6 onde o infimo é tomado sobre o conjunto de todos os estimadores 6 5 Estimador de Bayes Seja um modelo Bayesiano com pdf a priori e verossimilhanca fx onde fx fxOE é a pdf conjunta de x Recorde que pelo Teorema de Bayes a pdf a posteriori é dada por fx8 8x gx onde gx fx d a pdf marginal de X Definition 4 Risco a posteriori e estimador de Bayes O risco a posteriori de um estimador 6 6X associado a funcao custo L e pdf a priori é a funcao mensuravel xK re8x x L 6 6xE6xd0 Theorem 3 Calculando 0 estimador de Bayes via o risco a posteriori Considere a definicao anterior Temse 1 O risco de Bayes de um estimador 6 satisfaz re6 f re6xxgxdx 2 O estimador de Bayes x 6x satisfaz para todo x 6x argmin L 6 6xd EL6 6X x 2 6cO Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 6 of 9 Prova Usando o Teorema de Fubinni temos que re0 R6 6dé L8 AxFxleax dé re 6xFx0fdxd re 6x Fx dxd 006 6xaxdxa0 L8 Ax 61x28 gxdx 6 aDax provando o Item 1 Seja x x satisfazendo 2 O item 2 segue do item 1 ja que para todo estimador x 6x 108 0x40 ofa 3 0680 ex48 oceyax 4 r6 5 mostrando que 6 é 0 estimador de Bayes LJ 6 Estimador de Bayes com custo quadratico O Teorema 3 fornece um método de computar o estimador de Bayes via a distribuicao a posteriori Nem sempre esse método é pratico Quanto o custo é quadratico temos uma formula fechada Theorem 4 Suponha o custo quadratico L Entao o estimador de Bayes é dado pela média a posteriori 6x seex00 Prova Dado x a condicao de primeiraordem do problema de minimizacao 2 na variavel 6 implica 2 6 6x6xd 0 Usando que f xd 1 concluise a prova L 4 Aqui assumimos que podemos inverter a ordem de integracao com a derivacao Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 7 of 9 Remark 1 Podese mostrar também que com custo L o estimador de Bayes é a mediana a posteriori Example 3 Iremos justificar a construcao do estimador 62 do Exemplo 1 Pelo Teorema 2 da aula 5 Bernoulli com a conjugada a priori Betaa GB tem posteriori Beta temos que 6X Betaa S8nS Recorrendo a formula da média de uma distribuicao Beta segue do Teorema 4 que o estimador de Bayes é aS aS Bo 60Xdé8 A a Pe ee aS6nS a6Bn Example 4 Seja X X iid N07 com o conhecida Usemos uma a conjugada a priori N lo 0 Do Teorema 4 da aula 5 e Teorema 4 segue que o estimador de Bayes é OU NOGXn oF nop MLE e a distribuicao a posteriori Recorde que o estimador de Bayes com custo quadratico é a média a posteriori Note que quando n oo as médias a posteriori dos Exemplos 3 e 4 tendem ao MLE respectivamente Sn e X Este resultado vale mais geralmente Theorem 5 Seja X Xjien iid de Pe Denote por 6 6X o MLE e por 6 8X a média a posteriori com pdf a posteriori X Seja Z variavel aleatoria tal que ZK X Sobre determinadas hipoteses de regularidade condicionalmente a X A 1 Z4N nl6 5 ff P P Em particular 8 0 e686 Veja enunciado do Teorema 115 de Larry Wasserman All of Statistics e pgs 412413 e 524525 do DeGroot 8 Estimador de Bayes com risco constante é minimax Theorem 6 Seja a pdf a priori e o correspondente estimador de Bayes 6 Se R66 6 VO entao 6 é minimax Em particular se R6 c para todo entao 6 é minimax Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 8 Aula Distribuicoes amostrais clássicas χ2 t e F Contents 1 Objetivos da aula 1 2 Distribuicao χ2 2 3 Distribuicao t 4 4 Distribuicao F 6 5 Apendice 7 51 Prova do Teorema 2 7 52 Prova do Lemma 1 8 1 Objetivos da aula Nessas notas veremos a definicao e propriedades da distribuicao de estatisticas classicas da amostra de dados X Xin i1 de uma normal Sao elas a distribuicao χ2 n distribuicao Student tn e a dis tribuicao Fn1n2 homenageando Fischer Veja as Secoes 8284 e 97 do livrotexto Futuramente veremos porque estas estatisticas sao importantes ao construir intervalos de confianca e testes de hipóteses Resumidamente se Y χ2 n entao Yn é a distribuicao da variancia amostral de uma amostra de tamanho n Ela surgirá quando fazermos inferencia ao estimar a variancia populacional de uma normal a distribuicao tn é a distribuicao da média amostral mas padronizada utilizandose a variancia amostral ao invés da variancia populacional Ela será utilizada quando fizermos inferencia ao estimarmos a média populacional de uma normal nao sabendo a variancia populacional a distribuicao Fn1n2 é a distribuicao da razao de duas variancias amostrais advindas de duas amostras independentes a primeira de tamanho n1 e a segunda de tamanho n2 A utilizare mos quando fizermos inferencia referente à comparacao entre duas normais Prepared by Philip Thompson on September 10 2023 Aula Distribuicoes amostrais classicas x t e F Page 2 of 8 2 Distribuicao x7 A funcao gamma 000 R é definida por Fa te tedt 0 Uma distribuicao que tem densidade a menos de uma transformacao linear e normalizacao da forma da funcao gamma é chamada de distribuicao gamma Definition 1 Distribuicao Gamma Seja aG numeros positivos Uma variavel aleatoria X tem distribuicao gamma com parametros a B simbolicamente la 8 se tem pdf PP yaleBx sex 0 Fxla B TO S sex 0 Definition 2 Distribuicao x7 Dado n N a distribuicao n212 é dita distribuicao x com n graus de liberdade simbolicamente x2 ou xn Em particular sua densidade é 1 f n21 x2 x Dn78T nD e x 0 Distribuigao Quiquadrado fx x ae ie L 05 I 72 k3 04 a k6 03 TG 02 01 00 0 1 2 3 4 5 6 7 A fungao densidade de probabilidade da distribuigao Veja Secao 82 do DeGroot para expressoes da média variancia momentos e funcao geradora de momentos mgf O seguinte resultado motiva probabilisticamente o porque a distribuicao x é importante Theorem 1 Se X N01 entao X x1 Aula Distribuicoes amostrais classicas x t e F Page 3 of 8 Proof Denote Y X com pdf f e cdf F Seja também e a pdf e cdf de X respectivamente Temos Fly PY yPy X y y oy Derivando e usando que y y e2r ye 12 12 1 12 y2 y Fy OU 6 Ominy LJ Finalmente o resultado a seguir motiva o grau de liberdade de uma distribuicao x7 Veja o Apendice para a prova Theorem 2 Seja X lid Np 07 Entao 37 Xi b0 xn Referente ao teorema anterior denote por X X a média amostral e S Xj X a variancia amostral Fazemos agora as seguintes observacoes e Recorde que 5X wo N01 e X 0 MLE para w quando sabemos a variancia a Podemos usar este resultado para fazermos inferencia ao estimar ws sabendo e Recorde que assumindo que conhecemos pu o MLE para estimar 0 parametro 0 Z 1X Portanto podemos usar o Teorema 2 para fazer inferencia ao estimar o sabendo LL e E claro que 0 caso mais pratico é quando o par tu 07 desconhecido Neste caso o MLE é dado pelo par X S O principal resultado desta secao sera o Teorema 3 que afirma que nS o SXX0 xn1 Em outras palavras a menos de um ponto amostral a menos fazer inferencia ao estimar 0 de uma normal com o MLE essencialmente a mesma coisa se sabermos ou nao a media populacional Precisaremos do seguinte resultado auxiliar Veja o apendice para a prova Lemma 1 Seja X R um vetor aleatorio NpZ Seja b R e matriz A R Entao AX b NAp b AXA Theorem 3 Seja X lid Nu 07 Entao 1 O par X S é independente 2 Via Xi X0 x7n 1 Em particular 0 par aleatorio nX wo nS07 tem distribuicao produto N0 1 x xn1 Aula Distribuicoes amostrais classicas x t e F Page 4 of 8 Proof O vetor uy Sao dal de n coordenadas tem norma Euclideana 1 Podemos completar uy eM uM conjunto ortonormal u Seja A a matriz n x n cuja ézima linha u segue que A é uma matriz ortonormal isto é tem inversa igual a sua transposta Denote o vetor de dados X XX e AX Temos que X N0I portanto do Lema 1 Y N01 Em particular Y e Y sao independentes Note que Y AX Sa ore Xi nX Além disso Y X5 So7 X pois transformacoes ortogonais preservam normas Portanto n n n n Soye Oy y8 xe 0k OW XY i2 i1 i1 i1 onde na ultima linha usamos a decomposicao viésvariancia do segundo momento amostral A prova do item 1 segue ja que Y e Y2 sao independentes A prova do item 2 segue de que YiP Ww N 01 e portanto xn 1 pelo Teorema 2 oO Remark 1 Independencia entre media e variancia amostral de uma amostra Gaussiana O fato bastante surpreendente por sinal de que a media e variancia amostrais de uma normal sao independentes nao é propriamente usada para fazer inferencia ao estimar o via a variancia amostral Mas sera fundamental para fazer inferencia ao estimar f via a média amostral sem saber a7 Isto motiva a secao a seguir 3 Distribuicao t Definition 3 Distribuicao t Seja ZY um par aleatorio independente com Z N01 e Y x2 A distribuicao t com n graus de liberdade simbolicamente t é a distribuicao da varidvel 5 Zz aleatoria X wiv Lemma 2 A densidade de t é Fn412 x2 er D2 Fx int 12 1 xER n2Pn2 n Proof Definemos a transformacao H R x Ry Rx Rx por zw Hx y xn7 y Sejam Z N01 eW Y x2 independentes Defina também X ZYn Em particular ZW HXY e portanto mudandose de variaveis a cdf de X Y é dada para x y RxR x y Fx yx y fz wz wdzdw fz wHx y detHx ydxdy H00x x 00y oo J00 onde Hx y a Jacobiana de H em x y Aula Distribuicoes amostrais classicas x t e F Page 5 of 8 Temse que para x y RxR detHx y n Usando que Z W N01 x x2 concluimos entao que fx yx fewHx y detHx y fe xn fy n 7 em 1 8 Fi n21 992 yy12 Da 2727 n2 n x2 n co bCr tt yt para uma constante apropriada c 0 Mudandose de variaveis sabemos da definicao da funcao gamma que para numeros positivos a 6 fo te tetdt He Portanto 00 oo 2 h Pe xx ty x ydy c e ytd ca 5 1 Substituindo a expressao da constante c provamos o enunciado do lemma C Corollary 1 do Teorema 3 Seja X lid Nu 07 e defina 1 n a2 2 62 ao xX i1 Entdo Jn th1 Proof Chame Z nX o e Y n 16207 Do Teorema 3 temos que as variaveis aleatorias Z NO 1 eY xn1 sao independentes Segue que Vian tn1 Finalmente Z pxXat Yn1 vn Gn UO Remark 2 Normalizando a variancia amostral com n1 Recorde que o MLE para 1 07 resulta no estimador 1 S xX i1 O corolario anterior do Teorema 3 sugere no entanto a estatistica 6 ao normalizarmos a média amostral para que possamos fazer inferencia para desconhencendo a Por coincidéncia o estimador Go é um estimador naoenviesado de o veja Thm 871 um resultado simples da de composicao viésvariancia amostral E claro que S G2 converge a 0 em probabilidade quando no Aula Distribuicoes amostrais classicas x7 t e F Page 6 of 8 Remark 3 Caudas pesadas A distribuicao t um exemplo interessante de caudas pesadas que surge ao substituir a variancia populacional pela variancia amostral na normalizacao da media amostral centralizada Por caudas pesadas queremos dizer que a distribuicao t tem momentos finitos apenas até a ordem n 1 Compare com 01 que possui todos momentos finitos Em particular t exatamente a distribuicao de Cauchy Note no entanto que t converge em distribuicao a N0 1 quando n oo Density Normal 047 Cauchy fs ssoseesee 5 Degrees Ie of Freedom i 20 Degrees I of Freedom F 2 01 4 2 0 2 4 x 4 Distribuicao F Definition 4 Distribuicao F Seja ZY um par aleatorio independente com Z x2 eY x2 A distribuicao F com men graus de liberdade simbolicamente Fmn é a distribuicao da variavel st Zm aleatoria X Vin Lemma 3 A densidade de Fmn é p mie mm2 yn2 xm2 1 fx CE men x 0 Fm2Fn2 mx ntmn2 Rascunho da prova O método de prova é bastante similar ao da prova do Lemma 2 mas usando a transformacao H Ry x Ry R x Ry dada por yz Hx w xwmn w e com as variaveis aleatorias VW Z x2 Y x2 eX ZmYn Veja Thm 971 em DeGroot O Aula Distribuicoes amostrais classicas x t e F Page 7 of 8 Distribuigao F de FisherSnedecor dt4d21 d42421 a d454252 d210d21 d1100 d2 OF O 0 1 2 3 4 5 Fungao densidade de probabilidade Corollary 2 Se X Fmn entao X Fnm SeY t entao Y F1n Corollary 3 do Teorema 3 Sejam Xj lid N107 e Yi lid NU2 05 duas amostras independentes Defina 1 1 a2 2 a2 vy 62 ma XxX e mi Y 620 Entao 3733 Fny 1 1 ylry2 5 Apendice 51 Prova do Teorema 2 Na verdade vale o resultado mais geral Theorem 4 Seja X sequencia independente tal que X xnj Entao 37 Xi x 9271 ni Proof Utilizaremos o Thm 443 do DeGroot duas distribuicoes com as mesmas mgfs numa vixinhanca de 0 sao iguais ParaO0 t 6 amgf de X ITaB é pt Efe pe 1g pe la B ef xa Bdx xe teBdxgy f fp et alan Byex a5 f ra 0 pa Aula Distribuicoes amostrais classicas x t e F Page 8 of 8 Seja wy a mgf de X Por independencia para 0 t 6 a mgf da soma 5 X é n n 12 n2 12 ry nj2 t it a vex0TwOHaz aa que a mgf de xS n na vizinhanca 0 t B O resultado segue do Thm 433 LJ 52 Prova do Lemma 1 Utilizaremos a caracterizacao de distribuicoes via funcoes caracteristicas A seguir i 1 Para um vetor aleatorio X Np XZ a funcao caracteristica pode ser calculada para cada t R tXt xt Blexoit exp eT 2 Temos que para cada t R Waxot Elexpit AX b EfexpiA tX expit b AtXAt exp wary cane expit b tAXAt exp 127 au b ae que a funcao caracteristica de NAu b AXA O resultado segue da unicidade da funcao caracteristica um resultado similar ao Thm 433 Isto uma técnica diferente de funcoes geradoras de momento conforme Thm 433 do DeGroot mas a idéia é parecida
Send your question to AI and receive an answer instantly
Recommended for you
Preview text
Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 1 Aula sobre o curso Contents 1 Instrutores 1 2 Estrutura 1 3 Principais objetivos 1 1 Instrutores Professor Philip Thompson philipthompsonfgvbr Monitor Ezequiel de Braga Santos ezequielbragasantosgmailcom 2 Estrutura O livro texto de referencia será Morris DeGroot Mark Schervish Probability and Statistics Fourth Edition 2012 Os capitulos 15 introducao a Probabilidade 10 e 12 nao serao cobertos O aluno é encorajado a ler o livro texto em paralelo as aulas Como livros suplementares recomendamos George Casella and Roger L Berger Statistical Inference 2nd Edition e Larry Wasserman All of Statistics Distribuirei notas referentes ao conteudo das aulas A avaliacao será constituida de 2 provas sendo a nota final a media aritmetica das duas notas Apesar de nao haver listas de exercicios o aluno é encorajado a fazer os exercicios do livro texto de DeGroot uma boa parte das questoes da prova será baseada nestes exercicios 3 Principais objetivos Este curso tem como principal objetivo introduzir elementos da teoria de inferencia estatistica para um curso de graduacao Apos uma breve revisao de probabilidade iniciaremos o estudo de esti madores sobre o ponto de vistas frequentista e Bayesiano Cobriremos os topicos de Método de Momentos Estimador de Máxima Verossimilhanca Estimador de Bayes e distribuicoes a priori e a posteriori Discutiremos também estisticas suficientes e eficiencia de estimadores Este será o principal conteudo da primeira prova Para a segunda prova cobriremos tipos clássicos de intervalos de confianca e testes de hipótese dois métodos de inferencia mais conhecidos Daremos uma Prepared by Philip Thompson on August 5 2023 Aula sobre o curso Page 2 of 1 introducao a regressao linear no caso Gaussiano e daremos uma breve comparacao entre o ponto de vista frequentista e Bayesiano Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 5 Aula revisao de Probabilidade Contents 1 Objetivos da aula 1 2 Desigualdades 1 3 Media empirica amostral 2 4 Leis dos Grandes Numeros 3 5 Teorema Central do Limite 4 1 Objetivos da aula Veja Capitulo 6 do livro nao veremos a secao 64 e exercicios correspondentes Revisaremos as desigualdades de Markov e Chebyshev e fazemos referencia ao método de Chernoff no livro Re visaremos as Leis Fraca e Forte dos Grandes Numeros e a aplicamos a convergencia de histogramas Concluimos com o Teorema Central do Limite 2 Desigualdades Uma das principais desigualdades usadas em Probabilidade e Estatística é a seguinte Theorem 1 Seja ϕ R R uma funcao crescente Seja X R uma variavel aleatoria tal que EϕX Entao para todo t 0 PϕX t EϕX ϕt Prova EϕX EϕX1Xt EϕX1Xt EϕX1ϕXϕt ϕtPϕX ϕt ϕtPX t Prepared by Philip Thompson on August 1 2023 Aula revisao de Probabilidade Page 2 of 5 Remark 1 Markov and Chebyshev inequalities No Teorema 1 quando yt t temos a De sigualdade de Markov Quando yt t temos a Desigualdade de Chebyshev Outras funcoes muito usadas sao yt t p 1 e wt e O leitor é convidado a ler o Teorema 627 e Exemplos 626 e 627 do livro texto onde a cota de Chernoff é explicada 3 Media empirica amostral Theorem 2 Seja X uma amostra iid de uma distribuicao com media i e variancia 0 bem definidas Defina a media empirica 1 Xp i Xi i1 Entao o2 EX u VXr Prova Por linearidade do valor esperado 1 EXn EX 5 m 11 Agora usaremos um resultado visto em Probabilidade a variancia da soma de variaveis aleatorias independentes a soma das variancias Seja X X w Segue que n F 2 n F 2 2 2 Xi Xi oO wi 2202 324 De a i1 i1 LJ A principal interpretacao do teorema anterior que 1 a media empirica nao enviesada 2 quanto o maior nimero de pontos amostrados menor a variancia da media empirica Podemos usar os Teoremas 1 e 2 para construir intervalos de confianca para a media empirica assumindo que sabemos variancia populacional o7 para todo t 0 o2 PX wl t 1 nt Em geral nao temos conhecimento de o Futuramente iremos melhorar este resultado tornandoo mais pratico Veja os Exemplos 621623 do livro texto Em outras palavras precisao média a mesma da distribuicao amostrada 2Em alguns casos em que nao sabemos a temos conhecimento de uma cota superior isto é util em muitos casos mas pode ser uma estimativa conservadora para a margem de erro Aula revisao de Probabilidade Page 3 of 5 4 Leis dos Grandes Numeros Theorem 3 Lei fraca dos grandes numeros Seja X7 uma amostra lid de uma distribuicao com media mt e variancia 0 oo Entao para todo t 0 lim PX t 0 2 noo Prova A prova uma consequencia facil de 1 XO Quando acontece 2 dizemos que a sequencia aleatoria X converge ao numero yw em proba bilidade e usamos a notacao X 4 ut Uma nocao mais forte de convergencia a convergencia quasecerta ou convergencia com probabilidade 1 P lim X 0 1 3 noo De fato podese mostrar que convergencia quasecerta implica convergencia em probabilidade Enunciaremos o seguinte resultado sem prova vista num curso de Probabilidade Theorem 4 Lei forte dos grandes numeros Seja X uma amostra iid de uma distribuicao com media 4 Entao X convergence quasecertamente a Note que em particular tanto nos Teoremas 3 e 4 a hipotese de variancia finita nao necessaria Theorem 5 Se Z be g uma funcao continua em b entao gZn gb Prova Veja Exercicio 615 LJ Theorem 6 Histogramas Seja X uma amostra lid Sejam c Co e defina o histograma de intervalo c C2 1 Yn n Llaxjo 11 Entao Y 4 Pc Xi Co Mais ainda Yn Converge quasecertamente a Pcy X1 Prova Seja Yj laxc Por construcao Yj uma amostra iid de uma Bernolli com parametro pPc X c O resultado segue do Teoremas 3 e 4 C Example 1 Seja Z a taxa comm que consumidores sao atendidos e seja Xjicn OS instantes em que consumidores sao sucessivamente atendidos Assumimos que Xien Sao Condicionalmente iid dado Z z com pdf ze xQ0 gxZ 0 xX 0 3Voce consegue entender por que Y define um histograma Aula revisao de Probabilidade Page 4 of 5 A figura abaixo representa o histograma com z 0446 c1 0 e c2 10 junto com a pdf neste intervalo Note que o histograma e pdf se aproximam bastante 5 Teorema Central do Limite Theorem 7 TCL de LindebergLévy Seja Xin i1 uma amostra iid de uma distribuicao com media µ e variancia σ2 bem definidas Seja Zn Xn µ σn Entao para todo t R lim n PZn t Φt 4 onde Φ é a pdf de N0 1 Este famoso teorema justifica a afirmacao de que para uma grande parte de distribuicoes com dados empiricos pode ser aproximada a uma normal Conforme exemplo 631 Quando 4 acontece dizemos que a sequencia aleatoria Zn converge em distribuicao a variavel aleatoria Z de pdf Φ As vezes usamos a notacao Zn d Z Note que ela difere significadamente da definicao de convergencia em probabilidade ou convergencia quasecerta de fato esta definicao explicita aproximadamente a pdf de Zn para n suficientemente grande fixado o intervalo t4 4Um comentario técnico a parte Em muitas aplicacoes é desejavel uma nocao relacionada mas mais forte uma que Aula revisao de Probabilidade Page 5 of 5 Veja os exemplos 632 633 e 634 a aplicacao do TCL para variaveis Bernoulli uniform e Poisson Delta Method Example 638 Reading TCL de Lyapunov e Bernoulli Rascunho da prova do TCL ignore Section 64 valha uniformemente a todo intervalo Em outros cursos de probabilidade ou estatistica este tipo de convergencia pode ser obtido com as chamadas desigualdades de concentracao no entanto em geral nao podemos obter constantes numericas tao precisas como no TCL Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 5 Aula Modelos estatistico e Inferencia Contents 1 Objetivos da aula 1 2 Modelos Estatisticos 1 3 Estimadores e inferencia 3 1 Objetivos da aula Definir o que é um modelo estatistico tanto do ponto de vista frequentista como Bayesiano Con ceituar inferencia estatistica introduzindo o conceito de estimadores intervalos de confianca e testes de hipoteses futuramente iremos aprofundar tais conceitos matematicamente e com procedi mentos concretos 2 Modelos Estatisticos Definition 1 Modelo Estatistico Formalmente um modelo estatistico é qualquer colecao PθθΘ de distribuicoes Pθ definidas num espaco X equivalentemente uma funcao P Θ PX onde PX denota a familia de distribuicoes sobre X1 Quando Θ Rd para algum natural d dizemos que o modelo estatistico é parametrico neste caso Θ é denominado conjunto de parametros Remark 1 Se X X é uma variavel aleatoria com distribuicao Pθ escrevemos PθX A PθA e Eθ denota o valor esperado referente a medida de probabilidade Pθ Sem perda de generalidade um modelo paramétrico pode ser descrito como uma familia de pdfs da forma F f θ θ Θ onde Θ Rd para algum d N Neste curso iremos considerar sempre modelos parametricos Example 1 Estimacao de parametro unidimensional Dado p 0 1 considere distribuicoes Pp do tipo Bernoulli isto é definidas sobre 0 1 com massa f 1p PX 1 p Este é um modelo paramétrico unidimensional d 1 1Mais comumente X R X Rd X Z ou um subconjunto destes Prepared by Philip Thompson on August 2 2023 Aula Modelos estatistico e Inferencia Page 2 of 5 Example 2 Estimacao de parametro bidimensional Dados θ µ σ R 0 considere distribuicoes Pθ definidas sobre R com pdfs f xµ σ 1 σ 2πe 1 2σ2 xµ2 Este é um modelo paramétrico bidimensional d 2 Example 3 Estimacao naoparametrica Seja F o conjunto de todas as pdfs definidas sobre R Sem hipóteses adicionais o modelo estatistico definido por todas as distribuicoes com densidades em F nao é paramétrico Example 4 Predicao regresssao e classificacao Suponha que observamos uma amostra iid de pares de pontos Xi Yiin por exemplo Xi poderia ser a pressao sanguinea do iézimo paciente e Yi o seu tempo de vida Em modelos deste tipo X é chamado de preditor regressor feature ou variavel independente Y é chamado de output resposta ou variavel dependente Neste modelo inferir sobre a distribuicao conjunta de X Y nao é o mais relevante mas sim inferir sobre a distribuicao de Y condicional a X No modelo paramétrico PY X x é caracterizada integralmente por um parametro θ Rd Por exemplo no modelo linear gaussiano PY X NXθ σ2 1 O objetivo de predizer Y a partir do valor de X é chamado predicao Quando Y R este modelo chamase regressao Quando Y 0 1 este modelo chamase classificacao Podemos generalizar este modelo para incluir o caso em que Y é multidimensional Existem outros modelos que fazem predicao também Veja Exemplos 711 e 713 Modelos da Definicao 1 sao denominados frequentistas já que o parametro θ Θ é fundamen talmente um valor fixo A modelagem Bayesiana considera que parametros sao também variaveis aleatorias Veja p aginas 382384 do livro texto Definition 2 Modelo estatistico Bayesiano paramétrico Um modelo Bayesiano paramétrico consiste numa distribuicao π sobre Θ denominada distribuicao a priori e numa familia de densidades F f θ θ Θ estas definem a distribuicao sobre X condicionalmente a θ Remark 2 No modelo frequentista a notacao f xθ nao referese a uma densidade condicional θ é um parametro fixo De forma informal podemos dizer que o ponto de vista frequentista se baseia nos seguintes axiomas F1 Probabilidades sao limites de frequencia relativa Probabilidades sao propriedades objetivas do mundo real Aula Modelos estatistico e Inferencia Page 3 of 5 F2 Parametros sao constantes fixas e nao conhecidas F3 Procedimentos estatisticos devem ser construidos de maneira a ter um bom comportamento em frequencias limite Por exemplo um 95intervalo de confianca deve conter o parametro real com frequencia limite pelo menos 95 das vezes Já o ponto de vista Bayesiano se baseia nos seguintes axiomas B1 Probabilidades representam graus de esperanca nao frequencias limites Portanto podemos fazer afirmacoes probabilisticas para várias coisas nao apenas dados sujeitos à variacoes B2 Podemos fazer afirmacoes probabilisticas sobre parametros mesmo eles sendo constantes fixas B3 Fazemos inferencia sobre um parametro associandoo uma distribuicao Inferencias como estimativas pontuais ou intervalos de confianca podem ser extraidas desta distribuicao As Definicoes 1 e 2 descrevem formalmente a seguinte afirmacao Um modelo estatístico consiste na identificacao de variáveis aleatórias de interesse ob serváveis e potencialmente observáveis na especificacao de uma distribuicao conjunta para as variáveis aleatórias observáveis e na identificacao dos parametros θ desta dis tribuicao conjunta As vezes é conveniente assumir que os parametros sao variáveis aleatórias também mas para isso é preciso especificar uma distribuicao conjunta para θ 3 Estimadores e inferencia Resumidamente fazer inferencia ou aprendizagem termo usado em Ciencia da Computacao é o processo de usar dados para inferir sobre a distribuicao gerando tais dados Uma pergunta típica de inferencia é Dada uma amostra Xiin de uma distribuicao P com cdf F como inferir F Aula Modelos estatistico e Inferencia Page 4 of 5 Em alguns casos queremos inferir apenas alguma caracteristica de P Por exemplo responder de maneira estatisticamente precisa afirmacoes probabilisticas do tipo 1 Qual a média de P 2 No Exemplo 1 com quanta certeza podemos inferir que a moeda é justa p 12 3 No Exemplo 2 dada uma amostra lid da distribuicao Py 5 Como estimar u0 4 No Exemplo 3 como estimar f F dada uma amostra iid da distribuicao P desconhecida 5 No Exemplo 4 tal que 1 como estimar 6 6 No Exemplo 4 tal que 1 com que certeza podemos garantir que X um preditor significativo isto é 0 0 Filosoficamente Inferencia Estatistica 0 problema inverso de Probabilidade na segunda area sabemos a distribuicao do modelo e perguntamos que propriedades satisfaz uma amostra aleatoria desta distribuicao A seguir discutiremos brevemente alguns conceitos fundamentais em inferencia sobre 0 ponto de vista frequentista Futuramente iremos aprofundar tais conceitos e tamber discutir o caso Bayesiano Definition 3 Estimador Dada uma amostra tid Xjictn Pe um estimador pontual de 6 é qualquer funcao mensuravel 6 gX1 Xn Também chamamos de estatistica qualquer funcao mensuravel de uma amostra Uma estimativa é 0 valor 9x1Xn referente a realizacao X X1Xp Xp Um estimador e a teoria que veremos futuramente tenta formalizar os itens 1 e 35 acima Exemplos de estatiisticas 1 Asoma y Xj 2 A média empirica X 07 Xj 3 O minimo minXX e maximo maxX Xp 4 A funcao constante gX1X a Definition 4 Intervalo de confianca Um 1intervalo de confianca para um parametro 0 é um intervalo C an by com extremos an aX1Xn by BX1X tal que Po9EC 1aVOEO Aula Modelos estatistico e Inferencia Page 5 of 5 Example 5 Seja uma amostra lid Xjicn de uma Bernoullip By 2 Xi Recorde que Vp Pane em particular 6 p Portanto B1 p 1 ge Pn Pn ag PUL P n n Usando o TCL é possivel mostrar que PnP 4 W01 se Podemos usar este fato para construir um intervalo de confianca assintoticamente valido Defina z 11 a isto é se Z N0 1 entao PZ z a Defina An Pa Zu28 Dy Py Zq28k Entao lim Ppa p by 1a noo CO Definition 5 Teste de Hipdteses Um teste de hipoteses para um parametro 8 éuma afirmacao do tipo Hyp 90OQ vs H9EC OQ onde 9 UO é uma particao do conjunto de parametros Ho é chamada de hipotese nula e H é chamada hipotese alternativa Testes de hipoteses sao utilizados no contexto de Problemas de Decisao Estatistica Veja paginas 380381 do livro texto Example 6 Seja uma amostra lid Xj icn de uma Bernoullip Um teste de hipotese para verificar se a moeda é Justa seria da forma Ho p12 vs Hp12 Veremos que uma estatistica de testes razoavel a quantidade T 6 12 rejeitando Ho quando T é muito grande LJ As definicoes de intervalo de confianca e testes de hipoteses tentam formalizar os itens 1 e 5 acima Futuramente iremos formalizar como quantificar tais definicoes e iremos ver exemplos concretos Muitas vezes a construcao de estimadores esta intimamente ligada a construcao de intervalos de confianca e testes de hipotese Veremos também que existe uma dualidade entre intervalos de confianca e testes de hipoteses Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 20 Aula Método dos Momentos e Estimadores de Máxima Verossimilhanca Contents 1 Objetivos da aula 1 2 Método de Momentos 2 3 Estimador de Máxima Verossimilhanca 3 4 Consistencia do MLE 5 5 Invariancia do MLE 7 6 Normalidade assintotica do MLE 8 7 Apêndice 11 71 Familia Exponencial 11 72 MLE para familias exponenciais 14 73 Computacao numérica e o algoritmo EM 16 731 Método de Newton 16 732 Algoritmo EM 17 74 Limitacoes do MLE 20 1 Objetivos da aula Veremos dois métodos para construir estimadores em modelos frequentistas O método de mo mentos MM e o estimador de máxima verossimilhanca MLE Veremos diferentes propriedades do MLE como consistencia invariancia e normalidade assimtotica Resumidamente podese dizer que o MLE é um bom estimador para modelos estatisticos regulares1 Em especial a familia de distribuicoes exponencial define uma classe de modelos estatisticos em que o MLE funciona bem Um exemplo pratico em que o MLE nao é bem definido sao as misturas Gaussianans Raramente o MLE tem expressao analitica apresentamos uma introducao ao método de Newton e o algoritmo EM 1Dentro destas classes de modelos veremos em aulas futuras que este é o estimador com menor variancia Prepared by Philip Thompson on August 10 2023 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 2 of 20 2 Método de Momentos Definition 1 Método de Momentos Para cada 6 R seja Pg a distribuicao associada no modelo estatistico com pdf f Para Jj k defina a funcao jézimo momento 6 aj0 EgX F010ax Defina a aplicacao a com coordenadas a Dada uma amostra lid Xjicn defina o Jézimo momento empirico ly aj S Xi i1 Defina 1 Ax O estimador do método de momentos 6 é a solucao de a0 G isto é 0 valor de tal que a16n 1 A 8p Qo ag6n Ak Na definicao anterior esta implicito a hipotese de que o sistema acima tem solucao Nos exemplos a seguir nao so isso é verdade como a aplicacao 8 a tem inversa A motivacao para a construcao do estimador do método de momentos é razoalvemente clara assumindo bem definida a heuristica de estimar valores esperados por médias empiricas o Método de Momentos MM busca um estimador que mapeie os momentos aos momentos empiricos Example 1 Seja Xjeqnq iid Bernoullip Temos a1p pe X Logo 0 método de momentos nos da 1 Pn n Xi i1 LI Example 2 Seja Xjieqn iid Nu 07 Temos aiuo e Q2U 0 EoX VoX EoX 07 w Temos que resolver o sistema 1 Pp p dX i1 1 Pp C i dX Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 3 of 20 A solucao é lL ad py2 i 7 Xi or 5 LX fi i1 i1 CI Anunciaremos o seguinte metateorema sem prova Theorem 1 Seja 6 o estimador do método de momentos Assumindo condicoes apropriadas do modelo as seguintes afirmacoes sao verdadeiras 1 6 existe quase certamente 2 6 6 3 Jn6 6 4 N0 2 onde Y GEYY G onde Y XXX eG gi ga a matriz com jézima coluna Va 6 Remark 1 Dizemos que um estimador 6 de um parametro 6 é consistente se 6 O item 2 do Teorema 1 garante sob determinadas hipoteses que o estimador do método de momentos é consistente O item 3 do Teorema 1 vai além de consistencia Sua principal funcao é permitir construir intervalos de confianca assintoticamente precisos No futuro veremos resultados similares com mais detalhes E dese esperar que a grandeza da matriz de covariancia influencie o comprimento do intervalo de confianca para cada n Futuramente veremos critérios relacionados que permitem comparar estimadores em termos da variancia X 3 Estimador de Maxima Verossimilhanca Definition 2 Estimador de Maxima Verossimilhanca Seja Xiien uma amostra lid e denote X X1Xp Para cada O seja Pg a distribuicao associada com pdf f A funcao de verossimilhanca é definida por n 036 FX FXiI9 i1 O estimador de maxima verossimilhanca MLE é a solucao do problema 6 max fX n max FX6 Pela hipotese iid note que se a amostra Xi ietn vem de uma distribuicao com parametro verdadeiro fixado entao fX é a pdf conjunta de X Atencao o mesmo nao é verdade se X vem de uma distribuicao com valor distinto de 0 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 4 of 20 Como veremos em exemplos a seguir util definir a funcao de logverossimilhanca 3 XK log fK Obviamente tanto faz maximizar fX0 ou X Example 3 Seja Xiejrj iid Bernoullip Temos fxp p1 p logo FXp pa p p py i1 onde S 7 X Em particular Xp Slogp n Slog1 p Resolvendo d0X dp 0 0 obtemos a solucao fy Sn Example 4 Seja Xjien iid Mu 07 com 6 u0 Temos ii x p fx10 exp logo 7 1 X w fX0 X18 az oo 207 n Xi jn 270 exp eee nS nXp 12 270 exp se exp a onde X 110 X e S 11 X Xn Em particular nS nX LW Xp 27n nl Xp mn nloga 552 Resolvendo déX u0 0 du uo déX do LL c 0 obtemos a solucao fin Xn Gy S Utilizandose de derivadas de ordem 2 podese provar que de fato este ponto estacionario um maximo global 3Aqui assumimos 0 1 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 5 of 20 Note que o conjunto de parametros é importante na definicao do MLE Example 5 Seja Xjicn iid Nu 1 com 0 00 Podese mostrar que neste caso o MLE é dado por An Xn Xn 0 Ln 0 CC Agora damos um exemplo mais dificil Veja Exemplo 757 e comentario no Exemplo 758 Example 6 Seja Xjicn iid Unif0 0 Temos 16 Ox 8 Fx0 S 0 CC Em particular 1 O X6VIE FbFx 4 ela 0 Cc Segue que o MLE é 6 maxX1 Xp 4 Consistencia do MLE Diferentemente do MM a motivacao para a construcao do MLE nao parece tao clara A seguir iremos motivar sua construcao dando um rascunho da prova de sua consistencia Para isso neces sitamos de uma definicao bem técnica Definition 3 Divergente de KullbackLeibler Dadas as pdfs f eg o divergente de KullbackLeibler entre f eg é definido como FX fx Dfg Exn tos 3 fre jog 2 dx Fl19 Bxxr flog 3 xloa 775 Podese provar que Dfg 0 e Dff 0 Infelizmente o divergente de KullbackLeibler nao define uma distancia no espaco de distribuicoes Durante todo o resto destas notas assumiremos que o modelo estatistico é identificavel segundo o divergente de KullbackLeibler Com isso queremos dizer que para todos 60 O7 646 DFOF8 0 Por exemplo ele nao é simetrico Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 6 of 20 Para facilitar usaremos a notacao D66 D fFC6 Seja 6 o parametro verdadeiro the ground truth Maximizar a funcao de logverossimilhanca X equivalente a maximizar a funcao Lys FXi8 M log 7d l9 5 XI0 Pela lei dos grandes nimeros M converge para fX6 f x Eg log fxd ora f Fare Mee f x8 f x0 9 Fay 109 D60 Portanto M D que maximizado em 6 de fato D66 0 e D0 0 para todo 6 6 Portanto é de esperar que o MLE be argmaxgeq M convirja para 6 Isto motiva a definicao do MLE Ha um porém A prova formal necessita mais do que M0 4 D60 para cada 6 Necessita mos de uma convergéncia uniforme j4 que necessitamos approximar toda uma funcao Theorem 2 Seja 6 o parametro verdadeiro Seja uma amostra Xjien lid de Pe Defina as funcoes iN fX8 M log 8 5 D109 FX ig e M D60 Suponha que 1 supgeo Mn M6 0 2 Para todo 0 SUDg99 M M6 Seja o MLE de 6 Entao 6 9 O item 1 pede que a convergencia é uniformemente em probabilidade O item 2 pede que 6 é um ponto maximo local estrito Prova do Teorema 2 Por definicao de 6 M M6 Portanto M6 M6 M6 M M6 M6 M M8 M6 M6 sup M8 M8 M M8 0 0 Esta funcao é do tipo 2 Xi 8 Num contexto mais geral existe uma teoria estatistica chamada Empirical Risk Minimization que usa estimativas deste tipo para estimar parametros satisfazendo 6 argmin EéX 6 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 7 of 20 Em particular para todo 6 0 PM6 M 5 0 Seja e 0 Existe 6 0 tal que para 0 6 temos M0 M6 6 Entao P6 6 PM6 M6 5 3 0 O 5 Invariancia do MLE Uma pergunta natural como o MLE se comporta por uma transformacao de parametros Quando a transformacao nao é bijetiva necessitamos de uma modificacao da funcao de maxima verossimil hanca Definition 4 Seja uma funcao g 0 A com G gQ Dada uma amostra lid Xj icn de Poe defina a funcao de verossimilhanca induzida FXA f X XA max FXI6 O estimador de maxima verossimilhanca MLE de X g0 é definido como d argmax fXA AEG Theorem 3 Considere a Definicao 4 Se 6 0 MLE de 6 entao o MLE de d g6 X g6 Prova Por simplicidade defina G 8 g A Em primeiro lugar afirmamos que VAEG FXJA FX4 De fato por definicao de 6 temos que V8 O FXK fX6 isto implica em particular VA G maxeco FX FX6 provando a afirmacao acima Em segundo lugar afirmamos que fX fXg De fato fX6 fXg6 porque de Gaia fX6 fXg6 pela primeira afirmacao Concluimos das duas afirmacoes que VA G fXA fXg6 concluindo a prova O Notemos que se g é bijetora entao dado A tais que A g temos que fXA FX Em particular d argmax f Xg1A AEA E mais pratico no entanto obter be aplicar A g6 Example 7 Seja Xicn iid Nu 07 com 6 ua Recorde que o MLE de pu 0 dado por fi X and 6 40 X X Pelo Teorema 3 temos que o MLE de o G Qual o MLE do segundo momento EX LJ Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 8 of 20 6 Normalidade assintotica do MLE A seguir iremos provar a normalidade assimtotica do MLE Daremos a prova apenas no caso uni dimensional Para tanto sera Util darmos algumas definicoes Assumiremos que a funcao de logverossimilhanca x log fx duas vezes diferenciavel e que fx 0 a menos de um conjunto de medida nula Definition 5 Definimos a funcao 0eX 10 6 0 Ve EO Dada uma amostra lid Xicn definimos oeX 0 6 0 V6 Futuramente retornaremos a essa definicao quando estudarmos uma teoria que compara esti madores de acordo com sua variancia De fato veremos que a variancia do limite normal do MLE é inversamente propocional a esta funcao no parametro verdadeiro 6 Antes anunciamos o seguinte resultado que da uma expressao mais facil para a funcao Theorem 4 Temos que Eg Ses 6 O0e OLX 7 OrX 18 Es Po oy Finalmente nl Prova Note que f fxdx 1 para todo Derivando obtemos 0 55 feieex OF x log fF x Clog Fxl og 6 Fx8dx eX E 0 re onde usamos que dros Fal g op we 8 Em particular concluimos que O0X 10 Eg Ao Como veremos a funcao chamada de informacao de Fisher Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 9 of 20 Derivando mais uma vez temos também que Of x Em seguida notemos que 2 Fx xt 2 BUx 4 FOO 920 226 nC 2 Fx ee OLN gy f x0 00 Multiplicando a expressao acima por fx e integrando em dx obtemos que 0x ALXI Ee oe E s9 9 Seja uma amostra Xjicn Como para todo 6 x8 Xil8 i1 temos que 0eX LXI I0 8 ye og m0 L A seguir assumimos que R k 1 O teorema seguinte necessita de algumas hipoteses de regularidade sobre a funcao de logverossimilhanca e que o MLE seja consistente isto 6 6 Por simplicidade nao as enunciaremos explicitamente e daremos um rascunho da prova Theorem 5 Normalidade assintotica do MLE caso unidimensional Seja uma amostra lid Xiien de Po e seja 60MLE correspondente Sobre hipoteses apropriadas de regularidade tem se que 166 6 4 N0 1 Rascunho da prova Usaremos a notacao simplificada X0 Pela formula de Taylor e optimalidade de 6 temos numa vizinhanca de 6 0 0 20 8 e6 Por exemplo convergencia uniform em probabilidade para invocar a formula de Taylor Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 10 of 20 Como 6 4 0 podemos usar essa aproximacao em Rearranjando 1 A os vay Tn8 0 vO OS tara Bul Comecamos com T6 Seja Y Plog FOL gr Recorde que EgY 0 pelo Teorema 4 Também 6 VoYj Portanto pelo TCL T6 1n Sy Vn 0 4 N0 16 Em seguida consideramos B0 Seja Seja Aj Clog XL ge Pelo Teorema 4 EgA 6 portanto pela lei dos grandes numeros B6 1S 16 n n a i Agora usaremos o seguinte resultado de probabilidade se X 4 Xe Zn Ke c uma constante entao ZXpy 4 ex Concluimos que A T8 d LJ A prova anterior pode ser generalizada para parametros multidimensionais Anunciaremos sem prova Definition 6 Seja 6 Hx R a Hessiana da funcao de logverossimilhanca 6 x assumida aqui continua isto é Hx é a matriz de entradas 0ex Hx 6 Definimos a aplicacao 10 EgHX 6 Theorem 6 Normalidade assintotica do MLE caso multidimensional Seja uma amostra lid Xiien de Po e seja 6 o MLE correspondente Assumindo que 0 é inversivel e sobre hipoteses apropriadas de regularidade temse que JVn6 6 4 0 16 8 Aqui tomase o valor esperado entrada por entrada Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 11 of 20 Apéndice 71 Familia Exponencial Grande parte das distribuicoes que vemos na verdade fazem parte de uma mesma classe de dis tribuicoes Definition 7 Familia Exponencial de distribuicoes Uma familia de distribuicoes Poece sobre X com Cc R éuma familia exponencial kdimensional se existe aplicacoesn OQ RK eT X R e funcoeseBOReh X R tals que a pdf em é dada por f x hx exp nTx B x Example 8 Podemos reescrever a pdf de numa Bernoullip como fxp p1 p ellogpxlog1p1x ellog plog1px log1p Temos uma familia exponencial unidimensional com Bp log1 p np log p log1 p hx 1 Tx x Example 9 Gaussian distribution Podemos reescrever a pdf de uma Nu 07 com u 0 2 2 L x 1 u 2 f x0 exp a 55275 4 log210 Temos uma familia exponencial bidimensional com 1 py B6 log2107 0 5 B loal2no LL 1 0 0 m o n29 G2 Ax 1 Tix x Tox x Por motivos técnicos em muitos casos mais conveniente estimar na variavel 7 n inves de Isso motiva a seguinte definicao Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 12 of 20 Definition 8 Familia Exponencial Canonica de distribuicoes Uma familia de distribuicoes Pr nerk sobre X define uma familia exponencial canonica kdimensional se existe aplicacao T X R e funcoes A RK Reh X R tais que a pdf em n R é dada por qxn hx exp n Tx An x O conjunto de parametros canonicos é definido por E n R cw An oo Example 10 Considere a Definicao 8 e seja uma amostra lid Xj icn de P Temos que qX AXi exp a TXi van i1 i1 Portanto a familia de distribuicao produto de uma familia exponencial canonica 6 também uma familia exponencial canonica com funcoes hax TAGs i1 Trx 2 Tx i1 Ann nAn Example 11 A distribuicao de Poisson com média 6 0 tem pdf em Y N dada por oxe Reescrevendoa como 1 fx xl expx log 6 6 temos uma familia exponencial unidimensional com BO 8 n log 1 hx xl Tx x Tomando 7 log a forma canonica é 1 qxin 5 expixn expn Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 13 of 20 com A expn 1 hx x Tx x Uma vantagem pratica da forma canonica é dada a seguir Proposition 1 Considere uma familia exponencial canonica kdimensional com aplicacao Tx e funcoes hx e An Se X P entao ETXAn ValTX An onde An VAn e An denota a Hessiana de A em n Prova Daremos uma prova apenas para 0 caso k 1 Recorde que a funcao geradora de momentos de uma variavel aleatoria T é definida por Rsts M7s Eee A seguir invocaremos um resultado classico de probabilidade M0 ET M0 ET No nosso caso T TX Note que Mrs x exols nT Anex expAs n Al hx expls n Tx Als nex expAs 7 An onde usamos que a Ultima integral é igual a 1 ja que é a integral de uma densidade Portanto Ms expAs n AnAs 0 Mys expAs 7 An As As 0 Temse que ET M10 An e ET MZ0 An An Como VT ET ET provamos o enunciado da proposicao C Retornaremos a este ponto quando mostrarmos que TX é uma estatistica suficiente para uma familia exponencial Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 14 of 20 Example 12 A distribuicao de Rayleigh tem pdf x 04 0 fx x6 expx267 Podemos reescrever fx x exp ae log 6 26 Tomamos hx x Tx x n 126 e An log 6 log2n Usando a proposicao anterior temos que EX 1n 26 e VX 1n 46 O calculo direto 6 mais complicado Sem entrar em muitos detalhes agora podemos salientar algumas importancias da familia expo nencial 1 E uma familia bem regular em que o MLE é bem definido e 6timo isto é o melhor es timador no sentido de ter menor variancia Isto se deve pela concavidade da funcao de logverossimilhanca no parametro canonico Esta concavidade também implica que o MLE pode ser computado mais facilmente para familias exponenciais 2 Esta familia surge naturalmente quando estudarmos suficiencia de estimadores 3 Possuem uma forma especial de conjugadas da distribuicao a priori 4 Elas permitem definir uma classe de modelos estatisticos chamados Modelos Lineares Gener alizados dentre eles inlcuimos regressao logistica 72 MLE para familias exponenciais Dicutiremos sem prova muito precisa porque o MLE para familias exponenciais é bem definido sobre condicoes razoavelmente gerais A seguir seja uma familia exponencial canonica kdimensional com aplicacao Tx e funcoes hx e An fxn hx exp n Tx An Assuma que 0 conjunto de parametros canonico é aberto e convexo Temos que xn log hx n Tx An Note que o termo log hx ndo influencia o calculo do parametro Derivando Vnexn Tx VAn 1 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 15 of 20 Derivando mais uma vez temos pela Proposicao 1 que para k FUN py PA 9 Cova TX THX Cov7X T AniOn AniOn Concluimos que a Hessiana de 7 xn simétrica naopositiva definida portanto n xn Gma funcao concava O mesmo argumento funciona para uma amostra lid X XX para a funcao de logverossimilhanca X7 Hipotéses suficientes para que uma funcao concava definida num conjunto convexo tenha maximo global é que o seja limitado ou que a funcao seja coerciva Para uma funcao concava todo maximo local é global Um funcao estritamente concava no caso em que a Hessiana é negativa definida pode ter ao menos um maximo neste caso o MLE unico Recomendamos como leitura extra a secao 23 do livro 2001 Peter J Bickel Kjell A Doksum Mathematical Statistics Basic Ideas and Selected Topics Vol 1 No caso em que 7 Xn tem um maximo 4 isto é existe o MLE a expressao do gradiente em 1 e a Proposicao 1 permitem expressar uma equacao para obter 7 De fato para obter o maximo global basta derivar e igualar a zero Recordando o Exemplo 11 n 0 VnXn TrX VAnn 57 Xi ng TX i1 isto o MLE do parametro canonico verdadeiro n a solucao em 7 de 1 n SOT Xi EnlTX i1 Este sistema de equacoes as vezes chamado de equacoes de Iikelihood Example 13 Considere a distribuicao Gamma de parametros positivos a 6 Brxe fxa B e xlo8 FT 1 x Ox ta log x Bx alog 6 logla Temos entao que n n TX Sot Xi i1 i1 Podese mostrar que Eq logX a logB onde w denota a funcao digamma Temse também que Eva X aB 1lsto quer dizer que a funcao tende a oo para pontos que tendem ao infinito l1Note que isto uma versao generalizada de um método de momentos Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 16 of 20 Concluimos que o MLE pode ser obtido resolvendo o sistema n 5 log Xi nlya log 6 i1 n So Xi naB i1 obtendo 1 n 7 S log X log X Wa loga i1 Qa B xX Podemos resolver numericamente Pergunta voce pode comparar esta solucao com a solucao para obtida pelo método de momentos C 73 Computacao numérica e o algoritmo EM 731 Método de Newton Em alguns casos o MLE 6 pode ser computado analiticamente Mais comumente o MLE deve ser resolvido numericamente Um método classico de otimizacao numerica o Método de Newton Este método é estudado com detalhes num curso de métodos numericos de otimizacao Damos aqui apenas uma breve motivacao informal A seguir usamos a notacao simplificada da funcao de logverossimilhanca 8 0X Considere o caso unidimensional Sendo um maximo temos que 6 0 Dado iterado 6 pela formula de Taylor 0 6 6 6 0 e6 Portanto Lo8 6x6 ee 0t Isto sugere o seguinte método Iterativo gttl gt 8 8t No caso multidimensional podese generalizar tal método como ott 9t H16V26 onde H6 define a Hessiana de no ponto 6 assumindo que ela é naosingular na trajetoria do algoritmo Veja também paginas 428430 do livro texto Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 17 of 20 732 Algoritmo EM O algoritmo ExpectationMaximization EM um algoritmo usado para computar MLE de uma familia de pdfs fy parametrizada em 6 que tem a seguinte forma Fxie Fl yi8ay 2 onde fx y a pdf conjunta nas variaveis x y parametrizada em 9 Em outras palavras o modelo de interesse vem da distribuicao marginal de uma distribuicao conjunta A variavel x modela o dado observado enquanto que a variavel y modela dados fatantes ou atentes Infelizmente computar a integral é extramente dificil mas assumimos que é facil computar fx y Na Secao 4 em que motivamos a construcao do MLE vimos que o parametro verdadeiro 6 pode ser computado maximizando a funcao fX O M Eg log D68 3 8 Be log FTE 006I 3 onde D60 Df6F o divergente de KullbackLeibler entre f6 e f In felizmente no nosso caso nao podemos nem computar fx0 apesar de termos disponivel a pdf conjunta fx y O Algoritmo EM é iterativo e portanto se inicia com um iterado 9 de escolha Na primeira fase da iteracao Expectation step dado um iterado anterior 6 computamos a funcao fx Y 6 M60 Eo lo aan x t Or g fx YO Conforme acima computamos o valor esperado na variavel faltante Y condicionalmente a variavel observada X na distribuicao condicional fyx com parametro 6 Na segunda fase da iteracao Maximization step tomamos o proximo iterado resolvendo o problema de maximizacao O41 argmax M66 6 Remark 2 Note que M60 Eo log Fx 6x x Ky log Fx Y 164X x Como o segundo termo nao depende de na verdade é equivalente na segunda fase maximizar a funcao J60 Eo log Fx 9x x O 12Compare com 3 no caso em que temos disponivel fx Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 18 of 20 A seguir enunciamos um resultado afirmando que a sequencia de iterados do algoritmo EM nunca diminui a funcao de logverossimilhanca original x log fx Isto da uma indicacao de porque o algoritmo EM funciona em uma vasta classe de problemas Theorem 7 Seja 8 a sequencia de iterados do algoritmo EM Entao x611 x0 para todot 012 Prova Recorde que fx y0 fyx fx onde denotamos por fyx a pdf de Y condi cional a X no parametro Portanto fx y Me6 log f 91d 618 f tog Ervin 8edy Fx fF yx 8 lo fyx 0 d 109 zea Fey any O8Y Fyx 8 log fx log Fx log f 0 09 f x18 log Fxl6e f toa EX Fix Body x6 x D Fx BeITFC x 8 Temos sempre que D fx 0fx 0 Como 64 maximiza M66 temos que M 624194 M06 0 Concluimos do display anterior que x041 x6 O Remark 3 O argumento anterior 6 o mesmo se utilizamos a amostra observada X X1 Xn e a amostra latente Y Y1 Y Notemos que em varios casos como no exemplo a seguir podemos computar explicitamente a funcao J60 Alem disso assim como feito no caso do estimador MLE podemos tambem utilizar umaa versao empirica J00 da funcao J66 Example 14 Mistura de normais Seja xu0 a pdf de uma normal Nu07 A pdf de uma mistura de normais N to 06 N 1 07 tem a forma fy 1 pOxHo 0 POXH1 01 para algum p 01 Neste modelo a ideia 6 que os dados sao amostrados de uma normal com probabilidade p e da outra normal com probabilidade 1 p entretanto nao sabemos de qual normal amostrada O parametro é 6 Uo Oo Mi 01 P a funcao de verossimilhanca com dados Xj Xp é G 2 bXiu0 00 PbXiHa 01 i1 Maximizar esta funcao é bem dificil Equivalentemente podemos completar este modelo usando uma variavel latente Y com distribuicao Bernoullip tal que Z 0 se escolhemos N Uo 09 Z 1 se escolhemos NV 1 07 Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 19 of 20 A seguir assumiremos por simplicidade que sabemos p 12 09 0 1 de forma que O parametro é 6 Uo U1 Observamos a amostra X1X associamos correspondente mente a amostra nao observada Yj Y Veremos a seguir que a funcao verossimilhanca do dado completado X1Y1Xn Yn mais facil de computar e usaremos isso no algoritmo EM Sabemos entao que X N uo 1 dado que Y O e X N 11 dado que Y 1 A seguir iremos omitir a dependencia no parametro Uo 41 para simplificar a notacao Em outras palavras FxY 0 xMo 1 e FXY 1 OxH1 1 Alem disso fy PY y 12 para y 0 1 Podemos escrever 1 Fx FV FOdY SOCxHo 1 xl Ha 1 de modo que a funcao de verossimilhanca conjunta ignorando fatores constantes é n FX Y oXiluo 1 OXisba 1 i1 e portanto a funcao de logverossimilhanca conjunta é 1d 1 XY 5 1 i bo 5 1 Xi ta Concluimos que 1 1d 10818 DL Boe VPA i to 5 DCL Bor fD 6 oa i i Para ter uma expressao explicida da funcao acima temos que computar EgYX Po 1X Para tanto usamos o Teorema de Bayes4 fXIY 16PY 1 Pgt 1X FXY 1 6PY 1 FXIY 0 6PY 0 oXilut 15 OXius 15 Xu 15 a PXilMG 1 XiH4 1 13Uma das razoes de porque podemos computar J6 que temos a expressao da distribuicao da variavel latente Y e das distribuicoes de X condicionalmente a Y usando o Teorema de Bayes Na segunda igualdade usamos que fXY y 6 fXi y O Tyz FX18 JA que podemos assumimos que Xi Yidietn é iid Aula Método dos Momentos e Estimadores de Maxima Verossimilhanca Page 20 of 20 Derivando 6 J6 separadamente em relacao a Lo 1 igualando a zero obtemos t 145 44 dados pelas médias ponderadas yitt iat Te Xi iar Te yitt ia Tr1Xi Via 7e7 LJ Convidamos ao leitor para ler as paginas 434439 do livro texto incluindo os exemplos 7615 e 7616 Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 5 Aula Distribuicoes a priori e a posteriori distribuicoes a priori conjugadas Contents 1 Objetivos da aula 1 2 Distribuicoes a priori e a posteriori predicao Bayesiana 1 3 Distribuicoes a priori conjugadas 3 4 Distribuicoes a priori improprias 5 1 Objetivos da aula Definir e exemplificar distribuicoes a priori e a posteriori e como fazer predicoes via o ponto de vista Bayesiano Definir e exemplificar distribuicoes a priori conjugadas Breve discussao sobre distribuicao a priori improprias 2 Distribuicoes a priori e a posteriori predicao Bayesiana Nestas notas iremos estudar o ponto de vista Bayesiano para estimacao Recorde que no ponto de vista frequentista θ Θ não é uma variável aleatória f θθΘ representa uma classe de distribuicoes parametrizadas por cada θ fixo chamadas de funcoes de verossimilhanca É assumido a existencia de um parametro verdadeiro θ assumido fixo e que os dados isto é uma amostra iid Xiin vem da distribuicao com pdf f θ No modelo Bayesiano assumimos a existencia de uma distribuicao ξ sobre o conjunto de paramet ros Θ isto é o parametro não é fixo mas uma variável aleatória com valores em Θ e distribuicao ξ A distribuicao conjunta em X Θ é denotada por f x θ e f xθ isto é a funcao de verossimilhanca denota a distribuicao sobre X condicional a θ Formalmente Definition 1 Distribuicao a priori e a posteriori Um modelo Bayesiano paramétrico consiste numa distribuicao com pdf ξθ sobre Θ denominada distribuicao a priori e numa familia de densidades F f θ θ Θ Prepared by Philip Thompson on August 10 2023 Aula Distribuicoes a priori e a posteriori distribuicoes a priori conjugadas Page 2 of 5 denominadas funcoes de verossimilhanca estas definem a distribuicao sobre X condicional a Neste modelo assumese que uma amostra Xjicn com valores em lid condicionalmente a dado e que a pdf condicional amostrada é f A distribuicao de condicionalmente 4 X Xjien denotada por X chamada distribuicao a posteriori Theorem 1 Teorema de Bayes Referente 4 Definicao 1 temos FxE Fa 8 FxnlE8 8x Aa oe ee gx gx Alem disso gx f fxEd8 Como o denominador gx nao depende de usase a notacao 0x fxE8 Prova Sabemos de um curso de probabilidade que fx0 fx De forma analoga fx 8 8xgx onde g é a pdf marginal de X Portanto segue que fxE8 0x OP glx Também foi visto num curso de probabilidade que a pdf marginal gx fx dé Como Xjien lid condicionalmente a 6 segue que fx fx1 Fxn8 L A distribuicao a priori assumida ou conhecida ela modela o conjunto de parametros antes de qualquer observacao de dados A distribuicao a posteriori 6 desconhecida e busca modelar a informacao atualizada do parametro apos a coleta de dados A funcao de verossimilhanca modela a distribuicao condicional dado 6 O Teorema de Bayes dizque a menos de um fator normalizador a pdf a posteriori 6 a pdf de verossimilhanca vezes a pdf a priori Example 1 Exemplo 726 Falta eR ERE KE A seguir introduzimos uma maneira de computar a distribuicao a posteriori de forma sequencial isto dtil case os pontos amostrais sdo revelados um a um Note que como Xjficn lid condicionalmente a 0 EOX1Xn x EO FOG Xn9 0fx Xp18 FXn0 ox Ox1 Xp Fx 8 Assim podemos atualizar a distribuicao a posteriori sequencialmente EAx1 x 0 Fx18 Ox1 X2 x 8x1 x21 EOX1 X2 3 a EOx1 Xo F0e8 EOxX1 Xn o EOX1 Xn1 Xn Aula Distribuicoes a priori e a posteriori distribuicoes a priori conjugadas Page 3 of 5 Na metodologia Bayesiana a obtencao da distribuicao a posteriori um dos principals objetivos para estimacao Podese fazer predicao para dados de teste isto novos dados amostrados a partir da distribuicao posteriori que é construida a partir dos dados amostrados anteriormente De fato se temos a distribuicao a posterior 0x1 Xn construida com dados xien Xnt41 UM dado fresco entao PXn411 Ax1 nae Xn FXn418 X1y ee XnEOX1 ne Xn f Xn i AEOX1 Xn onde usamos que Xp41 independente de xX condicionalmente a Portanto Bl nesin 0 f BG mnea Bs Xo fF ses10E0a 1 d8 que pode ser calculada usandose a distribuicao a posteriori 6xX a funcao de verossim ilhanca fXp41 para o dado fresco Xp41 Veja o Exemplo 7218 para a aplicacao deste método 3 Distribuicoes a priori conjugadas No método Bayesiano temos que definir a distribuicao a priori Dada uma classe de funcoes de verossimilhanca se a distribuicao a posteriori pertence 4 mesma classe de distribuicoes entao dizemos a classe de distribuicoes a priori conjugada Formalmente Definition 2 Fixe uma classe de distribuicao de verossimilhanca f Seja uma classe de dis tribuicoes com pdfs DIGPrH Vy G0 Re f g9648 1 parametrizadas por chamados de hiperparametros Dizemos que 5 Vg define uma classe de distribuicoes a priori conjugadas se para toda amostra X lid de f condicionalmente a 0 e toda pdf a priori Ey Vg temse que a pdf a posteriori correspondente 40X FXO Vgx para algum GX A seguir descreveremos a classe de distribuicoes a priori conjugadas para quando a funcao de verossimilhanca Bernoulli cuja conjugada é a distribuicao Beta Poisson cuja conjugada é a distribuicao Gamma Normal cuja conjugada é a distribuicao Normal e Exponencial cuja conjugada a distribuicao Gamma Recomendamos a leitura dos Exemplos 7317312 e a aplicacao da computacao da distribuicao a posteriori para desenhar experimentos a partir de amostragem Aula Distribuicoes a priori e a posteriori distribuicoes a priori conjugadas Page 4 of 5 Theorem 2 Bernoulli Seja X X am amostra lid de f0 Bernoulli condicionalmente ae01 Suponha que a pdf a priori Betaa B com a6 0 Entao a pdf a posteriori 6X Betaa S77 X6 n Yy Xi Prova Veja Exemplo 583 de DeGroot LI Theorem 3 Poisson Seja X Xj am amostra tid de f Poisson condicionalmente a 6 0 Suponha que a pdf a priori 8 Gammaa B com a6 0 Entao a pdf a posteriori 6X Gammaa 377 Xi 6 n Prova Seja S X Temos para 0 FX0 x e 6 E0 x 0 te PP Portanto pelo Teorema de Bayes E8X ox EB FXO x XFS te OH que define uma pdf Gamma a yor Xi B n a menos de um fator de normalizacao C Theorem 4 Normal Seja X X am amostra iid de f N6 07 condicionalmente a assumindo que 0 0 é conhecido Suponha que a pdf a priori 8 N Uo 0 Entao a pdf a posteriori O7Ug noZX 7709 61X NV onop 0no6 Prova Usando que X 6 n Xn 37 X Xn temse que 1 2 fn 7 2 FX oc exp sis x 6 x exp s56 X Temos tambem que 1 2 8 x exp 292 8 po Segue pelo Teorema de Bayes que 1 nX 8 Uo OX oc FXIAE x exp 5 CS Coe o 0 Definindo O Uo NOEXn M1 a7 o NOG oo8 a o NOG Aula Distribuicoes a priori e a posteriori distribuicoes a priori conjugadas Page 5 of 5 temos apos completarse os quadrados nXn bo 1 n Y SO 8 pt 5X Uo o2 a8 g L1 a2 4 nop n Lo Concluimos que E8X cc exp 558 ma a menos de um fator de normalizacao nao dependente em Isto conclui a prova L Theorem 5 Exponencial Seja X X am amostra lid de f Exponencial condicional mente a 0 Suponha que a pdf a priori 8 Gammaa B com a6 0 Entao a pdf a posteriori X Gammaa n 6 sumXj Prova Veja prova do Teorema 734 a prova é similar as anteriores L 4 Distribuicoes a priori improprias Considere por exemplo o caso em que fx Bernoulli e tomamos a pdf a priori constante 6 1 Podese mostrar que a pdf a posteriori é pK BetaS7 Xi 1n 07 Xi 1 Dizemos que 1 uma flat prior por ser a funcao constante ela expressa desinformacao sobre o parametro Poderiamos utilizar 0 mesmo raciocinio para o caso em que fxu0 Nu07 com o 0 conhecida Entretanto a pdf a priori fw c para alguma constante c 0 ndo é bem definida ja que f fwdu co Entretanto se ainda assim usarmos o Teorema de Bayes formalmente concluimos que uX NX07n notando que a estimacao obtida coincide com o modelo frequentista Dizemos neste caso que fz c define uma distribuicao a priori impropria Desde que o resultado do Teorema de Bayes defina uma distribuicao a posteriori bem definida distribuicoes a priori improprias podem ser usadas Veja exemplos 73137316 do Livro Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 9 Aula Suficiencia Admissibilidade e Informacao de Fisher Contents 1 Objetivos da aula 1 2 Estatistica Suficiente 1 3 Estatistica de ordem é suficiente 4 4 Teorema de BlackwellRao Suficiencia e Admissibilidade 4 5 Informacao de Fisher e Desigualdade de CrámerRao 6 51 Normalidade assintotica de um estimador eficiente 8 52 Desigualdade de CramérRao revisitando normalidade assintotica de MLE 9 1 Objetivos da aula Iremos definir estatistica suficiente e suficiente minima Teorema de Fatorizacao para caracterizar uma estatistica suficiente e aplicacao deste teorema para familias exponencias Relacionar esta tistica suficiente com um criterio de performance de estimadores chamado Admissibilidade via o Teorema de BlackwellRao Introduzir o conceito de Informacao de Fischer e como ele se relaciona com a variancia de estimadores desigualdade de CrámerRao TCL para estimadores eficientes e comparacao com TCL para o MLE que nem sempre é eficiente 2 Estatistica Suficiente Na busca de estimadoresestatisticas a partir de uma amostra num modelo estatistico f xθ é intuitivo perguntarnos qual estatistica contem toda a informacao dos dados isto é qual é suficiente Por exemplo dada amostra X é de esperar que a estatistica TX X contenha toda informacao da amostra Mas talvez para certos modelos estatisticos haja uma estatistica suficiente mais enxuta Exemplifiquemos com o seguinte exemplo Example 1 Seja o modelo f xθ Nµ σ2 com parametro θ µ σ2 Recordemos que a funcao de verossimilhanca pode ser reescrita em termos da media empirica x e variancia empirica s2 x Prepared by Philip Thompson on August 10 2023 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 2 of 9 da amostra x X1 Xn 1 nS2 nX f Ul 0 ay oo 352 oo 332 Note entao que a pdf fxw a depende da amostra x somente via Tx 71x Tox onde T1x X e Tox S Sendo mais precisos se definamos a pdf 1 nts nt 1 t t as qt talu 7 o Vom oo sez e0 G2 temse que qT x fx0 Notemos tambem que a verossimilhanca fx com parametro 6 poderia ser recuperada por qT x se tivessemos apenas qT x Cxfx para algum fator Cx de normalizacao independente de 8 A seguinte definicao formaliza as observacoes do exemplo anterior Definition 1 Estatistica suficiente Seja um modelo estatistico com pdfs de verossimilhanca fx Uma estatistica Tx é dita suficiente se para todo 0 a distribuicao condicional XT X no parametro 6 tem pdf da forma fxT x hx onde h é uma funcao independente de O resultado a seguir justifica a definicao conforme o exemplo anterior Theorem 1 Teorema de Fatorizacao para suficiencia Seja um modelo estatistico com pdfs de verossimilhanca fx Uma estatistica Tx é suficiente se e somente se existem funcoes gt e hx independente de tal que para todo 6 e todo x Fx hxgT x8 1 Prova Provamos apenas no caso discreto Seja qt a pdf de T e fxTx a distribuicao condicional X7X no parametro 6 Temos que FxT x 0 PoX xTX Tx PeX x TX Tx PeTX Tx PoX x PoT X Tx f x gTx6 2 qT x Suponha primeiro que Tx é suficiente Temse para alguma funcao hx independente de que hx fxT x e a afirmacao seque de 2 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 3 of 9 Suponha agora que vale 1 nao podemos afirmar a principio que qt gt Temos que qT xO PoTX Tx S PeX y yTyTx do fy yTyTx So AtygTyI yTyTx 9Tx YS Aly yTyTx Temos entao que f x fxT x 8 aT x8 hx gT x8 gTx yy Tx hy hx dey tyrx MY que mostra o resultado Ja que a razao acima é independente de C O Teorema de Fatorizacao implica imediatamente uma estatistica suficiente de uma familia exponencial de distribuicoes Corollary 1 Familia Exponencial Seja familia de distribuicoes Peece sobre X com C RK dada por uma familia exponencial kdimensional com aplicacoes n R eT X RK e funcoes BO4Reh X R Isto é a pdf para cada 8 é dada por f x hx exp n Tx B x A Entao a estatistica TX é suficiente Prova Basta tomar gt expnt B C Pelo Teorema da Fatorizacao nao é dificil mostrar quea identidade e qualquer composicao de uma estatistica suficiente com uma aplicacao bijetiva é também suficiente Ha portanto infinitas estatisticas suficientes Qual a menor Example 2 Recorde o Exemplo 1 Vimos que 7X X e T2X X Sx sao suficientes T3X X Sx X3 também é suficiente Mas para caracterizar a pdf fXu0 vemos que Ty e T3 sao redundantes quando comparadas a 7 notando que T é funcao de T e de T3 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 4 of 9 A definicao a seguir formaliza reduzir ao maximo uma estatistica suficiente Definition 2 Estatistica suficiente minima Uma estatistica é suficiente minima se i é suficiente é li funcao de qualquer outra estatistica suficiente Theorem 2 Seja um modelo estatistico com pdfs de verossimilhanca f x Uma estatistica T x é suficiente se para todos xy f x 0 éconstante TxTy 3 fy Prova Veja prova do Teorema 6213 em Casella e Berger Statistical Inference LJ Remark 1 Para o leitor interessado leia a Secao 624 de Casella e Berger Statistical Inference sobre os conceitos de ancillary statistics e estatistica completa e como estes se relacionam com suficiencia e suficiencia minima 3 Estatistica de ordem suficiente Dada uma amostra X a estatistica de ordem 0 vetor X Xj cujas coordenadas definem o arranjo naodecrescente de X isto é Xa LX ea S LX Theorem 3 A ordem estatistica é suficiente Prova Veja Teorema 782 do DeGroot LI Remark 2 Um resultado interessante que um modelo com verossimilhanca igual a distribuicao de Cauchy qualquer suficiencia estatistica dada pela composicao de uma aplicacao bijetora com a estatistica de ordem 4 Teorema de BlackwellRao Suficiencia e Admissibilidade Suficiencia uma metodologia para reduzir os dados sem perder informacao Até agora nao apresentamos nenhuma relacao entre suficiencia de uma estatistica e sua a performance como estimador de um parametro Em Teoria de Decisao Estatistica comparamos estimadores comparando seus riscos Por exemplo 0 risco quadratico médio MSE de um estimador 6 de um parametro é definido como R6 6 Ee 6 E natural pensar que referente a um parametro 6 um estimador é melhor do que outro se tem um menor MSE em Entretanto como nao conhecemos o parametro verdadeiro uma definicao Aula Suficiencia Admissibilidade e Informacao de Fisher Page 5 of 9 deste tipo deve englobar todo o o conjunto de parametros No contexto destas notas um tipo de criterio de performance de estimadores a Admissibilidade Definition 3 Admissibilidade Um estimador é dito inadmissivel se existe outro estimador 6 tal que 1 R206 R26 6 V8 2 R266 R6 6 for some 8 Um estimador é dito admissivel se nao é inadmissivel O resultado a seguir relaciona suficiencia e admissibilidade Theorem 4 Teorema de BlackwellRao Seja um estimador 6X e seja TX uma estatistica suficiente Defina a estatistica GoX E8XT X 4 Entao 1 R20 80 R20 6 VO 2 Suponha que 6X nao é funcao de TX Entao R69 R28 para algum tal que Ro00 oo Em outras palavras para que um estimador seja admissivel ele deve ser funcao de uma estatistica suficiente acima note que se 6X é funcao de TX entao 6X X Prova do Teorema 4 Veja prova do Teorema 791 em DeGroot CJ A seguir damos um exemplo concreto em que é possivel computar o estimador melhorado 4 Example 3 Exemplo 792 Seja X X uma amostra iid de uma Poisson 6 0 Usando o Teorema de Fatorizacao podemos facilmente mostrar que TX X é uma estatistica suficiente Por sua vez podemos mostrar que T Poissonn logo e7 née t pT t 2 t nformalmente a eficiencia de um estimador admissivel significa que nao podemos achar outro estimador que reduza o MSE uniformemente no conjunto de parametros Veremos outros conceitos de performance de estimadores Um exemplo é 0 criterio minimax com custo MSE Para que um estimador 6 seja minimax otimo é suficiente que haja um parametro 6 tal que Ro6 6 Ro 6 Ro6 6 para todos 6 e todos estimadores 6 Como se pode ver os conceitos de admissibilidade e criterio minimax sao distintos 2Nao precisamos especificar pois a estatistica é suficiente 3De fato argumento similar vale para varias familias exponenciais Aula Suficiencia Admissibilidade e Informacao de Fisher Page 6 of 9 Defina Y 1x1 e Tj ii Xj t1 Temos que EY7 t P 1T t PX 1T t 7 PT t PX 1 ix t 1 7 PT t PX 1PT t1 7 PT t Usando tambem que 7 Poissonn 1 podemos concluir a formula para EY7 t e portanto para a Y Y e usarmos 8X EYT O Teorema 4 garante que 6X melhor do que 6X Y no sentido do item 1 CO Remark 3 Para o leitor interessado veja tambem a secoes 733 e 753 de Casella e Berger Statistical Inference sobre suficiencia estimadores naoenviesados e completude 5 Informacao de Fisher e Desigualdade de CramerRao Seja 6X um estimador Usando 0 biasvariance tradeoff podemos escrever seu MSE no parametro 8 como Ro0 Eo6 6 Vo6 Ey 6 O numero biasg6 Eg6 8 chamado viés do estimador 6 de Se Eg6 6 dizemos que 6 é um estimador naoenviesado de 6 Como discutido anteriormente estimadores com MSE menores sao considerados melhores Entre estimadores com mesmo viés a principio poderiamos melhorar o MSE se diminuissemos sua varian cia resultado a seguir da uma cota inferior na variancia de qualquer estimador assumindo condicoes de diferenciabilidade razoaveis Antes recordemos a definicao de Informacao de Fisher Assumiremos que a funcao de logverossimilhanca x log fx duas vezes diferenciavel e que fx 0 a menos de um conjunto de medida nula Definition 4 Definimos a funcao Informacao de Fisher 0eX 0 Ve 6 0 Ve EO Para uma amostra lid K Xj ien definimos a Informacao de Fisher como oeX Ve 8 6 Ve 4Idealmente gostariamos de ter viés nulo mas nem sempre isso é possivel Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 9 Aula Suficiencia Admissibilidade e Informacao de Fisher Contents 1 Objetivos da aula 1 2 Estatistica Suficiente 1 3 Estatistica de ordem é suficiente 4 4 Teorema de BlackwellRao Suficiencia e Admissibilidade 4 5 Informacao de Fisher e Desigualdade de CrámerRao 6 51 Normalidade assintotica de um estimador eficiente 8 52 Desigualdade de CramérRao revisitando normalidade assintotica de MLE 9 1 Objetivos da aula Iremos definir estatistica suficiente e suficiente minima Teorema de Fatorizacao para caracterizar uma estatistica suficiente e aplicacao deste teorema para familias exponencias Relacionar esta tistica suficiente com um criterio de performance de estimadores chamado Admissibilidade via o Teorema de BlackwellRao Introduzir o conceito de Informacao de Fischer e como ele se relaciona com a variancia de estimadores desigualdade de CrámerRao TCL para estimadores eficientes e comparacao com TCL para o MLE que nem sempre é eficiente 2 Estatistica Suficiente Na busca de estimadoresestatisticas a partir de uma amostra num modelo estatistico f xθ é intuitivo perguntarnos qual estatistica contem toda a informacao dos dados isto é qual é suficiente Por exemplo dada amostra X é de esperar que a estatistica TX X contenha toda informacao da amostra Mas talvez para certos modelos estatisticos haja uma estatistica suficiente mais enxuta Exemplifiquemos com o seguinte exemplo Example 1 Seja o modelo f xθ Nµ σ2 com parametro θ µ σ2 Recordemos que a funcao de verossimilhanca pode ser reescrita em termos da media empirica x e variancia empirica s2 x Prepared by Philip Thompson on September 6 2023 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 2 of 9 da amostra x X1 Xn 1 nS2 nX f Ul 0 ay oo 352 oo 332 Note entao que a pdf fxw a depende da amostra x somente via Tx 71x Tox onde T1x X e Tox S Sendo mais precisos se definamos a pdf 1 nts nt 1 t t as qt talu 7 o Vom oo sez e0 G2 temse que qT x fx0 Notemos tambem que a verossimilhanca fx com parametro 6 poderia ser recuperada por qT x se tivessemos apenas qT x Cxfx para algum fator Cx de normalizacao independente de 8 A seguinte definicao formaliza as observacoes do exemplo anterior Definition 1 Estatistica suficiente Seja um modelo estatistico com pdfs de verossimilhanca fx Uma estatistica Tx é dita suficiente se para todo 0 a distribuicao condicional XT X no parametro 6 tem pdf da forma fxT x hx onde h é uma funcao independente de O resultado a seguir justifica a definicao conforme o exemplo anterior Theorem 1 Teorema de Fatorizacao para suficiencia Seja um modelo estatistico com pdfs de verossimilhanca fx Uma estatistica Tx é suficiente se e somente se existem funcoes gt e hx independente de tal que para todo 6 e todo x Fx hxgT x8 1 Prova Provamos apenas no caso discreto Seja qt a pdf de T e fxTx a distribuicao condicional X7X no parametro 6 Temos que FxT x 0 PoX xTX Tx PeX x TX Tx PeTX Tx PoX x PoT X Tx f x gTx6 2 qT x Suponha primeiro que Tx é suficiente Temse para alguma funcao hx independente de que hx fxT x e a afirmacao seque de 2 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 3 of 9 Suponha agora que vale 1 nao podemos afirmar a principio que qt gt Temos que qT xO PoTX Tx S PeX y yTyTx do fy yTyTx So AtygTyI yTyTx 9Tx YS Aly yTyTx Temos entao que f x fxT x 8 aT x8 hx gT x8 gTx yy Tx hy hx dey tyrx MY que mostra o resultado Ja que a razao acima é independente de C O Teorema de Fatorizacao implica imediatamente uma estatistica suficiente de uma familia exponencial de distribuicoes Corollary 1 Familia Exponencial Seja familia de distribuicoes Peece sobre X com C RK dada por uma familia exponencial kdimensional com aplicacoes n R eT X RK e funcoes BO4Reh X R Isto é a pdf para cada 8 é dada por f x hx exp n Tx B x A Entao a estatistica TX é suficiente Prova Basta tomar gt expnt B C Pelo Teorema da Fatorizacao nao é dificil mostrar quea identidade e qualquer composicao de uma estatistica suficiente com uma aplicacao bijetiva é também suficiente Ha portanto infinitas estatisticas suficientes Qual a menor Example 2 Recorde o Exemplo 1 Vimos que 7X X e T2X X Sx sao suficientes T3X X Sx X3 também é suficiente Mas para caracterizar a pdf fXu0 vemos que Ty e T3 sao redundantes quando comparadas a 7 notando que T é funcao de T e de T3 Aula Suficiencia Admissibilidade e Informacao de Fisher Page 4 of 9 A definicao a seguir formaliza reduzir ao maximo uma estatistica suficiente Definition 2 Estatistica suficiente minima Uma estatistica é suficiente minima se i é suficiente é li funcao de qualquer outra estatistica suficiente Theorem 2 Seja um modelo estatistico com pdfs de verossimilhanca f x Uma estatistica T x é suficiente se para todos xy f x 0 éconstante TxTy 3 fy Prova Veja prova do Teorema 6213 em Casella e Berger Statistical Inference LJ Remark 1 Para o leitor interessado leia a Secao 624 de Casella e Berger Statistical Inference sobre os conceitos de ancillary statistics e estatistica completa e como estes se relacionam com suficiencia e suficiencia minima 3 Estatistica de ordem suficiente Dada uma amostra X a estatistica de ordem 0 vetor X Xj cujas coordenadas definem o arranjo naodecrescente de X isto é Xa LX ea S LX Theorem 3 A ordem estatistica é suficiente Prova Veja Teorema 782 do DeGroot LI Remark 2 Um resultado interessante que um modelo com verossimilhanca igual a distribuicao de Cauchy qualquer suficiencia estatistica dada pela composicao de uma aplicacao bijetora com a estatistica de ordem 4 Teorema de BlackwellRao Suficiencia e Admissibilidade Suficiencia uma metodologia para reduzir os dados sem perder informacao Até agora nao apresentamos nenhuma relacao entre suficiencia de uma estatistica e sua a performance como estimador de um parametro Em Teoria de Decisao Estatistica comparamos estimadores comparando seus riscos Por exemplo 0 risco quadratico médio MSE de um estimador 6 de um parametro é definido como R6 6 Ee 6 E natural pensar que referente a um parametro 6 um estimador é melhor do que outro se tem um menor MSE em Entretanto como nao conhecemos o parametro verdadeiro uma definicao Aula Suficiencia Admissibilidade e Informacao de Fisher Page 5 of 9 deste tipo deve englobar todo o o conjunto de parametros No contexto destas notas um tipo de criterio de performance de estimadores a Admissibilidade Definition 3 Admissibilidade Um estimador é dito inadmissivel se existe outro estimador 6 tal que 1 R206 R26 6 V8 2 R266 R6 6 for some 8 Um estimador é dito admissivel se nao é inadmissivel O resultado a seguir relaciona suficiencia e admissibilidade Theorem 4 Teorema de BlackwellRao Seja um estimador 6X e seja TX uma estatistica suficiente Defina a estatistica GoX E8XT X 4 Entao 1 R20 80 R20 6 VO 2 Suponha que 6X nao é funcao de TX Entao R69 R28 para algum tal que Ro00 oo Em outras palavras para que um estimador seja admissivel ele deve ser funcao de uma estatistica suficiente acima note que se 6X é funcao de TX entao 6X X Prova do Teorema 4 Veja prova do Teorema 791 em DeGroot CJ A seguir damos um exemplo concreto em que é possivel computar o estimador melhorado 4 Example 3 Exemplo 792 Seja X X uma amostra iid de uma Poisson 6 0 Usando o Teorema de Fatorizacao podemos facilmente mostrar que TX X é uma estatistica suficiente Por sua vez podemos mostrar que T Poissonn logo e7 née t pT t 2 t nformalmente a eficiencia de um estimador admissivel significa que nao podemos achar outro estimador que reduza o MSE uniformemente no conjunto de parametros Veremos outros conceitos de performance de estimadores Um exemplo é 0 criterio minimax com custo MSE Para que um estimador 6 seja minimax otimo é suficiente que haja um parametro 6 tal que Ro6 6 Ro 6 Ro6 6 para todos 6 e todos estimadores 6 Como se pode ver os conceitos de admissibilidade e criterio minimax sao distintos 2Nao precisamos especificar pois a estatistica é suficiente 3De fato argumento similar vale para varias familias exponenciais Aula Suficiencia Admissibilidade e Informacao de Fisher Page 6 of 9 Defina Y 1x1 e Tj ii Xj t1 Temos que EY7 t P 1T t PX 1T t 7 PT t PX 1 ix t 1 7 PT t PX 1PT t1 7 PT t Usando tambem que 7 Poissonn 1 podemos concluir a formula para EY7 t e portanto para a Y Y e usarmos 8X EYT O Teorema 4 garante que 6X melhor do que 6X Y no sentido do item 1 CO Remark 3 Para o leitor interessado veja tambem a secoes 733 e 753 de Casella e Berger Statistical Inference sobre suficiencia estimadores naoenviesados e completude 5 Informacao de Fisher e Desigualdade de CramerRao Seja 6X um estimador Usando 0 biasvariance tradeoff podemos escrever seu MSE no parametro 8 como Ro0 Eo6 6 Vo6 Ey 6 O numero biasg6 Eg6 8 chamado viés do estimador 6 de Se Eg6 6 dizemos que 6 é um estimador naoenviesado de 6 Como discutido anteriormente estimadores com MSE menores sao considerados melhores Entre estimadores com mesmo viés a principio poderiamos melhorar o MSE se diminuissemos sua varian cia resultado a seguir da uma cota inferior na variancia de qualquer estimador assumindo condicoes de diferenciabilidade razoaveis Antes recordemos a definicao de Informacao de Fisher Assumiremos que a funcao de logverossimilhanca x log fx duas vezes diferenciavel e que fx 0 a menos de um conjunto de medida nula Definition 4 Definimos a funcao Informacao de Fisher 0eX 0 Ve 6 0 Ve EO Para uma amostra lid K Xj ien definimos a Informacao de Fisher como oeX Ve 8 6 Ve 4Idealmente gostariamos de ter viés nulo mas nem sempre isso é possivel Aula Suficiencia Admissibilidade e Informacao de Fisher Page 7 of 9 Vimos que Theorem 5 Temse que Eg Ses 8 O0e OLX 7 OrX 18 Es 2 5 PEN o Finalmente nl Theorem 6 Desigualdade de CramerRao Seja uma amostra lid X Xi n um modelo estatistico com verossimilhanca fx e x log fx Seja um estimador 6X tal que 1 a funcao m Ee8X é diferenciavel e m f 2 8x Fx6dx 2 V9OX oo Entao m8 6X VolAX 5 Assumindo que tanto 6X m como 6X6 sejam naonulos temse com igualdade em 5 se e somente se existe a 0 tal que A 0 a8X m8 ap eXI8 Prova Seja Z 6X eW ZX6 Do teorema anterior temos que EgW 0 Portanto O m 0 Pegg lieax 3 f X8 Ey 6x OP 0X8 E ax 2 log f X Ke 0 g EZW EoZ EZW EW CoveZ W Por CauchySchwarz CoveZW m 6X VZ Vo Vol a VW 18 onde usamos VoW conforme o teorema anterior A desigualdade de CauchySchwarz vira igualdade se e somente Z EZ aW para algum a finalizando a prova C Recorde que a menos de um conjunto de medida nula XY CovX Y define um produto interno com norma Euclidiana associada X CovX X Aula Suficiencia Admissibilidade e Informacao de Fisher Page 8 of 9 Remark 4 No contexto da Desigualdade de CramerRao estimadores de sao ditos eficientes se tem a menor variancia em 6 isto é atingem a igualdade em 5 Remark 5 Veja pg 525 de DeGroot para a versao da Desigualdade de CramerRao quando o parametro é multidimensional 51 Normalidade assintotica de um estimador eficiente Theorem 7 TCL para estimadores eficientes Considere as hipoteses do Teorema 6 Assuma que um estimador 6X é eficiente e que m 0 para todo Entao V1n0 d 6X 0 1 may 0 9 2 NO1 Prova Sabemos que para todo 6 X 5 X e portanto ax0 So eX8 i1 Do Teorema 5 temse que X9 tem média 0 e variancia Temos do TCL que 1 d EKI8 N0 1 6 nl0 Sendo 6X um estimador eficiente de média Ee4X temos do Teorema 6 que ary in9 VoOX 78 X AX m a8 para alguma funcao a 0 Tomando o valor esperado do quadrado da segunda equacao acima usando a primeira equacao e o Teorema 5 concluimos que a aes Sem perda de generali dade podemos escolher a ae e portanto ry X0 6X m6 m8 Substituindo esta expressao em 6 finalizamos a prova L Remark 6 Estes resultados também podem ser generalizados para 0 caso em que o parametro é multidimensional Veja pg 525 no DeGroot Aula Suficiencia Admissibilidade e Informacao de Fisher Page 9 of 9 52 Desigualdade de CramérRao revisitando normalidade assintotica de MLE Nem sempre o MLE eficiente no sentido da Desigualdade de CramerRao Mas recorde que mostramos a normalidade assintotica do MLE Theorem 8 Normalidade assintotica do MLE caso unidimensional Seja uma amostra lid Xifietn de Pe e seja 60MLE correspondente Sobre hipoteses apropriadas de regularidade tem se que V1n66 6 N0 1 7 Note no entanto que nas condicoes do teorema anterior o MLE é assintoticamente eficiente e naoenviesado no sentido de que a normalidade assintotica do MLE é a mesma de um estimador eficiente e naoenviesado conforme Teorema 7 Recorde que se o estimador naoenviesado m 6 e logo m 1 Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 9 Aula Uma leve discussao sobre Teoria de Decisao Estatistica Contents 1 Objetivos da aula 1 2 Preludio eficiencia do MLE 1 3 Custos e riscos 2 4 Comparando riscos 3 5 Estimador de Bayes 5 6 Estimador de Bayes com custo quadratico 6 7 MLE e a distribuicao a posteriori 7 8 Estimador de Bayes com risco constante é minimax 7 9 Algumas consideracoes finais 8 91 MLE minimax e Bayes 8 92 Admissibilidade 8 93 Suficiencia 9 1 Objetivos da aula Estas notas sao baseadas em grande parte no Capitulo 12 de Larry Wasserman All of Statistics Funcoes custo e risco de estimadores Estimadores minimax e de Bayes O estimador de Bayes com custo quadratico é a media a posteriori Relacao entre MLE e a distribuicao a posteriori Algumas consideracoes finais 2 Preludio eficiencia do MLE Vimos que Prepared by Philip Thompson on September 11 2023 Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 2 of 9 Theorem 1 Normalidade assintotica do MLE caso unidimensional Seja uma amostra lid Xiien de Pe e seja 8 o MLE correspondente Sobre hipoteses apropriadas de regularidade tem se que oN x d V 186 6 N0 1 1 Vimos que nas condicoes do teorema anterior o MLE assintoticamente eficiente e nao enviesado no sentido de que a normalidade assintotica do MLE é a mesma de um estimador eficiente e naoenviesado Suponha que X uma amostra iid 6 0 assumindo que o é conhecido Vimos que o MLE de 6 a média empirica 6 X Um outro estimador razoavel seria a mediana 6 Usando o teorema de normalidade assintotica do MLE sabemos que sob certas condicoes de regularidade Jn6 6 4 N0 02 Podese provar que a mediana satisfaz A x d wv 2 Jn 6 N0 50 Portanto assintoticamente o MLE é melhor pois possue menor variancia Em geral se temos dois estimadores 7 e U satisfazendo wy d VnT 6 N0 t xy d VnU 6 N0 u definimos a razao assintotica relativa de U sobre T como AREU T tu Theorem 2 Sob certas condicoes de otimalidade se 6 denota o MLE e 6 qualquer outro estimador ARE6 0 1 Portanto o MLE tem a menor variancia assintotica e dizemos que ele é assintoticamente eficiente ou otimo Recordando as observacoes da aula 6 notemos que esta discussao esta relacionada a eficiencia referente ao risco quadratico medio MSE de um estimador mas num sentido assintotico Obser vamos também que o MLE assintoticamente eficiente assumindo que 1 0 modelo é correto 2 o MLE é bem definido e 3 determinadas hipoteses de regularidade se satisfazem 3 Custos e riscos A Teoria de Decisao estatistica tenta formalizar criterios para comparar estimadores de modo a escolher o melhor Para tanto definese o risco de um estimador associado a uma funcao custo 1De fato o MSE a soma da variancia mais 0 vies ao quadrado por exemplo estimadores eficientes nao enviesados tem variancia é igual a 1 Além disso se o estimador é consistente seu bias tende a zero quando n oo Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 3 of 9 Exemplos de funcao custo L66 06 L66 4 L66 6 Definition 1 O risco médio de um estimador 6 associado a uma funcao custo L 6 a funcao 6 R6 6 EoL6 6 H08x10ax Recorde que quando o custo é quadratico L temos o MSE R6 6 Eo0 6 Vo6 bias3 4 4 Comparando riscos A funcao de risco pode ser utilizada para comparar estimadores Entretanto seu valor geralmente depende do valor do parametro Example 1 Seja X uma amostra iid Bernoullip Tomaremos a funcao custo quadratico Para o estimador 6 X temos que seu vies nulo logo o Pp1 Rp Ps VpXq PP Um outro estimador é a Pao 64n onde S 7 X a B sao constantes positivas2 Temos Rp B2 VpX2 biass 62 Sa Sa v biasz s2555 lasg 2 np1 p 4 npa p a 6 n aBn Tomando a 6 n4 temos Strn4 n Rp p2 p 2 An 4 Jn De fato fo a média a posteriori quando a distribuicao a priori é Betaa B Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 4 of 9 Como nenhum dos riscos Rp 61 e Rp 62 domina o outro sendo um maior do que o outro dependendo do valor de p 0 1 ad QB P Oo Isto mostra que necessitamos de criterios para comparar funcoes de risco A seguir daremos dois criterios Definition 2 Risco maximo e risco de Bayes O risco maximo o numero R6 sup R 8 O risco de Bayes para um pdf a priori 8 o numero re0 R6 60d8 3 Example 2 Considere o Exemplo 1 Temos plp 1 R max Pr pe0 1 n 4n n R po Po Foy np Portanto R62 R6 Entretanto quando n é grande Rf é estritamente menor do que Rf2 a menos de um intervalo bem pequeno em torno de p 12 Por isso 6 costuma ser preferido a fo Isto mostra que um criterio envolvendo apenas um valor como o criterio minimax nao é perfeito Calculemos o risco de Bayes com pdf a priori constante p 1 Temse n p1 p 1 lr Rppidp dp P1 p Pdp dp P Rp bad if é P2 PD Poap An n 3Isto 0 risco médio segundo a pdf Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 5 of 9 Para n 20 refo refi sugerindo preferencia por 6 Entretanto isto depende da pdf a priori escolhida apesar de sua imperfeicao o criterio minimax independe desta escolha C Definition 3 Criterio minimax e criterio de Bayes Um estimador 6 satisfaz o criterio minimax ou simplesmente é o estimador minimax se ele minimiza o risco maximo Isto é se R6 minsup R 6 6 86 onde o infimo é tomado sobre o conjunto de todos os estimadores 6 Dada pdf a priori um estimador 6 satisfaz o criterio de Bayes ou simplesmente é o estimador de Bayes se ele minimiza o risco de Bayes isto é se re8 min 6 6 onde o infimo é tomado sobre o conjunto de todos os estimadores 6 5 Estimador de Bayes Seja um modelo Bayesiano com pdf a priori e verossimilhanca fx onde fx fxOE é a pdf conjunta de x Recorde que pelo Teorema de Bayes a pdf a posteriori é dada por fx8 8x gx onde gx fx d a pdf marginal de X Definition 4 Risco a posteriori e estimador de Bayes O risco a posteriori de um estimador 6 6X associado a funcao custo L e pdf a priori é a funcao mensuravel xK re8x x L 6 6xE6xd0 Theorem 3 Calculando 0 estimador de Bayes via o risco a posteriori Considere a definicao anterior Temse 1 O risco de Bayes de um estimador 6 satisfaz re6 f re6xxgxdx 2 O estimador de Bayes x 6x satisfaz para todo x 6x argmin L 6 6xd EL6 6X x 2 6cO Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 6 of 9 Prova Usando o Teorema de Fubinni temos que re0 R6 6dé L8 AxFxleax dé re 6xFx0fdxd re 6x Fx dxd 006 6xaxdxa0 L8 Ax 61x28 gxdx 6 aDax provando o Item 1 Seja x x satisfazendo 2 O item 2 segue do item 1 ja que para todo estimador x 6x 108 0x40 ofa 3 0680 ex48 oceyax 4 r6 5 mostrando que 6 é 0 estimador de Bayes LJ 6 Estimador de Bayes com custo quadratico O Teorema 3 fornece um método de computar o estimador de Bayes via a distribuicao a posteriori Nem sempre esse método é pratico Quanto o custo é quadratico temos uma formula fechada Theorem 4 Suponha o custo quadratico L Entao o estimador de Bayes é dado pela média a posteriori 6x seex00 Prova Dado x a condicao de primeiraordem do problema de minimizacao 2 na variavel 6 implica 2 6 6x6xd 0 Usando que f xd 1 concluise a prova L 4 Aqui assumimos que podemos inverter a ordem de integracao com a derivacao Aula Uma leve discussao sobre Teoria de Decisao Estatistica Page 7 of 9 Remark 1 Podese mostrar também que com custo L o estimador de Bayes é a mediana a posteriori Example 3 Iremos justificar a construcao do estimador 62 do Exemplo 1 Pelo Teorema 2 da aula 5 Bernoulli com a conjugada a priori Betaa GB tem posteriori Beta temos que 6X Betaa S8nS Recorrendo a formula da média de uma distribuicao Beta segue do Teorema 4 que o estimador de Bayes é aS aS Bo 60Xdé8 A a Pe ee aS6nS a6Bn Example 4 Seja X X iid N07 com o conhecida Usemos uma a conjugada a priori N lo 0 Do Teorema 4 da aula 5 e Teorema 4 segue que o estimador de Bayes é OU NOGXn oF nop MLE e a distribuicao a posteriori Recorde que o estimador de Bayes com custo quadratico é a média a posteriori Note que quando n oo as médias a posteriori dos Exemplos 3 e 4 tendem ao MLE respectivamente Sn e X Este resultado vale mais geralmente Theorem 5 Seja X Xjien iid de Pe Denote por 6 6X o MLE e por 6 8X a média a posteriori com pdf a posteriori X Seja Z variavel aleatoria tal que ZK X Sobre determinadas hipoteses de regularidade condicionalmente a X A 1 Z4N nl6 5 ff P P Em particular 8 0 e686 Veja enunciado do Teorema 115 de Larry Wasserman All of Statistics e pgs 412413 e 524525 do DeGroot 8 Estimador de Bayes com risco constante é minimax Theorem 6 Seja a pdf a priori e o correspondente estimador de Bayes 6 Se R66 6 VO entao 6 é minimax Em particular se R6 c para todo entao 6 é minimax Inferencia Estatistica Graduacao FGV EMAp 2o semestre 2023 Page 1 of 8 Aula Distribuicoes amostrais clássicas χ2 t e F Contents 1 Objetivos da aula 1 2 Distribuicao χ2 2 3 Distribuicao t 4 4 Distribuicao F 6 5 Apendice 7 51 Prova do Teorema 2 7 52 Prova do Lemma 1 8 1 Objetivos da aula Nessas notas veremos a definicao e propriedades da distribuicao de estatisticas classicas da amostra de dados X Xin i1 de uma normal Sao elas a distribuicao χ2 n distribuicao Student tn e a dis tribuicao Fn1n2 homenageando Fischer Veja as Secoes 8284 e 97 do livrotexto Futuramente veremos porque estas estatisticas sao importantes ao construir intervalos de confianca e testes de hipóteses Resumidamente se Y χ2 n entao Yn é a distribuicao da variancia amostral de uma amostra de tamanho n Ela surgirá quando fazermos inferencia ao estimar a variancia populacional de uma normal a distribuicao tn é a distribuicao da média amostral mas padronizada utilizandose a variancia amostral ao invés da variancia populacional Ela será utilizada quando fizermos inferencia ao estimarmos a média populacional de uma normal nao sabendo a variancia populacional a distribuicao Fn1n2 é a distribuicao da razao de duas variancias amostrais advindas de duas amostras independentes a primeira de tamanho n1 e a segunda de tamanho n2 A utilizare mos quando fizermos inferencia referente à comparacao entre duas normais Prepared by Philip Thompson on September 10 2023 Aula Distribuicoes amostrais classicas x t e F Page 2 of 8 2 Distribuicao x7 A funcao gamma 000 R é definida por Fa te tedt 0 Uma distribuicao que tem densidade a menos de uma transformacao linear e normalizacao da forma da funcao gamma é chamada de distribuicao gamma Definition 1 Distribuicao Gamma Seja aG numeros positivos Uma variavel aleatoria X tem distribuicao gamma com parametros a B simbolicamente la 8 se tem pdf PP yaleBx sex 0 Fxla B TO S sex 0 Definition 2 Distribuicao x7 Dado n N a distribuicao n212 é dita distribuicao x com n graus de liberdade simbolicamente x2 ou xn Em particular sua densidade é 1 f n21 x2 x Dn78T nD e x 0 Distribuigao Quiquadrado fx x ae ie L 05 I 72 k3 04 a k6 03 TG 02 01 00 0 1 2 3 4 5 6 7 A fungao densidade de probabilidade da distribuigao Veja Secao 82 do DeGroot para expressoes da média variancia momentos e funcao geradora de momentos mgf O seguinte resultado motiva probabilisticamente o porque a distribuicao x é importante Theorem 1 Se X N01 entao X x1 Aula Distribuicoes amostrais classicas x t e F Page 3 of 8 Proof Denote Y X com pdf f e cdf F Seja também e a pdf e cdf de X respectivamente Temos Fly PY yPy X y y oy Derivando e usando que y y e2r ye 12 12 1 12 y2 y Fy OU 6 Ominy LJ Finalmente o resultado a seguir motiva o grau de liberdade de uma distribuicao x7 Veja o Apendice para a prova Theorem 2 Seja X lid Np 07 Entao 37 Xi b0 xn Referente ao teorema anterior denote por X X a média amostral e S Xj X a variancia amostral Fazemos agora as seguintes observacoes e Recorde que 5X wo N01 e X 0 MLE para w quando sabemos a variancia a Podemos usar este resultado para fazermos inferencia ao estimar ws sabendo e Recorde que assumindo que conhecemos pu o MLE para estimar 0 parametro 0 Z 1X Portanto podemos usar o Teorema 2 para fazer inferencia ao estimar o sabendo LL e E claro que 0 caso mais pratico é quando o par tu 07 desconhecido Neste caso o MLE é dado pelo par X S O principal resultado desta secao sera o Teorema 3 que afirma que nS o SXX0 xn1 Em outras palavras a menos de um ponto amostral a menos fazer inferencia ao estimar 0 de uma normal com o MLE essencialmente a mesma coisa se sabermos ou nao a media populacional Precisaremos do seguinte resultado auxiliar Veja o apendice para a prova Lemma 1 Seja X R um vetor aleatorio NpZ Seja b R e matriz A R Entao AX b NAp b AXA Theorem 3 Seja X lid Nu 07 Entao 1 O par X S é independente 2 Via Xi X0 x7n 1 Em particular 0 par aleatorio nX wo nS07 tem distribuicao produto N0 1 x xn1 Aula Distribuicoes amostrais classicas x t e F Page 4 of 8 Proof O vetor uy Sao dal de n coordenadas tem norma Euclideana 1 Podemos completar uy eM uM conjunto ortonormal u Seja A a matriz n x n cuja ézima linha u segue que A é uma matriz ortonormal isto é tem inversa igual a sua transposta Denote o vetor de dados X XX e AX Temos que X N0I portanto do Lema 1 Y N01 Em particular Y e Y sao independentes Note que Y AX Sa ore Xi nX Além disso Y X5 So7 X pois transformacoes ortogonais preservam normas Portanto n n n n Soye Oy y8 xe 0k OW XY i2 i1 i1 i1 onde na ultima linha usamos a decomposicao viésvariancia do segundo momento amostral A prova do item 1 segue ja que Y e Y2 sao independentes A prova do item 2 segue de que YiP Ww N 01 e portanto xn 1 pelo Teorema 2 oO Remark 1 Independencia entre media e variancia amostral de uma amostra Gaussiana O fato bastante surpreendente por sinal de que a media e variancia amostrais de uma normal sao independentes nao é propriamente usada para fazer inferencia ao estimar o via a variancia amostral Mas sera fundamental para fazer inferencia ao estimar f via a média amostral sem saber a7 Isto motiva a secao a seguir 3 Distribuicao t Definition 3 Distribuicao t Seja ZY um par aleatorio independente com Z N01 e Y x2 A distribuicao t com n graus de liberdade simbolicamente t é a distribuicao da varidvel 5 Zz aleatoria X wiv Lemma 2 A densidade de t é Fn412 x2 er D2 Fx int 12 1 xER n2Pn2 n Proof Definemos a transformacao H R x Ry Rx Rx por zw Hx y xn7 y Sejam Z N01 eW Y x2 independentes Defina também X ZYn Em particular ZW HXY e portanto mudandose de variaveis a cdf de X Y é dada para x y RxR x y Fx yx y fz wz wdzdw fz wHx y detHx ydxdy H00x x 00y oo J00 onde Hx y a Jacobiana de H em x y Aula Distribuicoes amostrais classicas x t e F Page 5 of 8 Temse que para x y RxR detHx y n Usando que Z W N01 x x2 concluimos entao que fx yx fewHx y detHx y fe xn fy n 7 em 1 8 Fi n21 992 yy12 Da 2727 n2 n x2 n co bCr tt yt para uma constante apropriada c 0 Mudandose de variaveis sabemos da definicao da funcao gamma que para numeros positivos a 6 fo te tetdt He Portanto 00 oo 2 h Pe xx ty x ydy c e ytd ca 5 1 Substituindo a expressao da constante c provamos o enunciado do lemma C Corollary 1 do Teorema 3 Seja X lid Nu 07 e defina 1 n a2 2 62 ao xX i1 Entdo Jn th1 Proof Chame Z nX o e Y n 16207 Do Teorema 3 temos que as variaveis aleatorias Z NO 1 eY xn1 sao independentes Segue que Vian tn1 Finalmente Z pxXat Yn1 vn Gn UO Remark 2 Normalizando a variancia amostral com n1 Recorde que o MLE para 1 07 resulta no estimador 1 S xX i1 O corolario anterior do Teorema 3 sugere no entanto a estatistica 6 ao normalizarmos a média amostral para que possamos fazer inferencia para desconhencendo a Por coincidéncia o estimador Go é um estimador naoenviesado de o veja Thm 871 um resultado simples da de composicao viésvariancia amostral E claro que S G2 converge a 0 em probabilidade quando no Aula Distribuicoes amostrais classicas x7 t e F Page 6 of 8 Remark 3 Caudas pesadas A distribuicao t um exemplo interessante de caudas pesadas que surge ao substituir a variancia populacional pela variancia amostral na normalizacao da media amostral centralizada Por caudas pesadas queremos dizer que a distribuicao t tem momentos finitos apenas até a ordem n 1 Compare com 01 que possui todos momentos finitos Em particular t exatamente a distribuicao de Cauchy Note no entanto que t converge em distribuicao a N0 1 quando n oo Density Normal 047 Cauchy fs ssoseesee 5 Degrees Ie of Freedom i 20 Degrees I of Freedom F 2 01 4 2 0 2 4 x 4 Distribuicao F Definition 4 Distribuicao F Seja ZY um par aleatorio independente com Z x2 eY x2 A distribuicao F com men graus de liberdade simbolicamente Fmn é a distribuicao da variavel st Zm aleatoria X Vin Lemma 3 A densidade de Fmn é p mie mm2 yn2 xm2 1 fx CE men x 0 Fm2Fn2 mx ntmn2 Rascunho da prova O método de prova é bastante similar ao da prova do Lemma 2 mas usando a transformacao H Ry x Ry R x Ry dada por yz Hx w xwmn w e com as variaveis aleatorias VW Z x2 Y x2 eX ZmYn Veja Thm 971 em DeGroot O Aula Distribuicoes amostrais classicas x t e F Page 7 of 8 Distribuigao F de FisherSnedecor dt4d21 d42421 a d454252 d210d21 d1100 d2 OF O 0 1 2 3 4 5 Fungao densidade de probabilidade Corollary 2 Se X Fmn entao X Fnm SeY t entao Y F1n Corollary 3 do Teorema 3 Sejam Xj lid N107 e Yi lid NU2 05 duas amostras independentes Defina 1 1 a2 2 a2 vy 62 ma XxX e mi Y 620 Entao 3733 Fny 1 1 ylry2 5 Apendice 51 Prova do Teorema 2 Na verdade vale o resultado mais geral Theorem 4 Seja X sequencia independente tal que X xnj Entao 37 Xi x 9271 ni Proof Utilizaremos o Thm 443 do DeGroot duas distribuicoes com as mesmas mgfs numa vixinhanca de 0 sao iguais ParaO0 t 6 amgf de X ITaB é pt Efe pe 1g pe la B ef xa Bdx xe teBdxgy f fp et alan Byex a5 f ra 0 pa Aula Distribuicoes amostrais classicas x t e F Page 8 of 8 Seja wy a mgf de X Por independencia para 0 t 6 a mgf da soma 5 X é n n 12 n2 12 ry nj2 t it a vex0TwOHaz aa que a mgf de xS n na vizinhanca 0 t B O resultado segue do Thm 433 LJ 52 Prova do Lemma 1 Utilizaremos a caracterizacao de distribuicoes via funcoes caracteristicas A seguir i 1 Para um vetor aleatorio X Np XZ a funcao caracteristica pode ser calculada para cada t R tXt xt Blexoit exp eT 2 Temos que para cada t R Waxot Elexpit AX b EfexpiA tX expit b AtXAt exp wary cane expit b tAXAt exp 127 au b ae que a funcao caracteristica de NAu b AXA O resultado segue da unicidade da funcao caracteristica um resultado similar ao Thm 433 Isto uma técnica diferente de funcoes geradoras de momento conforme Thm 433 do DeGroot mas a idéia é parecida