·

Cursos Gerais ·

Estatística Econômica e Introdução à Econometria

Send your question to AI and receive an answer instantly

Ask Question

Preview text

1 III AMOSTRAGEM ESTRATIFICADA Na amostragem simples partimos de uma população homogênea na qual cada elemento amostrado tem as mesmas características desta população Agora veremos uma situação em que a população X não é mais assim é uma população que pode ser particionada em K diferentes subpopulações homogêneas ou estratos k 12K Ou seja a população é agora a n upla X1X2XK a qual tem o tamanho total N finito Seja Xk a subpopulação do estrato k No interior de cada estrato suporemos que as subpopulações possuem características homogêneas Estas características serão aqui resumidas por três parâmetros o tamanho Nk a média EXk k e a variância VXk k 2 Naturalmente N1 N2 NK N população total A figura abaixo ilustra uma população estratificada em 4 subpopulações Entendemos que a população X deve naturalmente ser vista como uma média ponderada das subpopulações Xk as ponderações sendo dadas pelas parcelas das subpopulações na população total wk NkN ou seja X k1 K wkXk 1 A expressão acima estabelece uma relação entre os momentos da população e os momentos das subpopulações Para a média EX Ek1 K wkXk k1 K wkEXk ou seja Hugo Boff Estatística II 2020I 2 k1 K wkk 2 Para a variância 2 VX Vk1 K wkXk k1 K wk 2VXk 2k2 K lk wlwkCovXlXk ou seja 2 k1 K wk 2k 2 2k2 K lk wlwklk Uma hipótese cômoda consiste em supor que as subpopulações sejam independentes o que implicará covariâncias lk nulas Ou se não forem independentes em situações em que as covariâncias interstrata mudam de sinal podemos supor que o termo 2k2 K lk wlwklk seja próximo de 0 e deste modo poderá ser negligenciado Nestas condições a variância da população será expressa apenas como uma soma das variâncias das subpopulações com pesos quadráticos 2 k1 K wk 2k 2 3 Amostragem Estratificada Supomos que K amostras aleatórias simples independentes entre si a amostra no estrato k terá tamanho nk Ou seja a subamostra Xk 1Xk 2Xk nk é uma sequência iid independente e idênticamente distribuída extraída da subpopulação Xk a qual tem média k e variância k 2 desconhecidos Como vimos no Capítulo II os estimadores amostrais não viesados para k e variância k 2 são respectivamente Xk 1nk i1 nk Xk i 4 Sk 2 1 nk 1 i1 nk Xk i Xk2 5 Com base nestas estatísticas subamostrais construímos as estatísticas para a amostra inteira De acôrdo com 2 a média da amostra estratificada será a média ponderada das médias subamostrais dadas em 4 com os pesos populacionais Xs k1 K wkXk 6 Hugo Boff Estatística II 2020I 3 É fácil de ver que a média amostral Xs é um estimador não viesado da média populacional EXs Ek1 K wkXk k1 K wkEXk k1 K wkk Por outro lado de acordo com 3 o estimador não viesado da variância da população 2 será uma combinação linear das variâncias subamostrais dadas em 5 com os coeficientes populacionais quadráticos S2 k1 K wk 2Sk 2 7 É fácil verificar ES2 Ek1 K wk 2Sk 2 k1 K wk 2ESk 2 k1 K wk 2k 2 2 Ou seja o estimador S2 é não viesado Qual a variância da média amostral da amostra estratificada dada em 6 Note que a variância da média amostral no estrato k é VXk 1nk 1 nk 1 Nk 1 k 2 8 O termo 1 nk 1 Nk 1 é uma correção implementada do fato da amostragem ser feita sem reposição em um universo finito É razoável supor que o tamanho da amostra nk seja pequeno relativamente ao tamanho da população Nk do extrato de modo que 1 nk 1 Nk 1 1 Assim na sequência aproximaremos a variância das médias subamostrais por VXk k 2 nk 9 Deste modo a variância da média amostral estratificada dada em 6 será aproximada por VXs Vk1 K wkXk k1 K wk 2VXk ou seja VXs k1 K wk 2 k 2 nk 10 Hugo Boff Estatística II 2020I 4 Alocação Ótima de Neyman Suponha que o tamanho n da amostra estratificada seja dado no Capítulo VI veremos critérios usados para determinar o tamanho total da amostra Sabemos que a soma dos tamanhos subamostrais deve deve atender a equação n1 n2 nK n 11 onde n é préfixado Uma questão que naturalmente se coloca neste nível é Existe algum critério que poderia ser usado para determinar os tamanhos das subamostras Levando em conta que a média da amostra estratificada é uma estatística chave no processo da amostragem e que quanto maior sua variância menos eficiente será a estimação da média populacional Neyman propõe escolher os tamanhos subamostrais nk de modo a minimizar a variância dada em 10 sujeito à restrição 11 Para resolver este problema de minimização condicionada consideremos o Lagrangeano L k1 K wk 2 k 2 nk n1 n2 nK n Então L nk wk 2 k 2 nk 2 0 k 12K 12 L n1 n2 nk n 0 13 Resolvendo 12 em nk obtemos nk wkk 14 Somando em k à esquerda e à direita desta equação obtemos n 1 k1 K wkk ou seja 1n k1 K wkk Substituindo este valor em 14 obtemos finalmente nk wkk k1 K wkk n k 12K 15 Hugo Boff Estatística II 2020I 5 Observe que as soluções dadas em 15 correspondem bem à um mínimo condicionado da variância da média amostral estratificada porque esta sendo uma função convexa e a restrição uma hiperplano linear as condições de primeira ordem da otimização do Lagrangeano são suficientes para garantir a solução mínima para a função objetivo do problema Definindo k wkk k1 K wkk nkn o peso da subamostra k na amostra total vemos que este é tanto maior quanto a maior o peso da subpopulação k na população total wk NkN b maior a dispersão do atributo X na subpopulação k k Por esta última condição quando a subpopulação é mais heterogênea com relação ao atributo estudado a representatividade da subamostra requererá um tamanho maior Isto faz todo sentido Substituindo os tamanhos subamostrais ótimos dados em 15 na fórmula da variância da média amostral estratificada dada em 10 podemos facilmente checar que o valor mínimo da variância é dado por VXs 1n k1 K wkk2 16 Exemplo A título de ilustração numérica suponha que uma pesquisa nacional deseja avaliar os anos de escolaridade X do chefe nos domicílios do país Como existem disparidades regionais optouse por realizar uma amostragem estratificada de tamanho total 10000 entre as 5 macroregiões Brasileiras Norte NT Nordeste NE CentroOeste CO Sudeste SE e Sul SL Os anos de escolaridade nas regiões tem distribuição Normal com média desconhecida e variância apresentada na tabela abaixo segunda linha juntamente com a parcela da população regional na população nacional primeira linha NT NE CO SE SL wk 0088 0272 0078 0422 0140 2 144 100 49 25 9 Hugo Boff Estatística II 2020I 6 Olhando para a expressão 15 temos k1 K wkk 008812 027210 00787 04225 01403 6 852 Assim os pesos ótimos das subamostras e seu tamanho são NT NE CO SE SL k 0154 0397 0079 0308 0062 nk 1540 3970 790 3080 620 O valor mínimo da variância da média amostral estratificada dado em 16 será Votimal p 1 10000 68522 4 6950 103 0004695 ou seja Voptimal 0068 anos de escolaridade Temos assim um desviopadrão da média amostral de 25 dias aproximadamente Alocação proporcional É claro a precisão na estimativa da média populacional será menor se levássemos em conta apenas o fator populacional na determinação do tamanho das subamostras Neste caso teríamos nk wkn de modo que levando estes valores em 10 teremos a variância VpropX 1n k1 K wkk 2 17 Substituindo os valores do exemplo obtemos Vprop 1 10000 0088144 0272100 007849 042225 01409 00055504 ou seja Vprop 00745 anos de escolaridade Assim temos um desviopadrão da média amostral de 27 dias aproximadamente Amostragem simples Se ignorarmos a diversidade da dispersão e da população entre os estratos e considerarmos uma amostragem simples a variância da média amostral obtida será Hugo Boff Estatística II 2020I 7 VX 2 n 18 No exemplo acima a média simples das variâncias do atributo das subpopulações é igual à 654 de modo que Vsimples 645 10000 000645 ou seja Vsimples 00803 anos de escolaridade Assim temos um desviopadrão da média amostral de 29 dias Hugo Boff Estatística II 2020I