·
Economia ·
Inferência Estatística 1
Send your question to AI and receive an answer instantly
Recommended for you
5
Prova de Introdução à Probabilidade e Estatística - 2022.2
Inferência Estatística 1
UFABC
4
Plano de Ensino da Disciplina Introdução à Inferência Estatística - Quadrimestre 2 de 2022
Inferência Estatística 1
UFABC
5
Prova de Introdução à Probabilidade e à Estatística - Teste 2
Inferência Estatística 1
UFABC
5
Indicações de Solução ao Teste 4 IIE 2022
Inferência Estatística 1
UFABC
7
Indicações de Solução ao Teste de Hipóteses sobre Pneus
Inferência Estatística 1
UFABC
1
Teste de Hipotese para Media Populacional - IC-mu e Sigma Quadrado
Inferência Estatística 1
UFABC
1
Guia de Estudos - AP2: Exercícios dos Capítulos 11 a 13
Inferência Estatística 1
IBMEC
Preview text
ESTATÍSTICA BÁSICA 9ª Edição WILTON DE O BUSSAB PEDRO A MORETTIN Pedro A Morettin Wilton de O Bussab ESTATÍSTICA BÁSICA 9ª edição Av das Nações Unidas 7221 1º Andar Setor B Pinheiros São Paulo SP CEP 05425902 SAC 08000117875 De 2ª a 6ª das 8h às 18h wwweditorasaraivacombrcontato Presidente Eduardo Mufarej Vicepresidente Claudio Lensing Diretora editorial Flávia Alves Bravin Planejamento editorial Rita de Cássia S Puoço Aquisições Fernando Alves Julia DAllevo Editores Ana Laura Valerio Ligia Maria Marques Thiago Fraga Produtoras editoriais Alline Garcia Bullara Amanda M Loyola Daniela Nogueira Secondo Suporte editorial Juliana Bojczuk Fermino Arte e produção ERJ Composição Editorial Capa Weber Amendola Impressão e acabamento xxx 351645009001 ISBN 9788547220235 CIPBRASIL Catalogação na fonte Sindicato Nacional dos Editores de Livros RJ M843e 9 ed Morettin Pedro Alberto 1942 Estatística básica Pedro A Morettin Wilton O Bussab 9 ed São Paulo Saraiva 2017 ISBN 9788547220235 1 Econometria 2 Estatística 3 Estatística matemática Problemas questões exercícios I Bussab Wilton de Oliveira 1940 II Título CDD 330028 CDU 33043 Copyright Wilton de O Bussab e Pedro A Morettin 2017 Saraiva Educação Todos os direitos reservados 9ª edição Nenhuma parte desta publicação poderá ser reproduzida por qualquer meio ou forma sem a prévia autorização da Saraiva Educação A violação dos direitos autorais é crime estabelecido na lei nº 961098 e punido pelo artigo 184 do Código Penal EDITAR 16262 CL 651354 CAE 621397 Para Célia e Ligia A vida é complicada mas não desinteressante Jersy Neyman PREFÁCIO À NONA EDIÇÃO Nesta Nona Edição atendendo a pedidos de leitores incluímos a utilização de pacotes do Repositórios livre R Mas continuamos a usar em alguns exemplos os pacotes SPlus e Minitab Para não aumentar muito o tamanho do livro a maneira encontrada foi colocar uma pequena introdução ao R dados e os scripts para reproduzirem os exemplos do livro na página wwwimeuspbrpamEstBashtml O leitor também poderá ver os exemplos completos scripts gráficos etc na página rpubscomEstatBasica Além disso os problemas suplementares de cada capítulo foram separados dos complementos metodológicos Correções foram feitas em diversos pontos Quero agradecer de modo especial a Kim Samejima pela colaboração na preparação da página relativa ao R Os depoimentos de colegas sobre o papel do Wilton no desenvolvimento da Estatística do Brasil agora encontramse também na página do livro São Paulo junho de 2017 Pedro A Morettin PREFÁCIO À OITAVA EDIÇÃO Essa edição difere da anterior em dois aspectos O primeiro capítulo foi reescrito e alguns novos problemas foram acrescentados Além disso procuramos corrigir erros presentes na edição anterior Agradecemos a diversos colegas e alunos que apontaram erros e fizeram comentários sobre o livro São Paulo junho de 2013 Pedro A Morettin PREFÁCIO À SÉTIMA EDIÇÃO Nesta Sétima Edição fizemos diversas correções no texto acrescentamos novos problemas e algumas seções foram reescritas Mais do que tudo essa nova edição é uma homenagem ao Professor Wilton de Oliveira Bussab que nos deixou prematuramente em maio desse ano Apresentamos a seguir diversos depoimentos de colegas sobre o papel fundamental que Wilton teve no desenvolvimento da Estatística no Brasil De minha parte perdi um amigo de mais de quarenta anos As vidas de sua família amigos colegas e alunos não serão mais as mesmas Será mais difícil atualizar esse livro fruto de uma colaboração estreita durante tantos anos Wilton sempre foi a parte pé no chão dessa parceria dada a sua grande experiência e vivência de problemas reais Com sua partida perderei eu perderão os leitores Mas a vida continua e seu legado será lembrado por todos que tiveram o privilégio de com ele conviver São Paulo julho de 2011 Pedro A Morettin PREFÁCIO À SEXTA EDIÇÃO Nesta edição atendemos à solicitação de leitores que sugeriram modificações em alguns tópicos considerados difíceis Por exemplo o tópico sobre quantis empíricos agora traz o cálculo utilizando o histograma deixando a definição mais geral para a seção de Problemas e Complementos Inúmeras correções foram feitas na edição anterior à medida que as sucessivas tiragens foram editadas Nesta sexta edição outros erros foram corrigidos mas sabemos que diversos persistirão Agradecemos aos diversos leitores que nos enviaram correções e sugestões Acrescentamos problemas a diversas seções do livro e substituímos o conjunto de dados sobre o Brasil CDBrasil com informações atualizadas da Contagem da População 2007 feita pelo IBGE Os dados também estão disponíveis na página httpwwwimeuspbrpam Os Autores PREFÁCIO À QUINTA EDIÇÃO Esta edição é uma revisão substancial da edição anterior deste livro Cinco novos capítulos foram adicionados e os demais foram revisados e atualizados Cremos que este texto com a escolha adequada dos tópicos possa ser utilizado por alunos de diversas áreas do conhecimento O Site do Professor disponível na Internet httpwwweditorasaraivacombr fornece uma discussão mais longa sobre roteiros apropriados para cursos de diferentes níveis Com essa filosofia em mente procuramos incluir no texto uma quantidade de informação substancial em cada capítulo Obviamente caberá ao professor escolher o material apropriado para cada curso desenvolvido O livro é dividido em três partes A primeira trata da análise de dados unidimensionais e bidimensionais com atenção especial a métodos gráficos Pensamos que a leitura dessa parte é essencial para o bom entendimento das demais Recomendamos que o aluno trabalhe com dados reais embora isso não seja uma necessidade essencial pois normalmente um primeiro curso de estatística é dado no início do programa do aluno que não possui ainda um conhecimento sólido dos problemas de sua área A segunda parte trata dos conceitos básicos de probabilidades e variáveis aleatórias Finalmente na terceira parte estudamos os tópicos principais da inferência estatística além de alguns temas especiais como regressão linear simples Um capítulo sobre noções de simulação foi adicionado pois tais noções são hoje fundamentais em muitas áreas O uso de algum pacote computacional é fortemente recomendado para a prática dos conceitos desenvolvidos Apresentamos exemplos de aplicações utilizando alguns desses pacotes Minitab Excel e SPlus Mas evidentemente outros pacotes poderão ser usados No final do livro apresentamos vários conjuntos de dados que poderão ser utilizados pelos alunos Esses dados também estão disponíveis nas seguintes páginas da Internet httpwwwimeuspbrpam httpwwweditorasaraivacombr Finalmente agradecemos a todos aqueles que enviarem sugestões e comentários com a finalidade de melhorar a presente edição Para tanto além do correio normal os leitores poderão usar o Sac da editora Saraiva Os Autores SUMÁRIO Capítulo 1 Preliminares 11 Introdução 12 Modelos 13 Aspectos Computacionais 131 O Repositório R 14 Métodos Gráficos 15 Conjuntos de Dados 16 Plano do Livro Parte I Análise Exploratória de Dados Capítulo 2 Resumo de Dados 21 Tipos de Variáveis 22 Distribuições de Frequências 23 Gráficos 231 Gráficos para Variáveis Qualitativas 232 Gráficos para Variáveis Quantitativas 24 RamoeFolhas 25 Exemplos Computacionais 26 Problemas Suplementares 27 Complementos Metodológicos Capítulo 3 MedidasResumo 31 Medidas de Posição 32 Medidas de Dispersão 33 Quantis Empíricos 34 Box Plots 35 Gráficos de Simetria 36 Transformações 37 Exemplos Computacionais 38 Problemas Suplementares 39 Complementos Metodológicos Capítulo 4 Análise Bidimensional 41 Introdução 42 Variáveis Qualitativas 43 Associação entre Variáveis Qualitativas 44 Medidas de Associação entre Variáveis Qualitativas 45 Associação entre Variáveis Quantitativas 46 Associação entre Variáveis Qualitativas e Quantitativas 47 Gráficos q q 48 Exemplos Computacionais 49 Problemas Suplementares 410 Complemento Metodológico Parte II Probabilidades Capítulo 5 Probabilidades 51 Introdução 52 Algumas Propriedades 53 Probabilidade Condicional e Independência 54 O Teorema de Bayes 55 Probabilidades Subjetivas 56 Problemas Suplementares Capítulo 6 Variáveis Aleatórias Discretas 61 Introdução 62 O Conceito de Variável Aleatória Discreta 63 Valor Médio de uma Variável Aleatória 64 Algumas Propriedades do Valor Médio 65 Função de Distribuição Acumulada 66 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas 661 Distribuição Uniforme Discreta 662 Distribuição de Bernoulli 663 Distribuição Binomial 664 Distribuição Hipergeométrica 665 Distribuição de Poisson 67 O Processo de Poisson 68 Quantis 69 Exemplos Computacionais 610 Problemas Suplementares 611 Complementos Metodológicos Capítulo 7 Variáveis Aleatórias Contínuas 71 Introdução 72 Valor Médio de uma Variável Aleatória Contínua 73 Função de Distribuição Acumulada 74 Alguns Modelos Probabilísticos para Variáveis Aleatórias Contínuas 741 O Modelo Uniforme 742 O Modelo Normal 743 O Modelo Exponencial 75 Aproximação Normal à Binomial 76 Funções de Variáveis Contínuas 77 Outros Modelos Importantes 771 A Distribuição Gama 772 A Distribuição QuiQuadrado 773 A Distribuição t de Student 774 A Distribuição F de Snedecor 78 Quantis 79 Exemplos Computacionais 710 Problemas Suplementares 711 Complementos Metodológicos Capítulo 8 Variáveis Aleatórias Multidimensionais 81 Distribuição Conjunta 82 Distribuições Marginais e Condicionais 83 Funções de Variáveis Aleatórias 84 Covariância entre Duas Variáveis Aleatórias 85 Variáveis Contínuas 86 Distribuições Condicionais Contínuas 87 Funções de Variáveis Contínuas 88 Distribuição Normal Bidimensional 89 Problemas Suplementares 810 Complementos Metodológicos Capítulo 9 Noções de Simulação 91 Introdução 92 Simulação de Variáveis Aleatórias 93 Simulação de Alguns Modelos 94 Exemplos Computacionais 95 Problemas Suplementares 96 Complementos Metodológicos Parte III Inferência Estatística Capítulo 10 Introdução à Inferência Estatística 101 Introdução 102 População e Amostra 103 Problemas de Inferência 104 Como Selecionar uma Amostra 105 Amostragem Aleatória Simples 106 Estatísticas e Parâmetros 107 Distribuições Amostrais 108 Distribuição Amostral da Média 109 Distribuição Amostral de uma Proporção 1010 Outras Distribuições Amostrais 1011 Determinação do Tamanho de uma Amostra 1012 Exemplos Computacionais 1013 Problemas Suplementares 1014 Complementos Metodológicos Capítulo 11 Estimação 111 Primeiras Ideias 112 Propriedades de Estimadores 113 Estimadores de Momentos 114 Estimadores de Mínimos Quadrados 115 Estimadores de Máxima Verossimilhança 116 Intervalos de Confiança 117 Erro Padrão de um Estimador 118 Inferência Bayesiana 119 Exemplos Computacionais 1191 Simulando Erros Padrões 1110 Problemas Suplementares 1111 Complementos Metodológicos Capítulo 12 Testes de Hipóteses 121 Introdução 122 Um Exemplo 123 Procedimento Geral do Teste de Hipóteses 124 Passos para a Construção de um Teste de Hipóteses 125 Testes sobre a Média de uma População com Variância Conhecida 126 Teste para Proporção 127 Poder de um Teste 128 Valorp 129 Teste para a Variância de uma Normal 1210 Teste sobre a Média de uma Normal com Variância Desconhecida 1211 Problemas Suplementares 1212 Complementos Metodológicos Capítulo 13 Inferência para Duas Populações 131 Introdução 132 Comparação das Variâncias de Duas Populações Normais 133 Comparação de Duas Populações Amostras Independentes 1331 Populações Normais 1332 Populações Não Normais 134 Comparação de Duas Populações Amostras Dependentes 1341 População Normal 1342 População Não Normal 135 Comparação de Proporções em Duas Populações 136 Exemplo Computacional 137 Problemas Suplementares Capítulo 14 Análise de Aderência e Associação 141 Introdução 142 Testes de Aderência 143 Testes de Homogeneidade 144 Testes de Independência 145 Teste Para o Coeficiente de Correlação 146 Outro Teste de Aderência 147 Problemas Suplementares 148 Complementos Metodológicos Capítulo 15 Inferência para Várias Populações 151 Introdução 152 Modelo para Duas Subpopulações 1521 Suposições 1522 Estimação do Modelo 1523 Intervalos de Confiança 1524 Tabela de Análise de Variância 153 Modelo para Mais de Duas Subpopulações 154 Comparações entre as Médias 155 Teste de Homoscedasticidade 156 Exemplo Computacional 157 Problemas Suplementares 158 Complementos Metodológicos Capítulo 16 Regressão Linear Simples 161 Introdução 162 Estimação dos Parâmetros 163 Avaliação do Modelo 1631 Estimador de σ2 e 1632 Decomposição da Soma de Quadrados 1633 Tabela de Análise de Variância 164 Propriedades dos Estimadores 1641 Média e Variância dos Estimadores 1642 Distribuições Amostrais dos Estimadores dos Parâmetros 1643 Intervalos de Confiança para α e β 1644 Intervalo de Confiança para µz e Intervalo de Predição 165 Análise de Resíduos 166 Alguns Modelos Especiais 1661 Reta Passando pela Origem 1662 Modelos Não Lineares 167 Regressão Resistente 168 Exemplos Computacionais 169 Problemas Suplementares 1610 Complementos Metodológicos Referências Conjunto de dados Tabelas Respostas Capítulo 1 Preliminares 11 Introdução Em alguma fase de seu trabalho o pesquisador deparase com o problema de analisar e entender um conjunto de dados relevante ao seu particular objeto de estudos Ele necessitará trabalhar os dados para transformálos em informações para comparálos com outros resultados ou ainda para julgar sua adequação a alguma teoria De modo bem geral podemos dizer que a essência da Ciência é a observação e que seu objetivo básico é a inferência A inferência estatística é uma das partes da Estatística Esta por sua vez é a parte da metodologia da Ciência que tem por objetivo a coleta redução análise e modelagem dos dados a partir do que finalmente fazse a inferência para uma população da qual os dados a amostra foram obtidos Um aspecto importante da modelagem dos dados é fazer previsões a partir das quais se pode tomar decisões Os cientistas usam o chamado Método Científico para testar suas teorias ou hipóteses Podemos resumir o método nos seguintes passos i O cientista formula uma questão problema ou teoria Ele pode querer também testar alguma hipótese ii Para responder a essas questões ele coleta informação que seja relevante Para isso ele pode planejar algum experimento Em determinadas áreas Astronomia por exemplo o planejamento de experimentos não é possível ou factível o que se pode fazer é observar algum fenômeno ou variáveis de interesse iii Os resultados do passo ii são usados para obter conclusões mesmo que não definitivas iv Se for necessário repita os passos ii e iii ou mesmo reformule suas hipóteses Um estatístico pode ajudar no passo i e certamente pode ser indispensável nos passos ii e iii Vamos considerar um exemplo para ilustrar o método Exemplo 11 i Em Economia sabese desde Keynes que o gasto com o consumo de pessoas vamos indicar essa variável por C é uma função da renda pessoal disponível indicada por Y Ou seja podemos escrever formalmente C fY para alguma função f ii Para investigar com é essa relação entre C e Y para uma comunidade específica um economista colhe dados dessas variáveis para um conjunto de indivíduos I I1 I2 In obtendo a amostra Y1 C1 Yn Cn Esse é um exemplo em que o experimento consiste em planejar a obtenção de uma amostra de modo adequado representando assim a comunidade população iii Um gráfico de dispersão veja o Capítulo 4 entre Yi e Ci i 1 2 n como o da Figura 11 permite estabelecer um modelo veja a seção seguinte tentativo para a variável C como função da variável Y Figura 11 Relação entre rendimento e consumo de 20 indivíduos Suponha que seja razoável postular o modelo Ci α bYi ei i 1 2 n 11 Nesse modelo Yi Ci i 1 n são variáveis observadas enquanto ei i 1 n são variáveis não observadas O parâmetro α é denominado consumo autônomo fazendose Y 0 na Equação 11 e β é a propensão marginal a consumir Na Figura 11 temos representados os rendimentos e gastos de consumo de n 20 indivíduos Na reta que aparece na figura os coeficientes foram obtidos usando métodos dos Capítulos 11 e 16 Nesse caso obtemos α 148 e β 071 aproximadamente Veremos mais a frente que poderemos fazer suposições sobre os erros ei por exemplo que tenham média zero Nem sempre um modelo linear da forma 11 é adequado como mostra o exemplo a seguir Exemplo 12 O interesse aqui é a relação entre renda e idade para n 256 mulheres brasileiras com mestrado e doutorado dados da PNAD 2004 IBGE Na Figura 12 temos os dados e uma função estimada da forma R fI onde R indica a renda e I a idade Nesse caso uma função paramétrica como aquela em 11 pode não ser adequada e temos que usar métodos não paramétricos para estimar a forma de f Observamos um valor atípico perto de 48 anos de idade Uma queda da renda é observada entre as idades 35 e 40 anos talvez explicada pelo efeito de geração Usualmente uma função paramétrica quadrática é utilizada em problemas como esse que não explicariam essa queda Figura 12 Relação entre Renda e Idade para mulheres brasileiras Na primeira parte deste livro estaremos interessados na redução análise e interpretação dos dados sob consideração adotando um enfoque que chamaremos de Análise Exploratória de Dados AED Nesta abordagem tentaremos obter dos dados a maior quantidade possível de informação que indique modelos plausíveis a serem utilizados em uma fase posterior a análise confirmatória de dados ou inferência estatística Tradicionalmente uma análise descritiva de dados limitase a calcular algumas medidas de posição e variabilidade como a média e variância por exemplo Contrária a esta tendência uma corrente mais moderna liderada por Tukey 1977 utiliza principalmente técnicas gráficas em oposição a resumos numéricos Isto não significa que sumários não devam ser obtidos mas uma análise exploratória de dados não deve se limitar a calcular tais medidas 12 Modelos Fundamentalmente quando se procede a uma análise de dados buscase alguma forma de regularidade ou padrão ou ainda modelo presente nas observações Exemplo 11 continuação O que se espera intuitivamente no caso em questão é que os gastos de um indivíduo estejam diretamente relacionados com os seus rendimentos de modo que é razoável supor uma relação linear entre essas duas quantidades Os pontos da Figura 11 não estão todos evidentemente sobre uma reta essa seria o nosso padrão ou modelo A diferença entre os dados e o modelo constitui os resíduos Veja a Figura 13 Podemos então escrever de modo esquemático DADOS MODELO RESÍDUOS ou ainda D M R 12 A parte M é também chamada parte suave ou regular ou ainda previsível dos dados enquanto R é a parte aleatória A parte R é tão importante quanto M e a análise dos resíduos constitui uma parte fundamental de todo trabalho estatístico Basicamente são os resíduos que nos dizem se o modelo é adequado ou não para representar os dados De modo coloquial o que se deseja é que a parte R não contenha nenhuma suavidade caso contrário mais suavização é necessária Uma análise exploratória de dados busca essencialmente fornecer informações para estabelecer 12 Figura 13 Relação entre dado modelo e resíduo 13 Aspectos Computacionais O desenvolvimento rápido e constante na área de computação foi acompanhado pela introdução de novas técnicas de análise de dados notadamente de métodos gráficos e de métodos chamados de computação intensiva como o método bootstrap que será tratado brevemente neste livro Para a implementação dessas técnicas pacotes estatísticos foram desenvolvidos e que atualmente são usados em larga escala tanto no meio acadêmico como em indústrias bancos órgãos de governo etc Esses pacotes podem ser genéricos ou específicos Os pacotes genéricos como o Minitab SPlus SPSS SAS etc são adequados para realizar uma gama variada de análises estatísticas Os pacotes específicos são planejados para realizar análises particulares de uma determinada área Por outro lado os pacotes podem exigir ou não uma maior experiência computacional dos usuários Alguns operam com menus e seu uso é mais simples Outros requerem maior familiaridade com o computador e são baseados em linguagens próprias Do ponto de vista de sistema operacional a maioria dos pacotes é programada para uso em microcomputadores que operam com o sistema Windows Todavia um número razoável de pacotes já tem versões para o sistema Linux Listamos na Tabela 11 alguns pacotes genéricos utilizados na área de Estatística Salientamos também que existem planilhas à venda no mercado que possuem opções para certas técnicas estatísticas Dentre essa planilhas mencionamos o Excel Tabela 11 Alguns pacotes estatísticos genéricos Pacote Fabricante Minitab Minitab Inc SAS SAS Institute Inc SPlus TIBCO Inc SPSS SPSS Inc Statgraphics Stat Graphics Inc MATLAB MathWorks 131 O Repositório R Neste livro usaremos preferencialmente programas do Repositório de Pacotes R que podem ser obtidos livremente do Compreensive R Archive Network CRAN no endereço httpcranrprojectorg Após instalar o R vá para o site wwwimeuspbrpamEstBashtml e obtenha os scripts usados para reproduzir os exemplos e os dados utilizados no livro Para uma breve introdução ao R siga o caminho indicado no Capítulo 1 Introdução Neste capítulo também estão relacionados os pacotes usados no livro packages ou libraries Para ver as soluções detalhadas dos exemplos consulte rpubscomEstatBasica 14 Métodos Gráficos Como dissemos na introdução os métodos gráficos têm encontrado um uso cada vez maior devido ao seu forte apelo visual Normalmente é mais fácil para qualquer pessoa entender a mensagem de um gráfico do que aquela embutida em tabelas ou sumários numéricos Os gráficos são utilizados para diversos fins Chambers et al 1983 a buscar padrões e relações b confirmar ou não certas expectativas que se tinha sobre os dados c descobrir novos fenômenos d confirmar ou não suposições feitas sobre os procedimentos estatísticos usados e apresentar resultados de modo mais rápido e fácil Podemos usar métodos gráficos para plotar os dados originais ou outros dados derivados deles Por exemplo a investigação da relação entre as variáveis da Figura 11 pode ser feita por meio daquele diagrama de dispersão Mas podemos também ajustar uma reta aos dados calcular o desvio resíduo para cada observação e fazer um novo gráfico de consumo contra resíduos para avaliar a qualidade do ajuste Com o progresso recente da computação gráfica e a existência de hardware e software adequados a utilização de métodos gráficos tornase rotineira na análise de dados Neste texto introduziremos gráficos para a visualização e resumo de dados no caso de uma ou duas variáveis principalmente Noções para o caso de três ou mais variáveis serão rapidamente abordadas Gráficos com o propósito de comparar duas distribuições também serão tratados 15 Conjuntos de Dados No final do livro aparecem alguns conjuntos de dados que serão utilizados nos exemplos ou nos exercícios propostos Aconselhamos os leitores a reproduzir os exemplos usando esses dados bem como resolver os problemas pois somente a efetiva manipulação de dados pode levar a um bom entendimento das técnicas apresentadas Os conjuntos de dados apresentados provêm de diferentes fontes que são mencionadas em cada conjunto e depois explicitadas nas referências Os leitores é claro poderão usar as técnicas apresentadas em seus próprios conjuntos de dados Alguns conjuntos de dados são parte de conjuntos maiores Todos esses dados podem ser obtidos no endereço httpwwwimeuspbrpamEstBashtml Usaremos um nome curto para identificar cada conjunto de dados Por exemplo o Conjunto de Dados 1 será designado simplesmente por CDBrasil o Conjunto de Dados 4 por CDPoluição etc 16 Plano do Livro Na primeira parte do livro trataremos nos Capítulos 2 a 4 de técnicas gráficas e numéricas que nos permitirão fazer uma primeira análise dos dados disponíveis No Capítulo 2 estudaremos como resumir os dados por meio de distribuições de frequências e como representálos graficamente por meio de gráficos em barras histogramas e ramoefolhas No Capítulo 3 veremos as principais medidas numéricas resumidoras de um conjunto de dados medidas de posição ou localização e medidas de dispersão ou de variabilidade A partir dessas medidas poderemos construir gráficos importantes como o gráfico de quantis e o box plot No Capítulo 4 trataremos do caso em que temos duas variáveis Estaremos interessados em verificar se existe alguma associação entre duas variáveis e como medila O caso de três variáveis será considerado brevemente Na segunda parte introduzimos os conceitos básicos sobre probabilidades e variáveis aleatórias A ideia é que a primeira parte sirva de motivação para construir os modelos probabilísticos da segunda parte No Capítulo 5 tratamos da noção de probabilidade suas propriedades probabilidade condicional e independência Também consideramos o teorema de Bayes e destacamos sua importância em problemas de inferência As variáveis aleatórias discretas são estudadas no Capítulo 6 e as contínuas no Capítulo 7 Em particular são introduzidos os principais modelos para variáveis aleatórias bem como métodos de simulação dessas variáveis O caso de duas variáveis aleatórias é considerado no Capítulo 8 No Capítulo 9 introduzimos noções básicas de simulação Esse assunto é muito importante notadamente quando se quer avaliar algum modelo construído para uma situação real A terceira parte trata da inferência estatística Nesta parte todos os conceitos aprendidos nas duas partes anteriores são imprescindíveis Os dois grandes problemas de inferência estimação e teste de hipóteses são estudados nos Capítulos 11 e 12 respectivamente após serem introduzidas no Capítulo 10 as noções básicas de amostragem e distribuições amostrais O caso de duas populações é considerado no Capítulo 13 e de várias populações no Capítulo 15 Basicamente são desenvolvidos testes para médias proporções e variâncias O Capítulo 14 trata dos chamados testes do quiquadrado para dados que aparecem sob a forma de tabelas de contingência Finalmente no Capítulo 16 estudamos com algum detalhe o modelo de regressão linear simples Em cada capítulo há sempre que possível exemplos computacionais Isso significa que algum conjunto de dados é analisado utilizandose o R ou alguns dos programas mencionados acima Em geral são problemas um pouco mais difíceis do que aqueles exemplificados ou então têm o caráter de ilustrar o uso de tais pacotes para simulações por exemplo Recomendamos que o leitor tente reproduzir esses exemplos para adquirir experiência na manipulação de dados e procura de eventuais modelos que possam representálos Parte I ANÁLISE EXPLORATÓRIA DE DADOS Capítulo 2 Resumo de Dados Capítulo 3 MedidasResumo Capítulo 4 Análise Bidimensional Capítulo 2 Resumo de Dados 21 Tipos de Variáveis Para ilustrar o que segue consideremos o seguinte exemplo Exemplo 21 Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia MB Usando informações obtidas do departamento de pessoal ele elaborou a Tabela 21 Essa tabela é chamada planilha de dados Planilhas usualmente na forma eletrônica são matrizes de dados construídas com o objetivo de permitir uma análise estatística Cada linha da matriz corresponde a uma unidade de investigação por exemplo unidade amostral e cada coluna a uma variável que corresponde à realização de uma característica A planilha em formato excel correspondendo à Tabela 21 está no Conjunto de Dados na página do livro Para importála utilizaremos qualquer um dos formatos TXT DAT ou CSV Desta forma o primeiro passo é construir um arquivo CSV ou alternativamente DAT ou TXT a partir da planilha excel da Tabela 21 salvandoa no formato CSV Após a construção do arquivo CSV procederemos no R com o comando readtable para importar os dados tab21readtable tabela21csv dec sep hT Podemos facilmente saber quais são as variáveis importadas por meio do comando names tab21 1 N estadocivil grauinstrucao nfilhos 5 salario idadeanos idademeses regprocedencia Para mais detalhes veja os comandos referentes ao Capítulo 2 na página do livro No exemplo em questão considerandose a característica variável estado civil para cada empregado podese associar uma das realizações solteiro ou casado note que poderia haver outras possibilidades como separado divorciado mas somente as duas mencionadas foram consideradas no estudo Podemos atribuir uma letra digamos X para representar tal variável Observamos que o pesquisador colheu informações sobre seis variáveis Variável Representação Estado civil X Grau de instrução Y Número de filhos Z Salário S Idade U Região de procedência V Algumas variáveis como sexo educação estado civil apresentam como possíveis realizações uma qualidade ou atributo do indivíduo pesquisado ao passo que outras como número de filhos salário idade apresentam como possíveis realizações números resultantes de uma contagem ou mensuração As variáveis do primeiro tipo são chamadas qualitativas e as do segundo tipo quantitativas Dentre as variáveis qualitativas ainda podemos fazer uma distinção entre dois tipos variável qualitativa nominal para a qual não existe nenhuma ordenação nas possíveis realizações e variável qualitativa ordinal para a qual existe uma ordem nos seus resultados A região de procedência do Exemplo 21 é um caso de variável nominal enquanto grau de instrução é um exemplo de variável ordinal pois ensinos fundamental médio e superior correspondem a uma ordenação baseada no número de anos de escolaridade completos A variável qualitativa classe social com as possíveis realizações alta média e baixa é outro exemplo de variável ordinal De modo análogo as variáveis quantitativas podem sofrer uma classificação dicotômica a variáveis quantitativas discretas cujos possíveis valores formam um conjunto finito ou enumerável de números e que resultam frequentemente de uma contagem como número de filhos 0 1 2 b variáveis quantitativas contínuas cujos possíveis valores pertencem a um intervalo de números reais e que resultam de uma mensuração como por exemplo estatura e peso melhor seria dizer massa de um indivíduo A Figura 21 esquematiza as classificações feitas acima Figura 21 Classificação de uma variável Para cada tipo de variável existem técnicas apropriadas para resumir as informações donde a vantagem de usar uma tipologia de identificação como a da Figura 21 Entretanto verificaremos que técnicas usadas num caso podem ser adaptadas para outros Para finalizar cabe uma observação sobre variáveis qualitativas Em algumas situações podemse atribuir valores numéricos às várias qualidades ou atributos ou ainda classes de uma variável qualitativa e depois procederse à análise como se esta fosse quantitativa desde que o procedimento seja passível de interpretação Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil a chamada variável dicotômica Para essa variável só podem ocorrer duas realizações usualmente chamadas sucesso e fracasso A variável estado civil no exemplo acima estaria nessa situação Esse tipo de variável aparecerá mais vezes nos próximos capítulos Tabela 21 Informações sobre estado civil grau de instrução número de filhos salário expresso como fração do salário mínimo idade medida em anos e meses e procedência de 36 empregados da seção de orçamentos da Companhia MB Nº Estado civil Grau de instrução Nº de filhos Salário sal mín Idade Região de procedência anos meses 1 solteiro ensino fundamental 400 26 03 interior 2 casado ensino fundamental 1 456 32 10 capital 3 casado ensino fundamental 2 525 36 05 capital 4 solteiro ensino médio 573 20 10 outra 5 solteiro ensino fundamental 626 40 07 outra 6 casado ensino fundamental 0 666 28 00 interior 7 solteiro ensino fundamental 686 41 00 interior 8 solteiro ensino fundamental 739 43 04 capital 9 casado ensino médio 1 759 34 10 capital 10 solteiro ensino médio 744 23 06 outra 11 casado ensino médio 2 812 33 06 interior 12 solteiro ensino fundamental 846 27 11 capital 13 solteiro ensino médio 874 37 05 outra 14 casado ensino fundamental 3 895 44 02 outra 15 casado ensino médio 0 913 30 05 interior 16 solteiro ensino médio 935 38 08 outra 17 casado ensino médio 1 977 31 07 capital 18 casado ensino fundamental 2 980 39 07 outra 19 solteiro superior 1053 25 08 interior 20 solteiro ensino médio 1076 37 04 interior 21 casado ensino médio 1 1106 30 09 outra 22 solteiro ensino médio 1159 34 02 capital 23 solteiro ensino fundamental 1200 41 00 outra 24 casado superior 0 1279 26 01 outra 25 casado ensino médio 2 1323 32 05 interior 26 casado ensino médio 2 1360 35 00 outra 27 solteiro ensino fundamental 1385 46 07 outra 28 casado ensino médio 0 1469 29 08 interior 29 casado ensino médio 5 1471 40 06 interior 30 casado ensino médio 2 1599 35 10 capital 31 solteiro superior 1622 31 05 outra 32 casado ensino médio 1 1661 36 04 interior 33 casado superior 3 1726 43 07 capital 34 solteiro superior 1875 33 07 capital 35 casado ensino médio 2 1940 48 11 capital 36 casado superior 3 2330 42 02 interior Fonte Dados hipotéticos 22 Distribuições de Frequências Quando se estuda uma variável o maior interesse do pesquisador é conhecer o comportamento dessa variável analisando a ocorrência de suas possíveis realizações Nesta seção veremos uma maneira de se dispor um conjunto de realizações para se ter uma ideia global sobre elas ou seja de sua distribuição Exemplo 22 A Tabela 22 apresenta a distribuição de frequências da variável grau de instrução usando os dados da Tabela 21 Tabela 22 Frequências e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução Grau de instrução Frequência ni Proporção fi Porcentagem 100 fi Fundamental 12 03333 3333 Médio 18 05000 5000 Superior 6 01667 1667 Total 36 10000 10000 Fonte Tabela 21 Observando os resultados da segunda coluna vêse que dos 36 empregados da companhia 12 têm o ensino fundamental 18 o ensino médio e 6 possuem curso superior Uma medida bastante útil na interpretação de tabelas de frequências é a proporção de cada realização em relação ao total Assim 636 01667 dos empregados da companhia MB seção de orçamentos têm instrução superior Na última coluna da Tabela 22 são apresentadas as porcentagens para cada realização da variável grau de instrução Usaremos a notação ni para indicar a frequência absoluta de cada classe ou categoria da variável e a notação fi nin para indicar a proporção ou frequência relativa de cada classe sendo n o número total de observações As proporções são muito úteis quando se quer comparar resultados de duas pesquisas distintas Por exemplo suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Companhia MB Digamos que a empresa tenha 2000 empregados e que a distribuição de frequências seja a da Tabela 23 Tabela 23 Frequências e porcentagens dos 2000 empregados da Companhia MB segundo o grau de instrução Grau de instrução Frequência ni Porcentagem 100 fi Fundamental 1650 3250 Médio 1020 5100 Superior 1330 1650 Total 2000 10000 Fonte Dados hipotéticos Não podemos comparar diretamente as colunas das frequências das Tabelas 22 e 23 pois os totais de empregados são diferentes nos dois casos Mas as colunas das porcentagens são comparáveis pois reduzimos as frequências a um mesmo total no caso 100 A construção de tabelas de frequências para variáveis contínuas necessita de certo cuidado Por exemplo a construção da tabela de frequências para a variável salário usando o mesmo procedimento acima não resumirá as 36 observações num grupo menor pois não existem observações iguais A solução empregada é agrupar os dados por faixas de salário Exemplo 23 A Tabela 24 dá a distribuição de frequências dos salários dos 36 empregados da seção de orçamentos da Companhia MB por faixa de salários Tabela 24 Frequências e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixa de salário Classe de salários Frequência ni Porcentagem 100 fi 400 800 10 2778 800 1200 12 3333 1200 1600 8 2222 1600 2000 5 1389 2000 2400 1 278 Total 36 10000 Fonte Tabela 21 Procedendose desse modo ao resumir os dados referentes a uma variável contínua perdese alguma informação Por exemplo não sabemos quais são os oito salários da classe de 12 a 16 a não ser que investiguemos a tabela original Tabela 21 Sem perda de muita precisão poderíamos supor que todos os oito salários daquela classe fossem iguais ao ponto médio da referida classe isto é 14 o leitor pode verificar qual o erro cometido comparandoos com os dados originais da Tabela 21 Voltaremos a este assunto no Capítulo 3 Note que estamos usando a notação a b para o intervalo de números contendo o extremo a mas não contendo o extremo b Podemos também usar a notação a b para designar o mesmo intervalo a b A escolha dos intervalos é arbitrária e a familiaridade do pesquisador com os dados é que lhe indicará quantas e quais classes intervalos devem ser usadas Entretanto devese observar que com um pequeno número de classes perdese informação e com um número grande de classes o objetivo de resumir os dados fica prejudicado Estes dois extremos têm a ver também com o grau de suavidade da representação gráfica dos dados a ser tratada a seguir baseada nestas tabelas Normalmente sugerese o uso de 5 a 15 classes com a mesma amplitude O caso de classes com amplitudes diferentes é tratado no Problema 10 Problemas 1 Escalas de medidas A seguir descrevemos outros possíveis critérios para classificar variáveis em função da escala adotada Observe a similaridade com a classificação apresentada anteriormente Nossas observações são resultados de medidas feitas sobre os elementos de uma população Existem quatro escalas de medidas que podem ser consideradas Escala nominal Nesta escala somente podemos afirmar que uma medida é diferente ou não de outra e ela é usada para categorizar indivíduos de uma população Um exemplo é o sexo de um indivíduo Para cada categoria associamos um numeral diferente letra ou número Por exemplo no caso do sexo podemos associar as letras M masculino e F feminino ou 1 masculino e 2 feminino Não podemos realizar operações aritméticas aqui e uma medida de posição apropriada é a moda As medidas citadas nesse problema como a média mediana e moda são definidas no Capítulo 3 Escala ordinal Aqui podemos dizer que uma medida é diferente e maior do que outra Temos a situação anterior mas as categorias são ordenadas e a ordem dos numerais associados ordena as categorias Por exemplo a classe socioeconômica de um indivíduo pode ser baixa 1 ou X média 2 ou Y e alta 3 ou Z Transformações que preservam a ordem não alteram a estrutura de uma escala ordinal No exemplo acima podemos representar as categorias por 1 10 e 100 ou A L e Z Medidas de posição apropriadas são a mediana e a moda Escala intervalar Nesta escala podemos afirmar que uma medida é igual ou diferente maior e quanto maior do que outra Podemos quantificar a diferença entre as categorias da escala ordinal Necessitamos de uma origem arbitrária e de uma unidade de medida Por exemplo considere a temperatura de um indivíduo na escala Fahrenheit A origem é 0º F e a unidade é 1º F Transformações que preservam a estrutura dessa escala são do tipo y ax b a 0 Por exemplo a transformação y 59 x 32 transforma graus Fahrenheit em centígrados Para essa escala podemos fazer operações aritméticas assim média mediana e moda são medidas de posição apropriadas Escala razão Dadas duas medidas nessa escala podemos dizer se são iguais ou se uma é diferente maior quanto maior e quantas vezes a outra A diferença com a escala intervalar é que agora existe um zero absoluto A altura de um indivíduo é um exemplo de medida nessa escala Se ela for medida em centímetros cm 0 cm é a origem e 1 cm é a unidade de medida Um indivíduo com 190 cm é duas vezes mais alto do que um indivíduo com 95 cm e esta relação continua a valer se usarmos 1 m como unidade Ou seja a estrutura da escala razão não é alterada por transformações da forma y cx c 0 Por exemplo y x100 transforma cm em m As estatísticas apropriadas para a escala intervalar são também apropriadas para a escala razão Para cada uma das variáveis abaixo indique a escala usualmente adotada para resumir os dados em tabelas de frequências a Salários dos empregados de uma indústria b Opinião de consumidores sobre determinado produto c Número de respostas certas de alunos num teste com dez itens d Temperatura diária da cidade de Manaus e Porcentagem da receita de municípios aplicada em educação f Opinião dos empregados da Companhia MB sobre a realização ou não de cursos obrigatórios de treinamento g QI de um indivíduo 2 Usando os dados da Tabela 21 construa a distribuição de frequências das variáveis a Estado civil b Região de procedência c Número de filhos dos empregados casados d Idade 3 Para o Conjunto de Dados 1 CDBrasil construa a distribuição de frequências para as variáveis população e densidade populacional 23 Gráficos Como já salientamos no Capítulo 1 a representação gráfica da distribuição de uma variável tem a vantagem de rápida e concisamente informar sobre sua variabilidade Existem vários gráficos que podem ser utilizados e abordaremos aqui os mais simples No Capítulo 3 voltaremos a tratar deste assunto em conexão com medidas associadas à distribuição de uma variável 231 Gráficos para Variáveis Qualitativas Existem vários tipos de gráficos para representar variáveis qualitativas Vários são versões diferentes do mesmo princípio logo nos limitaremos a apresentar dois deles gráficos em barras e de composição em setores pizza ou retângulos Exemplo 24 Tomemos como ilustração a variável Y grau de instrução exemplificada nas Tabelas 22 e 23 O gráfico em barras consiste em construir retângulos ou barras em que uma das dimensões é proporcional à magnitude a ser representada ni ou fi sendo a outra arbitrária porém igual para todas as barras Essas barras são dispostas paralelamente umas às outras horizontal ou verticalmente Na Figura 22 temos o gráfico em barras verticais para a variável Y Figura 22 Gráfico em barras para a variável Y grau de instrução Já o gráfico de composição em setores sendo em forma de pizza o mais conhecido destinase a representar a composição usualmente em porcentagem de partes de um todo Consiste num círculo de raio arbitrário representando o todo dividido em setores que correspondem às partes de maneira proporcional A Figura 23 mostra esse tipo de gráfico para a variável Y Muitas vezes é usado um retângulo no lugar do círculo para indicar o todo Figura 23 Gráfico em setores para a variável Y grau de instrução 232 Gráficos para Variáveis Quantitativas Para variáveis quantitativas podemos considerar uma variedade maior de representações gráficas Exemplo 25 Considere a distribuição da variável Z número de filhos dos empregados casados da seção de orçamentos da Companhia MB Tabela 21 Na Tabela 25 temos as frequências e porcentagens Além dos gráficos usados para as variáveis qualitativas como ilustrado na Figura 24 podemos considerar um gráfico chamado gráfico de dispersão unidimensional como o da Figura 25 a em que os valores são representados por pontos ao longo da reta provida de uma escala Valores repetidos são acompanhados por um número que indica as repetições Outra possibilidade é considerar um gráfico em que os valores repetidos são empilhados um em cima do outro como na Figura 25 b Pode se também apresentar o ponto mais alto da pilha como aparece na Figura 25 c Figura 24 Gráfico em barras para a variável Z número de filhos Figura 25 Gráficos de dispersão unidimensionais para a variável Z número de filhos Para variáveis quantitativas contínuas necessitase de alguma adaptação como no exemplo a seguir Tabela 25 Frequências e porcentagens dos empregados da seção de orçamentos da Companhia MB segundo o número de filhos Nº de filhos zi Frequência ni Porcentagem 100 fi 0 4 20 1 5 25 2 7 35 3 3 15 5 1 5 Total 20 100 Fonte Tabela 21 Exemplo 26 Queremos representar graficamente a distribuição da variável S salário dos empregados da seção de orçamentos da Companhia MB A Tabela 24 fornece a distribuição de frequências de S Para fazer uma representação similar às apresentadas anteriormente devemos usar o artifício de aproximar a variável contínua por uma variável discreta sem perder muita informação Isto pode ser feito supondose que todos os salários em determinada classe são iguais ao ponto médio desta classe Assim os dez salários pertencentes à primeira classe de quatro a oito salários serão admitidos iguais a 600 os 12 salários da segunda classe oito a doze salários serão admitidos iguais a 1000 e assim por diante Então podemos reescrever a Tabela 24 introduzindo os pontos médios das classes Estes pontos estão na segunda coluna da Tabela 26 Com a tabela assim construída podemos representar os pares si ni ou si fi por um gráfico em barras setores ou de dispersão unidimensional Veja a Figura 26 Figura 26 Gráfico em barras para a variável S salários O artifício usado acima para representar uma variável contínua faz com que se perca muito das informações nela contidas Uma alternativa a ser usada nestes casos é o gráfico conhecido como histograma Tabela 26 Distribuição de frequências da variável S salário dos empregados da seção de orçamentos da Companhia MB Classes de salários Ponto médio si Frequência ni Porcentagem 100 fi 400 800 600 10 2778 800 1200 1000 12 3333 1200 1600 1400 8 2222 1600 2000 1800 5 1389 2000 2400 2200 1 278 Total 36 10000 Fonte Tabela 24 Exemplo 27 Usando ainda a variável S do Exemplo 24 apresentamos na Figura 27 o histograma de sua distribuição O histograma é um gráfico de barras contíguas com as bases proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva frequência Podese usar tanto a frequência absoluta ni como a relativa fi Indiquemos a amplitude do iésimo intervalo por i Para que a área do retângulo respectivo seja proporcional a fi a sua altura deve ser proporcional a fii ou a nii que é chamada densidade de frequência da iésima classe Quanto mais dados tivermos em cada classe mais alto deve ser o retângulo Com essa convenção a área total do histograma será igual a um Quando os intervalos das classes forem todos iguais a a densidade de frequência da iésima classe passa a ser fi ou ni É claro que marcar no eixo das ordenadas os valores ni fi ni ou fi leva a obter histogramas com a mesma forma somente as áreas é que serão diferentes O Problema 10 traz mais informações sobre a construção de histogramas Figura 27 Histograma da variável S salários Para facilitar o entendimento foi colocada acima de cada setor retângulo a respectiva porcentagem das observações arredondada Assim por meio da figura podemos dizer que 61 dos empregados têm salário inferior a 12 salários mínimos ou 17 possuem salário superior a 16 salários mínimos Do mesmo modo que usamos um artifício para representar uma variável contínua como uma variável discreta podemos usar um artifício para construir um histograma para variáveis discretas A Figura 28 é um exemplo de como ficaria o histograma da variável Z número de filhos dos empregados casados da seção de orçamentos da Companhia MB segundo os dados da Tabela 25 O gráfico é suficientemente autoexplicativo de modo que omitimos detalhes sobre sua construção Figura 28 Histograma da variável Z número de filhos 24 RamoeFolhas Tanto o histograma como os gráficos em barras dão uma ideia da forma da distribuição da variável sob consideração Veremos no Capítulo 3 outras características da distribuição de uma variável como medidas de posição e dispersão Mas a forma da distribuição é tão importante quanto estas medidas Por exemplo saber que a renda per capita de um país é de tantos dólares pode ser um dado interessante mas saber como essa renda se distribui é mais importante Um procedimento alternativo para resumir um conjunto de valores com o objetivo de se obter uma ideia da forma de sua distribuição é o ramoefolhas Uma vantagem deste diagrama sobre o histograma é que não perdemos ou perdemos pouca informação sobre os dados em si Exemplo 28 Na Figura 29 construímos o ramoefolhas dos salários de 36 empregados da Companhia MB Tabela 21 Não existe uma regra fixa para construir o ramoefolhas mas a ideia básica é dividir cada observação em duas partes a primeira o ramo é colocada à esquerda de uma linha vertical a segunda a folha é colocada à direita Assim para os salários 400 e 456 o 4 é o ramo e 00 e 56 são as folhas Um ramo com muitas folhas significa maior incidência daquele ramo realização Figura 29 Ramoefolhas para a variável S salários Algumas informações que se obtêm deste ramoefolhas são a Há um destaque grande para o valor 2330 b Os demais valores estão razoavelmente concentrados entre 400 e 1940 c Um valor mais ou menos típico para este conjunto de dados poderia ser por exemplo 1000 d Há uma leve assimetria em direção aos valores grandes a suposição de que estes dados possam ser considerados como amostra de uma população com distribuição simétrica em forma de sino a chamada distribuição normal pode ser questionada A escolha do número de linhas do ramoefolhas é equivalente à escolha do número de classes de um histograma Um número pequeno de linhas ou de classes enfatiza a parte M da relação 11 enquanto um número grande de linhas ou de classes enfatiza a parte R Exemplo 29 Os dados abaixo referemse à dureza de 30 peças de alumínio Hoaglin Mosteller Tukey 1983 p 13 530 702 843 695 778 875 534 825 673 541 705 714 954 511 744 557 635 858 535 643 827 785 557 691 723 595 553 730 524 507 Na Figura 210 temos o ramoefolhas correspondente Aqui optamos por truncar cada valor omitindo os décimos de modo que 691 e 695 por exemplo tornamse 69 e 69 e aparecem como 9 na linha que corresponde ao ramo 6 Figura 210 Ramoefolhas para os dados de dureza de peças de alumínio Este é um exemplo em que temos muitas folhas em cada ramo Uma maneira alternativa é duplicar os ramos Criamos os ramos 5 e 5 6 e 6 etc nos quais colocamos folhas de 0 a 4 na linha e folhas de 5 a 9 na linha Obtemos o ramoefolhas da Figura 211 Um ramoefolhas pode ser adornado com outras informações como o número de observações em cada ramo Para outros exemplos veja o Problema 19 Figura 211 Ramoefolhas para os dados de dureza com ramos divididos Problemas 4 Contouse o número de erros de impressão da primeira página de um jornal durante 50 dias obtendose os resultados abaixo 8 11 8 12 14 13 11 14 14 15 6 10 14 19 6 12 7 5 8 8 10 16 10 12 12 8 11 6 7 12 7 10 14 5 12 7 9 12 11 9 14 8 14 8 12 10 12 22 7 15 a Represente os dados graficamente b Faça um histograma e um ramoefolhas 5 Usando os resultados do Problema 2 e da Tabela 23 a construa um histograma para a variável idade e b proponha uma representação gráfica para a variável grau de instrução 6 As taxas médias geométricas de incremento anual por 100 habitantes dos 30 maiores municípios do Brasil estão dadas abaixo 367 182 373 410 430 128 814 243 417 536 396 654 584 735 363 293 282 845 528 541 777 465 188 212 426 278 554 090 509 407 a Construa um histograma b Construa um gráfico de dispersão unidimensional 7 Você foi convidado para chefiar a seção de orçamentos ou a seção técnica da Companhia MB Após analisar o tipo de serviço que cada seção executa você ficou indeciso e resolveu tomar a decisão baseado em dados fornecidos para as duas seções O departamento pessoal forneceu os dados da Tabela 21 para os funcionários da seção de orçamentos ao passo que para a seção técnica os dados vieram agrupados segundo as tabelas abaixo que apresentam as frequências dos 50 empregados dessa seção segundo as variáveis grau de instrução e salário Baseado nesses dados qual seria a sua decisão Justifique Instrução Frequência Fundamental 15 Médio 30 Superior 5 Total 50 Classe de Salários Frequência 750 1050 14 1050 1350 17 1350 1650 11 1650 1950 8 Total 50 8 Construa um histograma um ramoefolhas e um gráfico de dispersão unidimensional para o Conjunto de Dados 2 CDMunicípios 25 Exemplos Computacionais Nesta seção vamos analisar dois conjuntos de dados apresentados no final do livro utilizando técnicas vistas neste capítulo e comandos do R Para mais detalhes veja a página do livro Exemplo 210 Considere o conjuntos de notas em Estatística de 100 alunos de um curso de Economia CDNotas O histograma dos dados está na Figura 212 que mostra que a distribuição dos dados é razoavelmente simétrica Esse gráfico pode ser obtido por meio do comando do R a seguir cdnotasreadtablecdnotascsv hT skip4sep dec hist cdnotasnota coldarkblue xlabNotas ylabFrequência borderwhite Figura 212 Histograma para o CDNotas R O gráfico de dispersão unidimensional e o ramoefolhas correspondentes estão nas Figuras 213 e 214 respectivamente e ambos contêm informação semelhante à dada pelo histograma Os comandos a utilizar são stripchart cdnotasnota method stack offset 2 at0 pch 19 coldarkblue ylabNAcex05 stem cdnotasnotaFigura 214 Ramoefolhas para o CDNotas R Figura 213 Gráfico de dispersão unidimensional para o CDNotas R Figura 214 Ramoefolhas para o CDNotas R Exemplo 211 O Conjunto de Dados 4 CDPoluição traz dados sobre a poluição na cidade de São Paulo Tomemos os dados de temperatura de 1º de janeiro a 30 de abril de 1991 120 dados Essas observações constituem o que se chama série temporal ou seja os dados são observados em instantes ordenados do tempo Esperase que exista relação entre as observações em instantes de tempo diferentes o que não acontece com os dados do exemplo anterior a nota de um aluno em princípio é independente da nota de outro aluno qualquer O gráfico dessa série temporal está na Figura 215 Observase uma variação da temperatura no decorrer do tempo entre 12 e 22 º C Figura 215 Dados de temperatura de São Paulo R O histograma e o gráfico de dispersão unidimensional estão nas Figuras 216 e 217 respectivamente mostrando que a distribuição dos dados não é simétrica O ramoefolhas da Figura 218 ilustra o mesmo comportamento Os comandos do R utilizados são cdpoluicaoreadtable cdpoluicaocsv hT skip8 sep dec plotts cdpoluicaotemp xlabDia ylabGrau coldarkblue hist cdpoluicaotemp coldarkblue xlabTemperatura borderwhite ylab stripchart cdpoluicaotemp method stack offset 2 at0 pch 19 coldarkblueylabNA cex05 stem cdpoluicaotemp scale5 Figura 216 Histograma dos dados de temperatura de São Paulo R Figura 217 Gráfico de dispersão unidimensional para os dados de temperatura de São Paulo R Figura 218 Ramoefolhas para os dados de temperatura de São Paulo R 26 Problemas Suplementares 9 A MB Indústria e Comércio desejando melhorar o nível de seus funcionários em cargos de chefia montou um curso experimental e indicou 25 funcionários para a primeira turma Os dados referentes à seção a que pertencem notas e graus obtidos no curso estão na tabela a seguir Como havia dúvidas quanto à adoção de um único critério de avaliação cada instrutor adotou seu próprio sistema de aferição Usando dados daquela tabela responda as questões a Após observar atentamente cada variável e com o intuito de resumilas como você identificaria qualitativa ordinal ou nominal e quantitativa discreta ou contínua cada uma das 9 variáveis listadas b Compare e indique as diferenças existentes entre as distribuições das variáveis Direito Política e Estatística c Construa o histograma para as notas da variável Redação d Construa a distribuição de frequências da variável Metodologia e faça um gráfico para indicar essa distribuição e Sorteado ao acaso um dos 25 funcionários qual a probabilidade de que ele tenha obtido grau A em Metodologia f Se em vez de um sorteássemos dois a probabilidade de que ambos tivessem tido A em Metodologia é maior ou menor do que a resposta dada em e g Como é o aproveitamento dos funcionários na disciplina Estatística segundo a seção a que eles pertencem FuncSeção AdministrDireitoRedaçãoEstatístInglêsMetodologiaPolíticaEconomia Func Seção AdministrDireitoRedaçãoEstatístInglêsMetodologiaPolíticaEconomia 1 P 80 90 86 90 B A 90 85 2 P 80 90 70 90 B C 65 80 3 P 80 90 80 80 D B 90 85 4 P 60 90 86 80 D C 60 85 5 P 80 90 80 90 A A 65 90 6 P 80 90 85 100 B A 65 95 7 P 80 90 82 80 D C 90 70 8 T 100 90 75 80 B C 60 85 9 T 80 90 94 90 B B 100 80 10 T 100 90 79 80 B C 90 75 11 T 80 90 86 100 C B 100 85 12 T 80 90 83 70 D B 65 80 13 T 60 90 70 70 B C 60 85 14 T 100 90 86 90 A B 100 75 15 V 80 90 86 90 C B 100 70 16 V 80 90 95 70 A A 90 75 17 V 80 90 63 80 D C 100 75 18 V 60 90 76 90 C C 60 85 19 V 60 90 68 40 D C 60 95 20 V 60 90 75 70 C B 60 85 21 V 80 90 77 70 D B 65 80 22 V 60 90 87 80 C A 60 90 23 V 80 90 73 100 C C 90 70 24 V 80 90 85 90 A A 65 90 25 V 80 90 70 90 B A 90 85 P departamento pessoal T seção técnica e V seção de vendas 10 Dispomos de uma relação de 200 aluguéis de imóveis urbanos e uma relação de 100 aluguéis rurais a Construa os histogramas das duas distribuições b Com base nos histogramas discuta e compare as duas distribuições Classes de aluguéis codificados Zona urbana Zona rural 2 3 10 30 3 5 40 50 5 7 80 15 7 10 50 5 10 15 20 0 Total 200 100 11 Esboce o histograma alisado para cada uma das situações descritas abaixo a Distribuição dos salários registrados em carteira de trabalho de moradores da cidade de São Paulo b Distribuição das idades de alunos de uma Faculdade de Economia e Administração c Distribuição das idades dos alunos de uma classe da Faculdade do item anterior Compare as duas distribuições d Distribuição do número de óbitos segundo a faixa etária e Distribuição do número de divórcios segundo o número de anos de casado f Distribuição do número formado pelos dois últimos algarismos do primeiro prêmio da Loteria Federal durante os dez últimos anos 12 Faça no mesmo gráfico um esboço das três distribuições descritas abaixo a Distribuição das alturas dos brasileiros adultos b Distribuição das alturas dos suecos adultos c Distribuição das alturas dos japoneses adultos 13 Usando os dados da Tabela 21 a Construa a distribuição de frequências para a variável idade b Faça o gráfico da porcentagem acumulada c Usando o gráfico anterior ache os valores de i correspondentes aos pontos i 25 i 50 e i 75 14 Construir a fde para a variável idade referente aos dados da Tabela 21 15 Construa um ramoefolhas para a variável CO monóxido de carbono do Conjunto de Dados 4 CDPoluição 27 Complementos Metodológicos 1 Intervalos de classes desiguais É muito comum o uso de classes com tamanhos desiguais no agrupamento dos dados em tabelas de frequências Nestes casos deve se tomar alguns cuidados especiais quanto à análise e construção do histograma A tabela abaixo fornece a distribuição de 250 empresas classificadas segundo o número de empregados Uma análise superficial pode levar à conclusão de que a concentração vem aumentando até atingir um máximo na classe 40 60 voltando a diminuir depois mas não tão acentuadamente Porém um estudo mais detalhado revela que a amplitude da classe 40 60 é o dobro da amplitude das classes anteriores Assim esperase que mais elementos caiam nessa classe mesmo que a concentração seja levemente inferior Então um primeiro cuidado é construir a coluna que indica as amplitudes i de cada classe Estes valores estão representados na terceira coluna da tabela Número de empregados Frequência ni Amplitude i Densidade nii Proporção fi Densidade fi i Número de empregados Frequência ni Amplitude i Densidade ni i Proporção fi Densidade fi i 0 10 5 10 050 002 00020 10 20 20 10 200 008 00080 20 30 35 10 350 014 00140 30 40 40 10 400 016 00160 40 60 50 20 250 020 00100 60 80 30 20 150 012 00060 80 100 20 20 100 008 00040 100 140 20 40 050 008 00020 140 180 15 40 038 006 00015 180 260 15 80 019 006 00008 Total 250 100 Um segundo passo é a construção da coluna das densidades de frequências em cada classe que é obtida dividindo as frequências ni pelas amplitudes i ou seja a medida que indica qual a concentração por unidade da variável Assim observandose os números da quarta coluna vêse que a classe de maior concentração passa a ser a 30 40 enquanto a última é a de menor concentração Para compreender a distribuição estes dados são muito mais informativos do que as frequências absolutas simplesmente De modo análogo podese construir a densidade da proporção ou porcentagem por unidade da variável verifique a construção por meio da 5ª e da 6ª colunas A interpretação para fii é muito semelhante àquela dada para nii Para a construção do histograma basta lembrar que a área total deve ser igual a 1 ou 100 o que sugere usar no eixo das ordenadas os valores de fii O histograma para estes dados está na Figura 219 Figura 219 Histograma dos dados do CM 1 2 Histograma alisado Na Tabela 24 temse a distribuição de frequências dos salários de 36 funcionários agrupados em classes de amplitude 4 Na Figura 27 temse o respectivo histograma Reagrupandose os dados em classes de amplitude 2 obterseia a seguinte tabela de frequências e o correspondente histograma Figura 220 a Classe de salários Frequências ni 400 600 4 600 800 6 800 1000 8 1000 1200 4 1200 1400 5 1400 1600 3 1600 1800 3 1800 2000 2 2000 2200 0 2200 2400 1 Total 36 Figura 220 a Histograma para a variável S salário 2 Se houvesse um número suficientemente grande de observações poderseia ir diminuindo os intervalos de classe e o histograma iria ficando cada vez menos irregular até atingir um caso limite com uma curva bem mais suave Por exemplo o comportamento da distribuição dos salários poderia ter a representação da Figura 220 b Esse histograma alisado é muito útil para ilustrar rapidamente qual o tipo de comportamento que se espera para a distribuição de uma dada variável No capítulo referente às variáveis aleatórias contínuas voltaremos a estudar esse histograma sob um ponto de vista mais matemático A interpretação desse gráfico é a mesma do histograma Assim nas regiões onde a curva é mais alta significa uma maior densidade de observações No exemplo acima conforme se aumenta o salário observase que a densidade de frequência vai diminuindo Figura 220 b Histograma alisado para a variável S salário 3 Frequências acumuladas Uma outra medida muito usada para descrever dados quantitativos é a frequência acumulada que indica quantos elementos ou que porcentagem deles estão abaixo de um certo valor Na tabela a seguir a terceira e a quinta colunas indicam respectivamente a frequência absoluta acumulada e a proporção porcentagem acumulada Assim observando a tabela podemos afirmar que 2778 dos indivíduos ganham até oito salários mínimos 6111 ganham até 12 salários mínimos 8333 ganham até 16 salários mínimos 9722 ganham até 20 salários mínimos e 100 dos funcionários ganham até 24 salários Classe de salários Frequência ni Frequência acumulada Ni Porcentagem 100 fi Porcentagem acumulada 100 Fi 400 800 10 10 2778 2778 800 1200 12 22 3333 6111 1200 1600 8 30 2222 8333 1600 2000 5 35 1389 9722 2000 2400 1 36 278 10000 Total 36 10000 A Figura 221 é a ilustração gráfica da porcentagem acumulada Figura 221 Porcentagens acumuladas para o Problema 15 Este gráfico pode ser usado para fornecer informações adicionais Por exemplo para saber qual o salário s tal que 50 dos funcionários ganhem menos do que s basta procurar o ponto s 50 na curva Observando as linhas pontilhadas no gráfico verificamos que a solução é um pouco mais do que 10 salários mínimos 4 Frequências acumuladas continuação Para um tratamento estatístico mais rigoroso das variáveis quantitativas costumase usar uma definição mais precisa para a distribuição das frequências acumuladas Em capítulos posteriores será vista a sua utilização Definição Dadas n observações de uma variável quantitativa e um número x real qualquer indicarseá por Nx o número de observações menores ou iguais a x e chamarseá de função de distribuição empírica fde a função Fnx ou Fex Exemplo 212 Para a variável S salário dos 36 funcionários listados na Tabela 21 é fácil verificar que O gráfico está na Figura 222 Àqueles não familiarizados com a representação gráfica de funções recomendase a leitura de Morettin Hazzan Bussab 2005 Figura 222 Função de distribuição empírica para o Exemplo 212 Exemplo 213 Esta definição também vale para variáveis quantitativas discretas Assim para a variável número de filhos resumida na Tabela 25 temse a seguinte fde cujo gráfico é o da Figura 223 Figura 223 Função de distribuição empírica para o Exemplo 213 5 Ramoefolhas continuação Os dados abaixo referemse à produção em toneladas de dado produto para 20 companhias químicas numeradas de 1 a 20 1 50 2 280 3 560 4 170 5 180 6 500 7 250 8 200 9 1050 10 240 11 180 12 1000 13 1100 14 120 15 4200 16 5100 17 480 18 90 19 870 20 360 Vemos que os valores estendemse de 50 a 5100 e usando uma representação semelhante à da Figura 29 teríamos um grande número de linhas A Figura 224 a mostra uma outra forma de ramoefolhas com ramos divididos A divisão ocorre no ramo cada vez que se muda por um fator de 10 Uma economia de 4 linhas poderia ser obtida representandose os valores 50 e 90 da Figura 224 a num ramo denominado 0 Obtemos a Figura 224 b Os pacotes computacionais trazem algumas opções adicionais ao construir um ramo efolhas Por exemplo podemos ter a contagem do número de folhas em cada ramo como mostra a Figura 225 a Aqui temos o ramoefolhas dos salários dos empregados da Tabela 21 Na Figura 225 b acrescentamos as contagens de folhas a partir de cada extremo até o ramo que contém a mediana Esse tipo de opção é chamado profundidade depth nos pacotes Figura 224 Ramoefolhas das produções de companhias químicas Figura 225 Ramoefolhas com a frequências em cada ramo b profundidade Capítulo 3 MedidasResumo 31 Medidas de Posição Vimos que o resumo de dados por meio de tabelas de frequências e ramoefolhas fornece muito mais informações sobre o comportamento de uma variável do que a própria tabela original de dados Muitas vezes queremos resumir ainda mais estes dados apresentando um ou alguns valores que sejam representativos da série toda Quando usamos um só valor obtemos uma redução drástica dos dados Usualmente empregase uma das seguintes medidas de posição ou localização central média mediana ou moda A moda é definida como a realização mais frequente do conjunto de valores observados Por exemplo considere a variável Z número de filhos de cada funcionário casado resumida na Tabela 25 do Capítulo 2 Vemos que a moda é 2 correspondente à realização com maior frequência 7 Em alguns casos pode haver mais de uma moda ou seja a distribuição dos valores pode ser bimodal trimodal etc A mediana é a realização que ocupa a posição central da série de observações quando estão ordenadas em ordem crescente Assim se as cinco observações de uma variável forem 3 4 7 8 e 8 a mediana é o valor 7 correspondendo à terceira observação Quando o número de observações for par usase como mediana a média aritmética das duas observações centrais Acrescentandose o valor 9 à série acima a mediana será 7 82 75 Finalmente a média aritmética conceito familiar ao leitor é a soma das observações dividida pelo número delas Assim a média aritmética de 3 4 7 8 e 8 é 3 4 7 8 85 6 Exemplo 31 Usando os dados da Tabela 25 já encontramos que a moda da variável Z é 2 Para a mediana constatamos que esta também é 2 média aritmética entre a décima e a décima primeira observações Finalmente a média aritmética será Neste exemplo as três medidas têm valores próximos e qualquer uma delas pode ser usada como representativa da série toda A média aritmética é talvez a medida mais usada Contudo ela pode conduzir a erros de interpretação Em muitas situações a mediana é uma medida mais adequada Voltaremos a este assunto mais adiante Vamos formalizar os conceitos introduzidos acima Se x1 xn são os n valores distintos ou não da variável X a média aritmética ou simplesmente média de X pode ser escrita 31 Agora se tivermos n observações da variável X das quais n1 são iguais a x1 n2 são iguais a x2 etc nk iguais a xk então a média de X pode ser escrita 32 Se fi nin representar a frequência relativa da observação xi então 32 também pode ser escrita 33 Consideremos agora as observações ordenadas em ordem crescente Vamos denotar a menor observação por x1 a segunda por x2 e assim por diante obtendose 34 Por exemplo se x1 3 x2 2 x3 6 x4 1 x5 3 então 2 1 3 3 6 de modo que x1 2 x2 1 x3 3 x4 3 e x5 6 As observações ordenadas como em 34 são chamadas estatísticas de ordem Com essa notação a mediana da variável X pode ser definida como 35 Exemplo 32 A determinação das medidas de posição para uma variável quantitativa contínua por meio de sua distribuição de frequências exige aproximações pois perdemos a informação dos valores das observações Consideremos a variável S salário dos 36 funcionários da Companhia MB agrupados em classes de salários conforme a Tabela 26 Uma aproximação razoável é supor que todos os valores dentro de uma classe tenham seus valores iguais ao ponto médio desta classe Este procedimento nos deixa na mesma situação do caso discreto em que as medidas são calculadas usandose os pares xi ni ou xi fi como em 32 e 33 A moda mediana e média para os dados da Tabela 26 são respectivamente Observe que colocamos o sinal de e não de igualdade pois os valores verdadeiros não são os calculados Por exemplo a mediana de S é a média entre as duas observações centrais quando os dados são ordenados isto é 980 e 1053 portanto mdS 1016 Quais são nesse exemplo a média e moda verdadeiras Observe que para calcular a moda de uma variável precisamos apenas da distribuição de frequências contagem Já para a mediana necessitamos minimamente ordenar as realizações da variável Finalmente a média só pode ser calculada para variáveis quantitativas Essas condições limitam bastante o cálculo de medidasresumos para as variáveis qualitativas Para as variáveis nominais somente podemos trabalhar com a moda Para as variáveis ordinais além da moda podemos usar também a mediana Devido a esse fato iremos apresentar daqui em diante medidasresumo para variáveis quantitativas que permitem o uso de operações aritméticas com seus valores Exemplo 32 continuação Retomemos os dados da Companhia MB A moda para a variável V região de procedência é moV outra Para a variável Y grau de instrução temos que moY ensino médio e mdY ensino médio Veremos na Seção 33 que a mediana é uma medida resistente ao passo que a média não o é em particular para distribuições muito assimétricas ou contendo valores atípicos Por outro lado a média é ótima num sentido que será discutido no Capítulo 10 se a distribuição dos dados for aproximadamente normal Uma outra medida de posição também resistente é a média aparada definida no Problema 39 Essa medida envolve calcular a média das observações centrais desprezandose uma porcentagem das iniciais e finais 32 Medidas de Dispersão O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações Por exemplo suponhamos que cinco grupos de alunos submeteramse a um teste no qual obtiveram as seguintes notas Grupo A variável X 3 4 5 6 7 Grupo B variável Y 1 3 5 7 9 Grupo C variável Z 5 5 5 5 5 Grupo D variável W 3 5 5 7 Grupo E variável V 3 5 5 6 6 Vemos que A identificação de cada uma destas séries por sua média 5 em todos os casos nada informa sobre suas diferentes variabilidades Notamos então a conveniência de serem criadas medidas que sumarizem a variabilidade de um conjunto de observações e que nos permita por exemplo comparar conjuntos diferentes de valores como os dados acima segundo algum critério estabelecido Um critério frequentemente usado para tal fim é aquele que mede a dispersão dos dados em torno de sua média e duas medidas são as mais usadas desvio médio e variância O princípio básico é analisar os desvios das observações em relação à média dessas observações Para o grupo A acima os desvios xi x são 2 1 0 1 2 É fácil ver Problema 14 a que para qualquer conjunto de dados a soma dos desvios é igual a zero Nestas condições a soma dos desvios não é uma boa medida de dispersão para o conjunto A Duas opções são a considerar o total dos desvios em valor absoluto b considerar o total dos quadrados dos desvios Para o grupo A teríamos respectivamente O uso desses totais pode causar dificuldades quando comparamos conjuntos de dados com números diferentes de observações como os conjuntos A e D acima Desse modo é mais conveniente exprimir as medidas como médias isto é o desvio médio e a variância são definidos por 36 37 respectivamente Para o grupo A temos enquanto para o grupo D temos Podemos dizer então que segundo o desvio médio o grupo D é mais homogêneo que A enquanto ambos são igualmente homogêneos segundo a variância Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados por exemplo se os dados são expressos em cm a variância será expressa em cm2 pode causar problemas de interpretação Costumase usar então o desvio padrão que é definido como a raiz quadrada positiva da variância Para o grupo A o desvio padrão é Ambas as medidas de dispersão dm e dp indicam em média qual será o erro desvio cometido ao tentar substituir cada observação pela medida resumo do conjunto de dados no caso a média Exemplo 33 Vamos calcular as medidas de dispersão acima para a variável Z número de filhos resumida na Tabela 25 Como vimos no Exemplo 31 z 165 Os desvios são zi z 165 065 035 135 335 Seguese que Também Consequentemente o desvio padrão de Z é Suponha que observemos n1 vezes os valores x1 etc nk vezes o valor xk da variável X Então 38 39 310 O cálculo aproximado das medidas de dispersão no caso de variáveis contínuas agrupadas em classes pode ser feito de modo análogo àquele usado para encontrar a média no Exemplo 22 Exemplo 34 Consideremos a variável S salário A média encontrada no Exemplo 32 foi s 1122 Com os dados da Tabela 26 e usando 39 encontramos e portanto É fácil ver que Veremos mais tarde que a variância de uma amostra será calculada usandose o denominador n 1 em vez de n A justificativa será dada naquele capítulo mas para grandes amostras pouca diferença fará o uso de um ou outro denominador Tanto a variância como o desvio médio são medidas de dispersão calculadas em relação à média das observações Assim como a média a variância ou o desvio padrão é uma boa medida se a distribuição dos dados for aproximadamente normal O desvio médio é mais resistente que o desvio padrão no sentido a ser estudado na seção seguinte Poderíamos considerar uma medida que seja calculada em relação à mediana O desvio absoluto mediano é um exemplo e é mais resistente que o desvio padrão Veja o Problema 41 Usando o Problema 14 b uma maneira computacionalmente mais eficiente de calcular a variância é 311 e no caso de observações repetidas 312 Problemas 1 Quer se estudar o número de erros de impressão de um livro Para isso escolheuse uma amostra de 50 páginas encontrandose o número de erros por página da tabela abaixo a Qual o número médio de erros por página b E o número mediano c Qual é o desvio padrão d Faça uma representação gráfica para a distribuição e Se o livro tem 500 páginas qual é o número total de erros esperado no livro Erros Frequência 0 25 1 20 2 3 3 1 4 1 2 As taxas de juros recebidas por 10 ações durante um certo período foram medidas em porcentagem 259 264 260 262 257 255 261 250 263 264 Calcule a média a mediana e o desvio padrão 3 Para facilitar um projeto de ampliação da rede de esgoto de uma certa região de uma cidade as autoridades tomaram uma amostra de tamanho 50 dos 270 quarteirões que compõem a região e foram encontrados os seguintes números de casas por quarteirão 2 2 3 10 13 14 15 15 16 16 18 18 20 21 22 22 23 24 25 25 26 27 29 29 30 32 36 42 44 45 45 46 48 52 58 59 61 61 61 65 66 66 68 75 78 80 89 90 92 97 a Use cinco intervalos e construa um histograma b Determine uma medida de posição central e uma medida de dispersão 4 a Dê uma situação prática em que você acha que a mediana é uma medida mais apropriada do que a média b Esboce um histograma em que a média e a mediana coincidem Existe alguma classe de histogramas em que isso sempre acontece c Esboce os histogramas de três variáveis X Y e Z com a mesma média aritmética mas com as variâncias ordenadas em ordem crescente 5 Suponha que a variável de interesse tenha a distribuição como na figura abaixo Você acha que a média é uma boa medida de posição E a mediana Justifique 6 Numa pesquisa realizada com 100 famílias levantaramse as seguintes informações Número de filhos 0 1 2 3 4 5 mais que 5 Frequência de famílias 17 20 28 19 7 4 5 a Qual a mediana do número de filhos b E a moda c Que problemas você enfrentaria para calcular a média Faça alguma suposição e encontrea 33 Quantis Empíricos Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um conjunto de dados pois a são afetados de forma exagerada por valores extremos b apenas com estes dois valores não temos ideia da simetria ou assimetria da distribuição dos dados Para contornar esses fatos outras medidas precisam ser consideradas Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima ver fórmula 35 De modo geral podemos definir uma medida chamada quantil de ordem p ou p quantil indicada por qp em que p é uma proporção qualquer 0 p 1 tal que 100p das observações sejam menores do que qp Indicamos abaixo alguns quantis e seus nomes particulares Dependendo do valor de p há dificuldades ao se calcular os quantis Isso é ilustrado no exemplo a seguir Exemplo 35 Suponha que tenhamos os seguintes valores de uma variável X 15 5 3 8 10 2 7 11 12 Ordenando os valores obtemos as estatísticas de ordem x1 2 x2 3 x9 15 ou seja teremos 2 3 5 7 8 10 11 12 15 Usando a definição de mediana dada teremos que md q05 q2 x5 8 Suponha que queiramos calcular os dois outros quartis q1 e q3 A ideia é dividir os dados em quatro partes 2 3 5 7 8 10 11 12 15 Uma possibilidade razoável é então considerar a mediana dos primeiros quatro valores para obter q1 ou seja e a mediana dos últimos quatro valores para obter q3 ou seja Obtemos então a sequência 2 3 4 5 7 8 10 11 115 12 15 Observe que a média dos n 9 valores é x 81 próximo à mediana Exemplo 35 continuação Acrescentemos agora o valor 67 à lista de nove valores do Exemplo 35 obtendose agora os n 10 valores ordenados 2 3 5 7 8 10 11 12 15 67 Agora x 14 enquanto que a mediana fica que está próxima da mediana dos nove valores originais mas ambas 8 e 9 relativamente longe de x Dizemos que a mediana é resistente ou robusta no sentido que ela não é muito afetada pelo valor discrepante ou atípico 67 Para calcular q1 e q3 para este novo conjunto de valores considereos assim dispostos 2 3 5 7 8 9 10 11 12 15 67 de modo que q1 5 e q3 12 Obtemos então os dados separados em 4 partes por q1 q2 e q3 2 3 5 7 8 9 10 11 12 15 67 Suponha agora que queiramos calcular q020 ou seja aquele valor que deixa 20 dos dados à sua esquerda para o conjunto original de n 9 valores de X Como 20 das observações correspondem a 18 observações qual valor devemos tomar como q0 20 O valor 3 que é a segunda observação ordenada ou 5 ou a média de 3 e 5 Se adotarmos essa última solução então q0 20 q0 25 q1 o que pode não parecer razoável Para responder a essa questão temos que definir o quantil de uma sequência de valores de uma variável de modo apropriado Isto está feito no Problema 17 Se os dados estiverem agrupados em classes podemos obter os quantis usando o histograma Por exemplo para obter a mediana sabemos que ela deve corresponder ao valor da abscissa que divide a área do histograma em duas partes iguais 50 para cada lado Então usando argumentos geométricos podemos encontrar um ponto satisfazendo essa propriedade Vejamos como proceder por meio de um exemplo Exemplo 36 Vamos repetir abaixo a Figura 27 que é o histograma da variável S salário dos empregados da Companhia MB Devemos localizar o ponto das abscissas que divide o histograma ao meio A área do primeiro retângulo corresponde a 28 do total os dois primeiros a 61 portanto a mediana md é algum número situado entre 800 e 1200 Ou melhor a mediana irá corresponder ao valor md no segundo retângulo tal que a área do retângulo de base 800 md e mesma altura que o retângulo de base 800 1200 seja 22 28 do primeiro retângulo mais 22 do segundo perfazendo os 50 Consulte a figura para melhor compreensão Pela proporcionalidade entre a área e a base do retângulo temos ou logo que é uma expressão mais precisa para a mediana do que a mediana bruta encontrada anteriormente O cálculo dos quantis pode ser feito de modo análogo ao cálculo da mediana usando argumentos geométricos no histograma Vejamos a determinação de alguns quantis usando os dados do último exemplo a q025 Verificamos que q025 deve estar na primeira classe pois a proporção no primeiro retângulo é 028 Logo e então b q095 Analisando a soma acumulada das proporções verificamos que este quantil deve pertencer à quarta classe e que nesse retângulo devemos achar a parte correspondente a 12 pois a soma acumulada até a classe anterior é 83 faltando 12 para atingirmos os 95 Portanto logo c q075 De modo análogo concluímos que o terceiro quantil deve pertencer ao intervalo 1200 1600 portanto e Uma medida de dispersão alternativa ao desvio padrão é a distância interquartil definida como a diferença entre o terceiro e primeiro quartis ou seja dq q3 q1 313 Para o Exemplo 35 temos q1 4 q3 115 de modo que dq 75 Para um cálculo mais preciso veja o Problema 17 Lá obtemos q1 45 q3 1125 logo dq 675 Os quartis q025 q1 q05 q2 e q075 q3 são medidas de localização resistentes de uma distribuição Dizemos que uma medida de localização ou dispersão é resistente quando for pouco afetada por mudanças de uma pequena porção dos dados A mediana é uma medida resistente ao passo que a média não o é Para ilustrar esse fato considere as populações dos 30 municípios do Brasil do CDMunicípios Se descartarmos Rio de Janeiro e São Paulo a média das populações dos 28 municípios restantes é 1006 e a mediana é 821 Para todos os dados a média pasa a ser 1454 ao passo que a mediana será 843 Note que a média aumentou bastante influenciada que foi pelos dois valores maiores que são muito discrepantes da maioria dos dados Mas a mediana variou pouco O desvio padrão também não é uma medida resistente Verifique como este varia para este exemplo dos municípios Os cinco valores x1 q1 q2 q3 e xn são importantes para se ter uma boa ideia da assimetria da distribuição dos dados Para uma distribuição simétrica ou aproximadamente simétrica deveríamos ter a q2 x1 xn q2 b q2 q1 q3 q2 c q1 x1 xn q3 d distâncias entre mediana e q1 q3 menores do que distâncias entre os extremos e q1 q3 A diferença q2 x1 é chamada dispersão inferior e xn q2 é a dispersão superior A condição a nos diz que as duas dispersões devem ser aproximadamente iguais para uma distribuição aproximadamente simétrica A Figura 31 ilustra estes fatos para a chamada distribuição normal ou gaussiana Na Figura 32 temos ilustradas essas cinco medidas para os n 9 valores do Exemplo 35 As cinco estatísticas de ordem consideradas acima podem ser representadas esquematicamente como na Figura 33 em que também incorporamos o número de observações n Representamos a mediana por md os quartis por q e os extremos por E Podemos ir além considerando os chamados oitavos ou seja o primeiro oitavo que corresponde a q0125 o sétimo oitavo que corresponde a q0875 etc Teríamos então sete números para representar a distribuição dos dados Em geral podemos considerar as chamadas letrasresumos descendo aos dezesseisavos trinta e doisavos etc Para detalhes ver Hoaglin Mosteller and Tukey 1983 Figura 33 Esquema dos cinco números Exemplo 37 Os aplicativos R SPlus e Minitab assim como a planilha Excel possuem ferramentas que geram as principais medidas descritas nesse capítulo e outras Por exemplo o comando Describe do Minitab usado para as populações dos municípios brasileiros produz a saída do Quadro 31 Quadro 31 Medidasresumo para o CDMunicípios Minitab MTB Describe C1 Descriptive Statistics Variable C1 N 30 Mean 1454 Median 843 Tr mean 1047 StDev 1866 SE Mean 341 Variable C1 Min 463 Max 9888 Q1 635 Q3 1397 Aqui temos N 30 dados a média é 1454 a mediana 843 o desvio padrão 1866 o menor valor 463 o maior valor 9888 o primeiro quartil 635 e o terceiro quartil 1397 Além desses valores o resumo traz a média aparada trimmed mean e o erro padrão da média a ser tratado no Capítulo 11 Esse é dado por O comando summary do R e SPlus produzem a saída do Quadro 32 para os mesmos dados Note a diferença no cálculo dos quantis q025 e q075 Concluise que é necessário saber como cada programa efetua o cálculo de determinada estatística para poder reportálo Quadro 32 Medidasresumo para o CDMunicípios R e SPlus summary munic Min 463 1st Qu 6448 Median 843 Mean 1454 3rd Qu 1343 Max 9888 Problemas 7 Obtenha o esquema dos cinco números para os dados do Problema 3 Calcule a distância interquartil e as dispersões inferior e superior Baseado nessas medidas verifique se a forma da distribuição dos dados é normal 8 Refaça o problema anterior utilizando desta vez os dados do Problema 5 do Capítulo 2 9 Obter os três quartis q01 e q090 para os dados do Problema 3 10 Para a variável população do CDBrasil obtenha q010 q025 q050 q075 q080 e q095 34 Box Plots A informação contida no esquema dos cinco números da Figura 33 pode ser traduzida graficamente num diagrama ilustrado na Figura 34 que chamaremos de box plot Murteira 1993 usa o termo caixadebigodes Figura 34 Box Plot Para construir este diagrama consideremos um retângulo em que estão representados a mediana e os quartis A partir do retângulo para cima segue uma linha até o ponto mais remoto que não exceda LS q3 15dq chamado limite superior De modo similar da parte inferior do retângulo para baixo segue uma linha até o ponto mais remoto que não seja menor do que LI q1 15dq chamado limite inferior Os valores compreendidos entre esses dois limites são chamados valores adjacentes As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos O box plot dá uma ideia da posição dispersão assimetria caudas e dados discrepantes A posição central é dada pela mediana e a dispersão por dq As posições relativas de q1 q2 q3 dão uma noção da assimetria da distribuição Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores remotos e pelos valores atípicos Exemplo 38 Retomemos o exemplo dos 15 maiores municípios do Brasil ordenados pelas populações Usando o procedimento do Problema 17 veja também o Problema 18 obtemos q1 1057 q2 1358 q3 2086 O diagrama para os cinco números x1 q1 q2 md q3 x15 está na Figura 35 abaixo Figura 35 Esquema dos cinco números para o Exemplo 38 Temos que LI q1 15dq 1057 15 1029 487 LS q3 15dq 2086 15 1029 3629 Então as cidades com populações acima de 3629000 habitantes são pontos exteriores ou seja Rio de Janeiro e São Paulo O box plot correspondente está na Figura 36 Vemos que os dados têm uma distribuição assimétrica à direita com 13 valores concentrados entre 80 e 230 e duas observações discrepantes bastante afastadas do corpo principal dos dados Figura 36 Box plot para os quinze maiores municípios do Brasil Do ponto de vista estatístico um outlier pode ser produto de um erro de observação ou de arredondamento No exemplo acima as populações de São Paulo e Rio de Janeiro não são outliers neste sentido pois elas representam dois valores realmente muito diferentes dos demais Daí usarmos o nome pontos ou valores exteriores Contudo na prática estas duas denominações são frequentemente usadas com o mesmo significado observações fora de lugar discrepantes ou atípicas A Figura 37 mostra o box plot para as populações dos trinta municípios brasileiros feito com o R Figura 37 Box plot com R A justificativa para usarmos os limites acima LI q1 15dq e LS q3 15dq para definir as observações atípicas é a seguinte considere uma curva normal com média zero e portanto com mediana zero É fácil verificar veja o Capítulo 7 e Tabela III que q1 06745 q2 0 q3 06745 e portanto dq 1349 Seguese que os limites são LI 2698 e LS 2698 A área entre esses dois valores embaixo da curva normal é 0993 ou seja 993 da distribuição está entre esses dois valores Isto é para dados com uma distribuição normal os pontos exteriores constituirão cerca de 07 da distribuição Veja a Figura 38 Figura 38 Área sob a curva normal entre LI e LS Problemas 11 Construa o box plot para os dados do Exemplo 23 Capítulo 2 O que você pode concluir a respeito da distribuição 12 Refaça a questão anterior com os dados do Problema 3 deste capítulo 13 Faça um box plot para o Problema 10 Comente sobre a simetria caudas e presença de valores atípicos 35 Gráficos de Simetria Os quantis podem ser úteis para se verificar se a distribuição dos dados é simétrica ou aproximadamente simétrica Se um conjunto de observações for perfeitamente simétrico devemos ter q05 xi xn 1 i q05 314 em que i 1 2 n2 se n for par e i 1 2 n 12 se n for ímpar Pela relação 314 vemos que se os quantis da direita estão mais afastados da mediana do que os da esquerda os dados serão assimétricos à direita Se ocorrer o contrário os dados serão assimétricos à esquerda A Figura 39 ilustra essas duas situações Figura 39 Distribuições assimétricas Para os dados do Exemplo 38 vemos que as observações são assimétricas à direita Em geral esse tipo de situação ocorre com dados positivos Podemos fazer um gráfico de simetria usando a identidade 314 Chamando de ui o primeiro membro e de vi o segundo membro fazendose um gráfico cartesiano com os uis como abscissas e os vis como ordenadas se os dados forem aproximadamente simétricos os pares ui vi estarão dispersos ao redor da reta v u Exemplo 39 Considere os dados que dispostos em ordem crescente ficam representados no eixo real como na Figura 310 Figura 310 Dados aproximadamente simétricos Esses dados são aproximadamente simétricos pois como q2 8 ui q2 xi vi xn 1 i q2 teremos u1 80 05 75 v1 153 80 73 u2 80 23 57 v2 135 80 55 u3 80 40 40 v3 120 80 40 u4 80 64 16 v4 98 80 18 A Figura 311 mostra o gráfico de simetria para as populações dos trinta municípios do Brasil Vemos que a maioria dos pontos estão acima da reta v u mostrando a assimetria à direita da distribuição dos valores Nessa figura vemos destacados os pontos correspondentes a Rio de Janeiro e São Paulo Figura 311 Gráfico de simetria para o CDMunicípios 36 Transformações Vários procedimentos estatísticos são baseados na suposição de que os dados provêm de uma distribuição normal em forma de sino ou então mais ou menos simétrica Mas em muitas situações de interesse prático a distribuição dos dados da amostra é assimétrica e pode conter valores atípicos como vimos em exemplos anteriores Se quisermos utilizar tais procedimentos o que se propõe é efetuar uma transformação das observações de modo a se obter uma distribuição mais simétrica e próxima da normal Uma família de transformações frequentemente utilizada é 315 Normalmente o que se faz é experimentar valores de p na sequência 3 2 1 12 13 14 0 14 13 12 1 2 3 e para cada valor de p obtemos gráficos apropriados histogramas box plots etc para os dados originais e transformados de modo a escolhermos o valor mais adequado de p Vimos que para dados positivos a distribuição dos dados é usualmente assimétrica à direita Para essas distribuições a transformação acima com 0 p 1 é apropriada pois valores grandes de x decrescem mais relativamente a valores pequenos Para distribuições assimétricas à esquerda tome p 1 Exemplo 310 Consideremos os dados das populações do CD Municípios e tomemos alguns valores de p 0 14 13 12 Na Figura 312 temos os histogramas para os dados transformados e na Figura 313 os respectivos box plots Vemos que p 0 transformação logarítmica e p 13 transformação raiz cúbica fornecem distribuições mais próximas de uma distribuição simétrica Figura 312 Histogramas para os dados transformados CDMunicípios Figura 313 Box plots para os dados transformados CDMunicípios R 37 Exemplos Computacionais Vamos retomar os exemplos estudados no Capítulo 2 e complementar as análises feitas com as medidas e gráficos expostos neste capítulo Além do R vamos usar o Minitab e SPlus para ver as diferenças entre os programas ao calcular certas medidas como os quantis Exemplo 210 continuação Aqui temos as notas em Estatística de 100 alunos de Economia Temos no Quadro 33 as principais medidas desse conjunto de dados fornecidas por uma variante do comando summary do R e do SPlus O comando Describe do Minitab oferece dez medidas Para obter essa mesmas medidas pelo R utilizamos a função summary2 que pode ser consultada nos scripts do Capítulo 3 Quadro 33 Medidas descritivas para o CDNotas R summary2 cdnotasnota 1 N 10000000 Min 150000 1st Qu 488000 Median 600000 Mean 592000 3rd Qu 712000 Max 1000000 Tr Mean 584375 Var 325188 StDev 180330 SE Mean 013429 Vemos por exemplo que q1 488 q2 600 e q3 712 Portanto dq q3 q1 224 O desvio padrão é 18 Usando o Minitab é possível verificar que esses quantis são diferentes indicando que distintos programas podem utilizar métodos diferentes ara calcular os quantis Vimos que a distribuição das notas é razoavelmente simétrica não havendo valores atípicos o que é confirmado pelo box plot da Figura 314 obtida pelo comando R boxplotcdnotasnota pch collightblue borderdarkgrey Figura 314 Box plot para o CDNotas R O gráfico de simetria da Figura 315 pode ser obtido pelos comandos do R umediancdnotasnotacdnotasnota vcdnotasnotamediancdnotasnota plotsortusortv pch19 xlabui ylabvicoldarkbluexlimc0maxuylimc0maxv titleFigura 315 Gráfico de simetria para o CDNotas abline01 Note que os pontos dispõemse ao redor da reta uv estando vários deles sobre ela indicando a quasesimetria dos dados Deveríamos ter 50 pontos no gráfico mas há vários pontos uivi repetidos Figura 315 Gráfico de simetria para o CDNotas Exemplo 211 continuação Os dados diários de temperatura na cidade de São Paulo no período considerado são ligeiramente assimétricos à esquerda O comando summary do R e do SPlus fornece as medidas descritivas do Quadro 34 Quadro 34 Medidas descritivas para temperaturas R e SPlus summary temp Min 123 1st Qu 16 Median 177 Mean 1722 3rd Qu 186 Max 21 Temos por exemplo q1 16 q2 177 e q3 186 A amplitude amostral é xn x1 87 e a distância interquartil é dq 26 O box plot e o gráfico de simetria estão nas Figuras 316 e 317 respectivamente que mostram a assimetria dos dados Todos os pontos estão abaixo da reta uv mostrando que uivi para todo i 1260 ou seja as distâncias da mediana aos quantis inferiores são maiores do que as distâncias dos quantis superiores à mediana indicando uma distribuição assimétrica à esquerda Obtémse essas duas figuras utilizando comandos similares àqueles do Exemplo 210 Figura 316 Box plot para as temperaturas de São Paulo CDPoluição R Figura 317 Gráfico de simetria para as temperaturas de São Paulo CDPoluição R 38 Problemas Suplementares 14 Mostre que a b c d 15 Usando os resultados da questão anterior calcule as variâncias dos Problemas 1 e 2 deste capítulo 16 Os dados abaixo representam as vendas semanais em classes de salários mínimos de vendedores de gêneros alimentícios Vendas semanais Nº de vendedores 30 35 2 35 40 10 40 45 18 45 50 50 50 55 70 55 60 30 60 65 18 65 70 2 a Faça o histograma das observações b Calcule a média da amostra x c Calcule o desvio padrão da amostra s d Qual a porcentagem das observações compreendidas entre x 2s e x 2s e Calcule a mediana 17 Considere o CDMunicípios e tome somente os 15 maiores relativamente à sua população Calcule q0 1 q0 2 q1 q2 q3 usando 320 18 O número de divórcios na cidade de acordo com a duração do casamento está representado na tabela abaixo a Qual a duração média dos casamentos E a mediana b Encontre a variância e o desvio padrão da duração dos casamentos c Construa o histograma da distribuição d Encontre o 1º e o 9º decis e Qual o intervalo interquantil Anos de casamento Nº de divórcios 0 6 2800 6 12 1400 12 18 600 18 24 150 24 30 50 19 O Departamento Pessoal de uma certa firma fez um levantamento dos salários dos 120 funcionários do setor administrativo obtendo os resultados em salários mínimos da tabela abaixo a Esboce o histograma correspondente b Calcule a média a variância e o desvio padrão c Calcule o 1º quartil e a mediana Faixa salarial Frequência relativa 0 2 025 2 4 040 4 6 020 6 10 015 d Se for concedido um aumento de 100 para todos os 120 funcionários haverá alteração na média E na variância Justifique sua resposta e Se for concedido um abono de dois salários mínimos para todos os 120 funcionários haverá alteração na média E na variância E na mediana Justifique sua resposta 20 O que acontece com a mediana a média e o desvio padrão de uma série de dados quando a cada observação é multiplicada por 2 b somase 10 a cada observação c subtraise a média geral x de cada observação d de cada observação subtraise x e dividese pelo desvio padrão dpx 21 Na companhia A a média dos salários é 10000 unidades e o 3º quartil é 5000 a Se você se apresentasse como candidato a funcionário nessa firma e se o seu salário fosse escolhido ao acaso entre todos os possíveis salários o que seria mais provável ganhar mais ou menos que 5000 unidades b Suponha que na companhia B a média dos salários seja 7000 unidades a variância praticamente zero e o salário também seja escolhido ao acaso Em qual companhia você se apresentaria para procurar emprego 22 Estamos interessados em estudar a idade dos 12325 funcionários da Cia Distribuidora de Leite Teco e isso será feito por meio de uma amostra Para determinar que tamanho deverá ter essa amostra foi colhida uma amostrapiloto As idades observadas foram 42 35 27 21 55 18 27 30 21 24 a Determine as medidas descritivas dos dados que você conhece b Qual dessas medidas você acredita que será a mais importante para julgar o tamanho final da amostra Por quê 23 Estudandose o consumo diário de leite verificouse que em certa região 20 das famílias consomem até um litro 50 consomem entre um e dois litros 20 consomem entre dois e três litros e o restante consome entre três e cinco litros Para a variável em estudo a Escreva as informações acima na forma de uma tabela de frequências b Construa o histograma c Calcule a média e a mediana d Calcule a variância e o desvio padrão e Qual o valor do 1º quartil 24 A distribuição de frequências do salário anual dos moradores do bairro A que têm alguma forma de rendimento é apresentada na tabela abaixo Faixa salarial 10 salários mínimos Frequência 0 2 10000 2 4 3900 4 6 2000 6 8 1100 8 10 800 10 12 700 12 14 2000 Total 20500 a Construa um histograma da distribuição b Qual a média e o desvio padrão da variável salário c O bairro B apresenta para a mesma variável uma média de 72 e um desvio padrão de 151 Em qual dos bairros a população é mais homogênea quanto à renda d Construa a função de distribuição acumulada e determine qual a faixa salarial dos 10 mais ricos da população do bairro e Qual a riqueza total dos moradores do bairro 25 Dado o histograma abaixo calcular a média a variância a moda a mediana e o 1º quartil 26 Em uma granja foi observada a distribuição dos frangos em relação ao peso que era a seguinte Peso gramas ni 960 980 60 980 1000 160 1000 1020 280 1020 1040 260 1040 1060 160 1060 1080 80 a Qual a média da distribuição b Qual a variância da distribuição c Construa o histograma d Queremos dividir os frangos em quatro categorias em relação ao peso de modo que os 20 mais leves sejam da categoria D os 30 seguintes sejam da categoria C os 30 seguintes sejam da categoria B os 20 seguintes ou seja os 20 mais pesados sejam da categoria A Quais os limites de peso entre as categorias A B C e D e O granjeiro decide separar desse lote os animais com peso inferior a dois desvios padrões abaixo da média para receberem ração reforçada e também separar os animais com peso superior a um e meio desvio padrão acima da média para usálos como reprodutores Qual a porcentagem de animais que serão separados em cada caso 27 A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi baixa da ordem de 22 anos Como esse curso foi planejado para atender a todas as idades decidiuse fazer uma campanha de divulgação Para se verificar se a campanha foi ou não eficiente fezse um levantamento da idade dos candidatos à última promoção e os resultados estão na tabela a seguir Idade Frequência Porcentagem 18 20 18 36 20 22 12 24 22 26 10 20 26 30 8 16 30 36 2 4 Total 50 100 a Baseandose nesses resultados você diria que a campanha produziu algum efeito isto é aumentou a idade média b Um outro pesquisador decidiu usar a seguinte regra se a diferença x 22 fosse maior que o valor então a campanha teria surtido efeito Qual a conclusão dele baseada nos dados c Faça o histograma da distribuição 28 Para se estudar o desempenho de duas corretoras de ações selecionouse de cada uma delas amostras aleatórias das ações negociadas Para cada ação selecionada computouse a porcentagem de lucro apresentada durante um período fixado de tempo Os dados estão a seguir Que tipo de informação revelam esses dados Sugestão use a análise proposta nas Seções 33 e 34 29 Para verificar a homogeneidade das duas populações do problema anterior um estatístico sugeriu que se usasse o quociente mas não disse qual decisão tomar baseado nesse valor Que regra de decisão você adotaria para dizer se são homogêneas ou não varXA variância de X para a corretora A X de lucro 30 Faça um box plot para os dados da corretora A e um para os dados da corretora B Compare os dois conjuntos de dados por meio desses desenhos 31 Para decidir se o desempenho das duas corretoras do exercício 29 são semelhantes ou não adotouse o seguinte teste sejam Caso t 2 os desempenhos são semelhantes caso contrário são diferentes Qual seria a sua conclusão Aqui nA é o número de ações selecionadas da corretora A e nomenclatura análoga para nB 32 Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação por habitante realizado pelas prefeituras De um levantamento de dez cidades foram obtidos os valores codificados da tabela abaixo Cidade A B C D E F G H I J Investimento 20 16 14 8 19 15 14 16 19 18 Nesse caso será considerado como investimento básico a média final das observações calculada da seguinte maneira 1 Obtémse uma média inicial 2 Eliminamse do conjunto aquelas observações que forem superiores à média inicial mais duas vezes o desvio padrão ou inferiores à média inicial menos duas vezes o desvio padrão 3 Calculase a média final com o novo conjunto de observações Qual o investimento básico que você daria como resposta Observação O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo investimento é muito diferente dos demais 33 Estudandose a distribuição das idades dos funcionários de duas repartições públicas obtiveramse algumas medidas que estão no quadro abaixo Esboce o histograma alisado das duas distribuições indicando nele as medidas descritas no quadro Comente as principais diferenças entre os dois histogramas Repartição Mínimo 1º Quartil Mediana Média 3º Quartil Máximo dp A 18 27 33 33 39 48 5 B 18 23 32 33 42 48 10 34 Decidiuse investigar a distribuição dos profissionais com nível universitário em duas regiões A e B As informações pertinentes foram obtidas e encontramse no quadro abaixo expressas em salários mínimos Esboce a distribuição histograma alisado dos salários de cada região indicando no gráfico as medidas apresentadas no quadro Faça também uma descrição rápida das principais diferenças observadas nos gráficos Região Média dp Mediana Moda q1 q3 x1 xn A 2000 400 2032 2015 1732 2268 800 3200 B 2000 600 1800 1700 1600 2400 1400 4200 35 Construa um box plot para os dados do Problema 6 do Capítulo 2 Obtenha conclusões a respeito da distribuição a partir desse desenho 36 Usando os dados da variável qualitativa região de procedência da Tabela 21 transformea na variável quantitativa X definida do seguinte modo a Calcule x e varX b Qual a interpretação de x c Construa um histograma para X 37 No Problema 9 do Capítulo 2 temos os resultados de 25 funcionários em vários exames a que se submeteram Sabese agora que os critérios adotados em cada exame não são comparáveis por isso decidiuse usar o desempenho relativo em cada exame Essa medida será obtida do seguinte modo I Para cada exame serão calculados a média x e o desvio padrão dpX II A nota X de cada aluno será padronizada do seguinte modo a Interprete o significado de Z b Calcule as notas padronizadas dos funcionários para o exame de Estatística c Com os resultados obtidos em b calcule z e dpZ d Se alguma das notas padronizadas estiver acima de 2dpZ ou abaixo de 2dpZ esse funcionário deve ser considerado um caso atípico Existe algum nessa situação e O funcionário 1 obteve 90 em Direito em Estatística e em Política Em que disciplina o seu desempenho relativo foi melhor 38 Calcule o desvio absoluto mediano para as populações do CDBrasil 39 Calcule as principais medidas de posição e dispersão incluindo a média aparada e o dam para a variável CO no CDPoluição b salários de mecânicos CDSalários e c variável preço CDVeículos 40 Construa os histogramas ramoefolhas e box plots para as variáveis do problema anterior 41 Faça um gráfico de quantis e um de simetria para os dados do Problema 3 Os dados são simétricos Comente 42 Para o CDTemperaturas e para a variável temperatura de Ubatuba obtenha um gráfico de quantis e um gráfico de simetria Os dados são simétricos Comente 43 Use 321 para construir histogramas para a variável umid umidade do CDPoluição b variável salário dos professores do CDSalários e c a temperatura de Cananeia do CDTemperaturas 44 Calcule A dada por 322 para o Exemplo 35 Comente 45 Calcule A para o Exemplo 38 Comente 39 Complementos Metodológicos 1 Quantis Para calcular os quantis de uma sequência de valores de uma variável X poderíamos usar a função de distribuição acumulada ou empírica definida no Problema 17 do Capítulo 2 Essa função fornece para cada número real x a proporção das observações menores ou iguais a x No Exemplo 35 temos 316 O gráfico de Fex está na Figura 318 Note que não há nenhum valor de x tal que Fex 05 e Fe2 19 Fe3 29 Fe15 1 ou seja podemos escrever de modo geral 317 Em particular Femd Fx5 Fe8 59 0556 Portanto ou mudamos nossa definição de mediana ou Fe não pode ser usada para definir precisamente mediana ou em geral um quantil qp Figura 318 Funções de distribuição empírica Fe e fde alisada Fe para o Exemplo 35 Mas vejamos que Fe pode ser a base para tal definição Considere alisar ou suavizar Fe como feito na Figura 318 de modo a obter uma curva contínua Fex que passa pelos pontos xi pi em que 318 Observe que 0 p1 19 19 p2 29 etc Com esse procedimento notamos que ou seja podemos escrever 319 sendo que no nosso caso n 9 Com essa modificação obtemos que emd e8 05 e para cada p 0 p 1 podemos obter de modo unívoco o quantil qp tomandose a função inversa e 1p Ou seja considere uma reta horizontal passando por p no eixo das ordenadas até encontrar a curva contínua e depois baixe uma reta vertical até encontrar qp no eixo das abscissas Uma maneira equivalente de proceder nos leva à seguinte definição para calcular qp para qualquer p 0 p 1 Definição O pquantil é definido por 320 em que Notamos então que se p coincidir com a proporção pi o quantil será a iésima observação xi Se pi p pi1 o quantil estará no segmento de reta que une pi xi e pi1 xi1 De fato a reta passando por pi xi e p qp é Exemplo 35 continuação Usando a definição obtemos q01 06x1 04x2 062 043 24 q02 07x2 03x3 073 035 36 q025 025x2 075x3 45 q05 x5 8 q075 075x7 025x8 07511 02512 1125 2 Média aparada Se 0 α 1 uma média aparada a 100α é obtida eliminando l00α das menores observações e 100α das maiores observações e calculandose a média aritmética das restantes Por exemplo se tivermos 10 observações ordenadas x1 x2 x10 a média aparada a 10 é Se α 025 x 025 é chamada meiamédia Calcule a média aparada a 10 e 25 para os dados de salários da Tabela 21 3 Coeficiente de variação Como vimos na Seção 33 o desvio padrão é bastante afetado pela magnitude dos dados ou seja ele não é uma medida resistente Se quisermos comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de variação que é definido como a razão entre o desvio padrão S e a média amostral e usualmente expresso em porcentagem Calcule o coeficiente de variação para as regiões A e B e do Problema 35 e comente o resultado 4 Desvio absoluto mediano Esta é uma medida de dispersão dos dados x1 xn definida por dam med1 j nxj med1 i nxi Ou seja calculamos a mediana dos dados depois os desvios absolutos dos dados em relação à mediana e finalmente a mediana desses desvios absolutos Vamos considerar os dados abaixo extraídos de Graedel e Kleiner 1985 e que representam velocidades do vento no aeroporto da Filadélfia EUA para os primeiros 15 dias de dezembro de 1974 Vemos que há uma observação muito diferente das demais 611 mas que representa um dado real no dia 2 de dezembro houve uma tempestade forte com chuva e vento 222 611 130 278 222 74 74 74 204 204 204 111 130 74 148 Calculandose as medidas de posição e dispersão estudadas obtemos x 184 x020 158 md 148 q1 83 q3 218 dq 148 dam 74 dpX 135 Observemos que retirandose o valor atípico 611 a média passa a ser 153 e o desvio padrão 68 valor este mais próximo do dam 5 O histograma dá uma ideia de como é a verdadeira densidade de frequências da população da qual os dados foram selecionados Suponha que tenhamos o histograma da figura abaixo e que a curva suave seja a verdadeira densidade populacional desconhecida Considere as distâncias entre o histograma e a densidade Suponha que queiramos determinar a amplitude de classe do histograma de modo a minimizar a maior distância em valor absoluto Freedman e Diaconis 1981 mostraram que o valor de é dado aproximadamente por em que S é um estimador robusto do desvio padrão populacional Por exemplo podemos tomar em que dq q3 q1 é a distância interquartil devido ao fato de numa distribuição normal dq 1 349σ sendo o σ o desvio padrão Seguese que é dado por 321 Usando esse resultado o número de classes a considerar num histograma é obtido por meio de 6 Medida de assimetria Pelas observações feitas para variáveis simétricas na Seção 33 podemos definir a medida 322 Se a distribuição for simétrica o numerador de A é zero e portanto A 0 Capítulo 4 Análise Bidimensional 41 Introdução Até agora vimos como organizar e resumir informações pertinentes a uma única variável ou a um conjunto de dados mas frequentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis aleatórias Os dados aparecem na forma de uma matriz usualmente com as colunas indicando as variáveis e as linhas os indivíduos ou elementos A Tabela 41 mostra a notação de uma matriz com p variáveis X1 X2 Xp e n indivíduos totalizando np dados A Tabela 21 com os dados hipotéticos da Companhia MB é uma ilustração numérica de uma matriz 36 7 O principal objetivo das análises nessa situação é explorar relações similaridades entre as colunas ou algumas vezes entre as linhas Como no caso de apenas uma variável que estudamos a distribuição conjunta das frequências será um instrumento poderoso para a compreensão do comportamento dos dados Neste capítulo iremos nos deter no caso de duas variáveis ou dois conjuntos de dados Na Seção 48 daremos dois exemplos do caso de três variáveis Tabela 41 Tabela de dados Em algumas situações podemos ter dois ou mais conjuntos de dados provenientes da observação da mesma variável Por exemplo podemos ter um conjunto de dados x1 xn que são as temperaturas na cidade A durante n meses e outro conjunto de dados y1 yn que são as temperaturas da cidade B nos mesmos meses Para efeito de análise podemos considerar que o primeiro conjunto são observações da variável X temperatura na cidade A enquanto o segundo conjunto são observações da variável Y temperatura na cidade B Este é o caso do CDTemperaturas Também poderíamos usar uma variável X para indicar a temperatura e outra variável L para indicar se a observação pertence à região A ou B Na Tabela 21 podemos estar interessados em comparar os salários dos casados e solteiros Uma reordenação dos dados poderia colocar os casados nas primeiras posições e os solteiros nas últimas e nosso objetivo passaria a ser comparar na coluna de salários variável S o comportamento de S na parte superior com a inferior A escolha da apresentação de um ou outro modo será ditada principalmente pelo interesse e técnicas de análise à disposição do pesquisador No CDBrasil temos três variáveis superfície população e densidade populacional No CDPoluíção temos quatro variáveis quantidade de monóxido de carbono ozônio temperatura do ar e umidade relativa do ar Quando consideramos duas variáveis ou dois conjuntos de dados podemos ter três situações a as duas variáveis são qualitativas b as duas variáveis são quantitativas e c uma variável é qualitativa e outra é quantitativa As técnicas de análise de dados nas três situações são diferentes Quando as variáveis são qualitativas os dados são resumidos em tabelas de dupla entrada ou de contingência em que aparecerão as frequências absolutas ou contagens de indivíduos que pertencem simultaneamente a categorias de uma e outra variável Quando as duas variáveis são quantitativas as observações são provenientes de mensurações e técnicas como gráficos de dispersão ou de quantis são apropriadas Quando temos uma variável qualitativa e outra quantitativa em geral analisamos o que acontece com a variável quantitativa quando os dados são categorizados de acordo com os diversos atributos da variável qualitativa Mas podemos ter também o caso de duas variáveis quantitativas agrupadas em classes Por exemplo podemos querer analisar a associação entre renda e consumo de certo número de famílias e para isso agrupamos as famílias em classes de rendas e classes de consumo Desse modo recaímos novamente numa tabela de dupla entrada Contudo em todas as situações o objetivo é encontrar as possíveis relações ou associações entre as duas variáveis Essas relações podem ser detectadas por meio de métodos gráficos e medidas numéricas Para efeitos práticos e a razão ficará mais clara após o estudo de probabilidades iremos entender a existência de associação como a mudança de opinião sobre o comportamento de uma variável na presença ou não de informação sobre a segunda variável Ilustrando existe relação entre a altura de pessoas e o sexo homem ou mulher em dada comunidade Pode se fazer uma primeira pergunta qual a frequência esperada de uma pessoa dessa população ter digamos mais de 170 cm de altura E também uma segunda qual a frequência esperada de uma mulher ou homem ter mais de 170 cm de altura Se a resposta para as duas perguntas for a mesma diríamos que não há associação entre as variáveis altura e sexo Porém se as respostas forem diferentes isso significa uma provável associação e devemos incorporar esse conhecimento para melhorar o entendimento sobre os comportamentos das variáveis No exemplo em questão você acha que existe associação entre as variáveis 42 Variáveis Qualitativas Para ilustrar o tipo de análise consideremos o exemplo a seguir Exemplo 41 Suponha que queiramos analisar o comportamento conjunto das variáveis Y grau de instrução e V região de procedência cujas observações estão contidas na Tabela 21 A distribuição de frequências é representada por uma tabela de dupla entrada e está na Tabela 42 Cada elemento do corpo da tabela dá a frequência observada das realizações simultâneas de Y e V Assim observamos quatro indivíduos da capital com ensino fundamental sete do interior com ensino médio etc A linha dos totais fornece a distribuição da variável Y ao passo que a coluna dos totais fornece a distribuição da variável V As distribuições assim obtidas são chamadas tecnicamente de distribuições marginais enquanto a Tabela 42 constitui a distribuição conjunta de Y e V Tabela 42 Distribuição conjunta das frequências das variáveis grau de instrução Y e região de procedência V V Y Ensino Fundamental Ensino Médio Superior Total Capital 4 5 2 11 Interior 3 7 2 12 Outra 5 6 2 13 Total 12 18 6 36 Fonte Tabela 21 Em vez de trabalharmos com as frequências absolutas podemos construir tabelas com as frequências relativas proporções como foi feito no caso unidimensional Mas aqui existem três possibilidades de expressarmos a proporção de cada casela a em relação ao total geral b em relação ao total de cada linha c ou em relação ao total de cada coluna De acordo com o objetivo do problema em estudo uma delas será a mais conveniente A Tabela 43 apresenta a distribuição conjunta das frequências relativas expressas como proporções do total geral Podemos então afirmar que 11 dos empregados vêm da capital e têm o ensino fundamental Os totais nas margens fornecem as distribuições unidimensionais de cada uma das variáveis Por exemplo 31 dos indivíduos vêm da capital 33 do interior e 36 de outras regiões Observe que devido ao problema de aproximação das divisões a distribuição das proporções introduz algumas diferenças não existentes Compare por exemplo as colunas de instrução superior nas Tabelas 42 e 43 A Tabela 44 apresenta a distribuição das proporções em relação ao total das colunas Podemos dizer que entre os empregados com instrução até o ensino fundamental 33 vêm da capital ao passo que entre os empregados com ensino médio 28 vêm da capital Esse tipo de tabela serve para comparar a distribuição da procedência dos indivíduos conforme o grau de instrução Tabela 43 Distribuição conjunta das proporções em porcentagem em relação ao total geral das variáveis Y e V definidas no texto V Y Fundamental Médio Superior Total Capital 11 14 6 31 Interior 8 19 6 33 Outra 14 17 5 36 Total 33 50 17 100 Fonte Tabela 42 Tabela 44 Distribuição conjunta das proporções em porcentagem em relação aos totais de cada coluna das variáveis Y e V definidas no texto V Y Fundamental Médio Superior Total Capital 33 28 33 31 Interior 25 39 33 33 Outra 42 33 34 36 Total 100 100 100 100 Fonte Tabela 42 De modo análogo podemos construir a distribuição das proporções em relação ao total das linhas Aconselhamos o leitor a construir essa tabela A comparação entre as duas variáveis também pode ser feita utilizandose representações gráficas Na Figura 41 apresentamos uma possível representação para os dados da Tabela 44 Figura 41 Distribuição da região de procedência por grau de instrução Problemas 1 Usando os dados da Tabela 21 Capítulo 2 a Construa a distribuição de frequência conjunta para as variáveis grau de instrução e região de procedência b Qual a porcentagem de funcionários que têm o ensino médio c Qual a porcentagem daqueles que têm o ensino médio e são do interior d Dentre os funcionários do interior quantos por cento têm o ensino médio 2 No problema anterior sorteando um funcionário ao acaso entre os 36 a Qual será provavelmente o seu grau de instrução b E sua região de procedência c Qual a probabilidade do sorteado ter nível superior d Sabendo que o sorteado é do interior qual a probabilidade de ele possuir nível superior e Sabendo que o escolhido é da capital qual a probabilidade de ele possuir nível superior 3 Numa pesquisa sobre rotatividade de mão de obra para uma amostra de 40 pessoas foram observadas duas variáveis número de empregos nos últimos dois anos X e salário mais recente em número de salários mínimos Y Os resultados foram Indivíduo X Y Indivíduo X Y 1 1 6 21 2 4 2 3 2 22 3 2 3 2 4 23 4 1 4 3 1 24 1 5 5 2 4 25 2 4 6 2 1 26 3 2 7 3 3 27 4 1 8 1 5 28 1 5 9 2 2 29 4 4 10 3 2 30 3 3 11 2 5 31 2 2 12 3 2 32 1 1 13 1 6 33 4 1 14 2 6 34 2 6 15 3 2 35 4 2 16 4 2 36 3 1 17 1 5 37 1 4 18 2 5 38 3 2 19 2 1 39 2 3 20 2 1 40 2 5 a Usando a mediana classifique os indivíduos em dois níveis alto e baixo para cada uma das variáveis e construa a distribuição de frequências conjunta das duas classificações b Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco c Qual a porcentagem das pessoas que ganham pouco d Entre as pessoas com baixa rotatividade qual a porcentagem das que ganham pouco e A informação adicional dada em d mudou muito a porcentagem observada em c O que isso significa 43 Associação entre Variáveis Qualitativas Um dos principais objetivos de se construir uma distribuição conjunta de duas variáveis qualitativas é descrever a associação entre elas isto é queremos conhecer o grau de dependência entre elas de modo que possamos prever melhor o resultado de uma delas quando conhecermos a realização da outra Por exemplo se quisermos estimar qual a renda média de uma família moradora da cidade de São Paulo a informação adicional sobre a classe social a que ela pertence nos permite estimar com maior precisão essa renda pois sabemos que existe uma dependência entre as duas variáveis renda familiar e classe social Ou ainda suponhamos que uma pessoa seja sorteada ao acaso na população da cidade de São Paulo e devamos adivinhar o sexo dessa pessoa Como a proporção de pessoas de cada sexo é aproximadamente a mesma o resultado desse exercício de adivinhação poderia ser qualquer um dos sexos masculino ou feminino Mas se a mesma pergunta fosse feita e também fosse dito que a pessoa sorteada trabalha na indústria siderúrgica então nossa resposta mais provável seria que a pessoa sorteada é do sexo masculino Ou seja há um grau de dependência grande entre as variáveis sexo e ramo de atividade Vejamos como podemos identificar a associação entre duas variáveis da distribuição conjunta Exemplo 42 Queremos verificar se existe ou não associação entre o sexo e a carreira escolhida por 200 alunos de Economia e Administração Esses dados estão na Tabela 45 Tabela 45 Distribuição conjunta de alunos segundo o sexo X e o curso escolhido Y Y X Masculino Feminino Total Economia 85 35 120 Administração 55 25 80 Total 140 60 200 Fonte Dados hipotéticos Inicialmente verificamos que fica muito difícil tirar alguma conclusão devido à diferença entre os totais marginais Devemos pois construir as proporções segundo as linhas ou as colunas para podermos fazer comparações Fixemos os totais das colunas a distribuição está na Tabela 46 Tabela 46 Distribuição conjunta das proporções em porcentagem de alunos segundo o sexo X e o curso escolhido Y Y X Masculino Feminino Total Economia 61 58 60 Administração 39 42 40 Total 100 100 100 Fonte Tabela 45 A partir dessa tabela podemos observar que independentemente do sexo 60 das pessoas preferem Economia e 40 preferem Administração observe na coluna de total Não havendo dependência entre as variáveis esperaríamos essas mesmas proporções para cada sexo Observando a tabela vemos que as proporções do sexo masculino 61 e 39 e do sexo feminino 58 e 42 são próximas das marginais 60 e 40 Esses resultados parecem indicar não haver dependência entre as duas variáveis para o conjunto de alunos considerado Concluímos então que neste caso as variáveis sexo e escolha do curso parecem ser não associadas Vamos considerar agora um problema semelhante mas envolvendo alunos de Física e Ciências Sociais cuja distribuição conjunta está na Tabela 47 Tabela 47 Distribuição conjunta das frequências e proporções em porcentagem segundo o sexo X e o curso escolhido Y Y X Masculino Feminino Total Física 100 71 20 33 120 60 Ciências Sociais 40 29 40 67 80 40 Total 140 100 60 100 200 100 Fonte Dados hipotéticos Inicialmente convém observar que para economizar espaço resumimos duas tabelas numa única indicando as proporções em relação aos totais das colunas entre parênteses Comparando agora a distribuição das proporções pelos cursos independentemente do sexo coluna de totais com as distribuições diferenciadas por sexo colunas de masculino e feminino observamos uma disparidade bem acentuada nas proporções Parece pois haver maior concentração de homens no curso de Física e de mulheres no de Ciências Sociais Portanto nesse caso as variáveis sexo e curso escolhido parecem ser associadas Quando existe associação entre variáveis sempre é interessante quantificar essa associação e isso será objeto da próxima seção Antes de passarmos a discutir esse aspecto convém observar que teríamos obtido as mesmas conclusões do Exemplo 42 se tivéssemos calculado as proporções mantendo constantes os totais das linhas Problemas 4 Usando os dados do Problema 1 responda a Qual a distribuição das proporções do grau de educação segundo cada uma das regiões de procedência b Baseado no resultado anterior e no Problema 2 você diria que existe dependência entre a região de procedência e o nível de educação do funcionário 5 Usando o Problema 3 verifique se há relações entre as variáveis rotatividade e salário 6 Uma companhia de seguros analisou a frequência com que 2000 segurados 1000 homens e 1000 mulheres usaram o hospital Os resultados foram Homens Mulheres Usaram o hospital 100 150 Não usaram o hospital 900 850 a Calcule a proporção de homens entre os indivíduos que usaram o hospital b Calcule a proporção de homens entre os indivíduos que não usaram o hospital c O uso do hospital independe do sexo do segurado 44 Medidas de Associação entre Variáveis Qualitativas De modo geral a quantificação do grau de associação entre duas variáveis é feita pelos chamados coeficientes de associação ou correlação Essas são medidas que descrevem por meio de um único número a associação ou dependência entre duas variáveis Para facilitar a compreensão esses coeficientes usualmente variam entre 0 e 1 ou entre 1 e 1 e a proximidade de zero indica falta de associação Existem muitas medidas que quantificam a associação entre variáveis qualitativas apresentaremos apenas duas delas o chamado coeficiente de contingência devido a K Pearson e uma modificação desse Exemplo 43 Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional Coletados os dados relevantes obtemos a Tabela 48 Tabela 48 Cooperativas autorizadas a funcionar por tipo e estado junho de 1974 Estado Tipo de Cooperativa Total Consumidor Produtor Escola Outras São Paulo 214 33 237 37 78 12 119 18 648 100 Paraná 51 17 102 34 126 42 22 7 301 100 Rio G do Sul 111 18 304 51 139 23 48 8 602 100 Total 376 24 643 42 343 22 189 12 1551 100 Fonte Sinopse Estatística da Brasil IBGE 1977 A análise da tabela mostra a existência de certa dependência entre as variáveis Caso não houvesse associação esperaríamos que em cada estado tivéssemos 24 de cooperativas de consumidores 42 de cooperativas de produtores 22 de escolas e 12 de outros tipos Então por exemplo o número esperado de cooperativas de consumidores no Estado de São Paulo seria 648 024 157 e no Paraná seria 301 024 73 ver Tabela 49 Tabela 49 Valores esperados na Tabela 48 assumindo a independência entre as duas variáveis Estado Tipo de Cooperativa Total Consumidor Produtor Escola Outras São Paulo 157 24 269 42 143 22 79 12 648 100 Paraná 73 24 124 42 67 22 37 12 301 100 Rio G do Sul 146 24 250 42 133 22 73 12 602 100 Total 376 24 643 42 343 22 189 12 1551 100 Fonte Tabela 48 Tabela 410 Desvios entre observados e esperados Comparando as duas tabelas podemos verificar as discrepâncias existentes entre os valores observados Tabela 48 e os valores esperados Tabela 49 caso as variáveis não fossem associadas Na Tabela 410 resumimos os desvios valores observados menos valores esperados Observando essa tabela podemos tirar algumas conclusões i A soma total dos resíduos é nula Isso pode ser verificado facilmente somandose cada linha ii A casela EscolaSão Paulo é aquela que apresenta o maior desvio da suposição de nãoassociação 65 Nessa casela esperávamos 143 casos A casela EscolaParaná também tem um desvio alto 59 mas o valor esperado é bem menor 67 Portanto se fôssemos considerar os desvios relativos aquele correspondente ao segundo caso seria bem maior Uma maneira de observar esse fato é construir para cada casela a oi ei2 ei Usando 41 para a casela EscolaSão Paulo obtemos 65²143 2955 e para a casela EscolaParaná obtemos 59²67 5196 o que é uma indicação de que o desvio devido a essa última casela é maior do que aquele da primeira Na Tabela 410 indicamos entre parênteses esses valores para todas as caselas Uma medida do afastamento global pode ser dada pela soma de todas as medidas 41 Essa medida é denominada χ² quiquadrado de Pearson e no nosso exemplo teríamos χ² 2069 663 856 17176 Um valor grande de χ² indica associação entre as variáveis o que parece ser o caso Antes de dar uma fórmula geral para essa medida de associação vamos introduzir na Tabela 411 uma notação geral para tabelas de dupla entrada Tabela 411 Notação para tabelas de contingência Suponha que temos duas variáveis qualitativas X e Y classificadas em r categorias A₁ A₂ Aᵣ para X e s categorias B₁ B₂ Bₛ para Y Na tabela temos nᵢⱼ número de elementos pertencentes à iésima categoria de X e jésima categoria de Y nₕ Σᵐ₁ nᵢⱼ número de elementos da iésima categoria de X nⱼ Σᵖ₁ nᵢⱼ número de elementos da jésima categoria de Y n nₕ Σₕ₁ nᵢⱼ número total de elementos Sob a hipótese de que as variáveis X e Y não sejam associadas comumente dizemos independentes temos que nᵢⱼ nₕ nⱼ n 1 i 1 r j 1 s 43 Portanto sob a hipótese de independência de 43 segue que em termos de frequências relativas podemos escrever fᵢⱼ fₕfⱼ Chamando de frequências esperadas os valores dados pelos segundos membros de 43 e denotandoas por nᵢⱼ temos que o quiquadrado de Pearson pode ser escrito χ² Σᵢ Σⱼ nᵢⱼ nᵢⱼ² nᵢⱼ 44 em que nᵢⱼ são os valores efetivamente observados Se a hipótese de não associação for verdadeira o valor calculado de 44 deve estar próximo de zero Se as variáveis forem associadas o valor de χ² deve ser grande Podemos escrever a fórmula 44 em termos de frequências relativas como Outra medida de associação foi proposta por Cramér dada por V X²nq1 onde q min r s Para o Exemplo 43 temos que C 0 32 T 0 21 e V 0 24 Voltaremos a falar do uso do χ² no Capítulo 14 Vejamos um exemplo em que há dependência completa e deveremos obter T 1 Suponha X Y e r s 2 com n observações distribuídas segundo a tabela abaixo É fácil ver que todos os valores esperados são iguais a n4 e o valor calculado do quiquadrado será χ² n do que resulta T 1 Para outros exemplos veja os Problemas 39 e 40 45 Associação entre Variáveis Quantitativas Quando as variáveis envolvidas são ambas do tipo quantitativo podese usar o mesmo tipo de análise apresentado nas seções anteriores e exemplificado com variáveis qualitativas De modo análogo a distribuição conjunta pode ser resumida em tabelas de dupla entrada e por meio das distribuições marginais é possível estudar a associação das variáveis Algumas vezes para evitar um grande número de entradas agrupamos os dados marginais em intervalos de classes de modo semelhante ao resumo feito no caso unidimensional Mas além desse tipo de análise as variáveis quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas ou entre dois conjuntos de dados é o gráfico de dispersão que vamos introduzir por meio de exemplos Exemplo 44 Na Figura 42 temos o gráfico de dispersão das variáveis X e Y da Tabela 412 Nesse tipo de gráfico temos os possíveis pares de valores x y na ordem que aparecem Para o exemplo vemos que parece haver uma associação entre as variáveis porque no conjunto a medida que aumenta o tempo de serviço aumenta o número de clientes Tabela 412 Número de anos de serviço X por número de clientes Y de agentes de uma companhia de seguros Agente Anos de serviço X Número de clientes Y A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 10 72 Fonte Dados hipotéticos Figura 42 Gráfico de dispersão para as variáveis X anos de serviço e Y número de clientes Exemplo 45 Consideremos os dados das variáveis X população urbana e Y população rural no Brasil em 1996 O gráfico de dispersão está na Figura 43 Vemos que parece não haver associação entre as variáveis pois os pontos não apresentam nenhuma tendência particular Figura 43 Gráfico de dispersão para as variáveis X população urbana e Y população rural Exemplo 46 Consideremos agora as duas situações abaixo e os respectivos gráficos de dispersão a Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salários mínimos mediramse X renda bruta mensal expressa em número de salários mínimos Y a porcentagem da renda bruta anual gasta com assistência médica os dados estão na Tabela 413 Observando o gráfico de dispersão Figura 44 vemos que existe uma associação inversa isto é aumentando a renda bruta diminui a porcentagem sobre ela gasta em assistência médica Antes de passarmos ao exemplo seguinte convém observar que a disposição dos dados da Tabela 413 numa tabela de dupla entrada não iria melhorar a compreensão dos dados visto que devido ao pequeno número de observações teríamos caselas cheias apenas na diagonal Tabela 413 Renda bruta mensal X e porcentagem da renda gasta em saúde Y para um conjunto de famílias Família X Y A 12 72 B 16 74 C 18 70 D 20 65 E 28 66 F 30 67 G 40 60 H 48 56 I 50 60 J 54 55 Fonte Dados hipotéticos Figura 44 Gráfico de dispersão para as variáveis X renda bruta e Y renda gasta com saúde b Oito indivíduos foram submetidos a um teste sobre conhecimento de língua estrangeira e em seguida mediuse o tempo gasto para cada um aprender a operar uma determinada máquina As variáveis medidas foram X resultado obtido no teste máximo 100 pontos Y tempo em minutos necessário para operar a máquina satisfatoriamente Os dados estão na Tabela 414 Do gráfico de dispersão Figura 45 concluímos que parece não haver associação entre as duas variáveis pois conhecer o resultado do teste não ajuda a prever o tempo gasto para aprender a operar a máquina Tabela 414 Resultado de um teste X e tempo de operação de máquina Y para oito indivíduos Indivíduo X Y A 45 343 B 52 368 C 61 355 D 70 334 E 74 337 F 76 381 G 80 345 H 90 375 Fonte Dados hipotéticos Figura 45 Gráfico de dispersão para as variáveis X resultado no teste e Y tempo de operação A partir dos gráficos apresentados verificamos que a representação gráfica das variáveis quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à existência ou não de associação entre elas Contudo é muito útil quantificar esta associação Existem muitos tipos de associações possíveis e aqui iremos apresentar o tipo de relação mais simples que é a linear Isto é iremos definir uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão aproximase de uma reta Esta medida será definida de modo a variar num intervalo finito especificamente de 1 a 1 Consideremos um gráfico de dispersão como o da Figura 46 a no qual por meio de uma transformação conveniente a origem foi colocada no centro da nuvem de dispersão Aqueles dados possuem uma associação linear direta ou positiva e notamos que a grande maioria dos pontos está situada no primeiro e terceiro quadrantes Nesses quadrantes as coordenadas dos pontos têm o mesmo sinal e portanto o produto delas será sempre positivo Somandose o produto das coordenadas dos pontos o resultado será um número positivo pois existem mais produtos positivos do que negativos Figura 46 Tipos de associações entre duas variáveis Para a dispersão da Figura 46 b observamos uma dependência linear inversa ou negativa e procedendose como anteriormente a soma dos produtos das coordenadas será negativa Finalmente para a Figura 46 c a soma dos produtos das coordenadas será zero pois cada resultado positivo tem um resultado negativo simétrico anulandose na soma Nesse caso não há associação linear entre as duas variáveis Em casos semelhantes quando a distribuição dos pontos for mais ou menos circular a soma dos produtos será aproximadamente zero Baseandose nesses fatos é que iremos definir o coeficiente de correlação linear entre duas variáveis que é uma medida do grau de associação entre elas e também da proximidade dos dados a uma reta Antes cabe uma observação A soma dos produtos das coordenadas depende e muito do número de pontos Considere o caso de associação positiva a soma acima tende a aumentar com o número de pares x y e ficaria difícil comparar essa medida para dois conjuntos com números diferentes de pontos Por isso costumase usar a média da soma dos produtos das coordenadas Exemplo 47 Voltemos aos dados da Tabela 412 O primeiro problema que devemos resolver é o da mudança da origem do sistema para o centro da nuvem de dispersão Um ponto conveniente é x y ou seja as coordenadas da origem serão as médias dos valores de X e Y As novas coordenadas estão mostradas na quarta e quinta colunas da Tabela 415 Observando esses valores centrados verificamos que ainda existe um problema quanto à escala usada A variável Y tem variabilidade muito maior do que X e o produto ficaria muito mais afetado pelos resultados de Y do que pelos de X Para corrigirmos isso podemos reduzir as duas variáveis a uma mesma escala dividindose os desvios pelos respectivos desvios padrões Esses novos valores estão nas colunas 6 e 7 Observe as mudanças escalas dos eixos de variáveis realizadas acompanhando a Figura 47 Finalmente na coluna 8 indicamos os produtos das coordenadas reduzidas e sua soma 8769 que como esperávamos é positiva Para completar a definição dessa medida de associação basta calcular a média dos produtos das coordenadas reduzidas isto é correlação XY 876910 0877 Tabela 415 Cálculo do coeficiente de correlação Agente Anos x Clientes y x x y y zx zy A 2 48 37 85 154 105 1617 B 3 50 27 65 112 080 0846 C 4 56 17 05 071 006 0043 D 5 52 07 45 029 055 0160 E 4 43 17 135 071 166 1179 F 6 60 03 35 012 043 0052 G 7 62 13 55 054 068 0367 H 8 58 23 15 095 019 0181 I 8 64 23 75 095 092 0874 J 10 72 43 155 178 191 3400 Total 57 565 0 0 8769 x 57 dpX 241 y 565 dpY 811 Portanto para esse exemplo o grau de associação linear está quantificado por 877 Figura 47 Mudança de escalas para o cálculo do coeficiente de correlação Da discussão feita até aqui podemos definir o coeficiente de correlação do seguinte modo Definição Dados n pares de valores x1 y1 x2 y2 xn yn chamaremos de coeficiente de correlação entre as duas variáveis X e Y a 47 ou seja a média dos produtos dos valores padronizados das variáveis Não é difícil provar que o coeficiente de correlação satisfaz 1 corr X Y 1 48 A definição acima pode ser operacionalizada de modo mais conveniente pelas seguintes fórmulas 49 O numerador da expressão acima que mede o total da concentração dos pontos pelos quatro quadrantes dá origem a uma medida bastante usada e que definimos a seguir Definição Dados n pares de valores x1 y1 xn yn chamaremos de covariância entre as duas variáveis X e Y a 410 ou seja a média dos produtos dos valores centrados das variáveis Com essa definição o coeficiente de correlação pode ser escrito como 411 Para analisar dois conjuntos de dados podemos recorrer também aos métodos utilizados anteriormente para analisar um conjunto de dados exibindo as análises feitas separadamente para efeito de comparação Por exemplo podemos exibir os desenhos esquemáticos ou os ramosefolhas para os dois conjuntos de observações 46 Associação entre Variáveis Qualitativas e Quantitativas Como mencionado na introdução deste capítulo é comum nessas situações analisar o que acontece com a variável quantitativa dentro de cada categoria da variável qualitativa Essa análise pode ser conduzida por meio de medidasresumo histogramas box plots ou ramoefolhas Vamos ilustrar com um exemplo Exemplo 48 Retomemos os dados da Tabela 21 para os quais desejamos analisar agora o comportamento dos salários dentro de cada categoria de grau de instrução ou seja investigar o comportamento conjunto das variáveis S e Y Tabela 416 Medidasresumo para a variável salário segundo o grau de instrução na Companhia MB Grau de instrução n s dpS varS s1 q1 q2 q3 sn Fundamental 12 784 279 777 400 601 713 916 1365 Médio 18 1154 362 1310 573 884 109114481940 Superior 6 1648 411 1689 10531365167418382330 Todos 36 1112 452 2046 400 755 101714062330 Comecemos a análise construindo a Tabela 416 que contém medidasresumo da variável S para cada categoria de Y A seguir na Figura 48 apresentamos uma visualização gráfica por meio de box plots Figura 48 Box plots de salário segundo grau de instrução SPlus A leitura desses resultados sugere uma dependência dos salários em relação ao grau de instrução o salário aumenta conforme aumenta o nível de educação do indivíduo O salário médio de um funcionário é 1112 salários mínimos já para um funcionário com curso superior o salário médio passa a ser 1648 enquanto funcionários com o ensino fundamental completo recebem em média 784 Na Tabela 417 e na Figura 49 temos os resultados da análise dos salários em função da região de procedência V que mostram a inexistência de uma relação melhor definida entre essas duas variáveis Ou ainda os salários estão mais relacionados com o grau de instrução do que com a região de procedência Tabela 417 Medidasresumo para a variável salário segundo a região de procedência na Companhia MB Região de procedência n s dpS varS s1 q1 q2 q3 sn Capital 11 1146 522 2727 456 749 977 1663 1940 Interior 12 1155 507 2571 400 781 1064 1470 2330 Outra 13 1045 302 913 573 874 980 1279 1622 Todos 36 1112 452 2046 400 755 1017 1406 2330 Figura 49 Box plots de salário segundo região de procedência SPlus Como nos casos anteriores é conveniente poder contar com uma medida que quantifique o grau de dependência entre as variáveis Com esse intuito convém observar que as variâncias podem ser usadas como insumos para construir essa medida Sem usar a informação da variável categorizada a variância calculada para a variável quantitativa para todos os dados mede a dispersão dos dados globalmente Se a variância dentro de cada categoria for pequena e menor do que a global significa que a variável qualitativa melhora a capacidade de previsão da quantitativa e portanto existe uma relação entre as duas variáveis Observe que para as variáveis S e Y as variâncias de S dentro das três categorias são menores do que a global Já para as variáveis S e V temos duas variâncias de S maiores e uma menor do que a global o que corrobora a afirmação acima Necessitase então de uma medidaresumo da variância entre as categorias da variável qualitativa Vamos usar a média das variâncias porém ponderada pelo número de observações em cada categoria ou seja 412 no qual k é o número de categorias k 3 nos dois exemplos acima e variS denota a variância de S dentro da categoria i i 1 2 k Podese mostrar que de modo que podemos definir o grau de associação entre as duas variáveis como o ganho relativo na variância obtido pela introdução da variável qualitativa Explicitamente 413 Note que 0 R2 1 O símbolo R2 é usual em análise de variância e regressão tópicos a serem abordados nos Capítulos 15 e 16 respectivamente Exemplo 49 Voltando aos dados do Exemplo 48 vemos que para a variável S na presença de grau de instrução temse de modo que e dizemos que 415 da variação total do salário é explicada pela variável grau de instrução Para S e região de procedência temos e portanto de modo que apenas 13 da variabilidade dos salários é explicada pela região de procedência A comparação desses dois números mostra maior relação entre S e Y do que entre S e V Problemas 10 Para cada par de variáveis abaixo esboce o diagrama de dispersão Diga se você espera uma dependência linear e nos casos afirmativos avalie o coeficiente de correlação a Peso e altura dos alunos do primeiro ano de um curso de Administração b Peso e altura dos funcionários de um escritório c Quantidade de trigo produzida e quantidade de água recebida por canteiros numa estação experimental d Notas de Cálculo e Estatística de uma classe onde as duas disciplinas são lecionadas e Acuidade visual e idade de um grupo de pessoas f Renda familiar e porcentagem dela gasta em alimentação g Número de peças montadas e resultado de um teste de inglês por operário 11 Abaixo estão os dados referentes à porcentagem da população economicamente ativa empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras Regiões metropolitanas Setor primário Índice de analfabetismo São Paulo 20 175 Rio de Janeiro 25 185 Belém 29 195 Belo Horizonte 33 222 Salvador 41 265 Porto Alegre 43 166 Recife 70 366 Fortaleza 1300 384 Fonte Indicadores Sociais para Áreas Urbanas IBGE 1977 a Faça o diagrama de dispersão b Você acha que existe uma dependência linear entre as duas variáveis c Calcule o coeficiente de correlação d Existe alguma região com comportamento diferente das demais Se existe elimine o valor correspondente e recalcule o coeficiente de correlação 12 Usando os dados do Problema 3 a Construa a tabela de frequências conjuntas para as variáveis X número de empregos nos dois últimos anos e Y salário mais recente b Como poderia ser feito o gráfico de dispersão desses dados c Calcule o coeficiente de correlação Baseado nesse número você diria que existe dependência entre as duas variáveis 13 Quer se verificar a relação entre o tempo de reação e o número de alternativas apresentadas a indivíduos acostumados a tomadas de decisão Planejouse um experimento em que se pedia ao participante para classificar objetos segundo um critério previamente discutido Participaram do experimento 15 executivos divididos aleatoriamente em grupos de cinco Pediuse então a cada grupo para classificar dois três e quatro objetos respectivamente Os dados estão abaixo Nº de objetos 2 3 4 Tempo de reação 1 2 3 3 4 2 3 4 4 5 4 5 5 6 7 a Faça o gráfico de dispersão das duas variáveis b Qual o coeficiente de correlação entre elas 14 Calcule o grau de associação entre as variáveis estado civil e idade na Tabela 21 15 Usando os dados do Problema 9 do Capítulo 2 calcule o grau de associação entre seção e notas em Estatística 47 Gráficos q q Outro tipo de representação gráfica que podemos utilizar para duas variáveis é o gráfico quantis quantis que passamos a discutir Suponha que temos valores x1 xn da variável X e valores y1 ym da variável Y todos medidos pela mesma unidade Por exemplo temos temperaturas de duas cidades ou alturas de dois grupos de indivíduos etc O gráfico q q é um gráfico dos quantis de X contra os quantis de Y Pelo que vimos no Capítulo 3 se m n o gráfico q q é um gráfico dos dados ordenados de X contra os dados ordenados de Y Se as distribuições dos dois conjuntos de dados fossem idênticas os pontos estariam sobre a reta y x Enquanto um gráfico de dispersão fornece uma possível relação global entre as variáveis o gráfico q q mostra se valores pequenos de X estão relacionados com valores pequenos de Y se valores intermediários de X estão relacionados com valores intermediários de Y e se valores grandes de X estão relacionados com valores grandes de Y Num gráfico de dispersão podemos ter x1 x2 e y1 y2 o que não pode acontecer num gráfico q q pois os valores em ambos os eixos estão ordenados do menor para o maior Exemplo 410 Na Tabela 418 temos as notas de 20 alunos em duas provas de Estatística e na Figura 410 temos o correspondente gráfico q q Os pontos estão razoavelmente dispersos ao redor da reta x y mostrando que as notas dos alunos nas duas provas não são muito diferentes Mas podemos notar que para notas abaixo de cinco os alunos tiveram notas maiores na segunda prova ao passo que para notas de cinco a oito os alunos tiveram notas melhores na primeira prova A maioria das notas estão concentradas entre cinco e oito Figura 410 Gráfico q q para as notas em duas provas de Estatística Tabela 418 Notas de 20 alunos em duas provas de Estatística Aluno Prova 1 Prova 2 Aluno Prova 1 Prova 2 1 85 80 11 74 65 2 35 28 12 56 50 3 72 65 13 63 65 4 55 62 14 30 30 5 95 90 15 81 90 6 70 75 16 38 40 7 48 52 17 68 55 8 66 72 18 100 100 9 25 40 19 45 55 10 70 68 20 59 50 Exemplo 411 Consideremos agora as variáveis temperatura de Ubatuba e temperatura de Cananeia do CDTemperaturas O gráfico q q está na Figura 411 Observamos que a maioria dos pontos está acima da reta y x mostrando que as temperaturas de Ubatuba são em geral maiores do que as de Cananeia para valores maiores do que 17 graus Quando m n é necessário modificar os valores de p para os quantis da variável com maior número de pontos Ver o Problema 33 para a solução desse caso Figura 411 Gráfico q q para os lados de temperatura de Cananeia e Ubatuba Problemas 16 Faça o gráfico q q para as notas em Redação e Economia dos 25 funcionários da MB Indústria e Comércio Problema 9 do Capítulo 2 17 Faça o gráfico q q para as variáveis salário de professor secundário e salário de administrador do CDSalários Comente 48 Exemplos Computacionais Vamos considerar brevemente nesta seção o caso de mais de dois conjuntos de dados Exemplos são os dados sobre o Brasil de poluição e estatísticas sobre veículos encontrados nos Conjuntos de Dados Veremos também um exemplo de cálculo do coeficiente de correlação para dados reais da Bolsa de Valores de São Paulo Vejamos um exemplo em que temos duas variáveis quantitativas e uma qualitativa Exemplo 412 Considere as variáveis salário idade e grau de instrução da Tabela 21 Separamos agora os salários e idades por classes de grau de instrução Depois podemos fazer gráficos de dispersão como na Figura 412 Os comandos necessários do R para fazer essas figuras são tab21idadetab21idadeanos12tab21idademeses attach tab21 parmfrowc13 pinc22 plot idadegrauinstrucaoensino fundamental salariograuinstrucaoensino fundamental mainFundamental xlabIdade ylabSalário pch16coldarkblue plot idadegrauinstrucaoensino médio salariograuinstrucaoensino médio mainMédio xlabIdade ylabSaláriopch16coldarkblue plot idade grauinstrucaosuperior salariograuinstrucaosuperior mainSuperior xlabIdade ylabSalário pch16coldarkblue Figura 412 Gráficos de dispersão das variáveis salário e idade segundo a variável grau de instrução Notamos que para o ensino fundamental e grau superior os salários aumentam em geral com a idade ao passo que para o ensino médio essa relação não se verifica havendo salários baixos e altos numa faixa entre 350 e 450 meses Exemplo 413 Considere o CDMercado no qual temos os preços de fechamento diários de ações da Telebrás X e os índices IBOVESPA Y de 2 de janeiro a 24 de fevereiro de 1995 num total de n 39 observações O gráfico de dispersão está na Figura 413 que mostra que os pares de valores estão dispostos ao longo de uma reta com inclinação positiva Ou seja esse gráfico mostra que há uma forte correlação entre o preço das ações da Telebrás e o índice da Bolsa de Valores de São Paulo No gráfico está representada a reta de mínimos quadrados No Capítulo 16 veremos como determinála Para construir a Figura 413 usamos os comandos do R cdmercado readtable cdmercadocsv hTskip4 sep dec Leitura dos dados attach cdmercado plot telebras 139 indice139 xlabTelebrás ylabIbovespa pch16coldarkblue ablinelmindice139telebras139 Figura 413 Gráfico de dispersão para ações da Telebrás e BOVESPA R Utilizando 49 obtemos que o que mostra a forte associação linear entre X e Y Finalizamos esta seção com um tipo de gráfico que também é útil quando temos duas variáveis quantitativas e uma qualitativa Exemplo 414 Considere o CDVeículos no qual temos o preço o comprimento e a capacidade do motor de veículos vendidos no Brasil classificados em duas categorias N nacionais e I importados Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos indicando por um se o carro for N e por um se for I Veja a Figura 414 Observamos pela figura que os preços dos veículos importados são em geral maiores do que os nacionais e que o preço aumenta com o comprimento Figura 414 Gráfico de dispersão simbólico das variáveis preço e comprimento de veículos categorizadas pela variável procedência nacional e importado R Os comandos no R são cdveiculos readtablecdveiculoscsv hT skip4 sep dec Leitura dos dados attachcdveiculos ggplotcdveiculos aescomprimento preco geompointaesshape NI colourNI size 4 49 Problemas Suplementares 18 No estudo de uma certa comunidade verificouse que I A proporção de indivíduos solteiros é de 04 II A proporção de indivíduos que recebem até 10 salários mínimos é de 02 III A proporção de indivíduos que recebem até 20 salários mínimos é de 07 IV A proporção de indivíduos casados entre os que recebem mais de 20 salários mínimos é de 07 V A proporção de indivíduos que recebem até 10 salários mínimos entre os solteiros é de 03 a Construa a distribuição conjunta das variáveis estado civil e faixa salarial e as respectivas distribuições marginais b Você diria que existe relação entre as duas variáveis consideradas 19 Uma amostra de 200 habitantes de uma cidade foi escolhida para declarar sua opinião sobre um certo projeto governamental O resultado foi o seguinte Opinião Local de residência Total Urbano Suburbano Rural A favor 30 35 35 100 Contra 60 25 15 100 Total 90 60 50 200 a Calcule as proporções em relação ao total das colunas b Você diria que a opinião independe do local de residência c Encontre uma medida de dependência entre as variações 20 Com base na tabela abaixo você concluiria que o tipo de atividade está relacionado ao fato de as embarcações serem de propriedade estatal ou particular Encontre uma medida de dependência entre as variáveis Propriedade Atividade Total Costeira Fluvial Internacional Estatal 5 141 51 197 Particular 92 231 48 371 Total 97 372 99 568 Fonte Sinopse Estatística do Brasil IBGE 1975 21 Uma pesquisa sobre a participação em atividades esportivas de adultos moradores nas proximidades de centros esportivos construídos pelo estado de São Paulo mostrou os resultados da tabela abaixo Baseado nesses resultados você diria que a participação em atividades esportivas depende da cidade Participam Cidade São Paulo Campinas Rib Preto Santos Sim 50 65 105 120 Não 150 185 195 180 22 Uma pesquisa para verificar a tendência dos alunos a prosseguir os estudos segundo a classe social do respondente mostrou o seguinte quadro Pretende continuar Classe social Total Alta Média Baixa Sim 200 220 380 800 Não 200 280 720 1200 a Você diria que a distribuição de respostas afirmativas é igual à de respostas negativas b Existe dependência entre os dois fatores Dê uma medida quantificadora da dependência c Se dos 400 alunos da classe alta 160 escolhessem continuar e 240 não você mudaria sua conclusão Justifique 23 Refaça os cálculos do Problema 19 usando as fórmulas derivadas em 42 43 24 Prove que 25 Numa amostra de cinco operários de uma dada empresa foram observadas duas variáveis X anos de experiência num dado cargo e Y tempo em minutos gasto na execução de uma certa tarefa relacionada com esse cargo As observações são apresentadas na tabela abaixo Você diria que a variável X pode ser usada para explicar a variação de Y Justifique 26 Muitas vezes a determinação da capacidade de produção instalada para certo tipo de indústria em certas regiões é um processo difícil e custoso Como alternativa podese estimar a capacidade de produção por meio da escolha de uma outra variável de medida mais fácil e que esteja linearmente relacionada com ela Suponha que foram observados os valores para as variáveis capacidade de produção instalada potência instalada e área construída Com base num critério estatístico qual das variáveis você escolheria para estimar a capacidade de produção instalada X cap prod inst ton 4 5 4 5 8 9 10 11 12 12 Y potência inst 1000 kW 1 1 2 3 3 5 5 6 6 6 Z área construída l00 m 6 7 10 10 11 9 12 10 11 14 27 Usando os dados da Tabela 21 Capítulo 2 a Construa a tabela de distribuições de frequências conjunta para as variáveis salário e idade mas divida cada uma delas num certo número de intervalos de classe b Como poderia ser calculado o coeficiente de correlação baseado nessa tabela c Você conseguiria escrever a fórmula da correlação para dados agrupados 28 Lançamse simultaneamente uma moeda de um real e uma de um quarto de dólar Em cada tentativa anotouse o resultado cujos dados estão resumidos na tabela a seguir 1 Real 14 dólar Cara Coroa Total Cara 24 22 46 Coroa 28 26 54 Total 52 48 100 Fonte Experimento conduzido pelos autores a Esses dados sugerem que os resultados da moeda de um real e as de um quarto de dólar estão associados b Atribua para ocorrência cara o valor 0 e para a ocorrência de coroa o valor 1 Chamando de X1 o resultado do real e de X2 o resultado do quarto de dólar calcule a correlação entre X1 e X2 Essa medida está de acordo com a resposta que você deu anteriormente 29 Uma amostra de dez casais e seus respectivos salários anuais em sm foi colhida num certo bairro conforme vemos na tabela abaixo Salário Casal nº 1 2 3 4 5 6 7 8 9 10 Homem X 10 10 10 15 15 15 15 20 20 20 Mulher Y 5 10 10 5 10 10 15 10 10 15 Sabese que a Encontre o salário anual médio dos homens e o seu desvio padrão b Encontre o salário anual médio das mulheres e o seu desvio padrão c Construa o diagrama de dispersão d Encontre a correlação entre o salário anual dos homens e o das mulheres e Qual o salário médio familiar E a variância do salário familiar f Se o homem é descontado em 8 e a mulher em 6 qual o salário líquido anual médio familiar E a variância 30 O departamento de vendas de certa companhia foi formado há um ano com a admissão de 15 vendedores Nessa época foram observados para cada um dos vendedores os valores de três variáveis T resultado em um teste apropriado para vendedores E anos de experiência de vendas G conceito do gerente de venda quanto ao currículo do candidato O diretor da companhia resolveu agora ampliar o quadro de vendedores e pede sua colaboração para responder a algumas perguntas Para isso ele lhe dá informações adicionais sobre duas variáveis V volume médio mensal de vendas em sm Z zona da capital para a qual o vendedor foi designado O quadro de resultados é o seguinte Vendedor T teste E experiência G conceito V vendas do gerente Z zona Vendedor T teste E experiência G conceito do gerente V vendas Z zona 1 8 5 Bom 54 Norte 2 9 2 Bom 50 Sul 3 7 2 Mau 48 Sul 4 8 1 Mau 32 Oeste 5 6 4 Bom 30 Sul 6 8 4 Bom 30 Oeste 7 5 3 Bom 29 Norte 8 5 3 Bom 27 Norte 9 6 1 Mau 24 Oeste 10 7 3 Mau 24 Oeste 11 4 4 Bom 24 Sul 12 7 2 Mau 23 Norte 13 3 3 Mau 21 Sul 14 5 1 Mau 21 Oeste 15 3 2 Bom 16 Norte Dados Mais especificamente o diretor lhe pede que responda aos sete itens seguintes a Faça o histograma da variável V em classes de 10 tendo por limite inferior da primeira classe o valor 15 b Encontre a média e a variância da variável V Suponha que um vendedor seja considerado excepcional se seu volume de vendas é dois desvios padrões superior à média geral Quantos vendedores excepcionais existem na amostra c O diretor de vendas anunciou que transferirá para outra praça todos os vendedores cujo volume de vendas for inferior ao 1º quartil da distribuição Qual o volume mínimo de vendas que um vendedor deve realizar para não ser transferido d Os vendedores argumentam com o diretor que esse critério não é justo pois há zonas de venda privilegiadas A quem você daria razão e Qual das três variáveis observadas na admissão do pessoal é mais importante para julgar um futuro candidato ao emprego f Qual o grau de associabilidade entre o conceito do gerente e a zona a que o vendedor foi designado Você tem explicação para esse resultado g Qual o grau de associação entre o conceito do gerente e o resultado do teste E entre zona e vendas 31 A seção de assistência técnica da Companhia MB tem cinco funcionários A B C D e E cujos tempos de serviço na companhia são respectivamente um três cinco cinco e sete anos a Faça um gráfico representando a distribuição de frequência dos tempos de serviço X b Calcule a média meX a variância varX e a mediana mdX Duas novas firmas a Verde e a Azul solicitaram o serviço de assistência técnica da MB Um mesmo funcionário pode ser designado para atender a ambos os pedidos ou dois funcionários podem fazêlo Assim o par A B significa que o funcionário A atenderá à firma Verde e o funcionário B à firma Azul c Escreva os 25 possíveis pares de funcionários para atender a ambos os pedidos d Para cada par calcule o tempo médio de serviço X faça a distribuição de frequência e uma representação gráfica Compare com o resultado de a e Calcule para os 25 valores de X os parâmetros me X varX e mdX Compare com os resultados obtidos em b Que tipo de conclusão você poderia tirar f Para cada par obtido em c calcule a variância do par e indiquea por S2 Faça a representação gráfica da distribuição dos valores de S2 g Calcule meS2 e varS2 h Indicando por X1 a variável que expressa o tempo de serviço do funcionário que irá atender à firma Verde e X2 o que irá atender à firma Azul faça a distribuição conjunta da variável bidimensional X1 X2 i As duas variáveis X1 e X2 são independentes j O que você pode falar sobre as distribuições marginais de X1 e X2 l Suponha agora que três firmas solicitem o serviço de assistência técnica Quantas triplas podem ser formadas m Sem calcular todas as possibilidades como você acha que ficaria o histograma de X E meX e varX n E sobre a variável S2 o A variável tridimensional X1 X2 X3 teria alguma propriedade especial para as suas distribuições marginais 32 Refaça o problema anterior admitindo agora que um mesmo funcionário não pode atender a duas firmas 33 Faça o gráfico q q para os dois conjuntos de dados em A e B a seguir A 65 54 49 60 70 25 87 100 70 102 40 47 B 48 35 45 50 52 20 72 102 46 82 34 Faça gráficos de dispersão unidimensionais e box plots para a variável salário da Tabela 21 segundo a região de procedência Analise os resultados 35 Analise as variáveis salário e idade da Tabela 21 segundo o estado civil de cada indivíduo Quais conclusões você pode obter 36 Analise a população total do CDBrasil segundo as regiões geográficas 37 Considere os dados do Exemplo 413 e o seguinte critério valores abaixo da média indicam mercado em BAIXA e valores maiores ou iguais à média indicam mercado em ALTA Categorize os dados segundo esse critério e apresente os resultados numa tabela de dupla entrada Calcule uma medida de associação O valor obtido corrobora ou não o resultado obtido no Exemplo 413 Comente 38 Considere o CDPoluição e as variáveis CO temperatura e umidade Faça gráficos de dispersão para pares de variáveis Quais conclusões você pode obter 39 Calcule os valores C T e V para a tabela abaixo Justifique porque T 1 Y X A1 A2 A3 Total B1 100 0 0 100 B2 0 200 0 200 B3 0 0 200 200 Total 100 200 200 500 40 Suponha que queiramos verificar se existe relação entre a cor do cabelo de mães X e dos filhos Y Suponha os dados da tabela abaixo Verifique se há associação entre X e Y Calcule C V e T Mãe Filhos Claro Escuro Total Claro 23 5 28 Escuro 10 2 12 Total 33 7 40 410 Complemento Metodológico 1 Gráficos quantis quantis Na Seção 45 vimos como construir um gráfico q q quando m n Suponha n m isto é temos um número maior de observações de X Então usamos as observações ordenadas y1 ym e interpolamos um conjunto correspondente de quantis para o conjunto dos xi ordenados O valor ordenado yi corresponde a Para X queremos um valor j tal que logo Se j for inteiro fazemos o gráfico de yi versus xj Se j k r em que k é inteiro e 0 r 1 então Exemplo Se m 20 e n 40 logo k 2i 1 r 05 e fazemos o gráfico de y1 versus 05x1 05x2 y2 versus 05x3 05x4 etc Parte II PROBABILIDADES Capítulo 5 Probabilidades Capítulo 6 Variáveis Aleatórias Discretas Capítulo 7 Variáveis Aleatórias Contínuas Capítulo 8 Variáveis Aleatórias Multidimensionais Capítulo 9 Noções de Simulação Capítulo 5 Probabilidades 51 Introdução Na primeira parte deste livro vimos que a análise de um conjunto de dados por meio de técnicas numéricas e gráficas permite que tenhamos uma boa ideia da distribuição desse conjunto Em particular a distribuição de frequências é um instrumento importante para avaliarmos a variabilidade das observações de um fenômeno aleatório A partir dessas frequências observadas podemos calcular medidas de posição e variabilidade como média mediana desvio padrão etc Essas frequências e medidas calculadas a partir dos dados são estimativas de quantidades desconhecidas associadas em geral a populações das quais os dados foram extraídos na forma de amostras Em particular as frequências relativas são estimativas de probabilidades de ocorrências de certos eventos de interesse Com suposições adequadas e sem observarmos diretamente o fenômeno aleatório de interesse podemos criar um modelo teórico que reproduza de maneira razoável a distribuição das frequências quando o fenômeno é observado diretamente Tais modelos são chamados modelos probabilísticos e serão objeto de estudo neste capítulo e nos subsequentes Exemplo 51 Queremos estudar as frequências de ocorrências das faces de um dado Um procedimento a adotar seria lançar o dado certo número de vezes n e depois contar o número ni de vezes em que ocorre a face i i 1 2 6 As proporções nin determinam a distribuição de frequências do experimento realizado Lançando o dado um número nn n de vezes teríamos outra distribuição de O modelo probabilístico pode ser construído por meio de premissas como se segue Primeiro observamos que só podem ocorrer seis faces a segunda consideração que se faz é que o dado seja perfeitamente equilibrado de modo a não favorecer alguma face em particular Com essas suposições cada face deve ocorrer o mesmo número de vezes quando o dado é lançado n vezes e portanto a proporção de ocorrência de cada face deve ser 16 Nessas condições o modelo teórico ou probabilístico para o experimento é dado na Tabela 51 Uma probabilidade Pω para cada ponto amostral de tal sorte que seja possível encontrar a probabilidade PA de qualquer subconjunto A de Ω isto é a probabilidade do que chamaremos de um evento aleatório ou simplesmente evento Para ilustrar graficamente eventos é costume utilizarse os mesmos diagramas comumente usados na teoria dos conjuntos Veja Morettin et al 2005 Exemplo 54 Uma fábrica produz determinado artigo Da linha de produção são retirados três artigos e cada um é classificado como bom B ou defeituoso D Um espaço amostral do experimento é Ω BBB BBD BDB DBB DDD DBD BDD DDB DDD Se A designar o evento que consiste em obter dois artigos defeituosos então A DDB BDB DBD Exemplo 55 Considere o experimento que consiste em retirar uma lâmpada de um lote e medir seu tempo de vida antes de se queimar Um espaço amostral conveniente é Ω t ℝ t 0 isto é o conjunto de todos os números reais não negativos Se A indicar o evento o tempo de vida da lâmpada é inferior a 20 horas então A t 0 t 20 Esse é um exemplo de um espaço amostral contínuo contrastado com os anteriores que são discretos d Numa entrevista telefônica com 250 assinantes anotase se o proprietário tem ou não máquina de secar roupa e Medese a duração de lâmpadas deixandoas acesas até que se queimem f Um fichário com dez nomes contém três nomes de mulheres Selecionase ficha após ficha até o último nome de mulher ser selecionado e anotase o número de fichas selecionadas g Lançase uma moeda até aparecer cara e anotase o número de lançamentos h Um relógio mecânico pode parar a qualquer momento por falha técnica Medese o ângulo em graus que o ponteiro dos segundos forma com o eixo imaginário orientado do centro ao número 12 i Mesmo enunciado anterior mas supondo que o relógio seja elétrico e portanto seu ponteiro dos segundos movase continuamente j De um grupo de cinco pessoas A B C D E sorteiamse duas uma após outra com reposição e anotase a configuração formada l Mesmo enunciado que j sem reposição m Mesmo enunciado que j mas as duas selecionadas simultaneamente n De cada família entrevistada numa pesquisa anotamse a classe social a que pertence A B C D e o estado civil do chefe da família 52 Algumas Propriedades Sendo o modelo probabilístico um modelo teórico para as frequências relativas de suas propriedades podemos obter algumas das propriedades das probabilidades que estudaremos a seguir Como a frequência relativa é um número entre 0 e 1 temos que 0 PA 1 52 para qualquer evento A Será útil considerar o espaço todo Ω e o conjunto vazio ø como eventos O primeiro é denominado evento certo e o segundo evento impossível e temos PΩ 1 Pø 0 53 Exemplo 56 Na Tabela 53 temos dados referentes a alunos matriculados em quatro cursos de uma universidade em dado ano Tabela 53 Distribuição de alunos segundo o sexo e escolha de curso Curso Sexo Homens H Mulheres F Total Matemática Pura M 70 40 110 Matemática Aplicada A 15 15 30 Estatística E 10 20 30 Computação C 20 10 30 Total 115 85 200 Vamos indicar por M o evento que ocorre quando escolhendose ao acaso um aluno do conjunto desses quatro cursos ele for um estudante de Matemática Pura A E C H e F têm significados análogos Dessa maneira vemos que PE 30200 ao passo que PH 115200 Dados os eventos A e H podemos considerar dois novos eventos A H chamado a reunião de A e H quando pelo menos um dos eventos ocorre A H chamado a intersecção de A e H quando A e H ocorrem simultaneamente É fácil ver que PA H 15200 pois o aluno escolhido terá de estar ao mesmo tempo matriculado no curso de Matemática Aplicada e ser homem Vemos que PA 30200 e PH 115200 suponha que nosso cálculo para PA H fosse Se assim o fizéssemos estaríamos contando duas vezes os alunos que são homens e estão matriculados no curso de Matemática Aplicada como destacado na Tabela 53 Portanto a resposta correta é No entanto considerandose os eventos A e C vemos que PA 30200 PC 30200 e PA C 60200 PA PC Nesse caso os eventos A e C são disjuntos ou mutuamente exclusivos pois se A ocorre então C não ocorre e viceversa Aqui A C ø e PA C 0 Portanto se U e V são dois eventos quaisquer teremos a chamada regra da adição de probabilidades PU V PU PV PU V 54 que se reduz a PU V PU PV 55 se U e V são eventos mutuamente exclusivos Veja o Problema 58 Suponha agora que estejamos somente interessados em saber se um estudante escolhido ao acaso está matriculado como aluno de Matemática Pura Aplicada Estatística ou Computação não interessando saber se é homem ou mulher Seja B M E C Então A B Ω e A B Dizemos que A e B são complementares e PA 30200 PB 110200 30200 30200 170200 isto é PA PB 1 De modo geral vamos indicar por Ac o complemento de um evento qualquer A e teremos então PA PAc 1 56 As operações de reunião interseção e complementação entre eventos possuem propriedades análogas àquelas válidas para operações entre conjuntos Ver Morettin et al 2005 Por exemplo a A Bc Ac Bc b A Bc Ac Bc c A A A d c Ω Ωc e A A f A Ac Ω g A A A Ω Ω h A B C A B A C Vejamos um exemplo de aplicação das propriedades das probabilidades Exemplo 57 Consideremos um experimento aleatório e os eventos A e B associados tais que PA 12 PB 13 e PA B 14 Então temos a PAc 1 PA 1 12 12 PBc 1 PB 1 13 23 b PA B PA PB PA B 12 13 14 712 c PAc Bc PA Bc 1 PA B 1 712 512 d PAc Bc PA Bc 1 PA B 1 14 34 e Calculemos PAc B isto é a probabilidade de que ocorra B e não ocorra A Podemos escrever B A B Ac B ou seja B pode ocorrer com A ou exclusivo com Ac Logo PB PA B PAc B do que decorre PAc B PB PA B 13 14 112 Consideremos agora uma situação historicamente importante a saber aquela em que temos um espaço amostral finito Ω ω1 ωn em que todos os pontos têm a mesma probabilidade 1n Se A for um evento contendo m pontos amostrais então defeituosas na amostra Seguese que pois podemos escolher na amostra de quatro elementos duas defeituosas e duas não defeituosas simultaneamente de maneiras usando o princípio multiplicativo Logo Exemplo 59 O jogo da Megasena consiste em escolher 6 números dentre os 60 números 01 02 59 60 O jogador pode marcar num cartão de 6 a 15 números Os custos em reais de cada jogo estão relacionados abaixo Números Custo 6 200 7 1400 8 5600 9 16800 10 42000 11 92400 12 184800 13 343200 14 601000 15 1001000 Temos ao todo possibilidades Portanto com um jogo único de R 200 seis números a probabilidade de ganhar o prêmio máximo é ou seja aproximadamente uma chance em 50 milhões Por que o jogo com 7 números custa R 700 Porque com 7 números podemos formar jogos de 6 números Ou seja fazer um jogo com 7 números ou 7 jogos com 6 números são ações equivalentes em termos de probabilidade de ganhar Do mesmo modo um jogo de 15 dezenas custa R 1001000 porque com 15 números podemos formar jogos de 6 números Portanto é mais fácil preencher um boleto com 15 números do que 5005 boletos com 6 números já que as probabilidades associadas são iguais Problemas 7 No Problema 4 liste os eventos a pelo menos uma cara b duas caras c o complementar do evento em b 8 Expresse em termos de operações entre eventos a A ocorre mas B não ocorre b exatamente um dos eventos A e B ocorre c nenhum dos dois eventos A e B ocorre 9 No espaço amostral do Problema 3 atribua a cada ponto contendo k letras a probabilidade 12k assim AA tem probabilidade 14 a Mostre que a soma das probabilidades dos pontos do espaço amostral é 1 b Calcule a probabilidade de que A vença um jogador vence quando ganha duas partidas seguidas Em seguida calcule a probabilidade de que B vença c Qual a probabilidade de que não haja decisão 10 No Problema 2 suponha que 5 indique o aparecimento da face 5 e Q indique que apareceu outra face qualquer diferente da 5 Atribua probabilidade 56k 16 a cada ponto com k letras iguais a Q seguidas de 5 a Mostre que a soma das probabilidades dos pontos amostrais é igual a um aqui você deve usar o resultado da soma dos termos de uma sequência geométrica infinita b Calcule a probabilidade de que a face 5 apareça após três lançamentos do dado 11 Dentre seis números positivos e oito negativos dois números são escolhidos ao acaso sem reposição e multiplicados Qual a probabilidade de que o produto seja positivo 12 Considere o lançamento de dois dados Considere os eventos A soma dos números obtidos igual a 9 e B número no primeiro dado maior ou igual a 4 Enumere os elementos de A e B Obtenha A B A B e Ac 13 Obtenha as probabilidades dos eventos que aparecem nos Problemas 7 e 12 14 Que suposições devem ser feitas para que os resultados dos experimentos abaixo possam ser considerados equiprováveis a Lançamento de um dado b Opinião de moradores de uma cidade sobre um projeto governamental c Preço de uma ação no fim da próxima semana 53 Probabilidade Condicional e Independência Voltemos à Tabela 53 do Exemplo 56 Dado que um estudante escolhido ao acaso esteja matriculado no curso de Estatística a probabilidade de que seja mulher é 2030 23 Isso porque do total de 30 alunos que estudam Estatística 20 são mulheres Escrevemos Para dois eventos quaisquer A e B sendo PB 0 definimos a probabilidade condicional de A dado B PAB como 57 Para o exemplo mencionado se B e A indicam respectivamente os eventos aluno matriculado em Estatística e aluno é mulher então como havíamos obtido Observe que PA Pmulher 85200 1740 e com a informação de que B ocorreu o aluno é matriculado em Estatística obtemos PAB 23 Podemos dizer que PA é a probabilidade a priori de A e com a informação adicional de que B ocorreu obtemos a probabilidade a posteriori PAB Note que nesse caso PAB PA logo a informação de que B ocorreu aumentou a chance de A ocorrer Da relação 57 obtemos a chamada regra do produto de probabilidades PA B PB P AB 58 Exemplo 510 Uma urna contém duas bolas brancas B e três vermelhas V Suponha que são sorteadas duas bolas ao acaso sem reposição Isso significa que escolhemos a primeira bola verificamos sua cor e não a devolvemos à urna misturamos as bolas restantes e retiramos a segunda O diagrama em árvore da Figura 52 ilustra as possibilidades Em cada galho da árvore estão indicadas as probabilidades de ocorrência sendo que para as segundas bolas as probabilidades são condicionais A probabilidade do resultado conjunto é dada então por 58 Veja a Tabela 54 Figura 52 Diagrama em árvore para a extração de duas bolas de uma urna sem reposição Se A indicar o evento bola branca na segunda extração então Tabela 54 Resultados e probabilidades para o experimento do Exemplo 510 Resultados Probabilidades BB 25 14 220 BV 25 34 620 VB 35 24 620 VV 35 24 620 Total 1 Exemplo 511 Imagine agora que as duas extrações são feitas da mesma urna do exemplo anterior mas a primeira bola é reposta na urna antes da extração da segunda Nessas condições as extrações são independentes pois o resultado de uma extração não tem influência no resultado da outra Obtemos a situação da Figura 53 e da Tabela 55 Figura 53 Diagrama em árvore para a extração de duas bolas de uma urna com reposição Tabela 55 Resultados e probabilidades para o experimento do Exemplo 511 Resultados Probabilidades BB 25 25 425 BV 25 35 625 VB 35 25 625 VV 35 35 925 Total 1 Observe que aqui Pbranca na 2ª branca na 1ª 25 Pbranca na 2ª ou seja se indicarmos por A e B os eventos bola branca na segunda extração e bola branca na primeira extração respectivamente então PAB PA Nesse caso dizemos que o evento A independe do evento B e usando 58 temos PA B PA PB 59 É fácil ver que se A independe de B então B independe de A dizemos que A e B são independentes A Fórmula 59 pode ser tomada como definição de independência entre dois eventos ou seja A e B são independentes se e somente se 59 for válida Exemplo 512 Considere ainda a urna dos dois exemplos anteriores mas vamos fazer três extrações sem reposição Indiquemos por Vi ou Bi a obtenção de bola vermelha ou branca na iésima extração respectivamente i 1 2 3 Obtemos a Figura 54 e a Tabela 56 Figura 54 Diagrama em árvore para a extração de três bolas de uma urna sem reposição Tabela 56 Resultados e probabilidades para o experimento do Exemplo 512 Resultados Probabilidades B1B2V3 25 14 1 220 660 B1V2B3 25 34 13 660 B1V2V3 25 34 23 1260 V1B2B3 35 24 13 660 V1B2V3 35 24 23 1260 V1V2B3 35 24 23 1260 V1V2V3 35 24 13 660 Total 6060 1 Observe que PB2B1 14 ao passo que PV3B1 B2 1 daí PB1 B2 V3 PB1 PB2B1 PV3B1 B2 25 14 1 110 De modo geral dados três eventos A B e C temos que PA B C PA PBA PCA B 510 Essa relação pode ser estendida para um número finito qualquer de eventos Veja o Problema 60 Exemplo 513 A teoria da confiabilidade estuda sistemas e seus componentes por exemplo sistemas mecânicos e eletrônicos um automóvel ou um computador e sistemas biológicos como o corpo humano O objetivo da teoria é estudar as relações entre o funcionamento dos componentes e do sistema A Figura 55 a ilustra um sistema composto de dois componentes ligados em série Figura 55 Sistema com dois componentes a em série b em paralelo O sistema da figura funcionará se os componentes 1 e 2 funcionarem simultaneamente Se um dos componentes falhar o sistema também falhará Supondo que os componentes funcionem independentemente e se pi for a probabilidade de o componente i i 12 funcionar então a probabilidade de o sistema funcionar será PF PA1 A2 PA1PA2 p1p2 em que indicamos por F o evento o sistema funciona e por Ai o evento o componente i funciona i 1 2 A probabilidade pi é a chamada confiabilidade do componente i e PF hp1 p2 p1p2 a confiabilidade do sistema Se os componentes 1 e 2 estiverem em paralelo como na Figura 55 b então o sistema funcionará se pelo menos um dos dois componentes funcionar Ou seja PF PA1 A2 PA1 PA2 PA1 A2 p1 p2 p1p2 e a confiabilidade do sistema é hp1 p2 p1 p2 p1p2 Vejamos agora o conceito de independência para três eventos dizemos que os eventos A B e C são independentes se e somente se PA B PA PB PA C PA PC PB C PB PC PA B C PA PB PC 511 Se apenas as três primeiras relações de 511 estiverem satisfeitas dizemos que os eventos A B e C são mutuamente independentes É possível que três eventos sejam mutuamente independentes mas não sejam completamente independentes Veja o Problema 59 A definição pode ser estendida facilmente para um número finito qualquer de eventos Veja o Problema 61 Problemas 15 Considere uma urna contendo três bolas pretas e cinco bolas vermelhas Retire duas bolas da urna sem reposição a Obtenha os resultados possíveis e as respectivas probabilidades b Mesmo problema para extrações com reposição 16 No problema anterior calcule as probabilidades dos eventos a Bola preta na primeira e segunda extrações b Bola preta na segunda extração c Bola vermelha na primeira extração 17 A probabilidade de que A resolva um problema é de 23 e a probabilidade de que B o resolva é de 34 Se ambos tentarem independentemente qual a probabilidade de o problema ser resolvido 18 Um dado é viciado de tal forma que a probabilidade de sair um certo ponto é proporcional ao seu valor por exemplo o ponto 6 é três vezes mais provável de sair do que o ponto 2 Calcular a a probabilidade de sair 5 sabendose que o ponto que saiu é ímpar b a probabilidade de tirar um número par sabendose que saiu um número maior que 3 19 As probabilidades de que dois eventos independentes ocorram são p e q respectivamente Qual a probabilidade a de que nenhum desses eventos ocorra b de que pelo menos um desses eventos ocorra 20 Na figura abaixo temos um sistema com três componentes funcionando independentemente com confiabilidades p1 p2 e p3 Obtenha a confiabilidade do sistema 21 Na tabela abaixo os números que aparecem são probabilidades relacionadas com a ocorrência de A B A B etc Assim PA 010 enquanto PA B 004 B Bc Total A 004 006 010 Ac 008 082 090 Total 012 088 100 Verifique se A e B são independentes 22 Supondo que todos os componentes do sistema da figura abaixo tenham a mesma confiabilidade p e funcionem independentemente obtenha a confiabilidade do sistema 54 O Teorema de Bayes Uma das relações mais importantes envolvendo probabilidades condicionais é dada pelo Teorema de Bayes A versão mais simples desse teorema é dada pela Fórmula 512 512 Como salientamos na seção anterior temos a probabilidade inicial PA e dada a informação de que B ocorreu ou dada a suposição de que B venha a ocorrer obtemos a probabilidade a posteriori PAB dada por 512 Ou seja atualizamos a probabilidade inicial multiplicandoa por Observe que PAB PA se PBA PB A probabilidade P BA é chamada verossimilhança da hipótese A A forma geral do Teorema de Bayes será introduzida por um exemplo Exemplo 514 Temos cinco urnas cada uma com seis bolas Duas dessas urnas tipo C1 têm 3 bolas brancas duas outras tipo C2 têm 2 bolas brancas e a última urna tipo C3 tem 6 bolas brancas Escolhemos uma urna ao acaso e dela retiramos uma bola Qual a probabilidade de a urna escolhida ser do tipo C3 sabendose que a bola sorteada é branca Na Figura 56 temos esquematizados o espaço amostral e os eventos de interesse Figura 56 Espaço amostral e eventos para o Exemplo 514 Queremos encontrar PC3B sabendo que PC1 25 PBC1 12 PC2 25 PBC2 13 PC3 15 PBC3 1 Da definição de probabilidade condicional temos 513 A segunda igualdade é devida à Fórmula 58 Precisamos encontrar o valor de PB já que o numerador é conhecido Como C1 C2 e C3 são eventos mutuamente exclusivos e reunidos formam o espaço amostral completo podemos decompor o evento B na reunião de três outros também mutuamente exclusivos como segue ver também a Figura 56 B C1 B C2 B C3 B 514 e então Substituindo esse resultado em 513 obtemos Podemos agora generalizar os resultados acima do seguinte modo seja C1 C2 Cn uma partição do espaço amostral Ω isto é Ci Cj ø sempre que i j C1 C2 Cn Ω Considere um evento qualquer A em Ω Supomos conhecidas as probabilidades PCi e PACi i 1 2 n Então temos o seguinte resultado ilustrado pela Figura 57 Figura 57 Partição de um espaço amostral Teorema 51 Bayes A probabilidade de ocorrência do evento Ci supondose a ocorrência do evento A é dada por 515 para todo i 1 2 n Podemos pensar C1 Cn como um conjunto de hipóteses sendo somente uma delas verdadeira Dado que A ocorreu a probabilidade inicial de Ci PCi é modificada de modo a se obter PCiA dada por 515 Passamos da probabilidade a priori PCi para a probabilidade a posteriori PCiA multiplicando a primeira por 516 Para A fixado as probabilidades PACi em 515 são denominadas verossimilhanças das hipóteses C1 C2 Cn Vemos que PCiA PCi se 516 for maior do que um isto é se PACi PA em que PA é o denominador de 516 Observe que esse denominador é uma média ponderada dos PACj e os pesos são as probabilidades PCj que têm soma unitária Como o numerador é sempre uma das parcelas do denominador PA tornase indispensável o uso de um novo índice j na decomposição deste Exemplo 515 Para selecionar seus funcionários uma empresa oferece aos candidatos um curso de treinamento durante uma semana No final do curso eles são submetidos a uma prova e 25 são classificados como bons B 50 como médios M e os restantes 25 como fracos F Para facilitar a seleção a empresa pretende substituir o treinamento por um teste contendo questões referentes a conhecimentos gerais e específicos Para isso gostaria de conhecer qual a probabilidade de um indivíduo aprovado no teste ser considerado fraco caso fizesse o curso Assim neste ano antes do início do curso os candidatos foram submetidos ao teste e receberam o conceito aprovado A ou reprovado R No final do curso obtiveramse as seguintes probabilidades condicionais PAB 080 PAM 050 PAF 020 Queremos encontrar PFA e pelo Teorema de Bayes essa probabilidade é dada por Então apenas 10 dos aprovados é que seriam classificados como fracos durante o curso De modo análogo podemos encontrar PBA 040 e PMA 050 que poderiam fornecer subsídios para ajudar na decisão de substituir o treinamento pelo teste Um gráfico em árvore pode ajudar bastante na solução de um problema envolvendo o Teorema de Bayes Desse modo para o Exemplo 515 teremos a Figura 58 e a Tabela 57 Assim o numerador de PFA está assinalado com um pequeno círculo ao passo que o denominador é a soma das três parcelas assinaladas com asterisco Figura 58 Diagrama em árvore para o Exemplo 515 O Teorema de Bayes que aparentemente poderia ser encarado como mais um resultado na teoria de probabilidades tem importância fundamental pois fornece a base para uma abordagem da inferência estatística conhecida como inferência bayesiana Esse ponto será abordado brevemente no Capítulo 11 Tabela 57 Resultados e probabilidades para o Exemplo 515 Resultados Probabilidades BA 025 080 020 BR 025 020 005 MA 050 050 025 MR 050 050 025 FA 025 020 005 FR 025 080 020 O Teorema de Bayes fornece um mecanismo formal para atualizar probabilidades como já vimos acima Vejamos mais um exemplo para ilustrar esse ponto Exemplo 516 A administração de um fundo de investimentos em ações pretende divulgar após o encerramento do pregão a probabilidade de queda de um índice da bolsa no dia seguinte baseandose nas informações disponíveis até aquele momento Suponha que a previsão inicial seja de 010 Após encerrado o pregão nova informação sugere uma alta do dólar frente ao real A experiência passada indica que quando houve queda da bolsa no dia seguinte 20 das vezes foram precedidas por esse tipo de notícia enquanto nos dias em que a bolsa esteve em alta apenas em 5 das vezes houve esse tipo de notícia no dia anterior Chamando de E o evento que indica queda da bolsa a sua probabilidade a priori é PE 010 enquanto a probabilidade de alta é PEc 090 Se B indicar alta do dólar então as verossimilhanças são dadas por PBE 020 P BEc 005 Logo pelo Teorema de Bayes teremos que ou seja Portanto a nova informação aumenta a probabilidade de que haja queda na bolsa de 10 para 31 Suponha agora que horas depois surja nova informação relevante o Banco Central irá reduzir a taxa de juros vigente a partir do dia seguinte Denotandose agora por B1 o evento alta do dólar e por B2 o evento queda na taxa de juros o interesse será saber como essa nova informação B2 afetará a probabilidade calculada PEB1 Seguese que essa é agora a probabilidade a priori para E com respeito a B2 Novamente informações passadas mostram que dado que tenha havido alta do dólar e queda da bolsa 10 das vezes foram precedidas por notícias de queda de juros enquanto dado que tenha havido alta do dólar e alta da bolsa 60 das vezes foram precedidas de queda dos juros Então as verossimilhanças agora serão dadas por PB2E B1 010 PB2Ec B1 060 O Teorema de Bayes fica escrito agora na forma do que segue que Ou seja a informação B2 causa um decréscimo na probabilidade de queda da bolsa de 031 para 007 que é menor ainda do que a probabilidade a priori inicial PE 010 Observe que a probabilidade PEB1 B2 pode ser escrita também como PEB1 B2 ou seja temos a ocorrência simultânea dos eventos B1 e B2 Problemas 23 Uma companhia produz circuitos em três fábricas I II e III A fábrica I produz 40 dos circuitos enquanto a II e a III produzem 30 cada uma As probabilidades de que um circuito integrado produzido por essas fábricas não funcione são 001 004 e 003 respectivamente Escolhido um circuito da produção conjunta das três fábricas qual a probabilidade de o mesmo não funcionar 24 Considere a situação do problema anterior mas suponha agora que um circuito escolhido ao acaso seja defeituoso Determine qual a probabilidade de ele ter sido fabricado por I 25 A urna I contém duas bolas pretas e três brancas ao passo que a urna II contém três bolas pretas e três brancas Escolhemos uma urna ao acaso e dela extraímos uma bola que tem cor branca Se a bola é recolocada na urna qual é a probabilidade de se retirar novamente uma bola branca da mesma urna 55 Probabilidades Subjetivas Na Seção 51 vimos como associar probabilidades a eventos Utilizamos um enfoque chamado frequentista pois se baseia na estabilidade das frequências relativas e no fato de podermos hipoteticamente repetir um experimento várias vezes Mas é óbvio que nem sempre podemos considerar replicações Suponha que queiramos calcular a probabilidade de chover no dia 12 de janeiro do próximo ano na cidade de São Paulo Evidentemente se considerarmos o evento A chover em São Paulo no dia 12 de janeiro do próximo ano ele não pode ser replicado O que poderemos eventualmente considerar é em quantos dias 12 de janeiro de anos anteriores choveu e calcular uma frequência relativa Se tivermos essa informação ela evidentemente poderá ser usada Mas suponha que uma pessoa morando em Fortaleza tenha de calcular essa probabilidade Se ela não tiver informação sobre o tempo em São Paulo poderá simplesmente dizer que essa probabilidade é de 12 Por outro lado uma pessoa vivendo em São Paulo terá informações adicionais Por exemplo saberá que normalmente janeiro fevereiro e março são meses com muita chuva Esse morador de São Paulo poderá arriscar uma probabilidade digamos de 23 para o evento A Vemos portanto que a associação de probabilidades a um evento depende de cada indivíduo de sua informação a respeito desse evento Esse tipo de apreciação é particularmente recomendável quando o indivíduo julga que as replicações anteriores não sejam comparáveis com a próxima Por exemplo o fenômeno El Niño pode ter ocorrido com grande intensidade em janeiro de 1999 provocando muita chuva no sudeste do Brasil e sua intensidade nos anos seguintes talvez seja menor Respostas a questões como essa envolvem o que chamamos de probabilidade subjetiva Ou seja cada indivíduo baseado em informações anteriores e na sua opinião pessoal a respeito do evento em questão pode ter uma resposta para a probabilidade desse evento A Inferência Bayesiana de que trataremos brevemente neste livro veja o Capítulo 11 toma como uma de suas bases o fato de que todas as probabilidades são subjetivas O Teorema de Bayes tem papel importante nesse tipo de inferência pois passa a ser visto como um mecanismo de atualização de opiniões Ou seja o indivíduo aprende B e passa a ter opinião PAB sobre A Um ingrediente básico quando se associam probabilidades é a coerência Se um indivíduo julgar que um evento A é mais provável que seu complementar então ele deverá como que apostando na ocorrência de A associar uma probabilidade maior do que 12 ao evento A Por exemplo se ele julgar que uma proporção 3 1 a favor de A é razoável então ele deverá sugerir PA 34 A fórmula de Bayes fornece uma maneira coerente de atualizar opiniões As probabilidades associadas a eventos de modo subjetivo têm propriedades análogas àquelas vistas em seções anteriores e podem ser obtidas a partir do princípio da coerência Há outras maneiras de se associar probabilidades a eventos e os interessados poderão consultar OHagan 1994 por exemplo para obter mais informações sobre esse assunto e outros ligados à Inferência Bayesiana 56 Problemas Suplementares 26 Um restaurante popular apresenta apenas dois tipos de refeições salada completa ou um prato à base de carne Considere que 20 dos fregueses do sexo masculino preferem a salada 30 das mulheres escolhem carne 75 dos fregueses são homens e os seguintes eventos H freguês é homem A freguês prefere salada M freguês é mulher B freguês prefere carne Calcular a PH PAH PBM b PA H PA H c PMA 27 Uma companhia de seguros analisou a frequência com que 2000 segurados 1000 homens e 1000 mulheres usaram o hospital Os resultados são apresentados na tabela Homens Mulheres Usaram o hospital 100 150 Não usaram o hospital 900 850 a Qual a probabilidade de que uma pessoa segurada use o hospital b O uso do hospital independe do sexo do segurado 28 As probabilidades de três motoristas serem capazes de guiar até em casa com segurança depois de beber são de 13 14 e 15 respectivamente Se decidirem guiar até em casa depois de beber numa festa qual a probabilidade de todos os três motoristas sofrerem acidentes Qual a probabilidade de pelo menos um dos motoristas guiar até em casa a salvo 29 Duas lâmpadas queimadas foram acidentalmente misturadas com seis lâmpadas boas Se vamos testando as lâmpadas uma por uma até encontrar duas defeituosas qual é a probabilidade de que a última defeituosa seja encontrada no quarto teste 30 Suponhamos que 10000 bilhetes sejam vendidos em uma loteria e 5000 em outra cada uma tendo apenas um ganhador Um homem tem 100 bilhetes de cada Qual a probabilidade de que a ele ganhe exatamente um prêmio b ele ganhe alguma coisa 31 Uma companhia de seguros vendeu apólices a cinco pessoas todas da mesma idade e com boa saúde De acordo com as tábuas atuariais a probabilidade de que uma pessoa daquela idade esteja viva daqui a 30 anos é de 23 Calcular a probabilidade de que daqui a 30 anos a exatamente duas pessoas estejam vivas b todas as pessoas estejam vivas e c pelo menos três pessoas estejam vivas Indique as suposições necessárias para a resolução do problema 32 Num teste com duas marcas que lhe são apresentadas em ordem aleatória um experimentador de vinhos faz três identificações corretas em três tentativas a Qual a probabilidade de isso ocorrer se na realidade ele não possuir habilidade alguma para distinguilos b E se a probabilidade de distinguir corretamente é de 90 em cada tentativa 33 Um grupo de 12 homens e 8 mulheres concorre a três prêmios por meio de um sorteio sem reposição de seus nomes Qual a probabilidade de a nenhum homem ser sorteado b um prêmio ser ganho por homem c dois homens serem premiados 34 Um empreiteiro apresentou orçamentos separados para a execução da parte elétrica e da parte de encanamento de um edifício Ele acha que a probabilidade de ganhar a concorrência da parte elétrica é de 12 Caso ele ganhe a parte elétrica a chance de ganhar a parte de encanamento é de 34 caso contrário essa probabilidade é de 13 Qual a probabilidade de ele a ganhar os dois contratos b ganhar apenas um c não ganhar nada 35 Em média 5 dos produtos vendidos por uma loja são devolvidos Qual a probabilidade de que das quatro próximas unidades vendidas desse produto duas sejam devolvidas 36 Três alarmes estão dispostos de tal maneira que qualquer um deles funcionará independentemente quando qualquer coisa indesejável ocorrer Se cada alarme tem probabilidade 09 de trabalhar eficientemente qual é a probabilidade de se ouvir o alarme quando necessário 37 Em uma fábrica de parafusos as máquinas A B e C produzem 25 35 e 40 do total respectivamente Da produção de cada máquina 5 4 e 2 respectivamente são parafusos defeituosos Escolhese ao acaso um parafuso e verificase que é defeituoso Qual a probabilidade de que o parafuso venha da máquina A da B e da C 38 Um fabricante afirma que apenas 5 de todas as válvulas que produz têm duração inferior a 20 horas Uma indústria compra semanalmente um grande lote de válvulas desse fabricante mas sob a seguinte condição ela aceita o lote se em dez válvulas escolhidas o acaso no máximo uma tiver duração inferior a 20 horas caso contrário o lote todo é rejeitado a Se o fabricante de fato tem razão qual a probabilidade de um lote ser rejeitado b Suponha agora que o fabricante esteja mentindo isto é na verdade a proporção de válvulas com duração inferior a 20 horas é de 10 Qual a probabilidade de um lote ser aceito segundo o critério acima 39 Para estudar o comportamento do mercado automobilístico as marcas foram divididas em três categorias marca F marca W e as demais reunidas como marca X Um estudo sobre o hábito de mudança de marca mostrou o seguinte quadro de probabilidade Proprietário de carro da marca Probabilidade de mudança para W F X W 050 025 025 F 015 070 015 X 030 030 040 A compra do primeiro carro é feita segundo as seguintes probabilidades marca W com 50 marca F com 30 e marca X com 20 a Qual a probabilidade de um indivíduo comprar o terceiro carro da marca W b Se o terceiro carro é da marca W qual a probabilidade de o primeiro também ter sido W 40 A empresa M B tem 15800 empregados classificados de acordo com a tabela abaixo Idade Sexo Homens M Mulheres F Total 25 anos A 2000 800 2800 25 40 anos B 4500 2500 7000 40 anos C 1800 4200 6000 Total 8300 7500 15800 Se um empregado é selecionado ao acaso calcular a probabilidade de ser ele a um empregado com 40 anos de idade ou menos b um empregado com 40 anos de idade ou menos e mulher c um empregado com mais de 40 anos de idade e que seja homem d uma mulher dado que é um empregado com menos de 25 anos 41 Considere o Problema 40 e suponha que escolhamos dois empregados ao acaso com reposição Qual a probabilidade de que a ambos sejam do sexo masculino b o primeiro tenha menos de 25 anos e o segundo seja do sexo masculino e tenha menos de 25 anos c nenhum tenha menos de 25 anos 42 Resolva as questões a e c do Problema 41 supondo que a amostragem é feita sem reposição 43 Numa empresa existem operários de determinada categoria com idades iguais a a b e c anos existem pelo menos três com a mesma idade Escolhemse três ao acaso para que façam determinado curso Se indicarmos por x a idade do primeiro y a do segundo e z a do terceiro o terno x y z indica cada possível resultado Enumere a o espaço amostral e b os eventos A x y zx y z B x y zx y 44 Os colégios A B e C têm as seguintes porcentagens de rapazes respectivamente 40 20 e 10 Um desses colégios é selecionado ao acaso e oito alunos são escolhidos com reposição Se o resultado for RRRMMMMM R para rapaz e M para moça qual é a probabilidade de ter sido selecionado o colégio C 45 Um inspetor da seção de controle de qualidade de uma firma examina os artigos de um lote que tem m peças de primeira qualidade e n peças de segunda qualidade Uma verificação dos b primeiros artigos selecionados ao acaso do lote mostrou que todos eram de segunda qualidade b n 1 Qual a probabilidade de que entre os dois próximos artigos selecionados ao acaso dos restantes pelo menos um seja de segunda qualidade 46 Prove que se A e B são independentes também o serão Ac e Bc A e Bc e Ac e B 47 Obtenha uma fórmula para PA B C 48 Na figura abaixo temos um sistema chamado ponte Nas mesmas condições do Problema 22 obtenha a confiabilidade do sistema 49 Considere o quadrado com vértices 00 10 01 e 11 Suponha que a probabilidade de uma região A evento seja a área dessa região a Represente graficamente o evento A conjunto dos pontos cuja distância à origem seja menor ou igual a 1 b Calcule PA c Calcule a probabilidade do evento B x y x b ou y b em que b é um número tal que 0 b 1 d Calcule PBc em que B foi definido em c 50 Considere Ω como o quadrado da figura do Problema 49 Considere os eventos A x y 13 x 23 0 y 12 B x y 12 x 1 14 y 34 Calcular PA PB PA B PAc PBc e PAc Bc 51 Considere agora a situação do Problema 49 mas suponha que o quadrado não tenha área unitária Como você definiria a probabilidade de um evento A 52 Suponha uma população de N elementos a1 a2 aN Qualquer arranjo ordenado ai1 ai2 ain de n símbolos é chamado de uma amostra ordenada de tamanho n extraída da população Considere o símbolo Nn como significando NN 1 N n 1 Suponha n N Mostre que existem Nn amostras com reposição um mesmo elemento pode ser retirado mais de uma vez e Nn amostras sem reposição um elemento quando escolhido é removido da população não havendo pois repetição na amostra 53 Uma amostra ordenada de tamanho n extraída de uma população com N elementos produz um plano aleatório simples se todas as possíveis amostras têm a mesma probabilidade de serem escolhidas essa probabilidade será 1Nn se a amostra for com reposição e 1Nn se for sem reposição Uma amostra casual de tamanho n com reposição é extraída de uma população com N elementos Encontre a probabilidade de não haver repetição na amostra 54 Considere Observe a situação do Problema 52 na qual não levamos em consideração a ordem do conjunto ai1 ai2 ain Mostre que existem amostras sem reposição 55 a Se A B e C são independentes prove que A e B C são independentes b Nas mesmas condições prove que A B e C são independentes 56 Dizemos que A B A é subconjunto de B se todo elemento de A também pertence a B Por exemplo 1 2 1 2 3 Se PA 13 PBc 14 A e B podem ser disjuntos ou mutuamente exclusivos Sugestão PA PA B PA Bc e A Bc Bc Use o fato de que se A B PA PB 57 Um sistema é composto de três componentes 1 2 e 3 com confiabilidade 09 08 e 07 respectivamente O componente 1 é indispensável ao funcionamento do sistema se 2 ou 3 não funcionam o sistema funciona mas com um rendimento inferior A falha simultânea de 2 e 3 implica o nãofuncionamento do sistema Supondo que os componentes funcionem independentemente calcular a confiabilidade do sistema 58 Prove 54 Sugestão escreva U V e V como reuniões de eventos mutuamente exclusivos 59 Há quatro bolas numa urna numeradas 000 011 101 110 Selecione uma bola ao acaso da urna Considere os eventos Ai na bola selecionada o número 1 aparece na posição i i 1 2 3 Seja A A1 A2 A3 a Calcule PAi i 1 2 3 e PA b Mostre que A1 A2 e A3 são mutuamente independentes mas não são independentes 60 Como fica a relação 510 para n eventos quaisquer A1 A2 An 61 Definir independência para n eventos quaisquer A1 An 62 O problema do aniversário Considere k pessoas numa sala Qual a probabilidade de que pelo menos duas pessoas façam aniversário no mesmo dia e mês A partir de qual valor de k essa probabilidade é maior que 05 Sugestão seja A o evento pelo menos duas pessoas fazem aniversário no mesmo dia O evento complementar é Ac todas as k pessoas fazem aniversário em dias diferentes Calcule primeiro a PAc Para isso use o resultado do Problema 53 Aqui temos N 365 dias e k n pessoas Se PA p então mostre que Note que há k fatores no numerador e no denominador dessa expressão 63 Mostre que a probabilidade 1 p do Problema 62 pode ser escrita como para k pequeno Como ficará PA neste caso 64 Num mercado três corretoras A B e C são responsáveis por 20 50 e 30 do volume total de contratos negociados respectivamente Do volume de cada corretora 20 5 e 2 respectivamente são contratos futuros em dólares Um contrato é escolhido ao acaso e este é futuro em dólares Qual é a probabilidade de ter sido negociado pela corretora A E pela corretora C 65 Lance uma moeda duas vezes e sejam os eventos A cara no primeiro lançamento B cara no segundo lançamento e C as duas moedas mostram faces diferentes Mostre que A B e C são dois a dois independentes mas não totalmente independentes 66 O Problema de Monty Hall Num programa de TV o objetivo é ganhar um carro como prêmio O apresentador do programa mostra a você três portas P1 P2 e P3 atrás de uma há um carro e das outras duas cabras Ele pede a você para escolher uma porta você escolhe P1 mas essa não é aberta Então ele abre uma das outras duas portas e mostra uma cabra ele sabe o que há atrás de cada porta Então ele pergunta se você quer mudar sua escolha de porta O que você faria Sugestão solução informal faça a árvore de possibilidades Solução formal seja G o evento ganhar o carro mudando sua escolha Seja Ci o evento carro está atrás da porta Pi i 1 2 3 e seja Hi o evento apresentador abriu a porta Pi i 1 2 3 Escreva G como uma reunião disjunta de dois eventos e use 58 67 Defina a diferença simétrica entre os eventos A e B como A B Ac B A Bc Calcule PA B para os eventos A e B do Exemplo 57 Capítulo 6 Variáveis Aleatórias Discretas 61 Introdução No capítulo anterior introduzimos alguns modelos probabilísticos por meio de espaços amostrais bem simples Isso facilitou bastante a compreensão do conceito de probabilidade e a obtenção de algumas propriedades Mas para atender a situações práticas mais gerais necessitamos ampliar esses conceitos para que tenhamos modelos probabilísticos que representem todos os tipos de variáveis definidas no Capítulo 2 Muito do que foi apresentado naquele capítulo para tratamento descritivo das variáveis terá o seu correspondente no modelo teórico Para as variáveis qualitativas a descrição de probabilidades associadas a eventos construída no capítulo precedente adaptase muito bem Dada a sua simplicidade trataremos aqui de variáveis quantitativas discretas Já os modelos para variáveis contínuas necessitarão de um artifício matemático baseado em uma generalização do conceito de histograma definido na Seção 23 e esse será o objetivo do próximo capítulo A extensão dos modelos para várias variáveis será tratada no Capítulo 8 Por outro lado quando estudamos a descrição de dados vimos que os recursos disponíveis para a análise das variáveis quantitativas são muito mais ricos do que para as variáveis qualitativas Isso sugere o uso de artifícios para transformar essas últimas variáveis naquelas do primeiro tipo Por exemplo considere o caso de um questionário em que uma pessoa é indagada a respeito de uma proposição e as respostas possíveis são sim ou não Podemos associar ao problema uma variável que toma dois valores 1 ou 0 por exemplo correspondentes às respostas sim ou não respectivamente Esse tipo de variável será estudado neste capítulo O conhecimento de modelos probabilísticos para variáveis quantitativas é muito importante e grande parte do restante deste livro será dedicada à construção desses modelos e inferências sobre seus parâmetros Essas variáveis para as quais iremos construir modelos probabilísticos serão chamadas de variáveis aleatórias va 62 O Conceito de Variável Aleatória Discreta O conceito de va discreta será introduzido por meio de um exemplo Exemplo 61 Um empresário pretende estabelecer uma firma para montagem de um produto composto de uma esfera e um cilindro As partes são adquiridas em fábricas diferentes A e B e a montagem consistirá em juntar as duas partes e pintálas O produto acabado deve ter o comprimento definido pelo cilindro e a espessura definida pela esfera dentro de certos limites e isso só poderá ser verificado após a montagem Para estudar a viabilidade de seu empreendimento o empresário quer ter uma ideia da distribuição do lucro por peça montada Sabese que cada componente pode ser classificado como bom longo ou curto conforme sua medida esteja dentro da especificação maior ou menor que a especificada respectivamente Além disso foram obtidos dos fabricantes o preço de cada componente 500 e as probabilidades de produção de cada componente com as características bom longo e curto Esses valores estão na Tabela 61 Se o produto final apresentar algum componente com a característica C curto ele será irrecuperável e o conjunto será vendido como sucata ao preço de 500 Cada componente longo poderá ser recuperado a um custo adicional de 500 Se o preço de venda de cada unidade for de 2500 como seria a distribuição de frequências da variável X lucro por conjunto montado Tabela 61 Distribuição da produção das fábricas A e B de acordo com as medidas das peças produzidas Produto Fábrica A Cilindro Fábrica B Esfera Dentro das especificações bom B 080 070 Maior que as especificações longo L 010 020 Menor que as especificações curto C 010 010 Fonte Retirada das especificações técnicas das fábricas A e B A construção dessa distribuição de frequências vai depender de certas suposições que faremos sobre o comportamento do sistema considerado Com base nessas suposições estaremos trabalhando com um modelo da realidade e a distribuição que obtivermos será uma distribuição teórica tanto mais próxima da distribuição de frequências real quanto mais fiéis à realidade forem as suposições Primeiramente vejamos a construção do espaço amostral para a montagem dos conjuntos segundo as características de cada componente e suas respectivas probabilidades Como os componentes vêm de fábricas diferentes vamos supor que a classificação dos cilindros e a da esfera segundo suas características sejam eventos independentes Obteremos a configuração da Figura 61 Uma representação do espaço amostral em questão está apresentada na Tabela 62 e foi obtida da Figura 61 Figura 61 Diagrama em árvore para o Exemplo 61 Tabela 62 Distribuição de probabilidade das possíveis composições das montagens Produto Probabilidade Lucro por montagem X BB 056 15 BL 016 10 BC 008 5 LB 007 10 LL 002 5 LC 001 5 CB 007 5 CL 002 5 CC 001 5 Fonte Figura 51 e informações no texto A última coluna da Tabela 62 foi construída com base nas informações sobre preços Por exemplo obtendo uma montagem LB cilindro longo e esfera boa do preço de venda 2500 devemos descontar 1000 dos custos dos componentes e 500 para recuperar o cilindro longo Portanto o lucro X desse conjunto será 1000 Verifique os lucros das demais montagens Com os dados da Tabela 62 vemos que X pode assumir um dos seguintes valores 15 se ocorrer o evento A1 BB 10 se ocorrer o evento A2 BL LB 5 se ocorrer o evento A3 LL 5 se ocorrer o evento A4 BC LC CB CL CC Cada um desses eventos tem uma probabilidade associada ou seja PA1 056 PA2 023 PA3 002 PA4 019 o que nos permite escrever a função x p x da Tabela 63 que é um modelo teórico para a distribuição da variável X que o empresário poderá usar para julgar a viabilidade econômica do projeto que ele pretende realizar Aqui x é o valor da va X e px é a probabilidade de X tomar o valor x Voltaremos a esse problema mais adiante Tabela 63 Distribuição da va X x px 15 056 10 023 5 002 5 019 Total 100 A função x p x é chamada função de probabilidade da va X Esquematicamente teremos a situação da Figura 62 Figura 62 Função de probabilidade da va X lucro por montagem É evidente que ao mesmo espaço amostral da Tabela 62 podemos associar outras variáveis aleatórias como veremos a seguir Exemplo 62 Se considerarmos Y como a variável custo de recuperação de cada conjunto produzido verificaremos que Y irá assumir os valores 0 se ocorrer o evento B1 BB BC LC CB CL CC 5 se ocorrer o evento B2 BL LB 10 se ocorrer o evento B3 LL A função de probabilidade da va Y está representada na Tabela 64 e a Figura 63 representa a situação esquematicamente Figura 63 Função de probabilidade da va Y custo de recuperação Tabela 64 Distribuição da va Y y py 0 075 5 023 10 002 Total 100 Deduzse do exposto que uma va X do tipo discreto estará bem caracterizada se indicarmos os possíveis valores x1 x2 xn que ela pode assumir e as respectivas probabilidades px1 px2 pxn ou seja se conhecermos a sua função de probabilidade x px Também usaremos a notação px PX x Em algumas situações a determinação da função de probabilidade fp é bem mais simples Isso pode ser verificado pelos dois exemplos seguintes Exemplo 63 Voltemos à situação do Exemplo 510 em que consideramos duas extrações sem reposição de uma urna contendo duas bolas brancas e três bolas vermelhas Definamos a va X número de bolas vermelhas obtidas nas duas extrações Obtemos a Tabela 65 e a Figura 64 Tabela 65 Extrações sem reposição de urna com duas bolas brancas e três bolas vermelhas Resultados Probabilidades X BB 110 0 BV 310 1 VB 310 1 VV 310 2 Fonte Figura 64 Figura 64 Diagrama em árvore para o Exemplo 63 Vemos pois que a cada resultado do experimento está associado um valor da va X a saber 0 1 ou 2 Temos que X 0 com probabilidade 110 pois X 0 se e somente se ocorre o resultado BB X 1 com probabilidade 310 310 610 pois X 1 se e somente se ocorrem os resultados BV ou VB que são mutuamente exclusivos finalmente X 2 com probabilidade 310 pois X 2 se e somente se ocorre o resultado VV Resumidamente p0 PX 0 PBB 110 p1 PX 1 PBV ou VB 610 p2 PX 2 PVV 310 Na Tabela 66 apresentamos a distribuição de probabilidades da va X Tabela 66 Distribuição de probabilidades da va X número de bolas vermelhas x px 0 110 1 610 2 310 Fonte Tabela 65 Exemplo 64 Retomemos o Exemplo 53 em que consideramos o lançamento de uma moeda duas vezes Definamos a va Y número de caras obtidas nos dois lançamentos Temos então p0 PY 0 PRR 14 p1 PY 1 PCR ou RC 14 14 12 p2 PY 2 PCC 14 Na Tabela 67 e na Figura 65 temos esquematizado o que ocorre e na Tabela 68 apresentamos a distribuição de probabilidades de Y Tabela 67 Lançamento de duas moedas Resultados Probabilidades Y CC 14 2 CR 14 1 RC 14 1 RR 14 0 Fonte Figura 65 Figura 65 Diagrama em árvore para o Exemplo 64 Tabela 68 Distribuição da va Y número de caras y py 0 14 1 12 2 14 Fonte Tabela 67 Dos exemplos apresentados vemos que a cada ponto do espaço amostral a variável sob consideração associa um valor numérico o que corresponde em Matemática ao conceito de função mais precisamente a uma função definida no espaço amostral Ω e assumindo valores reais Definição Uma função X definida no espaço amostral Ω e com valores num conjunto enumerável de pontos da reta é dita uma variável aleatória discreta Esquematicamente teremos a situação da Figura 66 PX xi PA onde A ω₁ ω₂ Ω é tal que Xωj xi se ωj A e Xωj xi se ωj Ac Definição Chamase função de probabilidade da va discreta X que assume os valores x₁ x₂ xₙ a função xᵢ pxᵢ i 1 2 que a cada valor de xᵢ associa a sua probabilidade de ocorrência isto é pxᵢ PX xᵢ pᵢ i 1 2 6 Generalize o Problema 5 para n lançamentos da moeda 63 Valor Médio de uma Variável Aleatória Vamos introduzir o conceito de valor médio por meio do seguinte exemplo Exemplo 65 Uma pergunta que logo ocorreria ao empresário do Exemplo 61 é qual o lucro médio por conjunto montado que ele espera conseguir Da Tabela 63 observamos que 56 das montagens devem produzir um lucro de 15 reais 23 um lucro de dez reais e assim por diante Logo o lucro esperado por montagem será dado por lucro médio 05615 02310 0025 0195 985 Isto é caso sejam verdadeiras as suposições feitas para determinar a distribuição da va o empresário espera ter um lucro de 985 reais por conjunto montado Definição Dada a va X discreta assumindo os valores x1 xn chamamos valor médio ou esperança matemática de X ao valor 61 A Fórmula 61 é semelhante àquela utilizada para a média introduzida no Capítulo 3 na qual no lugar das probabilidades pi tínhamos as frequências relativas fi A distinção entre essas duas quantidades é que a primeira corresponde a valores de um modelo teórico pressuposto e a segunda a valores observados da variável Como pi e fi têm a mesma interpretação todas as medidas e gráficos discutidos no Capítulo 2 baseados na distribuição das fi possuem um correspondente na distribuição de uma va Além do valor médio ou simplesmente média definido acima podemos considerar também outras medidas de posição e variabilidade como a mediana e o desvio padrão Veja a Seção 68 para a definição da mediana de uma va discreta Vamos considerar agora a definição de variância Definição Chamamos de variância da va X o valor 62 O desvio padrão de X DPX é definido como a raiz quadrada positiva da variância Exemplo 66 Deixamos a cargo do leitor verificar que no caso do problema do empresário teremos i VarX 5723 ii DPX 757 iii gráfico de x px Figura 67 Figura 67 Gráfico de px distribuição da va X lucro por montagem Observação Até agora consideramos o caso em que a va X pode assumir um número finito de valores Mas uma va discreta X pode assumir um número infinito porém enumerável de valores x1 xn com probabilidades p1 pn tal que cada pi 0 e a soma de todos os pi seja 1 ou seja Veja o Problema 3 Nesse caso a definição de esperança deve ser modificada A soma na Fórmula 61 é uma soma infinita que temos de supor que seja convergente Problemas 7 Obtenha a média e a variância da va X dos Problemas 1 e 2 8 Obter a média e a variância da va Y do Problema 4 64 Algumas Propriedades do Valor Médio Retomemos o Exemplo 61 para ilustrar algumas propriedades da média de uma va Exemplo 67 Suponha que todos os preços determinados pelo empresário do Exemplo 61 estivessem errados Na realidade todos os valores deveriam ser duplicados isto é custos e preços de venda Isso corresponde à transformação Z 2X As probabilidades associadas à va Z serão as mesmas da va X pois cada valor de X irá corresponder a um único valor de Z Na Tabela 69 temos a distribuição de Z O valor médio da va Z é obtido por Suponha agora que queiramos a distribuição da va W X2 Baseados na Tabela 63 obtemos a Tabela 610 Tabela 69 Distribuição da variável aleatória Z 2X x z 2x pz px z pz 15 30 056 1680 10 20 023 460 5 10 002 020 5 10 019 190 Total 100 1970 Fonte Tabela 63 Tabela 610 Distribuição da variável aleatória W X2 w pw w pw 225 056 12600 100 023 2300 25 021 525 Total 100 15425 Fonte Tabela 63 Observe que o evento W 25 ocorre quando X 5 ou X 5 portanto PW 25 PX 5 PX 5 002 019 021 Seguese que a média de W é EW Σwᵢpwᵢ 225056 100023 25021 225056 100023 25002 25019 Σx₂pxᵢ 15425 Dada a va discreta X e a respectiva função de probabilidade px a esperança matemática da função hX é dada por EhX Σhxᵢpxᵢ No Capítulo 2 demos a definição de função de distribuição acumulada ou empírica para um conjunto de n observações O equivalente teórico para variáveis aleatórias é definido a seguir Definição Dada a variável aleatória X chamaremos de função de distribuição acumulada fda ou simplesmente função de distribuição fd Fx à função Fx PX x 67 Observe que o domínio de F é todo o conjunto dos números reais ao passo que o contradomínio é o intervalo 01 Exemplo 69 Voltando ao problema do empresário e usando a fp de X definida na Tabela 63 a fda de X será dada por cujo gráfico está na Figura 68 Figura 68 fda para a va X lucro por montagem Observe que PX xi é igual ao salto que a função Fx dá no ponto xi por exemplo PX 10 023 F10 F10 De modo geral PX xi Fxi Fxi em que lembramos que Fa limx a Fx Observe também que o conhecimento de Fx é equivalente ao conhecimento da fp de X Problemas 9 No Problema 1 obtenha as distribuições das va 3X e X2 10 Considere o lançamento de três moedas Se ocorre o evento CCC dizemos que temos uma sequência ao passo que se ocorre o evento CRC temos três sequências Defina a va X número de caras obtidas e Y número de sequências isso para cada resultado possível Assim X CRR 1 e Y CRR 2 Obtenha as distribuições de X e Y Calcule EX EY VarX e VarY 11 Suponha que a va V tem a distribuição seguinte v 0 1 pv q 1 q Obtenha EV e VarV 12 Seja X com distribuição dada abaixo calcule EX Considere a va X a2 e calcule EX a2 para a 0 14 12 34 1 Obtenha o gráfico de EX a2 ga Para qual valor de a ga é mínimo x 0 1 2 px 12 14 14 13 Um vendedor de equipamento pesado pode visitar num dia um ou dois clientes com probabilidade de 13 ou 23 respectivamente De cada contato pode resultar a venda de um equipamento por 5000000 com probabilidade 110 ou nenhuma venda com probabilidade 910 Indicando por Y o valor total de vendas diárias desse vendedor escreva a função de probabilidade de Y e calcule o valor total esperado de vendas diárias 14 Calcule a variância da va Y definida no Problema 13 15 Obter a fda para a va V do Problema 11 Faça seu gráfico 16 Calcule a fda da va Y do Problema 10 e faça seu gráfico 17 O tempo T em minutos necessário para um operário processar certa peça é uma va com a seguinte distribuição de probabilidade t 2 3 4 5 6 7 pt 01 01 03 02 02 01 a Calcule o tempo médio de processamento Para cada peça processada o operário ganha um fixo de 200 mas se ele processa a peça em menos de seis minutos ganha 050 em cada minuto poupado Por exemplo se ele processa a peça em quatro minutos recebe a quantia adicional de 100 b Encontre a distribuição a média e a variância da va G quantia em ganha por peça 18 Sabese que a va X assume os valores 1 2 e 3 e que sua fda Fx é tal que F1 F1 13 F2 F2 16 F3 F3 12 Obtenha a distribuição de X a fda Fx e os gráficos respectivos 19 Obtenha a fda Ft da va T do Problema 17 66 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas Algumas variáveis aleatórias adaptamse muito bem a uma série de problemas práticos Portanto um estudo pormenorizado dessas variáveis é de grande importância para a construção de modelos probabilísticos para situações reais e a consequente estimação de seus parâmetros Para algumas dessas distribuições existem tabelas que facilitam o cálculo de probabilidades em função de seus parâmetros Nesta seção iremos estudar alguns desses modelos procurando enfatizar as condições em que eles aparecem suas funções de probabilidade parâmetros e como calcular probabilidades 661 Distribuição Uniforme Discreta Este é o caso mais simples de va discreta em que cada valor possível ocorre com a mesma probabilidade Definição A va discreta X assumindo os valores x1 xk tem distribuição uniforme se e somente se 68 para todo i 1 2 k É fácil verificar que 69 610 e que a função de distribuição acumulada é dada por 611 em que nx é o número de xi x veja a Figura 69 Figura 69 Distribuição uniforme discreta Exemplo 610 Seja X a va que indica o número de pontos marcados na face superior de um dado quando ele é lançado Obtemos na Tabela 611 a distribuição de X Temos também EX 16 1 2 3 4 5 6 216 35 VarX 16 1 4 36 2126 3512 29 Tabela 611 Número de pontos no lançamento de um dado x 1 2 3 4 5 6 Total px 16 16 16 16 16 16 10 662 Distribuição de Bernoulli Muitos experimentos são tais que os resultados apresentam ou não uma determinada característica Por exemplo 1 uma moeda é lançada o resultado ou é cara ou não ocorrendo então coroa 2 um dado é lançado ou ocorre face 5 ou não ocorrendo então uma das faces 1 2 3 4 ou 6 3 uma peça é escolhida ao acaso de um lote contendo 500 peças essa peça é defeituosa ou não 4 uma pessoa escolhida ao acaso dentre 1000 é ou não do sexo masculino 5 uma pessoa é escolhida ao acaso entre os moradores de uma cidade e verificase se ela é favorável ou não a um projeto municipal Em todos esses casos estamos interessados na ocorrência de sucesso cara face 5 etc ou fracasso coroa face diferente de 5 etc Essa terminologia sucesso e fracasso será usada frequentemente Para cada experimento acima podemos definir uma va X que assume apenas dois valores 1 se ocorrer sucesso e 0 se ocorrer fracasso Indicaremos por p a probabilidade de sucesso isto é Psucesso PS p 0 p 1 Definição A variável aleatória X que assume apenas os valores 0 e 1 com função de probabilidade x px tal que p0 PX 0 1 p p1 PX 1 p é chamada variável aleatória de Bernoulli Então seguese facilmente que EX p 612 VarX p p2 p1 p 613 Na Figura 610 temos representadas as fp e fda de X Figura 610 Distribuição de Bernoulli a fp b fda Exemplo 611 Vamos supor o caso do experimento 2 Supondo o dado perfeito teremos PX 0 56 PX 1 16 EX 16 VarX 16 56 536 Observação Experimentos que resultam numa va de Bernoulli são chamados ensaios de Bernoulli Usaremos a notação X Berp para indicar uma va com distribuição de Bernoulli com parâmetro p 663 Distribuição Binomial Imagine agora que repetimos um ensaio de Bernoulli n vezes ou de maneira alternativa obtemos uma amostra de tamanho n de uma distribuição de Bernoulli Suponha ainda que as repetições sejam independentes isto é o resultado de um ensaio não tem influência nenhuma no resultado de qualquer outro ensaio Uma amostra particular será constituída de uma sequência de sucessos e fracassos ou alternativamente de uns e zeros Por exemplo repetindo um ensaio de Bernoulli cinco vezes n 5 um particular resultado pode ser FSSFS ou a quíntupla ordenada 0 1 1 0 1 Usando a notação da Seção 662 com PS p a probabilidade de tal amostra será 1 ppp1 pp p31 p2 O número de sucessos nessa amostra é igual a 3 sendo 2 o número de fracassos Considere agora as seguintes situações obtidas de 1 a 5 da seção anterior 1 uma moeda é lançada três vezes qual é a probabilidade de se obter duas caras 2 um dado é lançado cinco vezes qual é a probabilidade de se obter face 5 no máximo três vezes 3 dez peças são extraídas ao acaso com reposição de um lote contendo 500 peças qual é a probabilidade de que todas sejam defeituosas sabendose que 10 das peças do lote são defeituosas 4 cinco pessoas são escolhidas ao acaso entre 1000 qual é a probabilidade de que duas sejam do sexo masculino 5 sabese que 90 das pessoas de uma cidade são favoráveis a um projeto municipal Escolhendose 100 pessoas ao acaso entre os moradores qual é a probabilidade de que pelo menos 80 sejam favoráveis ao projeto Observe que nos casos 4 e 5 o fato de estarmos extraindo indivíduos de um conjunto muito grande implica que podemos supor que as extrações sejam praticamente independentes Exemplo 612 Consideremos a situação 1 supondo que a moeda seja honesta isto é Psucesso Pcara 12 Indiquemos o sucesso cara por S e fracasso coroa por F Então estamos interessados na probabilidade do evento A SSF SFS FSS ou em termos da notação anterior na probabilidade de A 1 1 0 1 0 1 0 1 1 É claro que PA PSSF PSFS PFSS e devido à independência dos ensaios e portanto Se a probabilidade de sucesso for p 0 p 1 e PF 1 p q então PSSF p p q p2 q PSFS PFSS de modo que PA 3p2q Uma característica interessante dos experimentos considerados é que estamos interessados apenas no número total de sucessos e não na ordem em que eles ocorrem Podemos construir a Tabela 612 para n 3 lançamentos da moeda com PS p PF 1 p q a partir da Figura 611 Vamos designar por X o número total de sucessos em n ensaios de Bernoulli com probabilidade de sucesso p 0 p 1 Os possíveis valores de X são 0 1 2 n e os pares x px em que px PX x constituem a chamada distribuição binomial Figura 611 Probabilidades binomiais para n 3 e PS p Tabela 612 Probabilidades binomiais para n 3 e PS p Número de sucessos Probabilidades p 12 0 q3 18 1 3pq2 38 2 3p2q 38 3 p3 18 Fonte Figura 611 Para o exemplo 1 acima n 3 e p 12 obtemos a distribuição dada pela primeira e terceira colunas da Tabela 612 e o gráfico da Figura 612 Figura 612 Gráfico da fp px para n 3 e p 12 Obtenhamos agora PX k ou seja numa sequência de n ensaios de Bernoulli a probabilidade de obter k sucessos e portanto n k fracassos k 012 n com PS p PF 1 p q Uma particular sequência é SSS SFF F em que temos k sucessos seguidos por n k fracassos A probabilidade de tal sequência é pk1 pn k pkqn k 614 devido à independência dos ensaios Mas qualquer sequência com k sucessos e n k fracassos terá a mesma probabilidade 614 Portanto resta saber quantas sequências com a propriedade especificada podemos formar É fácil ver que existem tais sequências de modo que 615 As probabilidades 615 também serão indicadas por bk n p e quando a va X tiver distribuição binomial com parâmetros n e p escreveremos X bn p Exemplo 613 Vamos considerar a situação 3 acima Temos n 10 ensaios de Bernoulli cada um com PS Ppeça defeituosa p 01 Se X indicar o número de peças defeituosas na amostra queremos calcular PX 10 b10 10 110 Por 615 obtemos A média e a variância de uma va binomial com parâmetros n e p são dadas respectivamente por EX np 616 VarX npq 617 Veja o Problema 41 e as Seções 83 e 84 Para o Exemplo 613 temos As probabilidades binomiais bk n p são facilmente calculadas em programas estatísticos como o Minitab e o SPlus ou planilhas como o Excel ou então são dadas por tabelas especialmente construídas para diferentes valores de n e p A Tabela I fornece essas probabilidades para valores de n 2 3 19 e alguns valores de p Exemplo 614 Usando 615 e a Tabela I ou com a ajuda de um computador obtemos No Capítulo 7 e na Seção 665 veremos duas maneiras de calcular valores aproximados para as probabilidades binomiais para n grande Para finalizar vamos formalizar os principais pontos apresentados nesta seção Definição Chamase de experimento binomial ao experimento a que consiste em n ensaios de Bernoulli b cujos ensaios são independentes e c para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p 0 p 1 Definição A variável aleatória X correspondente ao número de sucessos num experimento binomial tem distribuição binomial bn p com função de probabilidade 618 Na Seção 69 veremos como podemos obter os valores bk n p para n e p dados usando um pacote estatístico 664 Distribuição Hipergeométrica Essa distribuição é adequada quando consideramos extrações casuais feitas sem reposição de uma população dividida segundo dois atributos Para ilustrar considere uma população de N objetos r dos quais têm o atributo A e N r têm o atributo B Um grupo de n elementos é escolhido ao acaso sem reposição Estamos interessados em calcular a probabilidade de que esse grupo contenha k elementos com o atributo A Podese ver facilmente utilizando o princípio multiplicativo que essa probabilidade é dada por 619 em que max0 n N r k minr n Os pares k pk constituem a distribuição hipergeométrica de probabilidades Se definirmos a va X como o número de elementos na amostra que têm o atributo A então PX k pk Exemplo 615 Em problemas de controle de qualidade lotes com N itens são examinados O número de itens com defeito atributo A r é desconhecido Colhemos uma amostra de n itens e determinamos k Somente para ilustrar suponha que num lote de N 100 peças r 10 sejam defeituosas Escolhendo n 5 peças sem reposição a probabilidade de não se obter peças defeituosas é enquanto a probabilidade de se obter pelo menos uma defeituosa é p1 p2 p5 1 p0 0426 Podese demonstrar que a va X definida acima tem esperança e variância dadas por EX np 620 621 As probabilidades 622 calculadas agora para todos os valores inteiros não negativos k 0 1 2 constituem a chamada distribuição de Poisson tabelada na Tabela II para alguns valores de λ np A aproximação bk n p enpnpkk é boa se n grande e p pequeno e de tal sorte que np 7 Ver o Problema 43 para uma sugestão de como provar 623 As probabilidades dadas por 623 podem também ser obtidas em aplicativos estatísticos ou planilhas assim como a binomial vemos que essas probabilidades decaem à medida que k cresce e normalmente são desprezíveis para k maior do que 5 ou 6 A distribuição de Poisson é largamente empregada quando se deseja contar o número de eventos de certo tipo que ocorrem num intervalo de tempo ou superfície ou volume São exemplos a número de chamadas recebidas por um telefone durante cinco minutos b número de falhas de um computador num dia de operação e c número de relatórios de acidentes enviados a uma companhia de seguros numa semana De modo geral dizemos que uma va N tem uma distribuição de Poisson com parâmetro λ 0 se PN k eλλkk k 012 É fácil verificar que EN VarN λ veja o Problema 46 logo λ representa o número médio de eventos ocorrendo no intervalo considerado Uma suposição que se faz usualmente em relação à distribuição de Poisson é que a probabilidade de se obter mais de um evento em um intervalo muito pequeno é desprezível Exemplo 617 Uma situação prática de interesse na qual a distribuição de Poisson é empregada diz respeito à desintegração de substâncias radioativas Considerase o urânio 238 U238 por exemplo Cada núcleo de U238 tem uma probabilidade muito pequena 49 1018 de se desintegrar emitindo uma partícula α em um segundo Considere agora um número grande n de núcleos e uma va N número de núcleos que se desintegram Admitindose que a desintegração de um núcleo não afeta a probabilidade de desintegração de qualquer outro núcleo independência a va N tem uma distribuição binomial com parâmetros n e p este dado pelo valor acima Logo estamos numa situação em que podemos usar 623 ou seja aproximar probabilidades binomiais por probabilidades de Poisson Em 030 mg de U238 temos aproximadamente n 76 1017 átomos Helene Vanin 1981 logo λ np 37 e Por exemplo PN 0 eλλ00 0025 e PN 2 0169 Podese ver que PN 19 é muito pequena menor do que 106 Tabela 613 Frequências observadas e esperadas para o Exemplo 617 k nk npk 0 57 54399 1 203 210523 2 383 407361 3 525 525496 4 532 508418 5 408 393515 6 273 253817 7 139 140325 8 45 67862 9 27 29189 10 16 17075 2608 2608000 Seria interessante avaliar se a distribuição de Poisson realmente é um modelo razoável para essa situação Um experimento devido a Rutherford e Geiger veja Feller 1964 p 149 para a referência completa sobre esse experimento de fato comprova essa adequação Eles observaram os números de partículas α emitidas por uma substância radioativa em n 2608 intervalos de 75 segundos A Tabela 613 apresenta os números nk de intervalos de 75 segundos contendo k partículas Uma estimativa de λ número médio de partículas emitidas durante um intervalo de 75 segundos é dada por λ kin 10094 2608 387 Se considerarmos ocorrências de eventos em intervalos de tempo de comprimento t no lugar do intervalo unitário de tempo basta ajustar o parâmetro λ na Fórmula 624 Vejamos um exemplo As probabilidades de Poisson são dadas por Pk 387k e387k k 01 Seguese que nPk é o número esperado de intervalos contendo k partículas e esses valores também estão apresentados na Tabela 613 Vemos que há uma boa coincidência entre os valores das duas colunas Um teste formal pode ser feito para verificar a adequação da distribuição de Poisson Veja o Capítulo 14 Exemplo 145 Exemplo 618 Um telefone recebe em média cinco chamadas por minuto Supondo que a distribuição de Poisson seja adequada nessa situação obter a probabilidade de que o telefone não receba chamadas durante um intervalo de um minuto Seguese que λ 5 e PN 0 e5 50 0 e5 00067 Por outro lado se quisermos a probabilidade de obter no máximo duas chamadas em quatro minutos teremos λ 20 chamadas em quatro minutos logo PN 2 PN 0 PN 1 PN 2 e20 1 20 200 221e20 que é um número muito próximo de zero Esse exemplo nos mostra que a probabilidade de k ocorrências num intervalo fixo de comprimento t pode ser escrita como PN k eλλkk k 012 em que λ representa o número médio de ocorrências naquele intervalo Denotaremos uma va N com distribuição de Poisson de parâmetro λ por N Poisλ 22 Numa central telefônica o número de chamadas chega segundo uma distribuição de Poisson com a média de oito chamadas por minuto Determinar qual a probabilidade de que num minuto se tenha a dez ou mais chamadas b menos que nove chamadas c entre sete inclusive e nove exclusive chamadas 23 Num certo tipo de fabricação de fita magnética ocorrem cortes a uma taxa de um por 2000 pés Qual a probabilidade de que um rolo com 2000 pés de fita magnética tenha a nenhum corte b no máximo dois cortes c pelo menos dois cortes 24 Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso é de 02 Se dez itens produzidos por essa máquina são selecionados ao acaso qual é a probabilidade de que não mais do que um defeituoso seja encontrado Use a binomial e a distribuição de Poisson e compare os resultados 25 Examinaramse 2000 ninhadas de cinco porcos cada uma segundo o número de machos Os dados estão representados na tabela abaixo Nº de Machos Nº de Ninhadas 0 20 1 360 2 700 3 680 4 200 5 40 Total 2000 a Calcule a proporção média de machos b Calcule para cada valor de X o número de ninhadas que você deve esperar se X b5 p em que p é a proporção média de machos calculada em a 26 Se X tem distribuição binomial com parâmetros n 5 e p 12 faça os gráficos da distribuição de X e da fda Fx 27 Considere agora n 5 e p 14 Obtenha o gráfico da distribuição de X Qual a diferença entre esse gráfico e o correspondente do Problema 26 O que ocasionou a diferença 28 Refaça o Problema 26 com n 6 e p 12 67 O Processo de Poisson No Exemplo 617 acima vimos uma aplicação importante da distribuição de Poisson ao problema da desintegração radioativa Lá tratamos da emissão de partículas alfa em intervalos de 75 segundos Ou seja estamos contando o número de ocorrências de um evento ao longo do tempo Na realidade consideramos o que se chama um processo estocástico Designandose por Nt o número de partículas emitidas no intervalo 0 t obtemos o que se chama de processo de Poisson para todo t 0 Nesta seção iremos partir de algumas suposições que consideramos plausíveis sobre tal processo e mostrar que a distribuição da variável aleatória Nt para cada t 0 é dada pela Fórmula 625 As suposições que iremos admitir como válidas são as seguintes S1 N0 0 ou seja o processo começa no instante zero com probabilidade um PN0 0 1 S2 Os números de eventos em intervalos de tempo disjuntos são va independentes Considere 0 t t s Nt como antes e Nts Nt o número de eventos no intervalo t t s Então estamos supondo que sva Nt N1s Nt são independentes Dizemos que o processo tem incrementos independentes S3 Considere os intervalos 0 t e s s t de mesmo comprimento t e as va Nt como antes e Mt número de eventos no intervalo s s t Então para todo s 0 as va Nt e Mt têm a mesma distribuição de probabilidades Ou seja a distribuição do número de eventos ocorridos num intervalo depende somente do comprimento do intervalo e não de sua localização Dizemos que o processo tem incrementos estacionários S4 Para h suficientemente pequeno PNh 1 λh com λ 0 constante Ou seja num intervalo pequeno a probabilidade de ocorrência de um evento é proporcional ao comprimento do intervalo S5 Para h como em S4 PNh 2 0 Isso nos diz que a probabilidade de se ter dois ou mais eventos num intervalo suficientemente pequeno é desprezível Considere o intervalo 0 t e o divida em subintervalos de comprimento tn como na Figura 613 Chamemos de Y a va que dá os números de subintervalos com um evento Então Y é uma va com distribuição binomial de parâmetros n número total de subintervalos e p P um evento λtn Para n grande usando a aproximação da seção anterior temos que essa variável pode ser aproximada por uma va com distribuição de Poisson com parâmetro np nλtn λt Note que aqui usamos as suposições S2 cada subintervalo contém um evento independentemente dos demais intervalos e S3 com a mesma probabilidade Pela suposição S5 a probabilidade de que cada subintervalo contenha dois ou mais eventos tende a zero quando n cresce Logo Nt é uma va com distribuição de Poisson com parâmetro λt Uma prova um pouco mais rigorosa usando derivadas pode ser dada Veja Meyer 1965 Q2 Q05 mediana ou segundo quartil Q3 Q075 terceiro quartil Vejamos o caso da mediana Q05 Md Por 626 devemos ter PX Md 05 e PX Md 05 627 Suponha a va X com a distribuição x 0 1 px 13 23 Então Md 1 pois PX 1 13 23 1 12 e PX 1 PX 1 23 12 Na Figura 614 temos a fda de X Sabemos que de modo que não existe algum valor x tal que Fx 05 o que ilustra por que não podemos definir a mediana por meio de FMd 05 Figura 614 fda da va X Por outro lado considere a va Y com a distribuição da tabela abaixo Y 1 0 1 py 14 14 12 Então qualquer valor Md entre 0 e 1 é uma mediana pois PY Md PY 1 PY 0 12 12 e Tabela 614 Modelos para variáveis discretas Modelo PX x Parâmetros Bernoulli p1 p1x x 0 1 p p p1 p Binomial n p np np1 p Poisson λ λ λ Geométrica p1 px 1 x 1 2 p Hipergeométrica N r n 1a max0 n N r b minr n PY Md PY 1 12 12 A fda de Y está na Figura 615 Observe que 0 e 1 também são medianas Observe também que Q075 1 pois PX 1 1 p 075 PX 1 05 1 p 025 Novamente não há nenhum valor de y tal que Fy 075 Mostre que Q090 também é igual a 1 Figura 615 fda da va Y 69 Exemplos Computacionais No R é possível obter a função de probabilidade ou densidade a função de distribuição acumulada e os quantis de uma variável aleatória Por exemplo para uma variável aleatória com distribuição binomial podemos utilizar os seguintes comandos dbinom x size prob log FALSE pbinom q size prob lowertail TRUE logp FALSE qbinom p size prob lowertail TRUE logp FALSE rbinom n size prob Principais argumentos x valor observador para o qual se deseja calcular o valor da distribuição q vetor de quantis p vetor de probabilidades n Número de observações a serem simuladas size parâmetro da distribuição número de ensaios prob parâmetro da distribuição probabilidade de sucesso de cada ensaio lowertail Variável TRUEFALSE Se TRUE PX x para TRUE e PX x Com relação à nomenclatura note que no exemplo anterior a referência à distribuição é sempre precedida de uma letra d para densidade p para função distribuição q para quantis e r para simulação Dessa forma se quisermos simular uma distribuição de Poisson o comando será rpois para acessar os quantis de uma distribuição geométrica qgeom e assim por diante Além do R outros pacotes podem ser usados para gerar probabilidades e probabilidades acumuladas quantis etc para os modelos mais importantes discutidos neste capítulo Exemplo 619 Consideremos a va X com distribuição binomial com parâmetros n14 e pPsucesso03 Os comandos no R abaixo geram PXk para k0112 e PXx para x0112 No Quadro 61 temos essas probabilidades mas geradas pelo Minitab que fornece os mesmos valores por meio dos comandos PDF e CDF Quadro 61 Probabilidades binomiais geradas pelo Minitab x017 pxdpoisx lambada52 fdaxcumsumpx quadro62dataframex px fdax No Quadro 62 obtemos as mesmas probabilidades via Minitab Quadro 62 Probabilidades de Poisson geradas pelo Minitab MTB PDF MTB CDF SUBC Poisson 52 SUBC Poisson 52 Probability Density Function Cumulative Distribution Function Poisson with mu 520000 Poisson with mu 520000 x PX x x PX x x PX x x PX x 0 00055 9 00423 0 00055 9 09603 1 00287 10 00220 1 00342 10 09823 2 00746 11 00104 2 01088 11 09927 3 01293 12 00045 3 02381 12 09972 4 01681 13 00018 4 04061 13 09990 5 01748 14 00007 5 05809 14 09997 6 01515 15 00002 6 07324 15 09999 7 01125 16 00001 7 08449 16 10000 8 00731 17 00000 8 09181 610 Problemas Suplementares 29 Um florista faz estoque de uma flor de curta duração que lhe custa 050 e que ele vende a 150 no primeiro dia em que a flor está na loja Toda flor que não é vendida nesse primeiro dia não serve mais e é jogada fora Seja X a variável aleatória que denota o número de flores que os fregueses compram em um dia casualmente escolhido O florista descobriu que a função de probabilidade de X é dada pela tabela abaixo x 0 1 2 3 px 01 04 03 02 Quantas flores deveria o florista ter em estoque a fim de maximizar a média valor esperado do seu lucro 30 As cinco primeiras repetições de um experimento custam 1000 cada Todas as repetições subsequentes custam 500 cada Suponha que o experimento seja repetido até que o primeiro sucesso ocorra Se a probabilidade de sucesso de uma repetição é igual a 09 e se as repetições são independentes qual é o custo esperado da operação 31 Na manufatura de certo artigo é sabido que um entre dez dos artigos é defeituoso Qual a probabilidade de que uma amostra casual de tamanho quatro contenha a nenhum defeituoso b exatamente um defeituoso Para um va X com distribuição de Poisson com parâmetro λ 5 2 teremos os comandos no R acaso Para verificar essa hipótese foi feita uma contagem do número de acidentes por hora durante um certo número de dias 24 horas por dia Os resultados da pesquisa foram apresentados no quadro a seguir Nº de acidentes por hora Nº de horas 0 200 1 152 2 60 3 30 4 13 5 9 6 7 7 5 8 4 a Calcule o número médio de acidentes por hora nessa amostra b Se o número de acidentes por hora seguisse uma distribuição de Poisson com média igual à que você calculou qual seria o número esperado de dias com 0 1 2 etc acidentes c Os dados revelam que a suspeita dos operários é verdadeira 37 Determinado tipo de parafuso é vendido em caixas com 1000 peças É uma característica da fabricação produzir 10 com defeito Normalmente cada caixa é vendida por 1350 Um comprador faz a seguinte proposta de cada caixa ele escolhe uma amostra de 20 peças se a caixa não tiver parafusos defeituosos ele paga 2000 um ou dois defeituosos ele paga 1000 três ou mais defeituosos ele paga 800 Qual alternativa é a mais vantajosa para o fabricante Justifique 38 Uma certa região florestal foi dividida em 109 quadrados para estudar a distribuição da espécie Primula simenses selvagem Supomos que a distribuição de Poisson seja adequada nessa situação A tabela abaixo indica o número de quadrados com X Primulas O número médio de plantas por quadrado foi de 22 X plantas por quadrado Nº de quadrados com X plantas 0 26 1 21 2 23 3 14 4 11 5 4 6 5 7 4 8 1 acima de 8 0 a Se as plantas realmente distribuemse segundo uma distribuição de Poisson qual a probabilidade de encontrarmos pelo menos duas Primulas b Dê as frequências esperadas para os valores de X 0 X 1 e X 2 c Apenas comparando os resultados de b com as frequências observadas qual a conclusão a que você chegaria d Quais as causas que você daria para a conclusão 39 Uma fábrica produz válvulas das quais 20 são defeitosas As válvulas são vendidas em caixas com dez peças Se uma caixa não tiver nenhuma defeituosa seu preço de venda é 10 todo uma o preço é 800 duas ou três o preço é 600 mais do que três o preço é 200 Qual o preço médio de uma caixa 50 Em um experimento binomial com três provas a probabilidade de exatamente dois sucessos é 12 vezes a probabilidade de três sucessos Encontre p 51 No sistema abaixo cada componente tem probabilidade p de funcionar Supondo independência de funcionamento dos componentes qual a probabilidade de a o sistema funcionar b o sistema não funcionar c exatamente dois componentes funcionarem d pelo menos cinco componentes funcionarem 52 Prove que 53 Encontre a mediana da va Z com distribuição Z 0 1 2 3 pZ 14 14 14 14 54 Encontre os quantis de ordens p 025 060 080 da va Z do exercício 53 55 Meyer 1965 O custo de realização de um experimento é 100000 Se o experimento falha um custo adicional de 30000 tem de ser imposto Se a probabilidade de sucesso em cada prova é 02 se as provas são independentes e continuadas até a ocorrência do primeiro sucesso qual o custo esperado do experimento 56 Use o 628 para verificar as relações entre a EeX e eEX b Elog X e log EX para X 0 c E1X e 1EX para X 0 611 Complementos Metodológicos 1 Distribuição Geométrica Suponha que ao realizar um experimento ocorra o evento A com probabilidade p ou não ocorra A ou seja ocorre Ac com probabilidade 1 p Repetimos o experimento de forma independente até que o evento A ocorra pela primeira vez Seja X número de repetição do experimento até que se obtenha A pela primeira vez Então PX j 1 pj 1 p j 1 2 3 pois se X j nas primeiras j 1 repetições A não ocorre ocorrendo na j ésima a Prove que b Mostre que EX 1p e VarX 1 pp2 Sugestão c Se s e t são inteiros positivos então PX s tX s PX t Essa propriedade nos diz que a distribuição geométrica não tem memória Essa propriedade é compartilhada pela distribuição exponencial a ser estudada no Capítulo 7 2 Distribuição de Pascal Considere a mesma situação experimental do Problema 55 só que agora o experimento é continuado até que o evento A ocorra pela résima vez Defina a va Y número de repetições necessárias para que A ocorra exatamente r vezes Note que se r 1 obtemos a distribuição geométrica Mostre que 3 A Desigualdade de Jensen Vimos na fórmula 64 que se hx ax b então EhX hEX ou seja EaX b aEX b Esta fórmula pode não valer se hx não for linear O que vale é o seguinte resultado denominado Desigualdade de Jensen Se hx for uma função convexa e X uma va então EhX hEX 628 com igualdade se e somente se h for linear ou se a variância de X for zero Por exemplo se hx x2 então EX2 EX2 do que decorre que VarX EX2 EX2 0 Lembremos que uma função h é convexa se hx y2 hx hy2 para todo par x y no domínio de h Em termos geométricos h é convexa se o ponto médio da corda que une dois pontos quaisquer da curva representando h está acima da curva A função h é côncava se h for convexa Por exemplo log x é uma função côncava Capítulo 7 Variáveis Aleatórias Contínuas 71 Introdução Neste capítulo iremos estudar modelos probabilísticos para variáveis aleatórias contínuas ou seja variáveis para as quais os possíveis valores pertencem a um intervalo de números reais A definição dada no capítulo anterior para va discreta deve ser modificada como segue Definição Uma função X definida sobre o espaço amostral Ω e assumindo valores num intervalo de números reais é dita uma variável aleatória contínua No Capítulo 2 vimos alguns exemplos de variáveis contínuas como o salário de indivíduos alturas etc A característica principal de uma va contínua é que sendo resultado de uma mensuração o seu valor pode ser pensado como pertencendo a um intervalo ao redor do valor efetivamente observado Por exemplo quando dizemos que a altura de uma pessoa é 175 cm estamos medindo sua altura usando cm como unidade de medida e portanto o valor observado é na realidade um valor entre 1745 cm e 1755 cm Vejamos um exemplo para motivar a discussão que se segue Exemplo 71 O ponteiro dos segundos de um relógio mecânico pode parar a qualquer instante devido a algum defeito técnico ou término da bateria e vamos indicar por X o ângulo que esse ponteiro forma com o eixo imaginário passando pelo centro do mostrador e pelo número XII conforme mostra a Figura 71 Tabela 71 Distribuição uniforme discreta Figura 71 Ilustração de uma va X discreta Medindo esse ângulo X em graus e lembrando que i o ponteiro deve dar 60 saltos ele dá um salto em cada segundo para completar uma volta ii acreditamos que o ponteiro tenha probabilidade igual de parar em qualquer ponto então a va X tem distribuição uniforme discreta com função de probabilidade dada pela Tabela 71 e representada graficamente na Figura 72 parar cada um com igual probabilidade se fôssemos usar o mesmo método usado para a va discreta uniforme cada ponto teria probabilidade de ocorrer igual a zero Assim não tem muito sentido falar na probabilidade de que o ângulo X seja igual a certo valor pois essa probabilidade sempre será igual a zero Entretanto podemos determinar a probabilidade de que X esteja compreendido entre dois valores quaisquer Por exemplo usando a Figura 71 como referência a probabilidade de o ponteiro parar no intervalo compreendido entre os números XII e III é 14 pois esse intervalo corresponde a 14 do intervalo total Podemos pois escrever Do mesmo modo a probabilidade P120º X 150º 112 Por menor que seja o intervalo sempre poderemos calcular a probabilidade de o ponteiro parar num ponto qualquer desse intervalo E é fácil verificar que nesse caso dados dois números a e b tais que 0º a b 360º a probabilidade de X a b é Por meio da divisão do intervalo 0º 360º em pequenos subintervalos podemos construir um histograma para as probabilidades da va X como fizemos para va contínuas no Capítulo 2 Ou ainda como naquele capítulo fazendo esses intervalos tenderem a zero podemos construir o histograma alisado da va X apresentado na Figura 73 Figura 73 Histograma alisado distribuição uniforme contínua O histograma alisado da Figura 73 corresponde à seguinte função Como vimos na construção de histogramas a área correspondente ao intervalo a b hachurada na Figura 73 deve indicar a probabilidade de a variável estar entre a e b Matematicamente isso é expresso por meio da integral da função entre a e b então pois a integral definida de uma função entre dois pontos determina a área sob a curva representativa da função compreendida entre esses dois pontos A função fx é chamada função densidade de probabilidade fdp da va X Podemos construir modelos teóricos para variáveis aleatórias contínuas escolhendo adequadamente as funções densidade de probabilidade Teoricamente qualquer função f que seja não negativa e cuja área total sob a curva seja igual à unidade caracterizará uma va contínua Exemplo 72 Se fx 2x para 0 x 1 e zero fora desse intervalo vemos que fx 0 para qualquer x e a área sob o gráfico de fx é unitária verifique na Figura 74 Logo a função f pode representar a função densidade de uma va contínua X Figura 74 fdp da va X do Exemplo 72 Para esse caso P0 X 12 é igual à área do triângulo de base 12 e altura 1 hachurado na Figura 74 logo a probabilidade em questão é Observamos então que a probabilidade de essa va assumir um valor pertencente ao intervalo 0 12 é menor que a probabilidade de a variável assumir um valor pertencente ao intervalo 12 1 A comparação das funções densidade dos dois últimos exemplos ajuda a entender seu significado No primeiro exemplo consideremos dois intervalos I1 a b e I2 c d contidos no intervalo 0360 com a mesma amplitude b a d c então PX I1 PX I2 O mesmo não acontece no segundo exemplo dados dois intervalos de mesma amplitude aquele mais próximo de 1 irá apresentar maior probabilidade Ou seja a probabilidade de que a va X assuma um valor num intervalo de amplitude fixa depende da posição do intervalo existem regiões com maior chance de ocorrer e o que determina esse fato é a função densidade de probabilidade Portanto a fdp é um indicador da concentração de massa probabilidade nos possíveis valores de X Convém ressaltar ainda que fx não representa a probabilidade de ocorrência de algum evento A área sob a curva entre dois pontos é que irá fornecer a probabilidade Problemas 1 Dada a função a Mostre que esta é uma fdp b Calcule a probabilidade de X 10 2 Uma va X tem distribuição triangular no intervalo 0 1 se sua fdp for dada por a Qual valor deve ter a constante C b Faça o gráfico de fx c Determine PX 12 PX 12 e P14 X 34 3 Suponha que estamos atirando dardos num alvo circular de raio 10 cm e seja X a distância do ponto atingido pelo dardo ao centro do alvo A fdp de X é a Qual a probabilidade de acertar o centro do alvo se esse for um círculo de 1 cm de raio b Mostre que a probabilidade de acertar qualquer círculo concêntrico é proporcional à sua área 4 Encontre o valor da constante c se for uma densidade Encontre PX 15 72 Valor Médio de uma Variável Aleatória Contínua Do que foi visto até aqui deduzse que qualquer função f não negativa tal que define uma va contínua X ou seja cria um modelo teórico para as frequências relativas de uma va contínua A área compreendida entre dois valores a e b da abscissa x sob a curva representativa de fx dá a probabilidade proporção teórica da variável pertencer ao intervalo limitado pelos dois valores Usando o conceito de integral podemos escrever 71 Vejamos agora como podemos definir a esperança valor médio ou média de uma va contínua Para isso usaremos um artifício semelhante àquele usado na Seção 31 para calcular a média das variáveis quantitativas com os dados agrupados em classes Lá substituímos todos os valores de um intervalo classe por um único valor aproximado o ponto médio do intervalo e agimos como se a variável fosse do tipo discreto Aqui iremos repetir esse artifício Consideremos a va X com função densidade fx e dois pontos a e b bem próximos isto é h b a é pequeno e consideremos x₀ o ponto médio do intervalo a b Observando a Figura 75 é fácil verificar que Pa X b h fx₀ 72 o que significa aproximar a área da parte hachurada pelo retângulo de base h e altura fx₀ É fácil ver que a aproximação melhora com h tendendo a zero que será uma aproximação da esperança EX Para determinar EX com maior precisão podemos aumentar o número de intervalos diminuindo sua amplitude h No limite quando h 0 teremos o valor de EX Definamos pois 73 Mas da definição de integral veja Morettin et al 2005 temos que se o limite 73 existe ele define a integral de x fx entre A e B isto é 74 Exemplo 73 Continuando com o Exemplo 72 observamos que dividindo o intervalo 0 1 em n subintervalos teremos h 1n xi 2i 12n e fxi 2i 1n i 1 2 n Portanto na qual usamos o conhecido resultado que dá a soma dos quadrados dos primeiros n números ímpares Logo O mesmo resultado é obtido diretamente da relação 74 Exemplo 74 No caso do relógio elétrico do Exemplo 71 obtemos que é o valor esperado devido à distribuição uniforme das frequências teóricas Como a função fx é sempre não negativa podemos escrever a esperança como 75 A extensão do conceito de variância para va contínuas é feita de maneira semelhante e o equivalente à Fórmula 62 é 76 Exemplo 75 Para os dois exemplos vistos anteriormente teremos i para o caso do relógio ii para o Exemplo 72 Como no caso de va discretas o desvio padrão de uma va contínua X é definido como 77 que é dado na mesma unidade de medida do que X Deixamos a cargo do leitor a verificação de que o seguinte resultado vale como consequência de 76 VarX EX2 EX2 78 Como frisamos no Capítulo 6 frequentemente usaremos outros símbolos para indicar os parâmetros discutidos a saber EX µX VarX σ2X DPX σX ou simplesmente µ σ2 e σ respectivamente se não houver possibilidade de confusão 73 Função de Distribuição Acumulada Dada uma va X com função densidade de probabilidade fx podemos definir a sua função de distribuição acumulada Fx do mesmo modo como foi definida no Capítulo 6 Fx PX x x 79 De 71 seguese que 710 para todo real x Exemplo 76 Retomemos o Exemplo 72 Temos O gráfico de Fx está na Figura 77 Figura 77 fda da va X do Exemplo 76 De 79 vemos que 0 Fx 1 para todo x real além disso Fx é não decrescente e possui as duas seguintes propriedades i ii No Exemplo 76 temos efetivamente Fx 0 para x 0 e Fx 1 para x 1 Para va contínuas o seguinte resultado é importante Proposição 71 Para todos os valores de x para os quais Fx é derivável temos Vamos usar esse resultado no exemplo a seguir Exemplo 77 Suponha que seja a fda de uma va X Então Na Figura 78 temos os gráficos dessas duas funções Veremos que fx é um caso especial da densidade exponencial a ser estudada na Seção 743 Figura 78 Distribuição exponencial β 1 a fda b fdp Se a e b forem dois números reais quaisquer Pa X b Fb Fa 711 Esse resultado não será afetado se incluirmos ou não os extremos a e b na desigualdade entre parênteses Problemas 5 Calcule a esperança a variância e a fda da va X do Problema 2 6 Determine a esperança e a variância da va cuja fdp é 7 Calcule a média da va X do Problema 4 8 A va contínua X tem fdp a Se b for um número que satisfaz 1 b 0 calcule PX b X b2 b Calcule EX e VarX 9 Certa liga é formada pela mistura fundida de dois metais A liga resultante contém certa porcentagem de chumbo X que pode ser considerada uma va com fdp Suponha que L o lucro líquido obtido na venda dessa liga por unidade de peso seja dado por L C1 C2X Calcule EL o lucro esperado por unidade 10 A demanda diária de arroz num supermercado em centenas de quilos é uma va com fdp a Qual a probabilidade de se vender mais do que l50 kg num dia escolhido ao acaso b Em 30 dias quanto o gerente do supermercado espera vender c Qual a quantidade de arroz que deve ser deixada à disposição dos clientes diariamente para que não falte arroz em 95 dos dias 11 Suponha que X tenha fdp fx do Problema 1 Calcule EX e VarX 12 Seja X com densidade Calcule a média e a variância de X 74 Alguns Modelos Probabilísticos para Variáveis Aleatórias Contínuas De modo geral podemos dizer que as va cujos valores resultam de algum processo de mensuração são va contínuas Alguns exemplos são a o peso ou a altura das pessoas de uma cidade b a demanda diária de arroz num supermercado c o tempo de vida de uma lâmpada d o diâmetro de rolamentos de esferas e e erros de medidas em geral resultantes de experimentos em laboratórios Dada uma va contínua X interessa saber qual a fdp de X Alguns modelos são frequentemente usados para representar a fdp de va contínuas Alguns dos mais utilizados serão descritos a seguir e para uniformizar o estudo desses modelos iremos em cada caso analisar a definição b gráfico da fdp c momentos EXVarX d função de distribuição acumulada fda Outros modelos serão apresentados na Seção 77 741 O Modelo Uniforme O modelo uniforme é uma generalização do modelo estudado no Exemplo 71 e é o modelo mais simples para va contínuas a Definição A va X tem distribuição uniforme no intervalo α β se sua fdp é dada por 712 b Gráfico A Figura 79 representa a função dada por 712 Figura 79 Distribuição uniforme no intervalo α b c Momentos Podese mostrar veja o Problema 29 que 713 714 d Fda A função de distribuição acumulada da uniforme é fácil de ser encontrada veja o Problema 29 715 cujo gráfico está na Figura 710 Figura 710 fda de uma va uniforme no intervalo α β Assim para dois valores quaisquer c e d c d teremos Pc X d Fd Fc que é obtida facilmente de 715 Usaremos a notação X uα β para indicar que a va X tem distribuição uniforme no intervalo α β Exemplo 78 Um caso particular bastante interessante é aquele em que α 12 e β 12 lndicando essa va por U teremos Nessa situação temos que EU 0 VarU 112 e a fda é dada por Por exemplo P14 U 14 FU14 FU14 12 Se quiséssemos facilitar o nosso trabalho poderíamos tabelar os valores da fda para essa variável U Devido à simetria da área em relação a x 0 poderíamos construir uma tabela indicando a função Gu tal que Gu P0 U u para alguns valores de u veja o Problema 30 Dada uma va uniforme X qualquer com parâmetros α e β podemos definir a va U como 716 Seguese que a transformação 716 leva uma uniforme no intervalo α β numa uniforme no intervalo 12 12 e para dois números quaisquer c e d com c d Artifícios semelhantes a esse são muito úteis na construção de tabelas e programas para cálculos de probabilidades referentes a famílias de modelos Um outro caso importante é para α 0 e β 1 Um número aleatório é um valor gerado de uma va com distribuição uniforme no intervalo 0 1 Veja o Capítulo 9 742 O Modelo Normal Vamos introduzir agora um modelo fundamental em probabilidades e inferência estatística Suas origens remontam a Gauss em seus trabalhos sobre erros de observações astronômicas por volta de 1810 donde o nome de distribuição gaussiana para tal modelo a Definição Dizemos que a va X tem distribuição normal com parâmetros µ e σ2 µ e 0 σ2 se sua densidade é dada por 717 Claramente fx µ σ2 0 para todo x e podese provar que Veja o Problema 60 b Gráfico A Figura 711 ilustra uma particular curva normal determinada por valores particulares de µ e σ2 Figura 711 fdp de uma va normal com média µ e desvio padrão σ c Momentos Podese demonstrar que veja o Problema 32 EX µ 718 VarX σ2 719 Além disso fx µ σ2 0 quando x m σ e µ σ são pontos de inflexão de fx µ σ2 x µ é ponto de máximo de fx µ σ2 e o valor máximo é A densidade fx µ σ2 é simétrica em relação à reta x µ isto é fm x m σ2 fm x m σ2 720 para todo x real Para simplificar a notação denotaremos a densidade da normal simplesmente por fx e escreveremos simbolicamente X Nm σ2 Quando m 0 e σ2 1 temos uma distribuição padrão ou reduzida ou brevemente N01 Para essa a função densidade reduzse a 721 O gráfico da normal padrão está na Figura 712 Figura 712 fdp de uma va normal padrão Z N0 1 Se X Nm σ2 então a va definida por 722 terá média zero e variância 1 prove esses fatos O que não é tão fácil mostrar é que Z também tem distribuição normal Isso não será feito aqui A transformação 722 é fundamental para calcularmos probabilidades relativas a uma distribuição normal qualquer d Fda A fda Fy de uma va normal X com média m e variância σ2 é obtida integrandose 717 de até y ou seja 723 A integral 723 corresponde à área sob fx desde até y como ilustra a Figura 713 Figura 713 Representação gráfica de Fy como área No caso específico da normal padrão utilizamos a seguinte notação que é universal 724 O gráfico de Φz é ilustrado na Figura 714 Figura 714 fda da normal padrão Suponha então que X Nm σ2 e que queiramos calcular 725 em que fx é dada por 717 Ver Figura 715 A integral 725 não pode ser calculada analiticamente e portanto a probabilidade indicada só poderá ser obtida aproximadamente por meio de integração numérica No entanto para cada valor de m e cada valor de σ teríamos de obter Pa X b para diversos valores de a e b Essa tarefa é facilitada pelo uso de 722 de sorte que somente é necessário construir uma tabela para a distribuição normal padrão Figura 715 Ilustração gráfica da Pa X b para uma va normal Vejamos então como obter probabilidades a partir da Tabela III Essa tabela dá as probabilidades sob uma curva normal padrão que nada mais são do que as correspondentes áreas sob a curva A Figura 716 ilustra a probabilidade fornecida pela tabela a saber P0 Z zc em que Z N01 Figura 716 P0 Z zc fornecido pela Tabela III Se tomarmos por exemplo zc 173 seguese que P0 Z 173 04582 Calculemos mais algumas probabilidades Figura 717 a P173 Z 0 P0 Z 173 04582 devido à simetria da curva b PZ 173 05 P0 Z 173 05 04582 00418 pois PZ 0 05 PZ 0 c PZ 173 PZ 173 00418 d P047 Z 173 P0 Z 173 P0 Z 047 04582 01808 02774 Figura 717 Ilustração do cálculo de probabilidades para a N01 Suponha agora que X seja uma va Nm σ2 com m 3 e σ2 16 e queiramos calcular P2 X 5 Utilizando 722 temos Portanto a probabilidade de que X esteja entre 2 e 5 é igual à probabilidade de que Z esteja entre 025 e 05 Figura 718 Utilizando a Tabela III vemos que P025 Z 05 00987 01915 02902 ou seja P2 X 5 02902 Figura 718 Ilustração do cálculo de P2 X 5 para a va N3 16 Exemplo 79 Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro são distribuídos normalmente com média de l000000 e desvio padrão de 150000 Um depósito é selecionado ao acaso dentre todos os referentes ao mês em questão Encontrar a probabilidade de que o depósito seja a 1000000 ou menos b pelo menos 1000000 c um valor entre 1200000 e 1500000 d maior do que 2000000 Temos que m 10000 e σ 1500 Seja a va X depósito a b PX 10000 PZ 0 05 c d 743 O Modelo Exponencial Outra distribuição importante e que tem aplicações em confiabilidade de sistemas assunto de que já tratamos brevemente no Capítulo 5 é a exponencial a Definição A va T tem distribuição exponencial com parâmetro β 0 se sua fdp tem a forma 726 Escreveremos brevemente T Expβ b Gráfico O gráfico de ft β ft está ilustrado na Figura 78 b com β 1 c Momentos Usando integração por partes podese demonstrar que veja o Problema 41 ET β 727 VarT β2 728 Exemplo 710 O tempo de vida em horas de um transistor pode ser considerado uma va com distribuição exponencial com β 500 Seguese que a vida média do transistor é ET 500 horas e a probabilidade de que ele dure mais do que a média é d Fda Usando a definição 710 obtemos 729 O gráfico de Ft está na Figura 78 a com β 1 75 Aproximação Normal à Binomial Suponha que a va Y tenha uma distribuição binomial com parâmetros n 10 e p 12 e queiramos calcular PY 7 Embora seja uma va discreta vimos no Capítulo 2 que é possível representála por meio de um histograma como na Figura 719 Vemos que PY 7 é igual à área do retângulo de base unitária e altura igual a PY 7 similarmente para PY 8 etc Logo PY 7 é igual à soma das áreas dos retângulos hachurados na Figura 719 Figura 719 PY 7 para Y b10 12 A ideia é aproximar tal área pela área sob uma curva normal à direita de 65 Qual curva normal Parece razoável considerar aquela normal de média e variância Veja a Figura 720 Figura 720 Aproximação de PY 7 pela área sob a N5 25 Chamando X tal variável com distribuição normal em que Z é como sempre N0 1 Utilizando a Tabela I vemos que a probabilidade verdadeira é 0172 Vamos calcular agora P3 Y 6 PY 4 PY 5 PY 6 Vemos pela Figura 721 que a aproximação a ser feita deve ser ao passo que a probabilidade verdadeira é 0656 Figura 721 Aproximação de P3 Y 6 A justificativa formal de tal aproximação é dada pelo chamado Teorema Limite Central que será visto no Capítulo 10 A aproximação é boa quando np 5 e n1 p 5 Problemas 13 A temperatura T de destilação do petróleo é crucial na determinação da qualidade final do produto Suponha que T seja considerada uma va com distribuição uniforme no intervalo 150 300 Suponha que o custo para produzir um galão de petróleo seja C1 reais Se o óleo for destilado a uma temperatura inferior a 200 o produto obtido é vendido a C2 reais se a temperatura for superior a 200 o produto é vendido a C3 reais a Fazer o gráfico da fdp de T b Qual o lucro médio por galão 14 Se X N10 4 calcular a P8 X 10 c PX 10 b P9 X 12 d PX 8 ou X 11 15 Para X N100 100 calcule a PX 115 b PX 80 c PX 100 10 d o valor a tal que P100 a X 100 a 095 16 Para a va X Nµ σ2 encontre a PX µ 2σ b PX µ σ c o número a tal que Pµ aσ X µ aσ 099 d o número b tal que PX b 090 17 As alturas de 10000 alunos de um colégio têm distribuição aproximadamente normal com média 170 cm e desvio padrão 5 cm a Qual o número esperado de alunos com altura superior a 165 cm b Qual o intervalo simétrico em torno da média que conterá 75 das alturas dos alunos 18 As vendas de determinado produto têm distribuição aproximadamente normal com média 500 unidades e desvio padrão 50 unidades Se a empresa decide fabricar 600 unidades no mês em estudo qual é a probabilidade de que não possa atender a todos os pedidos desse mês por estar com a produção esgotada 19 Suponha que as amplitudes de vida de dois aparelhos elétricos D1 e D2 tenham distribuições N42 36 e N45 9 respectivamente Se os aparelhos são feitos para ser usados por um período de 45 horas qual aparelho deve ser preferido E se for por um período de 49 horas 20 O diâmetro X de rolamentos esféricos produzidos por uma fábrica tem distribuição N06140 000252 O lucro T de cada rolamento depende de seu diâmetro Assim T 010 se o rolamento for bom 0610 X 0618 T 005 se o rolamento for recuperável 0608 X 0610 ou 0618 X 0620 T 010 se o rolamento for defeituoso X 0608 ou X 0620 Calcule a as probabilidades de que os rolamentos sejam bons recuperáveis e defeituosos b ET 21 Suponha que um mecanismo eletrônico tenha um tempo de vida X em 1000 horas que possa ser considerado uma va contínua com fdp fx ex x 0 Suponha que o custo de fabricação de um item seja 200 reais e o preço de venda seja 500 reais O fabricante garante total devolução se X 09 Qual o lucro esperado por item 22 Seja Y com distribuição binomial de parâmetros n 10 e p 04 Determine a aproximação normal para a P3 Y 8 b PY 7 c PY 5 23 De um lote de produtos manufaturados extraímos 100 itens ao acaso se 10 dos itens do lote são defeituosos calcule a probabilidade de 12 itens serem defeituosos Use também a aproximação normal 24 A confiabilidade de um mecanismo eletrônico é a probabilidade de que ele funcione sob as condições para as quais foi planejado Uma amostra de 1000 desses itens é escolhida ao acaso e os itens são testados obtendose 30 defeituosos Calcule a probabilidade de se obter pelo menos 30 itens defeituosos supondo que a confiabilidade de cada item é 095 76 Funções de Variáveis Contínuas Vimos no Capítulo 6 como obter a distribuição de uma va Y hX se conhecermos a distribuição da va discreta X Vejamos agora o caso em que X é contínua Suponhamos primeiramente que a função h seja estritamente monotônica crescente ou decrescente Neste caso a inversa h1 estará univocamente determinada e podemos obter x h1y para valores x e y das va X e Y respectivamente Observando a Figura 722 vemos que se a densidade de X fx digamos for positiva no intervalo a x b então a densidade de Y será positiva para ha y hb se h for crescente e para hb y ha se h for decrescente Figura 722 Função de uma va Exemplo 711 Suponha X com a densidade do Exemplo 72 e considere Y 3X 4 Aqui y hx 3x 4 que é crescente Figura 723 a Figura 723 Exemplos de funções de va a Exemplo 711 b Exemplo 712 Denotando a densidade de Y por gy e como fx 0 para 0 x 1 gy 0 para 4 y 7 Notemos que se podem obter probabilidades relativas a Y a partir da densidade de X Por exemplo PY 1 P3X 4 1 PX 1 1 Vejamos como se pode obter gy Denotemos por Gy a função de distribuição acumulada de Y Da Seção 73 sabemos que Gy gy para todo valor de y para o qual G for derivável Então temos em que estamos denotando por F a função de distribuição acumulada de X Usando a regra da cadeia para derivadas temos Exemplo 712 Suponha agora que X tenha densidade fx 3x²2 1 x 1 e Y ex Seguese que hx ex é uma função decrescente e x lny Figura 723 b Então em que novamente F denota a fda de X Derivando obtemos a fdp de Y O seguinte resultado generaliza esses dois exemplos Teorema 71 Se X for uma va contínua com densidade fx 0 a x b então Y hX tem densidade gy fh¹y 730 supondo que h seja monotônica derivável para todo x Se h for crescente gy 0 ha y hb e se h for decrescente gy 0 hb y ha 731 em que f é a densidade de X Se fx 1 0 x 1 X é uniforme no intervalo 0 1 então Figura 724 Ilustração de Y hX X2 Problemas 25 Considere a va X do Problema 2 e Y X 5 a Calcule PY 55 b Obtenha a densidade de Y c Obtenha a densidade de Z 2X 26 Suponha que a va X tenha a densidade do Problema 8 Se Y 2X 35 obter a densidade de Y Calcule EY e VarY 27 Suponha X u 1 1 Calcule a densidade de Y X2 e de W X 77 Outros Modelos Importantes Nesta seção vamos introduzir alguns modelos para va contínuas que serão bastante utilizados na terceira parte deste livro Juntamente com o modelo normal esses modelos são úteis para as va de interesse prático que na maioria dos casos assumem valores positivos e tendem a ter distribuições assimétricas à direita 771 A Distribuição Gama Uma extensão do modelo exponencial é estudado a seguir Definição A va contínua X assumindo valores positivos tem uma distribuição gama com parâmetros α 0 e β 0 se sua fdp for dada por Em 732 Γα é a função gama importante em muitas áreas da Matemática dada por Γα ₀ eˣˡˣ¹ dx α 0 Não é difícil ver que Γα α 1 Γα 1 se α n for um inteiro positivo Γn n 1 e que Γ12 π Veja o Problema 45 A Figura 725 ilustra a densidade 732 para α 3 e β 1 Se α 1 obtemos a distribuição exponencial 726 Muitos casos de interesse têm α inteiro positivo Usaremos a notação X Gamaα β para designar uma va com a distribuição dada por 732 Podese demonstrar que EX αβ VarX αβ² 734 Usaremos a notação Y χ²v A Figura 726 ilustra os gráficos de 735 para v 1 2 3 Seguese de 734 que EY v VarY 2v 736 A distribuição quiquadrado tem muitas aplicações em Estatística e como no caso da normal existem tabelas para obter probabilidades A Tabela IV fornece os valores de y₀ tais que PY y₀ p para alguns valores de p e de v Ver Figura 727 Por exemplo consultando a Tabela IV temos que se v 30 PY 40256 010 enquanto que usando a fórmula acima temos que z 240256 2v 1 N01 e PZ 1292 0099 que resulta ser uma boa aproximação Considera Z N01 e considera a va Y Z² De 731 temos que a densidade de Y é dada por gy 12y φy φy y 0 em que por φz indicamos a densidade da N01 Resulta em comparação com 735 vemos que Y χ²1 Temos aqui um resultado importante O quadrado de uma va com distribuição normal padrão é uma va com distribuição χ²1 Teorema 72 Sejam U e V duas va independentes cada uma com distribuição quiquadrado com v1 e v2 graus de liberdade respectivamente Então a va W Uv1V2 741 tem densidade dada por 742 Diremos que W tem distribuição F de Snedecor com v1 e v2 graus de liberdade e usaremos a notação W Fv1 v2 Podese mostrar que O gráfico típico de uma va com distribuição F está na Figura 729 Na Tabela VI são dados os pontos f0 tais que para α 005 α 0025 e alguns valores de v1 e v2 Para encontrar os valores inferiores usase o fato que se W Fv1 v2 então 743 744 005 PF57 f0 PF75 f0 PF75 1f0 e procurando na Tabela VI para F75 obtemos 1f0 488 e portanto f0 0205 Na seção de Problemas e Complementos apresentamos algumas outras distribuições de interesse como a lognormal Pareto Weibull e beta Na Tabela 72 mostramos os principais modelos para va contínuas incluindo a densidade o domínio dos valores os parâmetros a média e a variância Tabela 72 Modelos para variáveis contínuas Modelo f x Parâmetros EX VarX Uniforme 1β α α x β α β α β2 β α 212 Exponencial 1β etβ t 0 β β β2 Normal µ σ µ σ2 Gama ba Γa x a1e xb x 0 β 0 α 0 αβ αβ2 Quiquadrado v v 2v tStudent v 0 v v 2 FSnedecor v1 v2 78 Quantis No Capítulo 6 definimos o pquantil Qp como o valor da va discreta X satisfazendo as duas desigualdades de 626 No caso de uma va contínua X essa definição tornase mais simples Se Fx designar a fda de X temos que as desigualdades em 626 ficam PX Qp FQp p 745 e PX Qp 1 PX Qp 1 PX Qp 1 FQp 1 p 746 Mas 746 pode ser reescrita como FQp p 747 Portanto de 745 e 747 chegamos à conclusão de que o p quantil deve satisfazer FQp p 748 Graficamente temos a situação ilustrada na Figura 730 Ou seja para obter Qp marcamos p no eixo das ordenadas consideramos a reta horizontal pelo ponto 0 p até encontrar a curva de Fx e baixamos uma reta vertical até encontrar Qp no eixo das abscissas Analiticamente temos de resolver a Equação 748 Vejamos alguns exemplos Figura 730 Definição de Qp a fda b fdp Exemplo 717 Se Z N0 1 utilizando a Tabela III encontramos facilmente que Q0 5 Q2 0 Q0 25 Q1 0675 Q0 30 052 Q075 Q3 0675 Exemplo 718 Suponha que Y Exp2 Se quisermos calcular a mediana Q2 teremos de resolver 79 Exemplos Computacionais Para variáveis contínuas o padrão dos comandos é muito parecido com o padrão utilizado no capítulo anterior para variáveis discretas Valem os mesmos prefixos isto é d para densidade p para função distribuição q para quantis e r para simulação A Tabela 73 apresenta os principais sufixos para distribuições contínuas Tabela 73 As principais distribuições contínuas e seus sufixos no R Nesta seção vamos dar alguns exemplos de como obter probabilidades acumuladas e quantis para a normal e exponencial usando o R Isso também pode ser feito usando outros pacotes como o Minitab e SPlus bem como podemos considerar outras distribuições contínuas Considere a va contínua X com fda FxPXx para todo x real Dado x queremos calcular Fx ou dado Fxp 0 p 1 queremos calcular xQp conforme 748 ou seja queremos calcular o pquantil de X Exemplo 719 Suponha X com distriuição normal de média 10 e desvio padrão 25 Se x865 para obter Fx usamos o comando pnorm 865mean10 sd25 obtendose 1 047847 Por outro lado se Fx08269p usamos o comando qnorm 08269mean10 sd25 obtendose o quantil 1 3355 Exemplo 720 Suponha agora que tenhamos uma distribuição exponencial com média EX05 ou seja parâmetro β 2 Da mesma forma os comandos para a distribuição exponencial serão pexp e qexp respectivamente pexp 085 rate2 1 081732 qexp 0345 rate2 1 021156 1 021156 Exemplo 721 Podemos também construir o gráfico de uma fda por meio de comandos do R ou de outro pacote Suponha Z N01 Como os valores de Z estão concentrados no intervalo 44 podemos considerar um vetor de valores nesse intervalo e obter o gráfico de da fda Os comandos estão abaixo onde utilizamos o comando curve O gráfico está na Figura 731 Diremos que tal variável tem uma distribuição t de Student com v graus de liberdade e a indicaremos por tv Podese provar que Et 0 Vart vv 2 v 2 739 e verificar que o gráfico da densidade de t aproximase bastante de uma N01 quando v é grande Veja a Figura 728 Como essa distribuição é bastante utilizada na prática existem tabelas fornecendo probabilidades relativas a ela A Tabela V fornece os valores de tc tais que Ptc tv tc 1 p 740 para alguns valores de p e de v O nome Student vem do pseudônimo usado pelo estatístico irlandês W S Gosset que introduziu essa distribuição no início do século passado Exemplos 715 Se v 6 então usando a Tabela V P1943 t6 1943 090 ao passo que Pt6 2447 0025 Observe que nessa tabela há uma linha com v que corresponde a usar os valores da N01 Para n 120 essa aproximação é muito boa 774 A Distribuição F de Snedecor Vamos considerar agora uma va definida como o quociente de duas variáveis com distribuição quiquadrado curve pnormq x mean 0 sd1 xlimc 4 4 colblue lwd2 ylab xlabz Figura 731 Gráfico da fda da N0 1 R 710 Problemas Suplementares 28 Numa determinada localidade a distribuição de renda em reais é uma va X com fdp a Qual a renda média nessa localidade b Escolhida uma pessoa ao acaso qual a probabilidade de sua renda ser superior a 300000 c Qual a mediana da variável 29 Se X tiver distribuição uniforme com parâmetros α e β mostre que a b VarX β α212 c 30 Complete a tabela abaixo que corresponde a alguns valores da função Gu P0 U u definida na Seção 741 com U uma va uniforme no intervalo 12 12 Probabilidades p tais que p P0 U u Primeira decimal de u Segunda decimal de u Primeira decimal de u 00 0 1 9 00 01 01 02 02 03 03 04 04 05 05 31 Dada a va X uniforme em 5 10 calcule as probabilidades abaixo usando a tabela do problema anterior a PX 7 c PX 85 b P8 X 9 d PX 75 2 32 Se X Nµ σ2 calcular EX e VarX Sugestão Fazendo a transformação de variáveis x µ σt obtemos que A primeira integral resulta µ por quê e a segunda anulase pois o integrando é uma função ímpar Para obter a variância obtenha EX2 por integração por partes 33 As notas de Estatística Econômica dos alunos de determinada universidade distribuem se de acordo com uma distribuição normal com média 64 e desvio padrão 08 O professor atribui graus A B e C da seguinte forma Nota Grau x 5 C 5 x 75 B 75 x 10 A Numa classe de 80 alunos qual o número esperado de alunos com grau A E com grau B E C 34 O peso bruto de latas de conserva é uma va normal com média 1000 g e desvio padrão 20 g a Qual a probabilidade de uma lata pesar menos de 980 g b Qual a probabilidade de uma lata pesar mais de 1010 g 35 A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada por uma distribuição normal com média de 5 kg e desvio padrão de 08 kg Um abatedouro comprará 5000 coelhos e pretende classificálos de acordo com o peso do seguinte modo 20 dos leves como pequenos os 55 seguintes como médios os 15 seguintes como grandes e os 10 mais pesados como extras Quais os limites de peso para cada classe 36 Uma enchedora automática de garrafas de refrigerantes está regulada para que o volume médio de líquido em cada garrafa seja de 1000 cm3 e o desvio padrão de 10 cm3 Podese admitir que a variável volume seja normal a Qual é a porcentagem de garrafas em que o volume de líquido é menor que 990 cm3 b Qual é a porcentagem das garrafas em que o volume líquido não se desvia da média em mais que dois desvios padrões c O que acontecerá com a porcentagem do item b se a máquina for regulada de forma que a média seja 1200 cm3 e o desvio padrão 20 cm3 37 O diâmetro de certo tipo de anel industrial é uma va com distribuição normal de média 010 cm e desvio padrão 002 cm Se o diâmetro de um anel diferir da média em mais que 003 cm ele é vendido por 500 caso contrário é vendido por 1000 Qual o preço médio de venda de cada anel 38 Uma empresa produz televisores e garante a restituição da quantia paga se qualquer televisor apresentar algum defeito grave no prazo de seis meses Ela produz televisores do tipo A comum e do tipo B luxo com lucros respectivos de 100000 e 200000 caso não haja restituição e com prejuízos de 300000 e 800000 se houver restituição Suponha que o tempo para a ocorrência de algum defeito grave seja em ambos os casos uma va com distribuição normal respectivamente com médias 9 meses e 12 meses e variâncias 4 meses2 e 9 meses2 Se tivesse de planejar uma estratégia de marketing para a empresa você incentivaria as vendas dos aparelhos do tipo A ou do tipo B 39 Determine as médias das va X Y e Z a X uniforme em 1 3 Y 3X 4 Z eX b X tem fdp fx ex x 0 Y X2 Z 3X 12 40 Suponha que X tenha distribuição uniforme em a 3a Determine a média e a variância de X 41 Se T tiver distribuição exponencial com parâmetro β mostre que a ET β b VarT β2 42 Os dados a seguir representam uma amostra de firmas de determinado ramo de atividade de uma região Foram observadas duas variáveis faturamento e número de empregados a Calcule a média e a variância para cada variável b Supondo normalidade para cada uma dessas variáveis com parâmetros estimados pela amostra calcule os valores esperados para cada intervalo de classe e compare com o observado 43 Suponha que a va X tenha densidade fx 1 para 0 x 1 e igual a zero no complementar Faça Y X2 a Determine FY PY y y real b Determine a fdp de Y c Calcule EX² utilizando a fdp de X d Calcule EY utilizando a fdp de Y e compare com c 44 Dada a va determine a média e a variância de Z sabendose que a fdp de X é fX ex x 0 45 a Prove que se α for inteiro positivo Γα 1 αΓα b Prove que Γ1 é Γ12 c Calcule Γ1 e Γ12 d Prove que a média e a variância de uma va X com distribuição gama densidade em 723 são respectivamente αβ e αβ² 46 Suponha que X tenha distribuição exponencial com parâmetro β Prove que PX x 1 eβx x 0 Essa propriedade nos diz que a distribuição exponencial não tem memória Por exemplo se X for a vida de um componente eletrônico a relação acima diz que se o componente durou até o instante x a probabilidade de ele não falhar após o intervalo t x é a mesma de não falhar após o instante t Nesse sentido X esquece sua idade e a eventual falha do componente não resulta de uma deterioração gradual e sim de alguma falha repentina 47 Se X for uma va contínua com fdp fx e se Y gX for uma função de X então Y será uma va com Suponha que X tenha densidade Obtenha EY se Y X 48 Se X for uniforme no intervalo 0 1 obtenha a média da va Y γ2X² 49 Obtenha o gráfico da fda de uma va T Exp0 5 ou seja ET 2 considerando 20 valores de T e calculando os valores de Ft como na Seção 79 50 Idem para 30 valores de uma uniforme no intervalo 11 51 Obtenha os quantis Q01 Q1 Q2 Q3 Q09 para uma va X N10 16 52 Resolva a mesma questão para uma va Y χ²5 53 Usando a aproximação normal a uma variável quiquadrado calcular a Pχ²35 4976 b o valor y tal que Pχ²40 y 005 711 Complementos Metodológicos 1 Distribuição de Pareto Esta é uma distribuição frequentemente usada em Economia em conexão com problemas de distribuição de renda Dizemos que a va X tem distribuição de Pareto com parâmetros α 0 b 0 se sua fdp for dada por fx αbα xα 1 x b Aqui b pode representar algum nível mínimo de renda x é o nível de renda e fx Δx dá a proporção de indivíduos com renda entre x e x Δx O gráfico de fx está na figura a seguir a Prove que fx dx 1 b Mostre que para a 1 2 Distribuição lognormal Outra distribuição usada quando se têm valores positivos é a distribuição lognormal A va X tem distribuição lognormal com parâmetros μ e σ² μ σ² 0 se Y lnX tiver distribuição normal com média μ e variância σ² A fdp de X tem a forma O gráfico de fx está na figura abaixo a Prove que EX eμ σ²2 b Se EX m prove que VarX m²eσ² 1 3 Distribuição de Weibull Um modelo que tem muitas aplicações na teoria da confiabilidade é o modelo de Weibull cuja fdp é dada por fx αβxα 1eβxα x 0 A va X pode representar por exemplo o tempo de vida de um componente de um sistema a Se β 1 qual a fdp resultante b Obtenha EX para β 2 4 Distribuição Beta Uma va X tem distribuição beta com parâmetros α 0 β 0 se sua fdp for dada por fx 1Bα βxα 11 xβ 1 0 x 1 Aqui Bα β é a função beta definida por Bα β ΓαΓβ Γα β A figura abaixo mostra a densidade da distribuição beta para α β 2 Para esse caso calcule PX 02 Calcule a média e a variância de X para α β 2 5 Se na distribuição t de Student colocarmos ν 1 obteremos a distribuição de Cauchy Mostre que EX não existe 6 Para uma va com distribuição quiquadrado com ν graus de liberdade e ν par vale a seguinte fórmula Calcule essa probabilidade para os seguintes casos e compare com os valores tabelados na Tabela IV a ν 4 c 9488 b ν 10 c 16 7 Se X Nμ σ² com densidade fx dada por 717 provemos que a integral I fxeθ² dx 1 Como esta integral é sempre positiva mostramos que P² 1 Novamente vida de um componente de um sistema Capítulo 8 Variáveis Aleatórias Multidimensionais 81 Distribuição Conjunta Em muitas situações ao descrevermos os resultados de um experimento atribuímos a um mesmo ponto amostral os valores de duas ou mais variáveis aleatórias Neste capítulo iremos nos concentrar no estudo de um par de variáveis aleatórias indicando que os conceitos e resultados apresentados estendemse facilmente a um conjunto finito de variáveis aleatórias Um tratamento mais completo é dado ao caso de variáveis discretas nas Seções 81 a 84 Exemplo 81 Suponha que estamos interessados em estudar a composição de famílias com três crianças quanto ao sexo Definamos X número de meninos Z número de vezes em que houve variação do sexo entre um nascimento e outro dentro da mesma família Com essas informações e supondo que as possíveis composições tenham a mesma probabilidade obtemos a Tabela 81 em que por exemplo o evento HMH indica que o primeiro filho é homem o segundo mulher e o terceiro homem As distribuições de probabilidades das va X Y e Z podem ser obtidas dessa tabela e são dadas na Tabela 82 Tabela 81 Composição de famílias com três crianças quanto ao sexo Eventos Probabilidade X Y Z HHH 18 3 1 0 HHM 18 2 1 1 HMH 18 2 1 2 MHH 18 2 0 1 HMM 18 1 1 1 MHM 18 1 0 2 MMH 18 1 0 1 MMM 18 0 0 0 Tabela 82 Distribuições de probabilidades unidimensionais a b c x 0 1 2 3 y 0 1 z 0 1 2 px 18 38 38 18 py 12 12 pz 14 12 14 A Tabela 83 apresenta as probabilidades associadas aos pares de valores nas variáveis X e Y Nessa tabela px y PX x Y y denota a probabilidade do evento X x e Y y X x Y y Essa tabela é denominada distribuição conjunta de X e Y Tabela 83 Distribuição bidimensional da va X Y x y px y 0 0 18 1 0 28 1 1 18 2 0 18 2 1 28 3 1 18 A partir da Tabela 81 podemos formar também as distribuições conjuntas de X e Z de Y e Z bem como a distribuição conjunta de X Y e Z que está dada na Tabela 84 Tabela 84 Distribuição conjunta das va X Y e Z x y z px y z 0 0 0 18 1 0 1 18 1 0 2 18 1 1 1 18 2 0 1 18 2 1 1 18 2 1 2 18 3 1 0 18 Aqui px y z PX x Y y Z z Vamos nos fixar nas distribuições bidimensionais isto é nas distribuições conjuntas de duas variáveis Nesse caso uma maneira mais cômoda de representar a distribuição conjunta é por meio de tabelas de duplas entradas como na Tabela 85 em que temos representada a mesma distribuição de X e Y dada antes na Tabela 83 Tabela 85 Distribuição conjunta de X e Y como uma tabela de dupla entrada Y X 0 1 2 3 py 0 18 28 18 0 12 1 0 18 28 18 12 px 18 38 38 18 1 A representação gráfica de variáveis aleatórias bidimensionais X Y exige gráficos com três eixos um para a va X outro para a va Y e um terceiro eixo z para a probabilidade conjunta px y A Figura 81 representa a distribuição conjunta resumida na Tabela 85 A dificuldade em desenhar e interpretar tais gráficos nos leva muitas vezes a evitar o uso desse recurso tão valioso Figura 81 Representação gráfica da va X Y da Tabela 85 Uma tentativa de representar distribuições de probabilidades discretas em duas dimensões é o gráfico de curvas de níveis Esse é o mesmo recurso utilizado em mapas geográficos sobre relevos indicandose por meio de linhas as cotas alturas de mesma intensidade em uma região Curvas de níveis podem ser usadas também em mapas meteorológicos de marés etc Embora tais mapas sejam usados principalmente para variáveis contínuas vamos exemplificar abaixo sua construção para os dados da Tabela 85 Notamos que existem valores apenas para as probabilidades 0 18 28 e 38 e cada um deles define um conjunto de pontos Por exemplo correspondendo à probabilidade 18 temos o conjunto de pontos 0 0 1 1 2 0 e 3 1 Na Figura 82 b representamos esses pontos que corresponderiam à curva de nível para a cota 18 De modo análogo traçaríamos as demais curvas de níveis A Figura 82 e reunindo todos os resultados seria equivalente à Figura 81 Assim os pontos representados por formariam a curva de nível da cota 18 os pontos representados por formariam a curva de nível com cota probabilidade 28 e assim por diante Esse recurso é mais bem visualizado para variáveis contínuas como na Figura 817 Figura 82 Curvas de níveis para a Tabela 85 a px y 0 b px y 18 c px y 28 d todas as cotas 82 Distribuições Marginais e Condicionais Da Tabela 85 podemos obter facilmente as distribuições de X e Y A primeira e última colunas da tabela dão a distribuição de Y y py enquanto a primeira e última linhas da tabela dão a distribuição de X x px Essas distribuições são chamadas distribuições marginais Observamos por exemplo que PX 1 PX 1 Y 0 PX 1 Y 1 28 18 38 e PY 0 PX 0 Y 0 PX 1 Y 0 PX 2 Y 0 PX 3 Y 0 18 28 18 0 12 Portanto para obter as probabilidades marginais basta somar linhas e colunas Quando estudamos os aspectos descritivos das distribuições com mais de uma variável vimos que às vezes é conveniente calcular proporções em relação a uma linha ou coluna e não em relação ao total Isso é equivalente aqui ao conceito de distribuição condicional Por exemplo qual seria a distribuição do número de meninos sabendose que o primeiro filho é do sexo masculino Ou seja queremos calcular a probabilidade PX xY 1 Da definição de probabilidade condicional obtemos 81 para x 0 1 2 3 Pela Tabela 85 obtemos por exemplo Do mesmo modo obtemos as demais probabilidades e a distribuição condicional de X dado que Y 1 está na Tabela 86 Tabela 86 Distribuição condicional de X dado que Y 1 x 1 2 3 pxY 1 14 12 14 Observe que x pxY 1 p0Y 1 p3Y 1 1 Do mesmo modo podemos obter a distribuição condicional de Y dado que X 2 que está na Tabela 87 Tabela 87 Distribuição condicional de Y dado que X 2 y 0 1 pyX 2 13 23 Podemos generalizar o que foi dito acima para duas va X e Y quaisquer assumindo os valores x1 x2 xn e y1 y2 ym respectivamente Definição Seja xi um valor de X tal que PX xi pxi 0 A probabilidade 82 é denominada probabilidade condicional de Y yj dado que X xi Como observamos acima para xi fixado os pares yj PY yjX xi j 1 m definem a distribuição condicional de Y dado que X xi pois Considere a distribuição condicional de X dado que Y 1 da Tabela 86 Podemos calcular a média dessa distribuição a saber Observe que EX 15 ao passo que EXY 1 2 De modo geral temos a seguinte definição Definição A esperança condicional de X dado que Y yj é definida por Uma definição análoga vale para EYX xi Exemplo 82 Para a distribuição condicional de Y dado que X 2 da Tabela 87 temos Exemplo 83 Considere agora a distribuição conjunta das variáveis Y e Z definidas no Exemplo 81 Da Tabela 81 obtemos a Tabela 88 Aqui observamos que para quaisquer z 0 1 2 e y 0 1 O que significa dizer que PZ z Y y PZ z PY y isto é a probabilidade de cada casela é igual ao produto das respectivas probabilidades marginais Por exemplo Tabela 88 Distribuição conjunta de Y e Z Y Z 0 1 2 py 0 18 28 18 12 1 18 28 18 12 pz 14 24 14 1 Também é verdade que PY yZ z PY y para todos os valores de y e z Dizemos que Y e Z são independentes Definição As variáveis aleatórias X e Y assumindo os valores x1 x2 e y1 y2 respectivamente são independentes se e somente se para todo par de valores xi yj de X e Y tivermos que PX xi Y yj PX xiPY yj 83 Basta que 83 não se verifique para um par xi yj para que X e Y não sejam independentes Nesse caso diremos que X e Y são dependentes Essa definição pode ser estendida para mais de duas variáveis aleatórias Problemas 1 Lançamse simultaneamente uma moeda e um dado a Determine o espaço amostral correspondente a esse experimento b Obtenha a tabela da distribuição conjunta considerando X o número de caras no lançamento da moeda e Y o número da face do dado c Verifique se X e Y são independentes d Calcule 1 PX 1 2 PX 1 3 PX 1 4 PX 2 Y 3 5 PX 0 Y 4 6 PX 0 Y 1 2 A tabela abaixo dá a distribuição conjunta de X e Y a Determine as distribuições marginais de X e Y b Obtenha as esperanças e variâncias de X e Y c Verifique se X e Y são independentes d Calcule PX 1Y 0 e PY 2X 3 e Calcule PX 2 e PX 2 Y 1 Y X 1 2 3 0 01 01 01 1 02 0 03 2 0 01 01 3 Considere a distribuição conjunta de X e Y parcialmente conhecida dada na tabela abaixo a Complete a tabela considerando X e Y independentes b Calcule as médias e variâncias de X e Y c Obtenha as distribuições condicionais de X dado que Y 0 e de Y dado que X 1 Y X 1 0 1 PY y 1 112 0 13 1 14 14 PX x 1 83 Funções de Variáveis Aleatórias Retomemos a Tabela 85 que dá a distribuição conjunta das variáveis aleatórias X e Y A partir dela podemos considerar por exemplo a va X Y ou a va XY A soma X Y é definida naturalmente a cada resultado do experimento ela associa a soma dos valores de X e Y isto é X Yω Xω Yω 84 Do mesmo modo XYω Xω Yω 85 Podemos então construir a Tabela 89 Tabela 89 Funções de variáveis aleatórias x y X Y XY px y 0 0 0 0 18 0 1 1 0 0 1 0 1 0 28 1 1 2 1 18 2 0 2 0 18 2 1 3 2 28 3 0 3 0 0 3 1 4 3 18 A partir dessa tabela obtemos as distribuições de X Y e XY ilustradas nas Tabelas 810 e 811 Tabela 810 Distribuição de X Y x y 0 1 2 3 4 px y 18 28 28 28 18 Tabela 811 Distribuição de XY xy 0 1 2 3 pxy 48 18 28 18 Vimos no Capítulo 6 como calcular a esperança de uma va Para as va X e Y da Tabela 85 temos EX01812823831812815 EY01211205 Da Tabela 810 obtemos Notamos que EX Y EX EY Poderia ser uma simples coincidência mas essa relação é de fato verdadeira Teorema 81 Se X for uma va com valores x1 xn e probabilidades px1 pxn Y for uma va com valores y1 ym e probabilidades py1 pym e se pxi yj PX xi Y yj i 1 n j 1 m então EX Y EX EY 86 Prova Observando a Tabela 89 podemos escrever 87 Mas para um i fixo e para um j fixo logo podemos escrever e Comparando essas duas últimas relações com 87 obtemos a relação 86 Do que foi visto acima podemos concluir que se X e Y são duas va nas condições do Teorema 81 e se gX Y for uma função de X e Y então 88 Exemplo 84 Da Tabela 89 temos É claro que o mesmo valor pode ser obtido da Tabela 811 isto é se W XY e pw pxy então Observamos que neste caso EW EXY 1 EXEY 15 05 075 ou seja de modo geral a esperança de um produto de duas va não é igual ao produto das esperanças das va No entanto existem situações em que essa propriedade se verifica O teorema seguinte apresenta uma dessas situações Teorema 82 Se X e Y são variáveis aleatórias independentes então EXY EX EY 89 Prova Nas condições do Teorema 81 usando 88 e 83 logo A recíproca do Teorema 82 não é verdadeira isto é 89 pode ser válida e X e Y serem dependentes Veja o Exemplo 87 abaixo Observações i Se tivermos um número finito de va X1 Xn então 86 toma a forma EX1 Xn EX1 EXn 810 ii Se X1 Xn forem va independentes então EX1X2 Xn EX1 EX2 EXn 811 Exemplo 85 Nas Seções 662 e 663 definimos a va de Bernoulli e a va binomial Seja X o número de sucessos em n provas de Bernoulli Definamos i 1 2 n Então seguese que X X1 X2 Xn e X1 Xn são independentes Se p Psucesso então EXi 1 p 0 1 p p i 1 n e por 810 EX EX1 EXn np o que demonstra a relação 616 A relação 617 será demonstrada na seção seguinte Problemas 4 No Problema 2 obtenha as distribuições de X Y e de XY Calcule EX Y EXY VarX Y VarXY 5 a No Problema 3 calcule EX Y e VarX Y b Se Z aX bY calcule a e b de modo que EZ 10 e VarZ 600 6 Dois tetraedros dados com quatro faces com as faces numeradas de um a quatro são lançados e os números das faces voltadas para baixo são anotados Sejam as va X maior dos números observados Y menor dos números observados Z X Y a Construa a tabela da distribuição conjunta de X e Y b Determine as médias e as variâncias de X Y e Z 7 Numa urna há cinco tiras de papel numeradas 1 3 5 5 7 Uma tira é sorteada e recolocada na urna então uma segunda tira é sorteada Sejam X1 e X2 o primeiro e o segundo números sorteados a Determine a distribuição conjunta de X1 e X2 b Obtenha as distribuições marginais de X1 e X2 Elas são independentes c Encontre a média e a variância de X1 X2 e X X1 X22 d Como seriam as respostas anteriores se a primeira tira de papel não fosse devolvida à urna antes da segunda extração 8 Numa urna há cinco bolas marcadas com os seguintes números 1 0 0 0 1 Retiram se três bolas simultaneamente X indica a soma dos números extraídos e Y o maior valor da trinca Calcule a Função de probabilidade de X Y b EX e VarX c VarX Y 9 Dada a distribuição conjunta de X e Y abaixo determine a média e a variância de a X Y b XY Y X 1 2 3 1 527 127 327 2 427 327 427 3 227 327 227 10 Suponha que X e Y tenham a seguinte distribuição conjunta Y X 1 2 3 1 01 01 00 2 01 02 03 3 01 01 00 a Determine a fp de X Y e a partir dela calcule EX Y Podese obter a mesma resposta de outra maneira b Determine a fp de XY e em seguida calcule EXY c Mostre que embora EXY EX EY X e Y não são independentes 84 Covariância entre Duas Variáveis Aleatórias Vamos introduzir agora uma medida da relação linear entre duas variáveis aleatórias Definição Se X e Y são duas va a covariância entre elas é definida por CovX Y EX EXY EY 812 ou seja o valor médio do produto dos desvios de X e Y em relação às suas respectivas médias Suponha que X assuma os valores x1 xn e Y os valores y1 ym e que PX xi Y yj pxi yj Então 812 pode ser escrita 813 A Fórmula 812 pode ser escrita de uma forma mais simples Note que CovX Y EXY XEY YEX EXEY EXY EXEY EYEX EXEY ou seja CovX Y EXY EX EY 814 Exemplo 86 Para as va X e Y do Exemplo 81 veja a Tabela 85 obtemos EX 15 EY 05 EXY 10 de modo que CovX Y 10 15 05 025 Definição Quando CovX Y 0 dizemos que as variáveis aleatórias X e Y são não correlacionadas Exemplo 87 Consideremos a distribuição conjunta de X e Y dada pela Tabela 812 Tabela 812 Distribuição conjunta para o Exemplo 87 Y X 0 1 2 py 1 320 320 220 820 2 120 120 220 420 3 420 120 320 820 px 820 520 720 100 Temos que do que obtemos CovX Y 190 0 95200 0 Portanto as va X e Y desse exemplo são não correlacionadas Exemplo 88 Retomemos o Exemplo 83 para o qual vimos que Y e Z são independentes É fácil ver que EZ 1 e EY 12 Da Tabela 88 obtemos que EYZ 12 do que decorre que a covariância entre Y e Z é zero De modo geral se X e Y forem independentes então 89 é válida logo por 814 temos que CovX Y 0 Vamos destacar esse fato por meio da Proposição 81 Proposição 81 Se X e Y são duas variáveis aleatórias independentes então CovX Y 0 Em outras palavras se X e Y forem independentes então elas serão não correlacionadas A recíproca não é verdadeira isto é se tivermos CovX Y 0 isso não implica que X e Y sejam independentes De fato para as va do Exemplo 87 a covariância entre X e Y é zero mas X e Y não são independentes como podemos facilmente verificar Podemos agora demonstrar o Teorema 83 a Para duas va X e Y quaisquer temos VarX Y VarX VarY 2CovX Y 815 b se X e Y forem independentes então VarX Y VarX VarY 816 Prova a VarX Y EX Y EX Y2 EX EX Y EY2 EX EX2 EY EY2 2EX EXY EY e da definição de covariância obtemos 815 b A relação 816 segue imediatamente da Proposição 81 As relações 815 e 816 podem ser generalizadas para mais de duas variáveis Em particular se X1 Xn são va independentes então VarX1 Xn VarX1 VarXn 817 Exemplo 85 continuação Temos que VarXi p1 p para todo i 1 n logo VarX VarX1 VarXn np1 p o que demonstra a relação 617 Vamos introduzir agora uma medida que não depende das unidades de medida de X e Y O análogo descritivo para dois conjuntos de dados foi introduzido na Seção 45 Definição O coeficiente de correlação entre X e Y é definido por ρX Y CovX Y σXσY 818 Exemplo 89 Para X e Y do Exemplo 87 a covariância entre X e Y é zero logo ρX Y 0 Para X e Y do Exemplo 86 temos que CovX Y 025 Verifique que VarX 075 VarY 025 logo O seguinte resultado será demonstrado no Problema 48 Teorema 84 O coeficiente de correlação entre X e Y satisfaz a desigualdade 1 ρX Y 1 O coeficiente de correlação é uma medida da relação linear entre X e Y Quando ρX Y 1 existe uma correlação perfeita entre X e Y pois Y aX b Se ρX Y 1 a 0 e se ρX Y 1 a 0 O grau de associação linear entre X e Y varia à medida que ρX Y varia entre 1 e 1 As seguintes propriedades podem ser provadas facilmente ver Problema 38 Se a e b são constantes então ρX a Y b ρX Y 819 ραX βY abab ρX Y 820 Ou seja se ab 0 ρaX bY ρX Y e se ab 0 ρaX bY ρX Y Exemplo 810 Ainda usando o enunciado do Exemplo 81 defina a va W como o número de meninas A distribuição conjunta de X e W está na Tabela 813 É fácil ver que EX EW 15 VarX VarW 075 EXW 15 do que segue que CovX W 075 e portanto ρX W 1 Esse é um resultado esperado pois sabemos que X 3 W Para se analisar a possível correlação entre duas va X e Y é conveniente usar os chamados diagramas de dispersão que consistem no gráfico dos pares de valores de X e Y Exemplo 811 Na Figura 83a temos os diagramas de dispersão para as va X e Y e X e Z do Exemplo 81 a X e Y b X e Z Na Figura 83a ao lado dos pontos 1 0 e 2 1 colocamos o número 2 para mostrar que esses pares têm probabilidades 28 ao passo que os demais têm probabilidades 18 Exemplo 812 O diagrama de dispersão das va Y e Z do Exemplo 82 está ilustrado na Figura 84 Exemplo 813 Na Figura 85 temos o diagrama de dispersão das variáveis X e W do Exemplo 810 Observe que nesse caso existe uma relação linear perfeita entre as duas variáveis Problemas 11 Para as va X e Y do Problema 2 e usando os resultados do Problema 4 calcule CovX Y e ρX Y 12 Considere a situação do Problema 10 do Capítulo 6 a Obtenha as distribuições de X Y e X Y b Calcule EXY EXY e EX Y c Verifique se X e Y são independentes d Verifique se EXY EX EY O que você pode concluir e Verifique se EXY EXEY f Calcule VarX Y É verdade que VarX Y VarX VarY 13 Sejam X e Y com a distribuição conjunta da tabela abaixo Mostre que CovX Y 0 mas X e Y não são independentes a fx y 0 para todo par x y b c A relação b nos diz que o volume sob a superfície representada por fx y é igual a 1 A relação c dá a probabilidade do par x y estar num retângulo de lados ba e dc Exemplo 814 Suponha que fx y 4xy 0 x 1 0 y 1 Então a está satisfeita e o que mostra que b também está satisfeita Calculemos PX 12 Y 12 A Figura 86 mostra o domínio de variação de X e Y e a região para a qual X 12 Y 12 Logo por c Figura 86 Domínio de variação de X Y para o Exemplo 814 Exemplo 815 Suponha que a va X Y seja uniformemente distribuída no quadrado Q da Figura 86 Isso significa que 821 Como vimos b acima vale logo e seguese que c 1 Como a área de Q é 1 na realidade Veja a Figura 87 De modo geral podemos representar a densidade bidimensional fx y por uma superfície no espaço tridimensional como ilustra a Problemas 18 As va X e Y têm distribuição conjunta dada por a Faça um gráfico do domínio de variação de x e y b Prove que fx y dx dy 1 c Encontre as fdp marginais de X e Y d Encontre PX 1 19 Suponha que as va X e Y tenham fdp a Calcule as fdp marginais de X e Y b Calcule P0 X 1 1 Y 2 Figura 88 Figura 87 Densidade uniforme no quadrado de lado unitário com densidade condicional representada Se A for um evento então a probabilidade PX Y A será representada pelo volume sob a superfície delimitado pela região A no plano x y e pela superfície cilíndrica na Figura 88 Figura 88 Densidade como uma superfície no espaço e PX Y A PA Se a densidade fx y for positiva numa região qualquer R do plano x y uma va dizse uniformemente distribuída sobre R se fx y 1áreaR para x y R e fx y 0 nos demais pontos Veja a Figura 89 Figura 89 Distribuição uniforme na região R do plano x y Vimos que no caso discreto a partir da distribuição conjunta de duas va X e Y podíamos determinar a distribuição marginal de cada variável O mesmo ocorre para va contínuas Frequentemente usaremos a notação X Y para denotar o par de va e diremos que essa é uma va bidimensional Usamos também a nomenclatura vetor bidimensional Definição Dada a va bidimensional X Y com função densidade de probabilidade conjunta fx y definimos as densidades marginais de X e Y respectivamente por 822 e 823 Exemplo 816 Para as va do Exemplo 814 temos Exemplo 817 Considere a va X Y com densidade conjunta Então as densidades marginais são dadas por Para o Exemplo 814 vemos que o produto das densidades marginais é igual à densidade conjunta para todo par x y do domínio 01 01 que é o produto cartesiano dos domínios de variação de X e Y Dizemos que as va são independentes Definição As variáveis aleatórias X e Y com densidade conjunta fx y e marginais fXx e fyy respectivamente são independentes se fx y fXx fyy para todo par x y 824 Exemplo 818 Se a função densidade conjunta de X e Y for dada por fx y ex y x 0 y 0 então é fácil ver que fXx ex x 0 fYy ey y 0 de modo que X e Y são independentes As definições de covariância coeficiente de correlação etc continuam é claro a valer para va bidimensionais contínuas Portanto se X e Y são independentes o coeficiente de correlação entre elas é zero Exemplo 819 Calculemos o coeficiente de correlação entre X e Y se a densidade conjunta delas for fx y x y 0 x 1 0 y 1 Temos que as marginais são dadas por A partir delas calculamos médias e variâncias Para calcular a covariância entre X e Y necessitamos calcular A interpretação de 825 por exemplo é a seguinte Se Y y0 considere o plano passando por y0 e paralelo ao plano x z Esse plano determina na superfície fx y z a densidade condicional fXYxy0 Mesma interpretação vale para 826 Suponha por exemplo que X denote o salário de um conjunto de indivíduos e Y denote o consumo deles Então fixado o consumo y0 a densidade condicional fXYxy0 representa a densidade dos salários para aquele nível fixado de consumo Nas Figuras 87 e 810 ilustramos como essa densidade condicional pode ser representada Exemplo 820 Suponha que a densidade de X Y seja dada por fx y 61 x y 0 x 1 0 y 1 x O domínio de variação dos pares x y é o triângulo da Figura 811 Figura 810 Densidade condicional de X dado que Y y0 Figura 811 Domínio de variação de X Y para o Exemplo 820 Temos então que as densidades marginais são dadas por Consequentemente as densidades condicionais são Observe que fXYxy define de fato uma densidade de probabilidade para y fixado Temos que int01fXYxydx1 0 x 1 Por exemplo se X05 fYXyX05412y 0 y 12 Assim Dado que fXYxy e fYXyx definem densidades de probabilidades tem sentido calcular suas médias variâncias etc Definição A esperança condicional de Y dado que Xx é definida por EYXx e definição análoga para EXY Note que EYX é uma função de x isto é EYXsx e é denominada curva de regressão de Y sobre x Na realidade EYX é o valor da variável aleatória EYX A mesma interpretação deve ser dada para EXY A Figura 812 ilustra esses conceitos Figura 813 Curvas de regressão para o Exemplo 821 Temos então e portanto as densidades condicionais são e As esperanças condicionais serão dadas por Note portanto que ambas as curvas de regressão são funções lineares como ilustra a Figura 813 No caso geral a Figura 814 mostra como seriam essas médias condicionais Figura 814 Representação gráfica da curva de regressão de Y sobre x Observe também que se por exemplo X 1 EY1 12 Problemas 20 Calcule fXYxy e fYXyx para a densidade do Problema 18 21 Calcule as densidades condicionais para o Problema 19 Comente 22 Calcule as densidades marginais e condicionais para a va X Y com fdp fx y164xy 0 x 4 0 y 4 23 Mesmos itens do Problema 22 para a fdp conjunta fx y3ex3y x 0 y 0 24 Calcule as esperanças condicionais EYX e EXY para o Problema 21 25 Calcule as esperanças condicionais para o Problema 22 26 Prove que EEXYEX Sugestão EXY é uma função de y e portanto é uma va Na realidade EXY é o valor da va EXY Considere a expressão para EXY e tome a esperança novamente Mude a ordem das integrais e obtenha o resultado No caso unidimensional Y hX J era simplesmente com x h1y Exemplo 822 Retomemos o Exemplo 814 no qual tínhamos fXx 2x 0 x 1 fYy 2y 0 y 1 e X e Y eram independentes Suponha que queiramos determinar a densidade FZz da va Z XY Considere W X e portanto x w e o Jacobiano é de modo que Seguese que 0 z w 1 e a densidade de Z é obtida por Problemas 27 Encontre a densidade de Z X Y para X e Y va independentes com fXx 2x 0 x 1 e fYy 2y 0 y 1 Sugestão considere 0 z 1 e 1 z 2 28 Se X tiver densidade fXx 2x 0 x 1 e Y tiver densidade fYy y29 0 y 3 e forem independentes encontre a densidade de W XY 29 Encontre a densidade de Z XY se X e Y são independentes com densidades fXx ex x 0 e fYy 2e2y y 0 Sugestão z xy w y 88 Distribuição Normal Bidimensional Assim como a distribuição normal é um modelo importante para variáveis contínuas unidimensionais para va contínuas bidimensionais podemos considerar o modelo normal bidimensional definido a seguir Definição A variável X Y tem distribuição normal bidimensional se sua densidade conjunta for dada por fx y frac12pisigmaxsigmaysqrt1rho2 expleft frac121rho2 left fracxmux2sigmax2 frac2rhoxmuxymuysigmaxsigmay fracymuy2sigmay2rightright para infty x infty infty y infty Aqui estamos usando a notação expz ez Vemos que a densidade em questão depende de cinco parâmetros as médias mux e muy que podem assumir quaisquer valores reais as variâncias sigma2x e sigma2y que devem ser positivas e o coeficiente de correlação rho entre X e Y que deve satisfazer 1 rho 1 Dois exemplos de gráficos dessa densidade estão representados na Figura 815 As seguintes propriedades podem ser demonstradas a As distribuições marginais de X e Y são normais unidimensionais a saber X sim Nmux sigma2x Y sim Nmuy sigma2y b rho CorrX Y c As distribuições condicionais são normais com fXYxyNμx ρσxσyy μy σx21 ρ2 Vimos que ρ 0 significa que as variáveis X e Y são não correlacionadas Aqui podemos concluir algo mais Nessa situação podemos escrever a densidade 829 como fxy 12πσxσy e12xμxσx2 yμyσy2830 isto é a densidade conjunta é o produto das duas marginais que sabemos serem normais Ou seja concluímos que X e Y são independentes e Considere a va Z igual à soma dos rendimentos de cada homem e mulher Calcule a média e a variância de Z f Supondo que todos os casais tenham a renda de um ano disponível e que se oferecerá ao casal escolhido a possibilidade de comprar uma casa pelo preço de 20 qual a probabilidade de que o casal escolhido possa efetuar a compra b Obtenha o coeficiente de correlação entre X e Y e interprete esse coeficiente para as variáveis em estudo 37 Uma urna contém três bolas numeradas 0 1 2 Duas bolas são retiradas ao acaso e sucessivamente Sejam X número da primeira bola retirada e Y número da segunda bola retirada Calcule a EXY b CovX Y c VarX Y nos casos em que as bolas são retiradas i com reposição ii sem reposição 38 Prove as relações 819 e 820 do texto 39 Se ρX Y for o coeficiente de correlação entre X e Y e se tivermos que Z AX B W CY D com A 0 C 0 prove que ρX Y ρZ W 40 Uma urna contém n bolas numeradas de 1 até n Duas bolas são retiradas sucessivamente sem reposição Determine a distribuição do módulo da diferença entre os dois números observados 41 Suponha que X e Y sejam va com VarX 1 VarY 2 e ρX Y 12 Determine VarX 2Y 42 Seja X e Y va com EX EY 0 e VarX VarY 1 Prove que ρZ U 0 se Z X Y e U X Y 43 As va X e Y do Problema 18 são independentes Justifique 44 Mostre que X e Y do Problema 19 são independentes 45 Se X1 Xn são va independentes cada Xi com média μi e variância σi² i 1 2 n calcule EX X₁ Xnn 46 Refatore o problema anterior para o caso de as va terem todas a mesma média μ e mesma variância σ² 47 Suponha que X bn p e Y bm p sendo ainda X e Y va independentes Mostre que X Y bm n p 48 Se X e Y forem va independentes com distribuições de Poisson com parâmetros λ₁ e λ₂ respectivamente mostre que X Y terá distribuição de Poisson com parâmetro λ₁ λ₂ 49 Prove 89 para va X e Y contínuas 810 Complementos Metodológicos 1 Um resultado importante é o seguinte se X₁ Xn são variáveis normais e independentes então a1X₁ a2X₂ anXn será uma va normal sendo a₁ an constantes Suponha X Nμ σ² para i 12n Calcule a média e variância de y ₁ⁿaiXᵢ 2 Vamos provar que 1 ρ 1 Suponha EX μ₁ EY μ₂ VarX σ₁² VarY σ₂² CovX Y σ₁₂ Então o coeficiente de correlação entre X e Y é dado por ρX Y σ₁² ft EX μ₁² 2tX μ₁Y μ₂ t²Y μ₂² σ₁² 2tσ₁₂ t²σ₂² é sempre positiva ou nula quaisquer que sejam os parâmetros σ²₁ σ²₂ e σ₁₂ Sendo um polinômio de segundo grau em t o seu discriminante deve ser negativo ou nulo isto é Δ 4σ₁₂² 4σ₁²σ₂² 0 do que decorre que implica ρ² 1 e finalmente 1 ρ 1 Capítulo 9 Noções de Simulação 91 Introdução Nos capítulos anteriores aprendemos a construir alguns modelos probabilísticos simples que são úteis para representar situações reais ou então para descrever um experimento aleatório Notamos também que se especificarmos um espaço amostral e probabilidades associadas aos pontos desse espaço o modelo probabilístico ficará completamente determinado e poderemos então calcular a probabilidade de qualquer evento aleatório de interesse Muitas vezes mesmo construindo um modelo probabilístico certas questões não podem ser resolvidas analiticamente e teremos de recorrer a estudos de simulação para obter aproximações de quantidades de interesse De modo bastante amplo estudos de simulação tentam reproduzir num ambiente controlado o que se passa com um problema real Para nossos propósitos a solução de um problema real consistirá na simulação de variáveis aleatórias A simulação de variáveis aleatórias deu origem aos chamados Métodos Monte Carlo MMC que por sua vez supõem que o pesquisador disponha de um gerador de números aleatórios equiprováveis Um Número Aleatório NA representa o valor de uma variável aleatória uniformemente distribuída no intervalo 01 Originalmente esses números aleatórios eram gerados manualmente ou mecanicamente usando dados roletas etc Modernamente usamos computadores para gerar números que na realidade são pseudoaleatórios Para nossos propósitos uma simulação pode ser entendida como uma particular realização do modelo binomial normal etc Nesse sentido os valores simulados podem ser considerados como uma amostra como veremos nos capítulos seguintes Esse entendimento será útil para estudar as distribuições de estimadores e suas propriedades O nome Monte Carlo está relacionado com a cidade de mesmo nome no Principado de Mônaco principalmente devido à roleta que é um mecanismo simples para gerar números aleatórios Os MMC apareceram durante a Segunda Guerra Mundial em pesquisas relacionadas à difusão aleatória de neutrons num material radioativo Os trabalhos pioneiros devemse a Ulam Metropolis Fermi e von Neumann por volta de 19481949 Alguns trabalhos que podem ser consultados são os artigos de Metropolis e Ulam 1949 e von Neumann 1951 e os livros de Sóbol 1976 Hammersley e Handscomb 1964 e Ross 1997 Para ilustrar suponha que se queira calcular a área da figura F contida no quadrado Q de lado unitário Figura 91 Suponha que sejamos capazes de gerar pontos aleatórios em Q de modo homogêneo isto é de modo a cobrir toda a área do quadrado ou ainda que esses pontos sejam uniformemente distribuídos sobre Q Se gerarmos N pontos suponha que N desses caiam em F Então poderemos aproximar a área de F por NN No caso da figura uma estimativa da área é 24200 pois geramos 200 pontos em Q e 24 estão dentro de F Quanto mais pontos gerarmos melhor será a aproximação Note que o problema em si não tem nenhuma componente aleatória queremos calcular a área de uma figura plana Mas para resolver o problema uma possível maneira foi considerar um mecanismo aleatório Esse procedimento pode ser utilizado em muitas situações Vejamos algumas maneiras de obter um número aleatório Figura 91 Área de uma figura por simulação Exemplo 91 Lance uma moeda três vezes e atribua o valor 1 se ocorrer cara e o valor 0 se ocorrer coroa Os resultados possíveis são as sequências ou números binários abaixo 000 001 010 011 100 101 110 111 Cada um desses números binários corresponde a um número decimal Por exemplo 1112 710 pois 1112 1 22 1 21 1 20 o índice indica a base em que o número está sendo expresso Veja Morettin et al 2005 Considere a representação decimal de cada sequência acima e divida o resultado por 23 1 7 Obteremos os números aleatórios 0 17 27 1 Observe que você poderá eventualmente considerar a sequência 111 menos aleatória do que 010 digamos Mas qualquer uma das oito sequências anteriores tem a mesma probabilidade a saber 123 18 Suponha agora que você lance a moeda dez vezes Teremos números binários com dez dígitos e cada um terá probabilidade 1210 11024 Assim a sequência 1 1 1 1 1 1 1 1 1 1 formada por dez uns parece menos aleatória do que a sequência 1 0 1 0 1 0 1 0 1 0 formada por cinco pares de dez que por sua vez parece menos aleatória do que a sequência 0 1 1 0 1 1 1 0 0 1 que requer uma descrição mais elaborada No entanto todas elas têm a mesma probabilidade de ocorrer no experimento acima Intuitivamente a aleatoriedade de uma sequência está ligada à dificuldade de descrevêla em palavras como fizemos acima Para esse caso de dez lançamentos procederíamos como no caso de três lançamentos dividindo os 1024 números decimais obtidos por 210 1 1023 para obter 1024 NA entre 0 e 1 De modo geral lançandose a moeda n vezes teremos 2n possibilidades e os NA finais são obtidos por meio de divisão por 2n 1 Exemplo 92 Números aleatórios também podem ser gerados usando se uma roleta como a da Figura 92 com dez setores numerados 0 1 2 9 Gire a roleta dez vezes e anote os números obtidos numa coluna Faça a mesma coisa mais duas vezes de modo a obter algo como Figura 92 Roleta com dez setores Agora divida cada número em cada linha por 1000 para obter os NA 0610 0944 0504 0510 0254 0639 0129 0380 0226 0079 Para obter NA com quatro casas decimais basta girar a roleta quatro vezes Na realidade os números acima foram obtidos de uma tabela de números aleatórios como aquela da Tabela VII No exemplo iniciamos no canto superior esquerdo e tomamos as três primeiras colunas com dez dígitos cada Tabelas de números aleatórios são construídas por meio de mecanismos como o que descrevemos O problema que enfrentamos muitas vezes é o de gerar uma quantidade muito grande de números aleatórios da ordem de 1000 ou 10000 O procedimento de simulação manual usando uma tabela de números aleatórios pode se tornar muito trabalhoso ou mesmo impraticável A solução alternativa é substituir a simulação manual por simulação por meio de computadores utilizando números pseudo aleatórios em vez de números aleatórios Os números pseudoaleatórios NPA são obtidos por meio de técnicas que usam relações matemáticas recursivas determinísticas Logo um NPA gerado numa iteração dependerá do número gerado na iteração anterior e portanto não será realmente aleatório originando o nome pseudoaleatório Há vários métodos para gerar NPA Um dos primeiros formulado pelo matemático John von Neumann é chamado o método de quadrados centrais veja o Problema 18 Um método bastante utilizado em pacotes computacionais é o método congruencial discutido nos Problemas 1 e 2 Os diversos pacotes aplicativos estatísticos ou não utilizam métodos como o congruencial para implementar subrotinas de geração de NPA Como exemplos de pacotes citamos o NAG Numerical Algorithm Group atualmente incorporado ao pacote MATLAB e o IMSL O pacote estatístico Minitab usa os comandos Random e Uniform para gerar NPA Exemplo 93 Temos no Quadro 91 um exemplo de geração de dez NA O comando Random 10 C1 seguido de Uniform 01 pede para gerar dez NA e guardálos na coluna C1 Quadro 91 Geração de números aleatórios Minitab MTB RANDOM 10 C1 SUBC UNIFORM 0 1 C1 1 0590042 2 0859332 3 0021023 4 0340748 5 0673675 6 0558276 7 0911412 8 0775391 9 0867138 10 0865328 O pacote SPlus usa o comando runifn min max em que n é o número de valores a gerar e min max é o intervalo no qual se quer gerar os NPA No nosso caso min 0 e max 1 Exemplo 94 O comando u runif1001 pede para gerar dez NA e guardálos no vetor u O comando u imprime os dez valores Veja o Quadro 92 Quadro 92 Geração de números aleatórios SPlus u runif 10 0 1 u 1 06931500 08586156 01494293 02947197 03474523 07571899 03016043 03051952 9 09135144 07996542 A planilha Excel usa a função ALEATÓRIO para gerar NA ou então Geração de números aleatórios escolhendo a opção Análise de Dados do menu Ferramentas Exemplo 95 O Quadro 93 mostra na coluna A o resultado de gerar 20 NA usando o Excel Foi utilizada a opção Uniforme 01 Quadro 93 Geração de números aleatórios Excel A B C D E F G 1 0382 0 5 1 077423 1 2 2 0100681 1 4 1 091015 2 9 3 0596484 1 3 0 012675 3 10 4 0899106 1 4 4 143943 4 6 5 088461 1 6 0 1192723 5 7 6 0958464 1 5 1 089864 6 7 0014496 0 6 1 064207 7 8 0407422 1 6 0 116122 8 9 0863247 0 3 0 047886 9 10 0138585 1 5 3 0832001 10 11 0245033 1 1 1001472 12 0045473 0 0 061513 13 003238 0 2 1896733 14 0164129 1 3 125248 15 0219611 0 1 1308572 16 001709 2 128498 17 0285043 1 0357816 18 0343089 0 01679 19 0553636 2 1580393 20 0357372 1 0994548 Problemas 1 Vejamos o significado da expressão x mod m na qual x e m são inteiros não negativos O resultado de tal operação é o resto da divisão de x por m Ou seja se x mq r então x mod m r Por exemplo 13 mod 4 1 Encontre 18 mod 5 e 360 mod 100 2 O método congruencial No chamado método congruencial multiplicativo de gerar NPA começamos com um valor inicial n0 chamado semente e geramos sucessivos valores n1 n2 por meio da relação ni 1 ani mod m sendo n0 a m inteiros não negativos e i 0 1 2 m 1 A constante a é o multiplicador e m é o módulo Por meio da fórmula acima no máximo m números diferentes são gerados a saber 0 1 m 1 Se h m for o valor de i correspondente ao número máximo de pontos gerados a partir do qual os valores se repetem então h é chamado o ciclo ou o período do gerador Os NPA são obtidos por meio de ui nim i 0 1 m 1 Tomemos por exemplo a semente n0 17 a 7 e m 100 É fácil ver que obtemos o seguinte i 0 1 2 3 4 ni 17 19 33 31 17 Temos então que o ciclo é h 4 e os valores ni vão se repetir a partir daí Os correspondentes NPA gerados serão 017 019 033 031 017 Devemos escolher a e m de modo a obter ciclos grandes ou seja geramos muitos NPA antes que eles comecem a se repetir A seleção de m é normalmente determinada pelo número de bits das palavras do computador usado Atualmente tomamos por exemplo m 264 Para o valor a a sugestão é tomar uma potência grande de um número primo por exemplo a 75 O método congruencial misto usa a fórmula ni 1 ani b mod m 3 Considere a semente n0 13 o multiplicador a 5 e o módulo m 100 para gerar dez números pseudoaleatórios Qual o período h nesse caso 4 Idem para n0 19 a 13 e m 100 5 Use algum programa ou planilha computacional para gerar 10000 números pseudo aleatórios Faça um histograma e um box plot desses valores Esses gráficos corroboram o fato de que esses números obtidos são observações de uma va com distribuição uniforme no intervalo 0 1 Explique 92 Simulação de Variáveis Aleatórias De posse de um bom gerador de NA podemos em princípio gerar NA de qualquer outra va usando a correspondente função de distribuição acumulada fda Como ilustração vamos supor uma va contínua X com fda Fx mostrada na Figura 93 Figura 93 fda de uma va contínua X Usandose um gerador de NA produzse um NA u marcase esse valor no eixo das ordenadas de Fx por meio da função inversa de Fx obtémse o valor x da va X no eixo das abcissas Isto é resolvese a seguinte equação Fx u 91 ou seja x F1u Observe a figura para melhor entendimento Na realidade o procedimento ilustrado acima pode ser formalizado no seguinte resultado chamado de método da transformação integral Suponha F estritamente crescente Teorema 91 Se X for uma va com fda F então a va U FX tem distribuição uniforme no intervalo 0 1 Prova Como F é estritamente crescente e u Fx então x F1u pois existe a inversa de X Se Gu é a fda de U temos Gu PU u PFX u PX F1u FF1u u o que demonstra o teorema Exemplo 96 Considere a va com densidade fx 2x 0 x 1 Temos Na Figura 94 temos os gráficos de fx e Fx Figura 94 Fdp e fda da va X do Exemplo 96 Então a equação 91 fica u x2 Para obter um valor de X basta gerar um NA u e depois gerar Como 0 x 1 devese tomar a raiz quadrada positiva de u Por exemplo se u 05 então Fx 05 e portanto que é um valor número aleatório gerado da va X Para simular dados de uma va discreta o segredo está em fazer uma pequena modificação no gráfico da fda Considere uma va com a seguinte distribuição de probabilidades X x1 x2 xn pj p1 p2 pn A fda dessa va é dada por Os gráficos correspondentes estão na Figura 95 Figura 95 Fp e fda de uma va discreta Para usar o procedimento anterior basta alterar o gráfico de Fx acima do modo apresentado na Figura 96 Figura 96 Fda modificada para a va discreta X Como antes geramos um NA u entre 0 e 1 e o marcamos no eixo das ordenadas procurase o inverso de u no eixo das abcissas Suponha que u esteja entre p1 p2 pj 1 e p1 p2 pj 1 pj Segundo a Figura 96 vemos que então obteremos o valor xj da va X A descrição acima pode ser resumida no seguinte procedimento gerase um NA u ou seja um valor de uma va U uniforme no intervalo 0 1 Coloque 92 Exemplo 97 Consideremos a va X com distribuição X 0 1 2 pj 14 12 14 Suponha que ao gerar um NA obtemos u 03 Então como p1 u p1 p2 ou seja 025 u 075 tomamos o valor gerado de X como x 1 Para obter uma amostra de n valores de X basta gerar n números aleatórios e proceder para cada um deles como acima Note que poderemos obter valores repetidos de X Na Seção 93 mostraremos como gerar valores de algumas distribuições conhecidas Nem sempre o método apresentado é utilizado pois há dificuldade em resolver a equação 91 Os pacotes estatísticos como o Minitab e SPlus e as planilhas eletrônicas como a do Excel possuem subrotinas próprias para simular valores para vários modelos de vas tanto discretas como contínuas Na Seção 94 apresentaremos exemplos de uso de tais programas Problemas 6 Gere cinco valores da va X cuja distribuição é dada por X 0 1 2 3 4 pj 01 02 04 02 01 Use a Tabela VII para gerar os NA 7 Gere dez valores da va T do Problema 17 do Capítulo 6 8 Considere a va X contínua com fdp Como você procederia para obter um valor simulado de X Se u 05 qual será o valor correspondente gerado de X 93 Simulação de Alguns Modelos Utilizando o que foi estudado nas seções anteriores vejamos como podemos simular valores de alguns modelos que já consideramos anteriormente Exemplo 98 Simulação de uma distribuição de Bernoulli Suponha que X tenha uma distribuição de Bernoulli com PX 0 1 p 048 e PX 1 p 052 Para gerar valores de tal distribuição basta gerar NA u e concluir Se u 048 coloque X 0 Se u 048 coloque X 1 Por exemplo suponha que geramos dez NA 011 082 000 043 056 060 072 042 008 053 Então os dez valores gerados da distribuição em questão são 0 1 0 0 1 1 1 0 0 1 respectivamente Exemplo 99 Simulação de uma distribuição binomial Sabemos que se Y bn p então Y é o número de sucessos num experimento de Bernoulli com n repetições e probabilidades de sucesso p Mas Psucesso PY 1 p No Exemplo 98 obtivemos cinco sucessos logo Y 5 Portanto se Y b10 052 e queremos digamos gerar 20 valores dessa distribuição basta considerar 20 experimentos de Bernoulli sendo que em cada um deles repetimos o experimento n 10 vezes com probabilidade de sucesso p 052 Para cada experimento j consideramos o número de sucessos número de 1 yj j 1 2 20 Obteremos então os 20 valores simulados y1 y20 da va Y Observe que esses valores serão inteiros entre 0 e 20 inclusive esses dois últimos Exemplo 910 Simulação de uma distribuição exponencial Se a va T tiver densidade dada por ft 1β etβ t 0 93 a sua fda é dada por Ft 1 etβ 94 logo temos de resolver a equação 91 para gerar t Tomando logaritmo na base e temos 1 u etβ log 1 u tβ t β log 1 u Logo gerado um NA um valor da distribuição Expβ é dado por β log 1 u Por exemplo suponha β 2 e queremos gerar cinco valores de T Exp2 Gerados os valores u1 057 u2 019 u3 038 u4 033 u5 031 de uma distribuição uniforme em 0 1 os números aleatórios obteremos t1 2log043 168 t2 2log81 042 t3 2log062 096 t4 2log067 080 t5 2 log069 074 Podemos reduzir um pouco os cálculos se usarmos o seguinte fato se U u0 1 então 1 U u0 1 Resulta que poderemos gerar os valores de uma exponencial por meio de t β log u Usando essa fórmula para os valores de U acima obteremos os seguintes valores de T 112 332 193 096 234 Exemplo 911 Simulação de uma distribuição normal Há vários métodos para gerar va normais mas uma observação importante é que basta gerar uma va normal padrão pois qualquer outra pode ser obtida desta De fato gerado um valor z1 da va Z N0 1 para gerar um valor de uma va X Nµ σ2 basta usar a transformação z x µσ para obter x1 µ σz1 95 Vamos dar um exemplo usando a transformação integral e uma tabela de probabilidades para a normal padrão Suponha que X N10 016 ou seja µ 10 e σ 04 Temos de resolver a Fórmula 91 ou seja Φz u em que estamos usando a notação Φz para a fda da N0 1 Vamos gerar em primeiro lugar um NA u usando a Tabela VII Tomando as três primeiras colunas e o canto inferior esquerdo obtemos u 0230 Então temos de resolver Φz 0230 ou seja temos de encontrar o valor z tal que a área à sua esquerda sob a curva normal padrão seja 0230 Veja a Figura 97 Figura 97 Geração de um valor z N0 1 Consultando uma tabela para a normal encontramos que z 074 Logo o valor gerado da normal em questão satisfaz ou seja x 10 04074 9704 Qualquer outro valor pode ser gerado da mesma forma Esse método embora simples não é prático sob o ponto de vista computacional Há outros métodos mais eficientes Alguns são variantes do método de BoxMüller 1958 Nesse método são geradas duas va Z₁ e Z₂ independentes e N0 1 por meio das transformações Z₁ 2logU₁cos2πU₂ Z₂ 2logU₁sen2πU₂ em que U₁ e U₂ são va com distribuição uniforme em 0 1 Portanto basta gerar dois NA u₁ e u₂ e depois gerar Z₁ e Z₂ usando 96 Veja também o Problema 22 94 Exemplos Computacionais Nesta seção vamos apresentar alguns exemplos de simulação de vas usando os pacotes R Minitab SPSS e Excel As Tabelas 91 e 92 trazem distribuições discretas e contínuas respectivamente contempladas por cada um e os comandos apropriados quando pertinentes Tabela 91 Opções de Distribuições Discretas Distribuição Excel Par Minitab Par R e SPSS Par Bernoulli Bernoulli p Bernoulli p Binomial Binomial n p Binomial n p binom n p Geométrica geom p Hipergeométrica hyper N r k Poisson Poisson λ Poisson λ pois λ Discreta Discreta Começamos com vas discretas Para gerar uma distribuição de Bernoulli no R ou SPSS basta colocar n 1 no caso binomial O pacote Minitab usa o comando Random seguido de um dos comandos da tabela Os pacotes R e SPSS colocam a letra r de random antes do comando apropriado A planilha Excel pode tanto usar a função ALEATÓRIO como a opção Geração de número aleatório dentro de Análise de Dados do menu Ferramentas Existe uma opção Discreta para gerar uma distribuição discreta especificada xi pi i 1 k Vejamos alguns exemplos Exemplo 912 Suponha que queiramos simular 20 valores de uma distribuição binomial com n 10 e p 06 e 15 valores de uma distribuição de Poisson com parâmetro λ 24 usando o R Obtemos o Quadro 94 Os valores simulados são arquivados nas colunas C1 e C2 Quadro 94 Simulação da binomial e Poisson R C1rbinom201006 C2rpois1524 C2appendC2values repNA5 quadro94dataframeC1C2 quadro94 C1 C2 C1 C2 1 3 1 11 3 2 2 7 1 12 7 2 3 3 1 13 7 1 4 7 4 14 7 2 5 7 3 15 4 3 6 4 1 16 8 NA 7 8 3 17 9 NA 8 7 4 18 4 NA 9 4 3 19 7 NA 10 7 2 20 4 NA Exemplo 913 Usando o SPlus mostramos no Quadro 95 as saídas correspondentes a simular 20 valores de uma va X b10 05 e 20 valores de uma va Y Poisson 17 Quadro 95 Simulação da binomial e Poisson SPlus x rbinom20 10 05 x 1 6 4 7 5 5 5 5 7 6 1 8 4 6 6 7 6 5 5 6 7 y rpois 20 17 y 1 1 2 5 5 1 3 2 1 2 2 3 1 3 2 1 1 4 2 3 0 Exemplo 914 Suponha que queiramos gerar as seguintes distribuições usando o R a X b10 05 c Z u01 b Y Poisson17 d B Bern07 Os comandos respectivos estão dados no Quadro 96 Quadro 96 Simulação de variáveis R xrbinom201005 yrpois2017 zrunif10001 brbinom15107 Os histogramas respectivos estão na Figura 98 Figura 98 Histogramas de distribuições simuladas no Exemplo 914 SPlus Tabela 92 Opções de Distribuições Contínuas Distribuição Excel Par Minitab Par R e SPSS Par Normal Normal 0 1 Normal μ σ Normal μ σ Exponencial Exponential β t Student T ν t ν F Snedecor F ν1 ν2 F ν1 ν2 Gama Gamma α β gamma α β QuiQuadrado Chisquare ν chisq ν beta Betaα β beta α β Vejamos agora alguns exemplos para vas contínuas Exemplo 915 Usando o pacote Minitab geramos a 10 valores de uma N0 1 b 20 valores de uma Exp2 c 15 valores de uma χ25 Os comandos e respectivos valores simulados estão mostrados no Quadro 97 Quadro 97 Simulação de variáveis Minitab Exemplo 916 Usando o pacote R simulamos a 500 valores de uma va Z N01 b 200 valores de uma va Y N10 03 c 500 valores de uma va t35 d 500 valores de uma va T Exp2 e 300 valores de uma va W χ25 f 500 valores de uma va F10 12 Os comandos necessários são mostrados no Quadro 98 e os respectivos histogramas estão na Figura 99 Quadro 98 Simulação de variáveis R MTB Random 10 C1 MTB SUBC Normal 0 1 MTB Random 15 C3 MTB SUBC Chisquare 5 MTB Random 20 C2 MTB SUBC Exponential 2 C1 C2 C3 C1 C2 C3 1 006636 252004 444339 11 060892 071995 2 014940 111469 260994 12 011405 558489 3 008339 183977 252374 13 410192 552644 4 009516 047236 110394 13 487223 286108 5 108060 060830 231042 15 255956 287105 6 063088 183693 626708 16 050944 7 017117 235880 020627 17 105514 8 178075 131464 152421 18 391126 9 189407 129729 488943 19 198810 10 021054 181755 390320 23 082243 Na planilha Excel a normal pode ser gerada por meio da opção normal no menu Ferramentas Análise de Dados Geração de números aleatórios ou pela função ALEATÓRIO e a fórmula INVNORMALEATÓRIO µ σ Em cada caso faça um histograma e veja se este corresponde à distribuição em questão Os histogramas que você obteve estão de acordo com as definições dadas dessas distribuições Comente 22 Usando um pacote gere a 300 valores de uma distribuição t120 b 500 valores de uma distribuição F56 38 c 300 valores de uma distribuição B20 30 Faça um histograma dos valores simulados em cada caso e responda a mesma pergunta do problema anterior 23 Simule cinco valores de uma distribuição Gama3 12 usando o procedimento descrito no CM3 24 Usando um pacote computacional gere a 1000 valores de uma distribuição uniforme bidimensional no quadrado de lado unitário supondo os componentes independentes b 1000 valores de uma normal bidimensional X Y com X e Y independentes X N10 4 e Y N15 9 25 Um time de futebol irá disputar 10 partidas num torneio de classificação a Supondo que sua chance de vitória em cada jogo é de 60 simule sua possível campanha b Simule agora se é esperado o seguinte desempenho em cada jogo 50 de vitória 30 de empate e 20 de derrota c Para a situação descrita em b simule 12 possíveis campanhas para o time e estude a variável X número de pontos obtidos vitória 3 empate 1 e derrota 0 d Proponha outros parâmetros para o time e repita a questão c 26 Suponha que uma moeda é viciada de tal sorte que favoreça mais cara do que coroa Para estimar a probabilidade de cara você a pode lançar digamos 50 vezes a Para simular um possível resultado do seu experimento o que é que seria necessário b Supondo que a probabilidade de ocorrer cara é p 06 qual seria a sua simulação e sua estimativa de p c Faça a simulação para 4 outras pessoas e dê suas respectivas estimativas Alguém acertou o verdadeiro parâmetro 27 Em uma população 20 das pessoas compram o produto C Selecionase com reposição indivíduos dessa população até encontrar um comprador de C A variável X indica o número de indivíduos entrevistados Qual é a distribuição simulada de X 28 Uma pesquisa domiciliar irá entrevistar todos os moradores do domicílio e a distribuição do número de moradores por domicílio encontrase abaixo Será usada uma amostra de 5 domicílios A geração de valores de uma distribuição de Poisson parte da seguinte relação recursiva que pode ser facilmente verificada pnj lambdaj e lambda j j 01 F FJ Então o algoritmo para se gerar os sucessivos valores é o seguinte Passo 1 Gere o NA u Passo 2 Faça j 0 p eλ e F p Passo 3 Se u F coloque N j Passo 4 Faça p λ j 1 F F p e j j 1 Passo 5 Volte ao Passo 3 Note que no Passo 2 se j 0 PN 0 p0 eλ e F0 PN 0 p0 2 Transformação de BoxMüller Considere as va X e Y independentes e ambas N0 1 Observando a Figura 910 vemos que R² X² Y² e tgθ YX A densidade conjunta de X e Y é uma distribuição Gamar β com r 0 inteiro basta gerar r valores de uma distribuição exponencial de parâmetro β e depois somálos 4 Simulação de várias variáveis É mais complicado simular distribuições bidimensionais No caso de X e Y serem independentes então fx y fXx fYy x y se elas forem contínuas por exemplo Logo para gerar um valor x y da densidade conjunta fx y basta gerar o componente x da distribuição marginal de X e a componente y da distribuição marginal de Y independente No caso de va dependentes temos que vale a relação fx y fXx fYXyx Logo por essa relação primeiramente geramos um valor x da distribuição marginal de X e fixado esse valor x0 digamos geramos um valor da distribuição condicional de X dado que X x0 Isso implica que devemos saber como gerar valores das distribuições fXx e fYXyx Vamos nos limitar a dar dois exemplos no caso de va independentes Exemplo 918 Distribuição uniforme bidimensional Na Seção 91 vimos que para calcular a área da figura F contida no quadrado Q de lado unitário Figura 91 considerávamos o quociente NN Como geramos naquele exemplo os N pontos uniformemente distribuídos sobre Q Pelo que vimos acima basta gerar valores de va U1 u0 1 e U2 u0 1 independentemente Então PU1 U2 F áreaF Ou seja a va U1 U2 é uniformemente distribuída em Q No caso da Figura 91 consideramos 200 valores gerados para U1 e U2 de modo que a área F 24100 Exemplo 919 Distribuição normal bidimensional O método de BoxMüller gera valores de duas normais padrões independentes Z1 e Z2 Logo se quisermos gerar valores da distribuição conjunta de X e Y independentes e normais com X Nµx σ2 x e Y Nµy σ2 y basta considerarmos X µx σx Z1 Y µy σy Z2 Na Figura 911 temos as curvas de níveis e o gráfico bidimensional obtidos gerandose 10000 valores cada uma de duas normais padrões independentes Figura 911 Distribuição normal padrão bidimensional gerada Parte III INFERÊNCIA ESTATÍSTICA Capítulo 10 Introdução à Inferência Estatística Capítulo 11 Estimação Capítulo 12 Testes de Hipóteses Capítulo 13 Inferência para Duas Populações Capítulo 14 Análise de Aderência e Associação Capítulo 15 Inferência para Várias Populações Capítulo 16 Regressão Linear Simples Capítulo 10 Introdução à Inferência Estatística 101 Introdução Vimos na Parte I como resumir descritivamente variáveis associadas a um ou mais conjuntos de dados Na Parte II construímos modelos teóricos probabilísticos identificados por parâmetros capazes de representar adequadamente o comportamento de algumas variáveis Nesta terceira parte apresentaremos os argumentos estatísticos para fazer afirmações sobre as características de uma população com base em informações dadas por amostras O uso de informações de uma amostra para concluir sobre o todo faz parte da atividade diária da maioria das pessoas Basta observar como uma cozinheira verifica se o prato que está sendo preparando tem ou não a quantidade adequada de sal Ou ainda quando um comprador após experimentar um pedaço de laranja numa banca de feira decide se vai comprar ou não as laranjas Essas são decisões baseadas em procedimentos amostrais Nosso objetivo nos capítulos seguintes é procurar dar a conceituação formal a esses princípios intuitivos do dia a dia para que possam ser utilizados cientificamente em situações mais complexas 102 População e Amostra Nos capítulos anteriores tomamos conhecimento de alguns modelos probabilísticos que procuram medir a variabilidade de fenômenos casuais de acordo com suas ocorrências as distribuições de probabilidades de variáveis aleatórias qualitativas ou quantitativas Na prática frequentemente o pesquisador tem alguma ideia sobre a forma da distribuição mas não dos valores exatos dos parâmetros que a especificam Por exemplo parece razoável supor que a distribuição das alturas dos brasileiros adultos possa ser representada por um modelo normal embora as alturas não possam assumir valores negativos Mas essa afirmação não é suficiente para determinar qual a distribuição normal correspondente precisaríamos conhecer os parâmetros média e variância dessa normal para que ela ficasse completamente especificada O propósito do pesquisador seria então descobrir estimar os parâmetros da distribuição para sua posterior utilização Se pudéssemos medir as alturas de todos os brasileiros adultos teríamos meios de obter sua distribuição exata e daí produzir os correspondentes parâmetros Mas nessa situação não teríamos necessidade de usar a inferência estatística Raramente se consegue obter a distribuição exata de alguma variável ou porque isso é muito dispendioso ou muito demorado ou às vezes porque consiste num processo destrutivo Por exemplo se estivéssemos observando a durabilidade de lâmpadas e testássemos todas até queimarem não restaria nenhuma para ser vendida Assim a solução é selecionar parte dos elementos amostra analisála e inferir propriedades para o todo população Outras vezes estamos interessados em explorar relações entre variáveis envolvendo experimentos mais complexos para a obtenção dos dados Por exemplo gostaríamos de obter resposta para a seguinte indagação a altura que um produto é colocado na gôndola de um supermercado afeta a sua venda Observe que para responder a questão precisamos obter dados de vendas com o produto oferecido em diferentes alturas e que essas vendas sejam controladas para evitar interferências de outros fatores que não a altura Nesse caso não existe claramente um conjunto de todos os elementos para os quais pudéssemos encontrar os parâmetros populacionais Recorrer a modelos para descrever o todo população facilita a identificação e solução do problema Nesse exemplo supondo que as vendas Vh do produto oferecido na altura h h 1 representando baixo h 2 representando meio e h 3 representando alto segue uma distribuição próxima a normal ou seja Vh Nµh σ2 o nosso problema passa a ser o de verificar por meio de dados coletados do experimento amostra se existe evidência de igualdade das médias µ1 µ2 e µ3 Note que em nossa formulação do problema consideremos que as três situações de alturas resultam observações com a mesma variância σ2 Essa suposição poderia ser modificada Soluções de questões como as apresentadas acima são o objeto da inferência estatística Dois conceitos básicos são portanto necessários para o desenvolvimento da Inferência Estatística população e amostra Definição População é o conjunto de todos os elementos ou resultados sob investigação Amostra é qualquer subconjunto da população Vejamos outros exemplos para melhor entender essas definições Exemplo 101 Consideremos uma pesquisa para estudar os salários dos 500 funcionários da Companhia MB Selecionase uma amostra de 36 indivíduos e anotamse os seus salários A variável aleatória a ser observada é salário A população é formada pelos 500 funcionários da companhia A amostra é constituída pelos 36 indivíduos selecionados Na realidade estamos interessados nos salários portanto para sermos mais precisos devemos considerar como a população os 500 salários correspondentes aos 500 funcionários Consequentemente a amostra será formada pelos 36 salários dos indivíduos selecionados Podemos estudar a distribuição dos salários na amostra e esperamos que esta reflita a distribuição de todos os salários desde que a amostra tenha sido escolhida com cuidado Exemplo 102 Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a certo projeto governamental Uma amostra de 200 pessoas é sorteada e a opinião de cada uma é registrada a favor ou contra o projeto A população consiste de todos os moradores da cidade e a amostra é formada pelas 200 pessoas selecionadas Podemos como foi visto no Capítulo 5 definir a variável X que toma o valor 1 se a resposta de um morador for favorável e o valor 0 se a resposta for contrária ao projeto Assim nossa população pode ser reduzida à distribuição de X e a amostra será constituída de uma sequência de 200 zeros e uns Exemplo 103 O interesse é investigar a duração de vida de um novo tipo de lâmpada pois acreditamos que ela tenha uma duração maior do que as fabricadas atualmente Então 100 lâmpadas do novo tipo são deixadas acesas até queimarem A duração em horas de cada lâmpada é registrada Aqui a variável é a duração em horas de cada lâmpada A população é formada por todas as lâmpadas fabricadas ou que venham a ser fabricadas por essa empresa com o mesmo processo A amostra é formada pelas 100 lâmpadas selecionadas Notese que nesse caso não podemos observar a população ou seja a distribuição da duração de vida das lâmpadas na população pois isso corresponderia a queimar todas as lâmpadas Assim em alguns casos não podemos observar a população toda pois isso significaria danificar ou destruir todos os elementos da população Esse problema geralmente é contornado atribuindose um modelo teórico para a distribuição da variável populacional Exemplo 104 Em alguns casos fazemos suposições mais precisas sobre a população ou sobre a variável definida para os elementos da população Digamos que X represente o peso real de pacotes de café enchidos automaticamente por uma máquina Sabese que a distribuição de X pode ser representada por uma normal com parâmetros µ e σ2 desconhecidos Sorteamos 100 pacotes e medimos seus pesos A população será o conjunto de todos os pacotes enchidos ou que virão a ser enchidos pela máquina e que pode ser suposta como normal A amostra será formada pelas 100 medidas obtidas dos pacotes selecionados que pode ser pensada como constituída de 100 observações feitas de uma distribuição normal Veremos mais adiante como tal amostra pode ser obtida Exemplo 105 Para investigar a honestidade de uma moeda nós a lançamos 50 vezes e contamos o número de caras observadas A população como no caso do Exemplo 102 pode ser considerada como tendo a distribuição da variável X assumindo o valor 1 com probabilidade p se ocorrer cara e assumindo o valor 0 com probabilidade 1 p se ocorrer coroa Ou seja a população pode ser considerada como tendo distribuição de Bernoulli com parâmetro p A variável ficará completamente especificada quando conhecermos p A amostra será uma sequência de 50 números zeros ou uns Exemplo 106 Há razões para supor que o tempo Y de reação a certo estímulo visual dependa da idade do indivíduo esse exemplo será usado nos Capítulos 15 e 16 Suponha ainda que essa dependência seja linear Para verificarmos se essa suposição é verdadeira obtiveramse 20 dados da seguinte maneira 20 pessoas foram selecionadas sendo 10 homens e 10 mulheres Dentro de cada grupo de homens e mulheres foram selecionadas duas pessoas das seguintes faixas de idade 20 25 30 35 e 40 anos Cada pessoa foi submetida ao teste e seu tempo de reação y foi medido A população poderia ser considerada como formada por todas aquelas pessoas que viessem a ser submetidas ao teste segundo o sexo e a idade A amostra é formada pelas 20 medidas que estão apresentadas na Tabela 151 Observações i Os três últimos exemplos mostram uma ampliação do conceito definido de população ou seja designamos agora a população como a função probabilidade ou função densidade de probabilidade de uma va X modelando a característica de interesse Esse artifício simplifica substancialmente o problema estatístico exigindo no entanto uma proposta de modelo para a variável X Nesses casos simplificaremos a linguagem dizendo seja a população fx Por exemplo considere a população das alturas X Nµ σ2 ii Essa abordagem por meio da distribuição de probabilidades utiliza muitas vezes o conceito de população infinita contínua exigindo um tratamento matemático mais cuidadoso É mais fácil apresentar os problemas e soluções por meio de populações finitas É o que faremos muitas vezes Entretanto é importante que o estudante aprenda a trabalhar com o conceito de modelo explorando o caso de população fx 103 Problemas de Inferência Como já dissemos anteriormente o objetivo da Inferência Estatística é produzir afirmações sobre dada característica da população na qual estamos interessados a partir de informações colhidas de uma parte dessa população Essa característica na população pode ser representada por uma variável aleatória Se tivéssemos informação completa sobre a função de probabilidade no caso discreto ou sobre a função densidade de probabilidade no caso contínuo da variável em questão não teríamos necessidade de escolher uma amostra Toda a informação desejada seria obtida por meio da distribuição da variável usandose a teoria estudada anteriormente Mas isso raramente acontece Ou não temos qualquer informação a respeito da variável ou ela é apenas parcial Podemos admitir como no exemplo das alturas de brasileiros adultos que ela siga uma distribuição normal mas desconhecemos os parâmetros que a caracterizam média variância Em outros casos podemos ter uma ideia desses parâmetros mas desconhecemos a forma da curva Ou ainda o que é muito frequente não possuímos informações nem sobre os parâmetros nem sobre a forma da curva Em todos os casos o uso de uma amostra nos ajudaria a formar uma opinião sobre o comportamento da variável população Embora a identificação e a descrição da população sejam fundamentais no processo inferencial é comum os pesquisadores dedicarem mais atenção em descrever a amostra do que a população para a qual serão feitas as afirmações É imprescindível que se explicite claramente a população investigada Neste livro estaremos mais preocupados em trabalhar com populações descritas por modelos do que com populações finitas identificadas por elementos portadores de uma característica de interesse Portanto na maioria das vezes iremos nos referir à população X significando que a variável de interesse X definida sobre a populaçãoalvo segue uma distribuição fx Nosso problema de interesse passaria a ser o de fazer afirmações sobre a forma da curva e seus parâmetros Alguns exemplos simples nos darão uma noção dos tipos de formulações e problemas que a inferência estatística pode nos ajudar a resolver Exemplo 105 continuação Voltemos ao exemplo da moeda Indicando por X o número de caras obtidas depois de lançar a moeda 50 vezes sabemos que se tomados alguns cuidados quando do lançamento X segue uma distribuição binomial ou seja X b50 p Esse modelo é válido admitindose ou não a honestidade da moeda isto é sendo ou não p 12 Lançada a moeda vamos supor que tenham ocorrido 36 caras Esse resultado traz evidência de que a moeda seja honesta Para tomarmos uma decisão podemos partir do princípio de que a moeda não favorece nem cara nem coroa isto é p 12 Com essa informação e com o modelo binomial podemos encontrar qual a probabilidade de se obterem 36 caras ou mais e esse resultado nos ajudaria a tomar uma decisão Suponha que a decisão foi rejeitar a honestidade da moeda qual é a melhor estimativa para p baseandose no resultado observado Descrevemos aí os dois problemas básicos da Inferência Estatística o primeiro é chamado teste de hipóteses e o segundo estimação Nos capítulos seguintes esses problemas serão abordados com mais detalhes Exemplo 104 continuação Às vezes o modelo teórico associado ao problema não é tão evidente No caso da máquina de encher pacotes de café automaticamente digamos que ela esteja regulada para enchêlos segundo uma distribuição normal com média 500 gramas e desvio padrão de 10 gramas isto é X N500 102 Sabemos também que às vezes a máquina desregulase e quando isso acontece o único parâmetro que se altera é a média permanecendo a mesma variância Para manter a produção sob controle iremos colher uma amostra de 100 pacotes e pesálos Como essa amostra nos ajudará a tomar uma decisão Parece razoável nesse caso usarmos a média x da amostra como informação pertinente para uma decisão Mesmo que a máquina esteja regulada dificilmente x será igual a 500 gramas dado que os pacotes apresentam certa variabilidade no peso Mas se x não se afastar muito de 500 gramas não existirão razões para suspeitarmos da qualidade do procedimento de produção Só iremos pedir uma revisão se x 500 em valor absoluto for muito grande O problema que se apresenta agora é o de decidir o que é próximo ou distante de 500 gramas Se o mesmo procedimento de colher a amostra de 100 pacotes fosse repetido um número muito grande de vezes sob a condição de a máquina estar regulada teríamos ideia do comportamento da va x e saberíamos dizer se aquele valor observado é ou não um evento raro de ocorrer Caso o seja é mais fácil suspeitar da regulagem da máquina do que do acaso Vemos então a importância nesse caso de se conhecer as propriedades da distribuição da variável x Exemplo 106 continuação A descrição matemática da va Y tempo de reação ao estímulo é um pouco mais complexa Podemos supor que esse tempo para uma dada idade x seja uma va com distribuição normal com média dependendo da idade x ou seja podemos escrever Y Nµx σ2 A linearidade expressa no problema pode ser incluída na média µx da seguinte maneira µx α βx Voltaremos a esse modelo no Capítulo 16 Outra maneira de escrever as duas relações anteriores é Y x Nα βx σ2 Leiase Y dado x Podemos por exemplo estimar os parâmetros α e β baseados na amostra de 20 dados Ou podemos querer investigar a possibilidade de β ser igual a zero significando que a idade não afeta o tempo de reação Novamente os dois principais problemas de inferência aparecem aqui estimação e teste de uma hipótese Um outro problema importante em inferência é o de previsão Por exemplo considerando um grupo de pessoas de 40 anos poderemos prever com o modelo acima qual será o respectivo tempo de reação Repetir um mesmo experimento muitas vezes sob as mesmas condições nem sempre é possível mas em determinadas condições é possível determinar teoricamente o comportamento de algumas medidas feitas na amostra como por exemplo a média Mas isso depende em grande parte do procedimento plano adotado para selecionar a amostra Assim em problemas envolvendo amostras antes de tomarmos uma decisão teríamos de responder a quatro perguntas a Qual a população a ser amostrada b Como obter os dados a amostra c Que informações pertinentes estatísticas serão retiradas da amostra d Como se comportam as estatísticas quando o mesmo procedimento de escolher a amostra é usado numa população conhecida Nas seções e capítulos subsequentes tentaremos responder a essas perguntas 104 Como Selecionar uma Amostra As observações contidas em uma amostra são tanto mais informativas sobre a população quanto mais conhecimento explícito ou implícito tivermos dessa mesma população Por exemplo a análise da quantidade de glóbulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente dará uma ideia geral da quantidade dos glóbulos brancos no corpo todo pois sabese que a distribuição dos glóbulos brancos é homogênea e de qualquer lugar que se tivesse retirado a amostra ela seria representativa Mas nem sempre a escolha de uma amostra adequada é imediata Voltando ao Exemplo 102 para o qual queríamos obter uma amostra de habitantes para saber a opinião sobre um projeto governamental escolhendo intencionalmente uma amostra de 200 indivíduos moradores de certa região beneficiada pelo projeto saberemos de antemão que o resultado conterá um viés de seleção Isto é na amostra a proporção de pessoas favoráveis ao projeto deverá ser maior do que no todo donde a importância da adoção de procedimentos científicos que permitam fazer inferências adequadas sobre a população A maneira de se obter a amostra é tão importante e existem tantos modos de fazêlo que esses procedimentos constituem especialidades dentro da Estatística sendo Amostragem e Planejamento de Experimentos as duas mais conhecidas Poderíamos dividir os procedimentos científicos de obtenção de dados amostrais em três grandes grupos a Levantamentos Amostrais nos quais a amostra é obtida de uma população bem definida por meio de processos bem protocolados e controlados pelo pesquisador Podemos ainda subdividilos em dois subgrupos levantamentos probabilísticos e não probabilísticos O primeiro reúne todas aquelas técnicas que usam mecanismos aleatórios de seleção dos elementos de uma amostra atribuindo a cada um deles uma probabilidade conhecida a priori de pertencer à amostra No segundo grupo estão os demais procedimentos tais como amostras intencionais nas quais os elementos são selecionados com o auxílio de especialistas e amostras de voluntários como ocorre em alguns testes sobre novos medicamentos e vacinas Ambos os procedimentos têm suas vantagens e desvantagens A grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida baseandose no resultado contido na própria amostra Tais medidas já são bem mais difíceis para os procedimentos do segundo grupo Estão nessa situação os Exemplos 101 conhecer os salários da Cia MB 102 identificar a proporção de indivíduos favoráveis ao projeto 104 pesos dos pacotes de café etc b Planejamento de Experimentos cujo principal objetivo é o de analisar o efeito de uma variável sobre outra Requer portanto interferências do pesquisador sobre o ambiente em estudo população bem como o controle de fatores externos com o intuito de medir o efeito desejado Podemos citar como exemplos aquele já citado sobre a altura de um produto na gôndola de um supermercado afetar as vendas e o Exemplo 106 Em ensaios clínicos em medicina esse tipo de estudo é bastante usado como por exemplo para testar se um novo medicamento é eficaz ou não para curar certa doença c Levantamentos Observacionais nos quais os dados são coletados sem que o pesquisador tenha controle sobre as informações obtidas exceto eventualmente sobre possíveis erros grosseiros As séries de dados temporais são exemplos típicos desses levantamentos Por exemplo queremos prever as vendas de uma empresa em função de vendas passadas O pesquisador não pode selecionar dados esses são as vendas efetivamente ocorridas Nesses casos a especificação de um modelo desempenha um papel crucial na ligação entre dados e população No caso de uma série temporal o modelo subjacente é o de processo estocástico podemos pensar que a série efetivamente observada é uma das infinitas possíveis realizações desse processo A população hipotética aqui seria o conjunto de todas essas realizações e a série observada seria a amostra Veja Morettin e Toloi 2006 para mais informações Neste livro iremos nos concentrar principalmente em levantamentos amostrais e mais ainda num caso simples de amostragem probabilística a amostragem aleatória simples com reposição a ser designada por AAS O leitor poderá consultar Bussab e Bolfarine 2005 para obter mais detalhes sobre outros procedimentos amostrais Um breve resumo sobre alguns planos é dado no Problema 37 Noções sobre planejamento de experimentos podem ser vistas em Peres e Saldiva 1982 Problemas 1 Dê sua opinião sobre os tipos de problemas que surgiriam nos seguintes planos amostrais a Para investigar a proporção dos operários de uma fábrica favoráveis à mudança do início das atividades das 7h para as 7h30 decidiuse entrevistar os 30 primeiros operários que chegassem à fábrica na quartafeira b Mesmo procedimento só que o objetivo é estimar a altura média dos operários c Para estimar a porcentagem média da receita municipal investida em lazer enviaram se questionários a todas as prefeituras e a amostra foi formada pelas prefeituras que enviaram as respostas d Para verificar o fato de oferecer brindes nas vendas de sabão em pó tomaramse quatro supermercados na zona sul e quatro na zona norte de uma cidade Nas quatro lojas da zona sul o produto era vendido com brinde enquanto nas outras quatro era vendido sem brinde No fim do mês compararamse as vendas da zona sul com as da zona norte 2 Refazer o Problema 7 do Capítulo 8 105 Amostragem Aleatória Simples A amostragem aleatória simples é a maneira mais fácil para selecionarmos uma amostra probabilística de uma população Além disso o conhecimento adquirido com esse procedimento servirá de base para o aprendizado e desenvolvimento de outros procedimentos amostrais planejamento de experimentos estudos observacionais etc Comecemos introduzindo o conceito de AAS de uma população finita para a qual temos uma listagem de todas as N unidades elementares Podemos obter uma amostra nessas condições escrevendo cada elemento da população num cartão misturandoos numa urna e sorteando tantos cartões quantos desejarmos na amostra Esse procedimento tornase inviável quando a população é muito grande Nesse caso usase um processo alternativo no qual os elementos são numerados e em seguida sorteados por meio de uma tabela de números aleatórios veja a sua utilização em Problemas e Complementos ou por meio do uso de computadores que podem gerar números aleatórios veja o Capítulo 9 Utilizandose um procedimento aleatório sorteiase um elemento da população sendo que todos os elementos têm a mesma probabilidade de ser selecionados Repetese o procedimento até que sejam sorteadas as n unidades da amostra Podemos ter uma AAS com reposição se for permitido que uma unidade possa ser sorteada mais de uma vez e sem reposição se a unidade sorteada for removida da população Do ponto de vista da quantidade de informação contida na amostra amostrar sem reposição é mais adequado Contudo a amostragem com reposição conduz a um tratamento teórico mais simples pois ela implica que tenhamos independência entre as unidades selecionadas Essa independência facilita o desenvolvimento das propriedades dos estimadores que serão considerados Portanto para o restante do livro o plano amostral considerado será o de amostragem aleatória simples com reposição que denotaremos simplesmente por AAS Vejamos com algum detalhe o significado mais preciso de uma amostra Exemplo 107 Considere o Problema 2 acima em que colhemos todas as amostras possíveis de tamanho 2 com reposição da população 1 3 5 5 7 Defina a variável X valor assumido pelo elemento na população Então a distribuição de X é dada pela Tabela 101 Tabela 101 Distribuição da va X para o Problema 2 x 1 3 5 7 PX x 15 15 25 15 Indicando por X1 o número selecionado na primeira extração e por X2 o número selecionado na segunda extração vimos que era possível escrever a distribuição conjunta do par X1 X2 Veja também a Tabela 102 Além disso as distribuições marginais de X1 e X2 são independentes e iguais à distribuição de X Desse modo cada uma das 25 possíveis amostras de tamanho 2 que podemos extrair dessa população corresponde a observar uma particular realização da va X1 X2 com X1 e X2 independentes e PX1 x PX2 x PX x para todo x Essa é a caracterização de amostra casual simples que iremos usar neste livro Definição Uma amostra aleatória simples de tamanho n de uma variável aleatória X com dada distribuição é o conjunto de n variáveis aleatórias independentes X1 X2 Xn cada uma com a mesma distribuição de X Ou seja a amostra será a nupla ordenada X1 X2 Xn em que Xi indica a observação do iésimo elemento sorteado Quando a população é caracterizada por uma distribuição de probabilidades o modo mais simples para sortear uma AAS é usar os procedimentos de simulação estudados no Capítulo 9 O processo de simular uma observação de uma distribuição especificada por seus parâmetros nada mais é do que retirar uma AAS de tamanho um da população Desse modo para retirar uma AAS com reposição de n indivíduos da população X basta gerar n números aleatórios independentes dessa distribuição Exemplo 108 Vamos retirar uma AAS de 5 alturas em cm de uma população de mulheres cujas alturas X seguem a distribuição N167 25 Usandose por exemplo o gerador de números aleatórios do Excel fornecendo os parâmetros µ 167 e σ 5 além do tamanho da amostra n 5 obtemos os valores x1 165 x2 161 x3 168 x4 173 x5 173 Note que se você for gerar uma tal amostra poderá obter valores diferentes desses Observe também que o primeiro elemento a ser observado pode ser qualquer valor da população simulada N167 25 Desse modo indicando por X1 o valor observado na primeira extração concluímos que X1 N167 25 Como a geração do segundo número aleatório é feita independentemente do segundo resulta que a va X2 valor observado na segunda extração também segue uma distribuição N167 25 e assim por diante Diante do exposto vemos que continua válida a definição de AAS dada acima quando a amostra é retirada de uma população referenciada pela sua distribuição de probabilidades No caso de uma população X contínua com fdp f x a fdp conjunta da amostra X1 X2 Xn segundo o que vimos no Capítulo 8 será dada por fx1 x2 xn f1x1 f2x2 fnxn em que fixi denota a distribuição marginal de Xi i 1 n Antes de prosseguirmos seria interessante fazer uma comparação da inferência estatística com o processo de simulação da população Podemos imaginar que qualquer característica X de interesse seja produzida por um programa modelo de gerador de números aleatórios e que somente o proprietário natureza desse programa é que conhece a forma da distribuição de X os valores dos parâmetros etc relacionados ao programa Quando obtemos a amostra estamos apenas observando o resultado da simulação não conhecemos nada do processo gerador dos dados O objetivo da inferência estatística é fornecer critérios para nos ajudar a descobrir a forma da distribuição eou parâmetros usados pelo proprietário Bons indicadores desses valores nos ajudam a entender melhor os fenômenos e fazer previsões para futuras observações Daqui para frente a menos que esteja especificada de outra maneira sempre que mencionarmos a palavra amostra estaremos entendendo a amostra obtida pelo processo probabilístico AAS ou seja o vetor aleatório X1 X2 Xn definido acima Problemas 3 A distribuição do número de filhos por família de uma zona rural está no quadro abaixo Nº de filhos Porcentagem 0 10 1 20 2 30 3 25 4 15 Total 100 a Sugira um procedimento para sortear uma observação ao acaso dessa população b Dê na forma de uma tabela de dupla entrada as possíveis amostras do número de filhos de duas famílias que podem ser sorteadas e as respectivas probabilidades de ocorrência c Se fosse escolhida uma amostra de tamanho 4 qual seria a probabilidade de se observar a quádrupla ordenada 2 3 3 1 106 Estatísticas e Parâmetros Obtida uma amostra muitas vezes desejamos usála para produzir alguma característica específica Por exemplo se quisermos calcular a média da amostra X1 X2 Xn esta será dada por É fácil verificar que X é também uma variável aleatória Podemos também estar interessados em qualquer outra característica da amostra que será sempre uma função do vetor aleatório X1 Xn Definição Uma estatística é uma característica da amostra ou seja uma estatística T é uma função de X1 X2 Xn As estatísticas mais comuns são Em geral como já vimos no Capítulo 3 podemos considerar as estatísticas de ordem X1 X2 Xn ou seja os elementos da amostra ordenados Outras estatísticas importantes são os quantis empíricos qp 0 p 1 definidos no Capítulo 3 especialmente os três quartis q1 q2 e q3 Para facilitar a linguagem usada em Inferência Estatística iremos diferenciar as características da amostra e da população Definição Um parâmetro é uma medida usada para descrever uma característica da população Assim se estivermos colhendo amostras de uma população identificada pela va X seriam parâmetros a média EX e sua variância VarX Os símbolos mais comuns são dados na tabela a seguir elementos sorteados dessa população Nossa decisão será baseada na estatística T que será uma função da amostra X1 X2 Xn ou seja T f X1 Xn Colhida essa amostra teremos observado um particular valor de T digamos t0 e baseados nesse valor é que faremos a afirmação sobre q o parâmetro populacional Veja a Figura 101 a A validade da nossa resposta seria melhor compreendida se soubéssemos o que acontece com a estatística T quando retiramos todas as amostras de uma população conhecida segundo o plano amostral adotado Isto é qual a distribuição de T quando X1 Xn assume todos os valores possíveis Essa distribuição é chamada distribuição amostral da estatística T e desempenha papel fundamental na teoria da inferência estatística Esquematicamente teríamos o procedimento representado na Figura 101 em que temos a uma população X0 com determinado parâmetro de interesse θ b todas as amostras retiradas da população de acordo com certo procedimento c para cada amostra calculamos o valor t da estatística T e d os valores t formam uma nova população cuja distribuição recebe o nome de distribuição amostral de T Vejamos alguns exemplos simples para aclarar um pouco mais o conceito de distribuição amostral de uma estatística Nosso principal objetivo é identificar um modelo que explique bem a distribuição amostral de T É evidente que a distribuição de T irá depender da distribuição de X e do plano amostral em nosso caso reduzido a AAS Exemplo 109 Voltemos ao Exemplo 107 no qual selecionamos todas as amostras de tamanho 2 com reposição da população 1 3 5 5 7 A distribuição conjunta da variável bidimensional X1 X2 é dada na Tabela 102 Vejamos qual é a distribuição da estatística 101 Essa distribuição é obtida por meio da Tabela 102 Por exemplo quando a amostra selecionada é o par 1 1 a média será 1 então temos que P X 1 125 Obteremos a média igual a 3 quando ocorrer o evento A 1 53 35 1 logo Tabela 102 Distribuição das probabilidades das possíveis amostras de tamanho 2 que podem ser selecionadas com reposição da população 1 3 5 5 7 w 0 2 4 6 Total PW w 725 1025 625 225 100 Tabela 105 Distribuição amostral de S2 s2 0 2 8 18 Total PS2 s2 725 1025 625 225 100 Exemplo 105 continuação No caso do lançamento de uma moeda 50 vezes usando como estatística X número de caras obtidas a obtenção da distribuição amostral que já foi vista é feita por meio do modelo binomial b50 p qualquer que seja p probabilidade de ocorrência de cara num lançamento 0 p 1 Se estivermos interessados em julgar a honestidade da moeda estaremos verificando se p 05 Nessas condições a PX 36n 50 p 05 00013 013 Portanto caso a moeda seja honesta em 50 lançamentos a probabilidade de se obterem 36 ou mais caras é da ordem de 1 por 1000 Ou seja se a moeda fosse honesta o resultado observado 36 caras seria muito pouco provável evidenciando que p 05 Comparando os dois últimos exemplos vemos que nos interessa determinar propriedades das distribuições amostrais que possam ser aplicadas em situações mais gerais como no caso binomial e não em situações muito particulares como no Exemplo 107 Iremos agora estudar as distribuições amostrais de algumas estatísticas importantes Nos capítulos seguintes essas distribuições serão usadas para fazer inferências sobre populações Quando estivermos trabalhando com populações identificadas pela distribuição de probabilidades não poderemos gerar todas as amostras possíveis Devemos contentarnos em simular um número grande de amostras e ter uma ideia do que acontece com a estatística de interesse Exemplo 108 continuação Qual seria a distribuição amostral da mediana das alturas de amostras de 5 mulheres retiradas da população X N167 25 Como não podemos gerar todas as possíveis amostras de tamanho 5 dessa população simulamos via Excel 200 amostras de tamanho 5 e obtivemos os seguintes resultados Emd 16688 Varmd 74289 dpmd 272 x1 minX1 X200 160 x200 max X1 X200 173 Observando os resultados somos levados a pensar que a distribuição amostral de md deve ser próxima de uma normal com média próxima de µ 167 e desvio padrão menor do que σ 5 Veja a Figura 103 Voltaremos a falar na distribuição da mediana amostral em seções futuras Figura 103 Distribuição amostral da mediana obtida de 200 amostras de tamanho 5 de X N 167 25 Problemas 4 Usando os dados da Tabela 102 construa a distribuição amostral da estatística 5 No Problema 3 se X indicar o número de filhos na população X1 o número de filhos observados na primeira extração e X2 na segunda a calcule a média e a variância de X b calcule EXi e VarXi i 1 2 c construa a distribuição amostral de d calcule EX e VarX e faça num mesmo gráfico os histogramas de X e de X f construa as distribuições amostrais de g baseado no resultado de f qual dos dois estimadores você usaria para estimar a variância de X Por quê h calcule PX µ 1 6 Ainda com os dados do Problema 3 e para amostras de tamanho 3 a determine a distribuição amostral de X e faça o histograma b calcule a média e variância de X c calcule PX µ 1 d se as amostras fossem de tamanho 4 a PX µ 1 seria maior ou menor do que a probabilidade encontrada em c Por quê 108 Distribuição Amostral da Média Vamos estudar agora a distribuição amostral da estatística X a média da amostra Consideremos uma população identificada pela variável X cujos parâmetros média populacional µ EX e variância populacional σ2 VarX são supostos conhecidos Vamos retirar todas as possíveis AAS de tamanho n dessa população e para cada uma calcular a média X Em seguida consideremos a distribuição amostral e estudemos suas propriedades Voltemos a considerar a título de ilustração o Exemplo 107 Exemplo 1010 A população 1 3 5 5 7 tem média µ 42 e variância σ2 416 A distribuição amostral de X está na Tabela 103 da qual obtemos De modo análogo encontramos VarX 208 Verificamos aqui dois fatos primeiro a média das médias amostrais coincide com a média populacional segundo a variância de X é igual à variância de X dividida por n 2 Estes dois fatos não são casos isolados Na realidade temos o seguinte resultado Teorema 101 Seja X uma va com média µ e variância σ2 e seja X1 Xn uma AAS de X Então Prova Pelas propriedades vistas no Capítulo 8 temos E X 1n EX1 EXn 1n µ µ µ nµn µ De modo análogo e pelo fato de X1 Xn serem independentes temos Var X 1n2 VarX1 VarXn 1n2 σ2 σ2 nσ2n2 σ2n Determinamos então a média e a variância da distribuição amostral de X Vejamos agora como obter informação sobre a forma da distribuição dessa estatística Exemplo 1010 continuação Para a população 1 3 5 5 7 vamos construir os histogramas das distribuições de X para n 1 2 e 3 i Para n 1 vemos que a distribuição de X coincide com a distribuição de X com EX EX 42 e VarX VarX 416 Figura 104a Figura 104 Distribuição de X para amostras de 1 3 5 5 7 ii Para n 2 baseados na Tabela 103 temos a distribuição de X dada na Figura 104b com EX 42 e VarX 208 iii Finalmente para n 3 com os dados da Tabela 106 temos a distribuição de X na Figura 104 c com EX 42 e VarX 139 Observe que conforme n vai aumentando o histograma tende a se concentrar cada vez mais em torno de EX EX 42 já que a variância vai diminuindo Os casos extremos passam a ter pequena probabilidade de ocorrência Quando n for suficientemente grande o histograma alisado aproximase de uma distribuição normal Essa aproximação pode ser verificada analisandose os gráficos da Figura 105 que mostram o comportamento do histograma de X para várias formas da distribuição da população e vários valores do tamanho da amostra n Esses exemplos sugerem que quando o tamanho da amostra aumenta independentemente da forma da distribuição da população a distribuição amostral de X aproximase cada vez mais de uma distribuição normal Esse resultado fundamental na teoria da Inferência Estatística é conhecido como Teorema Limite Central TLC Figura 105 Histogramas correspondentes às distribuições amostrais de X para amostras extraídas de algumas populações Teorema 102 TLC Para amostras aleatórias simples X1 Xn retiradas de uma população com média µ e variância σ2 finita a distribuição amostral da média X aproximase para n grande de uma distribuição normal com média µ e variância σ2n A demonstração completa desse teorema exigiria recursos dos quais não dispomos portanto não será dada mas o importante é sabermos como esse resultado pode ser usado Observemos que se a população for normal então X terá distribuição exata normal Esse resultado segue do fato de que a distribuição de uma combinação linear de vas normais independentes tem ainda distribuição normal No caso da X a média e variância dessa normal serão dadas pelo Teorema 101 A prova dessa propriedade depende do conceito de função geradora de momentos que não será objeto deste livro O leitor interessado pode consultar Meyer 1965 por exemplo Exemplo 1011 Voltemos ao Exemplo 104 em que uma máquina enchia pacotes cujos pesos seguiam uma distribuição N500 100 Colhendose um amostra de n 100 pacotes e pesandoos pelo que foi dito acima X terá uma distribuição normal com média 500 e variância 100100 1 Logo se a máquina estiver regulada a probabilidade de encontrarmos a média de 100 pacotes diferindo de 500 g de menos de 2 gramas será PX 500 2 P498 X 502 P2 Z 2 95 Ou seja dificilmente 100 pacotes terão uma média fora do intervalo 498 502 Caso 100 pacotes apresentem uma média fora desse intervalo podemos considerar como um evento raro e será razoável supor que a máquina esteja desregulada Outra maneira de apresentar o TLC é por meio do Corolário 101 Se X1 Xn for uma amostra aleatória simples da população X com média µ e variância σ2 finita e X X1 Xnn então 102 Basta notar que se usou a transformação usual de reduzir a distribuição de X a uma normal padrão Observe também que 102 pode ser escrita como 103 Chamemos de e a va que mede a diferença entre a estatística X e o parâmetro µ isto é e X µ e é chamado o erro amostral da média Então temos o Corolário 102 A distribuição de e aproximase de uma distribuição normal com média 0 e variância σ2n isto é 104 O TLC afirma que X aproximase de uma normal quando n tende para o infinito e a rapidez dessa convergência veja a Figura 105 depende da distribuição da população da qual a amostra é retirada Se a população original tem uma distribuição próxima da normal a convergência é rápida se a população original se afasta muito de uma normal a convergência é mais lenta ou seja necessitamos de uma amostra maior para que X tenha uma distribuição aproximadamente normal Para amostras da ordem de 30 ou 50 elementos a aproximação pode ser considerada boa Problemas 7 Uma va X tem distribuição normal com média 100 e desvio padrão 10 a Qual a P90 X 110 b Se X for a média de uma amostra de 16 elementos retirados dessa população calcule P90 X 110 c Represente num único gráfico as distribuições de X e X d Que tamanho deveria ter a amostra para que P90 X 110 095 8 A máquina de empacotar um determinado produto o faz segundo uma distribuição normal com média µ e desvio padrão 10 g a Em quanto deve ser regulado o peso médio µ para que apenas 10 dos pacotes tenham menos do que 500 g b Com a máquina assim regulada qual a probabilidade de que o peso total de 4 pacotes escolhidos ao acaso seja inferior a 2 kg 9 No exemplo anterior e após a máquina estar regulada programouse uma carta de controle de qualidade De hora em hora será retirada uma amostra de quatro pacotes os quais serão pesados Se a média da amostra for inferior a 495 g ou superior a 520 g encerrase a produção para reajustar a máquina isto é reajustar o peso médio a Qual é a probabilidade de ser feita uma parada desnecessária b Se o peso médio da máquina desregulouse para 500 g qual é a probabilidade de continuar a produção fora dos padrões desejados 10 A capacidade máxima de um elevador é de 500 kg Se a distribuição X dos pesos dos usuários for suposta N70 100 a Qual é a probabilidade de sete passageiros ultrapassarem esse limite b E seis passageiros 109 Distribuição Amostral de uma Proporção Vamos considerar uma população em que a proporção de elementos portadores de certa característica é p Logo podemos definir uma va X da seguinte maneira logo µ EX p σ2 VarX p1 p Retirada uma AAS dessa população e indicando por Yn o total de indivíduos portadores da característica na amostra já vimos que Yn bn p Vamos definir por a proporção de indivíduos portadores da característica na amostra isto é Então PYn k PYnn kn P kn ou seja a distribuição amostral de é obtida da distribuição de Yn Vimos na Seção 75 que a distribuição binomial pode ser aproximada pela distribuição normal Vamos mostrar que a justificativa desse fato está no TLC Inicialmente observe que Yn X1 X2 Xn em que cada Xi tem distribuição de Bernoulli com média µ p e variância σ2 p1 p e são duas a duas independentes Podemos escrever que Yn n X mas pelo TLC X terá distribuição aproximadamente normal com média p e variância ou seja Logo a transformação Yn n X terá a distribuição Yn Nnp np1 p que foi a aproximação adotada na Seção 75 Observe que X na expressão acima é a própria variável e desse modo para n grande podemos considerar a distribuição amostral de p como aproximadamente normal Exemplo 1012 Suponha que p 30 dos estudantes de uma escola sejam mulheres Colhemos uma AAS de n 10 estudantes e calculamos proporção de mulheres na amostra Qual a probabilidade de que difira de p em menos de 001 Temos que essa probabilidade é dada por P p 001 P001 p 001 Mas e como p 03 temos que Var 0 30 710 0021 e portanto a probabilidade pedida é igual a Problemas 11 Sabese que 20 das peças de um lote são defeituosas Sorteiamse oito peças com reposição e calculase a proporção p de peças defeituosas na amostra a Construa a distribuição exata de p use a tábua da distribuição binomial b Construa a aproximação normal à binomial c Você pensa que a segunda distribuição é uma boa aproximação da primeira d Já sabemos que para dado p fixo a aproximação melhora conforme n aumenta Agora se n for fixo para qual valor de p a aproximação é melhor 12 Um procedimento de controle de qualidade foi planejado para garantir um máximo de 10 de itens defeituosos na produção A cada 6 horas sorteiase uma amostra de 20 peças e havendo mais de 15 de defeituosas encerrase a produção para verificação do processo Qual a probabilidade de uma parada desnecessária 13 Supondo que a produção do exemplo anterior esteja sob controle isto é p 10 e que os itens sejam vendidos em caixas com 100 unidades qual a probabilidade de que uma caixa a tenha mais do que 10 de defeituosos b não tenha itens defeituosos 1010 Outras Distribuições Amostrais Do mesmo modo que estudamos a distribuição amostral de X podemos em princípio estudar a distribuição amostral de qualquer estatística T fX1 Xn Mas quanto mais complexa for essa relação f mais difícil será a derivação matemática das propriedades dessa estatística Vejamos alguns exemplos Exemplo 1013 Na Tabela 106 apresentamos a distribuição de três outras estatísticas a variância da amostra a mediana amostral md e o estimador que difere de S2 apenas no denominador e que foi estudado no Capítulo 3 Desta tabela obtemos as distribuições amostrais apresentadas nas Tabelas 107 108 e 109 Tabela 106 Distribuição amostral de algumas estatísticas obtidas de amostra de tamanho n 3 retiradas da população 1 3 5 5 7 µ 42 σ2 416 e Md 5 Tipo de amostra Frequência prob 125 Soma Soma dos quadrados Média x Mediana md Variância s2 2 111 1 3 3 100 1 0 0 113 3 5 11 167 1 43 89 115 6 7 27 233 1 163 329 117 3 9 51 300 1 12 8 133 3 7 19 233 3 43 89 135 12 9 35 300 3 4 83 137 6 11 59 367 3 283 569 155 12 11 51 367 5 163 329 157 12 13 75 433 5 283 569 177 3 15 99 500 7 12 8 333 1 9 27 300 3 0 0 335 6 11 43 367 3 43 89 337 3 13 67 433 3 163 329 355 12 13 59 433 5 43 89 357 12 15 83 500 5 4 83 377 3 17 107 567 7 163 329 555 8 15 75 500 5 0 0 557 12 17 99 567 5 43 89 577 6 19 123 633 7 43 89 777 1 21 147 700 7 0 0 Total 125 Tabela 107 Distribuição amostral da variância S2 para amostras de tamanho 3 retiradas da população 1 3 5 5 7 s2 000 133 400 533 933 1200 PS2 s2 11125 42125 24125 24125 18125 6125 ES2 416 VarS2 1128 Tabela 108 Distribuição amostral da mediana da amostra md para amostras de tamanho 3 retiradas da população 1 3 5 5 7 md 1 3 5 7 Prob 13125 31125 68125 13125 Emd 430 Varmd 254 Tabela 109 Distribuição amostral da variância 2 para amostras de tamanho 3 retiradas da população 1 3 5 5 7 σ² 000 089 267 356 622 800 Prob 11125 42125 24125 24125 18125 6125 Figura 108 Distribuição amostral de σ2 para amostras de tamanho n 3 extraídas de 1 3 5 5 7 Problemas 14 Usando os dados da Tabela 102 a construa a distribuição amostral de 2 e compare com a distribuição amostral de S2 Tabela 105 Você notou alguma propriedade de S2 que seja melhor do que de 2 b seja U a média de elementos distintos de amostras de tamanho n 3 Por exemplo se a amostra observada for 1 1 3 então u 1 32 2 Construa a distribuição amostral de U c compare as distribuições amostrais de U e X 15 Na tabela abaixo temse a distribuição dos salários da Secretaria A Classes de salários Frequência relativa 45 75 010 75 105 020 105 135 040 135 165 020 165 195 010 a Calcule a média a variância e a mediana dos salários nessa população b Construa a distribuição amostral da média e da mediana para amostras de tamanho 2 retiradas dessa população c Mostre que a média X e a mediana md da amostra são estimadores não viesados da mediana Md da população no sentido que EX Emd Md d Qual dos dois estimadores não viesados você usaria para estimar Md nesse caso Por quê e Baseado na distribuição amostral da média encontre a distribuição amostral da estatística para n 2 f Quais são os valores de EZ e VarZ g Construa a distribuição amostral da estatística e faça o seu histograma h Calcule a média e variância de S2 i Baseandose nas distribuições amostrais anteriores determine a distribuição amostral da estatística e construa seu histograma Qual é o problema encontrado j Calcule a média e variância de t quando possível k Calcule a Pt 2 e Pt 430 16 Tente esboçar como ficariam os histogramas das estatísticas abaixo para amostras de tamanho grande a S2 faça o histograma da distribuição da Tabela 105 b Veja o Teorema Limite Central c definida no problema anterior compare com a expressão e o resultado obtido em b 1011 Determinação do Tamanho de uma Amostra Em nossas considerações anteriores fizemos a suposição que o tamanho da amostra n era conhecido e fixo Podemos em certas ocasiões querer determinar o tamanho da amostra a ser escolhida de uma população de modo a obter um erro de estimação previamente estipulado com determinado grau de confiança Por exemplo suponha que estejamos estimando a média µ populacional e para tanto usaremos a média amostral X baseada numa amostra de tamanho n Suponha que se queira determinar o valor de n de modo que 105 com 0 γ 1 e ε é o erro amostral máximo que podemos suportar ambos valores fixados Sabemos que X Nµ σ2n logo X µ N0 σ2n e portanto 105 pode ser escrita com Dado γ podemos obter zγ da N01 tal que Pzγ Z zγ γ de modo que do que obtemos finalmente 106 Note que em 106 conhecemos zγ e ε mas σ2 é a variância desconhecida da população Para podermos ter uma ideia sobre n devemos ter alguma informação prévia sobre σ2 ou então usar uma pequena amostra piloto para estimar σ2 Exemplo 1013 continuação Suponha que uma pequena amostra piloto de n 10 extraída de uma população forneceu os valores X 15 e S2 16 Fixandose ε 05 e γ 095 temos No caso de proporções usando a aproximação normal da Seção 109 para é fácil ver que 106 resulta 107 Como não conhecemos p a verdadeira proporção populacional podemos usar o fato de que p1 p 14 para todo p e 107 fica 108 Por outro lado se tivermos alguma informação sobre p ou pudermos estimálo usando uma amostra piloto basta substituir esse valor estimado em 107 Exemplo 1014 Suponha que numa pesquisa de mercado estimase que no mínimo 60 das pessoas entrevistadas preferirão a marca A de um produto Essa informação é baseada em pesquisas anteriores Se quisermos que o erro amostral de seja menor do que ε 003 com probabilidade γ 095 teremos na qual usamos o fato de que p 060 Veja também os Problemas 19 20 e 41 Problemas 17 Suponha que uma indústria farmacêutica deseja saber a quantos voluntários se deva aplicar uma vacina de modo que a proporção de indivíduos imunizados na amostra difira de menos de 2 da proporção verdadeira de imunizados na população com probabilidade 90 Qual o tamanho da amostra a escolher Use 108 18 No problema anterior suponha que a indústria tenha a informação de que a proporção de imunizados pela vacina seja p 080 Qual o novo tamanho de amostra a escolher Houve redução 19 Seja o tamanho de amostra dado por 107 e n0 dado por 108 Prove que para todo p temos n n0 Use a função fp p1 p para sua resposta 20 Suponha que haja a informação p p0 05 com p0 conhecida Se mostre que n n1 n0 Mostre que essa mesma relação vale se soubermos que p p0 05 Sugestão note que fp p1 p é crescente em 0 05 atinge o máximo em 05 e depois é decrescente em 05 1 1012 Exemplos Computacionais Vimos no Exemplo 107 como escolher todas as possíveis amostras de tamanho n 2 com reposição da população 1 3 5 5 7 Obtemos 52 25 amostras Como já salientamos em seções anteriores ao escolher uma amostra de uma população estamos na realidade gerando valores de uma va com determinada distribuição de probabilidades supostamente conhecida No exemplo podemos pensar na va X assumindo os valores x1 1 x2 3 x3 5 x4 5 x5 7 com probabilidades todas iguais a 02 Portanto para escolher uma amostra de tamanho n 2 basta gerar dois valores dessa distribuição como aprendemos no Capítulo 9 Os programas Excel SPlus Minitab e R têm comandos apropriados para gerar amostras de uma população especificada Exemplo 1015 O Excel usa a opção Amostragem dentro de Análise de Dados do menu Ferramentas Na coluna G do quadro do Exemplo 95 temos uma amostra aleatória simples com reposição de tamanho n 5 da população P 1 2 10 que está na coluna F Exemplo 1016 O R e o SPlus usam o comando samplexn para gerar uma amostra sem reposição de tamanho n do conjunto x e o comando samplexnreplaceT para gerar uma amostra com reposição O Quadro 101 mostra como obter amostras de tamanho n 7 do conjunto x 1 2 3 15 sem e com reposição Quadro 101 Geração de amostras R e SPlus xc 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 sample x 7 1 6 7 4 2 3 10 5 sample x 7 replaceT 1 12 14 11 10 15 4 11 Exemplo 1017 O Minitab usa os comandos Sample e Replace para obter amostras Temos no Quadro 102 amostras de tamanho n 5 obtidas do conjunto 1 2 10 na coluna C1 Na coluna C2 temos uma amostra sem reposição e na coluna C3 uma amostra com reposição Quadro 102 Geração de amostras Minitab C1 C2 C3 1 1 10 8 2 2 1 3 3 3 8 8 MTB Sample 5 C1 C2 4 4 2 6 MTB 5 5 7 4 MTB Sample 5 C1 C3 6 6 SUBC Replace 7 7 MTB 8 8 9 9 10 10 1013 Problemas Suplementares 21 Uma va X tem distribuição normal com média 10 e desvio padrão 4 Aos participantes de um jogo é permitido observar uma amostra de qualquer tamanho e calcular a média amostral Ganha um prêmio aquele cuja média amostral for maior que 12 a Se um participante escolher uma amostra de tamanho 16 qual é a probabilidade de ele ganhar um prêmio b Escolha um tamanho de amostra diferente de 16 para participar do jogo Qual é a probabilidade de você ganhar um prêmio c Baseado nos resultados acima qual o melhor tamanho de amostra para participar do jogo 22 Se uma amostra com 36 observações for tomada de uma população qual deve ser o tamanho de uma outra amostra para que o desvio padrão dessa amostra seja 23 do desvio padrão da média da primeira 23 Definimos a variável e X µ como sendo o erro amostral de média Suponha que a variância dos salários de uma certa região seja 400 reais2 a Determine a média e a variância de e b Que proporção das amostras de tamanho 25 terão erro amostral absoluto maior do que 2 reais c E qual a proporção das amostras de tamanho 100 d Nesse último caso qual o valor de d tal que Pe d 1 e Qual deve ser o tamanho da amostra para que 95 dos erros amostrais absolutos sejam inferiores a um real 24 A distribuição dos comprimentos dos elos da corrente de bicicleta é normal com média 2 cm e variância 001 cm2 Para que uma corrente se ajuste à bicicleta deve ter comprimento total entre 58 e 61 cm a Qual é a probabilidade de uma corrente com 30 elos não se ajustar à bicicleta b E para uma corrente com 29 elos Observação suponha que os elos sejam selecionados ao acaso para compor a corrente de modo que se tenha independência 25 Cada seção usada para a construção de um oleoduto tem um comprimento médio de 5 m e desvio padrão de 20 cm O comprimento total do oleoduto será de 8 km a Se a firma construtora do oleoduto encomendar 1600 seções qual é a probabilidade de ela ter de comprar mais do que uma seção adicional isto é de as 1600 seções somarem menos do que 7995 m b Qual é a probabilidade do uso exato de 1599 seções isto é a soma das 1599 seções estar entre 8000 m e 8005 m 26 Um professor dá um teste rápido constante de 20 questões do tipo certoerrado Para testar a hipótese de o estudante estar adivinhando a resposta ele adota a seguinte regra de decisão Se 13 ou mais questões estiverem corretas ele não está adivinhando Qual é a probabilidade de rejeitarmos a hipótese sendo que na realidade ela é verdadeira 27 Um distribuidor de sementes determina por meio de testes que 5 das sementes não germinam Ele vende pacotes com 200 sementes com garantia de 90 de germinação Qual é a probabilidade de que um pacote não satisfaça à garantia 28 Uma empresa fabrica cilindros com 50 mm de diâmetro sendo o desvio padrão 25 mm Os diâmetros de uma amostra de quatro cilindros são medidos a cada hora A média da amostra é usada para decidir se o processo de fabricação está operando satisfatoriamente Aplicase a seguinte regra de decisão Se o diâmetro médio de amostra de quatro cilindros for maior ou igual a 537 mm ou menor ou igual a 463 mm devese parar o processo Se o diâmetro médio estiver entre 463 e 537 mm o processo continua a Qual é a probabilidade de se parar o processo se a média dos diâmetros permanecer em 50 mm b Qual é a probabilidade de o processo continuar se a média dos diâmetros se deslocar para 537 mm 29 O CDVeículos traz os preços de 30 carros nacionais e importados extraídos da população de todos os carros vendidos no mercado Supondo que o desvio padrão dessa amostra seja um bom representante do verdadeiro desvio padrão da população qual será o tamanho de uma outra amostra a ser escolhida de modo que com probabilidade 90 a média amostral difira da verdadeira média de menos de 002 30 Tabela de Números Aleatórios Para sortear AAS costumase usar tabelas de números aleatórios que são coleções de dígitos construídos aleatoriamente e que simulam o processo de sorteio Na Tabela VII apresentamos um pequeno conjunto de números aleatórios Podem ser usados do seguinte modo se quisermos selecionar dez nomes de uma lista de 90 pessoas devemos começar numerandoos 01 02 90 Em seguida escolhemos duas colunas digamos as duas primeiras e tomamos os dez primeiros números no caso serão 61 94 50 51 25 63 12 38 22 07 61 Observe que o 94 foi eliminado pois não existe esse número na população e o 61 deverá aparecer repetido Para outras explicações e tabelas maiores consultar Pereira e Bussab 1974 31 Como você usaria uma tabela ou um gerador de números aleatórios para sortear uma amostra nas seguintes situações a 5 alunos de sua classe b 10 alunos de sua escola c 15 domicílios de seu bairro d 20 ações negociadas na Bolsa de São Paulo e 5 números de uma população cujos elementos são numerados de 1 a 115 Existe algum modo de apressar o sorteio f 5 números de uma população de 115 nomes cujos números vão de 612 a 726 Distribuição amostral da diferença de duas proporções Usando os resultados do problema 32 qual seria a distribuição de p₁ p₂ a diferença entre proporções de amostras independentes retiradas de populações com parâmetros p₁ e p₂ σ² Xᵢ μ²N Considera uma AAS de tamanho n extraída de P e X a média amostral Considera o estimador T NX Mostre que ET T e VarT N²σ²n 40 Suponha que queiramos retirar uma amostra de uma distribuição de Bernoulli com parâmetro p Escolhidos k dados x₁ x₂ xₖ temos que xₖ jxj é um estimador de p Então o estimador natural da variância σ² p1 p da população é xk1 xk Como ficaria o algoritmo descrito no CM4 para essa situação 1014 Complementos Metodológicos 1 Amostras sem reposição de populações finitas Suponha uma população com N elementos Vimos que extraímos uma amostra de tamanho n com reposição e calculamos a média amostral X então EX μ e VarX σ²n onde μ e σ² são a média e a variância da população respectivamente No entanto se a amostragem for feita sem reposição então EX μ contínua a valer mas VarX σ²N nnN n O fator N nN 1 é chamado fator de correção para populações finitas Note se n for muito menor que N então esse fator é aproximadamente igual a 1 e amostras com ou sem reposição são praticamente equivalentes 2 Planos probabilísticos Existem vários planos probabilísticos que são utilizados em situações práticas Vamos descrever brevemente alguns deles a Amostragem Aleatória Simples AAS Nesse plano n unidades que compõem a amostra são selecionadas de tal forma que todas as possíveis amostras têm a mesma probabilidade de serem escolhidas Podemos ter AAS com e sem reposição Exemplo 107 cada amostra com reposição tem probabilidade 125 de ser escolhida b Amostragem Aleatória Estratificada Nesse procedimento a população é dividida em subpopulações ou estratos usualmente de acordo com os valores ou categorias de uma variável e depois AAS é utilizada na seleção de uma amostra de cada estrato Por exemplo considere uma população de N 10 estudantes para os quais definimos as variáveis renda familiar X₁ e classe social X₂ categorizada como A B ou C Então P 1 2 10 e suponha que a matriz de dados seja D 10 8 15 12 2 33 37 47 Podemos considerar três estratos determinados pela variável X₂ Pₐ 3 5 8 P𝓑 1 6 9 10 P𝒞 2 4 7 Um dos objetivos da estratificação é homogeneizar a variância dentro de cada estrato relativamente à principal variável de interesse c Amostragem Aleatória por Conglomerados Como no item b a população é dividida em grupos subpopulações distintos chamados conglomerados Por exemplo podemos dividir uma cidade em bairros ou quadras Usamos AAS para selecionar uma amostra de conglomerados e depois todos os indivíduos dos conglomerados selecionados são analisados d Amostragem em Dois Estágios A população é dividida em grupos como em c Num primeiro estágio por meio de AAS selecionamos algumas subpopulações Num segundo estágio usando novamente AAS retiramos amostras das subpopulações selecionadas na primeiro estágio e Amostragem Sistemática Nesse plano supõese que temos uma listagem das unidades populacionais Para k fixado sorteamos um elemento entre os k primeiros da listagem Depois observamos sistematicamente indivíduos separados por k unidades Por exemplo se k 10 e sorteamos o oitavo elemento observamos depois o décimo oitavo vigésimo oitavo etc 3 Distribuição do máximo de uma amostra Considere M o máximo de uma AAS X1 Xn escolhida de uma população com densidade fx e fda Fx Seja FMm a fda de M Então FMm PM m Agora o evento M m é equivalente ao evento Xi m para todo 1 i n Como as va Xi são independentes teremos FMm PM m PX1 m Xn m PX1 m PXn m Fmn Portanto a densidade de M é dada por fMm F Mm nFmn 1fm 1010 4 Tamanho de uma amostra Na prática não conhecemos a distribuição de va X e retiramos uma amostra a fim de estimar algum parâmetro dessa distribuição Suponha agora que nosso interesse esteja na média µ EX Para estimála colhemos uma amostra X1 X2 Xn de X Logo as va Xi são independentes cada uma delas tem a mesma distribuição que X e EXi µ i 1 n Para estimar µ consideramos a média amostral X Um problema que se apresenta é determinar o tamanho da amostra a colher Isso pode ser feito usando a TLC como vimos na Seção 1011 Agora vamos ver um procedimento diferente também baseado no TLC mas que envolve uma regra de parada para determinar o número de dados a colher Esse procedimento foi sugerido por Ross 1997 Pelo TLC podemos escrever 1011 para qualquer constante c 0 em que Z N0 1 e Φ denota a fda de Z Por exemplo se c 196 a probabilidade acima é 005 Suponha que em vez de colher uma pequena amostra piloto para estimar σ tenhamos informação suficiente para escolher um valor aceitável digamos d para o desvio padrão de X que é dado por Por 1011 podemos escrever por exemplo PX µ 196d 095 Seguese que podemos amostrar sequencialmente de X até que em que calculamos S com os valores até então escolhidos O seguinte algoritmo pode então ser adotado 1 Escolha um valor aceitável d para 2 Gere pelo menos 30 dados para obter uma estimativa razoável de σ 3 Continue a gerar dados parando quando com n dados com 4 Estime µ por Esse método implica podermos calcular X e S2 recursivamente Isso pode ser feito por meio das seguintes fórmulas facilmente verificáveis Suponha x1 3 x2 5 x3 2 x4 6 x5 4 Então usando as fórmulas acima obtenha recursivamente Xi S2 i i 1 2 3 4 5 Capítulo 11 Estimação 111 Primeiras Ideias Vimos que a Inferência Estatística tem por objetivo fazer generalizações sobre uma população com base nos dados de uma amostra Salientamos que dois problemas básicos nesse processo são a estimação de parâmetros e b teste de hipóteses sobre parâmetros Lembremos que parâmetros são funções de valores populacionais enquanto estatísticas são funções de valores amostrais O problema do teste de hipóteses sobre parâmetros de uma população será tratado no Capítulo 12 Neste capítulo iremos discutir as ideias básicas sobre estimação Para ilustrar consideremos o exemplo seguinte Exemplo 111 Uma amostra de n 500 pessoas de uma cidade é escolhida e a cada pessoa da amostra é feita uma pergunta a respeito de um problema municipal para o qual foi apresentada uma solução pela prefeitura A resposta à pergunta poderá ser SIM favorável à solução ou NÃO contrária à solução Desejase estimar a proporção de pessoas na cidade favoráveis à solução apresentada Se 300 pessoas responderam SIM à pergunta então uma estimativa natural para essa proporção seria 300500 ou 60 Nossa resposta é baseada na suposição de que a amostra é representativa da população Sabemos também que outra amostra poderia levar a outra estimativa Conhecer as propriedades desses estimadores é um dos propósitos mais importantes da Inferência Estatística Vejamos o que pode ser feito nesse caso particular Definamos as va X1 Xn tais que e seja p P sucesso em que sucesso significa resposta SIM à questão formulada Portanto se sabemos que Yn tem distribuição binomial com parâmetros n e p e o problema consiste em estimar p É claro que Yn representa o número de pessoas na amostra que responderam SIM portanto um possível estimador de p é 111 Então se Yn k isto é observarmos o valor k da variável Yn obteremos kn como uma estimativa de p Observe que dado por 111 é uma va ao passo que kn é um número ou seja um valor da va No exemplo acima uma estimativa é 06 ou 60 O estimador teve sua distribuição amostral estudada na Seção 109 De lá podemos concluir que tem distribuição aproximadamente normal com parâmetros E p 112 Var p1 pn 113 Esses resultados nos ajudam a avaliar as qualidades desse estimador Por exemplo o resultado 112 indica que o estimador em média acerta p Dizemos que é um estimador não viesado ou não viciado de p Ou ainda o resultado 113 indica que para amostras grandes a diferença entre e p tende a ser pequena pois para n Var 0 Nesse caso dizemos que é um estimador consistente de p Observe que essas propriedades são válidas para o estimador no conjunto de todas as amostras que poderiam ser extraídas da população Para uma particular amostra pode estar distante de p Em algumas situações podemos ter mais de um estimador para um mesmo parâmetro e desejamos saber qual deles é melhor O julgamento pode ser feito analisando as propriedades desses estimadores Vejamos um exemplo Exemplo 112 Desejamos comprar um rifle e após algumas seleções restaram quatro alternativas que chamaremos de rifles A B C e D Foi feito um teste com cada rifle que consistiu em fixálo num cavalete mirar o centro de um alvo e disparar 15 tiros Os resultados estão ilustrados na Figura 111 Para analisar qual a melhor arma podemos fixar critérios Por exemplo segundo o critério de em média acertar o alvo escolheríamos as armas A e C Segundo o critério de não ser muito dispersivo variância pequena a escolha recairia nas armas C e D A arma C é aquela que reúne as duas propriedades e segundo esses critérios seria a melhor arma Mas se outro critério fosse introduzido por exemplo menor preço talvez não fosse a arma escolhida Muitas vezes a solução deve ser um compromisso entre as propriedades Esse exemplo também nos permite introduzir os conceitos de acurácia e precisão A acurácia mede a proximidade de cada observação do valor alvo que se procura atingir A precisão mede a proximidade de cada observação da média de todas as observações Figura 111 Resultados de 15 tiros dados por 4 rifles Desse modo podemos descrever cada arma da seguinte maneira Arma A não viesada pouco acurada e baixa precisão Arma B viesada pouco acurada e baixa precisão Arma C não viesada muito acurada e boa precisão Arma D viesada pouco acurada e alta precisão Do exposto acima notamos a importância de se definir propriedades desejáveis para estimadores Trataremos desse assunto na próxima seção Outro problema que aparece em inferência é como obter um estimador de determinado parâmetro Nem sempre temos uma sugestão para um estimador como no caso da proporção no exemplo Neste tempo no Exemplo 111 Nas Seções 113 114 e 115 trataremos de três desses métodos 112 Propriedades de Estimadores Inicialmente vejamos a questão da estimação de um modo mais geral Consideremos uma amostra X₁ X₂ Xn de uma va que descreve uma característica de interesse de uma população Seja θ um parâmetro que desejamos estimar por exemplo a média μ EX ou a variância σ² VarX Definição Um estimador T do parâmetro θ é qualquer função das observações da amostra ou seja T gX₁ Xn Notemos que segundo essa definição um estimador é o que chamamos antes de estatística porém associandoo a um parâmetro populacional O problema da estimação é então determinar uma função T gX₁ X₂ Xn que seja próxima de θ segundo algum critério O primeiro critério que iremos abordar é dado a seguir Definição O estimador T é não viesado para θ se ET θ para todo θ Se 114 não valer T dizse viesado e a diferença VT ET θ é chamado o viés de T Notemos que a esperança de T em 114 é calculada sobre a distribuição amostral de T como tratada no capítulo anterior Definição Estimativa é o valor assumido pelo estimador em uma particular amostra Assim no Exemplo 111 𝑝 é um estimador de p enquanto 60 é uma estimativa de p Exemplo 113 Vimos que a média amostral X é um estimador não viesado de μ EX colhida uma amostra X₁ Xn da va X Do mesmo modo como vimos na Seção 109 a proporção amostral p é um estimador não viesado da proporção p de indivíduos de uma população que tem certa característica comum Exemplo 114 Considera uma população com N elementos e a variância populacional σ² 1NXᵢ μ² 115 em que μ 1NXᵢ é a média populacional Um possível estimador para σ² baseado numa AAS de tamanho n extraída dessa população é 116 Mostremos que esse estimador é viesado Pela fórmula 311 temos que logo Mas pela definição de AAS e definição de variância de uma va EX2 i VarXi EXi2 σ2 µ2 Também usando o Teorema 101 temos que EX2 VarX Seguese que ou seja Finalmente 117 De 117 vemos que 2 é viesado para σ2 e o viés é dado por 118 Como esse viés é negativo o estimador 2 em geral subestima o verdadeiro parâmetro σ2 Por outro lado por 118 o viés diminui com n ou seja formalmente para n o viés de 2 tende a zero Note também que o viés de 2 é uma função de σ2 Uma estimativa do viés seria dada por ou seja substituímos o valor desconhecido de σ2 por uma estimativa como por exemplo 2 É fácil ver que para obter um estimador não viesado de σ2 basta considerar nn 1 σ² pois de 117 seguese que Enn 1 σ² σ² Logo se definirmos S² 1n 1 Xᵢ X² 119 então ES² σ² e S² é um estimador não viesado para σ² Essa é a razão para se usar n 1 em vez de n como denominador da variância da amostra No Capítulo 3 usamos sempre n como denominador porque não havia preocupação em saber se estávamos trabalhando com uma população ou uma amostra Daqui por diante será feita essa distinção Vimos que o estimador p é não viesado e tem variância que tende a zero quando n Ver 112 e 113 Dizemos que p é consistente Esse conceito de consistência é um pouco mais difícil de se definir Vejamos um exemplo para motivar a definição que será dada Considere a média X calculada para diversos tamanhos de amostras obtemos na realidade uma sequência de estimadores Xn n 1 2 À medida que n cresce a distribuição de X tornase mais concentrada ao redor da verdadeira média μ Veja por exemplo a Figura 104 do Capítulo 10 Dizemos que Xn é uma sequência consistente de estimadores de μ Definição Uma sequência Tn de estimadores de um parâmetro θ é consistente se para todo ε 0 PTn θ ε 0 n 1110 Não é muito difícil ver que essa condição está satisfeita para Xn Veja o Problema 33 Em vez de usar 1110 para verificar se uma sequência é estimadores é consistente podemos usar o seguinte resultado Proposição Uma sequência Tn de estimadores de θ é consistente se lim n ETn θ 1111 Se Tn for não viesado a primeira condição estará obviamente satisfeita Usando esse resultado vemos que p e Xn são estimadores consistentes de ρ e μ respectivamente nos Exemplos 111 e 113 Exemplo 115 Vimos que S² dado por 119 é não viesado para σ² É possível demonstrar no caso que X₁ Xn são observações de uma distribuição Nμ σ² que VarS² σ²2σ² 2σ²nn 1 1113 Como ES² σ² e lim n VarS² 0 seguese que S² é um estimador consistente para σ² Dado o que foi dito acima talvez fosse melhor escrever S²n Exemplo 116 Vimos que Eθ² σ²1 1n de modo que as observações são de uma distribuição normal Nμ σ² temos que Varθ² n 1σ²n VarS² n 1n²2σ² 1114 o que mostra que Varθ² 0 quando n logo θ² também é consistente para σ² De 1114 obtemos também que Varθ² 2σ²n 1VarS² 1115 Portanto usandose somente o critério de ter menor variância σ² seria um melhor estimador de σ² Mas observe que estamos nos referindo a amostras de uma distribuição normal Vejamos agora um critério que nos permite escolher entre dois estimadores de mesmo parâmetro θ e ainda VarT VarT 1116 então T dizse mais eficiente do que T Exemplo 117 Consideremos uma população normal X com parâmetros μ e σ² Queremos estimar a mediana dessa população Por ser uma distribuição simétrica sabemos que μ MdX Definindo como X a média e como md a mediana de uma amostra de tamanho n dessa população qual dos dois estimadores é o melhor para estimar a mediana populacional Pelo que vimos no capítulo anterior X Nμσ²n 1117 Podese demonstrar que a distribuição da mediana amostral pode ser aproximada por uma normal especificamente md NMdXπσ²2n 1118 Vemos portanto que os dois estimadores são não viesados mas VarmdVarX π2 1 Concluise que para estimar a mediana dessa população é preferível usar a média da amostra como estimador o que contraria um pouco a nossa intuição Para precisar o conceito de estimador acurado discutido na seção anterior vamos agora introduzir o conceito de erro quadrático médio Chamemos de e T θ o erro amostral que cometemos ao estimar o parâmetro θ da distribuição da va X pelo estimador T gX₁ Xn baseado na amostra X₁ Xn Definição Chamase erro quadrático médio EQM do estimador T ao valor EQMT θ Ee² ET θ² 1119 De 1119 temos já que ET θ é uma constante e ET ET 0 Podemos pois escrever EQMT θ ET ET² ET ET² 2ET ETET θ EET θ² em que V VT ET θ indica como vimos o viés de T A Figura 112 ilustra essas duas medidas usando o caso das armas discutido no Exemplo 112 Vamos portanto que um estimador preciso tem variância pequena mas pode ter EQM grande Problemas 1 Obtenha a distribuição de ˆp quando p 02 e n 5 Depois calcule Eˆp e Varˆp 2 Encontre um limite superior para Varˆp quando n 10 25 100 e 400 Faça o gráfico em cada caso 3 Suponha um experimento consistindo de n provas de Bernoulli com probabilidade de sucesso p Seja X o número de sucessos e considere os estimadores a ˆp1 Xn b ˆp2 1 se a primeira prova resultar sucesso 0 caso contrário Determine a esperança e a variância de cada estimador Por que ˆp2 não é um bom estimador 4 Verifique se ˆp1 e ˆp2 do Problema 3 são consistentes 5 Temse duas fórmulas distintas para estimar um parâmetro populacional θ Para ajudar a escolher a melhor simulouse uma situação em que θ 100 Dessa população retiraramse 1000 amostras de dez unidades cada uma e aplicaramse ambas as fórmulas às dez unidades de cada amostra Desse modo obtémse 1000 valores para e finalmente 1133 Convém lembrar que µ não é uma variável aleatória e sim um parâmetro e a Fórmula 1133 deve ser interpretada da seguinte maneira se pudéssemos construir uma quantidade grande de intervalos aleatórios da forma X 196σX X 196σX todos baseados em amostras de tamanho n 95 deles conteriam o parâmetro µ Veja a Figura 113 Dizemos que γ 095 é o coeficiente de confiança Nessa figura estão esquematizados o funcionamento e o significado de um intervalo de confiança IC para µ com γ 095 e σ2 conhecido Figura 113 Significado de um IC para µ com γ 095 e σ2 conhecido Escolhida uma amostra e encontrada sua média x0 e admitindo se σx conhecido podemos construir o intervalo 1134 Esse intervalo pode ou não conter o parâmetro µ mas pelo exposto acima temos 95 de confiança de que contenha com zγ definido como em 1140 Na realidade podese demonstrar que do que resulta a Fórmula 1141 Exemplo 1116 Suponha que em n 400 provas obtemos k 80 sucessos Vamos obter um intervalo de confiança para p com γ 090 Como 80400 02 e 1 08 então 1141 fica ou seja Usando 1140 o intervalo conservador é Observe que o primeiro intervalo tem amplitude menor que o segundo Outra observação importante é que por 1140 e um γ fixo os intervalos que podemos obter para amostras diferentes mas de mesmo tamanho n terão a mesma amplitude dada por Por outro lado usando 1141 a amplitude do intervalo será que é variável de amostra para amostra pois e consequentemente variará de amostra para amostra Problemas 14 Calcule o intervalo de confiança para a média de uma Nµ σ2 em cada um dos casos abaixo Média Amostral Tamanho da Amostra Desvio Padrão da População Coeficiente de Confiança 170 cm 100 15 cm 95 165 cm 184 30 cm 85 180 cm 225 30 cm 70 15 De 50000 válvulas fabricadas por uma companhia retirase uma amostra de 400 válvulas e obtémse a vida média de 800 horas e o desvio padrão de 100 horas a Qual o intervalo de confiança de 99 para a vida média da população b Com que confiança é possível afirmar que a vida média é 800 098 c Que tamanho deve ter a amostra para que seja de 95 a confiança na estimativa 800 784 Que suposições você fez para responder às questões acima 16 Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença da média amostral para a média da população em valor absoluto seja menor que 1 com coeficiente de confiança igual a a 95 b 99 17 Uma população tem desvio padrão igual a 10 a Que tamanho deve ter uma amostra para que com probabilidade 8 o erro em estimar a média seja superior a uma unidade b Supondose colhida a amostra no caso anterior qual o intervalo de confiança se x 50 18 Uma amostra aleatória de 625 donas de casa revela que 70 delas preferem a marca A de detergente Construir um intervalo de confiança para p proporção das donas de casa que preferem A com cc γ 90 19 Encontre os intervalos de confiança para p se kn 03 com cc γ 095 Utilize os dois enfoques apontados na Seção 116 com n 400 20 Antes de uma eleição um determinado partido está interessado em estimar a proporção p de eleitores favoráveis ao seu candidato Uma amostra piloto de tamanho 100 revelou que 60 dos eleitores eram favoráveis ao candidato em questão a Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de no máximo 001 com probabilidade de 80 b Se na amostra final com tamanho igual ao obtido em a observouse que 55 dos eleitores eram favoráveis ao candidato em questão construa um intervalo de confiança para a proporção p Utilize γ 095 21 Suponha que estejamos interessados em estimar a proporção de consumidores de um certo produto Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado produto determine a o intervalo de confiança para p com coeficiente de confiança de 95 interprete o resultado b o tamanho da amostra para que o erro da estimativa não exceda a 002 unidades com probabilidade de 95 interprete o resultado 117 Erro Padrão de um Estimador Vimos que obtida a distribuição amostral de um estimador podíamos calcular a sua variância Se não pudermos obter a distribuição exata usamos uma aproximação se essa estiver disponível como no caso de X e a variância do estimador será a variância dessa aproximação Por exemplo para a média amostral X obtida de uma amostra de tamanho n temos que na qual σ2 é a variância da va X definida sobre a população Exemplo 1119 Suponha que temos os dados amostrais x x1 x2 xn e queremos estimar a mediana populacional Md por meio da mediana amostral mdx medx1 xn Vamos escolher uma AAS portanto com reposição de tamanho n dos dados Tal amostra é chamada uma amostra bootstrap e denotada por x x 1 x n Por exemplo suponha que x x1 x2 x3 x4 x5 Poderemos obter por exemplo x x4 x3 x3 x1 x2 Suponha agora que geremos B tais amostras independentes denotadas x 1 x B Para cada amostra bootstrap geramos uma réplica bootstrap do estimador proposto ou seja de mdx obtendo se mdx1 mdx2 mdxB 1150 Definimos o estimador bootstrap do erro padrão de mdx como 1151 com 1152 Ou seja o estimador bootstrap do erro padrão da mediana amostral é o desvio padrão amostral do conjunto 1150 Na Figura 115 temos representado o esquema do método Vamos ilustrar o método com um exemplo numérico simples Suponha que n 5 e a amostra é x 2 5 3 4 6 Vamos considerar B 5 amostras bootstrap de x Como gerar tais amostras Primeiramente geramos cinco números aleatórios i1 i5 dentre os cinco números inteiros 1 2 3 4 5 e consideramos a amostra bootstrap x xi1 xi5 Repetimos esse procedimento cinco vezes Podemos usar a Tabela VII para gerar esses NA como já aprendemos Considere por exemplo as cinco primeiras linhas e começando do canto esquerdo prossiga em cada linha até obter cinco dígitos entre 1 e 5 inclusive note que pode haver repetições Obtemos a Tabela 112 Figura 115 Procedimento bootstrap para calcular o erro padrão da mediana amostral Tabela 112 Procedimento bootstrap NA Amostra bootstrap mdx xx 12251 25562 50 40 44432 44435 40 40 54555 64666 60 56 51155 62266 60 44 25453 56463 50 48 Por exemplo obtidos os NA 1 2 2 5 1 teremos a amostra bootstrap x1 x2 x2 x5 x1 2 5 5 6 2 para a qual a mediana amostral é 5 Seguese que e Se usarmos a aproximação 1118 calculamos a variância da amostra original obtendose S2 25 donde Levando se em conta o tamanho da amostra a discrepância entre os dois valores não é grande Veja a página do livro para aprender como usar o R para obter amostra bootstrap e calcular o erro padrão correspodente Exemplo 1120 Na Tabela 112 calculamos também para cada amostra bootstrap a média amostral x Obtemos usando 1151 e usando a fórmula 1144 logo o valor obtido pelo método bootstrap está bastante próximo do valor calculado pela fórmula obtida de maneira analítica Obviamente em situações nas quais há uma fórmula disponível não há necessidade de se usar bootstrap A questão que se apresenta é qual deve ser o valor de B ou seja quantas amostras bootstrap devemos gerar para estimar erros padrões de estimadores A experiência indica que um valor razoável é B 200 No caso geral de um estimador Tx o algoritmo bootstrap para estimar o erro padrão de é o seguinte 1 Selecione B amostras bootstrap independentes x 1 x B cada uma consistindo de n valores selecionados com reposição de x Tome B 200 2 Para cada amostra bootstrap x B calcule a réplica bootstrap 3 O erro padrão de é estimado pelo desvio padrão das B réplicas 1153 com 1154 No exemplo acima notamos que um intervalo de confiança aproximado para a mediana populacional Md com coeficiente de confiança 95 seria No exemplo dado para efeito de ilustração do método bootstrap tomamos uma amostra pequena n 5 e poucas amostras bootstrap B 5 Para amostras maiores e B na ordem de 200 deveremos fazer um pequeno programa em alguma linguagem como o Visual Basic S Fortram C etc que gere as amostras bootstrap e calcular o estimador dado por 1153 Isso implica em particular gerar para cada amostra bootstrap n números aleatórios Salário Frequência 15000 25000 8 25000 35000 22 35000 45000 38 45000 55000 28 55000 65000 2 65000 75000 2 Use γ 095 26 Suponha que as vendas de um produto satisfaçam ao modelo Vt α βt at em que at é a variável aleatória satisfazendo as suposições da Seção 114 e o tempo é dado em meses Suponha que os valores das vendas nos 10 primeiros meses do ano 1 sejam dados pelos valores da tabela abaixo Obtenha as previsões para os meses de novembro e dezembro do ano 1 e para julho e agosto do ano 2 t 1 2 3 4 5 6 7 8 9 10 yt 50 67 60 87 62 86 110 119 106 108 27 Numa pesquisa de mercado para estudar a preferência da população de uma cidade em relação a um determinado produto colheuse uma amostra aleatória de 300 indivíduos dos quais 180 preferiam esse produto a Determine um intervalo de confiança para a proporção da população que prefere o produto em estudo tome γ 090 b Determine a probabilidade de que a estimativa pontual dessa proporção não difira do verdadeiro valor em mais de 0001 c É possível obter uma estimativa pontual dessa proporção que não difira do valor verdadeiro em mais de 00005 com probabilidade 095 Caso contrário determine o que deve ser feito 28 Uma amostra de 10000 itens de um lote de produção foi inspecionada e o número de defeitos por item foi registrado na tabela abaixo Nº de defeitos 0 1 2 3 4 Quantidade de peças 6000 3200 600 150 50 a Determine os limites de confiança para a proporção de itens defeituosos na população com coeficiente de confiança de 98 Use 1140 b Mesmo problema usando 1141 29 Antes de uma eleição em que existiam dois candidatos A e B foi feita uma pesquisa com 400 eleitores escolhidos ao acaso e verificouse que 208 deles pretendiam votar no candidato A Construa um intervalo de confiança com cc γ 095 para a porcentagem de eleitores favoráveis ao candidato A na época das eleições 30 Encontre o cc de um intervalo de confiança para p se n 100 06 e a amplitude do intervalo deve ser igual a 0090 Capítulo 12 Testes de Hipóteses 121 Introdução Vimos no Capítulo 10 que um dos problemas a serem resolvidos pela Inferência Estatística é o de testar uma hipótese Isto é feita determinada afirmação sobre uma população usualmente sobre um parâmetro dessa desejamos saber se os resultados experimentais provenientes de uma amostra contrariam ou não tal afirmação Muitas vezes essa afirmação sobre a população é derivada de teorias desenvolvidas no campo substantivo do conhecimento A adequação ou não dessa teoria ao universo real pode ser verificada ou refutada pela amostra O objetivo do teste estatístico de hipóteses é então fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evidências que apoiem ou não uma hipótese estatística formulada Neste capítulo iremos introduzir o procedimento básico de teste de hipótese sobre um parâmetro de uma população A ideia central desse procedimento é a de supor verdadeira a hipótese em questão e verificar se a amostra observada é verossímil nessas condições No capítulo seguinte daremos alguns testes para comparação de parâmetros de duas populações 122 Um Exemplo Vamos introduzir a ideia de teste de uma hipótese por meio de um exemplo hipotético que partindo de uma situação simples será gradualmente ampliado para atender à situação geral do teste de hipóteses Exemplo 121 Uma indústria usa como um dos componentes das máquinas que produz um parafuso importado que deve satisfazer a algumas exigências Uma dessas é a resistência à tração Esses parafusos são fabricados por alguns países e as especificações técnicas variam de país para país Por exemplo o catálogo do país A afirma que a resistência média à tração de seus parafusos é de 145 kg com desvio padrão de 12 kg Já para o país B a média é de 155 kg e desvio padrão 20 kg Um lote desses parafusos de origem desconhecida será leiloado a um preço muito convidativo Para que a indústria saiba se faz ou não uma oferta ela necessita saber qual país produziu tais parafusos O edital do leiloeiro afirma que pouco antes do leilão será divulgada a resistência média x de uma amostra de 25 parafusos do lote Qual regra de decisão deve ser usada pela indústria para dizer se os parafusos são do país A ou B Uma resposta que ocorre imediatamente é a que considera como país produtor aquele para o qual a média da amostra mais se aproximar da média da população Assim uma possível regra de decisão seria Se x 150 o ponto médio entre 145 e 155 diremos que os parafusos são do país A caso contrário isto é x 150 são do país B Na Figura 121 ilustramos essa regra de decisão Figura 121 Regra de decisão para o Exemplo 121 Suponha que no dia do leilão fôssemos informados de que x 148 de acordo com nossa regra de decisão diríamos que os parafusos são de origem A Podemos estar enganados nessa conclusão Ou em outras palavras é possível que uma amostra de 25 parafusos de origem B apresente média x 148 Sim é possível Então para melhor entendermos a regra de decisão De modo análogo quando H1 for a alternativa verdadeira teremos que a va X é tal que aproximadamente X N145 576 Teremos então Observando esses dois resultados notamos que com a regra de decisão adotada estaremos cometendo o erro de tipo I com maior probabilidade do que o erro de tipo II De certo modo essa regra de decisão privilegia a afirmação de que os parafusos são de A No Quadro 121 ilustramos as consequências que podem advir da regra de decisão adotada Quadro 121 Resumo do teste H0 µ 155 H1 µ 145 com RC 150 Desse quadro podemos notar que se os parafusos forem realmente de B segunda linha e a amostra tiver média superior a 150 segunda coluna diremos que são de B e não cometeremos erro algum Por outro lado se a média x for inferior a 150 primeira coluna devemos dizer que são de A e estaremos cometendo um erro cuja probabilidade nesse caso é de 1056 De modo análogo teremos uma interpretação para o caso de os parafusos serem realmente de A primeira linha Para cada regra de decisão adotada isto é se escolhermos um valor xc em vez de 150 no Quadro 121 apenas as probabilidades α e β mudarão Se xc for escolhido menor que 150 notamos que α diminuirá e β aumentará Logo deve existir um ponto em que α seja igual a β ou seja uma regra de decisão em que a probabilidade de errar contra A seja a mesma que errar contra B Mostre que esse ponto é xc 14875 e nesse caso α β 594 Do exposto acima constatamos que escolhido um valor de xc podemos achar as probabilidades α e β de cometer cada tipo de erro Mas também podemos proceder de modo inverso fixar um dos erros digamos α e encontrar a regra de decisão que irá corresponder à probabilidade de erro de tipo I igual a α Por exemplo fixemos α em 5 e vejamos qual a regra de decisão correspondente Temos mas da transformação para a normal padrão sabemos que ou seja xc 14842 Então a regra de decisão será Se x for inferior a 14842 dizemos que o lote é de A caso contrário dizemos que é de B Com essa regra a probabilidade do erro de tipo II será Veja a ilustração na Figura 122 Figura 122 Ilustração dos erros de tipo I e II para o Exemplo 121 Esse segundo tipo de procedimento é bastante utilizado porque usualmente a decisão que devemos tomar não é apenas entre duas possíveis populações Os parafusos poderiam ser produzidos por outros países além daqueles citados e portanto com outras características quanto à resistência média Suponha ainda que interessa à indústria fazer uma proposta apenas no caso de o parafuso ser de origem B Qual a regra de decisão que deve adotar A hipótese que nos interessa agora é H0 os parafusos são de origem B µ 155 e σ 20 Caso essa não seja a hipótese verdadeira a alternativa é muito mais ampla e pode ser expressa como H1 os parafusos não são de origem B µ e σ desconhecidos Aqui não podemos especificar os parâmetros sob a hipótese alternativa H1 pois se não forem de origem B os parafusos podem ser de vários outros países cada um com suas próprias especificações Alguns países podem ter técnicas mais sofisticadas de produção e portanto produzir com resistência média superior a 155 Outros como no exemplo dado com resistência menor A especificação da hipótese alternativa depende muito do grau de informação que se tem do problema Por exemplo vamos admitir que a indústria do país B para esse caso seja a mais desenvolvida e nenhum outro país possa produzir uma resistência média superior à dela Então nossa hipótese alternativa seria mais explícita H1 os parafusos não são de origem B µ 155 e σ qualquer Isso significa que só iremos desconfiar de H0 se x for muito menor do que 155 Ou seja a nossa regra de decisão deverá ser semelhante à vista anteriormente Como os parâmetros sob a hipótese alternativa são muitos a melhor solução para construir a regra de decisão é fixar α a probabilidade do erro de tipo I rejeitar H0 quando ela for verdadeira Se fixarmos novamente α 05 e nesse caso a regra de decisão depende apenas das informações de H0 a regra de decisão será a mesma anterior Se x for superior a 14842 diremos que o lote é de origem B caso contrário diremos que não é de origem B Com essa regra de decisão e com a hipótese alternativa mais ampla não podemos encontrar β pois não temos um único parâmetro µ como alternativa e nada sabemos sobre σ Então não podemos controlar o erro de tipo II As implicações dessa regra de decisão estão resumidas na Figura 123 e no Quadro 122 Figura 123 Teste H0 µ 155 vs H1 µ 155 com RC 14842 Quadro 122 Resumo do teste H0 µ 155 H1 µ 155 com RC 14842 Podemos reescrever as hipóteses nessa situação da seguinte maneira H0 µ 155 H1 µ 155 O cálculo de β depende do valor de µ que não é especificado Mas podemos considerar a seguinte e importante função Definição A função característica de operação função CO do teste acima é definida como b Qual deve ser a regra de decisão se quisermos fixar a probabilidade do erro de tipo I em 5 Qual a probabilidade do erro de tipo II nesse caso c Se σA 5 como ficariam as respostas de b d Quais as probabilidades do erro de tipo II nas condições da questão b se a média µB 178 E µB 180 E µB 181 Coloque num gráfico os pares µB Perro II µB 2 Fazendo o teste H0 µ 1150 σ 150 contra H1 µ 1200 σ 200 e n 100 estabeleceuse a seguinte região crítica RC 1170 a Qual a probabilidade α de rejeitar H0 quando verdadeira b Qual a probabilidade β de aceitar H0 quando H1 é verdadeira c Qual deve ser a região crítica para que α β 3 Nas situações abaixo escolha como hipótese nula H0 aquela que para você leva a um erro de tipo I mais importante Descreva quais os dois erros em cada caso a O trabalho de um operador de radar é detectar aeronaves inimigas Quando surge alguma coisa estranha na tela ele deve decidir entre as hipóteses 1 está começando um ataque 2 tudo bem apenas uma leve interferência b Num júri um indivíduo está sendo julgado por um crime As hipóteses sujeitas ao júri são 1 o acusado é inocente 2 o acusado é culpado c Um pesquisador acredita que descobriu uma vacina contra resfriado Ele irá conduzir uma pesquisa de laboratório para verificar a veracidade da afirmação De acordo com o resultado ele lançará ou não a vacina no mercado As hipóteses que pode testar são 1 a vacina é eficaz 2 a vacina não é eficaz 4 Se ao lançarmos três vezes uma moeda aparecerem 3 coroas decidimos rejeitar a hipótese de que a moeda é honesta Quais as probabilidades de erro de tipo I e erro de tipo II se p 23 5 A variável X custo de manutenção de um tear pode ser considerada como tendo distribuição normal de média µ e desvio padrão 20 unidades Os valores possíveis de µ podem ser 200 ou 210 Para verificar qual dos dois valores é o mais provável usar seá uma amostra de 25 teares Defina a Uma hipótese a ser testada b Uma regra de decisão e encontre as probabilidades dos erros de tipo I e II Passo 2 Use a teoria estatística e as informações disponíveis para decidir qual estatística estimador será usada para testar a hipótese H0 Obter as propriedades dessa estatística distribuição média desvio padrão Passo 3 Fixe a probabilidade α de cometer o erro de tipo I e use este valor para construir a região crítica regra de decisão Lembre que essa região é construída para a estatística definida no passo 2 usando os valores do parâmetro hipotetizados por H0 Passo 4 Use as observações da amostra para calcular o valor da estatística do teste Passo 5 Se o valor da estatística calculado com os dados da amostra não pertencer à região crítica não rejeite H0 caso contrário rejeite H0 Procuraremos sempre que fizermos teste de hipóteses distinguir bem esses cinco passos Finalmente um comentário sobre H0 e o erro de tipo I Devemos tomar como H0 aquela hipótese que rejeitada conduza a um erro de tipo I mais importante de evitar Vejamos um exemplo devido a Neyman 1978 Suponha um experimento para se determinar se um produto A é ou não cancerígeno Após realizado o teste podemos concluir i A é cancerígeno ou ii A não é cancerígeno Cada uma dessas conclusões pode estar errada e temos os dois tipos de erro já mencionados dependendo de qual hipótese seja H0 Do ponto de vista do usuário do produto a hipótese a ser testada deve ser H0 A é cancerígeno pois a probabilidade de erro na rejeição dessa hipótese se ela for verdadeira deve ser um valor muito pequeno Outros exemplos estão contidos no Problema 3 125 Testes sobre a Média de uma População com Variância Conhecida Vejamos agora uma aplicação dos cinco passos definidos na seção anterior para testar a hipótese de que a média de uma população µ seja igual a um número fixado µ0 supondose a variância σ2 dessa população conhecida Exemplo 122 Uma máquina automática para encher pacotes de café encheos segundo uma distribuição normal com média µ e variância sempre igual a 400 g2 A máquina foi regulada para µ 500 g Desejamos periodicamente colher uma amostra de 16 pacotes e verificar se a produção está sob controle isto é se µ 500 g ou não Se uma dessas amostras apresentasse uma média x 492 g você pararia ou não a produção para regular a máquina Vejamos como testar essa hipótese Passo 1 Indiquemos por X o peso de cada pacote então X Nµ 400 E as hipóteses que nos interessam são H0 µ 500 g H1 µ 500 g pois a máquina pode desregular para mais ou para menos Passo 2 Pela afirmação do problema σ2 400 será sempre a mesma logo para todo µ a média X de 16 pacotes terá distribuição Nµ 40016 de modo que o desvio padrão ou erro padrão de X é σx 5 Em particular se H0 for verdadeira X N50025 Passo 3 Vamos fixar α 1 pela hipótese alternativa vemos que H0 deve ser rejeitada quando X for muito pequena ou muito grande dizemos que temos um teste bilateral Portanto nossa região crítica será como a da Figura 125 Figura 125 Região crítica para o teste H0 µ 500 vs H1 µ 500 do Exemplo 122 Da tabela da curva normal padronizada obtemos que Seguese que a região crítica é Passo 4 A informação pertinente da amostra é sua média que nesse caso particular é x0 492 Passo 5 Como x0 não pertence à região crítica nossa conclusão será não rejeitar H0 Ou seja o desvio da média da amostra para a média proposta por H0 pode ser considerado como devido apenas ao sorteio aleatório dos pacotes A situação analisada não é muito realista conhecer a variância da população O caso mais geral de média e variância desconhecidas será tratado na Seção 1210 Problemas 6 Sabese que o consumo mensal per capita de um determinado produto tem distribuição normal com desvio padrão 2 kg A diretoria de uma firma que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo per capita fosse menor que 8 kg Caso contrário continuaria a fabricálo Foi realizada uma pesquisa de mercado tomandose uma amostra de 25 indivíduos e verificouse que em que Xi representa o consumo mensal do iésimo indivíduo da amostra a Construa um teste de hipótese adequado utilizando α 005 e com base na amostra colhida determine a decisão a ser tomada pela diretoria b Qual a probabilidade β de se tomar uma decisão errada se na realidade a média populacional for µ 78 kg c Se a diretoria tivesse fixado α 001 a decisão seria a mesma Justifique sua resposta d Se o desvio da população fosse 4 kg qual seria a decisão com α 005 Justifique sua resposta 7 A associação dos proprietários de indústrias metalúrgicas está muito preocupada com o tempo perdido com acidentes de trabalho cuja média nos últimos tempos tem sido da ordem de 60 horashomem por ano e desvio padrão de 20 horashomem Tentouse um programa de prevenção de acidentes após o qual foi tomada uma amostra de nove indústrias e medido o número de horashomens perdidas por acidente que foi de 50 horas Você diria no nível de 5 que há evidência de melhoria 8 O salário médio dos empregados das indústrias siderúrgicas de um país é de 25 salários mínimos com um desvio padrão de 05 salários mínimos Uma indústria é escolhida ao acaso e desta é escolhida uma amostra de 49 empregados resultando um salário médio de 23 salários mínimos Podemos afirmar que esta indústria paga salários inferiores à média nacional com o nível de 5 9 Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros que fabrica apresentase abaixo de 23 mg por cigarro Um laboratório realiza 6 análises desse índice obtendo 27 24 21 25 26 22 Sabese que o índice de nicotina se distribui normalmente com variância igual a 486 mg2 Podese aceitar no nível de 10 a afirmação do fabricante 126 Teste para Proporção Vamos usar os passos descritos na Seção 124 para mostrar a construção do teste para proporções Passo 1 Temos uma população e uma hipótese sobre a proporção p de indivíduos portadores de certa característica Esta hipótese afirma que essa proporção é igual a certo valor p0 Então H0 p p0 O problema fornece informações sobre a alternativa que pode ter uma das três formas abaixo i H1 p p0 teste bilateral ii H1 p p0 teste unilateral à direita e iii H1 p p0 teste unilateral à esquerda Passo 2 Como vimos na Seção 109 a estatística a proporção amostral tem uma distribuição aproximadamente normal a saber Passo 3 Fixado um valor de α devemos construir a região crítica para p sob a suposição de que o parâmetro definido por H0 seja o verdadeiro Ou seja podemos escrever e consequentemente teremos a região crítica da Figura 126 supondo a alternativa i acima sendo que e Zp é o pquantil da normal padrão Figura 127 Região crítica para o teste H0 p 060 vs H1 p 060 do Exemplo 123 De fato devemos achar o valor c tal que P c 005 e usando a aproximação normal acima teremos o que implica o valor 1645 sendo obtido da normal padronizada Seguese que c 0544 correspondendo à região crítica acima Passo 4 Admitamos que da pesquisa feita com as 200 famílias obtivemos 104 pessoas que estavam assistindo ao programa A proporção da amostra será 104200 052 Passo 5 Do resultado do passo anterior vemos que 052 RC portanto somos levados a rejeitar H0 Isto é há evidências que a audiência do programa de segundafeira não foi de 60 mas inferior a esse número Problemas 10 Uma pessoa gabase de adivinhar qual será o resultado do lance de uma moeda mas é preciso que os presentes não o perturbem com pensamentos duvidosos Para testar tal capacidade lançouse uma moeda perfeita 6 vezes e o adivinhador acertou 5 Qual seria sua conclusão 11 O consumidor de um certo produto acusou o fabricante dizendo que mais de 20 das unidades fabricadas apresentam defeito Para confirmar sua acusação ele usou uma amostra de tamanho 50 em que 27 das peças eram defeituosas Mostre como o fabricante poderia refutar a acusação Utilize um nível de significância de 10 128 Valorp O método de construção de um teste de hipóteses descrito nas seções anteriores parte da fixação do nível de significância α Podese argumentar que esse procedimento pode levar à rejeição da hipótese nula para um valor de α e à não rejeição para um valor menor Outra maneira de proceder consiste em apresentar a probabilidade de significância ou valorp do teste Os passos são muito parecidos aos já apresentados a principal diferença está em não construir a região crítica O que se faz é indicar a probabilidade de ocorrer valores da estatística mais extremos do que o observado sob a hipótese de H0 ser verdadeira Exemplo 125 Voltemos ao Exemplo 123 em que H0 p 060 Como vimos admitindo essa hipótese verdadeira N060 024200 Colhida a amostra obtivemos 0 104200 052 Portanto podemos calcular qual a probabilidade de ocorrerem valores de mais desfavoráveis para H0 do que esse É evidente que quanto menor for maior será a evidência contra H0 p 060 Assim calculemos Esse resultado mostra que se a audiência do programa fosse de 60 realmente a probabilidade de encontrarmos uma amostra de 200 famílias com 52 ou menos de audiência é de 1 Isso sugere que ou estamos diante de uma amostra rara de ocorrer 1 em 100 ou então a hipótese formulada não é aceitável Nesse caso somos levados a essa segunda opção ou seja os dados da amostra sugerem que a hipótese H0 deve ser rejeitada O procedimento está ilustrado na Figura 1211 O valorp do teste será α 001 Figura 1211 Determinação do valorp para o Exemplo 125 Exemplo 126 Um antibiótico A traz em sua bula a seguinte citação Nas broncopneumonias a ação antiinflamatória de A é colocada em evidência pelo estudo dos parâmetros ventilatórios em duplo cego contra placebo Durante o tratamento com A podese observar uma melhora significativa em relação ao placebo da capacidade vital p 005 e o VEMSp 0001 e do débito respiratório máximo p 0001 Esse exemplo ilustra o uso cada vez mais difundido em muitas áreas aplicadas do conceito de valorp As afirmações do tipo p 005 acima referemse a esse conceito Vale a pena comentar um pouco sobre estudos duplocego mencionados acima Nesse tipo de estudo um número n de indivíduos é dividido em dois grupos de tamanhos aproximadamente iguais a seleção dos indivíduos que vão pertencer a cada grupo é aleatória Os indivíduos de um grupo recebem o tratamento o antibiótico A no caso e os do outro grupo recebem placebo uma substância inóqua Os pesquisadores que acompanham o experimento não sabem quem recebeu tratamento e quem recebeu placebo o mesmo acontecendo com os pacientes daí o nome duplocego Podemos considerar probabilidades de significância bilaterais Um procedimento é tomar o valorp bilateral igual a duas vezes o valorp unilateral Esta prática é razoável quando a distribuição da estatística do teste sob H0 for simétrica Exemplo 127 Uma companhia de serviços de ônibus intermunicipais planejou uma nova rota para servir vários locais situados entre duas cidades importantes Um estudo preliminar afirma que a duração das viagens pode ser considerada uma va normal com média igual a 300 minutos e desvio padrão 30 minutos As dez primeiras viagens realizadas nessa nova rota apresentaram média igual a 314 minutos Esse resultado comprova ou não o tempo médio determinado nos estudos preliminares Passo 1 Indicando por X a duração de cada viagem e por µ EX queremos testar H0 µ 300 H1 µ 300 Passo 2 Amostras de dez viagens terão média X Nµ σ210 Passo 3 Sob a hipótese de que H0 é verdadeira e pelo fato de σ2 ser conhecido σ 30 teremos X N300 90010 Passo 4 Como o valor observado x0 314 podemos encontrar a probabilidade de ocorrerem amostras com valores de X mais extremos do que esse Como a distribuição de X é normal portanto simétrica tomamos α 014 Nosso problema consiste em decidir se essa probabilidade corresponde ou não à chance de ocorrer um evento raro Por ser uma probabilidade não muito pequena podemos concluir que não existe muita evidência para rejeitar H0 Assim os estudos preliminares parecem estar corretos Um problema que pode ocorrer com o procedimento acima de dobrar a probabilidade é que o valor de α pode ser maior do que um Por isso às vezes é preferível anunciar o valor do valorp unilateral e a direção segundo a qual a observação afastase de H0 No exemplo o resultado indica que a chance de ocorrerem amostras com médias iguais ou superiores a 314 é 7 que é um valor ainda não pequeno Para outro método ver o Problema 43 Se indicarmos genericamente por α o valorp rejeitaremos H0 para aqueles níveis de significância α maiores do que α No Exemplo 127 rejeitaremos H0 por exemplo se α 010 mas não a rejeitaremos se α 005 ou α 001 Ou seja se o nível descritivo for muito pequeno como o caso α 001 do Exemplo 126 há evidências de que a hipótese não seja válida Como vimos nesse exemplo a probabilidade de significância é muitas vezes denotada por p na literatura pvalue Em nosso procedimento de testar uma hipótese estamos usando uma escala de evidências sugerida por Fisher 1954 Suponha que estejamos testando H0 contra H1 e como vimos rejeitamos H0 se o valorp α for bastante pequeno A Tabela 122 extraída de Efron e Gous 1997 ilustra a escala de Fisher contra H0 ou a favor de H1 Tabela 122 Escala de significância de Fisher valorp 010 005 0025 001 0005 0001 Natureza da evidência marginal moderada substancial forte muito forte fortíssima Assim um valor de α 001 indica uma evidência forte contra a validade de H0 α 005 indica uma evidência moderada etc É interessante notar que Fisher tomou como ponto de referência o valor 005 valores do valorp menores do que 005 indicam que devemos rejeitar a hipótese nula As considerações feitas por Fisher referiamse a testes do quiquadrado veja o Capítulo 14 Problemas 16 Suponha que queiramos testar H0 µ 50 contra H1 µ 50 em que µ é a média de uma normal Nµ 900 Extraída uma amostra de n 36 elementos da população obtemos x 52 Calcule o valorp α do teste 17 Os novos operários de uma empresa são treinados a operarem uma máquina cujo tempo X em horas de aprendizado é anotado Observouse que X segue de perto a distribuição N25 100 Uma nova técnica de ensino que deve melhorar o tempo de aprendizado foi testada em 16 novos empregados o quais apresentaram 205 horas como tempo médio de aprendizado Usando o valorp você diria que a nova técnica é melhor que a anterior 129 Teste para a Variância de uma Normal Um teste sobre a variância desconhecida de uma variável com distribuição normal irá usar a distribuição quiquadrado introduzida na Seção 77 Estamos agora em condições de testar as hipóteses 1210 que sabemos agora ter uma distribuição t de Student com n 1 graus de liberdade Fixado o valor de α podemos usar a Tabela V e encontrar o valor tc tal que PT tc 1 α Veja a Figura 1214 Figura 1214 Valores críticos para o teste t Colhida a amostra de n indivíduos calculamos os valores x0 e s2 0 das estatísticas X e S2 respectivamente e depois o valor de T Se o valor dessa estatística for inferior a tc ou superior a tc rejeitase H0 Caso contrário aceitase H0 Para a construção de intervalos de confiança temos que da qual segue o intervalo de confiança 1211 muito parecido com aquele da variância conhecida Exemplo 1210 Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina Uma amostra de 25 cigarros fornece média de 315 mg e desvio padrão de 3 mg No nível de 5 os dados refutam ou não a afirmação do fabricante Passo 1 As hipóteses aqui são Passo 2 Supondo que X a quantidade de nicotina por cigarro tenha distribuição Nµ σ2 a estatística terá distribuição t24 Passo 3 Por ser um teste unilateral devemos procurar o valor tc tal que PT tc 005 Da Tabela V obtemos tc 1711 ou seja a região crítica para a estatística T é RC 1711 Passo 4 O valor observado da estatística é Passo 5 Como t0 pertence à região crítica rejeitamos H0 ou seja há evidências de que os cigarros contenham mais de 30 g de nicotina Outra maneira de proceder é calcular o valorp ou seja α PT t0H0 PT 25H0 001 Esse valor pequeno de α leva à rejeição de H0 Para construir um ICµ 095 verificamos na Tabela V que o valor tγ 2064 e portanto ou seja ICµ 095 3026 3274 Antes de encerrar este capítulo cabe uma observação Quando aceitamos uma hipótese estamos concluindo que temos algum conhecimento sobre a distribuição da variável de interesse Já quando rejeitamos a hipótese a distribuição da variável não fica especificada A construção de intervalos de confiança desempenha um papel importante nessa situação Ressaltamos também que temos usado a expressão aceitamos a hipótese quando o mais correto talvez fosse não rejeitamos a hipótese c Supondo que na realidade µ 330 qual a probabilidade de tirarmos uma conclusão errada 26 Supõese que determinado tipo de indústria deva ter em média 30 empregados Para testar tal hipótese colhese uma amostra de 50 indústrias cujo resultado está abaixo Caso rejeite a hipótese dê um intervalo de confiança para a verdadeira média suponha que s2 σ2 Nº de empregados Frequência 25 35 8 35 45 10 45 55 13 55 65 10 65 75 9 27 Uma fábrica de automóveis anuncia que seus carros consomem em média 11 litros por 100 km com desvio padrão de 08 litro Uma revista resolve testar essa afirmação e analisa 35 automóveis dessa marca obtendo 113 litros por 100 km como consumo médio considerar distribuição normal O que a revista pode concluir sobre o anúncio da fábrica no nível de 10 28 Um dos maiores problemas de uma grande rede de vendas a varejo é a adequação do estoque declarado com o real existente Decidiuse fazer a verificação por meio de procedimentos amostrais Indicando por X o total em unidades monetárias de cada produto em estoque verificouse que X Nµ 400 Serão sorteados 4 produtos O total X de cada um será verificado e calcularseá a média X que será a estatística de decisão Numa determinada filial o valor declarado de µ é 50 Havendo falta esse parâmetro deve ser 45 no caso de excesso 58 a Defina H0 e H1 b Descreva os erros do tipo I e II c Fixando α 10 qual a regra de decisão para julgar se o estoque está correto ou não d Calcule o erro β e Qual o significado de α e β nesse problema 29 Seja X uma va com distribuição binomial com n 15 Considere H0 p 05 contra H1 p 05 com RC 0 1 2 a Calcule a probabilidade do erro de tipo I b Calcule a probabilidade do erro de tipo II quando p 03 c Esboce o gráfico do poder do teste 30 O custo X de manutenção de teares segue uma distribuição normal X Nµ 400 Durante muito tempo o parâmetro µ tem sido adotado como igual a 200 Suspeitase que esse parâmetro aumentou e só nos interessa saber se o novo parâmetro superior a 210 Assim queremos planejar um teste em que α 5 quando µ 200 e β 10 quando µ 210 a Qual deve ser o tamanho da amostra b Qual a RC nesse caso 31 O número médio diário de clientes de um posto de gasolina tem sido 250 com um desvio padrão de 80 clientes Durante uma campanha de 25 dias em que os clientes recebiam um brinde o número médio de clientes foi 280 com um desvio padrão de 50 Você diria que a campanha modificou a distribuição do número de clientes do posto Descreva as suposições feitas para a resolução do problema 32 A receita média em porcentagem dos quase 600 municípios de um estado tem sido 7 O governo pretende melhorar esse índice e para isso está estudando alguns incentivos Para verificar os efeitos desses incentivos sorteou 10 cidades e estudou quais seriam as porcentagens investidas neles Os resultados foram em porcentagem 8 10 9 11 8 12 16 9 12 13 Admitindose que esses números realmente venham a ocorrer os dados trazem evidência de melhoria Caso altere a média do estado dê um intervalo de confiança para a nova média 33 Para o problema anterior construa ICσ2 90 e descreva as suposições consideradas para obtenção da resposta 34 A prefeitura de uma cidade quer estimar a proporção p dos moradores favoráveis à mudança do horário comercial com o intuito de economizar combustível Essa proporção deverá ser estimada com um erro máximo de 5 a um nível de 90 de confiança a Que tamanho deverá ter a amostra se a proporção p esperada deve estar entre 20 e 50 Justifique a resposta b Numa amostra de 400 moradores 160 foram favoráveis à mudança qual seria o intervalo de confiança para p nesse caso com γ 095 35 Numa pesquisa realizada com 2000 proprietários de carros na cidade de São Paulo 800 responderam que pretendem mudar de carro no decorrer do próximo ano Dê um IC de 90 para a proporção de todos os proprietários de carros de São Paulo que pretendem mudar de carro no próximo ano 36 Um fabricante de um certo tipo de aço especial afirma que seu produto tem um severo serviço de controle de qualidade traduzido pelo desvio padrão da resistência à tensão que não é maior do que 5 kg por cm2 Um comprador querendo verificar a veracidade da afirmação tomou uma amostra de 11 cabos e submeteua a um teste de tensão Os resultados foram os seguintes x 263 e s2 48 Estes resultados trazem alguma evidência contra a afirmação do fabricante Use α 005 37 Um escritório de investimento acredita que o rendimento das diversas ações movimentadas por ele foi de 24 Mais ainda a nova estratégia definida deve garantir uma maior uniformidade nos rendimentos das diversas ações No passado o desvio padrão do rendimento era da ordem de 5 Para verificar as duas hipóteses tomaramse 8 empresas ao acaso obtendose os seguintes rendimentos dados em 236 228 257 248 264 243 239 e 25 Quais seriam as conclusões 38 Sendo X o número de sucessos em n 10 provas de Bernoulli queremos testar H0 p 06 Capítulo 13 Inferência para Duas Populações 131 Introdução Neste capítulo abordaremos o tópico importante de comparar duas populações Pl e P2 baseados em dados fornecidos por amostras dessas populações Como vimos uma grande parte das técnicas usadas em Estatística supõe que as variáveis aleatórias envolvidas tenham distribuição normal Alguns testes que trataremos envolverão a normal Contudo se essa suposição de normalidade for violada procedimentos mais robustos têm de ser utilizados e veremos exemplos de tal situação Uma pergunta que aparece frequentemente em Ciência é a seguinte o método A é melhor do que o B Em termos estatísticos ela equivale a comparar dois conjuntos de informações resultantes das medidas obtidas da aplicação dos dois métodos a dois conjuntos de objetos ou indivíduos Uma das dificuldades que enfrentamos é a de caracterizar adequadamente a igualdade ou equivalência de duas populações Por exemplo suponha que estamos interessados em saber se alunos de duas regiões A e B tiveram desempenhos iguais em um mesmo teste nacional Mais ainda suponha que tenhamos os resultados do teste para todos os alunos das duas regiões isto é conhecemos as duas populações Suponha que cálculos posteriores revelem que as médias e desvios padrões das duas populações sejam iguais isto é µA µB e σA σB Será que isso equivale a dizer que os desempenhos nas duas regiões são equivalentes Se uma análise mais cuidadosa não for feita poderemos ser levados a responder afirmativamente a essa questão Entretanto observando a Figura 131 vemos que é possível ter duas distribuições com os mesmos parâmetros acima mas formas bastante distintas Figura 131 Distribuições das populações A e B com µA µB 4 σA σB 116 Esse fato nos remete à necessidade de também mencionarmos a forma da distribuição Especificada a forma a igualdade dos parâmetros que identificam a curva implica a igualdade ou coincidência das duas populações É bem pouco provável que um mesmo fenômeno obedeça a formas de distribuições distintas como no exemplo da Figura 131 Seguir uma mesma distribuição porém com parâmetros distintos é mais verossímil Como a normal é um modelo importante e seguido por muitas variáveis de interesse prático estaremos admitindo essa forma a não ser quando uma análise dos dados nos diga o contrário Neste capítulo trataremos de várias situações que passamos a descrever 1 Inferências para duas médias amostras independentes Aqui temos dados na forma de duas amostras extraídas independentemente de cada população É muito comum em experimentos do tipo controle versus tratamento nos quais o interesse principal é verificar o efeito desse último O caso típico é aquele de comparar uma nova droga com uma padrão usadas para o tratamento de uma doença Exemplo 131 a Um curso de Estatística é ministrado pela televisão para um grupo de alunos e ao vivo para outro grupo Queremos testar a hipótese de que o curso ao vivo é mais eficaz que o curso por meio da televisão b Queremos comparar o efeito de duas rações A e B sobre o crescimento de porcos Dois grupos de porcos em crescimento foram alimentados com as duas rações e após cinco semanas verificamse quais foram os ganhos de peso dos porcos dos dois grupos c 20 canteiros foram plantados com uma variedade de milho Em dez deles um novo tipo de fertilizante é aplicado e nos outros um fertilizante padrão Examinandose as produções dos dois canteiros queremos saber se há diferenças significativas entre as produções Na maioria das vezes fica claro o que chamamos de controle e tratamento No exemplo c acima os canteiros tratados com o novo fertilizante seriam o grupo de tratamento enquanto os demais tratados com o fertilizante usual constituiriam o grupo de controle Mas nos exemplos a e b essa distinção é apenas convencional Formalmente o modelo para o problema das duas amostras é o seguinte as va X1 Xm representam as respostas do grupo de controle e são consideradas va independentes com a mesma distribuição P1 Y1 Yn representam as respostas do grupo de tratamento e são v a independentes com a mesma distribuição P2 Além disso X1 Xm Y1 Yn são independentes entre si A hipótese a ser testada é H0 P1 P2 131 ou seja queremos testar a homogeneidade das populações de onde as amostras foram extraídas H0 é chamada hipótese de homogeneidade O significado de 131 dependerá muito do interesse do pesquisador em considerar qual tipo de igualdade implicará a coincidência das duas distribuições Admitamos que tanto P1 como P2 sigam uma distribuição normal ou seja P1 Nµ1 σ2 1 e P2 Nµ2 σ2 2 Na Figura 132 temos as quatro situações possíveis Observando os gráficos da Figura 132 não temos dúvidas em reconhecer que as duas populações são iguais no caso a e diferentes no caso d Já nos outros dois casos podem existir situações em que elas possam ser consideradas iguais ou não Por exemplo uma pesquisa para verificar se o salário médio da região P1 é o mesmo da região P2 aceita como resposta verdadeira tanto a situação a como a b Outra pesquisa para verificar se dois processos produzem peças com a mesma qualidade em termos de dispersão aceita como verdadeiras as situações a ou c Assim a estratégia para comparar duas populações por meio de seus parâmetros envolve suposições sobre a forma das distribuições para depois testar médias e variâncias É comum estarmos interessados em testar apenas que P1 e P2 difiram em localização ou posição isto é a alternativa a H0 é que P1 esteja à direita de P2 ou o contrário mas que ambas tenham a mesma dispersão caso µ1 µ2 e σ1 σ2 da figura Nesse caso H0 será equivalente a H0 0 132 com µ2 µ1 Figura 132 a µ1 µ2 σ1 σ2 b µ1 µ2 σ1 σ2 c µ1 µ2 σ1 σ2 d µ1 µ2 σ1 σ2 Os testes t de Student e de Wilcoxon descritos a seguir são apropriados para esse tipo de situação O teste t é aplicável quando P1 e P2 supostas são normais com médias µ e µ respectivamente e com a mesma variância O teste de Wilcoxon aplicase para P1 e P2 quaisquer mas suponhase que a escala de medidas seja pelo menos ordinal A análise fica mais fácil quando a P1 e P2 são atribuídas distribuições de variáveis contínuas Discutiremos a razão desta suposição adicional Outro caso de interesse é aquele em que queremos testar se as duas médias são iguais mas as variâncias são diferentes Na Figura 131 as duas curvas teriam dispersões diferentes ao redor de suas médias Então um teste preliminar de igualdade de variâncias seria necessário O teste t de Student para o caso de populações normais será apresentado neste capítulo A hipótese 131 ou 132 nos diz que não há efeito do tratamento A alternativa usual para H0 é que o efeito do tratamento é o de aumentar as respostas Isto é P2 gera valores maiores que P1 com maior frequência Mas pode ocorrer o contrário diminuir as respostas Por exemplo o tratamento visa a diminuir o tempo para executar determinada tarefa 2 Inferências para duas médias amostras dependentes Quando se comparam as médias de duas populações pode ocorrer uma diferença significativa por causa de fatores externos não controlados Por exemplo no caso do Exemplo 134 abaixo poderia ocorrer que um dos grupos tivesse vendedores mais experientes e habilidosos do que o outro Logo a diferença seria devido a esses fatos e não ao mérito real da técnica de vendas Um modo de contornar esse problema é coletar as observações em pares de modo que os dois elementos de cada par sejam homogêneos em todos os sentidos exceto no que diz respeito ao fator que queremos comparar Por exemplo no caso do Exemplo 131 a para testar os dois métodos de ensino poderíamos usar n pares de gêmeos sendo que um elemento de cada par recebe aulas pela TV e outro ao vivo Esse procedimento pretende controlar o maior número possível de fatores externos que possam afetar o aprendizado Se houver diferença no aprendizado essa deverseá realmente ao método Esse procedimento também é usado quando observações das duas amostras são feitas no mesmo indivíduo por exemplo medindo uma característica do indivíduo antes e depois de ele ser submetido a um tratamento O teste t de Student para observações pareadas ou emparelhadas supondo normalidade é apropriado para essas situações 3 Inferências para duas variâncias amostras independentes Como vimos no item 1 podemos testar se duas amostras independentes provêm de duas populações com variâncias iguais desconhecidas Se essas variâncias forem diferentes o teste tem de ser modificado Esse teste sob a suposição de normalidade das duas populações usa uma estatística que tem uma distribuição especial chamada F de Snedecor Finalizando esta seção ressaltamos que poderemos ter mais do que duas amostras e técnicas semelhantes podem ser desenvolvidas Veja o Capítulo 15 132 Comparação das Variâncias de Duas Populações Normais A situação que vamos considerar nesta seção envolve a utilização da distribuição F estudada na Seção 77 A descrição a seguir é importante Uma das distribuições amostrais mais usadas e que corresponde a uma distribuição F resulta do seguinte problema Suponha que temos duas amostras independentes de tamanhos n1 e n2 retiradas de duas populações normais com a mesma variância σ2 Indiquemos os estimadores de σ2 obtidos das amostras por S2 1 e S2 2 respectivamente Já vimos que e portanto a va Máquina A 145 127 136 142 141 137 Máquina B 143 128 132 138 142 132 As hipóteses a serem testadas são H0 σ2 A σ2 B σ2 H1 σ2 A σ2 B Sob a suposição de normalidade das medidas de resistência à tensão para as duas máquinas temos que a va W definida por 134 tem uma distribuição F55 Fixando α 010 e consultando a Tabela VI teremos RC 0 5051 505 Das amostras encontramos s2 A 40 e s2 B 37 portanto w0 108 Como esse valor não pertence à região crítica aceitamos H0 ou seja as máquinas produzem com a mesma homogeneidade quanto à variabilidade Caso tivéssemos rejeitado a hipótese de igualdade das variâncias seria conveniente obter um intervalo de confiança para o quociente das duas variâncias De 133 podemos escrever quando σ2 1 σ2 2 e para um dado γ 0 γ 1 podemos encontrar dois valores f1 e f2 tais que Pf1 Fn 1 m 1 f2 γ Dessa igualdade seguese que com probabilidade γ ou seja o ICσ2 2σ2 1 γ será dado por 135 Exemplo 133 Suponha que para outras seis medidas para as máquinas A e B do Exemplo 132 tivéssemos S2 A 85 e S2 B 8 Como w0 858 1062 rejeitaríamos H0 Então o IC dado por 135 ficaria com γ 090 ou seja Invertendose obtemos também que indica a variação possível no nível fixado da razão entre as duas variâncias Note que sob H0 temos σ2 Aσ2 B 1 que não pertence a esse intervalo Problemas 1 Da população X N50 100 retirouse uma amostra casual simples de n 10 elementos Da população Y N60 100 retirouse uma amostra casual simples de m 6 indivíduos independente da primeira Obtemos as variâncias amostrais S2 1 e S2 2 respectivamente a Encontre o valor de a tal que PS2 1S2 2 a 95 b Encontre o valor de b tal que PS2 1S2 2 b 95 2 Por que em 133 as va U e V são independentes 3 Uma das maneiras de medir o grau de satisfação dos empregados de uma mesma categoria quanto à política salarial é por meio do desvio padrão de seus salários A fábrica A diz ser mais coerente na política salarial do que a fábrica B Para verificar essa afirmação sorteouse uma amostra de 10 funcionários não especializados de A e 15 de B obtendose os desvios padrões sA 1000 reais e sB 1600 reais Qual seria a sua conclusão 4 Desejase comparar a qualidade de um produto produzido por duas fábricas Essa qualidade será definida pela uniformidade com que o produto é produzido em cada fábrica Tomaramse duas amostras uma de cada fábrica medindose o comprimento dos produtos o resumo dos resultados está no quadro abaixo A qualidade das duas fábricas é a mesma Caso a sua resposta seja negativa dê um intervalo de confiança para indicar a intensidade dessa desigualdade Estatísticas Fábrica A Fábrica B Amostra 21 17 Média 2115 2112 Variância 00412 01734 133 Comparação de Duas Populações Amostras Independentes Nesta seção estudaremos o caso em que temos duas amostras independentes X1 Xn e Y1 Ym de duas populações P1 e P2 respectivamente Estaremos interessados em comparar as médias dessas populações verificando se elas podem ser consideradas iguais ou não No caso de populações normais teremos preliminarmente de usar o que aprendemos na seção anterior para testar se as variâncias de P1 e P2 são iguais Consideraremos duas situações na primeira iremos supor que as populações sejam normais reveja os Problemas 32 33 e 34 do Capítulo 10 os Problemas 31 e 32 do Capítulo 11 e o Problema 29 do Capítulo 12 na segunda essa suposição não é necessária 1331 Populações Normais Aqui P1 Nµ1 σ2 1 e P2 Nµ2 σ2 2 Queremos testar a hipótese 131 que aqui fica escrita na forma H0 µ1 µ2 Na situação da Figura 132 c a alternativa adequada é H1 µ2 µ1 mas supondo as variâncias iguais Se estivermos apenas interessados em verificar se existe diferença entre as médias das duas populações não importando a direção então a alternativa adequada será H1 µ1 µ2 viesados de σ2 podemos combinálos para obter um estimador comum 1310 que também é um estimador não viesado de σ2 Mais ainda cada parcela do numerador de 1310 quando dividida por σ2 terá distribuição quiquadrado com n 1 e m 1 graus de liberdade respectivamente Logo teremos que 1311 Pelo Teorema 71 a estatística 1312 terá uma distribuição t de Student com n m 2 graus de liberdade sob a hipótese H0 isto é se µ1 µ2 Tabela 131 Dados para duas técnicas de vendas Dados Vendas Técnica A Técnica B Média 68 76 Variância 50 52 Vendedores 12 15 Exemplo 134 Duas técnicas de venda são aplicadas por dois grupos de vendedores a técnica A por 12 vendedores e a técnica B por 15 vendedores Esperase que a técnica B produza melhores resultados No final de um mês obtiveramse os resultados da Tabela 131 Vamos testar para o nível de significância de 5 se há diferenças significativas entre as vendas resultantes das duas técnicas Supondo que as vendas sejam normalmente distribuídas e usando o teste da Seção 132 vemos que σ2 A σ2 B As hipóteses a serem testadas ficam H0 µA µB H1 µA µB Pelas suposições acima podemos usar a estatística 1312 com n 12 m 15 e S2 p 11S2 A 14S2 B25 Da Tabela V obtemos RC 1708 Da Tabela 131 calculamos Como t0 RC rejeitamos H0 ou seja existe evidência de que a técnica B produz melhores resultados do que a técnica A Encontrada diferença entre os métodos a continuação natural é construir um intervalo de confiança para a diferença µB µA Do resultado 1312 é fácil verificar que Para o nosso exemplo com γ 095 esse intervalo reduzse a b Variâncias Desiguais Desconhecidas Quando a hipótese de igualdade de variâncias for rejeitada devemos usar a estatística 1313 Podese provar que sob a veracidade de H0 a va T aproximase de uma distribuição t de Student com o número de graus de liberdade dado aproximadamente por 1314 na qual A s2 1n B s2 2m ambos os casos deve ser da ordem de 20 unidades É possível afirmar que o gasto médio nas duas filiais seja o mesmo Caso contrário dê um intervalo de confiança para a diferença 7 Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas especiais Para verificar o efeito dos tratamentos foram usadas amostras cujos resultados estão no quadro abaixo em porcentagem de corrosão eliminada Qual seria a conclusão sobre os dois tratamentos Método Amostra Média Desvio Padrão A 15 48 10 B 12 52 15 8 No Problema 4 teste a hipótese de que as médias dos comprimentos do produto produzido pelas duas fábricas são iguais 9 Para investigar a influência da opção profissional sobre o salário inicial de recém formados investigaramse dois grupos de profissionais um de liberais em geral e outro de formados em Administração de Empresas Com os resultados abaixo expressos em salários mínimos quais seriam suas conclusões Liberais 66 103 108 129 92 123 70 Administradores 81 98 87 100 102 82 87 101 1332 Populações Não Normais Passamos agora a descrever um teste que não faz suposições a respeito da forma das distribuições P1 e P2 a não ser que as variáveis envolvidas tenham uma escala de medida pelo menos ordinal Ou seja podemos abordar o caso de variáveis qualitativas ordinais e variáveis quantitativas Esse teste chamado de Wilcoxon ou de MannWhitney pertence a uma categoria de procedimentos chamados não paramétricos ou livres de distribuição Teremos para análise amostras independentes das duas populações e queremos testar a hipótese 131 contra a alternativa de que as distribuições diferem em localização estaremos interessados em saber se uma população tende a ter valores maiores do que a outra ou se elas têm a mesma mediana ou média O teste de Wilcoxon é baseado nos postos dos valores obtidos combinandose as duas amostras Isso é feito ordenandose esses valores do menor para o maior independentemente do fato de qual população cada valor provém A estatística do teste é a soma dos postos associados aos valores amostrados de uma população P1 por exemplo Se essa soma for grande isso é uma indicação de que os valores dessa população tendem a ser maiores do que os valores de P2 e então rejeitamos 131 No caso de termos uma va qualitativa ordinal comumente associamos números às diversas categorias ou classes ou atributos segundo as quais a variável é classificada Por exemplo podemos ter 1 para bom 2 para muito bom e 3 para ótimo Vemos então que esses valores são os postos nesse caso e em outras situações é preferível trabalhar com postos do que com valores arbitrários associados à va qualitativa Quando trabalhamos com va quantitativas poderemos ter valores repetidos nas amostras Veremos como associar postos nesse caso Para evitar esses empates uma possibilidade é supor que a va seja contínua de modo que se X for uma tal variável PX x0 0 Essa suposição é eventualmente necessária para o desenvolvimento teórico do teste mas na prática quer X seja contínua ou discreta valores repetidos poderão aparecer a Observações Distintas Suponha que tenhamos N observações Z1 Z2 ZN Ordenando as da menor para a maior obtemos as estatísticas de ordem Z1 Z2 ZN Inicialmente suponha que não haja observações coincidentes de modo que os sinais de são substituídos por Então associamos números normalmente 1 2 N chamados postos que correspondem às posições das observações na ordenação O posto de Zi é igual a 1 número de Zj Zi Assim dadas as observações Z1 03 Z2 15 Z3 05 Z4 20 os postos de Z1 Z2 Z3 e Z4 serão respectivamente R1 2 R2 3 R3 1 R4 4 já que a ordenação resulta em 05 03 15 20 ou Z3 Z1 Z2 Z4 Exemplo 136 Num estudo sobre um novo método para ensinar Matemática elementar foram selecionadas cinco crianças Destas três são escolhidas ao acaso e ensinadas segundo o novo método enquanto as outras duas funcionaram como controle e receberam instrução por um método tradicional Após um período de cinco semanas é feito um teste e as crianças são ordenadas segundo seu desempenho a criança que tiver menor nota recebe posto 1 etc até a criança que tiver maior nota recebe posto 5 O método de ensino será considerado eficaz se as três crianças que recebem o novo método tiverem postos altos nessa ordenação combinada das cinco crianças Seja H0 a hipótese nula que especifica que o tratamento novo método não tem efeito isto é a nota da criança não é afetada se ela for ou não ensinada pelo novo método Se H0 for verdadeira o posto atribuído a cada criança é determinado somente pela sua inteligência ou seja a ordenação das crianças não depende de qual recebe tratamento e qual funciona como controle A Tabela 133 mostra todos os casos possíveis para a ordenação em que C indica controle e T tratamento Tabela 133 Valores de WS para o Exemplo 136 Postos WS 1 2 3 4 5 C C T T T 12 C T C T T 11 T C C T T 10 C T T C T 10 T C T C T 9 C T T T C 9 T C T T C 8 T T C T C 7 T T T C C 6 T T C C T 8 Vemos que as crianças e seus postos podem ser divididos em dois grupos tratados e controles de maneiras diferentes A suposição de que as três crianças recebendo o tratamento são selecionadas ao acaso e de que os tratamentos são equivalentes implica que todas as dez possibilidades têm a mesma probabilidade 110 Consideremos a estatística WS S1 S2 S3 1315 em que S1 S2 e S3 são os postos das crianças que receberam o tratamento na amostra combinada Poderíamos considerar como regra de decisão para rejeitar H0 a ocorrência de WS 12 correspondendo à ocorrência de CCTTT clara superioridade do tratamento Qual seria a probabilidade de esse evento ocorrer por mero acaso ou seja quando os dois métodos são equivalentes Nesse caso teremos PWS 12H0 verdadeiro 010 que é a probabilidade do erro de tipo I ou seja o nível de significância do teste Mas como vimos antes usualmente procedemos de maneira oposta ou seja fixamos α e não a regra de decisão Como vimos acima rejeitamos H0 para valores grandes de WS ou seja WS c em que c é uma constante determinada a partir do nível de significância do teste α Obtemos o teste de Wilcoxon Rejeite H0 se WS c em que c é determinada por PWS cH0 é verdadeira α A distribuição nula isto é sob H0 de WS é obtida da Tabela 133 e está na Tabela 134 Tabela 134 Distribuição de WS observações distintas w 6 7 8 9 10 11 12 PWS w 110 110 210 210 210 110 110 A distribuição de WS é simétrica ao redor do valor 9 que como veremos representa a média de WS dada por nN 12 com N n m Ver Figura 133 Figura 133 Distribuição de WS para o Exemplo 136 Se por exemplo α 005 não existe valor satisfazendo PWS c 005 Podemos encontrar c somente para valores de α iguais a 01 02 04 etc Por exemplo se α 01 então PWS 12 01 e c 12 Consideremos agora a situação geral Queremos testar 131 Temos duas amostras independentes X1 Xn de P1 e Y1 Ym de P2 Seja N n m e combinamos as duas amostras numa só ordenamos os N valores no menor para o maior e chamemos S1 S2 Sm os postos dos Yi tratamentos e R1 R2 Rn os postos dos Xi controles Estamos supondo que não haja empates Seja WS S1 S2 Sm 1316 a soma dos postos dos tratamentos Rejeitamos H0 se WS c No caso bilateral rejeite H0 se WS c1 ou WS c2 para dado α Não é difícil verificar que se a distribuição de P1 for contínua então 1317 em que s1 s2 sm e si 1 2 N N n m Observação Por 1317 vemos que a distribuição dos postos e portanto de WS não depende de P1 Isso não ocorrerá se P1 não for contínua Se as distribuições P1 e P2 forem contínuas há ausência de empates isto é coincidência entre valores de X e de Y Isso significa que poderíamos considerar nossas medidas de X e Y de tal sorte que coincidências seriam evitadas Na prática contudo as medidas são feitas em geral com o mesmo número de casas decimais de modo que empates podem ocorrer Essa situação é analisada abaixo A distribuição sob H0 de WS pode ser encontrada como no Exemplo 136 Para dado valor de w verificamos quantas amostras de tamanho m retiradas de P 1 2 N fornecem o valor de w Se w n m indicar esse número então por 1317 1318 Podese provar o seguinte resultado veja por exemplo Lehmann 1975 Teorema 131 Para a estatística WS temos 1319 1320 Além disso a distribuição de WS pode ser aproximada pela distribuição normal quando n m a va 1321 tem uma distribuição aproximada N0 1 Uma estatística equivalente a WS é 1322 chamada estatística de MannWhitney Há duas vantagens em se usar US a a distribuição de US para n n1 e m m1 é a mesma que a distribuição de US quando os tamanhos são invertidos isto é para n m1 e m n1 Isso não acontece com WS b o valor mínimo de WS é obtido quando os postos dos m tratamentos são 1 2 m e 1 2 m mm 12 logo o valor mínimo de US é zero para quaisquer valores de n e m simplificando a construção de tabelas A Tabela VIII do Apêndice dá os valores de PUS u Para essa estatística temos o resultado seguinte Teorema 132 A média e variância de US são dadas por 1323 e 1324 respectivamente Além disso a distribuição de US pode também ser aproximada por uma normal Exemplo 137 Suponha que m n 10 e queremos calcular PWS 87 O valor tabelado é 00952 que é encontrado na Tabela VIII com n m 10 e levandose em conta que US 87 10 112 32 e portanto PUS 32 00952 Por outro lado usando a aproximação normal EWS 105 VarWS 175 temos que está bem próxima do valor encontrado usandose a tabela A aproximação pode ser melhorada usandose a correção de continuidade discutida na Seção 75 pois aqui também estamos aproximando a distribuição de uma va discreta WS por uma distribuição de variável contínua normal Verifique que usando essa correção obtemos PWS 87 00934 b Observações Não Todas Distintas Consideremos agora a situação em que haja observações coincidentes ou empates Suponha por exemplo que n 3 m 2 e as observações são 13 15 15 21 25 Nesse caso usamos postos médios Associamos o posto 1 à observação 13 às duas observações empatadas 15 associamos a média dos postos 2 e 3 que seriam atribuídas se as observações fossem distintas ou seja atribuímos o posto 2 32 25 à observação 21 atribuímos o posto 4 e à observação 25 atribuímos o posto 5 Embora a atribuição de postos seja diferente nesse caso continuaremos a usar a mesma notação anterior para os postos das observações Xi e Yi A distribuição da estatística WS não é mais dada por 1317 pois os valores de S1 Sm não são mais os anteriores Retomemos o exemplo dado Temos que a distribuição conjunta dos postos S1 e S2 será PS1 1 S2 25 210 PS1 1 S2 4 110 PS1 1 S2 5 110 PS1 S2 25 110 PS1 25 S2 4 210 PS1 25 S2 5 210 PS1 4 S2 5 110 pois ainda cada uma das escolhas de dois dos postos médios como S1 e S2 são igualmente prováveis Portanto a distribuição de WS S1 S2 é dada pela Tabela 135 Tabela 135 Distribuição de WS observações nãodistintas w 35 50 60 65 75 90 PWS w 210 210 110 210 210 110 Observe que a distribuição da va WS nesse caso não é simétrica será simétrica ao redor de mN 12 se n m Genericamente o teste de Wilcoxon no caso de observações empatadas rejeita H0 usando a mesma regra de decisão que no caso de observações não empatadas exceto que a distribuição de WS vai depender de n m e dos números de observações empatadas em cada valor ao contrário da situação de não empates para a qual a distribuição de WS depende somente de n e m Exemplo 138 Supondo n 3 m 2 as observações dos controles são 13 15 e 21 e as observações dos tratamentos são 15 e 25 Então S1 25 S2 5 R1 1 R2 25 R3 4 e WS S1 S2 75 Pelo que vimos acima o valorp será α PWS 75 210 110 03 logo não rejeitaremos H0 nos níveis usuais Suponha que temos d1 observações empatadas no menor valor d2 observações empatadas no segundo menor valor etc até de observações empatadas no maior valor em que e é o número de valores distintos Denominamos e d1 de de configuração de empates e a distribuição de WS dependerá dessa configuração Assim sendo tabelas teriam de ser construídas para cada configuração de empates o que não é prático O que se faz é o seguinte se o número de empates for pequeno continue a usar a Tabela VIII Caso contrário use a aproximação normal Nesse caso a média de WS é a mesma anterior mas a variância é igual à anterior menos uma correção devida aos empates 1325 A aproximação normal será adequada se m e n forem relativamente grandes e as proporções diN não forem próximas de 1 Exemplo 139 Em aparelhos dentários são usados grampos de dois tipos um modelo em T e outro circunferencial C O objetivo é verificar se a resistência à remoção de grampos em T é a mesma do modelo C Foram usados 40 corpos de provas dentegrampo sendo 20 para o modelo T e 20 para o modelo C com cinco leituras para cada corpo de prova num total de 100 observações para cada modelo As Figuras 134 e 135 mostram os histogramas para os dois modelos a resistência sendo medida em kg Figura 134 Resistência à remoção em kg para o modelo C Figura 135 Resistência à remoção em kg para o modelo T Vemos que há assimetrias nos histogramas sugerindo que a aplicação do teste t de Student não é adequada nessa situação A Tabela 136 mostra as médias das 5 leituras para cada corpo de prova para o modelo T e para o modelo C em ordem crescente Admitamos que o grupo de controle seja aquele em que os grampos sejam do tipo T e grampos do tipo C constituam o tratamento Ordenando as médias da Tabela 136 e atribuindo postos obtemos a Tabela 137 Tabela 136 Valores de resistência à remoção para os dois modelos T C T C 060 052 119 119 063 077 120 120 083 079 126 134 085 079 128 136 091 081 130 138 095 081 137 143 101 089 145 164 103 098 154 171 103 101 168 216 116 118 220 225 Tabela 137 Postos para o Exemplo 139 Média 052 060 063 077 079 079 081 081 083 085 Tipo C T T C C C C C T T Posto 1 2 3 4 55 55 75 75 9 10 Média 089 091 095 098 101 101 103 103 116 118 Tipo C T T C C T T T T C Posto 11 12 13 14 155 155 175 175 19 20 Média 119 119 120 120 126 128 130 134 136 137 Tipo C T T C T T T C C T Posto 215 215 235 235 25 26 27 28 29 30 Média 138 143 145 154 164 168 171 216 220 225 Tipo C C T T C T C C T C Posto 31 32 33 34 35 36 37 38 39 40 Aqui n m 20 e queremos testar H0 a resistência à remoção é a mesma para os dois tipos de grampos H1 o tipo C apresenta menor resistência à remoção do que o do tipo T A soma dos postos dos tratamentos é WS S1 S2 S20 4065 Usando a aproximação normal a va 1326 em que VarWS é dada por 1325 e terá distribuição aproximadamente N0 1 Consultando a Tabela 137 temos d1 d2 d3 d4 1 d5 2 d6 2 d7 d12 1 d13 2 d14 2 d15 d16 1 d17 2 d18 2 d19 d34 1 Aqui temos e 34 valores distintos e EWS 20 412 410 VarWS 20 20 4112 20 2012 40 39 8 2 6 1366667 2857 1363810 O valor de 1326 é Z 4065 4103693 0095 Como rejeitaremos H0 se WS c no nível α 005 devemos comparar esse valor com o valor 164 da normal padrão portanto não rejeitamos H0 Vemos que o valorp do teste é α PWS 4065 PZ 0095 046 que é uma indicação de que a hipótese H0 deve ser aceita Observação Comparação entre o Teste t e o Teste de Wilcoxon O teste t baseiase na suposição de que as populações P1 e P2 sejam normais Uma violação dessa suposição altera a distribuição da estatística usada no teste e muda as probabilidades dos erros de tipo I e II Dizemos que um teste é robusto contra a violação de uma suposição se suas probabilidades de erro de tipo I e II não são afetadas de forma apreciável pela violação Podese mostrar que o teste t é pouco sensível à heterogeneidade de variâncias se m n mas ele será mais afetado se as variâncias forem diferentes e m n Os testes t e de Wilcoxon são comparados pelos de seus poderes em termos de uma quantidade chamada eficiência relativa assintótica mas não entraremos em detalhes aqui sobre esse assunto Mas podemos resumir a situação da seguinte maneira a o teste t é mais poderoso quando temos populações normais mas a perda de eficiência do teste de Wilcoxon é pequena menos de 5 nesse caso b haverá pouca diferença entre os dois testes para distribuições próximas da normal c o teste de Wilcoxon é mais eficiente para distribuições que têm caudas mais pesadas do que a normal Para se ter uma ideia do que significa mais pesada observamos que as distribuições t e Cauchy têm distribuições com caudas mais pesadas que a normal Se P1 e P2 forem ambas uniformes podese provar que os dois testes são igualmente eficientes e se P1 e P2 forem ambas exponenciais o teste de Wilcoxon é três vezes mais eficiente Problemas 10 Vinte canteiros foram plantados com milho Em dez deles um novo tipo de fertilizante foi aplicado obtendose as produções abaixo Há diferenças significativas entre as produções A alternativa é que o novo fertilizante tende a produzir valores maiores Tome α 005 Calcule α Controle 71 60 80 70 66 74 70 70 69 68 Tratamento 69 68 75 68 69 68 68 68 67 66 11 Obtenha a distribuição nula de WS para os casos a m 2 n 2 b m 2 n 4 c m n 3 12 Calcule as seguintes probabilidades usando a Tabela VIII e a aproximação normal a m 6 n 7 PWS 48 b m 8 n 10 PWS 65 c m 10 n 10 PWS 63 13 Encontre a distribuição nula de WS no caso de empates para os casos a m n 3 d1 d2 1 d3 2 d4 d5 1 b m n 3 d1 d2 d3 2 c m 2 n 3 d1 d2 1 d3 3 14 Faça os histogramas para WS nos Problemas 11 e 13 15 Suponha que as observações dos tratamentos sejam 3 3 5 e 7 e as observações dos controles sejam 1 4 e 8 e que o teste de Wilcoxon rejeite para valores grandes de WS Calcule α PWS w em que w é o valor observado de WS 134 Comparação de Duas Populações Amostras Dependentes Na Seção 131 já discutimos essa situação Aqui temos duas amostras X1 Xn e Y1 Yn só que agora as observações são pareadas isto é podemos considerar que temos na realidade uma amostra de pares X1 Y1 Xn Yn Se definirmos a va D X Y teremos a amostra D1 D2 Dn resultante das diferenças entre os valores de cada par Observe que reduzimos a um problema com uma única população conforme estudado nos capítulos anteriores Consideraremos dois casos no primeiro supomos que a população das diferenças é normal no segundo supomos que essa população é simétrica 1341 População Normal Nessa situação faremos a seguinte suposição a va D tem distribuição normal NµD σ2 D Podemos deduzir daqui que 1327 terá distribuição NµD σ2 Dn Considere 1328 Pelo Teorema 71 a estatística 1329 terá distribuição t de Student com n 1 graus de liberdade Como µD ED EX Y EX EY µ1 µ2 qualquer afirmação sobre o µ1 µ2 corresponde a uma afirmação sobre µD Exemplo 1310 Cinco operadores de certo tipo de máquina são treinados em máquinas de duas marcas diferentes A e B Mediuse o tempo que cada um deles gasta na realização de uma mesma tarefa e os resultados estão na Tabela 138 Tabela 138 Tempos para realização de tarefa para cinco operadores Operador Marca A Marca B 1 80 75 2 72 70 3 65 60 4 78 72 5 85 78 Com o nível de significância de 10 poderíamos afirmar que a tarefa realizada na máquina A demora mais do que na máquina B Estamos interessados em testar H0 µA µB H1 µA µB Essas hipóteses são equivalentes a H0 µD 0 H1 µD 0 Como é o mesmo operador que realiza a tarefa nas duas máquinas estamos diante do caso em que se pode usar variáveis emparelhadas Vamos admitir que sob H0 a diferença de tempo segue uma distribuição normal N0 σ2 D Logo usamos a estatística 1329 Para determinar a região crítica note que devido à forma de H1 devemos encontrar tc tal que PT tc 010 sendo que T tem distribuição t4 Usando a Tabela V obtemos RC 154 Da Tabela 138 obtemos os valores de D di 5 2 5 6 7 e portanto d 5 e s2 D 35 O valor observado da estatística T é Seguese que rejeitamos H0 ou seja demorase mais para realizar a tarefa com a máquina A Podemos construir um intervalo de confiança para µD para γ 090 ou seja ICµD 090 322 678 1342 População Não Normal Vamos considerar agora um teste baseado nos postos das diferenças Di o chamado teste dos postos sinalizados de Wilcoxon Para esse teste supomos que a escala das diferenças seja pelo menos intervalar e que os pares Xi Yi constituam uma AAS Isso implica em particular que os Di são independentes com a mesma mediana Suponha ainda que cada Di tenha uma distribuição simétrica Ou seja as médias e medianas coincidem Exemplo 1311 Suponha que se possa simular um modelo por meio de duas linguagens computacionais que chamaremos A e B Supostamente o tempo usando B é menor que o tempo usando A Cinco pares de alunos são selecionados para o teste de modo que cada membro de um par tenha a mesma habilidade computacional nas duas linguagens do que o outro Um membro de cada par é escolhido ao acaso e este vai usar a linguagem B o outro usará A O tempo de simulação em segundos de cada linguagem é anotado obtendose a Tabela 139 Tabela 139 Tempos de simulação em segundos para as linguagens A e B Par 1 2 3 4 5 tempo de BX 300 410 420 410 400 tempo de AY 350 390 490 435 440 D X Y 50 20 70 25 40 Posto de D 4 1 5 2 3 Posto sinalizado 4 1 5 2 3 Queremos testar a hipótese de que os tempos são semelhantes contra a hipótese de que os tempos de B são menores Ou ainda H0 µB µA µD 0 H1 µB µA µD 0 Na quarta linha da Tabela 139 estão apresentadas as diferenças Di e os postos são calculados a partir das variáveis Di ou seja os módulos ou valores absolutos dos Di quinta linha A sexta linha posto sinalizado é obtida atribuindose ao posto de Di o sinal correspondente de Di Por exemplo para a primeira observação D1 300 350 50 com D1 50 que tem posto 4 e portanto posto sinalizado 4 Notamos que só há um posto positivo 1 Se indicarmos por T a soma dos postos positivos rejeitaremos H0 se T for pequeno É claro que podemos trabalhar com os postos negativos também e considerar T soma dos postos negativos No exemplo T 1 e T 14 Usando T rejeitaremos H0 se esta for grande Note que T T 15 que é a soma de todos os postos dos Di que por sua vez é nn 12 sendo n 5 o número de pares Em geral devemos usar a menor soma Trabalhemos com T Para conduzir o teste devemos obter a distribuição dessa estatística sob a hipótese nula H0 Para isso note que se H0 for verdadeira cada posto tem a mesma probabilidade de ser associado com um sinal ou com um sinal Logo a sequência de postos sinalizados é uma de todas as possíveis combinações de 1 2 5 Há 25 32 tais combinações todas equiprováveis sob H0 ou seja com probabilidade 132 Na Tabela 1310 temos todas as possibilidades juntamente com o valor de T Na Tabela 1311 temos a distribuição de T Note que a distribuição de T é simétrica com média e mediana iguais a 75 Tabela 1310 Sinais possíveis para os postos Exemplo 1310 1 2 3 4 5 T 1 2 3 4 5 T 15 7 14 7 13 7 12 6 12 6 11 6 11 5 10 5 10 5 10 4 9 4 9 3 9 3 8 2 8 1 8 0 Tabela 1311 Distribuição de T sob H0 T 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Frequência 1 1 1 2 2 3 3 3 3 3 3 2 2 1 1 1 O valorp do teste é PT 1H0 232 006 usando a Tabela 1311 Ou seja há indicação de que o tempo de simulação usando a linguagem B é menor do que o tempo de A Observe que temos poucos pares e o valor α 006 não é tão pequeno reveja a Tabela 122 Mas como temos somente um posto positivo dentre cinco somos levados a duvidar da validade de H0 Vejamos agora o caso geral Tomemos os valores absolutos das diferenças ou seja Di Xi Yi i 1 m Quando Xi Yi omitir a diferença correspondente e seja n o número de diferenças estritamente diferentes de zero Associemos a cada par Xi Yi o posto do módulo de Di correspondente Use postos médios se houver Di coincidentes A hipótese a ser testada é que a média ou a mediana das diferenças seja igual a zero contra a alternativa que não seja Testes unilaterais podem também ser considerados Ou seja dada a simetria da distribuição dos Di iremos testar H0 µD 0 H1 µD 0 em que µD representa como antes a média das diferenças Considere 1330 em que RXi Yi é o posto associado a Xi Yi Temos dois casos a tratar a Se não houver empates use a estatística 1331 ou seja a soma dos postos positivos Use a Tabela IX página 528 para obter os quantis wp da estatística ou seja o valor tal que PT wp p e PT wp 1 p se H0 for verdadeira Para n 50 use a aproximação normal com média e variância dados no teorema abaixo Para p 05 o quantil é dado por b Se houver empates use a estatística 1332 que tem uma distribuição aproximadamente N01 sob a hipótese nula Teorema 133 A média e variância de T são dadas por 1333 e 1334 respectivamente Exemplo 1311 continuação Obtivemos aqui T 1 A região crítica é unilateral à esquerda logo rejeitamos H0 se T wα em que wα é o quantil dado pela Tabela IX Se fixarmos α 0025 ou α 001 obteremos wα 0 com n 5 e portanto aceitaremos H0 Se α 005 então wα 1 e o valor observado estará na fronteira da região crítica e teremos dúvidas em aceitar ou rejeitar H0 Como salientamos antes a decisão nesse caso dependerá de uma análise cuidadosa dos resultados dado o pequeno valor de n 135 Comparação de Proporções em Duas Populações Nosso objetivo agora é a comparação das proporções p1 e p2 de indivíduos de duas populações P1 e P2 respectivamente que tenham um mesmo atributo Para isso extraímos duas amostras independentes dessas populações com tamanhos n1 e n2 respectivamente e obtemos os estimadores usuais 1 e 2 Das seções 109 e 126 temos que Usando os resultados da Seção 1331 e Problema 1032 obtemos e portanto Podese provar que substituindo p1 e p2 por seus estimadores 1335 Suponha agora que queiramos testar as hipóteses H0 p1 p2 H1 p1 p2 Usando os mesmos argumentos apresentados na Seção 1331a devese usar um estimador comum de p1 p2 a saber e de 1335 obtemos sob H0 1336 Exemplo 1312 Para lançamento da nova embalagem do sabonete X a divisão de criação estuda duas propostas A e B Em cada um de dois supermercados similares foram colocados sabonetes com cada tipo de embalagem e a clientes selecionados aleatoriamente foi perguntado se tinham notado o sabonete e que descrevessem o tipo de embalagem Abaixo estão os resultados Proposta Notaram Total Sim Não A 168 232 400 B 180 420 600 Total 348 652 1000 Queremos testar a hipótese que os dois tipos de embalagem são igualmente atraentes ou seja H0 pA pB H1 pA pB Da tabela obtemos c 3481000 0348 substituindo em 1336 obtemos Consultando a Tabela III encontramos um valorp próximo de zero o que leva à rejeição de H0 Como este resultado mostra que as variâncias também são diferentes a construção de um intervalo de confiança para pA pB pode ser feita usando 1335 Supondo o coeficiente de confiança γ 095 obtemos ou seja IC pA pB 095 0059 0181 Problemas 16 Para investigar a lealdade de consumidores a um determinado produto sorteouse uma amostra de 200 homens e 200 mulheres Foram classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres Os dados trazem evidências de diferença de grau de fidelidade entre os sexos Em caso afirmativo construa um intervalo de confiança para a diferença 17 Em uma amostra de 500 famílias da cidade A constatouse que 298 haviam comprdo durante os últimos 30 dias o refrigerante MecaMela em sua nova versão incolor Na cidade B esse número foi de 147 em 300 famílias entrevistadas Na cidade A foi feita uma campanha publicitária pela rádio local e não na cidade B Os resultados trazem evidências de que as campanhas locais aumentam as vendas 18 Um partido afirma que a porcentagem de votos masculinos a seu favor será 10 a mais que a de votos femininos Em uma pesquisa feita entre 400 homens 170 votariam no partido enquanto que entre 625 mulheres 194 lhe seriam favoráveis A afirmação do partido é verdadeira ou não Caso rejeite a igualdade dê um IC para a diferença 19 Para investigar os resultados do segundo turno de uma eleição estadual tomaramse duas amostras de 600 eleitores cada uma da capital e outra do interior Da primeira 276 disseram que votariam no candidato A enquanto que 312 eleitores do interior também o fariam a Estime a proporção de eleitores da capital que votariam em A Dê um IC b Existe diferença nas proporções entre capital e interior c Que tamanho igual deveriam ter ambas as amostras para que a diferença entre as proporções fosse estimada com erro inferior a 2 d Qual a proporção esperada de votos que irá receber o candidato A no estado e De uma amostra de 120 indivíduos da classe A e B 69 são favoráveis a eleição em dois turnos enquanto que em uma amostra de 100 indíviduos da classe C 48 é que são favoráveis Existe evidência e diferenças de opiniões em relação à classe social 20 Para verificar a importância de um cartaz nas compras de certo produto procedeuse do seguinte modo a formaramse sete pares de lojas b os pares foram formados de modo que tivessem as mesmas características quanto à localização ao tamanho e ao volume de vendas c num dos elementos do par colocouse o cartaz no outro não d as vendas semanais foram registradas e os resultados estão a seguir Qual seria a sua conclusão sobre a eficiência do cartaz Use o teste t fazendo as suposições necessárias Pares Vendas Sem cartaz Com cartaz 1 13 16 2 18 24 3 14 18 4 16 14 5 19 26 6 12 17 7 22 29 21 Resolva o problema anterior usando o teste dos postos sinalizados de Wilcoxon 22 Aplique o teste de Wilcoxon para os dados do Exemplo 1310 23 Os dados abaixo referemse a medidas de determinada variável em 19 pessoas antes e depois de uma cirurgia Verifique se as medidas pré e pósoperatórias apresentam a mesma média Que suposições você faria para resolver o problema Faça gráficos apropriados para verificar suas suposições Pessoas Pré Pós Pessoas Pré Pós 1 500 420 10 400 500 2 500 420 11 500 480 3 500 780 12 750 520 4 875 330 13 925 740 5 325 960 14 380 475 6 350 820 15 465 490 7 400 440 16 500 580 8 450 310 17 300 420 9 625 870 18 350 600 19 394 280 136 Exemplo Computacional Consideremos as medidas de um índice de placa bacteriana obtidas de 26 crianças em idade préescolar antes e depois do uso de uma escova experimental Hugger Veja o CDPlaca no final do livro Como temos medidas feitas num mesmo indivíduo as duas amostras são dependentes Se quisermos testar se os índices médios de placa bacteriana antes e depois da escovação são iguais teremos de usar a metodologia da seção anterior Usando a notação dessa seção teremos que testar H0 µ1 µ2 H1 µ1 µ2 ou o que é equivalente H0 µD 0 H1 µD 0 Na Tabela 1312 temos os dados e as diferenças di xi yi i 1 2 26 Na Figura 136 temos os box plots dos dois conjuntos de dados que sugerem distribuições bem diferentes Tabela 1312 Índices de placa bacteriana Sujeito Antes xi Depois yi di xi yi Postos de di 1 218 043 175 18 2 205 008 197 20 3 105 018 087 7 4 195 078 117 13 5 028 003 025 2 6 263 023 240 235 7 150 020 130 16 8 045 000 045 3 9 070 005 065 5 10 130 030 100 10 11 125 033 092 8 12 018 000 018 1 13 330 090 240 235 14 140 024 116 12 15 090 015 075 6 16 058 010 048 4 17 250 033 217 21 18 225 033 192 19 19 153 053 100 10 20 143 043 100 10 21 348 065 283 26 22 180 020 160 17 23 150 025 125 145 24 255 015 240 235 25 130 005 125 145 26 265 025 240 235 Total 3552 3510 Figura 136 Box plot para xi antes e yi depois R Temos que d 1366 e S2 D 05631 donde o desvio padrão SD 075 A estatística do teste é Fixandose α 001 o valor crítico da estatística t com 25 graus de liberdade é 2485 que deve ser comparado com o valor obtido acima Logo rejeitamos H0 de modo que a nova escova é eficaz em remover a placa bacteriana O valorp do teste é α Pt25 92864 0 o que confirma que a hipótese nula deve ser rejeitada Um intervalo de confiança para µD é dado por 1063 1669 A saída do programa Minitab para efetuar esse teste está no Quadro 131 Uma breve explicação dos comandos segue abaixo a o comando Paired C1 C2 significa que estamos solicitando que seja feito um teste com observações pareadas que estão nas colunas C1 e C2 b o comando Test 00 significa que queremos um teste para igualdade de médias c o comando Alternative 1 significa que a hipótese alternativa é aquela estabelecida acima isto é µ1 µ2 d o comando Confidence 950 estabelece que o intervalo de confiança a ser construído tem coeficiente de confiança γ 095 e finalmente os comandos GDotplot e GBoxplot pedem para fazer um gráfico de dispersão unidimensional e um box plot respectivamente A saída do programa mostra a as médias das duas amostras e a diferença das médias Mean b os desvios padrões das duas amostras e das diferenças StDev por exemplo SD 075 como encontramos acima c os erros padrões estimados dos estimadores SE Mean por exemplo o erro padrão estimado de X Y é esse valor é usado para construir o intervalo de confiança para µ1 µ2 d o intervalo de confiança com cc 095 para µ1 µ2 dado por 1063 1669 e o valor observado da estatística t Tvalue no caso t 929 e o valorp Pvalue que é zero nesse caso Além dessa saída podemos pedir gráficos ilustrativos Por exemplo o dotplot com o intervalo de confiança da Figura 137 Neste vemos destacado o valor estipulado por H0 que no exemplo é zero e não pertence ao intervalo Na Figura 138 temos o box plot das diferenças com o mesmo intervalo de confiança e H0 Quadro 131 Test t pareado Minitab attachtab1312 ttestantesdepois alternativetwosided pairedTRUE conflevel 095 Paired ttest data tab1312antes and tab1312depois t 929 df 25 pvalue 14e09 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval 10632 16691 sample estimates mean of the differences 13662 Figura 137 Dotplot das diferenças di com o intervalo de confiança para µD também mostrados H0 µD 0 e d 1366 R Figura 138 Box plot para as diferenças di com o intervalo de confiança para µd também mostrados H0 µD 0 e d 1366 R 137 Problemas Suplementares c Em outra região sabese que o gasto médio com pessoal é de 65 e o desvio padrão é de 20 Qual das duas regiões é mais homogênea em relação a essa variável Por quê 28 Uma amostra de 100 trabalhadores de uma fábrica grande demora em média 12 minutos para completar uma tarefa com um desvio padrão de dois minutos Uma amostra de 50 trabalhadores de uma outra fábrica demora em média 11 minutos para completar a mesma tarefa com desvio padrão igual a três minutos a Construa um IC de 95 para a diferença entre as duas médias populacionais b Deixe bem claro quais as suposições feitas para a solução apresentada 29 Desejase testar se dois tipos de ensino profissional são igualmente eficazes Para isso sortearamse duas amostras de operários a cada uma deuse um dos tipos de treinamento e no final submeteramse os dois grupos a um mesmo teste Que tipo de conclusão você poderia tirar baseandose nos resultados abaixo Amostra Nº de elementos Média Desvio padrão Tipo I 12 75 5 Tipo II 10 74 10 30 Numa discussão sobre reajuste salarial entre empresários e o sindicato dos empregados chegouse a um impasse Os empresários dizem que o salário médio da categoria é 76 salários mínimos SM e os empregados dizem que é 65 SM Para eliminar dúvidas cada um dos grupos resolveu colher uma amostra independente Os empresários com uma amostra de 90 operários observaram um salário médio de 70 SM com um desvio padrão igual a 29 SM Já a amostra do sindicato com 60 operários apresentou média igual a 710 SM e desvio padrão de 24 SM a As amostras colhidas servem para justificar as respectivas afirmações dos dois grupos b De posse dos dois resultados qual é o seu parecer 31 A Torrefação Guarany está querendo comprar uma nova ensacadora de café Após consultar o mercado ficou indecisa entre comprar a de marca A ou a de marca B Quanto ao custo facilidade de pagamento tamanho etc elas são equivalentes O fator que decidirá a compra será a precisão em encher os pacotes medido pela variância Deseja se na realidade testar hipótese σ2 A σ2 B por meio da estatística F S2 AS2 B Podem se construir regiões críticas bilaterais unilaterais à direita ou à esquerda dependendo do objetivo Indique qual seria a região crítica mais favorável às seguintes pessoas Justifique a proprietário da torrefação b fabricante de A e c fabricante de B 32 Um médico deseja saber se uma certa droga reduz a pressão arterial média Para isso mediu a pressão arterial em cinco voluntários antes e depois da ingestão da droga obtendo os dados do quadro abaixo Você acha que existe evidência estatística de que a droga realmente reduz a pressão arterial média Que suposições você fez para resolver o problema Voluntário A B C D E Antes 68 80 90 72 80 Depois 60 71 88 74 76 33 Uma amostra de 100 lâmpadas elétricas produzidas pela fábrica A indica uma vida média de 1190 horas com desvio padrão de 90 horas Uma amostra de 75 lâmpadas produzidas pela fábrica B indica uma vida média de 1230 horas com desvio padrão de 120 horas Admitindo que as variâncias populacionais sejam diferentes você acha que existe diferença entre as vidas médias populacionais das lâmpadas produzidas pelas fábricas A e B 34 Queremos comparar dois métodos de ensino A e B Dispomos de 40 crianças Podemos proceder de duas maneiras i Sorteamos 20 crianças para compor uma classe e as restantes formam outra classe Aplicamos um método a cada classe e depois fazemos uma avaliação para todas as crianças a respeito do assunto ensinado ii Aplicamos inicialmente um teste de inteligência às 40 crianças Numeramos as crianças de 1 a 40 segundo o resultado do teste Consideramos os 20 pares 1 2 3 4 39 40 e de cada par sorteamos uma criança para cada classe Obtemos assim duas classes de 20 crianças homogêneas quanto à inteligência Aplicamos um método a cada classe e depois avaliamos todas as crianças a Qual a variável de observação em cada procedimento b Quais as hipóteses estatísticas adequadas c Qual o teste estatístico de decisão em cada caso d Qual dos dois procedimentos você preferiria Por quê 35 De 400 moradores sorteados de uma grande cidade industrial 300 são favoráveis a um projeto governamental e de uma amostra de 160 moradores de uma cidade cuja principal atividade é o turismo 120 são contra a Você diria que a diferença de opiniões nas duas cidades é estatisticamente significante b Qual seria um IC de 90 para a proporção de favoráveis ao projeto nas duas cidades Suponha que o número de pessoas nas duas cidades seja aproximadamente igual 36 Para verificar o grau de adesão de uma nova cola para vidros preparamse dois tipos de montagem cruzado A em que a cola é posta em forma de X e quadrado B em que a cola é posta apenas nas quatro bordas Os resultados da resistência para duas amostras de 10 cada estão abaixo Que tipo de conclusão poderia ser tirada Método A 16 14 19 18 19 20 15 18 17 18 Método B 13 19 14 17 21 24 10 14 13 15 37 Em um estudo para comparar os efeitos de duas dietas A e B sobre o crescimento 6 ratos foram submetidos à dieta A e 9 ratos à dieta B Após 5 semanas os ganhos em peso foram A 15 18 12 11 14 15 B 11 11 12 16 12 13 8 10 13 a Admitindo que temos duas amostras independentes de populações normais teste a hipótese de que não há diferença entre as duas dietas contra a alternativa que a dieta A é mais eficaz usando o teste t de Student no nível de α 001 Calcule α b Efetue o teste usando a estatística de Wilcoxon com α 001 Calcule α 38 As amostras X1 X10 e Y1 Y10 de duas populações normais com médias µ1 e µ2 e mesma variância σ2 forneceram as estatísticas X 80 S21 16 Y 83 S22 18 Teste com o nível α 005 a hipótese H0 µ1 µ2 contra a alternativa H1 µ1 µ2 39 Em um estudo sobre um novo método para ensinar Matemática a alunos do primeiro grau dez crianças foram selecionadas ao acaso de um grupo de 20 e ensinadas pelo novo método enquanto as outras dez serviram como controle e ensinadas pelo método tradicional Após dez semanas o desempenho dos alunos em um teste foi avaliado e obtiveramse as seguintes notas Novo método 85 75 90 95 100 70 65 80 85 70 Controle 75 100 65 50 80 75 45 95 65 75 Teste com nível α 005 a hipótese de que o novo método é mais eficaz utilizando o teste t e o teste Wilcoxon Obtenha α em cada caso 40 Seja WR R1 Rn a soma dos postos dos controles Qual o valor de WR WS 41 Se n 4 e m 6 prove que PWS 35 PWS 31 usando o fato que WS é simétrica em torno de mN 12 42 Se n 4 e m 6 prove que PWS 35 PWR 20 43 Para o CDPlaca teste se a escova convencional é eficaz para remover a placa bacteriana Calcule o valorp do teste 44 Para o CDTemperaturas teste se a temperatura média de Cananeia é igual à temperatura média de Ubatuba suponha que as observações para cada cidade sejam independentes embora saibamos que elas não são pois temos dados de séries temporais 45 Numa pesquisa sobre a opinião dos moradores de duas cidades A e B com relação a um determinado projeto obtevese Cidade A B Nº de entrevistados 400 600 Nº de favoráveis 180 350 Construa um IC para a diferença de proporções de opiniões nas duas cidades 46 Duas máquinas A e B são usadas para empacotar pó de café A experiência passada garante que o desvio padrão para ambas é de 10 g Porém suspeitase que elas têm médias diferentes Para verificar sortearamse duas amostras uma com 25 pacotes da máquina A e outra com 16 pacotes da máquina B As médias foram respectivamente xA 50274 g e xB 49660 g Com esses números e com o nível de 5 qual seria a conclusão do teste H0 µA µB 47 Na região sul da cidade 60 entre 400 pessoas preferem a bebida MecaMela entre as demais similares Na região norte a proporção é de 40 entre 225 entrevistados Baseado no resultado dessa amostra você diria que a proporção de todos os moradores nas duas regiões é a mesma Use α 005 48 Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois anos consecutivos com duas amostras independentes de 400 donas de casa em cada uma delas A preferência pela marca em questão foi de 33 e 29 respectivamente Os resultados trazem alguma evidência de mudança de preferência 49 No exemplo 1312 suponha que se acredite que a proposta A chame a atenção em pelo menos 5 a mais do que a proposta B Teste a validade de tal afirmação isto é teste H0 pA pB 005 contra H1 pA pB 005 Capítulo 14 Análise de Aderência e Associação 141 Introdução No Capítulo 4 estudamos como analisar descritivamente dois conjuntos de dados provenientes de duas variáveis aleatórias resumidas na forma de tabelas de dupla entrada Essas variáveis podem ser qualitativas ou quantitativas e a ideia era que podíamos classificar os elementos da amostra de cada variável em categorias ou classes ou ainda atributos Na Tabela 411 temos a situação geral em que duas va qualitativas X e Y foram classificadas em r categorias para X e s categorias para Y Usaremos a notação dada naquele capítulo ver Seção 44 Lá estávamos interessados em analisar a possível associação entre X e Y e para isso propusemos o uso da estatística quiquadrado de Pearson dada por 44 e que repetimos aqui 141 em que n ij denota o valor esperado sob a hipótese de que as duas va não são associadas Naquele capítulo apenas notamos que essa estatística deveria ser pequena se a hipótese H0 de não associação fosse verdadeira e grande caso contrário Lá também estudamos como medir por meio do coeficiente de correlação a associação entre duas variáveis quantitativas Neste capítulo vamos precisar esses conceitos Além do teste mencionado no Capítulo 4 iremos estudar outros testes que utilizam muito a estatística 141 bem como outras distribuições já estudadas Faremos agora uma breve resenha sobre esses testes 1 Testes de Aderência Temos uma população P e queremos verificar se ela segue uma distribuição especificada P0 isto é queremos testar a hipótese H0 P P0 No Capítulo 12 vimos também como testar essa hipótese empregando testes sobre os parâmetros média e variância Aqui o teste comparará o número de casos ocorridos em caselas especificadas com o número esperado de casos nelas quando a hipótese H0 for verdadeira O procedimento consiste em considerar classes segundo as quais a variável X característica da população pode ser classificada A variável X pode ser qualitativa ou quantitativa Neste capítulo estudaremos um teste no qual as probabilidades da va X pertencer a cada uma das classes são especificadas A estatística usada será 141 Exemplo 141 Um dado é lançado 300 vezes com os resultados dados na Tabela 141 Por enquanto considere somente a linha correspondente às frequências observadas Com os resultados observados queremos saber se o dado é honesto isto é se a probabilidade de ocorrência de qualquer face é 16 Ou seja queremos testar a hipótese H0 p1 p2 p6 16 em que pi P face i i 1 2 6 Isso equivale a dizer que P0 segue uma distribuição uniforme discreta Tabela 141 Resultados do lançamento de um dado 300 vezes Ocorrência i 1 2 3 4 5 6 Total Freq Observada ni 43 49 56 45 66 41 300 Freq Esperada n i 50 50 50 50 50 50 300 2 Testes de Homogeneidade Considere o seguinte exemplo Exemplo 142 Uma prova básica de Estatística foi aplicada a 100 alunos de Ciências Humanas e a 100 alunos de Ciências Biológicas As notas são classificadas segundo os graus A B C D e E em que D significa que o aluno não recebe créditos e E indica que o aluno foi reprovado Os resultados estão na Tabela 142 Tabela 142 Resultados da aplicação de uma prova de Estatística a 100 alunos de Ciências Humanas e 100 alunos de Biologia Aluno de Grau Total A B C D E C Humanas 15 20 30 20 15 100 C Biológicas 8 23 18 34 17 100 Total 23 43 48 54 32 200 Queremos testar se as distribuições das notas para as diversas classes são as mesmas para os dois grupos de alunos Esse teste pode ser estendido para o caso de três ou mais populações Testes desse tipo já foram vistos no Capítulo 13 quando queríamos testar a hipótese 131 Estudamos lá dois testes o t de Student e o de Wilcoxon Para esses testes supomos ou que as populações sejam normais ou então preferencialmente que tenham distribuições contínuas não necessariamente normais Mas de qualquer modo testávamos separadamente se as duas populações diferiam em localização ou escala No caso presente iremos apresentar um teste baseado na estatística 141 que contempla alternativas gerais por exemplo as populações podem diferirse em localização e escala Novamente para efetuar o teste consideramos amostras das duas populações P1 e P2 e classificamos os seus elementos de acordo com certo número de categorias para as duas variáveis características de P1 e P2 3 Testes de Independência Vimos no Capítulo 4 a importância de quantificar o grau de associação entre duas variáveis usando a estatística 141 Porém essa quantificação só tem sentido se as variáveis não forem independentes O teste que apresentaremos aqui supõe a existência de duas vas X e Y e os valores de amostras delas são classificados segundo categorias obtendose uma tabela de dupla entrada Queremos testar a hipótese que X e Y são independentes Exemplo 143 Uma companhia de seguros analisou a frequência com que 2000 segurados 1000 homens e 1000 mulheres usaram hospitais Os resultados estão na Tabela 143 A hipótese a testar é que o uso de hospital independe do sexo do segurado veja o Problema 6 do Capítulo 4 Tabela 143 Frequências com que 2000 segurados usaram hospital Homens Mulheres Usaram hospital 100 150 Não usaram hospital 900 850 4 Teste para o Coeficiente de Correlação Quando se investiga associação entre duas variáveis quantitativas o artifício de agrupar os dados em intervalos classes reduz a variável quantitativa a um caso particular de variável qualitativa assim poderíamos usar as mesmas técnicas da análise desse último tipo de variável Mas esse procedimento pode não ser o melhor possível e o uso do coeficiente de correlação como medida de associação entre variáveis quantitativas é o caminho mais apropriado Na Seção 145 voltaremos a tratar desse tema agora sob o ponto de vista da inferência Para finalizar esta seção notamos que os testes descritos nos itens 13 são todos baseados na distribuição quiquadrado e são parte dos chamados testes não paramétricos Para essa classe de testes não se supõe que a população ou populações siga algum modelo particular como fizemos para alguns dos testes dos Capítulos 12 e 13 Na Seção 146 introduzimos por meio de um exemplo um outro tipo de teste não paramétrico de aderência baseado na comparação da distribuição empírica dos dados com a distribuição hipotetizada para a população 142 Testes de Aderência Retomemos o Exemplo 141 Ocorrência 1 2 3 4 5 6 Frequência 158 186 179 161 141 175 Teste a hipótese que o dado é balanceado 143 Testes de Homogeneidade Vimos no capítulo anterior como testar a hipótese 131 de que as duas populações P1 e P2 tinham a mesma distribuição Os testes utilizados foram baseados na distribuição t de Student que assume normalidade das populações ou o teste não paramétrico de Wilcoxon MannWhitney que não faz essa suposição mas fica bem mais fácil se as distribuições forem contínuas O teste que apresentaremos agora pode ser usado para dados discretos ou contínuos e serve para testar H0 dada por 131 contra alternativas gerais e não somente para testar diferenças de localização Exemplo 142 continuação Considerando P1 como a população de alunos de Ciências Humanas e P2 a dos alunos de Ciências Biológicas nosso objetivo é testar a hipótese H0 P1 P2 usando os resultados amostrais da Tabela 142 Para isso precisamos encontrar os valores esperados n ij para aplicar a fórmula 141 Inicialmente observemos que se H0 for verdadeira a distribuição de probabilidades nas duas linhas deveria ser a mesma e equivaleria a ter uma única população P A última linha de totais da Tabela 142 representaria uma amostra de 200 alunos dessa única população A Tabela 147 apresenta as estimativas das proporções em cada grau para P1 P2 e P Sendo H0 verdadeira deveríamos esperar para P1 e P2 as mesmas proporções observadas para P ou valores aproximadamente iguais Ou ainda todas as linhas dessa tabela deveriam ser iguais entre si e iguais à linha de totais o que aparentemente não ocorre A partir dessas porcentagens podemos obter as frequências absolutas correspondentes ou valores esperados se H0 for verdadeira Obtemos então a Tabela 148 Tabela 147 Porcentagens estimadas das classes para cada população Aluno de Grau Total A B C D E C Humanas 15 20 30 20 15 100 C Biológicas 8 23 18 34 17 100 Total 115 215 24 27 16 100 Tabela 148 Frequências absolutas sob H0 nij Aluno de Grau Total A B C D E C Humanas 115 215 24 27 16 100 C Biológicas 115 215 24 27 16 100 Total 23 43 48 54 32 200 Desse modo encontramos os valores esperados n ij que podem ser substituídos em 141 obtendose Novamente para consultar a tabela precisamos determinar os graus de liberdade e vamos usar o mesmo argumento anterior Quantas caselas poderíamos preencher livremente em uma simulação sendo que os totais marginais são conhecidos Observando a Tabela 149 concluímos que basta preencher apenas quatro caselas as seis restantes são encontradas por diferenças Como exemplo preenchemos quatro caselas com círculos as demais sinais de mais podem ser obtidas por diferenças a partir dos totais de linhas ou colunas Tabela 149 Determinação do número de graus de liberdade Aluno de Grau Total A B C D E C Humanas o o 100 C Biológicas o o 100 Total 23 43 48 54 32 200 Problemas 6 Suponha que tenhamos razões para crer que as notas obtidas por estudantes de escolas públicas sejam menores que as notas obtidas por estudantes de escolas particulares ao tomarem o exame vestibular para uma Universidade Para testar essa hipótese foram selecionadas duas amostras de estudantes que prestaram o vestibular suas médias gerais foram anotadas e obtevese a tabela a seguir Escola 0 25 25 50 50 75 75 100 Total Pública 15 22 18 3 58 Particular 6 10 20 6 42 Total 21 32 38 9 100 Teste a hipótese que as duas populações são homogêneas para o nível de significância α 001 Obtenha o valorp α 7 Cem estudantes foram divididos em duas classes de 50 cada e o objetivo era testar um novo método de ensinar Probabilidades Uma classe recebeu um método tradicional e a outra o novo método Após o curso foi pedido que os estudantes resolvessem um problema típico de Probabilidades Os resultados foram os seguintes Exercício correto Exercício errado Método convencional 33 17 Método novo 37 13 Há razões para acreditar que o novo método é superior 8 Duas novas drogas vão ser testadas em 160 pessoas portadoras de rinite alérgica Metade das pessoas recebe a droga A e a outra metade recebe a droga B Obtémse a tabela abaixo Teste a hipótese de que as duas drogas são igualmente eficazes para tratar a doença Eficaz Não Eficaz Droga A 55 25 Droga B 48 32 9 Um produto novo é lançado por uma empresa e para verificar a sua aceitação dois grupos de pessoas de duas cidades são consultados De 100 pessoas da cidade A 32 gostaram do produto e de 50 pessoas da cidade B 12 gostaram do produto Há evidências que o produto seja igualmente aceito nas duas cidades 144 Testes de Independência Retomemos o Exemplo 43 para efeito de ilustração Exemplo 148 Naquele exemplo o que se queria era verificar se a criação de determinado tipo de cooperativa estava associada ao fator maior do que um valor crítico dado pela Tabela IV fixado um valor do nível de significância α Dado que a distribuição de quiquadrado nesse caso é uma distribuição aproximada precisamos tomar certos cuidados na sua aplicação Um deles é garantir que todos os valores esperados das caselas não sejam inferiores a cinco Problemas 10 Para o Problema 16 do Capítulo 4 teste formalmente se a opinião dos habitantes depende do local da residência 11 Teste se o uso de hospital independe do sexo para o Exemplo 143 12 Para o Problema 22 do Capítulo 4 teste se existe dependência entre os fatores tendência dos alunos a prosseguir os estudos e classe social dos entrevistados 13 Investigando a fidelidade de consumidores de um produto obtevese uma amostra de 200 homens e 200 mulheres Foram classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres Os dados fornecem evidência de possíveis diferenças de grau de fidelidade entre sexos 14 Uma pesquisa sobre a qualidade de certo produto foi realizada enviandose questionários a donas de casa pelo correio Aventandose a possibilidade de que os respondentes voluntários tenham um particular viés de respostas fizeramse mais duas tentativas com os não respondentes Os resultados estão indicados abaixo Você acha que existe relação entre a resposta e o número de tentativas Opinião sobre o produto Nº de donas de casa 1ª tentativa 2ª tentativa 3ª tentativa Excelente 62 36 12 Satisfatório 84 42 14 Insatisfatório 24 22 24 145 Teste Para o Coeficiente de Correlação O teste apresentado na seção anterior é adequado para averiguar a independência de duas variáveis qualitativas Vimos na Seção 45 que para variáveis quantitativas o coeficiente de correlação é uma medida de associação mais adequada Usualmente podemos determinar o coeficiente de correlação para uma amostra pois desconhecemos esse valor na população Uma população que tenha duas variáveis não correlacionadas pode produzir uma amostra com coeficiente de correlação diferente de zero Para testar se a amostra foi colhida de uma população para a qual o coeficiente de correlação Na Seção 142 estudamos por meio da distribuição quiquadrado como testar a hipótese de que um conjunto de dados provém de uma distribuição especificada Nesta seção vamos introduzir uma outra maneira de testar a hipótese 142 por meio de um exemplo No Problema 47 do Capítulo 3 vimos que um estimador da verdadeira função densidade de uma população é o histograma Em particular foi apresentada uma maneira de obter o intervalo de classe baseada numa distância entre o histograma e a função densidade Suponha que tenhamos uma amostra X1 Xn de uma população P sobre a qual estamos considerando uma va X Designemos por fx a função densidade e por Fx a função de distribuição acumulada fda de X Estimar fx é equivalente a estimar Fx Nosso objetivo é testar se a amostra observada veio de uma distribuição de probabilidades especificada e 142 é equivalente a H0 Fx F0x para todo x Vamos considerar a função de distribuição empírica fde Fex definida no Problema 17 do Capítulo 2 como um estimador de Fx para todo valor x real A situação é a da Figura 143 Figura 143 Gráficos da fda e fde e distâncias di Fxi Fexi Se Fex for um bom estimador de Fx as duas curvas devem estar próximas Como em todo teste de hipóteses para testar a hipótese acima teremos que definir o que significa próximo Há várias maneiras de medir a distância entre Fx e Fex Os probabilistas russos Kolmogorov e Smirnov propuseram uma estatística para o teste obtida tomando o máximo dos valores absolutos das diferenças Fxi Fexi i 1 n Nessas diferenças calculadas nos valores amostrais Fxi é o valor calculado sob a hipótese nula H0 ou seja é o valor que a fda hipotetizada toma no ponto xi Formalmente a estatística a ser usada no teste é 1410 O valor encontrado deve ser comparado com um valor crítico obtido na Tabela X fixado um nível de significância do teste Se D for maior que o valor tabelado rejeitamos H0 Retomemos o Exemplo 146 no qual queríamos testar se 30 valores observados provinham de uma distribuição normal com média 10 e desvio padrão 5 Exemplo 146 continuação A hipótese a ser testada pode ser escrita na forma H0 Fx F0x x H1 Fx F0x para algum x em que F0x é a fda da va X N1025 Lembremos que a fde Fex é uma função em escada dando um salto igual a 130 em cada valor xi Na Tabela 1413 temos os cálculos necessários Vemos por exemplo Tabela 1413 Dados para o Teste de KolmogorovSmirnov do Exemplo 146 xi Fxi Fexi Fxi Fexi xi Fxi Fexi Fxi Fexi 104 00366 00333 000323 1001 05008 05333 003253 173 00491 00667 001760 1052 05414 05667 002525 393 01124 01000 001237 1069 05549 06000 004512 444 01331 01333 000026 1172 06346 06333 000124 637 02340 01667 006725 1217 06679 06667 000119 651 02426 02000 004259 1261 06992 07000 000083 761 03163 02333 008299 1298 07244 07333 000892 764 03185 02667 005180 1303 07277 07667 003892 818 03579 03000 005793 1316 07363 08000 006369 848 03806 03333 004723 1411 07945 08333 003887 857 03874 03667 002077 1460 08212 08667 004545 865 03936 04000 000642 1464 08233 09000 007670 971 04769 04333 004354 1475 08289 09333 010439 987 04896 04667 002296 1668 09092 09667 005744 995 04960 05000 000399 2214 09924 10000 007591 Os valores de F0x podem ser obtidos como na Seção 78 por exemplo usando o comando CDF do Minitab Da tabela vemos que o valor máximo dos valores absolutos das diferenças é D 0104 Da Tabela X vemos que para α 005 o valor crítico é 0242 logo aceitamos H0 ou seja os dados realmente são uma amostra de uma distribuição normal com µ 10 e σ 5 Podemos comparar os quantis empíricos dos dados com os quantis da normal por meio de um gráfico q q com o objetivo de verificar que os pontos se distribuem ao redor de uma reta como na Figura 144 Figura 144 Quantis da normal padrão contra quantis dos dados Capítulo 15 Inferência para Várias Populações 151 Introdução Como vimos no Capítulo 1 uma das preocupações de um estatístico ao analisar um conjunto de dados é criar modelos que explicitem estruturas do fenômeno sob observação as quais frequentemente estão misturadas com variações acidentais ou aleatórias A identificação dessas estruturas permite conhecer melhor o fenômeno bem como fazer afirmações sobre possíveis comportamentos Portanto uma estratégia conveniente de análise é supor que cada observação seja formada por duas partes como vimos em 11 do Capítulo 1 observação previsível aleatório 151 Aqui a primeira componente incorpora o conhecimento que o pesquisador tem sobre o fenômeno e é usualmente expressa por uma função matemática com parâmetros desconhecidos A segunda parte a aleatória ou não previsível representa aquilo que o pesquisador não pode controlar e para a qual são impostas algumas suposições por exemplo que ela obedeça a algum modelo probabilístico específico que por sua vez também contém parâmetros desconhecidos Dentro desse cenário o trabalho do estatístico passa a ser o de estimar os parâmetros desconhecidos das duas partes do modelo baseado em amostras observadas Neste capítulo iremos investigar um modelo simples chamado de análise de variância com um fator No capítulo seguinte iremos estudar o modelo de regressão linear simples As técnicas de análise de variância foram desenvolvidas principalmente pelo estatístico inglês Ronald A Fisher a partir de 1918 O leitor interessado pode consultar os trabalhos pioneiros de Fisher 1935 1954 ou Peres e Saldiva 1982 para mais informações sobre esse assunto A situação geral pode ser descrita como segue Temos uma população P de unidades experimentais indivíduos animais empresas etc para a qual temos uma va Y de interesse Suponha agora que possamos classificar as unidades dessa população segundo níveis de um fator Por exemplo o fator pode ser o sexo com dois níveis arbitrariamente denotados por l sexo masculino e 2 sexo feminino A va Y pode ser a altura de cada indivíduo Genericamente podemos ter I níveis para esse fator A população fica então dividida em I subpopulações ou estratos P1 PI cada uma representada por um nível i do fator i 1 2 I No exemplo citado teríamos duas subpopulações a dos indivíduos do sexo masculino e a dos indivíduos do sexo feminino Na Figura 151 mostramos graficamente as suposições adotadas para o comportamento da população neste modelo A Figura 151 a mostra um comportamento mais amplo com distribuições distintas para cada subpopulação Na Figura 151 b aparece a suposição mais comum em que a parte aleatória segue uma distribuição normal com a mesma variância σ2 para todas as subpopulações Pi i 1 2 I Figura 151 Formas da distribuição de y para os diversos níveis do fator Para cada nível i observamos a va Y em ni unidades experimentais selecionadas ao acaso da subpopulação correspondente ou seja teremos uma amostra yi1 yini dessa subpopulação No exemplo citado acima temos i 1 2 ou seja dois níveis para o fator sexo Extraímos uma amostra de tamanho n1 de P1 pessoas do sexo masculino y11 y1n1 e uma amostra de tamanho n2 de P2 pessoas do sexo feminino y21 y2n2 Essas amostras são independentes Suponha que EY µ para a população toda ou seja a média global da va Y para P Suponha também que EYPi µi i 1 I ou seja as médias da va Y para as subpopulações sejam µ1 µI No nosso exemplo µ é a média das alturas da população de todos os indivíduos µ1 é a média das alturas dos homens e µ2 é a média das alturas das mulheres O objetivo é estimar µi i 1 I e testar hipóteses sobre essas médias Uma hipótese de interesse é H0 µ1 µ2 µI µ 152 contra a alternativa H1 µi µj para algum par i j 153 O teste acima corresponde a verificar se as duas populações estão dispostas como na Figura 151 c ou seja os centros das distribuições têm a mesma ordenada e estão sobre uma reta paralela ao eixo do fator Isso significa que o fator não tem influência sobre a média da variável sob observação A análise da variância pode ser pensada como um método para testar a hipótese H0 acima por meio da análise das variâncias das diversas amostras Esse método estende aquele visto no Capítulo 13 onde comparávamos apenas duas médias A teoria desenvolvida naquele capítulo envolvia situações mais amplas do que as que serão vistas aqui Sob as mesmas suposições os dois métodos são equivalentes Porém não podemos usar os métodos do Capítulo 13 para comparar mais do que duas populações Poderia ser aventada a possibilidade de testar as hipóteses duas a duas mas isso traz problemas relacionados no nível de significância do teste global já que efetuaremos testes parciais Voltaremos a esse assunto na Seção 154 Um modelo conveniente para descrever essa situação é yij µi eij i 1 I j 1 ni 154 para o qual supomos que eij são va independentes de média zero e variância σ2 e desconhecida por exemplo Podemos adicionar a hipótese de que esses erros sejam normais ou seja eij N0 σ2 e 155 para i 1 2 I j 1 2 ni Logo além de estimar µ1 µI temos que estimar também σ2 e Se 154 e 155 valerem teremos I subpopulações normais Nµi σ2 e i 1 2 I que têm médias diferentes e mesma variância A Figura 151 b ilustra essa situação com I 4 O modelo 154 é chamado modelo com efeitos fixos no sentido de que as subpopulações determinadas pelos níveis do fator são aquelas de interesse do pesquisador Se o experimento fosse repetido amostras aleatórias das mesmas subpopulações seriam extraídas e analisadas Podese considerar também modelos com efeitos aleatórios mas esse caso não será tratado neste livro Exemplo 151 Um psicólogo está investigando a relação entre o tempo que um indivíduo leva para reagir a um estímulo visual Y e alguns fatores como sexo W idade X e acuidade visual Z medida em porcentagem Na Tabela 151 temos os tempos para n 20 indivíduos valores da va Y O fator sexo tem dois níveis i 1 sexo masculino H e i 2 sexo feminino M com n1 n2 10 O fator idade tem cinco níveis i 1 indivíduos com 20 anos de idade i 2 indivíduos com 25 anos etc i 5 indivíduos com 40 anos Aqui n1 n5 4 A acuidade visual como porcentagem da visão Tabela 151 Tempos de reação a um estímulo Y e acuidade visual Z de 20 indivíduos segundo o sexo W e a idade X Indivíduo Y W X Z 1 96 H 20 90 2 92 M 20 100 3 106 H 20 80 4 100 M 20 90 5 98 M 25 100 6 104 H 25 90 7 110 H 25 80 8 101 M 25 90 9 116 M 30 70 10 106 H 30 90 11 109 H 30 90 12 100 M 30 80 13 112 M 35 90 14 105 M 35 80 15 118 H 35 70 16 108 H 35 90 17 113 M 40 90 18 112 M 40 90 19 127 H 40 60 20 117 H 40 80 completa também gera cinco níveis i 1 indivíduos com 100 de visão i 2 indivíduos com 90 de visão e assim por diante Não foi possível controlar essa variável a priori como as outras duas já que ela exige exames oftalmológicos para sua mensuração Daí o desbalanceamento dos tamanhos observados n1 2 n2 10 n3 5 n4 2 e n5 1 Fatores desse tipo são chamados de cofatores Assim para o fator sexo teremos o modelo 154 com i 1 2 j 1 2 3 10 e para o fator idade o mesmo modelo com i 1 2 5 j 1 2 3 4 Exemplo 152 Uma escola analisa seu curso por meio de um questionário com 50 questões sobre diversos aspectos de interesse Cada pergunta tem uma resposta numa escala de 1 a 5 va Y em que a maior nota significa melhor desempenho Na última avaliação usouse uma amostra de alunos de cada período e os resultados estão na Tabela 152 Aqui o fator é período com três níveis i 1 manhã i 2 tarde e i 3 noite temos n1 7 n2 6 e n3 8 Tabela 152 Avaliação de um curso segundo o período Período Manhã Tarde Noite 42 27 46 40 24 39 31 24 38 27 22 37 23 19 36 33 18 35 41 34 28 Exemplo 153 Num experimento sobre a eficácia de regimes para emagrecer homens todos pesando cerca de 100 kg e de biotipos semelhantes são submetidos a três regimes Após um mês verificase a perda de peso de cada indivíduo obtendose os valores da Tabela 153 Tabela 153 Perdas de peso de indivíduos submetidos a três regimes Regime 1 2 3 118 74 105 105 97 112 125 82 118 123 72 131 155 86 140 114 71 98 Aqui o fator é regime com I 3 níveis e cada regime é indexado por i 1 2 3 A va Y é a perda de peso depois de um mês EY µ é a perda de peso global dos 18 homens µi é a perda média de peso para o regime i As amostras têm todas o mesmo tamanho n1 n2 n3 6 Problemas 1 O modelo 154 pode ser escrito na forma yij µ αi eij com i 1 I e j 1 ni Dizemos que αi é o efeito diferenciado da subpopulação Pi ou do nível i do fator Mostre que os estimadores de mínimos quadrados para µ e αi são dados por se impusermos a condição 2 Obtenha i para os Exemplos 152 e 153 152 Modelo para Duas Subpopulações Inicialmente consideremos o caso em que temos um fator com dois níveis como no Exemplo 151 com o fator sexo Ou seja queremos avaliar o efeito do sexo do indivíduo sobre o seu tempo de reação ao estímulo Temos então o modelo yij µi eij 156 em que µi efeito comum a todos os elementos do nível i 1 2 eij efeito aleatório não controlado do jésimo indivíduo do nível i yij tempo de reação ao estímulo do jésimo indivíduo do nível i 1521 Suposições É necessário introduzir suposições sobre os erros eij a fim de fazer inferências sobre µ1 e µ2 Iremos admitir que i eij N0 σe 2 para todos i 1 2 e j 1 2 ni ii Eeij eik 0 para j k e i 1 2 indicando independência entre observações dentro de cada subpopulação iii Ee1j e2k 0 para todo j e k indicando independência entre observações das duas subpopulações Com essas suposições temos duas amostras aleatórias simples independentes entre si retiradas das duas subpopulações Nµ1 σe 2 e Nµ2 σe 2 Queremos testar a hipótese H0 µ1 µ2 contra a alternativa H1 µ1 µ2 Como já salientamos acima esse teste pode ser conduzido com os métodos do Capítulo 13 mas o objetivo aqui é introduzir a metodologia da análise de variância com um caso simples A extensão para mais de dois níveis será estudada na Seção 153 Note que estamos supondo que as variâncias residuais dos níveis l e 2 são iguais ou seja Vare1j Vare2j σe 2 para todo j 1 ni 157 Essa é a propriedade conhecida como homoscedasticidade isto é estamos admitindo que a variabilidade residual é a mesma para os dois níveis ou que P1 e P2 têm a mesma variabilidade segundo a va Y Note também que Eyij µi Varyij Vareij σ2 e 158 1522 Estimação do Modelo Nosso objetivo é estimar µ1 µ2 e σe 2 no modelo 156 para podermos testar H0 Usaremos estimadores de mínimos quadrados Poderíamos usar também estimadores de máxima verossimilhança pois sabemos que nossas observações têm distribuição normal Temos que de 156 os resíduos são dados por eij yij µi 159 e a soma dos quadrados dos resíduos é dada por ou seja 1510 Observe que essa soma de quadrados é uma função de µ1 e µ2 Se as variâncias residuais das duas subpopulações não fossem iguais essa soma seria mais afetada por aquele nível que tivesse maior variância e isso deveria influenciar a escolha dos estimadores Nesse caso uma sugestão seria então minimizarmos a Fórmula 1510 com eij 2 substituída por eijσi2 com Vareij σi 2 o que conduz a estimadores de mínimos quadrados ponderados Derivando 1510 em relação a µ1 e µ2 obtemos do que segue que os estimadores são dados por 1511 1512 que são as médias das observações dos níveis l e 2 respectivamente Logo 1513 Podemos pensar em 1513 como a quantidade total de informação quadrática perdida pela adoção do modelo 156 Essa soma é também denominada soma dos quadrados dos resíduos Vejamos outra maneira de escrever essa soma Dentro do grupo dos homens a variância da subpopulação P1 pode ser estimada por 1514 e a variância da subpopulação P2 das mulheres é estimada por 1515 Seguese que SQµ1 µ2 n1 1S2 1 n21S2 2 1516 Temos acima dois estimadores não viesados do mesmo parâmetro σe 2 e portanto podemos definir uma variância amostral ponderada 1517 e usando 1516 podemos escrever 1518 se n n1 n2 Vemos que S2 e é a quantidade média de informação quadrática perdida e é um estimador não viesado de σ2 e Observe que esse é o mesmo estimador definido em 1310 Temos portanto um primeiro enfoque para estimar a variância desconhecida σe 2 por meio da variância devida ao erro ou variância dentro de amostras dada por Se 2 que é baseada nas variâncias amostrais dadas por 1514 e 1515 A soma de quadrados 1516 é também chamada de soma de quadradros dentro dos grupos Um outro enfoque será visto mais adiante e que consiste em estimar σe 2 por meio de uma variância entre amostras baseada na variabilidade entre as médias amostrais também chamada variação devida ao fator Exemplo 151 continuação Para os dados da Tabela 151 temos Grupo dos Homens nível l Grupo das Mulheres nível 2 Seguese que Note que a soma dos quadrados dos resíduos é SQµ1 µ2 SQ y1 y2 12378 Observe também que y1 e y2 denotam os tempos médios estimados de reação ao estímulo dos homens e mulheres respectivamente Uma questão de interesse é a seguinte será que o conhecimento do sexo de um indivíduo ajuda a melhorar a previsão do tempo de reação dele ao estímulo Para responder a essa questão devemos ter algum modelo alternativo para poder comparar os ganhos O modelo usualmente adotado é o mais simples de todos ou seja aquele que considera os dados vindos de uma única população Suponha que os valores da va Y para todos os n 20 indivíduos sigam o modelo yi µ ei i 1 2 20 1519 Podemos considerar esse modelo para uma população ou seja aquela de todos os indivíduos para a qual queremos investigar o tempo de reação ao estímulo independentemente do sexo idade e outros fatores Para o modelo 1519 a soma dos quadrados dos resíduos é 1520 e o estimador de mínimos quadrados de µ é obtido derivandose 1520 com relação a µ e igualando a zero chegandose a 1521 ou seja a média de todas as observações Como aqui yi Nµ σe 2 um estimador da variância residual σe 2 é 1522 ou seja a nossa conhecida variância amostral Para os dados da Tabela 151 encontramos Assim sem informação adicional podemos prever o tempo de reação de um indivíduo como 10750 com um desvio padrão de 85 Os resíduos desse modelo e do modelo 156 estão na Tabela 154 colunas el e e2 respectivamente Comparando esses resíduos vemos que os segundos melhoram um pouco as previsões isto é fazem cair o erro quadrático médio de 85 para 829 Mas essa queda nos parece pequena para justificar a inclusão do fator sexo no modelo e talvez fosse preferível adotar o modelo mais simples 1519 Tabela 154 Resíduos para vários modelos ajustados aos dados do Exemplo 151 Variáveis Resíduos dos Modelos e1 e2 e3 Indivíduo Tempo de Reação Sexo Idade yi y yij yi yij yi Variáveis Resíduos dos Modelos e1 e2 e3 Indivíduo Tempo de Reação Sexo Idade yi y yij yi yij yi 1 96 H 20 1150 141 250 2 92 M 20 1550 129 650 3 106 H 20 150 41 750 4 100 M 20 750 49 150 5 98 M 25 950 69 525 6 104 H 25 350 61 075 7 110 H 25 250 01 675 8 101 M 25 650 39 225 9 116 M 30 850 111 825 10 106 H 30 150 41 175 11 109 H 30 150 11 125 12 100 M 30 750 49 775 13 112 M 35 450 71 125 14 105 M 35 250 01 575 15 118 H 35 1050 79 725 16 108 H 35 050 21 275 17 113 M 40 550 81 425 18 112 M 40 450 71 525 19 127 H 40 1950 169 975 20 117 H 40 950 69 025 dp 850 829 608 2dp 1700 1658 1216 Nota Nesta tabela estão expressos os resíduos de diversos modelos ajustados aos dados e colocados juntos para comparar os lucros na adoção de cada modelo No texto aparece o significado de cada coluna dos resíduos 1523 Intervalos de Confiança Com as suposições feitas sobre os erros podemos escrever 1523 o que permite construir intervalos de confiança separados para os dois parâmetros µ1 e µ2 como já vimos anteriormente Esses têm a forma 1524 em que tγ é o valor crítico da distribuição t de Student com v n 2 graus de liberdade tal que Ptγ tn 2 tγ γ 0 γ 1 Observe que o número de graus de liberdade é n 2 e não ni l porque e portanto tem distribuição tn 2 pelo Teorema 71 Daqui obtemos 1524 Exemplo 151 continuação Para o Exemplo 151 temos com t095 2101 encontrado na Tabela V com v 18 graus de liberdade Ainda com as suposições feitas podemos concluir que y1 y2 Nµ1 µ2 σ 2 en1 σ 2 e n2 1525 de modo que a estatística 1526 tem distribuição t de Student com v n1 n2 2 n 2 graus de liberdade e um intervalo de confiança para a diferença µ1 µ2 pode ser construído Exemplo 151 continuação Para o exemplo Este resultado implica que a hipótese H0 µ1 µ2 1527 não pode ser rejeitada no nível α 005 já que o zero pertence ao intervalo Isso está de acordo com o resultado já apontado de que o conhecimento do sexo de um indivíduo não irá ajudar a prever o tempo de reação ao estímulo O teste da hipótese para 1527 com as suposições adotadas é feito usando a estatística 1526 com n1 n2 2 gl obtendose o valor observado t0 140 que comparado com o valor crítico de 2101α 5 e l8 gl leva à não rejeição da hipótese como foi visto acima 1524 Tabela de Análise de Variância As operações processadas anteriormente podem ser resumidas num quadro para facilitar a análise Se 1527 for válida o modelo adotado será yij µ eij e a quantidade de informação perdida devida aos resíduos será dada por 1528 que iremos chamar de soma de quadrados total abreviadamente SQTot Analogamente adotado o modelo 154 a quantidade de informação perdida é dada por 1513 ou 1516 e que chamamos de soma de quadrados dos resíduos abreviadamente SQRes ou soma de quadrados dentro dos dois grupos abreviadamente SQDen A economia obtida ao passarmos de um modelo para outro será SQTot SQDen SQEnt 1529 que chamaremos de soma de quadrados entre grupos Não é difícil provar que veja o Problema 18 1530 Observando essa expressão vemos que ela representa a variabilidade entre as médias amostrais ou seja uma distância entre a média de cada grupo e a média global Donde o nome soma de quadrados entre grupos Quanto mais diferentes forem as médias yi i 1 2 maior será SQEnt e consequentemente menor será SQDen As quantidades 1531 e 1532 são chamadas quadrado médio total e quadrado médio dentro ou residual respectivamente Todas essas informações são agrupadas numa única tabela conhecida pelo nome de ANOVA abreviação de ANalysis Of VAriance descrita na Tabela 155 Tabela 155 Tabela de Análise de Variância ANOVA FV gl SQ QM F Entre 1 SQEnt QMEnt QMEntSe 2 Dentro n 2 SQDen QMDen ou Se 2 Total n 1 SQTot QMTot ou S2 Na primeira coluna temos as descrições das diferentes somas de quadrados tecnicamente indicadas por fontes de variação FV Os graus de liberdade gl da segunda coluna estão associados às respectivas somas de quadrados sendo que o número de gl da SQEnt é obtido por subtração Falaremos abaixo sobre QMEnt e a razão F QMEntQMDen Exemplo 151 continuação Com os dados obtidos anteriormente para o Exemplo 151 podemos construir a tabela ANOVA para o modelo 154 O resultado está na Tabela 156 Tabela 156 Tabela ANOVA para o Exemplo 151 FV gl SQ QM F Entre 1 13520 13520 197 Dentro 18 123780 6877 Total 19 137300 7226 Da ANOVA encontramos os desvios padrões residuais do modelo completo 154 e do modelo reduzido 1519 A economia propiciada ao passar de um modelo para outro em termos de soma de quadrados é 13520 e em termos de quadrados médios comparando 7226 e 6877 Proporcionalmente economizamos ou seja aproximadamente 10 na SQ de resíduos Podemos dizer que essa é a proporção da variação explicada pelo modelo 159 Essa medida é chamada coeficiente de explicação do modelo denotada por 1533 Essa medida já foi usada na Seção 46 Veja o Problema 27 A conveniência ou não do modelo 154 está associada ao teste 1527 já que aceitar essa hipótese implica a adoção do modelo 1519 Com as suposições feitas a estatística para o teste é 1526 que sob H0 fica 1534 que tem distribuição tn1 n2 2 Também sabemos que o quadrado de T tem distribuição F1 n1 n2 2 ver Seção 133 Contudo e como podemos escrever 1535 Logo concluímos que 1536 Essa é a estatística que aparece na última coluna da tabela ANOVA Portanto podemos usar F com 1 n 2 graus de liberdade para testar a hipótese 1527 Rejeitaremos H0 se F c c determinado pelo nível de significância do teste Exemplo 154 Da ANOVA da Tabela 156 vemos que o valor da estatística F é 197 Consultando a Tabela VI com 118 gl e α 005 encontramos o valor crítico 441 Logo não rejeitamos H0 µ1 µ2 Isso significa que não há vantagem em usar o modelo 154 no lugar de 1519 Problemas 3 Na tabela abaixo estão os dados referentes a uma amostra de 21 alunos do primeiro ano de um curso universitário As variáveis são Y nota obtida na primeira prova do curso X se cursou escola particular P ou oficial O Z o período em que está matriculado manhã M tarde T noite N y 56 68 69 70 70 72 75 77 83 84 84 x P O P P O O O P P P O z N M M M T N M M T N N y 85 90 92 95 95 95 100 100 100 100 x O P O P P P P P P P z T T M M N T T M M T 1539 e que ou seja em que Si 2 é variância amostral do iésimo nível grupo de idade Todas essas variâncias amostrais são estimadores não viesados de σe 2 logo podese novamente considerar o estimador ponderado 1540 Para nossos dados obtemos 1 i l 20 anos 2 i 2 25 anos 3 i 3 30 anos 4 i 4 35 anos 5 i 5 40 anos Seguese que Se 2 55415 3693 Se 608 A tabela ANOVA para o fator idade está na Tabela 157 Tabela 157 Tabela ANOVA para o Exemplo 151 com fator idade FV gl SQ QM F Entre 4 81900 20475 554 Dentro 15 55400 3693 Total 19 137300 7226 Da tabela concluímos que houve uma redução substancial na soma de quadrados 819 unidades quadradas ou seja isto é aproximadamente 60 da variação total é explicada pelo fator idade reduzindo o erro quadrático médio de 850 para 608 Como antes podemos construir os intervalos de confiança para os parâmetros µi Por exemplo para o grupo de idade de 25 anos Os resíduos desse modelo encontramse na Tabela 154 coluna e3 e verificamos que eles diminuíram bastante indicando a boa capacidade de previsão do modelo A análise dos resíduos na Figura 153 não sugere violação de nenhuma das suposições feitas Figura 153 Resíduos do modelo yij µi eij para o fator idade Entretanto quando o teste rejeita a hipótese de igualdade 152 estamos afirmando que ocorre pelo menos uma desigualdade e essa conclusão na maioria dos casos não é suficiente para o pesquisador Ele deseja saber de que modo ocorre essa desigualdade Como ilustração suponha que se rejeite a hipótese H0 µ1 µ2 µ3 Então existem as seguintes possibilidades para a alternativa 1 µ1 µ2 µ3 2 µ1 µ2 µ3 3 µ1 µ3 µ2 e 4 µ1 µ2 µ3 Existem vários métodos para resolver esse problema e alguns deles podem ser vistos em Peres e Saldiva 1982 Aqui iremos discutir apenas um deles Um modo de investigar a causa da rejeição é comparar os grupos dois a dois Como já foi visto na Seção 152 isso pode ser feito por meio da construção de intervalos de confiança para a diferença obtendose por exemplo 1542 com tγ obtido de uma distribuição t de Student com n I graus de liberdade Poderíamos então construir os intervalos para todos os possíveis pares e observandose aqueles que não contêm o valor zero obter conclusões sobre a razão da rejeição Exemplo 155 Investigando o efeito da idade vimos que a hipótese H0 foi rejeitada O intervalo de confiança para a diferença de duas médias quaisquer seria dado por Seguese que grupos de idade cuja diferença de médias seja superior a 916 seriam diferentes Na Tabela 158 observase que se aceita a igualdade apenas para grupos vizinhos indicando uma relação mais forte entre as variáveis fato que será explorado no próximo capítulo Tabela 158 Médias e diferenças de médias para os diversos grupos de idades para o Exemplo 151 Grupo 20 anos 25 anos 30 anos 35 anos 40 anos Média 9850 10325 10775 11075 11725 Diferença 475 450 300 650 No entanto com esse procedimento não se pode controlar as probabilidades do erro de tipo I ou seja a probabilidade de rejeitar uma hipótese verdadeira Por exemplo suponhamos que todas as médias sejam iguais No problema acima com cinco grupos e sob a hipótese nula teríamos então possíveis comparações duas a duas cada uma testada no nível de 5 e a probabilidade de que pelo menos uma das comparações exceda 916 é bem maior do que 5 na realidade pode ser mostrado que essa probabilidade está em torno de 29 Essa probabilidade cresce com o número de comparações Para controlar melhor essa probabilidade global do erro de tipo I pode ser usada uma correção baseada na desigualdade de Bonferroni ver Problema 19 Usase então o intervalo 1543 em que o único valor que muda é o de t γ que tem o mesmo número de graus de liberdade mas o nível de significância agora é α αm em que m é o número de comparações duas a duas que desejamos fazer Exemplo 156 No Exemplo 155 α 00510 0005 Da Tabela V com 15 graus de liberdade encontramos t 3438 obtido por interpolação linear e então Rejeitaremos H0 para diferenças maiores do que 1478 e vemos que apenas existe diferença entre os grupos de 20 e 40 anos Os intervalos de Bonferroni são conservadores pois o nível α real será menor do que aquele nominal e essa diferença aumenta com m Portanto recomendase que o seu uso seja restrito a um número pequeno de comparações Problemas 11 Queremos verificar o efeito do tipo de impermeabilização em lajes de concreto As quantidades de água que passaram pela laje em cada tipo foram medidas durante um mês obtendose os valores da tabela abaixo Que conclusão pode obter I II III IV 56 64 45 42 55 61 46 39 62 50 45 45 59 55 39 43 60 56 43 41 12 Os dados abaixo vêm de um experimento completamente aleatorizado em que 5 processos de estocagem foram usados com um produto perecível por absorção de água 25 exemplares desse produto foram divididos em cinco grupos de cinco elementos e após uma semana mediuse a quantidade de água absorvida Os resultados codificados estão no quadro abaixo Existem evidências de que os processos de estocagem produzem resultados diferentes Sexo A B C D E 8 4 1 4 10 6 2 2 6 8 7 0 0 5 7 5 2 1 5 4 8 3 3 4 9 155 Teste de Homoscedasticidade Uma das suposições básicas para a aplicação da técnica de ANOVA é a de homoscedasticidade ou seja que a variância seja a mesma em todos os níveis Muitas vezes não podemos garantir a priori se essa suposição é adequada e podemos analisar os dados para obter uma resposta Podemos fazer uma inspeção visual ou um teste A seguir apresentaremos o teste de Barlett para testar a igualdade de variâncias veja Dixon e Massey 1957 H0 σ2 1 σ2 2 σ2 I 1544 156 Exemplo Computacional Vamos utilizar o Minitab para ilustrar o uso de um pacote para resolver um problema de análise de variância Retomemos o Exemplo 151 como fator idade O Quadro 151 mostra a saída do Minitab usando a opção ANOVA do menu Observe que os valores encontrados coincidem com aqueles já obtidos na Seção 153 Tabela 157 O valorp do teste de igualdade de médias é indicado por P 0006 A saída mostra também as estimativas das médias dos grupos os desvios padrões e o desvio padrão ponderado Se 608 Os intervalos de confiança individuais estão mostrados de forma pictórica com uma escala anexa notandose intersecções que levam à rejeição da hipótese de igualdade de médias Quadro 151 ANOVA para o Exemplo 151 Minitab Oneway Analysis of Variance Analysis of Variance for C1 Source DF SS MS F P C2 4 8190 2048 554 0006 Error 15 5540 369 Total 19 13730 Individual 95 CIs For Mean Based on Pooled StDev Level N Mean StDev 20 4 9850 597 25 4 10325 512 30 4 10775 665 35 4 11075 562 40 4 11725 685 Pooled StDev 608 100 110 120 Na Figura 153 temos os resíduos para cada nível do fator idade bem como os resíduos para todas as idades Na Figura 154 vemos os box plots desses resíduos por nível e na Figura 155 o box plot dos resíduos para todas as idades Figura 154 Box plots para os resíduos por nível do fator idade R suas conclusões e críticas a esse experimento Réplicas Semanas Embalagens A B C 1 15 21 9 2 20 23 13 3 9 19 20 4 12 25 18 Total 56 88 60 15 Um produtor de gelatina em pó está testando um novo lançamento e quer verificar em que condições de preparo o produto seria mais bem aceito Vinte e quatro donas de casa atribuíram notas 0 a 10 para o prato que produziram com o produto Junto com o produto foram fornecidos quatro tipos de receitas duas para doces A e D e duas para salgados B e C Feita a análise estatística quais recomendações você faria ao produtor Discuta a validade das suposições feitas para resolver o problema Receita A B C D 2 4 3 3 5 7 5 6 1 3 1 2 7 9 9 8 2 4 6 1 6 8 8 4 16 Num curso de extensão universitária entre outras informações obtevese informação sobre salário e área de formação acadêmica com os seguintes resultados Formação ni x s Humanas 65 2875 354 Exatas 12 3521 546 Biológicas 8 4390 493 Aqui ni indica a frequência x o salário médio e s o desvio padrão amostral Teste a hipótese de que os salários médios nessas três áreas são iguais 17 Suspeitase que quatro livros escritos sob pseudônimo são de um único autor Uma pequena investigação inicial selecionou amostras de páginas de cada um dos livros contandose o número de vezes que determinada construção sintática foi usada Com os resultados abaixo quais seriam as suas conclusões Livros 1 2 3 4 28 29 26 39 31 33 24 27 17 35 22 35 25 24 19 34 26 28 23 28 22 25 34 24 29 33 30 18 Prove que 19 Construa uma ANOVA completa para os Exemplos 152 e 153 20 Usando a proposta do Problema 19 e os dados do Exemplo 153 teste H0 µ1 µ2 µ3 com α 005 21 Teste a igualdade de variâncias para o Exemplo 153 22 As vendas diárias Y de um grande centro de compras seguem uma distribuição normal com média igual a 100 e desvio padrão igual a 20 a Qual o intervalo que contém 95 das vendas diárias b Se X representar a média de amostras de vendas de nove dias qual intervalo conterá 95 das médias c Compare e interprete os dois intervalos acima Suponha agora que não se conheça nem a média nem o desvio padrão da população Sorteouse uma amostra de nove dias com as seguintes vendas diárias 157 162 135 136 154 178 180 127 128 d Qual a melhor estimativa para a média populacional e E para o desvio padrão populacional f Construa um intervalo de confiança IC de 95 para a média populacional g Construa um IC para a variância populacional h Explique em poucas palavras o significado dos intervalos obtidos em f e g i Suponha agora que baseado nessa amostra você deva responder à pergunta a Como você não conhece a média e a variância populacional você decide emprestar os respectivos valores da amostra e calcular o intervalo Qual seria esse intervalo Você tem alguma restrição a essa resposta j Usando 1547 construa o IP e interprete o resultado k Compare com a resposta dado em h explicando a diferença entre eles 23 Mostre que o IP para uma observação futura Yif do iésimo grupo pode ser escrito como Para m grande α pode ser tão pequeno que não o encontramos em tabelas da distribuição t de Student Podese usar a aproximação na qual v é o número de graus de liberdade da distribuição t e Zα é o valor da N0 l tal que PZ Zα α 2 Intervalo de predição Vamos supor adotado o modelo 1519 para a variável Y e desejamos prever uma observação futura Yf Pelo modelo adotado podemos escrever que Yf µ Ef que poderá ser estimado por Ŷf y εf e por desconhecer εf substituímolo por seu valor esperado que é zero Logo o estimador ou predição da futura observação será a média da amostra Admitindo a observação futura como independente das observações anteriores podemos escrever e que será estimada por Usando a mesma argumentação para a construção de intervalos de confiança podemos construir um IC para a futura observação que chamaremos de intervalo de predição IP do seguinte modo 1547 Capítulo 16 Regressão Linear Simples 161 Introdução No Capítulo 8 introduzimos o conceito de regressão para duas va quantitativas X e Y Vimos que a esperança condicional de Y dado que X x por exemplo denotada por EYx é uma função de x ou seja EYx µx 161 Em 827 definimos precisamente essa função Uma definição similar vale para EXy que será uma função de y Estamos considerando aqui o caso em que X e Y são definidas sobre uma mesma população P Por exemplo X pode ser a idade e Y o tempo de reação ao estímulo no Exemplo 151 Nesse exemplo a análise sugeriu a existência de uma relação mais forte entre as duas variáveis e a modelamos por yij µi eij i 1 5 j 1 4 162 em que µi é a média do grupo de idade i Podemos pensar que o fator idade determina cinco subpopulações ou estratos em P e de lá escolhemos cinco amostras aleatórias de tamanhos ni 4 i 1 5 Em 161 µx pode ser qualquer função de x veja o Exemplo 821 Um caso simples de interesse é aquele em que X e Y têm distribuição conjunta normal bidimensional Nesse caso µx e µy são de fato funções lineares Veja a Seção 88 Continuando com o Exemplo 151 tanto X idade como Y tempo de resposta ao estímulo são va contínuas e podemos pensar em introduzir um modelo alternativo para yij dada a relação entre X e Y Observando as médias de Y segundo os grupos de idades ou seja EYx percebemos que estas aumentam conforme as pessoas envelhecem A Figura 161 mostra os dados observados na qual notamos uma tendência crescente bem como os valores repetidos de Y para cada nível de idade x Um modelo razoável para EYx pode ser EYx µx α βx 163 ou seja o tempo médio de reação é uma função linear da idade Figura 161 Gráfico de dispersão de idade e reação ao estímulo com reta ajustada A forma da função µx deve ser definida pelo pesquisador em função do grau de conhecimento teórico que ele tem do fenômeno sob estudo Um modelo alternativo a 162 seria então yij µxi eij 164 com EYxi µxi α βxi i 1 2 5 Entretanto a forma usual de escrever o modelo é yi µxi ei 165 em que yi indica o tempo de reação do iésimo indivíduo com xi anos de idade i 1 2 n e n é o número total de observações Teremos então com essa notação valores repetidos para X por exemplo x1 x4 20 Convém reforçar a ideia que estamos propondo um modelo de comportamento para as médias das subpopulações logo teremos de estimar os parâmetros envolvidos mas o mesmo desenvolvimento pode ser aplicado em modelos mais complexos Será necessário ainda introduzir algumas suposições para as va envolvidas A primeira delas é que a variável X é por hipótese controlada e não está sujeita a variações aleatórias Dizemos que X é uma variável fixa ou sem erro ou determinística Segundo para dado valor x de X os erros distribuemse ao redor da média α βx com média zero isto é Eeix 0 168 Em terceiro lugar e pela mesma razão apresentada no capítulo anterior devemos supor que os erros tenham a mesma variabilidade em torno dos níveis de X ou seja Vareix σ2 e 169 E em quarto lugar introduziremos a restrição de que os erros sejam não correlacionados Colhida uma amostra de n indivíduos teremos n pares de valores xi yi i 1 n que devem satisfazer ao modelo 166 isto é yi α βxi ei i 1 n 1610 Temos então n equações e n 2 incógnitas α β e1 e2 en Precisamos introduzir um critério que permita encontrar α e β Como no capítulo anterior vamos adotar o critério que consiste em encontrar os valores de α e β que minimizam a soma dos quadrados dos erros dados por ei yi α βxi i 1 n 1611 Obtemos então a quantidade de informação perdida pelo modelo ou soma dos quadrados dos erros ou desvios 1612 Para cada valor de α e β teremos um resultado para essa soma de quadrados e a solução de mínimos quadrados MQ é aquela que torna essa soma mínima Temos então o problema de encontrar o mínimo de uma função de duas variáveis α e β no caso ver Morettin et al 2005 Derivando em relação a α e β e igualando a zero observamos que as soluções α e β devem satisfazer 1613 as quais produzem as soluções 1614 Substituindo em 163 teremos o estimador para a média µx dado por µˆxi α βxi i 1 n 1615 que iremos indicar por ˆyi α βxi 1616 ou ainda por ˆyi y β x β xi y β xi x 1617 Exemplo 161 Voltemos ao Exemplo 151 e vamos ajustar o modelo 1610 com yi tempo de reação do iésimo indivíduo xi idade do iésimo indivíduo ei desvio i 1 2 20 Da Tabela 161 obtemos as informações n 20 yi 2150 xi 600 xiyi 65400 y 10750 x 30 x2 i 19000 Substituindo em 1614 obtemos o que nos dá o modelo ajustado ŷi 8050 090xi i 1 2 20 1618 Com esse modelo podemos prever por exemplo o tempo médio de reação para pessoas de 20 anos que será indicado por ŷ 20 e determinado por ŷ20 8050 09020 9850 De modo análogo os tempos médios para as idades 25 30 35 e 40 serão respectivamente estimados por 10300 10750 11200 e 11650 Esses valores são muito próximos daqueles encontrados na Seção 153 e a vantagem desse modelo sobre aquele é a possibilidade de estimar o tempo de reação médio para um grupo de idades não observado Suponhamos por exemplo que se deseja estimar o tempo médio para o grupo de pessoas com 33 anos este será dado por ŷ33 8050 09033 11020 Na Figura 161 aparecem representados os dados observados bem como a reta ajustada Podemos observar que o modelo parece ser adequado não apresentando nenhum ponto com desvio exagerado Problemas 1 Usando os dados do Exemplo 151 a Encontre a reta de mínimos quadrados ˆzi α βxi em que z mede a acuidade visual e x a idade b Interprete o significado de α e β nesse problema c Para cada indivíduo encontre o desvio ˆei zi ˆzi existe algum com valor muito exagerado 2 A tabela abaixo indica o valor y do aluguel e a idade x de cinco casas a Encontre a reta de MQ supondo a relação Eyx α βx b Faça o gráfico dos pontos e da reta ajustada Você acha que o modelo adotado é razoável c Qual o significado do coeficiente angular nesse caso d E do coeficiente linear x 10 13 5 7 20 y 4 3 6 5 2 3 Um laboratório está interessado em medir o efeito da temperatura sobre a potência de um antibiótico Dez amostras de 50 gramas cada foram guardadas a diferentes temperaturas e após 15 dias mediuse a potência Os resultados estão no quadro abaixo a Faça a representação gráfica dos dados b Ajuste a reta de MQ da potência como função da temperatura c O que você acha desse modelo d A que temperatura a potência média seria nula Temperatura 30 50 70 90 Potência 38 43 32 26 33 19 27 23 14 21 4 Ainda usando os dados do exemplo numérico 151 investigue o ajuste da reta de MQ na variável tempo de reação como função da acuidade visual 163 Avaliação do Modelo Nesta seção e nas seguintes estudaremos várias formas de avaliar se o modelo linear postulado é adequado ou não dadas as suposições que fizemos sobre ele 1631 Estimador de σ2e Como no capítulo anterior para julgar a vantagem da adoção de um modelo mais complexo linear ou outro qualquer vamos usar a estratégia de comparálo com o modelo mais simples que é aquele discutido na Seção 152 ou seja yi µ ei 1619 A vantagem será sempre medida por meio da diminuição dos erros de previsão ou ainda da variância residual S2 e Para o modelo ajustado 1616 cada resíduo é dado por ˆei yi ŷi yi α β xi 1620 Como vimos na Seção 161 vários gráficos envolvendo esses resíduos podem ser feitos para avaliar se eles são bons representantes dos verdadeiros ei desconhecidos no sentido de que as suposições feitas sobre estes estão satisfeitas Esses gráficos serão estudados na Seção 165 Quando estes resíduos forem pequenos temos uma indicação de que o modelo está produzindo bons resultados Para julgarmos se o resíduo é pequeno ou não devemos comparálo com os resíduos do modelo alternativo dados por yi y Da dificuldade de compará los individualmente preferimos trabalhar com as respectivas somas de resíduos quadráticos dadas por 1621 e 1622 Exemplo 161 continuação Na quinta coluna da Tabela 161 aparecem os resíduos êi yi ŷi yi 8050 090xi que elevados ao quadrado e somados produzirão SQRes 56300 Tabela 161 Resíduos para o modelo 1618 i Variáveis Resíduos Tempo de Reação Sexo Idade yi ŷi i Variáveis Resíduos Tempo de Reação Sexo Idade yi ŷi 1 96 H 20 25 2 92 M 20 65 3 106 H 20 75 4 100 M 20 15 5 98 M 25 50 6 104 H 25 10 7 110 H 25 70 8 101 M 25 20 9 116 M 30 85 10 106 H 30 15 11 109 H 30 15 12 100 M 30 75 13 112 M 35 00 14 105 M 35 70 15 118 H 35 60 16 108 H 35 40 17 113 M 40 45 18 112 M 40 55 19 127 H 40 95 20 117 H 40 05 SQRes 563 Se 2 3128 Se 559 2Se 1118 Sabemos que SQTot 137300 o que mostra uma sensível redução de 810 unidades Mais ainda a comparação da quinta coluna da Tabela 161 com a coluna e3 da Tabela 154 mostra o melhor comportamento dos resíduos do modelo de regressão 1618 No entanto a comparação direta dessas somas de quadrados não nos parece justa pois o modelo 1618 tem mais parâmetros do que o modelo 1619 Vejamos então como comparar as variâncias residuais Para o modelo simples 1619 o estimador não viesado de σ2 e é 1623 Também vimos que para o modelo 162 com I níveis ou subpopulações o estimado da variância residual era 1624 e I também denota o número de parâmetros desconhecidos do modelo as médias µi Portanto de modo geral perdese um grau de liberdade para cada parâmetro envolvido no modelo e é natural definir o estimador de σ2 e num modelo de regressão como sendo 1625 em que p é o número de parâmetros do modelo No caso particular da regressão linear simples p 2 e 1626 será um estimador não viesado de σ2 e isto é ES2 e σ2 e Veja o Problema 32 Exemplo 162 Continuando o exemplo anterior obteremos S2 137319 7226 S 850 e S2 e 56318 3128 Se 559 números que sugerem uma diminuição significativa na soma dos quadrados dos resíduos Observe que passando de um modelo com um parâmetro para outro com dois há uma redução de 810 unidades na soma de quadrados residuais Ou seja perdendo um grau de liberdade reduziuse a soma dos resíduos quadráticos em 810 unidades o que é mais uma evidência da vantagem de adoção do segundo modelo 1632 Decomposição da Soma de Quadrados Ao passarmos do modelo simples para o modelo de regressão linear vimos que a redução da soma de quadrados é dada por SQTot SQRes Esse lucro é devido à adoção do segundo modelo e será indicado por SQReg significando a soma dos quadrados devida à regressão Seguese que SQReg SQTot SQRes 1627 ou seja SQTot SQReg SQRes 1628 Observando a Figura 163 notamos que vale a seguinte relação yi y yi ŷi ŷi y êi ŷi y 1629 Em palavras o desvio de uma observação em relação à média pode ser decomposto como o desvio da observação em relação ao valor ajustado pela regressão mais o desvio do valor ajustado em relação à média Figura 163 Representação gráfica dos diversos desvios Elevandose ao quadrado ambos os membros da igualdade 1629 tomandose a soma e observandose que a soma do duplo produto se anula veja o Problema 31 obtemos 1630 ou 1631 do que deduzimos que 1632 De 1617 obtemos que ŷi y βxi x portanto podemos escrever 1633 Daqui se pode observar que quanto maior o valor de β maior será a redução da soma dos quadrados dos resíduos 1633 Tabela de Análise de Variância Do mesmo modo como foi feito na Seção 152 podemos resumir as informações anteriores numa única tabela ANOVA ilustrada na Tabela 162 Tabela 162 Tabela ANOVA para modelo de regressão FV gl SQ QM F Regressão 1 SQReg SQReg QMReg QMRegS2e Resíduo n 2 SQRes SQResn 2 S2e Total n 1 SQTot SQTotn 1 S2 Também podemos medir o lucro relativo que se ganha ao introduzir o modelo usando a estatística 1634 definida anteriormente A estatística F será discutida na Seção 164 Exemplo 163 Dos cálculos que nos levaram ao modelo 1618 podemos construir a Tabela 163 Temos que Tabela 163 Tabela ANOVA para o modelo 1618 FV gl SQ QM F Regressão 1 810 810 2590 Resíduo 18 563 3128 Total 19 1373 7226 O modelo proposto diminui a variância residual em mais da metade e explica 59 da variabilidade total Verificamos então que é vantajosa a adoção do modelo linear 1618 para explicar o tempo médio de reação ao estímulo em função da idade A estratégia adotada para verificar se compensa ou não utilizar o modelo y α βx e é observar a redução no resíduo quando comparado com o modelo y µ e Se a redução for muito pequena os dois modelos serão praticamente equivalentes e isso ocorre quando a inclinação β for zero ou muito pequena não compensando usar um modelo mais complexo Estaremos pois interessados em testar a hipótese H0 β 0 1635 o que irá exigir que se coloque uma estrutura de probabilidades sobre os erros Esse assunto será objeto da próxima seção A Figura 164 ilustra as duas situações que podem ocorrer Na Figura 164 a temos o caso em que claramente a variável auxiliar ajuda a prever a variável resposta Na situação da Figura 164 b teremos dúvidas se vale a pena ou não introduzir um modelo mais complexo ganhando muito pouco em termos de explicação Figura 164 Retas ajustadas a dois conjuntos de dados a x explica y b x não explica y Para a avaliação final do modelo devemos investigar com mais cuidado o comportamento dos resíduos o que será feito na Seção 165 Problemas 5 Usando os resultados do Problema 1 construa a tabela ANOVA para o modelo z β x encontrado naquele problema a Qual a estimativa S2 E S2 e b Você acha que a redução nos resíduos foi grande c Qual o valor de R2 Interprete esse número 6 Um estudo sobre duração de certas operações está investigando o tempo requerido em segundos para acondicionar objetos e o volume em dm3 que eles ocupam Uma amostra foi observada e obtiveramse os seguintes resultados Tempo 108 144 196 180 84 152 110 133 231 Volume 2039 2492 3484 3172 1359 3087 1784 2322 3965 a Faça o diagrama de dispersão dos dados b Estime a reta de regressão do tempo de operação em função do volume c Construa a tabela ANOVA para o modelo d Qual o valor de S2 É pequeno quando comparado com S2 e e Você acha que conhecer o volume do pacote ajuda a prever o tempo de empacotamento 7 Construa a tabela ANOVA para o Problema 2 e interprete os resultados 8 Construa a tabela ANOVA com os dados do Problema 3 9 Idem para o Problema 4 164 Propriedades dos Estimadores Iremos agora estudar as propriedades amostrais dos estimadores α e β e para isso é conveniente voltar ao modelo e às suposições adotadas para a variável aleatória Y sob investigação Lembremos que a variável X é suposta controlada fixa e para cada valor x de X teremos associada uma distribuição de probabilidades para Y como ilustra a Figura 165 a em que supomos que a dispersão é a mesma para cada nível da variável X A Figura 165 b ilustra o caso que será considerado aqui em que estas distribuições condicionais são normais com a mesma variância Note que EYx é linear como estamos considerando neste capítulo Formalmente o modelo Yi EYxi ei α βxi ei i 1 n deve satisfazer as seguintes suposições i Para cada valor de xi o erro ei tem média zero e variância constante σ2 e ii Se i j Covei ej 0 isto é para duas observações distintas os erros são não correlacionados Seguese que EYixi α βxi e VarYixi σ2 e e ainda que Yi e Yj são não correlacionados para i j Figura 165 a médias alinhadas distribuições com a mesma variância b médias alinhadas distribuições normais com a mesma variância 1641 Média e Variância dos Estimadores Nesta seção vamos obter a média e a variância dos estimadores α e β dados em 1614 Proposição 161 Para o estimador β temos Eβ β 1636 1637 Prova Inicialmente vamos escrever β de um modo mais conveniente veja o Problema 30 em que estamos usando a notação Y maiúscula e x minúscula para diferenciar o fato de que a primeira está sendo considerada aleatória e a segunda fixa e Observe que estamos usando o fato de e que Usando propriedades da esperança e variância de somas de va veja o Capítulo 8 podemos escrever o que mostra que o estimador é não viesado Para a variância pois as observações são não correlacionadas e portanto e o resultado segue Proposição 162 Para o estimador α temos Eα α 1638 1639 Prova Precisaremos dos seguintes resultados Problema 33 Covy β 0 1640 1641 Como temos que dado que x é supostamente fixa e não uma va Também Temos então que Eα Ey β x α β x β x α e Varα Vary β x Vary Varβ x 2Covy β x Vary x2Varβ 2 xCovy β e usando os diversos resultados obtidos acima obtemos 1639 1642 Distribuições Amostrais dos Estimadores dos Parâmetros Para completar o estudo das propriedades dos estimadores vamos introduzir uma terceira suposição iii Os erros ei são va com distribuição normal isto é ei N0 σ2 e 1642 o que implica yi Nα βxi σ2e 1643 Como β e α são combinações lineares de va normais e independentes temos o seguinte resultado Proposição 163 Os estimadores α e β têm ambos distribuição normal com médias e variâncias dadas pelas Proposições 161 e 162 isto é 1644 1645 Os resultados acima permitem concluir que 1646 1647 1643 Intervalos de Confiança para α e β Substituindo σe por seu estimador Se em 1646 e 1647 sabemos que as estatísticas resultantes terão distribuição t de Student com n 2 graus de liberdade o que permitirá construir intervalos de confiança para os parâmetros Proposição 164 As estatísticas 1648 e 1649 têm distribuição t de Student com n 2 graus de liberdade Esse resultado combinado com os procedimentos de construção de intervalos de confiança já estudados nos leva aos seguintes intervalos para α e β com γ denotando o coeficiente de confiança e tγn 2 denotando o valor obtido da Tabela V com n 2 graus de liberdade 1650 1651 Exemplo 164 Da tabela ANOVA do Exemplo 163 podemos retirar as informações necessárias para construir intervalos de confiança para α e β Temos que x2 i 19000 xi x 2 1000 e x 30 Temos também S2 e 3128 e portanto Se 559 Se γ 095 obtemos t09518 2101Os intervalos são dados por Ou seja ICα 095 6905 9195 ICβ 095 060 120 Este último resultado é mais uma evidência de que β 0 o que reforça conclusões anteriores Os intervalos de confiança 1650 e 1651 podem ser utilizados para testar hipóteses do tipo H0 α α0 H0 β β0 Em particular temos o resultado Proposição 165 A estatística para testar H0 α 0 é 1652 e a estatística para testar H0 β 0 é 1653 cada uma tendo distribuição t de Student com n 2 graus de liberdade Observe que e usando o resultado 1633 podemos escrever 1654 que é a estatística F que aparece na tabela ANOVA Assim para testar a hipótese H0 β 0 podese usar a estatística 1654 que segue uma distribuição F1 n 2 Exemplo 165 Para testar separadamente as hipóteses acima os valores das estatísticas correspondentes serão os quais devem ser comparados com 2101 que é o valor crítico de t18 no nível de significância 5 Vemos que em ambos os casos rejeitamos as hipóteses de que os parâmetros sejam iguais a zero Comparando o resultado de tβ com o valor F da tabela ANOVA constatamos que t2β 2590 F de acordo com o apresentado acima Algumas vezes para indicar a significância das estatísticas a reta ajustada é escrita do seguinte modo em que entre parênteses aparece o valor de t para indicar com que intensidade o parâmetro pode ser considerado distinto de zero 1644 Intervalo de Confiança para µz e Intervalo de Predição O modelo linear 166 estudado até agora será utilizado frequentemente para fazer previsões da variável resposta y para algum nível da variável de controle x Usando o enunciado do Exemplo 161 poderíamos estar interessados em saber qual o tempo de reação aos 28 anos É importante estabelecer se queremos estimar o tempo médio para o grupo etário de 28 anos ou o tempo de reação provável para uma pessoa de 28 anos Veremos que a estimação pontual é a mesma nos dois casos porém os intervalos de confiança serão distintos Para entender bem as diferenças sugerimos recordar as soluções aos Exercícios 23 24 e 25 do Capítulo 15 Do modelo 163 e do exposto até agora temos o seguinte resultado Proposição 166 A distribuição amostral do estimador 1615 é dada por 1655 em que 1656 Prova Das proposições 161 e 162 vem o que demonstra a primeira parte da proposição De 1617 temos ŷi y βxi x portanto Varŷi Var y xi x2 Varβ 2xi x Covy β mas de 1640 Cov y β 0 e de 1637 vem o que conclui a prova Com a proposição acima e substituindo σ2 e por seu estimador S2 e é fácil verificar que o Intervalo de Confiança para µx será dado por 1657 Vejamos agora como construir um intervalo de predição para uma futura observação Imitando a proposta do Problema 1524 uma futura observação para um dado nível xf é dada por Yfx µxf εf e o estimador será Ŷf ŷf εf ŷf em que substituímos o valor desconhecido εf pelo seu valor esperado que é zero Da expressão anterior calculamos ou seja 1658 Substituindo σ2 e pelo seu estimador S2 e teremos um estimador da variância e analogamente o intervalo de predição abaixo 1659 Exemplo 166 Qual o tempo de reação aos 28 anos A estimativa pontual é dada por ŷ28 805 0928 1057 Considerando como resposta adequada o tempo de reação médio do grupo de 28 anos podemos escrever o Intervalo de Confiança para a média ou seja Se quiséssemos saber dentro de que intervalo 95 das futuras observações iriam estar construiríamos o Intervalo de Predição Problemas 10 Usando a tabela ANOVA construída no Problema 5 a Construa o ICβ 95 b Construa o ICα 90 c Use a estatística F para testar a hipótese H0 β 0 d Construa o IC para a acuidade visual média do grupo etário de 28 anos e E qual seria o Intervalo de Predição da acuidade visual das pessoas de 28 anos 11 Com as informações do Exemplo 151 e a ANOVA construída no Problema 9 você diria que a acuidade visual ajuda a prever o tempo de reação dos indivíduos Que estatística você usou para justificar seu argumento e por quê 12 Investigando a relação entre a quantidade de fertilizante usado x e a produção de soja y numa estação experimental com 20 canteiros obtevese a equação de MQ ŷ 1500 283x 322 165 Com esses resultados você diria que a quantidade de fertilizante influi na produção Por quê 165 Análise de Resíduos Para verificar se um modelo é adequado temos que investigar se as suposições feitas para o desenvolvimento do modelo estão satisfeitas Para tanto estudamos o comportamento do modelo usando o conjunto de dados observados notadamente as discrepâncias entre os valores observados e os valores ajustados pelo modelo ou seja fazemos uma análise dos resíduos O iésimo resíduo é dado por êi yi ŷi i 1 2 n 1660 Lembremos que já utilizamos estes resíduos para obter medidas da qualidade dos estimadores dos parâmetros do modelo Agora iremos estudar o comportamento individual e conjunto destes resíduos comparando com as suposições feitas sobre os verdadeiros erros ei Existem várias técnicas formais para conduzir essa análise mas aqui iremos ressaltar basicamente métodos gráficos Para mais detalhes ver Draper e Smith 1998 Uma representação gráfica bastante útil é obtida plotandose pares xi êi i 1 n Outras vezes é de maior utilidade fazer a representação gráfica dos chamados resíduos padronizados 1661 plotandose os pares xi zi Observe que a forma dos dois gráficos será semelhante havendo apenas uma mudança de escala das ordenadas nos dois casos Por isso iremos usar a primeira representação indicando no gráfico a posição do valor Se Outro resíduo usado é o chamado resíduo estudentizado definido por 1662 em que O denominador de 1662 é o desvio padrão de êi Não iremos explorar aqui a análise feita com esse tipo de resíduo Exemplo 167 Voltemos ao Exemplo 151 Os resíduos do modelo 1618 estão reproduzidos na Tabela 164 dos quais foram obtidos os demais Os dois primeiros resíduos estão representados na Figura 166 Note que os dois gráficos são parecidos e levarão ao mesmo tipo de diagnóstico Comentários adicionais sobre esse exemplo serão feitos abaixo Tabela 164 Resíduos para o modelo 1618 Idade êi zi rˆi Idade êi zi rˆi 20 25 045 049 30 15 027 028 20 65 116 126 30 75 134 137 20 75 134 145 35 00 00 00 20 15 027 029 35 70 125 130 25 50 089 092 35 60 107 111 25 10 018 019 35 40 072 075 25 70 125 130 40 45 080 086 25 20 036 037 40 55 098 106 30 85 152 156 40 95 170 184 30 15 027 028 40 05 009 010 Figura 166 Resíduos para o Exemplo 161 a êi yi ŷi b resíduos padronizados Obtido o gráfico dos resíduos precisamos saber como identificar possíveis inadequações Apresentamos na Figura 167 alguns tipos usuais de gráficos de resíduos A Figura 167 a é a situação ideal para os resíduos distribuídos aleatoriamente em torno do zero sem nenhuma observação muito discrepante Figura 167 Gráficos de resíduos a situação ideal b c modelo não linear d elemento atípico e f g heterocedasticidade h não normalidade Nas situações b e c temos possíveis inadequações do modelo adotado e as curvaturas sugerem que devemos procurar outras funções matemáticas que expliquem melhor o fenômeno A Figura 167 d mostra a existência de um elemento discrepante e deve ser investigada a razão desse desvio tão marcante Pode ser um erro de medida ou a discrepância pode ser real Em situações como essa em que há observações muito diferentes das demais métodos chamados robustos têm de ser utilizados Os casos e f e g indicam claramente que a suposição de homoscedasticidade mesma variância não está satisfeita Em h parece haver maior incidência de observações nos extremos mostrando que a suposição de normalidade não está satisfeita Analisados os resíduos e diagnosticada uma possível transgressão das suposições devemos propor alterações que tornem o modelo mais adequado aos dados e às suposições feitas A verificação da hipótese de normalidade pode ser realizada fazendose um histograma dos resíduos ou um gráfico de q q como explicado no Capítulo 3 Exemplo 167 continuação A análise dos resíduos do modelo 1618 mostra que esses não violam as suposições de média zero e variância comum A Figura 168 mostra o histograma dos resíduos e a Figura 169 mostra um gráfico q q Esse gráfico feito com o SPlus coloca nos eixos das ordenadas os valores crescentes dos êi e no eixo das abscissas os quantis de uma normal padrão Se os valores fossem de uma normal eles deveriam se dispor ao longo de uma reta Notamos que tanto o histograma quanto o gráfico de quantis mostram que os resíduos não são normalmente distribuídos Figura 168 Histograma dos resíduos do modelo 1618 Figura 169 Gráfico q q normalidade para os resíduos do modelo 1618 Quando a suposição de variância comum não estiver satisfeita usualmente fazse uma transformação da variável resposta y ou da preditora x ou de ambas Para detalhes ver Bussab 1986 e a Seção 166 Exemplo 168 Num processo industrial além de outras variáveis foram medidas X temperatura média F e Y quantidade de vapor Os dados estão na Tabela 165 Draper e Smith 1998 Appendix A Tabela 165 Temperatura e quantidade de vapor de um processo industrial Nº xi yi êi 1 353 1098 0174 2 297 1113 0123 3 308 1251 1345 4 588 840 0531 5 614 927 0547 6 713 873 0797 7 744 636 1326 8 767 850 0998 9 707 782 0161 10 575 914 0106 11 464 824 1680 12 289 1219 0873 13 281 1188 0499 14 391 957 0933 15 468 1094 1052 16 485 958 0173 17 593 1009 1199 18 700 811 0073 19 700 683 1207 20 745 888 1202 21 721 768 0189 22 581 847 0517 23 446 886 1204 24 334 1036 0598 25 286 1108 0261 Fonte Draper e Smith 1998 O gráfico de dispersão e a reta de MQ estão na Figura 1610 a A reta estimada de MQ é dada por ŷi 9424 00798xi 526 1663 ou ainda ŷi 13623 00798xi 1664 de modo que α 13623 e β 00798 Os resíduos e ˆ i yi ŷi estão na quarta coluna da Tabela 165 e seu gráfico contra xi na Figura 1610 b O gráfico q q para verificar a suposição de normalidade está na Figura 1610 c Observamos que há vários pontos afastados da reta Figura 1610 a gráfico de dispersão com reta ajustada b resíduos vs temperatura c gráfico q q normalidade Problemas 13 Com o modelo linear já obtido para a acuidade visual como função da idade construa os tipos de resíduos apresentados no Exemplo 166 Representeos graficamente Você observa alguma transgressão das suposições básicas 14 Para cada gráfico de resíduo abaixo indique qual a possível transgressão observada 15 Abaixo estão os valores da variável preditora x os resíduos observados depois do ajuste do modelo e a ordem em que os dados foram obtidos Preditor 11 20 14 22 12 25 15 Resíduo 1 2 3 3 1 5 0 Ordem 9 6 13 1 7 14 8 Preditor 14 19 21 18 22 16 21 Resíduo 0 3 2 2 5 0 1 Ordem 3 12 4 11 2 10 5 a Verifique se existe alguma possível transgressão das suposições analisando o gráfico xi êi b Faça o gráfico do resíduo contra a ordem do experimento Você observa alguma inconveniência 166 Alguns Modelos Especiais Nesta seção introduziremos alguns modelos particulares simples e que são de interesse prático Iniciamos com o modelo que teoricamente passa pela origem Depois consideramos modelos não lineares mas que podem ser linearizados por meio de alguma transformação 1661 Reta Passando pela Origem Em algumas situações temos razões teóricas ou ditadas pelas peculiaridades do problema a analisar para supor que o modelo deva ser do tipo yi βxi ei i 1 n 1665 Com as mesmas suposições anteriores e observada uma amostra xi yi i 1 n é fácil ver que o EMQ de β é 1666 Deixamos a cargo do leitor verificar como ficam os resultados obtidos anteriormente para o modelo completo nesse caso particular Por exemplo Exemplo 169 A mensuração exata Y de uma substância do sangue por meio de uma análise química é muito cara Um novo método mais barato resulta na medida X que supostamente pode ser usada para prever o valor de Y Nove amostras de sangue foram obtidas e avaliadas pelos dois métodos obtendose as medidas abaixo X 119 155 174 190 196 233 272 253 276 Y 112 152 172 183 192 228 263 239 263 Algumas estatísticas obtidas são Vamos ajustar o modelo 1665 a esses dados Obtemos β 396933411436 09648 resultando no modelo ajustado ŷi 09648xi i 1 2 9 É fácil ver que S2 e 59136 e Se 24318 Para testar a hipótese H0 β 0 usamos a estatística que resulta ser igual a o que claramente leva à rejeição de H0 Um intervalo de confiança para β com coeficiente de confiança 95 é ou seja ICβ 095 09561 09735 Os dados e a reta ajustada estão na Figura 1611 Figura 1611 Dados e reta ajustada para o Exemplo 168 1662 Modelos Não Lineares Quando usamos modelos de regressão ou qualquer outro tipo de modelo a situação ideal é aquela em que o pesquisador por razões teóricas inerentes ao problema real sob estudo pode sugerir a forma funcional da relação entre duas ou mais variáveis Na prática isso nem sempre acontece Muitas vezes o pesquisador está interessado em usar técnicas de regressão para explorar modelos convenientes sugeridos pelos dados observados Como vimos o primeiro passo para investigar o tipo de modelo a ser adotado é a representação gráfica dos dados a qual pode sugerir a forma da curva relacionando as variáveis além de fornecer outras informações veja o final da Seção 161 Por exemplo com os dados da Tabela 166 obtemos o diagrama de dispersão da Figura 1612 Notamos claramente a inadequação da reta como modelo sendo que provavelmente uma relação exponencial do tipo fx α eβx 1667 seja mais adequada Um modelo que pode então ser sugerido é yi α eβxi εi i 1 n 1668 Tabela 166 Taxa de Inflação no Brasil de 1961 a 1979 Ano t Inflação Y Y log Y 1961 9 9 22 1963 7 24 32 1965 5 72 43 1967 3 128 48 1969 1 192 52 1971 1 277 56 1973 3 373 59 1975 5 613 64 1977 7 1236 71 1979 9 2639 79 Figura 1612 Dados de inflação no Brasil pontos e modelo exponencial ajustado Suponha que queiramos estimar os parâmetros α e β pelo método de mínimos quadrados Devemos minimizar 1669 Derivando S em relação a α e β e igualando a zero obtemos as duas equações 1670 A solução desse sistema de equações não lineares exige o uso de procedimentos de otimização não lineares como Newton Raphson GaussNewton scoring e outros Ou seja os pontos de máximo da função S são obtidos numericamente dada a impossibilidade de termos soluções analíticas para as Equações 1670 Mas devemos dizer que essa é a regra mais do que a exceção em problemas encontrados na prática Portanto a utilização desses procedimentos de otimização é um requisito importante para estudantes de áreas como estatística economia engenharia etc Neste livro vamos nos limitar a tratar de alguns casos em que as transformações das variáveis sob estudo permitirão o uso de um modelo linear simples Suponha que a função 1667 seja apropriada para os dados da Tabela 166 Considere o modelo yi αeβxi εi i 1 n 1671 Observe que nesse modelo os erros εi entram de forma multiplicativa e não aditiva como no caso do modelo 166 Considerando agora o logaritmo na base e de ambos os lados de 1671 e chamando y i log yi α log α ε i log εi 1672 podemos escrever o modelo na forma y i α βxi ε i i 1 n 1673 Note que esse modelo é linear em α e β e temos que supor que os erros εi sejam positivos do contrário não podemos tomar logaritmos deles Por outro lado os erros ε i podem ser negativos positivos ou nulos Portanto para o modelo linear 1673 podemos fazer as suposições usuais das seções anteriores Exemplo 1610 Utilizando os dados da Tabela 166 devemos inicialmente calcular os logaritmos naturais da variável Y Note que nesse exemplo a variável explicativa é o tempo convenientemente codificado Na Figura 1613 temos o diagrama de dispersão dos dados transformados e da reta ajustada a saber ˆy i 527 028t t 9 9 1674 A análise de tal modelo pode ser conduzida como antes Veja o Problema 35 Observe que o modelo original ajustado é ˆy i 19442 e028t i 1 10 1675 pois α e527 Essa curva está representada na Figura 1612 Os resíduos do modelo 1674 transformado e do modelo 1675 original são dados na Tabela 167 e nas Figuras 1614 e 1615 respectivamente Note que em ambos os casos os resíduos não parecem ser aleatórios havendo curvaturas sugerindo a possibilidade de um modelo com termos quadráticos ou cúbicos por exemplo Figura 1613 Diagrama de dispersão para o logaritmo da inflação com reta ajustada Tabela 167 Resíduos para os modelos linear e exponencial t Resíduos Reta Exponencial 9 055 6643 7 011 3386 5 043 24057 3 037 44067 1 021 45061 1 005 19757 3 021 77348 5 027 175412 7 013 145251 9 011 222632 Figura 1614 Resíduos da reta ajustada ao logaritmo da inflação versus ano Figura 1615 Resíduos do modelo exponencial ajustado aos dados originais versus ano Os histogramas e gráficos q q para normalidade dos resíduos estão nas Figuras 1616 e 1617 Notamos que o histograma é assimétrico mostrando claramente o valor correspondente a t 9 Como há poucos pontos a análise de resíduos fica prejudicada o gráfico q q mostra os pontos não muito próximos de retas Figura 1616 Histogramas a resíduos reta ajustada ao log inflação b resíduos modelo exponencial Figura 1617 Gráficos q q dos resíduos a reta b exponencial 167 Regressão Resistente Nesta seção vamos considerar apenas o caso de regressão linear simples Ou seja temos os valores observados xi yi i 1 n e queremos ajustar o modelo 166 Notamos que os estimadores α e β em 1614 são baseados em x y e desvios em relação a essas médias A regressão resistente baseiase em medianas em vez de médias Inicialmente dividimos o conjunto dos n pontos em três grupos de tamanhos aproximadamente iguais baseados principalmente na ordenação da variável x e no gráfico de dispersão Chamemos esses grupos de E de esquerda C de centro e D de direita Se n 3k cada grupo terá k pontos Se n 3k 1 colocamos k pontos nos grupos E e D e k 1 pontos no grupo C Finalmente se n 3k 2 colocamos k 1 pontos nos grupos E e D e k pontos no grupo C Para cada grupo obtemos um ponto resumo formado pela mediana dos xi e a mediana dos yi naquele grupo Denominemos esses pontos por xE yE xC yC xD yD Na Figura 1618 temos um exemplo com três grupos com k 3 em cada grupo Figura 1618 Reta resistente com três grupos Os estimadores de β e α são dados respectivamente por 1676 1677 A reta resistente ajustada é yi a0 b0xi i 1 n 1678 Os modelos robustos necessitam muitas vezes recorrer a processos interativos para obter estimadores mais eficientes Isso deve ser feito quando os resíduos não forem bem comportados Não abordaremos esse tópico neste livro Veja Hoaglin et al 1983 para mais informação Exemplo 1611 Voltemos aos dados do Exemplo 161 Como n 20 3 6 2 os grupos E C e D serão formados com 7 6 e 7 pontos respectivamente Observando a Figura 161 consideramos os grupos como seguem Grupo E i 2 1 4 3 5 8 6 Idade 20 20 20 20 25 25 25 Y 92 96 100 106 98 101 104 Grupo C i 7 12 10 11 9 14 Idade 25 30 30 30 30 35 Y 110 100 106 109 116 105 Grupo D i 16 13 15 18 17 20 19 Idade 35 35 35 40 40 40 40 Y 108 112 118 112 113 117 127 Os pontos resumidores são xE yE 20 100 xC yC 30 1075 xD yD 40 113 logo as estimativas dos coeficientes serão de modo que a reta resistente ajustada será que está representada na Figura 1619 justamente com a reta de MQ dada em 1618 Figura 1619 Reta de MQ e reta resistente para o Exemplo 1611 Na próxima seção daremos um exemplo em que as duas retas a de MQ e a resistente são bastante diferentes 168 Exemplos Computacionais Nesta seção vamos considerar dois exemplos um sobre a aplicação a dados reais do mercado de ações e outro aplicando regressão resistente a um conjunto de dados com um outlier Exemplo 1612 Retomemos o Exemplo 413 no qual consideramos as variáveis Y preço de ação da Telebrás e X índice da Bolsa de Valores de São Paulo cada uma com n 39 observações O gráfico de dispersão das duas variáveis está na Figura 1620 juntamente com a reta de mínimos quadrados O modelo ajustado é ŷi 557 093xi e no Quadro 161 temos a saída do programa Minitab Nesta encontramos a Estimativas dos coeficientes α e β juntamente com as estimativas dos desvios padrões respectivos 1085 e 00297 b Valores da estatística t para testar as hipóteses nulas de que os coeficientes são nulos denotados por T juntamente com o valorp P 0000 mostrando que devemos rejeitar essas hipóteses nulas c Uma tabela de análise de variância com o valor F 96944 com 1 e 37 gl e o valorp P 0000 d O valor de R2 963 que nos diz que o modelo ajustado explica a maior parte da variabilidade dos dados Figura 1620 Gráfico de dispersão das variáveis X e Y para o Exemplo 1612 e reta ajustada Quadro 161 Análise do Exemplo 1612 Minitab Regression Analysis The regression equation is Tel 557 0925 Ibv Predictor Coef StDev T P Constant 5570 1085 513 0000 Ibv 092491 002971 3114 0000 S 07614 R Sq 963 R Sq adj 962 Analysis of Variance Source DF SS MS F P Regression 1 56199 56199 96944 0000 Residual Error 37 2145 058 Total 38 58344 Na Figura 1621 temos gráficos que nos auxiliam a fazer um diagnóstico do modelo ajustado Na Figura 1621a temos o gráfico q q dos quantis dos resíduos contra os quantis da normal padrão para avaliar a normalidade dos resíduos Na Figura 1621b temos o gráfico dos resíduos contra a ordem das observações e na Figura 1621d o gráfico dos resíduos contra os valores ajustados Finalmente na Figura 1621c temos o histograma dos resíduos O que você pode dizer desses gráficos Figura 1621 Gráficos após o ajuste do modelo análise de resíduos Exemplo 1611 Minitab Exemplo 1613 Considere os dados da Tabela 168 provenientes da mensuração da velocidade do vento no aeroporto de Philadelphia EUA sempre a uma hora da manhã para os primeiros 15 dias de dezembro de 1974 Graedel e Kleiner 1985 Tabela 168 Velocidade do vento no aeroporto de Philadelphia t vt t vt 1 222 9 204 2 611 10 204 3 130 11 204 4 278 12 111 5 222 13 130 6 74 14 74 7 74 15 148 8 74 Observamos no diagrama de dispersão da Figura 1622 o valor atípico 611 destacado dos demais pontos A reta de MQ ajustada aos dados é ˆvt 30034 1454t t 1 2 15 1679 e é puxada por esse ponto Essa reta está representada por uma linha cheia na figura Para ajustar a reta resistente consideramos três conjuntos de cinco pontos É fácil ver que obtemos v t 2156 092t t 1 2 15 1680 também representada por uma linha tracejada na figura Figura 1622 Reta de MQ e resistente para os dados de velocidade do vento c Se você respondeu que o valor obtido em b não é razoável encontre uma explicação para o ocorrido Sugestão interprete a natureza das variáveis X e Y e o comportamento de Y para grandes valores de X 20 A análise do lucro anual de uma ação como função linear da sua cotação média anual forneceu os resultados abaixo com alguns campos em branco Preencha as lacunas e interprete os resultados ANOVA Fonte gl SQ QM F Regressão Resíduo 1209 Total 11 1766 Modelo Descrição Coef EP t valorp LI 95 LS 95 Intercepto 4900 2200 0055 134 Cotação 030 007 0003 045 21 Um jornal quer verificar a eficácia de seus anúncios na venda de carros usados A tabela abaixo mostra o número de anúncios publicados e o correspondente número de carros vendidos por seis companhias que usaram apenas esse jornal como veículo de propaganda Companhia A B C D E G Anúncios 74 45 48 36 27 16 Carros vendidos 139 108 98 76 62 57 Ajustandose a reta de regressão obtevese y 1516x 27844 e F 7017 Como você argumentaria com a companhia G para que ela aumentasse o número de anúncios aumentando a venda de carros 22 O custo de manutenção de tratores parece aumentar com a idade do trator Os seguintes dados foram obtidos X representa idade em anos e Y o custo por seis meses a Ajuste o modelo ŷ β0 β1x e teste a hipótese de interesse para o nível α 010 b Devemos procurar um modelo mais adequado c Determine uma previsão para o custo de manutenção para tratores com 5 anos de idade e obtenha um intervalo de confiança com γ 090 d Teste as hipóteses H0 β0 300 H1 β0 300 para o nível α 005 X Y 05 163 05 182 10 978 10 466 10 549 40 495 40 723 40 681 45 619 45 1049 45 1033 50 890 50 1522 50 1194 55 987 60 764 60 1373 23 Os dados abaixo referemse a outro experimento de Galton veja CM1 dentro da mesma investigação procurando estudar a relação entre o diâmetro em centésimos de polegada de ervilhaspais x e ervilhasfilhas y Analise a reta de regressão para os dados e interprete os coeficientes Diâmetros em 001 de polegadas de sementes de ervilhas Pais x 150 160 170 180 190 200 210 Filhos y 154 157 160 163 166 170 173 24 Um pesquisador deseja verificar se um instrumento para medir concentração de ácido lático no sangue está bem calibrado Para isso ele tomou 20 amostras de concentrações conhecidas e determinou a respectiva concentração por meio do instrumento Como uma análise de regressão poderia auxiliar o pesquisador Modele o problema acima especificando as variáveis independente e dependente e as hipóteses de interesse 25 Os dados abaixo correspondem a duas variáveis X e Y em que X concentração conhecida de ácido lático e Y concentração de ácido lático registrada pelo instrumento X Y 1 11 07 18 04 3 30 14 49 44 45 5 73 82 62 10 120 131 126 132 15 187 197 174 171 Ajuste o modelo ŷ β0 β1x e teste a hipótese H0 β1 1 contra a alternativa H1 β1 1 Tire conclusões com base no resultado desse teste 26 Sejam X volume de precipitação pluvial Y produção de trigo por alqueire a Você acha que um modelo do tipo Y α βx e seria adequado para essas variáveis Por quê b Caso esse modelo não seja adequado esboce um gráfico do tipo de relação que você esperaria existir entre X e Y 27 Num experimento foram aplicadas três doses diferentes de insulina em coelhos e foram observadas quedas na quantidade de açúcar no sangue variável Y depois de determinados períodos Nesse tipo de experimento é usual admitirse que a relação entre queda de açúcar e o logaritmo da dose da insulina é linear log da dose X 036 056 076 17 64 62 21 48 72 49 34 61 54 63 91 São dados Faça um estudo completo sobre o ajuste do modelo y β0 β1x ε a esses dados 28 A indústria farmacêutica MIMI vende um remédio para combater resfriado Após dois anos de operação ela coletou as seguintes informações trimestrais Trimestre Vendas 10000 Y Despesas cPropaganda X Temperatura Média do Trimestre Z 1 25 11 2 2 13 5 13 3 8 3 16 4 20 9 7 5 25 12 4 6 12 6 10 7 10 5 13 8 15 9 4 a Faça os gráficos x y e z y b Encontre as retas ŷ a bx e ŷ c dz c Qual das duas você acha estatisticamente mais adequada para prever as vendas Por quê d De acordo com a decisão acima qual a previsão de vendas para um trimestre em que a despesa de propaganda será 8 e a temperatura prevista 10 29 Para construir um modelo linear relacionando a quantidade de fertilizantes usada x e a produtividade obtida y com uma amostra de sete canteiros o pesquisador obteve as seguintes estatísticas x 400 y 60 sx 21602 sy 1384 e r 0922 a Encontre as estimativas do modelo ŷ βx b Construa a tabela ANOVA c Analise os resultados 30 Obtenha 1664 e os gráficos que seguem 31 Para o Exemplo 1610 obtenha a tabela ANOVA e os intervalos de confiança para α e β ajustando o modelo 1671 32 Ainda para o Exemplo 1610 obtenha o intervalo de confiança para α 33 Para o exemplo da reação ao estímulo a construa o IC para a média das pessoas com 28 anos de idade b construa o IP para uma futura pessoa de 28 anos de idade c compare e ressalte as diferenças dos dois resultados 34 Construa o gráfico das regiões de previsão da média e individual 1 α 095 para o modelo desenvolvido no Problema 3 e complementado no Problema 8 A que temperatura a potência média já poderia ser considerada como zero Compare com a resposta dada na questão d do Problema 3 35 Sejam Y despesa com viagem X duração da viagem em dias Para uma amostra com n 102 obtevese a Obter a reta ŷ βxi b Qual o significado prático de e β c Uma viagem irá durar sete dias Quanto o vendedor deve levar para que exista apenas uma chance em dez de lhe faltar dinheiro 1610 Complementos Metodológicos 1 Origem do Termo Regressão O uso do termo regressão devese a Francis Galton por volta de 1885 quando investigava relações entre características antropométricas de sucessivas gerações Uma de suas constatações era de que cada peculiaridade de um homem é transmitida aos seus descendentes mas em média numa intensidade menor Por exemplo embora pais com baixa estatura tendam a ter filhos também com baixa estatura estes têm altura média maior do que a altura média de seus pais O mesmo ocorre mas em direção contrária com pais com estatura alta Essa afirmação pode ser mais bem compreendida observandose os dados usados por Galton e representados parcialmente na Figura 1623 Se as características permanecessem as mesmas de geração para geração esperarseia que a reta de regressão tivesse seu coeficiente angular próximo de 1 Em sua análise Galton encontrou o valor 0516 mostrando que a reta tende para aquela paralela ao eixo x e passando pela média y y A esse fenômeno de a altura dos filhos moverse em direção à altura média de todos os homens ele chamou de regressão e às vezes de reversão tendo aparecido num artigo de 1885 no Journal of the Anthropological Institute com o título Regression Towards Mediocrity in Hereditary Stature Regressão para a Mediocridade em Estaturas Hereditárias mediocridade aqui referindose a média Figura 1623 Média da altura de filhos contra altura composta dos pais baseada no estudo de Galton 2 Vamos provar que o coeficiente angular β da Fórmula 1614 pode ser escrita como De 1614 temos Mas De modo análogo Definindose e a demonstração está completa 3 Vamos provar 1630 ou seja De 1629 yi y yi ŷi ŷi y êi ŷi y e elevando ao quadrado ambos os membros e somandoos obtemos Mas como ŷi y βxi x e e ˆi yi y βxi x teremos Usando a expressão de β do Problema 30 obtemos o que demonstra a expressão 4 Mostremos que ES2 e σ2 e Vamos decompor a demonstração em três partes a Vejamos quanto vale ESQTot Temos Yi α βxi ei i 1 2 n ei N0 σ2e Somando as n parcelas em cada membro e dividindo por n obtemos Y α βx e e N 0 σ2en e ainda Calculando a esperança teremos Mas pois é equivalente à variância de uma amostra aleatória simples de tamanho n retirada da população N0 σ2 e e já vimos que essa é a expressão de um estimador não viesado da variância σ2 e Então b Vamos calcular agora ESQReg De 1633 e de 1637 Mas da definição de variância sabemos que Varβ Eβ2 E2β Eβ2 β2 pois Eβ β Combinando estas expressões teremos Explicitamente c Finalmente como a partir de que podemos escrever ou seja REFERÊNCIAS Livros básicos BLACKWELL D Estatística básica São Paulo Editora McGrawHill 1973 BUSSAB W O Análise de variância e de regressão São Paulo Atual 1986 FELLER W An introduction to probability theory and its applications v I 2 ed Nova York Wiley 1964 HAMMERSLEY J M HANDSCOMB D C Monte Carlo methods Nova York Wiley 1964 MORETTIN P A HAZZAN S BUSSAB W O Cálculo funções de uma e várias variáveis 3 ed São Paulo Editora Saraiva 2016 HELENE O A M VANIN V R Tratamento estatístico de dados 2 ed São Paulo Editora Edgard Blücher 1991 MEYER P L Introductory probability and statistical applications Reading AddisonWesley 1965 MORETTIN P A Introdução à estatística para ciências exatas São Paulo Atual 1981 MURTEIRA B J Análise exploratória de dados Lisboa McGraw Hill 1993 SOBOL I M Método de Monte Carlo Moscou Editorial MIR 1976 STUART A The ideas of sampling Nova York MacMillan Publishing Company 1984 TUKEY J W Exploratory data analysis Reading AddisonWesley 1977 Livros mais avançados BUSSAB W O BOLFARINE H Elementos de amostragem São Paulo Editora E Blücher 2005 CHAMBERS J M CLEVELAND W S KLEINER B TUKEY P A Graphical methods for data analysis Nova York Chapman and Hall 1983 CONOVER W J Pratical nonparameric statistics Nova York Wiley 1971 DAVISON A C HINKLEY D V Bootstrap methods and their application Cambridge University Press 1997 DIXON W J MASSEY F J Introduction to statistical analysis 2 ed Nova York McGrawHill 1957 DRAPER N R SMITH H Applied regression analysis 3 ed Nova York Wiley 1998 EFROM B TIBSHIRANI R J An introduction to the bootstrap Nova York Chapman and Hall 1993 FISHER R A The design of experiments Edimburgo Oliver and Boyd 1935 Statistical methods for research workers 12 ed Nova York Hafner 1954 HOAGLIN D C MOSTELLER F TUKEY J W Understanding robust and exploratory data analysis Nova York Wiley 1983 KLEIJNEN J VAN GROENENDAAL W Simulation a statistical perspective Chichester John Wiley and Sons 1994 LEHMANN E L Nonparametrics statistical methods based on ranks São Francisco HoldenDay 1975 MORETTIN P A TOLOI C M C Análise de séries temporais 2 ed São Paulo Editora Edgard Blücher 2006 OHAGAN A Bayesian inference Londres Edward Arnold 1994 PERES C A SALDIVA C D Planejamento de experimentos São Paulo 5º SINAPE 1982 ROSS C A Simulation 2 ed Nova York Academic Press 1997 Artigos de interesse BOX G E P MÜLLER M E A note on the generation of random normal deviates Annals of Statistics 29 p 610611 1958 EFRON B Bootstrap methods another look at the jackknife Annals of Statistics 7 p 126 1979 EFRON B GOUS A Bayesian and frequentist model selection TR n 193 Division of Biostatistics Stanford University 1997 FREEDMAN D DIACONIS P On the maximum deviation between the histogram and the underling density Zeitschrift für wahrscheinlichkeits theorie und Verwandte Gebiete 58 p 139167 GRAEDEL T E KLEINER B Exploratory analysis of atmospheric data Probability Statistics and Decision Making in the Atmospheric Sciences A H Murphy and R W Katz Editors p 143 Boulder Westview Press 1985 Metropolis N ULAM S The Monte Carlo method Journal of The American Statistical Association 44 p 335341 1949 NEYMAN J Probabilidade e Estatística Frequentista Rio de Janeiro IMPACNPq 1978 SALDIVA P H N LICHTENFELS A J F C PAIVA P S O BARONE I A MARTINS M A MASSAD E PEREIRA J C R XAVIER V P SINGER J M BÖHM G M Association between air pollution and mortality due to respiratory diseases in children in São Paulo a preliminary report Environmental Research 65 p 218226 1994 SINGER J M ANDRADE D F Regression models for the analysis of pretest data Biometrics 53 p 729735 1997 VON NEUMANN J Various techniques used in connection with random digits Monte Carlo Method U S National Bureau of Standards Applied Mathematical Series 12 p 3638 1951 Tabelas HARTER H L OWEN D B Selected tables in mathematical statistics Volume 1 Chicago Markham 1970 MILLER L H Table of percentage points of Kolmogorov statistics Journal of the American Statistical Association 51 p 11121 1956 PEREIRA J S C BUSSAB W O Tábuas de estatística e matemática São Paulo Brasiliense 1974 CONJUNTOS DE DADOS A seguir apresentamos vários conjuntos de dados que serão referenciados no texto pela sigla CD acompanhada de um nome identificador CDBrasil Dados sobre o Brasil CDMunicípios Populações de Municípios do Brasil CDNotas Notas em Estatística CDPoluição Dados de Poluição de São Paulo CDTemperaturas Temperaturas Médias Mensais CDSalários Salários para Quatro Profissões CDVeículos Estatísticas sobre Veículos CDPIB Produto Interno Bruto do Brasil CDMercado Preços de Ações da Telebrás e IBOVESPA CDPlaca Índices de Placa Bacteriana 1 Dados sobre o Brasil Dados de superfície em km2 população estimada e densidade habkm2 das unidades federativas UF do Brasil por região Fonte IBGE Contagem da População 2007 2 Populações de Municípios do Brasil Populações em 10000 habitantes dos 30 municípios mais populosos do Brasil Fonte IBGE Contagem da População 1996 3 Notas em Estatística Notas de 100 alunos do curso de Economia da FEAUSP em prova da disciplina Introdução à Probabilidade e à Estatística 1999 Fonte Autores 4 Dados de Poluição de São Paulo Dados de poluentes na cidade de São Paulo 1º jan a 30 abr 1991 CO monóxido de carbono ppm O3 ozônio ppb Temp temperatura C Umid umidade relativa do ar ao meio dia Fonte Saldiva et al 1994 5 Temperaturas Médias Mensais Temperaturas médias mensais em graus centígrados de janeiro de 1976 a dezembro de 1985 em Cananeia e Ubatuba São Paulo Fonte Boletim Climatológico nº 6 1989 IOUSP 6 Salários Salários em 1979 em francos suíços para quatro profissões em 30 cidades de diferentes países Fonte Prices and Salaries Around The World 19791980 União dos Bancos Suíços Zurique 7 Estatísticas sobre Veículos Dados sobre 30 veículos novos nacionais N e importados I em março de 1999 Preço em dólares comprimento em metros e motor em CV Fonte Folha de S Paulo 14 mar 1999 8 Produto Interno Bruto do Brasil Dados anuais do PIB de 1861 a 1986 índices relativos a 1949 9 Mercado Preços de fechamento de ações da Telebrás multiplicados por 1000 e índice diário da Bolsa de Valores de São Paulo dividido por 100 de 1º de janeiro de 1995 a 29 de junho de 1995 Fonte Bolsa de Valores de São Paulo 10 Índices de Placa Bacteriana Medidas de um índice de placa bacteriana obtidas de 26 crianças em idade préescolar antes e depois do uso de uma escova experimental e de uma escova convencional TABELAS As tabelas a seguir são em geral autoexplicativas mas o uso de cada uma está explicado no texto O Manual Explicativo de Pereira e Bussab 1974 pode ser consultado para mais explicações 1 As Tabelas I a VII são reproduzidas de Pereira e Bussab 1974 com permissão da Editora e autores 2 A Tabela VIII foi elaborada usando o SPlus e baseada em Lehmann 1975 3 As Tabelas IX e X são adaptadas de Pereira e Bussab 1974 com permissão da Editora e autores RESPOSTAS Capítulo 2 1 a razão e razão b ordinal f nominal c razão g intervalar d intervalar 3 População em mil habitantes Número de habitantes ni fi Menos de 1000 3 01111 1000 a 5000 12 04444 5000 10000 6 02222 100000 a 20000 5 01852 Mais de 20000 1 00371 Densidade populacional Densidade habkm2 ni fi Menos de 10 9 03333 10 a 30 5 01852 30 a 50 4 01481 50 a 100 6 02222 Mais de 100 3 01111 Total 27 10000 6 a Histograma b Gráfico de dispersão unidimensional 8 Histograma Ramoefolhas Decimal point is 1 place to the right of the colon 4 6 5 0046 6 234778 7 35 8 045 9 2 10 22 11 69 12 13 06 14 15 2 16 17 18 8 19 20 1 21 1 22 5 Valores maiores 5569 9988 Gráfico de dispersão unidimensional Gráfico de dispersão unidimensional 15 Ramoefolhas para a variável CO 4 77 5 12 5 55677789 6 1111122222222233333444444 6 5666677777899999999 7 00122233444 7 5566777778888899999999 8 012334 8 55678999 9 0114 9 557 10 1333 10 8 11 469 12 05 Capítulo 3 1 a 066 b 05 c 08393 e 330 2 6 a 2 b 2 c supondose o valor 6 para mais que 5 8 dq 9 di 14 ds 14 aproximadamente normal 9 q01 135 q09 790 11 Distribuição assimétrica à direita Desenho esquemático box plot dos salários dos funcionários da Companhia Milsa 16 a Histograma das vendas semanais de vendedores de gêneros alimentícios b c s 662 d 94 e md 525 17 a q01 924 b q02 1021 c q1 1057 q2 1358 q3 2086 19 b c q1 2 q2 325 d Média dobra e variância multiplicada por 4 e Média e mediana aumentadas de 2 variância não se altera 21 a Receber menos do que 5000 b empresa B 23 c média 175 md 16 10 EX15 EY2 VarX 075 VarY05 11 EV 1 q VarV q1 q 13 Y toma valores 0 50000 100000 com probabilidades 126150 23150 e 1150 respectivamente EY 833333 15 A partir do problema 11 temse Gráfico para q 04 17 ET 46 EG 275 VarG 04125 20 1 X b5 13 2 não é binomial ensaios não independentes 3 X será binomial se a proporção de bolas brancas for a mesma em todas as urnas 4 X será binomial se a proporção de pessoas com opinião contrária for a mesma nas dez cidades 5 X será binomial se a probabilidade de obter peça defeituosa for a mesma para todas as máquinas 22 a 02834 c 02792 b 05925 24 binomial 03758 Poisson 04060 26 O gráfico da distribuição de X px é O gráfico da fda de X Fx é
Send your question to AI and receive an answer instantly
Recommended for you
5
Prova de Introdução à Probabilidade e Estatística - 2022.2
Inferência Estatística 1
UFABC
4
Plano de Ensino da Disciplina Introdução à Inferência Estatística - Quadrimestre 2 de 2022
Inferência Estatística 1
UFABC
5
Prova de Introdução à Probabilidade e à Estatística - Teste 2
Inferência Estatística 1
UFABC
5
Indicações de Solução ao Teste 4 IIE 2022
Inferência Estatística 1
UFABC
7
Indicações de Solução ao Teste de Hipóteses sobre Pneus
Inferência Estatística 1
UFABC
1
Teste de Hipotese para Media Populacional - IC-mu e Sigma Quadrado
Inferência Estatística 1
UFABC
1
Guia de Estudos - AP2: Exercícios dos Capítulos 11 a 13
Inferência Estatística 1
IBMEC
Preview text
ESTATÍSTICA BÁSICA 9ª Edição WILTON DE O BUSSAB PEDRO A MORETTIN Pedro A Morettin Wilton de O Bussab ESTATÍSTICA BÁSICA 9ª edição Av das Nações Unidas 7221 1º Andar Setor B Pinheiros São Paulo SP CEP 05425902 SAC 08000117875 De 2ª a 6ª das 8h às 18h wwweditorasaraivacombrcontato Presidente Eduardo Mufarej Vicepresidente Claudio Lensing Diretora editorial Flávia Alves Bravin Planejamento editorial Rita de Cássia S Puoço Aquisições Fernando Alves Julia DAllevo Editores Ana Laura Valerio Ligia Maria Marques Thiago Fraga Produtoras editoriais Alline Garcia Bullara Amanda M Loyola Daniela Nogueira Secondo Suporte editorial Juliana Bojczuk Fermino Arte e produção ERJ Composição Editorial Capa Weber Amendola Impressão e acabamento xxx 351645009001 ISBN 9788547220235 CIPBRASIL Catalogação na fonte Sindicato Nacional dos Editores de Livros RJ M843e 9 ed Morettin Pedro Alberto 1942 Estatística básica Pedro A Morettin Wilton O Bussab 9 ed São Paulo Saraiva 2017 ISBN 9788547220235 1 Econometria 2 Estatística 3 Estatística matemática Problemas questões exercícios I Bussab Wilton de Oliveira 1940 II Título CDD 330028 CDU 33043 Copyright Wilton de O Bussab e Pedro A Morettin 2017 Saraiva Educação Todos os direitos reservados 9ª edição Nenhuma parte desta publicação poderá ser reproduzida por qualquer meio ou forma sem a prévia autorização da Saraiva Educação A violação dos direitos autorais é crime estabelecido na lei nº 961098 e punido pelo artigo 184 do Código Penal EDITAR 16262 CL 651354 CAE 621397 Para Célia e Ligia A vida é complicada mas não desinteressante Jersy Neyman PREFÁCIO À NONA EDIÇÃO Nesta Nona Edição atendendo a pedidos de leitores incluímos a utilização de pacotes do Repositórios livre R Mas continuamos a usar em alguns exemplos os pacotes SPlus e Minitab Para não aumentar muito o tamanho do livro a maneira encontrada foi colocar uma pequena introdução ao R dados e os scripts para reproduzirem os exemplos do livro na página wwwimeuspbrpamEstBashtml O leitor também poderá ver os exemplos completos scripts gráficos etc na página rpubscomEstatBasica Além disso os problemas suplementares de cada capítulo foram separados dos complementos metodológicos Correções foram feitas em diversos pontos Quero agradecer de modo especial a Kim Samejima pela colaboração na preparação da página relativa ao R Os depoimentos de colegas sobre o papel do Wilton no desenvolvimento da Estatística do Brasil agora encontramse também na página do livro São Paulo junho de 2017 Pedro A Morettin PREFÁCIO À OITAVA EDIÇÃO Essa edição difere da anterior em dois aspectos O primeiro capítulo foi reescrito e alguns novos problemas foram acrescentados Além disso procuramos corrigir erros presentes na edição anterior Agradecemos a diversos colegas e alunos que apontaram erros e fizeram comentários sobre o livro São Paulo junho de 2013 Pedro A Morettin PREFÁCIO À SÉTIMA EDIÇÃO Nesta Sétima Edição fizemos diversas correções no texto acrescentamos novos problemas e algumas seções foram reescritas Mais do que tudo essa nova edição é uma homenagem ao Professor Wilton de Oliveira Bussab que nos deixou prematuramente em maio desse ano Apresentamos a seguir diversos depoimentos de colegas sobre o papel fundamental que Wilton teve no desenvolvimento da Estatística no Brasil De minha parte perdi um amigo de mais de quarenta anos As vidas de sua família amigos colegas e alunos não serão mais as mesmas Será mais difícil atualizar esse livro fruto de uma colaboração estreita durante tantos anos Wilton sempre foi a parte pé no chão dessa parceria dada a sua grande experiência e vivência de problemas reais Com sua partida perderei eu perderão os leitores Mas a vida continua e seu legado será lembrado por todos que tiveram o privilégio de com ele conviver São Paulo julho de 2011 Pedro A Morettin PREFÁCIO À SEXTA EDIÇÃO Nesta edição atendemos à solicitação de leitores que sugeriram modificações em alguns tópicos considerados difíceis Por exemplo o tópico sobre quantis empíricos agora traz o cálculo utilizando o histograma deixando a definição mais geral para a seção de Problemas e Complementos Inúmeras correções foram feitas na edição anterior à medida que as sucessivas tiragens foram editadas Nesta sexta edição outros erros foram corrigidos mas sabemos que diversos persistirão Agradecemos aos diversos leitores que nos enviaram correções e sugestões Acrescentamos problemas a diversas seções do livro e substituímos o conjunto de dados sobre o Brasil CDBrasil com informações atualizadas da Contagem da População 2007 feita pelo IBGE Os dados também estão disponíveis na página httpwwwimeuspbrpam Os Autores PREFÁCIO À QUINTA EDIÇÃO Esta edição é uma revisão substancial da edição anterior deste livro Cinco novos capítulos foram adicionados e os demais foram revisados e atualizados Cremos que este texto com a escolha adequada dos tópicos possa ser utilizado por alunos de diversas áreas do conhecimento O Site do Professor disponível na Internet httpwwweditorasaraivacombr fornece uma discussão mais longa sobre roteiros apropriados para cursos de diferentes níveis Com essa filosofia em mente procuramos incluir no texto uma quantidade de informação substancial em cada capítulo Obviamente caberá ao professor escolher o material apropriado para cada curso desenvolvido O livro é dividido em três partes A primeira trata da análise de dados unidimensionais e bidimensionais com atenção especial a métodos gráficos Pensamos que a leitura dessa parte é essencial para o bom entendimento das demais Recomendamos que o aluno trabalhe com dados reais embora isso não seja uma necessidade essencial pois normalmente um primeiro curso de estatística é dado no início do programa do aluno que não possui ainda um conhecimento sólido dos problemas de sua área A segunda parte trata dos conceitos básicos de probabilidades e variáveis aleatórias Finalmente na terceira parte estudamos os tópicos principais da inferência estatística além de alguns temas especiais como regressão linear simples Um capítulo sobre noções de simulação foi adicionado pois tais noções são hoje fundamentais em muitas áreas O uso de algum pacote computacional é fortemente recomendado para a prática dos conceitos desenvolvidos Apresentamos exemplos de aplicações utilizando alguns desses pacotes Minitab Excel e SPlus Mas evidentemente outros pacotes poderão ser usados No final do livro apresentamos vários conjuntos de dados que poderão ser utilizados pelos alunos Esses dados também estão disponíveis nas seguintes páginas da Internet httpwwwimeuspbrpam httpwwweditorasaraivacombr Finalmente agradecemos a todos aqueles que enviarem sugestões e comentários com a finalidade de melhorar a presente edição Para tanto além do correio normal os leitores poderão usar o Sac da editora Saraiva Os Autores SUMÁRIO Capítulo 1 Preliminares 11 Introdução 12 Modelos 13 Aspectos Computacionais 131 O Repositório R 14 Métodos Gráficos 15 Conjuntos de Dados 16 Plano do Livro Parte I Análise Exploratória de Dados Capítulo 2 Resumo de Dados 21 Tipos de Variáveis 22 Distribuições de Frequências 23 Gráficos 231 Gráficos para Variáveis Qualitativas 232 Gráficos para Variáveis Quantitativas 24 RamoeFolhas 25 Exemplos Computacionais 26 Problemas Suplementares 27 Complementos Metodológicos Capítulo 3 MedidasResumo 31 Medidas de Posição 32 Medidas de Dispersão 33 Quantis Empíricos 34 Box Plots 35 Gráficos de Simetria 36 Transformações 37 Exemplos Computacionais 38 Problemas Suplementares 39 Complementos Metodológicos Capítulo 4 Análise Bidimensional 41 Introdução 42 Variáveis Qualitativas 43 Associação entre Variáveis Qualitativas 44 Medidas de Associação entre Variáveis Qualitativas 45 Associação entre Variáveis Quantitativas 46 Associação entre Variáveis Qualitativas e Quantitativas 47 Gráficos q q 48 Exemplos Computacionais 49 Problemas Suplementares 410 Complemento Metodológico Parte II Probabilidades Capítulo 5 Probabilidades 51 Introdução 52 Algumas Propriedades 53 Probabilidade Condicional e Independência 54 O Teorema de Bayes 55 Probabilidades Subjetivas 56 Problemas Suplementares Capítulo 6 Variáveis Aleatórias Discretas 61 Introdução 62 O Conceito de Variável Aleatória Discreta 63 Valor Médio de uma Variável Aleatória 64 Algumas Propriedades do Valor Médio 65 Função de Distribuição Acumulada 66 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas 661 Distribuição Uniforme Discreta 662 Distribuição de Bernoulli 663 Distribuição Binomial 664 Distribuição Hipergeométrica 665 Distribuição de Poisson 67 O Processo de Poisson 68 Quantis 69 Exemplos Computacionais 610 Problemas Suplementares 611 Complementos Metodológicos Capítulo 7 Variáveis Aleatórias Contínuas 71 Introdução 72 Valor Médio de uma Variável Aleatória Contínua 73 Função de Distribuição Acumulada 74 Alguns Modelos Probabilísticos para Variáveis Aleatórias Contínuas 741 O Modelo Uniforme 742 O Modelo Normal 743 O Modelo Exponencial 75 Aproximação Normal à Binomial 76 Funções de Variáveis Contínuas 77 Outros Modelos Importantes 771 A Distribuição Gama 772 A Distribuição QuiQuadrado 773 A Distribuição t de Student 774 A Distribuição F de Snedecor 78 Quantis 79 Exemplos Computacionais 710 Problemas Suplementares 711 Complementos Metodológicos Capítulo 8 Variáveis Aleatórias Multidimensionais 81 Distribuição Conjunta 82 Distribuições Marginais e Condicionais 83 Funções de Variáveis Aleatórias 84 Covariância entre Duas Variáveis Aleatórias 85 Variáveis Contínuas 86 Distribuições Condicionais Contínuas 87 Funções de Variáveis Contínuas 88 Distribuição Normal Bidimensional 89 Problemas Suplementares 810 Complementos Metodológicos Capítulo 9 Noções de Simulação 91 Introdução 92 Simulação de Variáveis Aleatórias 93 Simulação de Alguns Modelos 94 Exemplos Computacionais 95 Problemas Suplementares 96 Complementos Metodológicos Parte III Inferência Estatística Capítulo 10 Introdução à Inferência Estatística 101 Introdução 102 População e Amostra 103 Problemas de Inferência 104 Como Selecionar uma Amostra 105 Amostragem Aleatória Simples 106 Estatísticas e Parâmetros 107 Distribuições Amostrais 108 Distribuição Amostral da Média 109 Distribuição Amostral de uma Proporção 1010 Outras Distribuições Amostrais 1011 Determinação do Tamanho de uma Amostra 1012 Exemplos Computacionais 1013 Problemas Suplementares 1014 Complementos Metodológicos Capítulo 11 Estimação 111 Primeiras Ideias 112 Propriedades de Estimadores 113 Estimadores de Momentos 114 Estimadores de Mínimos Quadrados 115 Estimadores de Máxima Verossimilhança 116 Intervalos de Confiança 117 Erro Padrão de um Estimador 118 Inferência Bayesiana 119 Exemplos Computacionais 1191 Simulando Erros Padrões 1110 Problemas Suplementares 1111 Complementos Metodológicos Capítulo 12 Testes de Hipóteses 121 Introdução 122 Um Exemplo 123 Procedimento Geral do Teste de Hipóteses 124 Passos para a Construção de um Teste de Hipóteses 125 Testes sobre a Média de uma População com Variância Conhecida 126 Teste para Proporção 127 Poder de um Teste 128 Valorp 129 Teste para a Variância de uma Normal 1210 Teste sobre a Média de uma Normal com Variância Desconhecida 1211 Problemas Suplementares 1212 Complementos Metodológicos Capítulo 13 Inferência para Duas Populações 131 Introdução 132 Comparação das Variâncias de Duas Populações Normais 133 Comparação de Duas Populações Amostras Independentes 1331 Populações Normais 1332 Populações Não Normais 134 Comparação de Duas Populações Amostras Dependentes 1341 População Normal 1342 População Não Normal 135 Comparação de Proporções em Duas Populações 136 Exemplo Computacional 137 Problemas Suplementares Capítulo 14 Análise de Aderência e Associação 141 Introdução 142 Testes de Aderência 143 Testes de Homogeneidade 144 Testes de Independência 145 Teste Para o Coeficiente de Correlação 146 Outro Teste de Aderência 147 Problemas Suplementares 148 Complementos Metodológicos Capítulo 15 Inferência para Várias Populações 151 Introdução 152 Modelo para Duas Subpopulações 1521 Suposições 1522 Estimação do Modelo 1523 Intervalos de Confiança 1524 Tabela de Análise de Variância 153 Modelo para Mais de Duas Subpopulações 154 Comparações entre as Médias 155 Teste de Homoscedasticidade 156 Exemplo Computacional 157 Problemas Suplementares 158 Complementos Metodológicos Capítulo 16 Regressão Linear Simples 161 Introdução 162 Estimação dos Parâmetros 163 Avaliação do Modelo 1631 Estimador de σ2 e 1632 Decomposição da Soma de Quadrados 1633 Tabela de Análise de Variância 164 Propriedades dos Estimadores 1641 Média e Variância dos Estimadores 1642 Distribuições Amostrais dos Estimadores dos Parâmetros 1643 Intervalos de Confiança para α e β 1644 Intervalo de Confiança para µz e Intervalo de Predição 165 Análise de Resíduos 166 Alguns Modelos Especiais 1661 Reta Passando pela Origem 1662 Modelos Não Lineares 167 Regressão Resistente 168 Exemplos Computacionais 169 Problemas Suplementares 1610 Complementos Metodológicos Referências Conjunto de dados Tabelas Respostas Capítulo 1 Preliminares 11 Introdução Em alguma fase de seu trabalho o pesquisador deparase com o problema de analisar e entender um conjunto de dados relevante ao seu particular objeto de estudos Ele necessitará trabalhar os dados para transformálos em informações para comparálos com outros resultados ou ainda para julgar sua adequação a alguma teoria De modo bem geral podemos dizer que a essência da Ciência é a observação e que seu objetivo básico é a inferência A inferência estatística é uma das partes da Estatística Esta por sua vez é a parte da metodologia da Ciência que tem por objetivo a coleta redução análise e modelagem dos dados a partir do que finalmente fazse a inferência para uma população da qual os dados a amostra foram obtidos Um aspecto importante da modelagem dos dados é fazer previsões a partir das quais se pode tomar decisões Os cientistas usam o chamado Método Científico para testar suas teorias ou hipóteses Podemos resumir o método nos seguintes passos i O cientista formula uma questão problema ou teoria Ele pode querer também testar alguma hipótese ii Para responder a essas questões ele coleta informação que seja relevante Para isso ele pode planejar algum experimento Em determinadas áreas Astronomia por exemplo o planejamento de experimentos não é possível ou factível o que se pode fazer é observar algum fenômeno ou variáveis de interesse iii Os resultados do passo ii são usados para obter conclusões mesmo que não definitivas iv Se for necessário repita os passos ii e iii ou mesmo reformule suas hipóteses Um estatístico pode ajudar no passo i e certamente pode ser indispensável nos passos ii e iii Vamos considerar um exemplo para ilustrar o método Exemplo 11 i Em Economia sabese desde Keynes que o gasto com o consumo de pessoas vamos indicar essa variável por C é uma função da renda pessoal disponível indicada por Y Ou seja podemos escrever formalmente C fY para alguma função f ii Para investigar com é essa relação entre C e Y para uma comunidade específica um economista colhe dados dessas variáveis para um conjunto de indivíduos I I1 I2 In obtendo a amostra Y1 C1 Yn Cn Esse é um exemplo em que o experimento consiste em planejar a obtenção de uma amostra de modo adequado representando assim a comunidade população iii Um gráfico de dispersão veja o Capítulo 4 entre Yi e Ci i 1 2 n como o da Figura 11 permite estabelecer um modelo veja a seção seguinte tentativo para a variável C como função da variável Y Figura 11 Relação entre rendimento e consumo de 20 indivíduos Suponha que seja razoável postular o modelo Ci α bYi ei i 1 2 n 11 Nesse modelo Yi Ci i 1 n são variáveis observadas enquanto ei i 1 n são variáveis não observadas O parâmetro α é denominado consumo autônomo fazendose Y 0 na Equação 11 e β é a propensão marginal a consumir Na Figura 11 temos representados os rendimentos e gastos de consumo de n 20 indivíduos Na reta que aparece na figura os coeficientes foram obtidos usando métodos dos Capítulos 11 e 16 Nesse caso obtemos α 148 e β 071 aproximadamente Veremos mais a frente que poderemos fazer suposições sobre os erros ei por exemplo que tenham média zero Nem sempre um modelo linear da forma 11 é adequado como mostra o exemplo a seguir Exemplo 12 O interesse aqui é a relação entre renda e idade para n 256 mulheres brasileiras com mestrado e doutorado dados da PNAD 2004 IBGE Na Figura 12 temos os dados e uma função estimada da forma R fI onde R indica a renda e I a idade Nesse caso uma função paramétrica como aquela em 11 pode não ser adequada e temos que usar métodos não paramétricos para estimar a forma de f Observamos um valor atípico perto de 48 anos de idade Uma queda da renda é observada entre as idades 35 e 40 anos talvez explicada pelo efeito de geração Usualmente uma função paramétrica quadrática é utilizada em problemas como esse que não explicariam essa queda Figura 12 Relação entre Renda e Idade para mulheres brasileiras Na primeira parte deste livro estaremos interessados na redução análise e interpretação dos dados sob consideração adotando um enfoque que chamaremos de Análise Exploratória de Dados AED Nesta abordagem tentaremos obter dos dados a maior quantidade possível de informação que indique modelos plausíveis a serem utilizados em uma fase posterior a análise confirmatória de dados ou inferência estatística Tradicionalmente uma análise descritiva de dados limitase a calcular algumas medidas de posição e variabilidade como a média e variância por exemplo Contrária a esta tendência uma corrente mais moderna liderada por Tukey 1977 utiliza principalmente técnicas gráficas em oposição a resumos numéricos Isto não significa que sumários não devam ser obtidos mas uma análise exploratória de dados não deve se limitar a calcular tais medidas 12 Modelos Fundamentalmente quando se procede a uma análise de dados buscase alguma forma de regularidade ou padrão ou ainda modelo presente nas observações Exemplo 11 continuação O que se espera intuitivamente no caso em questão é que os gastos de um indivíduo estejam diretamente relacionados com os seus rendimentos de modo que é razoável supor uma relação linear entre essas duas quantidades Os pontos da Figura 11 não estão todos evidentemente sobre uma reta essa seria o nosso padrão ou modelo A diferença entre os dados e o modelo constitui os resíduos Veja a Figura 13 Podemos então escrever de modo esquemático DADOS MODELO RESÍDUOS ou ainda D M R 12 A parte M é também chamada parte suave ou regular ou ainda previsível dos dados enquanto R é a parte aleatória A parte R é tão importante quanto M e a análise dos resíduos constitui uma parte fundamental de todo trabalho estatístico Basicamente são os resíduos que nos dizem se o modelo é adequado ou não para representar os dados De modo coloquial o que se deseja é que a parte R não contenha nenhuma suavidade caso contrário mais suavização é necessária Uma análise exploratória de dados busca essencialmente fornecer informações para estabelecer 12 Figura 13 Relação entre dado modelo e resíduo 13 Aspectos Computacionais O desenvolvimento rápido e constante na área de computação foi acompanhado pela introdução de novas técnicas de análise de dados notadamente de métodos gráficos e de métodos chamados de computação intensiva como o método bootstrap que será tratado brevemente neste livro Para a implementação dessas técnicas pacotes estatísticos foram desenvolvidos e que atualmente são usados em larga escala tanto no meio acadêmico como em indústrias bancos órgãos de governo etc Esses pacotes podem ser genéricos ou específicos Os pacotes genéricos como o Minitab SPlus SPSS SAS etc são adequados para realizar uma gama variada de análises estatísticas Os pacotes específicos são planejados para realizar análises particulares de uma determinada área Por outro lado os pacotes podem exigir ou não uma maior experiência computacional dos usuários Alguns operam com menus e seu uso é mais simples Outros requerem maior familiaridade com o computador e são baseados em linguagens próprias Do ponto de vista de sistema operacional a maioria dos pacotes é programada para uso em microcomputadores que operam com o sistema Windows Todavia um número razoável de pacotes já tem versões para o sistema Linux Listamos na Tabela 11 alguns pacotes genéricos utilizados na área de Estatística Salientamos também que existem planilhas à venda no mercado que possuem opções para certas técnicas estatísticas Dentre essa planilhas mencionamos o Excel Tabela 11 Alguns pacotes estatísticos genéricos Pacote Fabricante Minitab Minitab Inc SAS SAS Institute Inc SPlus TIBCO Inc SPSS SPSS Inc Statgraphics Stat Graphics Inc MATLAB MathWorks 131 O Repositório R Neste livro usaremos preferencialmente programas do Repositório de Pacotes R que podem ser obtidos livremente do Compreensive R Archive Network CRAN no endereço httpcranrprojectorg Após instalar o R vá para o site wwwimeuspbrpamEstBashtml e obtenha os scripts usados para reproduzir os exemplos e os dados utilizados no livro Para uma breve introdução ao R siga o caminho indicado no Capítulo 1 Introdução Neste capítulo também estão relacionados os pacotes usados no livro packages ou libraries Para ver as soluções detalhadas dos exemplos consulte rpubscomEstatBasica 14 Métodos Gráficos Como dissemos na introdução os métodos gráficos têm encontrado um uso cada vez maior devido ao seu forte apelo visual Normalmente é mais fácil para qualquer pessoa entender a mensagem de um gráfico do que aquela embutida em tabelas ou sumários numéricos Os gráficos são utilizados para diversos fins Chambers et al 1983 a buscar padrões e relações b confirmar ou não certas expectativas que se tinha sobre os dados c descobrir novos fenômenos d confirmar ou não suposições feitas sobre os procedimentos estatísticos usados e apresentar resultados de modo mais rápido e fácil Podemos usar métodos gráficos para plotar os dados originais ou outros dados derivados deles Por exemplo a investigação da relação entre as variáveis da Figura 11 pode ser feita por meio daquele diagrama de dispersão Mas podemos também ajustar uma reta aos dados calcular o desvio resíduo para cada observação e fazer um novo gráfico de consumo contra resíduos para avaliar a qualidade do ajuste Com o progresso recente da computação gráfica e a existência de hardware e software adequados a utilização de métodos gráficos tornase rotineira na análise de dados Neste texto introduziremos gráficos para a visualização e resumo de dados no caso de uma ou duas variáveis principalmente Noções para o caso de três ou mais variáveis serão rapidamente abordadas Gráficos com o propósito de comparar duas distribuições também serão tratados 15 Conjuntos de Dados No final do livro aparecem alguns conjuntos de dados que serão utilizados nos exemplos ou nos exercícios propostos Aconselhamos os leitores a reproduzir os exemplos usando esses dados bem como resolver os problemas pois somente a efetiva manipulação de dados pode levar a um bom entendimento das técnicas apresentadas Os conjuntos de dados apresentados provêm de diferentes fontes que são mencionadas em cada conjunto e depois explicitadas nas referências Os leitores é claro poderão usar as técnicas apresentadas em seus próprios conjuntos de dados Alguns conjuntos de dados são parte de conjuntos maiores Todos esses dados podem ser obtidos no endereço httpwwwimeuspbrpamEstBashtml Usaremos um nome curto para identificar cada conjunto de dados Por exemplo o Conjunto de Dados 1 será designado simplesmente por CDBrasil o Conjunto de Dados 4 por CDPoluição etc 16 Plano do Livro Na primeira parte do livro trataremos nos Capítulos 2 a 4 de técnicas gráficas e numéricas que nos permitirão fazer uma primeira análise dos dados disponíveis No Capítulo 2 estudaremos como resumir os dados por meio de distribuições de frequências e como representálos graficamente por meio de gráficos em barras histogramas e ramoefolhas No Capítulo 3 veremos as principais medidas numéricas resumidoras de um conjunto de dados medidas de posição ou localização e medidas de dispersão ou de variabilidade A partir dessas medidas poderemos construir gráficos importantes como o gráfico de quantis e o box plot No Capítulo 4 trataremos do caso em que temos duas variáveis Estaremos interessados em verificar se existe alguma associação entre duas variáveis e como medila O caso de três variáveis será considerado brevemente Na segunda parte introduzimos os conceitos básicos sobre probabilidades e variáveis aleatórias A ideia é que a primeira parte sirva de motivação para construir os modelos probabilísticos da segunda parte No Capítulo 5 tratamos da noção de probabilidade suas propriedades probabilidade condicional e independência Também consideramos o teorema de Bayes e destacamos sua importância em problemas de inferência As variáveis aleatórias discretas são estudadas no Capítulo 6 e as contínuas no Capítulo 7 Em particular são introduzidos os principais modelos para variáveis aleatórias bem como métodos de simulação dessas variáveis O caso de duas variáveis aleatórias é considerado no Capítulo 8 No Capítulo 9 introduzimos noções básicas de simulação Esse assunto é muito importante notadamente quando se quer avaliar algum modelo construído para uma situação real A terceira parte trata da inferência estatística Nesta parte todos os conceitos aprendidos nas duas partes anteriores são imprescindíveis Os dois grandes problemas de inferência estimação e teste de hipóteses são estudados nos Capítulos 11 e 12 respectivamente após serem introduzidas no Capítulo 10 as noções básicas de amostragem e distribuições amostrais O caso de duas populações é considerado no Capítulo 13 e de várias populações no Capítulo 15 Basicamente são desenvolvidos testes para médias proporções e variâncias O Capítulo 14 trata dos chamados testes do quiquadrado para dados que aparecem sob a forma de tabelas de contingência Finalmente no Capítulo 16 estudamos com algum detalhe o modelo de regressão linear simples Em cada capítulo há sempre que possível exemplos computacionais Isso significa que algum conjunto de dados é analisado utilizandose o R ou alguns dos programas mencionados acima Em geral são problemas um pouco mais difíceis do que aqueles exemplificados ou então têm o caráter de ilustrar o uso de tais pacotes para simulações por exemplo Recomendamos que o leitor tente reproduzir esses exemplos para adquirir experiência na manipulação de dados e procura de eventuais modelos que possam representálos Parte I ANÁLISE EXPLORATÓRIA DE DADOS Capítulo 2 Resumo de Dados Capítulo 3 MedidasResumo Capítulo 4 Análise Bidimensional Capítulo 2 Resumo de Dados 21 Tipos de Variáveis Para ilustrar o que segue consideremos o seguinte exemplo Exemplo 21 Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia MB Usando informações obtidas do departamento de pessoal ele elaborou a Tabela 21 Essa tabela é chamada planilha de dados Planilhas usualmente na forma eletrônica são matrizes de dados construídas com o objetivo de permitir uma análise estatística Cada linha da matriz corresponde a uma unidade de investigação por exemplo unidade amostral e cada coluna a uma variável que corresponde à realização de uma característica A planilha em formato excel correspondendo à Tabela 21 está no Conjunto de Dados na página do livro Para importála utilizaremos qualquer um dos formatos TXT DAT ou CSV Desta forma o primeiro passo é construir um arquivo CSV ou alternativamente DAT ou TXT a partir da planilha excel da Tabela 21 salvandoa no formato CSV Após a construção do arquivo CSV procederemos no R com o comando readtable para importar os dados tab21readtable tabela21csv dec sep hT Podemos facilmente saber quais são as variáveis importadas por meio do comando names tab21 1 N estadocivil grauinstrucao nfilhos 5 salario idadeanos idademeses regprocedencia Para mais detalhes veja os comandos referentes ao Capítulo 2 na página do livro No exemplo em questão considerandose a característica variável estado civil para cada empregado podese associar uma das realizações solteiro ou casado note que poderia haver outras possibilidades como separado divorciado mas somente as duas mencionadas foram consideradas no estudo Podemos atribuir uma letra digamos X para representar tal variável Observamos que o pesquisador colheu informações sobre seis variáveis Variável Representação Estado civil X Grau de instrução Y Número de filhos Z Salário S Idade U Região de procedência V Algumas variáveis como sexo educação estado civil apresentam como possíveis realizações uma qualidade ou atributo do indivíduo pesquisado ao passo que outras como número de filhos salário idade apresentam como possíveis realizações números resultantes de uma contagem ou mensuração As variáveis do primeiro tipo são chamadas qualitativas e as do segundo tipo quantitativas Dentre as variáveis qualitativas ainda podemos fazer uma distinção entre dois tipos variável qualitativa nominal para a qual não existe nenhuma ordenação nas possíveis realizações e variável qualitativa ordinal para a qual existe uma ordem nos seus resultados A região de procedência do Exemplo 21 é um caso de variável nominal enquanto grau de instrução é um exemplo de variável ordinal pois ensinos fundamental médio e superior correspondem a uma ordenação baseada no número de anos de escolaridade completos A variável qualitativa classe social com as possíveis realizações alta média e baixa é outro exemplo de variável ordinal De modo análogo as variáveis quantitativas podem sofrer uma classificação dicotômica a variáveis quantitativas discretas cujos possíveis valores formam um conjunto finito ou enumerável de números e que resultam frequentemente de uma contagem como número de filhos 0 1 2 b variáveis quantitativas contínuas cujos possíveis valores pertencem a um intervalo de números reais e que resultam de uma mensuração como por exemplo estatura e peso melhor seria dizer massa de um indivíduo A Figura 21 esquematiza as classificações feitas acima Figura 21 Classificação de uma variável Para cada tipo de variável existem técnicas apropriadas para resumir as informações donde a vantagem de usar uma tipologia de identificação como a da Figura 21 Entretanto verificaremos que técnicas usadas num caso podem ser adaptadas para outros Para finalizar cabe uma observação sobre variáveis qualitativas Em algumas situações podemse atribuir valores numéricos às várias qualidades ou atributos ou ainda classes de uma variável qualitativa e depois procederse à análise como se esta fosse quantitativa desde que o procedimento seja passível de interpretação Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil a chamada variável dicotômica Para essa variável só podem ocorrer duas realizações usualmente chamadas sucesso e fracasso A variável estado civil no exemplo acima estaria nessa situação Esse tipo de variável aparecerá mais vezes nos próximos capítulos Tabela 21 Informações sobre estado civil grau de instrução número de filhos salário expresso como fração do salário mínimo idade medida em anos e meses e procedência de 36 empregados da seção de orçamentos da Companhia MB Nº Estado civil Grau de instrução Nº de filhos Salário sal mín Idade Região de procedência anos meses 1 solteiro ensino fundamental 400 26 03 interior 2 casado ensino fundamental 1 456 32 10 capital 3 casado ensino fundamental 2 525 36 05 capital 4 solteiro ensino médio 573 20 10 outra 5 solteiro ensino fundamental 626 40 07 outra 6 casado ensino fundamental 0 666 28 00 interior 7 solteiro ensino fundamental 686 41 00 interior 8 solteiro ensino fundamental 739 43 04 capital 9 casado ensino médio 1 759 34 10 capital 10 solteiro ensino médio 744 23 06 outra 11 casado ensino médio 2 812 33 06 interior 12 solteiro ensino fundamental 846 27 11 capital 13 solteiro ensino médio 874 37 05 outra 14 casado ensino fundamental 3 895 44 02 outra 15 casado ensino médio 0 913 30 05 interior 16 solteiro ensino médio 935 38 08 outra 17 casado ensino médio 1 977 31 07 capital 18 casado ensino fundamental 2 980 39 07 outra 19 solteiro superior 1053 25 08 interior 20 solteiro ensino médio 1076 37 04 interior 21 casado ensino médio 1 1106 30 09 outra 22 solteiro ensino médio 1159 34 02 capital 23 solteiro ensino fundamental 1200 41 00 outra 24 casado superior 0 1279 26 01 outra 25 casado ensino médio 2 1323 32 05 interior 26 casado ensino médio 2 1360 35 00 outra 27 solteiro ensino fundamental 1385 46 07 outra 28 casado ensino médio 0 1469 29 08 interior 29 casado ensino médio 5 1471 40 06 interior 30 casado ensino médio 2 1599 35 10 capital 31 solteiro superior 1622 31 05 outra 32 casado ensino médio 1 1661 36 04 interior 33 casado superior 3 1726 43 07 capital 34 solteiro superior 1875 33 07 capital 35 casado ensino médio 2 1940 48 11 capital 36 casado superior 3 2330 42 02 interior Fonte Dados hipotéticos 22 Distribuições de Frequências Quando se estuda uma variável o maior interesse do pesquisador é conhecer o comportamento dessa variável analisando a ocorrência de suas possíveis realizações Nesta seção veremos uma maneira de se dispor um conjunto de realizações para se ter uma ideia global sobre elas ou seja de sua distribuição Exemplo 22 A Tabela 22 apresenta a distribuição de frequências da variável grau de instrução usando os dados da Tabela 21 Tabela 22 Frequências e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB segundo o grau de instrução Grau de instrução Frequência ni Proporção fi Porcentagem 100 fi Fundamental 12 03333 3333 Médio 18 05000 5000 Superior 6 01667 1667 Total 36 10000 10000 Fonte Tabela 21 Observando os resultados da segunda coluna vêse que dos 36 empregados da companhia 12 têm o ensino fundamental 18 o ensino médio e 6 possuem curso superior Uma medida bastante útil na interpretação de tabelas de frequências é a proporção de cada realização em relação ao total Assim 636 01667 dos empregados da companhia MB seção de orçamentos têm instrução superior Na última coluna da Tabela 22 são apresentadas as porcentagens para cada realização da variável grau de instrução Usaremos a notação ni para indicar a frequência absoluta de cada classe ou categoria da variável e a notação fi nin para indicar a proporção ou frequência relativa de cada classe sendo n o número total de observações As proporções são muito úteis quando se quer comparar resultados de duas pesquisas distintas Por exemplo suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Companhia MB Digamos que a empresa tenha 2000 empregados e que a distribuição de frequências seja a da Tabela 23 Tabela 23 Frequências e porcentagens dos 2000 empregados da Companhia MB segundo o grau de instrução Grau de instrução Frequência ni Porcentagem 100 fi Fundamental 1650 3250 Médio 1020 5100 Superior 1330 1650 Total 2000 10000 Fonte Dados hipotéticos Não podemos comparar diretamente as colunas das frequências das Tabelas 22 e 23 pois os totais de empregados são diferentes nos dois casos Mas as colunas das porcentagens são comparáveis pois reduzimos as frequências a um mesmo total no caso 100 A construção de tabelas de frequências para variáveis contínuas necessita de certo cuidado Por exemplo a construção da tabela de frequências para a variável salário usando o mesmo procedimento acima não resumirá as 36 observações num grupo menor pois não existem observações iguais A solução empregada é agrupar os dados por faixas de salário Exemplo 23 A Tabela 24 dá a distribuição de frequências dos salários dos 36 empregados da seção de orçamentos da Companhia MB por faixa de salários Tabela 24 Frequências e porcentagens dos 36 empregados da seção de orçamentos da Companhia MB por faixa de salário Classe de salários Frequência ni Porcentagem 100 fi 400 800 10 2778 800 1200 12 3333 1200 1600 8 2222 1600 2000 5 1389 2000 2400 1 278 Total 36 10000 Fonte Tabela 21 Procedendose desse modo ao resumir os dados referentes a uma variável contínua perdese alguma informação Por exemplo não sabemos quais são os oito salários da classe de 12 a 16 a não ser que investiguemos a tabela original Tabela 21 Sem perda de muita precisão poderíamos supor que todos os oito salários daquela classe fossem iguais ao ponto médio da referida classe isto é 14 o leitor pode verificar qual o erro cometido comparandoos com os dados originais da Tabela 21 Voltaremos a este assunto no Capítulo 3 Note que estamos usando a notação a b para o intervalo de números contendo o extremo a mas não contendo o extremo b Podemos também usar a notação a b para designar o mesmo intervalo a b A escolha dos intervalos é arbitrária e a familiaridade do pesquisador com os dados é que lhe indicará quantas e quais classes intervalos devem ser usadas Entretanto devese observar que com um pequeno número de classes perdese informação e com um número grande de classes o objetivo de resumir os dados fica prejudicado Estes dois extremos têm a ver também com o grau de suavidade da representação gráfica dos dados a ser tratada a seguir baseada nestas tabelas Normalmente sugerese o uso de 5 a 15 classes com a mesma amplitude O caso de classes com amplitudes diferentes é tratado no Problema 10 Problemas 1 Escalas de medidas A seguir descrevemos outros possíveis critérios para classificar variáveis em função da escala adotada Observe a similaridade com a classificação apresentada anteriormente Nossas observações são resultados de medidas feitas sobre os elementos de uma população Existem quatro escalas de medidas que podem ser consideradas Escala nominal Nesta escala somente podemos afirmar que uma medida é diferente ou não de outra e ela é usada para categorizar indivíduos de uma população Um exemplo é o sexo de um indivíduo Para cada categoria associamos um numeral diferente letra ou número Por exemplo no caso do sexo podemos associar as letras M masculino e F feminino ou 1 masculino e 2 feminino Não podemos realizar operações aritméticas aqui e uma medida de posição apropriada é a moda As medidas citadas nesse problema como a média mediana e moda são definidas no Capítulo 3 Escala ordinal Aqui podemos dizer que uma medida é diferente e maior do que outra Temos a situação anterior mas as categorias são ordenadas e a ordem dos numerais associados ordena as categorias Por exemplo a classe socioeconômica de um indivíduo pode ser baixa 1 ou X média 2 ou Y e alta 3 ou Z Transformações que preservam a ordem não alteram a estrutura de uma escala ordinal No exemplo acima podemos representar as categorias por 1 10 e 100 ou A L e Z Medidas de posição apropriadas são a mediana e a moda Escala intervalar Nesta escala podemos afirmar que uma medida é igual ou diferente maior e quanto maior do que outra Podemos quantificar a diferença entre as categorias da escala ordinal Necessitamos de uma origem arbitrária e de uma unidade de medida Por exemplo considere a temperatura de um indivíduo na escala Fahrenheit A origem é 0º F e a unidade é 1º F Transformações que preservam a estrutura dessa escala são do tipo y ax b a 0 Por exemplo a transformação y 59 x 32 transforma graus Fahrenheit em centígrados Para essa escala podemos fazer operações aritméticas assim média mediana e moda são medidas de posição apropriadas Escala razão Dadas duas medidas nessa escala podemos dizer se são iguais ou se uma é diferente maior quanto maior e quantas vezes a outra A diferença com a escala intervalar é que agora existe um zero absoluto A altura de um indivíduo é um exemplo de medida nessa escala Se ela for medida em centímetros cm 0 cm é a origem e 1 cm é a unidade de medida Um indivíduo com 190 cm é duas vezes mais alto do que um indivíduo com 95 cm e esta relação continua a valer se usarmos 1 m como unidade Ou seja a estrutura da escala razão não é alterada por transformações da forma y cx c 0 Por exemplo y x100 transforma cm em m As estatísticas apropriadas para a escala intervalar são também apropriadas para a escala razão Para cada uma das variáveis abaixo indique a escala usualmente adotada para resumir os dados em tabelas de frequências a Salários dos empregados de uma indústria b Opinião de consumidores sobre determinado produto c Número de respostas certas de alunos num teste com dez itens d Temperatura diária da cidade de Manaus e Porcentagem da receita de municípios aplicada em educação f Opinião dos empregados da Companhia MB sobre a realização ou não de cursos obrigatórios de treinamento g QI de um indivíduo 2 Usando os dados da Tabela 21 construa a distribuição de frequências das variáveis a Estado civil b Região de procedência c Número de filhos dos empregados casados d Idade 3 Para o Conjunto de Dados 1 CDBrasil construa a distribuição de frequências para as variáveis população e densidade populacional 23 Gráficos Como já salientamos no Capítulo 1 a representação gráfica da distribuição de uma variável tem a vantagem de rápida e concisamente informar sobre sua variabilidade Existem vários gráficos que podem ser utilizados e abordaremos aqui os mais simples No Capítulo 3 voltaremos a tratar deste assunto em conexão com medidas associadas à distribuição de uma variável 231 Gráficos para Variáveis Qualitativas Existem vários tipos de gráficos para representar variáveis qualitativas Vários são versões diferentes do mesmo princípio logo nos limitaremos a apresentar dois deles gráficos em barras e de composição em setores pizza ou retângulos Exemplo 24 Tomemos como ilustração a variável Y grau de instrução exemplificada nas Tabelas 22 e 23 O gráfico em barras consiste em construir retângulos ou barras em que uma das dimensões é proporcional à magnitude a ser representada ni ou fi sendo a outra arbitrária porém igual para todas as barras Essas barras são dispostas paralelamente umas às outras horizontal ou verticalmente Na Figura 22 temos o gráfico em barras verticais para a variável Y Figura 22 Gráfico em barras para a variável Y grau de instrução Já o gráfico de composição em setores sendo em forma de pizza o mais conhecido destinase a representar a composição usualmente em porcentagem de partes de um todo Consiste num círculo de raio arbitrário representando o todo dividido em setores que correspondem às partes de maneira proporcional A Figura 23 mostra esse tipo de gráfico para a variável Y Muitas vezes é usado um retângulo no lugar do círculo para indicar o todo Figura 23 Gráfico em setores para a variável Y grau de instrução 232 Gráficos para Variáveis Quantitativas Para variáveis quantitativas podemos considerar uma variedade maior de representações gráficas Exemplo 25 Considere a distribuição da variável Z número de filhos dos empregados casados da seção de orçamentos da Companhia MB Tabela 21 Na Tabela 25 temos as frequências e porcentagens Além dos gráficos usados para as variáveis qualitativas como ilustrado na Figura 24 podemos considerar um gráfico chamado gráfico de dispersão unidimensional como o da Figura 25 a em que os valores são representados por pontos ao longo da reta provida de uma escala Valores repetidos são acompanhados por um número que indica as repetições Outra possibilidade é considerar um gráfico em que os valores repetidos são empilhados um em cima do outro como na Figura 25 b Pode se também apresentar o ponto mais alto da pilha como aparece na Figura 25 c Figura 24 Gráfico em barras para a variável Z número de filhos Figura 25 Gráficos de dispersão unidimensionais para a variável Z número de filhos Para variáveis quantitativas contínuas necessitase de alguma adaptação como no exemplo a seguir Tabela 25 Frequências e porcentagens dos empregados da seção de orçamentos da Companhia MB segundo o número de filhos Nº de filhos zi Frequência ni Porcentagem 100 fi 0 4 20 1 5 25 2 7 35 3 3 15 5 1 5 Total 20 100 Fonte Tabela 21 Exemplo 26 Queremos representar graficamente a distribuição da variável S salário dos empregados da seção de orçamentos da Companhia MB A Tabela 24 fornece a distribuição de frequências de S Para fazer uma representação similar às apresentadas anteriormente devemos usar o artifício de aproximar a variável contínua por uma variável discreta sem perder muita informação Isto pode ser feito supondose que todos os salários em determinada classe são iguais ao ponto médio desta classe Assim os dez salários pertencentes à primeira classe de quatro a oito salários serão admitidos iguais a 600 os 12 salários da segunda classe oito a doze salários serão admitidos iguais a 1000 e assim por diante Então podemos reescrever a Tabela 24 introduzindo os pontos médios das classes Estes pontos estão na segunda coluna da Tabela 26 Com a tabela assim construída podemos representar os pares si ni ou si fi por um gráfico em barras setores ou de dispersão unidimensional Veja a Figura 26 Figura 26 Gráfico em barras para a variável S salários O artifício usado acima para representar uma variável contínua faz com que se perca muito das informações nela contidas Uma alternativa a ser usada nestes casos é o gráfico conhecido como histograma Tabela 26 Distribuição de frequências da variável S salário dos empregados da seção de orçamentos da Companhia MB Classes de salários Ponto médio si Frequência ni Porcentagem 100 fi 400 800 600 10 2778 800 1200 1000 12 3333 1200 1600 1400 8 2222 1600 2000 1800 5 1389 2000 2400 2200 1 278 Total 36 10000 Fonte Tabela 24 Exemplo 27 Usando ainda a variável S do Exemplo 24 apresentamos na Figura 27 o histograma de sua distribuição O histograma é um gráfico de barras contíguas com as bases proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva frequência Podese usar tanto a frequência absoluta ni como a relativa fi Indiquemos a amplitude do iésimo intervalo por i Para que a área do retângulo respectivo seja proporcional a fi a sua altura deve ser proporcional a fii ou a nii que é chamada densidade de frequência da iésima classe Quanto mais dados tivermos em cada classe mais alto deve ser o retângulo Com essa convenção a área total do histograma será igual a um Quando os intervalos das classes forem todos iguais a a densidade de frequência da iésima classe passa a ser fi ou ni É claro que marcar no eixo das ordenadas os valores ni fi ni ou fi leva a obter histogramas com a mesma forma somente as áreas é que serão diferentes O Problema 10 traz mais informações sobre a construção de histogramas Figura 27 Histograma da variável S salários Para facilitar o entendimento foi colocada acima de cada setor retângulo a respectiva porcentagem das observações arredondada Assim por meio da figura podemos dizer que 61 dos empregados têm salário inferior a 12 salários mínimos ou 17 possuem salário superior a 16 salários mínimos Do mesmo modo que usamos um artifício para representar uma variável contínua como uma variável discreta podemos usar um artifício para construir um histograma para variáveis discretas A Figura 28 é um exemplo de como ficaria o histograma da variável Z número de filhos dos empregados casados da seção de orçamentos da Companhia MB segundo os dados da Tabela 25 O gráfico é suficientemente autoexplicativo de modo que omitimos detalhes sobre sua construção Figura 28 Histograma da variável Z número de filhos 24 RamoeFolhas Tanto o histograma como os gráficos em barras dão uma ideia da forma da distribuição da variável sob consideração Veremos no Capítulo 3 outras características da distribuição de uma variável como medidas de posição e dispersão Mas a forma da distribuição é tão importante quanto estas medidas Por exemplo saber que a renda per capita de um país é de tantos dólares pode ser um dado interessante mas saber como essa renda se distribui é mais importante Um procedimento alternativo para resumir um conjunto de valores com o objetivo de se obter uma ideia da forma de sua distribuição é o ramoefolhas Uma vantagem deste diagrama sobre o histograma é que não perdemos ou perdemos pouca informação sobre os dados em si Exemplo 28 Na Figura 29 construímos o ramoefolhas dos salários de 36 empregados da Companhia MB Tabela 21 Não existe uma regra fixa para construir o ramoefolhas mas a ideia básica é dividir cada observação em duas partes a primeira o ramo é colocada à esquerda de uma linha vertical a segunda a folha é colocada à direita Assim para os salários 400 e 456 o 4 é o ramo e 00 e 56 são as folhas Um ramo com muitas folhas significa maior incidência daquele ramo realização Figura 29 Ramoefolhas para a variável S salários Algumas informações que se obtêm deste ramoefolhas são a Há um destaque grande para o valor 2330 b Os demais valores estão razoavelmente concentrados entre 400 e 1940 c Um valor mais ou menos típico para este conjunto de dados poderia ser por exemplo 1000 d Há uma leve assimetria em direção aos valores grandes a suposição de que estes dados possam ser considerados como amostra de uma população com distribuição simétrica em forma de sino a chamada distribuição normal pode ser questionada A escolha do número de linhas do ramoefolhas é equivalente à escolha do número de classes de um histograma Um número pequeno de linhas ou de classes enfatiza a parte M da relação 11 enquanto um número grande de linhas ou de classes enfatiza a parte R Exemplo 29 Os dados abaixo referemse à dureza de 30 peças de alumínio Hoaglin Mosteller Tukey 1983 p 13 530 702 843 695 778 875 534 825 673 541 705 714 954 511 744 557 635 858 535 643 827 785 557 691 723 595 553 730 524 507 Na Figura 210 temos o ramoefolhas correspondente Aqui optamos por truncar cada valor omitindo os décimos de modo que 691 e 695 por exemplo tornamse 69 e 69 e aparecem como 9 na linha que corresponde ao ramo 6 Figura 210 Ramoefolhas para os dados de dureza de peças de alumínio Este é um exemplo em que temos muitas folhas em cada ramo Uma maneira alternativa é duplicar os ramos Criamos os ramos 5 e 5 6 e 6 etc nos quais colocamos folhas de 0 a 4 na linha e folhas de 5 a 9 na linha Obtemos o ramoefolhas da Figura 211 Um ramoefolhas pode ser adornado com outras informações como o número de observações em cada ramo Para outros exemplos veja o Problema 19 Figura 211 Ramoefolhas para os dados de dureza com ramos divididos Problemas 4 Contouse o número de erros de impressão da primeira página de um jornal durante 50 dias obtendose os resultados abaixo 8 11 8 12 14 13 11 14 14 15 6 10 14 19 6 12 7 5 8 8 10 16 10 12 12 8 11 6 7 12 7 10 14 5 12 7 9 12 11 9 14 8 14 8 12 10 12 22 7 15 a Represente os dados graficamente b Faça um histograma e um ramoefolhas 5 Usando os resultados do Problema 2 e da Tabela 23 a construa um histograma para a variável idade e b proponha uma representação gráfica para a variável grau de instrução 6 As taxas médias geométricas de incremento anual por 100 habitantes dos 30 maiores municípios do Brasil estão dadas abaixo 367 182 373 410 430 128 814 243 417 536 396 654 584 735 363 293 282 845 528 541 777 465 188 212 426 278 554 090 509 407 a Construa um histograma b Construa um gráfico de dispersão unidimensional 7 Você foi convidado para chefiar a seção de orçamentos ou a seção técnica da Companhia MB Após analisar o tipo de serviço que cada seção executa você ficou indeciso e resolveu tomar a decisão baseado em dados fornecidos para as duas seções O departamento pessoal forneceu os dados da Tabela 21 para os funcionários da seção de orçamentos ao passo que para a seção técnica os dados vieram agrupados segundo as tabelas abaixo que apresentam as frequências dos 50 empregados dessa seção segundo as variáveis grau de instrução e salário Baseado nesses dados qual seria a sua decisão Justifique Instrução Frequência Fundamental 15 Médio 30 Superior 5 Total 50 Classe de Salários Frequência 750 1050 14 1050 1350 17 1350 1650 11 1650 1950 8 Total 50 8 Construa um histograma um ramoefolhas e um gráfico de dispersão unidimensional para o Conjunto de Dados 2 CDMunicípios 25 Exemplos Computacionais Nesta seção vamos analisar dois conjuntos de dados apresentados no final do livro utilizando técnicas vistas neste capítulo e comandos do R Para mais detalhes veja a página do livro Exemplo 210 Considere o conjuntos de notas em Estatística de 100 alunos de um curso de Economia CDNotas O histograma dos dados está na Figura 212 que mostra que a distribuição dos dados é razoavelmente simétrica Esse gráfico pode ser obtido por meio do comando do R a seguir cdnotasreadtablecdnotascsv hT skip4sep dec hist cdnotasnota coldarkblue xlabNotas ylabFrequência borderwhite Figura 212 Histograma para o CDNotas R O gráfico de dispersão unidimensional e o ramoefolhas correspondentes estão nas Figuras 213 e 214 respectivamente e ambos contêm informação semelhante à dada pelo histograma Os comandos a utilizar são stripchart cdnotasnota method stack offset 2 at0 pch 19 coldarkblue ylabNAcex05 stem cdnotasnotaFigura 214 Ramoefolhas para o CDNotas R Figura 213 Gráfico de dispersão unidimensional para o CDNotas R Figura 214 Ramoefolhas para o CDNotas R Exemplo 211 O Conjunto de Dados 4 CDPoluição traz dados sobre a poluição na cidade de São Paulo Tomemos os dados de temperatura de 1º de janeiro a 30 de abril de 1991 120 dados Essas observações constituem o que se chama série temporal ou seja os dados são observados em instantes ordenados do tempo Esperase que exista relação entre as observações em instantes de tempo diferentes o que não acontece com os dados do exemplo anterior a nota de um aluno em princípio é independente da nota de outro aluno qualquer O gráfico dessa série temporal está na Figura 215 Observase uma variação da temperatura no decorrer do tempo entre 12 e 22 º C Figura 215 Dados de temperatura de São Paulo R O histograma e o gráfico de dispersão unidimensional estão nas Figuras 216 e 217 respectivamente mostrando que a distribuição dos dados não é simétrica O ramoefolhas da Figura 218 ilustra o mesmo comportamento Os comandos do R utilizados são cdpoluicaoreadtable cdpoluicaocsv hT skip8 sep dec plotts cdpoluicaotemp xlabDia ylabGrau coldarkblue hist cdpoluicaotemp coldarkblue xlabTemperatura borderwhite ylab stripchart cdpoluicaotemp method stack offset 2 at0 pch 19 coldarkblueylabNA cex05 stem cdpoluicaotemp scale5 Figura 216 Histograma dos dados de temperatura de São Paulo R Figura 217 Gráfico de dispersão unidimensional para os dados de temperatura de São Paulo R Figura 218 Ramoefolhas para os dados de temperatura de São Paulo R 26 Problemas Suplementares 9 A MB Indústria e Comércio desejando melhorar o nível de seus funcionários em cargos de chefia montou um curso experimental e indicou 25 funcionários para a primeira turma Os dados referentes à seção a que pertencem notas e graus obtidos no curso estão na tabela a seguir Como havia dúvidas quanto à adoção de um único critério de avaliação cada instrutor adotou seu próprio sistema de aferição Usando dados daquela tabela responda as questões a Após observar atentamente cada variável e com o intuito de resumilas como você identificaria qualitativa ordinal ou nominal e quantitativa discreta ou contínua cada uma das 9 variáveis listadas b Compare e indique as diferenças existentes entre as distribuições das variáveis Direito Política e Estatística c Construa o histograma para as notas da variável Redação d Construa a distribuição de frequências da variável Metodologia e faça um gráfico para indicar essa distribuição e Sorteado ao acaso um dos 25 funcionários qual a probabilidade de que ele tenha obtido grau A em Metodologia f Se em vez de um sorteássemos dois a probabilidade de que ambos tivessem tido A em Metodologia é maior ou menor do que a resposta dada em e g Como é o aproveitamento dos funcionários na disciplina Estatística segundo a seção a que eles pertencem FuncSeção AdministrDireitoRedaçãoEstatístInglêsMetodologiaPolíticaEconomia Func Seção AdministrDireitoRedaçãoEstatístInglêsMetodologiaPolíticaEconomia 1 P 80 90 86 90 B A 90 85 2 P 80 90 70 90 B C 65 80 3 P 80 90 80 80 D B 90 85 4 P 60 90 86 80 D C 60 85 5 P 80 90 80 90 A A 65 90 6 P 80 90 85 100 B A 65 95 7 P 80 90 82 80 D C 90 70 8 T 100 90 75 80 B C 60 85 9 T 80 90 94 90 B B 100 80 10 T 100 90 79 80 B C 90 75 11 T 80 90 86 100 C B 100 85 12 T 80 90 83 70 D B 65 80 13 T 60 90 70 70 B C 60 85 14 T 100 90 86 90 A B 100 75 15 V 80 90 86 90 C B 100 70 16 V 80 90 95 70 A A 90 75 17 V 80 90 63 80 D C 100 75 18 V 60 90 76 90 C C 60 85 19 V 60 90 68 40 D C 60 95 20 V 60 90 75 70 C B 60 85 21 V 80 90 77 70 D B 65 80 22 V 60 90 87 80 C A 60 90 23 V 80 90 73 100 C C 90 70 24 V 80 90 85 90 A A 65 90 25 V 80 90 70 90 B A 90 85 P departamento pessoal T seção técnica e V seção de vendas 10 Dispomos de uma relação de 200 aluguéis de imóveis urbanos e uma relação de 100 aluguéis rurais a Construa os histogramas das duas distribuições b Com base nos histogramas discuta e compare as duas distribuições Classes de aluguéis codificados Zona urbana Zona rural 2 3 10 30 3 5 40 50 5 7 80 15 7 10 50 5 10 15 20 0 Total 200 100 11 Esboce o histograma alisado para cada uma das situações descritas abaixo a Distribuição dos salários registrados em carteira de trabalho de moradores da cidade de São Paulo b Distribuição das idades de alunos de uma Faculdade de Economia e Administração c Distribuição das idades dos alunos de uma classe da Faculdade do item anterior Compare as duas distribuições d Distribuição do número de óbitos segundo a faixa etária e Distribuição do número de divórcios segundo o número de anos de casado f Distribuição do número formado pelos dois últimos algarismos do primeiro prêmio da Loteria Federal durante os dez últimos anos 12 Faça no mesmo gráfico um esboço das três distribuições descritas abaixo a Distribuição das alturas dos brasileiros adultos b Distribuição das alturas dos suecos adultos c Distribuição das alturas dos japoneses adultos 13 Usando os dados da Tabela 21 a Construa a distribuição de frequências para a variável idade b Faça o gráfico da porcentagem acumulada c Usando o gráfico anterior ache os valores de i correspondentes aos pontos i 25 i 50 e i 75 14 Construir a fde para a variável idade referente aos dados da Tabela 21 15 Construa um ramoefolhas para a variável CO monóxido de carbono do Conjunto de Dados 4 CDPoluição 27 Complementos Metodológicos 1 Intervalos de classes desiguais É muito comum o uso de classes com tamanhos desiguais no agrupamento dos dados em tabelas de frequências Nestes casos deve se tomar alguns cuidados especiais quanto à análise e construção do histograma A tabela abaixo fornece a distribuição de 250 empresas classificadas segundo o número de empregados Uma análise superficial pode levar à conclusão de que a concentração vem aumentando até atingir um máximo na classe 40 60 voltando a diminuir depois mas não tão acentuadamente Porém um estudo mais detalhado revela que a amplitude da classe 40 60 é o dobro da amplitude das classes anteriores Assim esperase que mais elementos caiam nessa classe mesmo que a concentração seja levemente inferior Então um primeiro cuidado é construir a coluna que indica as amplitudes i de cada classe Estes valores estão representados na terceira coluna da tabela Número de empregados Frequência ni Amplitude i Densidade nii Proporção fi Densidade fi i Número de empregados Frequência ni Amplitude i Densidade ni i Proporção fi Densidade fi i 0 10 5 10 050 002 00020 10 20 20 10 200 008 00080 20 30 35 10 350 014 00140 30 40 40 10 400 016 00160 40 60 50 20 250 020 00100 60 80 30 20 150 012 00060 80 100 20 20 100 008 00040 100 140 20 40 050 008 00020 140 180 15 40 038 006 00015 180 260 15 80 019 006 00008 Total 250 100 Um segundo passo é a construção da coluna das densidades de frequências em cada classe que é obtida dividindo as frequências ni pelas amplitudes i ou seja a medida que indica qual a concentração por unidade da variável Assim observandose os números da quarta coluna vêse que a classe de maior concentração passa a ser a 30 40 enquanto a última é a de menor concentração Para compreender a distribuição estes dados são muito mais informativos do que as frequências absolutas simplesmente De modo análogo podese construir a densidade da proporção ou porcentagem por unidade da variável verifique a construção por meio da 5ª e da 6ª colunas A interpretação para fii é muito semelhante àquela dada para nii Para a construção do histograma basta lembrar que a área total deve ser igual a 1 ou 100 o que sugere usar no eixo das ordenadas os valores de fii O histograma para estes dados está na Figura 219 Figura 219 Histograma dos dados do CM 1 2 Histograma alisado Na Tabela 24 temse a distribuição de frequências dos salários de 36 funcionários agrupados em classes de amplitude 4 Na Figura 27 temse o respectivo histograma Reagrupandose os dados em classes de amplitude 2 obterseia a seguinte tabela de frequências e o correspondente histograma Figura 220 a Classe de salários Frequências ni 400 600 4 600 800 6 800 1000 8 1000 1200 4 1200 1400 5 1400 1600 3 1600 1800 3 1800 2000 2 2000 2200 0 2200 2400 1 Total 36 Figura 220 a Histograma para a variável S salário 2 Se houvesse um número suficientemente grande de observações poderseia ir diminuindo os intervalos de classe e o histograma iria ficando cada vez menos irregular até atingir um caso limite com uma curva bem mais suave Por exemplo o comportamento da distribuição dos salários poderia ter a representação da Figura 220 b Esse histograma alisado é muito útil para ilustrar rapidamente qual o tipo de comportamento que se espera para a distribuição de uma dada variável No capítulo referente às variáveis aleatórias contínuas voltaremos a estudar esse histograma sob um ponto de vista mais matemático A interpretação desse gráfico é a mesma do histograma Assim nas regiões onde a curva é mais alta significa uma maior densidade de observações No exemplo acima conforme se aumenta o salário observase que a densidade de frequência vai diminuindo Figura 220 b Histograma alisado para a variável S salário 3 Frequências acumuladas Uma outra medida muito usada para descrever dados quantitativos é a frequência acumulada que indica quantos elementos ou que porcentagem deles estão abaixo de um certo valor Na tabela a seguir a terceira e a quinta colunas indicam respectivamente a frequência absoluta acumulada e a proporção porcentagem acumulada Assim observando a tabela podemos afirmar que 2778 dos indivíduos ganham até oito salários mínimos 6111 ganham até 12 salários mínimos 8333 ganham até 16 salários mínimos 9722 ganham até 20 salários mínimos e 100 dos funcionários ganham até 24 salários Classe de salários Frequência ni Frequência acumulada Ni Porcentagem 100 fi Porcentagem acumulada 100 Fi 400 800 10 10 2778 2778 800 1200 12 22 3333 6111 1200 1600 8 30 2222 8333 1600 2000 5 35 1389 9722 2000 2400 1 36 278 10000 Total 36 10000 A Figura 221 é a ilustração gráfica da porcentagem acumulada Figura 221 Porcentagens acumuladas para o Problema 15 Este gráfico pode ser usado para fornecer informações adicionais Por exemplo para saber qual o salário s tal que 50 dos funcionários ganhem menos do que s basta procurar o ponto s 50 na curva Observando as linhas pontilhadas no gráfico verificamos que a solução é um pouco mais do que 10 salários mínimos 4 Frequências acumuladas continuação Para um tratamento estatístico mais rigoroso das variáveis quantitativas costumase usar uma definição mais precisa para a distribuição das frequências acumuladas Em capítulos posteriores será vista a sua utilização Definição Dadas n observações de uma variável quantitativa e um número x real qualquer indicarseá por Nx o número de observações menores ou iguais a x e chamarseá de função de distribuição empírica fde a função Fnx ou Fex Exemplo 212 Para a variável S salário dos 36 funcionários listados na Tabela 21 é fácil verificar que O gráfico está na Figura 222 Àqueles não familiarizados com a representação gráfica de funções recomendase a leitura de Morettin Hazzan Bussab 2005 Figura 222 Função de distribuição empírica para o Exemplo 212 Exemplo 213 Esta definição também vale para variáveis quantitativas discretas Assim para a variável número de filhos resumida na Tabela 25 temse a seguinte fde cujo gráfico é o da Figura 223 Figura 223 Função de distribuição empírica para o Exemplo 213 5 Ramoefolhas continuação Os dados abaixo referemse à produção em toneladas de dado produto para 20 companhias químicas numeradas de 1 a 20 1 50 2 280 3 560 4 170 5 180 6 500 7 250 8 200 9 1050 10 240 11 180 12 1000 13 1100 14 120 15 4200 16 5100 17 480 18 90 19 870 20 360 Vemos que os valores estendemse de 50 a 5100 e usando uma representação semelhante à da Figura 29 teríamos um grande número de linhas A Figura 224 a mostra uma outra forma de ramoefolhas com ramos divididos A divisão ocorre no ramo cada vez que se muda por um fator de 10 Uma economia de 4 linhas poderia ser obtida representandose os valores 50 e 90 da Figura 224 a num ramo denominado 0 Obtemos a Figura 224 b Os pacotes computacionais trazem algumas opções adicionais ao construir um ramo efolhas Por exemplo podemos ter a contagem do número de folhas em cada ramo como mostra a Figura 225 a Aqui temos o ramoefolhas dos salários dos empregados da Tabela 21 Na Figura 225 b acrescentamos as contagens de folhas a partir de cada extremo até o ramo que contém a mediana Esse tipo de opção é chamado profundidade depth nos pacotes Figura 224 Ramoefolhas das produções de companhias químicas Figura 225 Ramoefolhas com a frequências em cada ramo b profundidade Capítulo 3 MedidasResumo 31 Medidas de Posição Vimos que o resumo de dados por meio de tabelas de frequências e ramoefolhas fornece muito mais informações sobre o comportamento de uma variável do que a própria tabela original de dados Muitas vezes queremos resumir ainda mais estes dados apresentando um ou alguns valores que sejam representativos da série toda Quando usamos um só valor obtemos uma redução drástica dos dados Usualmente empregase uma das seguintes medidas de posição ou localização central média mediana ou moda A moda é definida como a realização mais frequente do conjunto de valores observados Por exemplo considere a variável Z número de filhos de cada funcionário casado resumida na Tabela 25 do Capítulo 2 Vemos que a moda é 2 correspondente à realização com maior frequência 7 Em alguns casos pode haver mais de uma moda ou seja a distribuição dos valores pode ser bimodal trimodal etc A mediana é a realização que ocupa a posição central da série de observações quando estão ordenadas em ordem crescente Assim se as cinco observações de uma variável forem 3 4 7 8 e 8 a mediana é o valor 7 correspondendo à terceira observação Quando o número de observações for par usase como mediana a média aritmética das duas observações centrais Acrescentandose o valor 9 à série acima a mediana será 7 82 75 Finalmente a média aritmética conceito familiar ao leitor é a soma das observações dividida pelo número delas Assim a média aritmética de 3 4 7 8 e 8 é 3 4 7 8 85 6 Exemplo 31 Usando os dados da Tabela 25 já encontramos que a moda da variável Z é 2 Para a mediana constatamos que esta também é 2 média aritmética entre a décima e a décima primeira observações Finalmente a média aritmética será Neste exemplo as três medidas têm valores próximos e qualquer uma delas pode ser usada como representativa da série toda A média aritmética é talvez a medida mais usada Contudo ela pode conduzir a erros de interpretação Em muitas situações a mediana é uma medida mais adequada Voltaremos a este assunto mais adiante Vamos formalizar os conceitos introduzidos acima Se x1 xn são os n valores distintos ou não da variável X a média aritmética ou simplesmente média de X pode ser escrita 31 Agora se tivermos n observações da variável X das quais n1 são iguais a x1 n2 são iguais a x2 etc nk iguais a xk então a média de X pode ser escrita 32 Se fi nin representar a frequência relativa da observação xi então 32 também pode ser escrita 33 Consideremos agora as observações ordenadas em ordem crescente Vamos denotar a menor observação por x1 a segunda por x2 e assim por diante obtendose 34 Por exemplo se x1 3 x2 2 x3 6 x4 1 x5 3 então 2 1 3 3 6 de modo que x1 2 x2 1 x3 3 x4 3 e x5 6 As observações ordenadas como em 34 são chamadas estatísticas de ordem Com essa notação a mediana da variável X pode ser definida como 35 Exemplo 32 A determinação das medidas de posição para uma variável quantitativa contínua por meio de sua distribuição de frequências exige aproximações pois perdemos a informação dos valores das observações Consideremos a variável S salário dos 36 funcionários da Companhia MB agrupados em classes de salários conforme a Tabela 26 Uma aproximação razoável é supor que todos os valores dentro de uma classe tenham seus valores iguais ao ponto médio desta classe Este procedimento nos deixa na mesma situação do caso discreto em que as medidas são calculadas usandose os pares xi ni ou xi fi como em 32 e 33 A moda mediana e média para os dados da Tabela 26 são respectivamente Observe que colocamos o sinal de e não de igualdade pois os valores verdadeiros não são os calculados Por exemplo a mediana de S é a média entre as duas observações centrais quando os dados são ordenados isto é 980 e 1053 portanto mdS 1016 Quais são nesse exemplo a média e moda verdadeiras Observe que para calcular a moda de uma variável precisamos apenas da distribuição de frequências contagem Já para a mediana necessitamos minimamente ordenar as realizações da variável Finalmente a média só pode ser calculada para variáveis quantitativas Essas condições limitam bastante o cálculo de medidasresumos para as variáveis qualitativas Para as variáveis nominais somente podemos trabalhar com a moda Para as variáveis ordinais além da moda podemos usar também a mediana Devido a esse fato iremos apresentar daqui em diante medidasresumo para variáveis quantitativas que permitem o uso de operações aritméticas com seus valores Exemplo 32 continuação Retomemos os dados da Companhia MB A moda para a variável V região de procedência é moV outra Para a variável Y grau de instrução temos que moY ensino médio e mdY ensino médio Veremos na Seção 33 que a mediana é uma medida resistente ao passo que a média não o é em particular para distribuições muito assimétricas ou contendo valores atípicos Por outro lado a média é ótima num sentido que será discutido no Capítulo 10 se a distribuição dos dados for aproximadamente normal Uma outra medida de posição também resistente é a média aparada definida no Problema 39 Essa medida envolve calcular a média das observações centrais desprezandose uma porcentagem das iniciais e finais 32 Medidas de Dispersão O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações Por exemplo suponhamos que cinco grupos de alunos submeteramse a um teste no qual obtiveram as seguintes notas Grupo A variável X 3 4 5 6 7 Grupo B variável Y 1 3 5 7 9 Grupo C variável Z 5 5 5 5 5 Grupo D variável W 3 5 5 7 Grupo E variável V 3 5 5 6 6 Vemos que A identificação de cada uma destas séries por sua média 5 em todos os casos nada informa sobre suas diferentes variabilidades Notamos então a conveniência de serem criadas medidas que sumarizem a variabilidade de um conjunto de observações e que nos permita por exemplo comparar conjuntos diferentes de valores como os dados acima segundo algum critério estabelecido Um critério frequentemente usado para tal fim é aquele que mede a dispersão dos dados em torno de sua média e duas medidas são as mais usadas desvio médio e variância O princípio básico é analisar os desvios das observações em relação à média dessas observações Para o grupo A acima os desvios xi x são 2 1 0 1 2 É fácil ver Problema 14 a que para qualquer conjunto de dados a soma dos desvios é igual a zero Nestas condições a soma dos desvios não é uma boa medida de dispersão para o conjunto A Duas opções são a considerar o total dos desvios em valor absoluto b considerar o total dos quadrados dos desvios Para o grupo A teríamos respectivamente O uso desses totais pode causar dificuldades quando comparamos conjuntos de dados com números diferentes de observações como os conjuntos A e D acima Desse modo é mais conveniente exprimir as medidas como médias isto é o desvio médio e a variância são definidos por 36 37 respectivamente Para o grupo A temos enquanto para o grupo D temos Podemos dizer então que segundo o desvio médio o grupo D é mais homogêneo que A enquanto ambos são igualmente homogêneos segundo a variância Sendo a variância uma medida de dimensão igual ao quadrado da dimensão dos dados por exemplo se os dados são expressos em cm a variância será expressa em cm2 pode causar problemas de interpretação Costumase usar então o desvio padrão que é definido como a raiz quadrada positiva da variância Para o grupo A o desvio padrão é Ambas as medidas de dispersão dm e dp indicam em média qual será o erro desvio cometido ao tentar substituir cada observação pela medida resumo do conjunto de dados no caso a média Exemplo 33 Vamos calcular as medidas de dispersão acima para a variável Z número de filhos resumida na Tabela 25 Como vimos no Exemplo 31 z 165 Os desvios são zi z 165 065 035 135 335 Seguese que Também Consequentemente o desvio padrão de Z é Suponha que observemos n1 vezes os valores x1 etc nk vezes o valor xk da variável X Então 38 39 310 O cálculo aproximado das medidas de dispersão no caso de variáveis contínuas agrupadas em classes pode ser feito de modo análogo àquele usado para encontrar a média no Exemplo 22 Exemplo 34 Consideremos a variável S salário A média encontrada no Exemplo 32 foi s 1122 Com os dados da Tabela 26 e usando 39 encontramos e portanto É fácil ver que Veremos mais tarde que a variância de uma amostra será calculada usandose o denominador n 1 em vez de n A justificativa será dada naquele capítulo mas para grandes amostras pouca diferença fará o uso de um ou outro denominador Tanto a variância como o desvio médio são medidas de dispersão calculadas em relação à média das observações Assim como a média a variância ou o desvio padrão é uma boa medida se a distribuição dos dados for aproximadamente normal O desvio médio é mais resistente que o desvio padrão no sentido a ser estudado na seção seguinte Poderíamos considerar uma medida que seja calculada em relação à mediana O desvio absoluto mediano é um exemplo e é mais resistente que o desvio padrão Veja o Problema 41 Usando o Problema 14 b uma maneira computacionalmente mais eficiente de calcular a variância é 311 e no caso de observações repetidas 312 Problemas 1 Quer se estudar o número de erros de impressão de um livro Para isso escolheuse uma amostra de 50 páginas encontrandose o número de erros por página da tabela abaixo a Qual o número médio de erros por página b E o número mediano c Qual é o desvio padrão d Faça uma representação gráfica para a distribuição e Se o livro tem 500 páginas qual é o número total de erros esperado no livro Erros Frequência 0 25 1 20 2 3 3 1 4 1 2 As taxas de juros recebidas por 10 ações durante um certo período foram medidas em porcentagem 259 264 260 262 257 255 261 250 263 264 Calcule a média a mediana e o desvio padrão 3 Para facilitar um projeto de ampliação da rede de esgoto de uma certa região de uma cidade as autoridades tomaram uma amostra de tamanho 50 dos 270 quarteirões que compõem a região e foram encontrados os seguintes números de casas por quarteirão 2 2 3 10 13 14 15 15 16 16 18 18 20 21 22 22 23 24 25 25 26 27 29 29 30 32 36 42 44 45 45 46 48 52 58 59 61 61 61 65 66 66 68 75 78 80 89 90 92 97 a Use cinco intervalos e construa um histograma b Determine uma medida de posição central e uma medida de dispersão 4 a Dê uma situação prática em que você acha que a mediana é uma medida mais apropriada do que a média b Esboce um histograma em que a média e a mediana coincidem Existe alguma classe de histogramas em que isso sempre acontece c Esboce os histogramas de três variáveis X Y e Z com a mesma média aritmética mas com as variâncias ordenadas em ordem crescente 5 Suponha que a variável de interesse tenha a distribuição como na figura abaixo Você acha que a média é uma boa medida de posição E a mediana Justifique 6 Numa pesquisa realizada com 100 famílias levantaramse as seguintes informações Número de filhos 0 1 2 3 4 5 mais que 5 Frequência de famílias 17 20 28 19 7 4 5 a Qual a mediana do número de filhos b E a moda c Que problemas você enfrentaria para calcular a média Faça alguma suposição e encontrea 33 Quantis Empíricos Tanto a média como o desvio padrão podem não ser medidas adequadas para representar um conjunto de dados pois a são afetados de forma exagerada por valores extremos b apenas com estes dois valores não temos ideia da simetria ou assimetria da distribuição dos dados Para contornar esses fatos outras medidas precisam ser consideradas Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima ver fórmula 35 De modo geral podemos definir uma medida chamada quantil de ordem p ou p quantil indicada por qp em que p é uma proporção qualquer 0 p 1 tal que 100p das observações sejam menores do que qp Indicamos abaixo alguns quantis e seus nomes particulares Dependendo do valor de p há dificuldades ao se calcular os quantis Isso é ilustrado no exemplo a seguir Exemplo 35 Suponha que tenhamos os seguintes valores de uma variável X 15 5 3 8 10 2 7 11 12 Ordenando os valores obtemos as estatísticas de ordem x1 2 x2 3 x9 15 ou seja teremos 2 3 5 7 8 10 11 12 15 Usando a definição de mediana dada teremos que md q05 q2 x5 8 Suponha que queiramos calcular os dois outros quartis q1 e q3 A ideia é dividir os dados em quatro partes 2 3 5 7 8 10 11 12 15 Uma possibilidade razoável é então considerar a mediana dos primeiros quatro valores para obter q1 ou seja e a mediana dos últimos quatro valores para obter q3 ou seja Obtemos então a sequência 2 3 4 5 7 8 10 11 115 12 15 Observe que a média dos n 9 valores é x 81 próximo à mediana Exemplo 35 continuação Acrescentemos agora o valor 67 à lista de nove valores do Exemplo 35 obtendose agora os n 10 valores ordenados 2 3 5 7 8 10 11 12 15 67 Agora x 14 enquanto que a mediana fica que está próxima da mediana dos nove valores originais mas ambas 8 e 9 relativamente longe de x Dizemos que a mediana é resistente ou robusta no sentido que ela não é muito afetada pelo valor discrepante ou atípico 67 Para calcular q1 e q3 para este novo conjunto de valores considereos assim dispostos 2 3 5 7 8 9 10 11 12 15 67 de modo que q1 5 e q3 12 Obtemos então os dados separados em 4 partes por q1 q2 e q3 2 3 5 7 8 9 10 11 12 15 67 Suponha agora que queiramos calcular q020 ou seja aquele valor que deixa 20 dos dados à sua esquerda para o conjunto original de n 9 valores de X Como 20 das observações correspondem a 18 observações qual valor devemos tomar como q0 20 O valor 3 que é a segunda observação ordenada ou 5 ou a média de 3 e 5 Se adotarmos essa última solução então q0 20 q0 25 q1 o que pode não parecer razoável Para responder a essa questão temos que definir o quantil de uma sequência de valores de uma variável de modo apropriado Isto está feito no Problema 17 Se os dados estiverem agrupados em classes podemos obter os quantis usando o histograma Por exemplo para obter a mediana sabemos que ela deve corresponder ao valor da abscissa que divide a área do histograma em duas partes iguais 50 para cada lado Então usando argumentos geométricos podemos encontrar um ponto satisfazendo essa propriedade Vejamos como proceder por meio de um exemplo Exemplo 36 Vamos repetir abaixo a Figura 27 que é o histograma da variável S salário dos empregados da Companhia MB Devemos localizar o ponto das abscissas que divide o histograma ao meio A área do primeiro retângulo corresponde a 28 do total os dois primeiros a 61 portanto a mediana md é algum número situado entre 800 e 1200 Ou melhor a mediana irá corresponder ao valor md no segundo retângulo tal que a área do retângulo de base 800 md e mesma altura que o retângulo de base 800 1200 seja 22 28 do primeiro retângulo mais 22 do segundo perfazendo os 50 Consulte a figura para melhor compreensão Pela proporcionalidade entre a área e a base do retângulo temos ou logo que é uma expressão mais precisa para a mediana do que a mediana bruta encontrada anteriormente O cálculo dos quantis pode ser feito de modo análogo ao cálculo da mediana usando argumentos geométricos no histograma Vejamos a determinação de alguns quantis usando os dados do último exemplo a q025 Verificamos que q025 deve estar na primeira classe pois a proporção no primeiro retângulo é 028 Logo e então b q095 Analisando a soma acumulada das proporções verificamos que este quantil deve pertencer à quarta classe e que nesse retângulo devemos achar a parte correspondente a 12 pois a soma acumulada até a classe anterior é 83 faltando 12 para atingirmos os 95 Portanto logo c q075 De modo análogo concluímos que o terceiro quantil deve pertencer ao intervalo 1200 1600 portanto e Uma medida de dispersão alternativa ao desvio padrão é a distância interquartil definida como a diferença entre o terceiro e primeiro quartis ou seja dq q3 q1 313 Para o Exemplo 35 temos q1 4 q3 115 de modo que dq 75 Para um cálculo mais preciso veja o Problema 17 Lá obtemos q1 45 q3 1125 logo dq 675 Os quartis q025 q1 q05 q2 e q075 q3 são medidas de localização resistentes de uma distribuição Dizemos que uma medida de localização ou dispersão é resistente quando for pouco afetada por mudanças de uma pequena porção dos dados A mediana é uma medida resistente ao passo que a média não o é Para ilustrar esse fato considere as populações dos 30 municípios do Brasil do CDMunicípios Se descartarmos Rio de Janeiro e São Paulo a média das populações dos 28 municípios restantes é 1006 e a mediana é 821 Para todos os dados a média pasa a ser 1454 ao passo que a mediana será 843 Note que a média aumentou bastante influenciada que foi pelos dois valores maiores que são muito discrepantes da maioria dos dados Mas a mediana variou pouco O desvio padrão também não é uma medida resistente Verifique como este varia para este exemplo dos municípios Os cinco valores x1 q1 q2 q3 e xn são importantes para se ter uma boa ideia da assimetria da distribuição dos dados Para uma distribuição simétrica ou aproximadamente simétrica deveríamos ter a q2 x1 xn q2 b q2 q1 q3 q2 c q1 x1 xn q3 d distâncias entre mediana e q1 q3 menores do que distâncias entre os extremos e q1 q3 A diferença q2 x1 é chamada dispersão inferior e xn q2 é a dispersão superior A condição a nos diz que as duas dispersões devem ser aproximadamente iguais para uma distribuição aproximadamente simétrica A Figura 31 ilustra estes fatos para a chamada distribuição normal ou gaussiana Na Figura 32 temos ilustradas essas cinco medidas para os n 9 valores do Exemplo 35 As cinco estatísticas de ordem consideradas acima podem ser representadas esquematicamente como na Figura 33 em que também incorporamos o número de observações n Representamos a mediana por md os quartis por q e os extremos por E Podemos ir além considerando os chamados oitavos ou seja o primeiro oitavo que corresponde a q0125 o sétimo oitavo que corresponde a q0875 etc Teríamos então sete números para representar a distribuição dos dados Em geral podemos considerar as chamadas letrasresumos descendo aos dezesseisavos trinta e doisavos etc Para detalhes ver Hoaglin Mosteller and Tukey 1983 Figura 33 Esquema dos cinco números Exemplo 37 Os aplicativos R SPlus e Minitab assim como a planilha Excel possuem ferramentas que geram as principais medidas descritas nesse capítulo e outras Por exemplo o comando Describe do Minitab usado para as populações dos municípios brasileiros produz a saída do Quadro 31 Quadro 31 Medidasresumo para o CDMunicípios Minitab MTB Describe C1 Descriptive Statistics Variable C1 N 30 Mean 1454 Median 843 Tr mean 1047 StDev 1866 SE Mean 341 Variable C1 Min 463 Max 9888 Q1 635 Q3 1397 Aqui temos N 30 dados a média é 1454 a mediana 843 o desvio padrão 1866 o menor valor 463 o maior valor 9888 o primeiro quartil 635 e o terceiro quartil 1397 Além desses valores o resumo traz a média aparada trimmed mean e o erro padrão da média a ser tratado no Capítulo 11 Esse é dado por O comando summary do R e SPlus produzem a saída do Quadro 32 para os mesmos dados Note a diferença no cálculo dos quantis q025 e q075 Concluise que é necessário saber como cada programa efetua o cálculo de determinada estatística para poder reportálo Quadro 32 Medidasresumo para o CDMunicípios R e SPlus summary munic Min 463 1st Qu 6448 Median 843 Mean 1454 3rd Qu 1343 Max 9888 Problemas 7 Obtenha o esquema dos cinco números para os dados do Problema 3 Calcule a distância interquartil e as dispersões inferior e superior Baseado nessas medidas verifique se a forma da distribuição dos dados é normal 8 Refaça o problema anterior utilizando desta vez os dados do Problema 5 do Capítulo 2 9 Obter os três quartis q01 e q090 para os dados do Problema 3 10 Para a variável população do CDBrasil obtenha q010 q025 q050 q075 q080 e q095 34 Box Plots A informação contida no esquema dos cinco números da Figura 33 pode ser traduzida graficamente num diagrama ilustrado na Figura 34 que chamaremos de box plot Murteira 1993 usa o termo caixadebigodes Figura 34 Box Plot Para construir este diagrama consideremos um retângulo em que estão representados a mediana e os quartis A partir do retângulo para cima segue uma linha até o ponto mais remoto que não exceda LS q3 15dq chamado limite superior De modo similar da parte inferior do retângulo para baixo segue uma linha até o ponto mais remoto que não seja menor do que LI q1 15dq chamado limite inferior Os valores compreendidos entre esses dois limites são chamados valores adjacentes As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos O box plot dá uma ideia da posição dispersão assimetria caudas e dados discrepantes A posição central é dada pela mediana e a dispersão por dq As posições relativas de q1 q2 q3 dão uma noção da assimetria da distribuição Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores remotos e pelos valores atípicos Exemplo 38 Retomemos o exemplo dos 15 maiores municípios do Brasil ordenados pelas populações Usando o procedimento do Problema 17 veja também o Problema 18 obtemos q1 1057 q2 1358 q3 2086 O diagrama para os cinco números x1 q1 q2 md q3 x15 está na Figura 35 abaixo Figura 35 Esquema dos cinco números para o Exemplo 38 Temos que LI q1 15dq 1057 15 1029 487 LS q3 15dq 2086 15 1029 3629 Então as cidades com populações acima de 3629000 habitantes são pontos exteriores ou seja Rio de Janeiro e São Paulo O box plot correspondente está na Figura 36 Vemos que os dados têm uma distribuição assimétrica à direita com 13 valores concentrados entre 80 e 230 e duas observações discrepantes bastante afastadas do corpo principal dos dados Figura 36 Box plot para os quinze maiores municípios do Brasil Do ponto de vista estatístico um outlier pode ser produto de um erro de observação ou de arredondamento No exemplo acima as populações de São Paulo e Rio de Janeiro não são outliers neste sentido pois elas representam dois valores realmente muito diferentes dos demais Daí usarmos o nome pontos ou valores exteriores Contudo na prática estas duas denominações são frequentemente usadas com o mesmo significado observações fora de lugar discrepantes ou atípicas A Figura 37 mostra o box plot para as populações dos trinta municípios brasileiros feito com o R Figura 37 Box plot com R A justificativa para usarmos os limites acima LI q1 15dq e LS q3 15dq para definir as observações atípicas é a seguinte considere uma curva normal com média zero e portanto com mediana zero É fácil verificar veja o Capítulo 7 e Tabela III que q1 06745 q2 0 q3 06745 e portanto dq 1349 Seguese que os limites são LI 2698 e LS 2698 A área entre esses dois valores embaixo da curva normal é 0993 ou seja 993 da distribuição está entre esses dois valores Isto é para dados com uma distribuição normal os pontos exteriores constituirão cerca de 07 da distribuição Veja a Figura 38 Figura 38 Área sob a curva normal entre LI e LS Problemas 11 Construa o box plot para os dados do Exemplo 23 Capítulo 2 O que você pode concluir a respeito da distribuição 12 Refaça a questão anterior com os dados do Problema 3 deste capítulo 13 Faça um box plot para o Problema 10 Comente sobre a simetria caudas e presença de valores atípicos 35 Gráficos de Simetria Os quantis podem ser úteis para se verificar se a distribuição dos dados é simétrica ou aproximadamente simétrica Se um conjunto de observações for perfeitamente simétrico devemos ter q05 xi xn 1 i q05 314 em que i 1 2 n2 se n for par e i 1 2 n 12 se n for ímpar Pela relação 314 vemos que se os quantis da direita estão mais afastados da mediana do que os da esquerda os dados serão assimétricos à direita Se ocorrer o contrário os dados serão assimétricos à esquerda A Figura 39 ilustra essas duas situações Figura 39 Distribuições assimétricas Para os dados do Exemplo 38 vemos que as observações são assimétricas à direita Em geral esse tipo de situação ocorre com dados positivos Podemos fazer um gráfico de simetria usando a identidade 314 Chamando de ui o primeiro membro e de vi o segundo membro fazendose um gráfico cartesiano com os uis como abscissas e os vis como ordenadas se os dados forem aproximadamente simétricos os pares ui vi estarão dispersos ao redor da reta v u Exemplo 39 Considere os dados que dispostos em ordem crescente ficam representados no eixo real como na Figura 310 Figura 310 Dados aproximadamente simétricos Esses dados são aproximadamente simétricos pois como q2 8 ui q2 xi vi xn 1 i q2 teremos u1 80 05 75 v1 153 80 73 u2 80 23 57 v2 135 80 55 u3 80 40 40 v3 120 80 40 u4 80 64 16 v4 98 80 18 A Figura 311 mostra o gráfico de simetria para as populações dos trinta municípios do Brasil Vemos que a maioria dos pontos estão acima da reta v u mostrando a assimetria à direita da distribuição dos valores Nessa figura vemos destacados os pontos correspondentes a Rio de Janeiro e São Paulo Figura 311 Gráfico de simetria para o CDMunicípios 36 Transformações Vários procedimentos estatísticos são baseados na suposição de que os dados provêm de uma distribuição normal em forma de sino ou então mais ou menos simétrica Mas em muitas situações de interesse prático a distribuição dos dados da amostra é assimétrica e pode conter valores atípicos como vimos em exemplos anteriores Se quisermos utilizar tais procedimentos o que se propõe é efetuar uma transformação das observações de modo a se obter uma distribuição mais simétrica e próxima da normal Uma família de transformações frequentemente utilizada é 315 Normalmente o que se faz é experimentar valores de p na sequência 3 2 1 12 13 14 0 14 13 12 1 2 3 e para cada valor de p obtemos gráficos apropriados histogramas box plots etc para os dados originais e transformados de modo a escolhermos o valor mais adequado de p Vimos que para dados positivos a distribuição dos dados é usualmente assimétrica à direita Para essas distribuições a transformação acima com 0 p 1 é apropriada pois valores grandes de x decrescem mais relativamente a valores pequenos Para distribuições assimétricas à esquerda tome p 1 Exemplo 310 Consideremos os dados das populações do CD Municípios e tomemos alguns valores de p 0 14 13 12 Na Figura 312 temos os histogramas para os dados transformados e na Figura 313 os respectivos box plots Vemos que p 0 transformação logarítmica e p 13 transformação raiz cúbica fornecem distribuições mais próximas de uma distribuição simétrica Figura 312 Histogramas para os dados transformados CDMunicípios Figura 313 Box plots para os dados transformados CDMunicípios R 37 Exemplos Computacionais Vamos retomar os exemplos estudados no Capítulo 2 e complementar as análises feitas com as medidas e gráficos expostos neste capítulo Além do R vamos usar o Minitab e SPlus para ver as diferenças entre os programas ao calcular certas medidas como os quantis Exemplo 210 continuação Aqui temos as notas em Estatística de 100 alunos de Economia Temos no Quadro 33 as principais medidas desse conjunto de dados fornecidas por uma variante do comando summary do R e do SPlus O comando Describe do Minitab oferece dez medidas Para obter essa mesmas medidas pelo R utilizamos a função summary2 que pode ser consultada nos scripts do Capítulo 3 Quadro 33 Medidas descritivas para o CDNotas R summary2 cdnotasnota 1 N 10000000 Min 150000 1st Qu 488000 Median 600000 Mean 592000 3rd Qu 712000 Max 1000000 Tr Mean 584375 Var 325188 StDev 180330 SE Mean 013429 Vemos por exemplo que q1 488 q2 600 e q3 712 Portanto dq q3 q1 224 O desvio padrão é 18 Usando o Minitab é possível verificar que esses quantis são diferentes indicando que distintos programas podem utilizar métodos diferentes ara calcular os quantis Vimos que a distribuição das notas é razoavelmente simétrica não havendo valores atípicos o que é confirmado pelo box plot da Figura 314 obtida pelo comando R boxplotcdnotasnota pch collightblue borderdarkgrey Figura 314 Box plot para o CDNotas R O gráfico de simetria da Figura 315 pode ser obtido pelos comandos do R umediancdnotasnotacdnotasnota vcdnotasnotamediancdnotasnota plotsortusortv pch19 xlabui ylabvicoldarkbluexlimc0maxuylimc0maxv titleFigura 315 Gráfico de simetria para o CDNotas abline01 Note que os pontos dispõemse ao redor da reta uv estando vários deles sobre ela indicando a quasesimetria dos dados Deveríamos ter 50 pontos no gráfico mas há vários pontos uivi repetidos Figura 315 Gráfico de simetria para o CDNotas Exemplo 211 continuação Os dados diários de temperatura na cidade de São Paulo no período considerado são ligeiramente assimétricos à esquerda O comando summary do R e do SPlus fornece as medidas descritivas do Quadro 34 Quadro 34 Medidas descritivas para temperaturas R e SPlus summary temp Min 123 1st Qu 16 Median 177 Mean 1722 3rd Qu 186 Max 21 Temos por exemplo q1 16 q2 177 e q3 186 A amplitude amostral é xn x1 87 e a distância interquartil é dq 26 O box plot e o gráfico de simetria estão nas Figuras 316 e 317 respectivamente que mostram a assimetria dos dados Todos os pontos estão abaixo da reta uv mostrando que uivi para todo i 1260 ou seja as distâncias da mediana aos quantis inferiores são maiores do que as distâncias dos quantis superiores à mediana indicando uma distribuição assimétrica à esquerda Obtémse essas duas figuras utilizando comandos similares àqueles do Exemplo 210 Figura 316 Box plot para as temperaturas de São Paulo CDPoluição R Figura 317 Gráfico de simetria para as temperaturas de São Paulo CDPoluição R 38 Problemas Suplementares 14 Mostre que a b c d 15 Usando os resultados da questão anterior calcule as variâncias dos Problemas 1 e 2 deste capítulo 16 Os dados abaixo representam as vendas semanais em classes de salários mínimos de vendedores de gêneros alimentícios Vendas semanais Nº de vendedores 30 35 2 35 40 10 40 45 18 45 50 50 50 55 70 55 60 30 60 65 18 65 70 2 a Faça o histograma das observações b Calcule a média da amostra x c Calcule o desvio padrão da amostra s d Qual a porcentagem das observações compreendidas entre x 2s e x 2s e Calcule a mediana 17 Considere o CDMunicípios e tome somente os 15 maiores relativamente à sua população Calcule q0 1 q0 2 q1 q2 q3 usando 320 18 O número de divórcios na cidade de acordo com a duração do casamento está representado na tabela abaixo a Qual a duração média dos casamentos E a mediana b Encontre a variância e o desvio padrão da duração dos casamentos c Construa o histograma da distribuição d Encontre o 1º e o 9º decis e Qual o intervalo interquantil Anos de casamento Nº de divórcios 0 6 2800 6 12 1400 12 18 600 18 24 150 24 30 50 19 O Departamento Pessoal de uma certa firma fez um levantamento dos salários dos 120 funcionários do setor administrativo obtendo os resultados em salários mínimos da tabela abaixo a Esboce o histograma correspondente b Calcule a média a variância e o desvio padrão c Calcule o 1º quartil e a mediana Faixa salarial Frequência relativa 0 2 025 2 4 040 4 6 020 6 10 015 d Se for concedido um aumento de 100 para todos os 120 funcionários haverá alteração na média E na variância Justifique sua resposta e Se for concedido um abono de dois salários mínimos para todos os 120 funcionários haverá alteração na média E na variância E na mediana Justifique sua resposta 20 O que acontece com a mediana a média e o desvio padrão de uma série de dados quando a cada observação é multiplicada por 2 b somase 10 a cada observação c subtraise a média geral x de cada observação d de cada observação subtraise x e dividese pelo desvio padrão dpx 21 Na companhia A a média dos salários é 10000 unidades e o 3º quartil é 5000 a Se você se apresentasse como candidato a funcionário nessa firma e se o seu salário fosse escolhido ao acaso entre todos os possíveis salários o que seria mais provável ganhar mais ou menos que 5000 unidades b Suponha que na companhia B a média dos salários seja 7000 unidades a variância praticamente zero e o salário também seja escolhido ao acaso Em qual companhia você se apresentaria para procurar emprego 22 Estamos interessados em estudar a idade dos 12325 funcionários da Cia Distribuidora de Leite Teco e isso será feito por meio de uma amostra Para determinar que tamanho deverá ter essa amostra foi colhida uma amostrapiloto As idades observadas foram 42 35 27 21 55 18 27 30 21 24 a Determine as medidas descritivas dos dados que você conhece b Qual dessas medidas você acredita que será a mais importante para julgar o tamanho final da amostra Por quê 23 Estudandose o consumo diário de leite verificouse que em certa região 20 das famílias consomem até um litro 50 consomem entre um e dois litros 20 consomem entre dois e três litros e o restante consome entre três e cinco litros Para a variável em estudo a Escreva as informações acima na forma de uma tabela de frequências b Construa o histograma c Calcule a média e a mediana d Calcule a variância e o desvio padrão e Qual o valor do 1º quartil 24 A distribuição de frequências do salário anual dos moradores do bairro A que têm alguma forma de rendimento é apresentada na tabela abaixo Faixa salarial 10 salários mínimos Frequência 0 2 10000 2 4 3900 4 6 2000 6 8 1100 8 10 800 10 12 700 12 14 2000 Total 20500 a Construa um histograma da distribuição b Qual a média e o desvio padrão da variável salário c O bairro B apresenta para a mesma variável uma média de 72 e um desvio padrão de 151 Em qual dos bairros a população é mais homogênea quanto à renda d Construa a função de distribuição acumulada e determine qual a faixa salarial dos 10 mais ricos da população do bairro e Qual a riqueza total dos moradores do bairro 25 Dado o histograma abaixo calcular a média a variância a moda a mediana e o 1º quartil 26 Em uma granja foi observada a distribuição dos frangos em relação ao peso que era a seguinte Peso gramas ni 960 980 60 980 1000 160 1000 1020 280 1020 1040 260 1040 1060 160 1060 1080 80 a Qual a média da distribuição b Qual a variância da distribuição c Construa o histograma d Queremos dividir os frangos em quatro categorias em relação ao peso de modo que os 20 mais leves sejam da categoria D os 30 seguintes sejam da categoria C os 30 seguintes sejam da categoria B os 20 seguintes ou seja os 20 mais pesados sejam da categoria A Quais os limites de peso entre as categorias A B C e D e O granjeiro decide separar desse lote os animais com peso inferior a dois desvios padrões abaixo da média para receberem ração reforçada e também separar os animais com peso superior a um e meio desvio padrão acima da média para usálos como reprodutores Qual a porcentagem de animais que serão separados em cada caso 27 A idade média dos candidatos a um determinado curso de aperfeiçoamento sempre foi baixa da ordem de 22 anos Como esse curso foi planejado para atender a todas as idades decidiuse fazer uma campanha de divulgação Para se verificar se a campanha foi ou não eficiente fezse um levantamento da idade dos candidatos à última promoção e os resultados estão na tabela a seguir Idade Frequência Porcentagem 18 20 18 36 20 22 12 24 22 26 10 20 26 30 8 16 30 36 2 4 Total 50 100 a Baseandose nesses resultados você diria que a campanha produziu algum efeito isto é aumentou a idade média b Um outro pesquisador decidiu usar a seguinte regra se a diferença x 22 fosse maior que o valor então a campanha teria surtido efeito Qual a conclusão dele baseada nos dados c Faça o histograma da distribuição 28 Para se estudar o desempenho de duas corretoras de ações selecionouse de cada uma delas amostras aleatórias das ações negociadas Para cada ação selecionada computouse a porcentagem de lucro apresentada durante um período fixado de tempo Os dados estão a seguir Que tipo de informação revelam esses dados Sugestão use a análise proposta nas Seções 33 e 34 29 Para verificar a homogeneidade das duas populações do problema anterior um estatístico sugeriu que se usasse o quociente mas não disse qual decisão tomar baseado nesse valor Que regra de decisão você adotaria para dizer se são homogêneas ou não varXA variância de X para a corretora A X de lucro 30 Faça um box plot para os dados da corretora A e um para os dados da corretora B Compare os dois conjuntos de dados por meio desses desenhos 31 Para decidir se o desempenho das duas corretoras do exercício 29 são semelhantes ou não adotouse o seguinte teste sejam Caso t 2 os desempenhos são semelhantes caso contrário são diferentes Qual seria a sua conclusão Aqui nA é o número de ações selecionadas da corretora A e nomenclatura análoga para nB 32 Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em educação por habitante realizado pelas prefeituras De um levantamento de dez cidades foram obtidos os valores codificados da tabela abaixo Cidade A B C D E F G H I J Investimento 20 16 14 8 19 15 14 16 19 18 Nesse caso será considerado como investimento básico a média final das observações calculada da seguinte maneira 1 Obtémse uma média inicial 2 Eliminamse do conjunto aquelas observações que forem superiores à média inicial mais duas vezes o desvio padrão ou inferiores à média inicial menos duas vezes o desvio padrão 3 Calculase a média final com o novo conjunto de observações Qual o investimento básico que você daria como resposta Observação O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo investimento é muito diferente dos demais 33 Estudandose a distribuição das idades dos funcionários de duas repartições públicas obtiveramse algumas medidas que estão no quadro abaixo Esboce o histograma alisado das duas distribuições indicando nele as medidas descritas no quadro Comente as principais diferenças entre os dois histogramas Repartição Mínimo 1º Quartil Mediana Média 3º Quartil Máximo dp A 18 27 33 33 39 48 5 B 18 23 32 33 42 48 10 34 Decidiuse investigar a distribuição dos profissionais com nível universitário em duas regiões A e B As informações pertinentes foram obtidas e encontramse no quadro abaixo expressas em salários mínimos Esboce a distribuição histograma alisado dos salários de cada região indicando no gráfico as medidas apresentadas no quadro Faça também uma descrição rápida das principais diferenças observadas nos gráficos Região Média dp Mediana Moda q1 q3 x1 xn A 2000 400 2032 2015 1732 2268 800 3200 B 2000 600 1800 1700 1600 2400 1400 4200 35 Construa um box plot para os dados do Problema 6 do Capítulo 2 Obtenha conclusões a respeito da distribuição a partir desse desenho 36 Usando os dados da variável qualitativa região de procedência da Tabela 21 transformea na variável quantitativa X definida do seguinte modo a Calcule x e varX b Qual a interpretação de x c Construa um histograma para X 37 No Problema 9 do Capítulo 2 temos os resultados de 25 funcionários em vários exames a que se submeteram Sabese agora que os critérios adotados em cada exame não são comparáveis por isso decidiuse usar o desempenho relativo em cada exame Essa medida será obtida do seguinte modo I Para cada exame serão calculados a média x e o desvio padrão dpX II A nota X de cada aluno será padronizada do seguinte modo a Interprete o significado de Z b Calcule as notas padronizadas dos funcionários para o exame de Estatística c Com os resultados obtidos em b calcule z e dpZ d Se alguma das notas padronizadas estiver acima de 2dpZ ou abaixo de 2dpZ esse funcionário deve ser considerado um caso atípico Existe algum nessa situação e O funcionário 1 obteve 90 em Direito em Estatística e em Política Em que disciplina o seu desempenho relativo foi melhor 38 Calcule o desvio absoluto mediano para as populações do CDBrasil 39 Calcule as principais medidas de posição e dispersão incluindo a média aparada e o dam para a variável CO no CDPoluição b salários de mecânicos CDSalários e c variável preço CDVeículos 40 Construa os histogramas ramoefolhas e box plots para as variáveis do problema anterior 41 Faça um gráfico de quantis e um de simetria para os dados do Problema 3 Os dados são simétricos Comente 42 Para o CDTemperaturas e para a variável temperatura de Ubatuba obtenha um gráfico de quantis e um gráfico de simetria Os dados são simétricos Comente 43 Use 321 para construir histogramas para a variável umid umidade do CDPoluição b variável salário dos professores do CDSalários e c a temperatura de Cananeia do CDTemperaturas 44 Calcule A dada por 322 para o Exemplo 35 Comente 45 Calcule A para o Exemplo 38 Comente 39 Complementos Metodológicos 1 Quantis Para calcular os quantis de uma sequência de valores de uma variável X poderíamos usar a função de distribuição acumulada ou empírica definida no Problema 17 do Capítulo 2 Essa função fornece para cada número real x a proporção das observações menores ou iguais a x No Exemplo 35 temos 316 O gráfico de Fex está na Figura 318 Note que não há nenhum valor de x tal que Fex 05 e Fe2 19 Fe3 29 Fe15 1 ou seja podemos escrever de modo geral 317 Em particular Femd Fx5 Fe8 59 0556 Portanto ou mudamos nossa definição de mediana ou Fe não pode ser usada para definir precisamente mediana ou em geral um quantil qp Figura 318 Funções de distribuição empírica Fe e fde alisada Fe para o Exemplo 35 Mas vejamos que Fe pode ser a base para tal definição Considere alisar ou suavizar Fe como feito na Figura 318 de modo a obter uma curva contínua Fex que passa pelos pontos xi pi em que 318 Observe que 0 p1 19 19 p2 29 etc Com esse procedimento notamos que ou seja podemos escrever 319 sendo que no nosso caso n 9 Com essa modificação obtemos que emd e8 05 e para cada p 0 p 1 podemos obter de modo unívoco o quantil qp tomandose a função inversa e 1p Ou seja considere uma reta horizontal passando por p no eixo das ordenadas até encontrar a curva contínua e depois baixe uma reta vertical até encontrar qp no eixo das abscissas Uma maneira equivalente de proceder nos leva à seguinte definição para calcular qp para qualquer p 0 p 1 Definição O pquantil é definido por 320 em que Notamos então que se p coincidir com a proporção pi o quantil será a iésima observação xi Se pi p pi1 o quantil estará no segmento de reta que une pi xi e pi1 xi1 De fato a reta passando por pi xi e p qp é Exemplo 35 continuação Usando a definição obtemos q01 06x1 04x2 062 043 24 q02 07x2 03x3 073 035 36 q025 025x2 075x3 45 q05 x5 8 q075 075x7 025x8 07511 02512 1125 2 Média aparada Se 0 α 1 uma média aparada a 100α é obtida eliminando l00α das menores observações e 100α das maiores observações e calculandose a média aritmética das restantes Por exemplo se tivermos 10 observações ordenadas x1 x2 x10 a média aparada a 10 é Se α 025 x 025 é chamada meiamédia Calcule a média aparada a 10 e 25 para os dados de salários da Tabela 21 3 Coeficiente de variação Como vimos na Seção 33 o desvio padrão é bastante afetado pela magnitude dos dados ou seja ele não é uma medida resistente Se quisermos comparar a variabilidade de dois conjuntos de dados podemos usar o coeficiente de variação que é definido como a razão entre o desvio padrão S e a média amostral e usualmente expresso em porcentagem Calcule o coeficiente de variação para as regiões A e B e do Problema 35 e comente o resultado 4 Desvio absoluto mediano Esta é uma medida de dispersão dos dados x1 xn definida por dam med1 j nxj med1 i nxi Ou seja calculamos a mediana dos dados depois os desvios absolutos dos dados em relação à mediana e finalmente a mediana desses desvios absolutos Vamos considerar os dados abaixo extraídos de Graedel e Kleiner 1985 e que representam velocidades do vento no aeroporto da Filadélfia EUA para os primeiros 15 dias de dezembro de 1974 Vemos que há uma observação muito diferente das demais 611 mas que representa um dado real no dia 2 de dezembro houve uma tempestade forte com chuva e vento 222 611 130 278 222 74 74 74 204 204 204 111 130 74 148 Calculandose as medidas de posição e dispersão estudadas obtemos x 184 x020 158 md 148 q1 83 q3 218 dq 148 dam 74 dpX 135 Observemos que retirandose o valor atípico 611 a média passa a ser 153 e o desvio padrão 68 valor este mais próximo do dam 5 O histograma dá uma ideia de como é a verdadeira densidade de frequências da população da qual os dados foram selecionados Suponha que tenhamos o histograma da figura abaixo e que a curva suave seja a verdadeira densidade populacional desconhecida Considere as distâncias entre o histograma e a densidade Suponha que queiramos determinar a amplitude de classe do histograma de modo a minimizar a maior distância em valor absoluto Freedman e Diaconis 1981 mostraram que o valor de é dado aproximadamente por em que S é um estimador robusto do desvio padrão populacional Por exemplo podemos tomar em que dq q3 q1 é a distância interquartil devido ao fato de numa distribuição normal dq 1 349σ sendo o σ o desvio padrão Seguese que é dado por 321 Usando esse resultado o número de classes a considerar num histograma é obtido por meio de 6 Medida de assimetria Pelas observações feitas para variáveis simétricas na Seção 33 podemos definir a medida 322 Se a distribuição for simétrica o numerador de A é zero e portanto A 0 Capítulo 4 Análise Bidimensional 41 Introdução Até agora vimos como organizar e resumir informações pertinentes a uma única variável ou a um conjunto de dados mas frequentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis aleatórias Os dados aparecem na forma de uma matriz usualmente com as colunas indicando as variáveis e as linhas os indivíduos ou elementos A Tabela 41 mostra a notação de uma matriz com p variáveis X1 X2 Xp e n indivíduos totalizando np dados A Tabela 21 com os dados hipotéticos da Companhia MB é uma ilustração numérica de uma matriz 36 7 O principal objetivo das análises nessa situação é explorar relações similaridades entre as colunas ou algumas vezes entre as linhas Como no caso de apenas uma variável que estudamos a distribuição conjunta das frequências será um instrumento poderoso para a compreensão do comportamento dos dados Neste capítulo iremos nos deter no caso de duas variáveis ou dois conjuntos de dados Na Seção 48 daremos dois exemplos do caso de três variáveis Tabela 41 Tabela de dados Em algumas situações podemos ter dois ou mais conjuntos de dados provenientes da observação da mesma variável Por exemplo podemos ter um conjunto de dados x1 xn que são as temperaturas na cidade A durante n meses e outro conjunto de dados y1 yn que são as temperaturas da cidade B nos mesmos meses Para efeito de análise podemos considerar que o primeiro conjunto são observações da variável X temperatura na cidade A enquanto o segundo conjunto são observações da variável Y temperatura na cidade B Este é o caso do CDTemperaturas Também poderíamos usar uma variável X para indicar a temperatura e outra variável L para indicar se a observação pertence à região A ou B Na Tabela 21 podemos estar interessados em comparar os salários dos casados e solteiros Uma reordenação dos dados poderia colocar os casados nas primeiras posições e os solteiros nas últimas e nosso objetivo passaria a ser comparar na coluna de salários variável S o comportamento de S na parte superior com a inferior A escolha da apresentação de um ou outro modo será ditada principalmente pelo interesse e técnicas de análise à disposição do pesquisador No CDBrasil temos três variáveis superfície população e densidade populacional No CDPoluíção temos quatro variáveis quantidade de monóxido de carbono ozônio temperatura do ar e umidade relativa do ar Quando consideramos duas variáveis ou dois conjuntos de dados podemos ter três situações a as duas variáveis são qualitativas b as duas variáveis são quantitativas e c uma variável é qualitativa e outra é quantitativa As técnicas de análise de dados nas três situações são diferentes Quando as variáveis são qualitativas os dados são resumidos em tabelas de dupla entrada ou de contingência em que aparecerão as frequências absolutas ou contagens de indivíduos que pertencem simultaneamente a categorias de uma e outra variável Quando as duas variáveis são quantitativas as observações são provenientes de mensurações e técnicas como gráficos de dispersão ou de quantis são apropriadas Quando temos uma variável qualitativa e outra quantitativa em geral analisamos o que acontece com a variável quantitativa quando os dados são categorizados de acordo com os diversos atributos da variável qualitativa Mas podemos ter também o caso de duas variáveis quantitativas agrupadas em classes Por exemplo podemos querer analisar a associação entre renda e consumo de certo número de famílias e para isso agrupamos as famílias em classes de rendas e classes de consumo Desse modo recaímos novamente numa tabela de dupla entrada Contudo em todas as situações o objetivo é encontrar as possíveis relações ou associações entre as duas variáveis Essas relações podem ser detectadas por meio de métodos gráficos e medidas numéricas Para efeitos práticos e a razão ficará mais clara após o estudo de probabilidades iremos entender a existência de associação como a mudança de opinião sobre o comportamento de uma variável na presença ou não de informação sobre a segunda variável Ilustrando existe relação entre a altura de pessoas e o sexo homem ou mulher em dada comunidade Pode se fazer uma primeira pergunta qual a frequência esperada de uma pessoa dessa população ter digamos mais de 170 cm de altura E também uma segunda qual a frequência esperada de uma mulher ou homem ter mais de 170 cm de altura Se a resposta para as duas perguntas for a mesma diríamos que não há associação entre as variáveis altura e sexo Porém se as respostas forem diferentes isso significa uma provável associação e devemos incorporar esse conhecimento para melhorar o entendimento sobre os comportamentos das variáveis No exemplo em questão você acha que existe associação entre as variáveis 42 Variáveis Qualitativas Para ilustrar o tipo de análise consideremos o exemplo a seguir Exemplo 41 Suponha que queiramos analisar o comportamento conjunto das variáveis Y grau de instrução e V região de procedência cujas observações estão contidas na Tabela 21 A distribuição de frequências é representada por uma tabela de dupla entrada e está na Tabela 42 Cada elemento do corpo da tabela dá a frequência observada das realizações simultâneas de Y e V Assim observamos quatro indivíduos da capital com ensino fundamental sete do interior com ensino médio etc A linha dos totais fornece a distribuição da variável Y ao passo que a coluna dos totais fornece a distribuição da variável V As distribuições assim obtidas são chamadas tecnicamente de distribuições marginais enquanto a Tabela 42 constitui a distribuição conjunta de Y e V Tabela 42 Distribuição conjunta das frequências das variáveis grau de instrução Y e região de procedência V V Y Ensino Fundamental Ensino Médio Superior Total Capital 4 5 2 11 Interior 3 7 2 12 Outra 5 6 2 13 Total 12 18 6 36 Fonte Tabela 21 Em vez de trabalharmos com as frequências absolutas podemos construir tabelas com as frequências relativas proporções como foi feito no caso unidimensional Mas aqui existem três possibilidades de expressarmos a proporção de cada casela a em relação ao total geral b em relação ao total de cada linha c ou em relação ao total de cada coluna De acordo com o objetivo do problema em estudo uma delas será a mais conveniente A Tabela 43 apresenta a distribuição conjunta das frequências relativas expressas como proporções do total geral Podemos então afirmar que 11 dos empregados vêm da capital e têm o ensino fundamental Os totais nas margens fornecem as distribuições unidimensionais de cada uma das variáveis Por exemplo 31 dos indivíduos vêm da capital 33 do interior e 36 de outras regiões Observe que devido ao problema de aproximação das divisões a distribuição das proporções introduz algumas diferenças não existentes Compare por exemplo as colunas de instrução superior nas Tabelas 42 e 43 A Tabela 44 apresenta a distribuição das proporções em relação ao total das colunas Podemos dizer que entre os empregados com instrução até o ensino fundamental 33 vêm da capital ao passo que entre os empregados com ensino médio 28 vêm da capital Esse tipo de tabela serve para comparar a distribuição da procedência dos indivíduos conforme o grau de instrução Tabela 43 Distribuição conjunta das proporções em porcentagem em relação ao total geral das variáveis Y e V definidas no texto V Y Fundamental Médio Superior Total Capital 11 14 6 31 Interior 8 19 6 33 Outra 14 17 5 36 Total 33 50 17 100 Fonte Tabela 42 Tabela 44 Distribuição conjunta das proporções em porcentagem em relação aos totais de cada coluna das variáveis Y e V definidas no texto V Y Fundamental Médio Superior Total Capital 33 28 33 31 Interior 25 39 33 33 Outra 42 33 34 36 Total 100 100 100 100 Fonte Tabela 42 De modo análogo podemos construir a distribuição das proporções em relação ao total das linhas Aconselhamos o leitor a construir essa tabela A comparação entre as duas variáveis também pode ser feita utilizandose representações gráficas Na Figura 41 apresentamos uma possível representação para os dados da Tabela 44 Figura 41 Distribuição da região de procedência por grau de instrução Problemas 1 Usando os dados da Tabela 21 Capítulo 2 a Construa a distribuição de frequência conjunta para as variáveis grau de instrução e região de procedência b Qual a porcentagem de funcionários que têm o ensino médio c Qual a porcentagem daqueles que têm o ensino médio e são do interior d Dentre os funcionários do interior quantos por cento têm o ensino médio 2 No problema anterior sorteando um funcionário ao acaso entre os 36 a Qual será provavelmente o seu grau de instrução b E sua região de procedência c Qual a probabilidade do sorteado ter nível superior d Sabendo que o sorteado é do interior qual a probabilidade de ele possuir nível superior e Sabendo que o escolhido é da capital qual a probabilidade de ele possuir nível superior 3 Numa pesquisa sobre rotatividade de mão de obra para uma amostra de 40 pessoas foram observadas duas variáveis número de empregos nos últimos dois anos X e salário mais recente em número de salários mínimos Y Os resultados foram Indivíduo X Y Indivíduo X Y 1 1 6 21 2 4 2 3 2 22 3 2 3 2 4 23 4 1 4 3 1 24 1 5 5 2 4 25 2 4 6 2 1 26 3 2 7 3 3 27 4 1 8 1 5 28 1 5 9 2 2 29 4 4 10 3 2 30 3 3 11 2 5 31 2 2 12 3 2 32 1 1 13 1 6 33 4 1 14 2 6 34 2 6 15 3 2 35 4 2 16 4 2 36 3 1 17 1 5 37 1 4 18 2 5 38 3 2 19 2 1 39 2 3 20 2 1 40 2 5 a Usando a mediana classifique os indivíduos em dois níveis alto e baixo para cada uma das variáveis e construa a distribuição de frequências conjunta das duas classificações b Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco c Qual a porcentagem das pessoas que ganham pouco d Entre as pessoas com baixa rotatividade qual a porcentagem das que ganham pouco e A informação adicional dada em d mudou muito a porcentagem observada em c O que isso significa 43 Associação entre Variáveis Qualitativas Um dos principais objetivos de se construir uma distribuição conjunta de duas variáveis qualitativas é descrever a associação entre elas isto é queremos conhecer o grau de dependência entre elas de modo que possamos prever melhor o resultado de uma delas quando conhecermos a realização da outra Por exemplo se quisermos estimar qual a renda média de uma família moradora da cidade de São Paulo a informação adicional sobre a classe social a que ela pertence nos permite estimar com maior precisão essa renda pois sabemos que existe uma dependência entre as duas variáveis renda familiar e classe social Ou ainda suponhamos que uma pessoa seja sorteada ao acaso na população da cidade de São Paulo e devamos adivinhar o sexo dessa pessoa Como a proporção de pessoas de cada sexo é aproximadamente a mesma o resultado desse exercício de adivinhação poderia ser qualquer um dos sexos masculino ou feminino Mas se a mesma pergunta fosse feita e também fosse dito que a pessoa sorteada trabalha na indústria siderúrgica então nossa resposta mais provável seria que a pessoa sorteada é do sexo masculino Ou seja há um grau de dependência grande entre as variáveis sexo e ramo de atividade Vejamos como podemos identificar a associação entre duas variáveis da distribuição conjunta Exemplo 42 Queremos verificar se existe ou não associação entre o sexo e a carreira escolhida por 200 alunos de Economia e Administração Esses dados estão na Tabela 45 Tabela 45 Distribuição conjunta de alunos segundo o sexo X e o curso escolhido Y Y X Masculino Feminino Total Economia 85 35 120 Administração 55 25 80 Total 140 60 200 Fonte Dados hipotéticos Inicialmente verificamos que fica muito difícil tirar alguma conclusão devido à diferença entre os totais marginais Devemos pois construir as proporções segundo as linhas ou as colunas para podermos fazer comparações Fixemos os totais das colunas a distribuição está na Tabela 46 Tabela 46 Distribuição conjunta das proporções em porcentagem de alunos segundo o sexo X e o curso escolhido Y Y X Masculino Feminino Total Economia 61 58 60 Administração 39 42 40 Total 100 100 100 Fonte Tabela 45 A partir dessa tabela podemos observar que independentemente do sexo 60 das pessoas preferem Economia e 40 preferem Administração observe na coluna de total Não havendo dependência entre as variáveis esperaríamos essas mesmas proporções para cada sexo Observando a tabela vemos que as proporções do sexo masculino 61 e 39 e do sexo feminino 58 e 42 são próximas das marginais 60 e 40 Esses resultados parecem indicar não haver dependência entre as duas variáveis para o conjunto de alunos considerado Concluímos então que neste caso as variáveis sexo e escolha do curso parecem ser não associadas Vamos considerar agora um problema semelhante mas envolvendo alunos de Física e Ciências Sociais cuja distribuição conjunta está na Tabela 47 Tabela 47 Distribuição conjunta das frequências e proporções em porcentagem segundo o sexo X e o curso escolhido Y Y X Masculino Feminino Total Física 100 71 20 33 120 60 Ciências Sociais 40 29 40 67 80 40 Total 140 100 60 100 200 100 Fonte Dados hipotéticos Inicialmente convém observar que para economizar espaço resumimos duas tabelas numa única indicando as proporções em relação aos totais das colunas entre parênteses Comparando agora a distribuição das proporções pelos cursos independentemente do sexo coluna de totais com as distribuições diferenciadas por sexo colunas de masculino e feminino observamos uma disparidade bem acentuada nas proporções Parece pois haver maior concentração de homens no curso de Física e de mulheres no de Ciências Sociais Portanto nesse caso as variáveis sexo e curso escolhido parecem ser associadas Quando existe associação entre variáveis sempre é interessante quantificar essa associação e isso será objeto da próxima seção Antes de passarmos a discutir esse aspecto convém observar que teríamos obtido as mesmas conclusões do Exemplo 42 se tivéssemos calculado as proporções mantendo constantes os totais das linhas Problemas 4 Usando os dados do Problema 1 responda a Qual a distribuição das proporções do grau de educação segundo cada uma das regiões de procedência b Baseado no resultado anterior e no Problema 2 você diria que existe dependência entre a região de procedência e o nível de educação do funcionário 5 Usando o Problema 3 verifique se há relações entre as variáveis rotatividade e salário 6 Uma companhia de seguros analisou a frequência com que 2000 segurados 1000 homens e 1000 mulheres usaram o hospital Os resultados foram Homens Mulheres Usaram o hospital 100 150 Não usaram o hospital 900 850 a Calcule a proporção de homens entre os indivíduos que usaram o hospital b Calcule a proporção de homens entre os indivíduos que não usaram o hospital c O uso do hospital independe do sexo do segurado 44 Medidas de Associação entre Variáveis Qualitativas De modo geral a quantificação do grau de associação entre duas variáveis é feita pelos chamados coeficientes de associação ou correlação Essas são medidas que descrevem por meio de um único número a associação ou dependência entre duas variáveis Para facilitar a compreensão esses coeficientes usualmente variam entre 0 e 1 ou entre 1 e 1 e a proximidade de zero indica falta de associação Existem muitas medidas que quantificam a associação entre variáveis qualitativas apresentaremos apenas duas delas o chamado coeficiente de contingência devido a K Pearson e uma modificação desse Exemplo 43 Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional Coletados os dados relevantes obtemos a Tabela 48 Tabela 48 Cooperativas autorizadas a funcionar por tipo e estado junho de 1974 Estado Tipo de Cooperativa Total Consumidor Produtor Escola Outras São Paulo 214 33 237 37 78 12 119 18 648 100 Paraná 51 17 102 34 126 42 22 7 301 100 Rio G do Sul 111 18 304 51 139 23 48 8 602 100 Total 376 24 643 42 343 22 189 12 1551 100 Fonte Sinopse Estatística da Brasil IBGE 1977 A análise da tabela mostra a existência de certa dependência entre as variáveis Caso não houvesse associação esperaríamos que em cada estado tivéssemos 24 de cooperativas de consumidores 42 de cooperativas de produtores 22 de escolas e 12 de outros tipos Então por exemplo o número esperado de cooperativas de consumidores no Estado de São Paulo seria 648 024 157 e no Paraná seria 301 024 73 ver Tabela 49 Tabela 49 Valores esperados na Tabela 48 assumindo a independência entre as duas variáveis Estado Tipo de Cooperativa Total Consumidor Produtor Escola Outras São Paulo 157 24 269 42 143 22 79 12 648 100 Paraná 73 24 124 42 67 22 37 12 301 100 Rio G do Sul 146 24 250 42 133 22 73 12 602 100 Total 376 24 643 42 343 22 189 12 1551 100 Fonte Tabela 48 Tabela 410 Desvios entre observados e esperados Comparando as duas tabelas podemos verificar as discrepâncias existentes entre os valores observados Tabela 48 e os valores esperados Tabela 49 caso as variáveis não fossem associadas Na Tabela 410 resumimos os desvios valores observados menos valores esperados Observando essa tabela podemos tirar algumas conclusões i A soma total dos resíduos é nula Isso pode ser verificado facilmente somandose cada linha ii A casela EscolaSão Paulo é aquela que apresenta o maior desvio da suposição de nãoassociação 65 Nessa casela esperávamos 143 casos A casela EscolaParaná também tem um desvio alto 59 mas o valor esperado é bem menor 67 Portanto se fôssemos considerar os desvios relativos aquele correspondente ao segundo caso seria bem maior Uma maneira de observar esse fato é construir para cada casela a oi ei2 ei Usando 41 para a casela EscolaSão Paulo obtemos 65²143 2955 e para a casela EscolaParaná obtemos 59²67 5196 o que é uma indicação de que o desvio devido a essa última casela é maior do que aquele da primeira Na Tabela 410 indicamos entre parênteses esses valores para todas as caselas Uma medida do afastamento global pode ser dada pela soma de todas as medidas 41 Essa medida é denominada χ² quiquadrado de Pearson e no nosso exemplo teríamos χ² 2069 663 856 17176 Um valor grande de χ² indica associação entre as variáveis o que parece ser o caso Antes de dar uma fórmula geral para essa medida de associação vamos introduzir na Tabela 411 uma notação geral para tabelas de dupla entrada Tabela 411 Notação para tabelas de contingência Suponha que temos duas variáveis qualitativas X e Y classificadas em r categorias A₁ A₂ Aᵣ para X e s categorias B₁ B₂ Bₛ para Y Na tabela temos nᵢⱼ número de elementos pertencentes à iésima categoria de X e jésima categoria de Y nₕ Σᵐ₁ nᵢⱼ número de elementos da iésima categoria de X nⱼ Σᵖ₁ nᵢⱼ número de elementos da jésima categoria de Y n nₕ Σₕ₁ nᵢⱼ número total de elementos Sob a hipótese de que as variáveis X e Y não sejam associadas comumente dizemos independentes temos que nᵢⱼ nₕ nⱼ n 1 i 1 r j 1 s 43 Portanto sob a hipótese de independência de 43 segue que em termos de frequências relativas podemos escrever fᵢⱼ fₕfⱼ Chamando de frequências esperadas os valores dados pelos segundos membros de 43 e denotandoas por nᵢⱼ temos que o quiquadrado de Pearson pode ser escrito χ² Σᵢ Σⱼ nᵢⱼ nᵢⱼ² nᵢⱼ 44 em que nᵢⱼ são os valores efetivamente observados Se a hipótese de não associação for verdadeira o valor calculado de 44 deve estar próximo de zero Se as variáveis forem associadas o valor de χ² deve ser grande Podemos escrever a fórmula 44 em termos de frequências relativas como Outra medida de associação foi proposta por Cramér dada por V X²nq1 onde q min r s Para o Exemplo 43 temos que C 0 32 T 0 21 e V 0 24 Voltaremos a falar do uso do χ² no Capítulo 14 Vejamos um exemplo em que há dependência completa e deveremos obter T 1 Suponha X Y e r s 2 com n observações distribuídas segundo a tabela abaixo É fácil ver que todos os valores esperados são iguais a n4 e o valor calculado do quiquadrado será χ² n do que resulta T 1 Para outros exemplos veja os Problemas 39 e 40 45 Associação entre Variáveis Quantitativas Quando as variáveis envolvidas são ambas do tipo quantitativo podese usar o mesmo tipo de análise apresentado nas seções anteriores e exemplificado com variáveis qualitativas De modo análogo a distribuição conjunta pode ser resumida em tabelas de dupla entrada e por meio das distribuições marginais é possível estudar a associação das variáveis Algumas vezes para evitar um grande número de entradas agrupamos os dados marginais em intervalos de classes de modo semelhante ao resumo feito no caso unidimensional Mas além desse tipo de análise as variáveis quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas ou entre dois conjuntos de dados é o gráfico de dispersão que vamos introduzir por meio de exemplos Exemplo 44 Na Figura 42 temos o gráfico de dispersão das variáveis X e Y da Tabela 412 Nesse tipo de gráfico temos os possíveis pares de valores x y na ordem que aparecem Para o exemplo vemos que parece haver uma associação entre as variáveis porque no conjunto a medida que aumenta o tempo de serviço aumenta o número de clientes Tabela 412 Número de anos de serviço X por número de clientes Y de agentes de uma companhia de seguros Agente Anos de serviço X Número de clientes Y A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 10 72 Fonte Dados hipotéticos Figura 42 Gráfico de dispersão para as variáveis X anos de serviço e Y número de clientes Exemplo 45 Consideremos os dados das variáveis X população urbana e Y população rural no Brasil em 1996 O gráfico de dispersão está na Figura 43 Vemos que parece não haver associação entre as variáveis pois os pontos não apresentam nenhuma tendência particular Figura 43 Gráfico de dispersão para as variáveis X população urbana e Y população rural Exemplo 46 Consideremos agora as duas situações abaixo e os respectivos gráficos de dispersão a Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salários mínimos mediramse X renda bruta mensal expressa em número de salários mínimos Y a porcentagem da renda bruta anual gasta com assistência médica os dados estão na Tabela 413 Observando o gráfico de dispersão Figura 44 vemos que existe uma associação inversa isto é aumentando a renda bruta diminui a porcentagem sobre ela gasta em assistência médica Antes de passarmos ao exemplo seguinte convém observar que a disposição dos dados da Tabela 413 numa tabela de dupla entrada não iria melhorar a compreensão dos dados visto que devido ao pequeno número de observações teríamos caselas cheias apenas na diagonal Tabela 413 Renda bruta mensal X e porcentagem da renda gasta em saúde Y para um conjunto de famílias Família X Y A 12 72 B 16 74 C 18 70 D 20 65 E 28 66 F 30 67 G 40 60 H 48 56 I 50 60 J 54 55 Fonte Dados hipotéticos Figura 44 Gráfico de dispersão para as variáveis X renda bruta e Y renda gasta com saúde b Oito indivíduos foram submetidos a um teste sobre conhecimento de língua estrangeira e em seguida mediuse o tempo gasto para cada um aprender a operar uma determinada máquina As variáveis medidas foram X resultado obtido no teste máximo 100 pontos Y tempo em minutos necessário para operar a máquina satisfatoriamente Os dados estão na Tabela 414 Do gráfico de dispersão Figura 45 concluímos que parece não haver associação entre as duas variáveis pois conhecer o resultado do teste não ajuda a prever o tempo gasto para aprender a operar a máquina Tabela 414 Resultado de um teste X e tempo de operação de máquina Y para oito indivíduos Indivíduo X Y A 45 343 B 52 368 C 61 355 D 70 334 E 74 337 F 76 381 G 80 345 H 90 375 Fonte Dados hipotéticos Figura 45 Gráfico de dispersão para as variáveis X resultado no teste e Y tempo de operação A partir dos gráficos apresentados verificamos que a representação gráfica das variáveis quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à existência ou não de associação entre elas Contudo é muito útil quantificar esta associação Existem muitos tipos de associações possíveis e aqui iremos apresentar o tipo de relação mais simples que é a linear Isto é iremos definir uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão aproximase de uma reta Esta medida será definida de modo a variar num intervalo finito especificamente de 1 a 1 Consideremos um gráfico de dispersão como o da Figura 46 a no qual por meio de uma transformação conveniente a origem foi colocada no centro da nuvem de dispersão Aqueles dados possuem uma associação linear direta ou positiva e notamos que a grande maioria dos pontos está situada no primeiro e terceiro quadrantes Nesses quadrantes as coordenadas dos pontos têm o mesmo sinal e portanto o produto delas será sempre positivo Somandose o produto das coordenadas dos pontos o resultado será um número positivo pois existem mais produtos positivos do que negativos Figura 46 Tipos de associações entre duas variáveis Para a dispersão da Figura 46 b observamos uma dependência linear inversa ou negativa e procedendose como anteriormente a soma dos produtos das coordenadas será negativa Finalmente para a Figura 46 c a soma dos produtos das coordenadas será zero pois cada resultado positivo tem um resultado negativo simétrico anulandose na soma Nesse caso não há associação linear entre as duas variáveis Em casos semelhantes quando a distribuição dos pontos for mais ou menos circular a soma dos produtos será aproximadamente zero Baseandose nesses fatos é que iremos definir o coeficiente de correlação linear entre duas variáveis que é uma medida do grau de associação entre elas e também da proximidade dos dados a uma reta Antes cabe uma observação A soma dos produtos das coordenadas depende e muito do número de pontos Considere o caso de associação positiva a soma acima tende a aumentar com o número de pares x y e ficaria difícil comparar essa medida para dois conjuntos com números diferentes de pontos Por isso costumase usar a média da soma dos produtos das coordenadas Exemplo 47 Voltemos aos dados da Tabela 412 O primeiro problema que devemos resolver é o da mudança da origem do sistema para o centro da nuvem de dispersão Um ponto conveniente é x y ou seja as coordenadas da origem serão as médias dos valores de X e Y As novas coordenadas estão mostradas na quarta e quinta colunas da Tabela 415 Observando esses valores centrados verificamos que ainda existe um problema quanto à escala usada A variável Y tem variabilidade muito maior do que X e o produto ficaria muito mais afetado pelos resultados de Y do que pelos de X Para corrigirmos isso podemos reduzir as duas variáveis a uma mesma escala dividindose os desvios pelos respectivos desvios padrões Esses novos valores estão nas colunas 6 e 7 Observe as mudanças escalas dos eixos de variáveis realizadas acompanhando a Figura 47 Finalmente na coluna 8 indicamos os produtos das coordenadas reduzidas e sua soma 8769 que como esperávamos é positiva Para completar a definição dessa medida de associação basta calcular a média dos produtos das coordenadas reduzidas isto é correlação XY 876910 0877 Tabela 415 Cálculo do coeficiente de correlação Agente Anos x Clientes y x x y y zx zy A 2 48 37 85 154 105 1617 B 3 50 27 65 112 080 0846 C 4 56 17 05 071 006 0043 D 5 52 07 45 029 055 0160 E 4 43 17 135 071 166 1179 F 6 60 03 35 012 043 0052 G 7 62 13 55 054 068 0367 H 8 58 23 15 095 019 0181 I 8 64 23 75 095 092 0874 J 10 72 43 155 178 191 3400 Total 57 565 0 0 8769 x 57 dpX 241 y 565 dpY 811 Portanto para esse exemplo o grau de associação linear está quantificado por 877 Figura 47 Mudança de escalas para o cálculo do coeficiente de correlação Da discussão feita até aqui podemos definir o coeficiente de correlação do seguinte modo Definição Dados n pares de valores x1 y1 x2 y2 xn yn chamaremos de coeficiente de correlação entre as duas variáveis X e Y a 47 ou seja a média dos produtos dos valores padronizados das variáveis Não é difícil provar que o coeficiente de correlação satisfaz 1 corr X Y 1 48 A definição acima pode ser operacionalizada de modo mais conveniente pelas seguintes fórmulas 49 O numerador da expressão acima que mede o total da concentração dos pontos pelos quatro quadrantes dá origem a uma medida bastante usada e que definimos a seguir Definição Dados n pares de valores x1 y1 xn yn chamaremos de covariância entre as duas variáveis X e Y a 410 ou seja a média dos produtos dos valores centrados das variáveis Com essa definição o coeficiente de correlação pode ser escrito como 411 Para analisar dois conjuntos de dados podemos recorrer também aos métodos utilizados anteriormente para analisar um conjunto de dados exibindo as análises feitas separadamente para efeito de comparação Por exemplo podemos exibir os desenhos esquemáticos ou os ramosefolhas para os dois conjuntos de observações 46 Associação entre Variáveis Qualitativas e Quantitativas Como mencionado na introdução deste capítulo é comum nessas situações analisar o que acontece com a variável quantitativa dentro de cada categoria da variável qualitativa Essa análise pode ser conduzida por meio de medidasresumo histogramas box plots ou ramoefolhas Vamos ilustrar com um exemplo Exemplo 48 Retomemos os dados da Tabela 21 para os quais desejamos analisar agora o comportamento dos salários dentro de cada categoria de grau de instrução ou seja investigar o comportamento conjunto das variáveis S e Y Tabela 416 Medidasresumo para a variável salário segundo o grau de instrução na Companhia MB Grau de instrução n s dpS varS s1 q1 q2 q3 sn Fundamental 12 784 279 777 400 601 713 916 1365 Médio 18 1154 362 1310 573 884 109114481940 Superior 6 1648 411 1689 10531365167418382330 Todos 36 1112 452 2046 400 755 101714062330 Comecemos a análise construindo a Tabela 416 que contém medidasresumo da variável S para cada categoria de Y A seguir na Figura 48 apresentamos uma visualização gráfica por meio de box plots Figura 48 Box plots de salário segundo grau de instrução SPlus A leitura desses resultados sugere uma dependência dos salários em relação ao grau de instrução o salário aumenta conforme aumenta o nível de educação do indivíduo O salário médio de um funcionário é 1112 salários mínimos já para um funcionário com curso superior o salário médio passa a ser 1648 enquanto funcionários com o ensino fundamental completo recebem em média 784 Na Tabela 417 e na Figura 49 temos os resultados da análise dos salários em função da região de procedência V que mostram a inexistência de uma relação melhor definida entre essas duas variáveis Ou ainda os salários estão mais relacionados com o grau de instrução do que com a região de procedência Tabela 417 Medidasresumo para a variável salário segundo a região de procedência na Companhia MB Região de procedência n s dpS varS s1 q1 q2 q3 sn Capital 11 1146 522 2727 456 749 977 1663 1940 Interior 12 1155 507 2571 400 781 1064 1470 2330 Outra 13 1045 302 913 573 874 980 1279 1622 Todos 36 1112 452 2046 400 755 1017 1406 2330 Figura 49 Box plots de salário segundo região de procedência SPlus Como nos casos anteriores é conveniente poder contar com uma medida que quantifique o grau de dependência entre as variáveis Com esse intuito convém observar que as variâncias podem ser usadas como insumos para construir essa medida Sem usar a informação da variável categorizada a variância calculada para a variável quantitativa para todos os dados mede a dispersão dos dados globalmente Se a variância dentro de cada categoria for pequena e menor do que a global significa que a variável qualitativa melhora a capacidade de previsão da quantitativa e portanto existe uma relação entre as duas variáveis Observe que para as variáveis S e Y as variâncias de S dentro das três categorias são menores do que a global Já para as variáveis S e V temos duas variâncias de S maiores e uma menor do que a global o que corrobora a afirmação acima Necessitase então de uma medidaresumo da variância entre as categorias da variável qualitativa Vamos usar a média das variâncias porém ponderada pelo número de observações em cada categoria ou seja 412 no qual k é o número de categorias k 3 nos dois exemplos acima e variS denota a variância de S dentro da categoria i i 1 2 k Podese mostrar que de modo que podemos definir o grau de associação entre as duas variáveis como o ganho relativo na variância obtido pela introdução da variável qualitativa Explicitamente 413 Note que 0 R2 1 O símbolo R2 é usual em análise de variância e regressão tópicos a serem abordados nos Capítulos 15 e 16 respectivamente Exemplo 49 Voltando aos dados do Exemplo 48 vemos que para a variável S na presença de grau de instrução temse de modo que e dizemos que 415 da variação total do salário é explicada pela variável grau de instrução Para S e região de procedência temos e portanto de modo que apenas 13 da variabilidade dos salários é explicada pela região de procedência A comparação desses dois números mostra maior relação entre S e Y do que entre S e V Problemas 10 Para cada par de variáveis abaixo esboce o diagrama de dispersão Diga se você espera uma dependência linear e nos casos afirmativos avalie o coeficiente de correlação a Peso e altura dos alunos do primeiro ano de um curso de Administração b Peso e altura dos funcionários de um escritório c Quantidade de trigo produzida e quantidade de água recebida por canteiros numa estação experimental d Notas de Cálculo e Estatística de uma classe onde as duas disciplinas são lecionadas e Acuidade visual e idade de um grupo de pessoas f Renda familiar e porcentagem dela gasta em alimentação g Número de peças montadas e resultado de um teste de inglês por operário 11 Abaixo estão os dados referentes à porcentagem da população economicamente ativa empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras Regiões metropolitanas Setor primário Índice de analfabetismo São Paulo 20 175 Rio de Janeiro 25 185 Belém 29 195 Belo Horizonte 33 222 Salvador 41 265 Porto Alegre 43 166 Recife 70 366 Fortaleza 1300 384 Fonte Indicadores Sociais para Áreas Urbanas IBGE 1977 a Faça o diagrama de dispersão b Você acha que existe uma dependência linear entre as duas variáveis c Calcule o coeficiente de correlação d Existe alguma região com comportamento diferente das demais Se existe elimine o valor correspondente e recalcule o coeficiente de correlação 12 Usando os dados do Problema 3 a Construa a tabela de frequências conjuntas para as variáveis X número de empregos nos dois últimos anos e Y salário mais recente b Como poderia ser feito o gráfico de dispersão desses dados c Calcule o coeficiente de correlação Baseado nesse número você diria que existe dependência entre as duas variáveis 13 Quer se verificar a relação entre o tempo de reação e o número de alternativas apresentadas a indivíduos acostumados a tomadas de decisão Planejouse um experimento em que se pedia ao participante para classificar objetos segundo um critério previamente discutido Participaram do experimento 15 executivos divididos aleatoriamente em grupos de cinco Pediuse então a cada grupo para classificar dois três e quatro objetos respectivamente Os dados estão abaixo Nº de objetos 2 3 4 Tempo de reação 1 2 3 3 4 2 3 4 4 5 4 5 5 6 7 a Faça o gráfico de dispersão das duas variáveis b Qual o coeficiente de correlação entre elas 14 Calcule o grau de associação entre as variáveis estado civil e idade na Tabela 21 15 Usando os dados do Problema 9 do Capítulo 2 calcule o grau de associação entre seção e notas em Estatística 47 Gráficos q q Outro tipo de representação gráfica que podemos utilizar para duas variáveis é o gráfico quantis quantis que passamos a discutir Suponha que temos valores x1 xn da variável X e valores y1 ym da variável Y todos medidos pela mesma unidade Por exemplo temos temperaturas de duas cidades ou alturas de dois grupos de indivíduos etc O gráfico q q é um gráfico dos quantis de X contra os quantis de Y Pelo que vimos no Capítulo 3 se m n o gráfico q q é um gráfico dos dados ordenados de X contra os dados ordenados de Y Se as distribuições dos dois conjuntos de dados fossem idênticas os pontos estariam sobre a reta y x Enquanto um gráfico de dispersão fornece uma possível relação global entre as variáveis o gráfico q q mostra se valores pequenos de X estão relacionados com valores pequenos de Y se valores intermediários de X estão relacionados com valores intermediários de Y e se valores grandes de X estão relacionados com valores grandes de Y Num gráfico de dispersão podemos ter x1 x2 e y1 y2 o que não pode acontecer num gráfico q q pois os valores em ambos os eixos estão ordenados do menor para o maior Exemplo 410 Na Tabela 418 temos as notas de 20 alunos em duas provas de Estatística e na Figura 410 temos o correspondente gráfico q q Os pontos estão razoavelmente dispersos ao redor da reta x y mostrando que as notas dos alunos nas duas provas não são muito diferentes Mas podemos notar que para notas abaixo de cinco os alunos tiveram notas maiores na segunda prova ao passo que para notas de cinco a oito os alunos tiveram notas melhores na primeira prova A maioria das notas estão concentradas entre cinco e oito Figura 410 Gráfico q q para as notas em duas provas de Estatística Tabela 418 Notas de 20 alunos em duas provas de Estatística Aluno Prova 1 Prova 2 Aluno Prova 1 Prova 2 1 85 80 11 74 65 2 35 28 12 56 50 3 72 65 13 63 65 4 55 62 14 30 30 5 95 90 15 81 90 6 70 75 16 38 40 7 48 52 17 68 55 8 66 72 18 100 100 9 25 40 19 45 55 10 70 68 20 59 50 Exemplo 411 Consideremos agora as variáveis temperatura de Ubatuba e temperatura de Cananeia do CDTemperaturas O gráfico q q está na Figura 411 Observamos que a maioria dos pontos está acima da reta y x mostrando que as temperaturas de Ubatuba são em geral maiores do que as de Cananeia para valores maiores do que 17 graus Quando m n é necessário modificar os valores de p para os quantis da variável com maior número de pontos Ver o Problema 33 para a solução desse caso Figura 411 Gráfico q q para os lados de temperatura de Cananeia e Ubatuba Problemas 16 Faça o gráfico q q para as notas em Redação e Economia dos 25 funcionários da MB Indústria e Comércio Problema 9 do Capítulo 2 17 Faça o gráfico q q para as variáveis salário de professor secundário e salário de administrador do CDSalários Comente 48 Exemplos Computacionais Vamos considerar brevemente nesta seção o caso de mais de dois conjuntos de dados Exemplos são os dados sobre o Brasil de poluição e estatísticas sobre veículos encontrados nos Conjuntos de Dados Veremos também um exemplo de cálculo do coeficiente de correlação para dados reais da Bolsa de Valores de São Paulo Vejamos um exemplo em que temos duas variáveis quantitativas e uma qualitativa Exemplo 412 Considere as variáveis salário idade e grau de instrução da Tabela 21 Separamos agora os salários e idades por classes de grau de instrução Depois podemos fazer gráficos de dispersão como na Figura 412 Os comandos necessários do R para fazer essas figuras são tab21idadetab21idadeanos12tab21idademeses attach tab21 parmfrowc13 pinc22 plot idadegrauinstrucaoensino fundamental salariograuinstrucaoensino fundamental mainFundamental xlabIdade ylabSalário pch16coldarkblue plot idadegrauinstrucaoensino médio salariograuinstrucaoensino médio mainMédio xlabIdade ylabSaláriopch16coldarkblue plot idade grauinstrucaosuperior salariograuinstrucaosuperior mainSuperior xlabIdade ylabSalário pch16coldarkblue Figura 412 Gráficos de dispersão das variáveis salário e idade segundo a variável grau de instrução Notamos que para o ensino fundamental e grau superior os salários aumentam em geral com a idade ao passo que para o ensino médio essa relação não se verifica havendo salários baixos e altos numa faixa entre 350 e 450 meses Exemplo 413 Considere o CDMercado no qual temos os preços de fechamento diários de ações da Telebrás X e os índices IBOVESPA Y de 2 de janeiro a 24 de fevereiro de 1995 num total de n 39 observações O gráfico de dispersão está na Figura 413 que mostra que os pares de valores estão dispostos ao longo de uma reta com inclinação positiva Ou seja esse gráfico mostra que há uma forte correlação entre o preço das ações da Telebrás e o índice da Bolsa de Valores de São Paulo No gráfico está representada a reta de mínimos quadrados No Capítulo 16 veremos como determinála Para construir a Figura 413 usamos os comandos do R cdmercado readtable cdmercadocsv hTskip4 sep dec Leitura dos dados attach cdmercado plot telebras 139 indice139 xlabTelebrás ylabIbovespa pch16coldarkblue ablinelmindice139telebras139 Figura 413 Gráfico de dispersão para ações da Telebrás e BOVESPA R Utilizando 49 obtemos que o que mostra a forte associação linear entre X e Y Finalizamos esta seção com um tipo de gráfico que também é útil quando temos duas variáveis quantitativas e uma qualitativa Exemplo 414 Considere o CDVeículos no qual temos o preço o comprimento e a capacidade do motor de veículos vendidos no Brasil classificados em duas categorias N nacionais e I importados Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos indicando por um se o carro for N e por um se for I Veja a Figura 414 Observamos pela figura que os preços dos veículos importados são em geral maiores do que os nacionais e que o preço aumenta com o comprimento Figura 414 Gráfico de dispersão simbólico das variáveis preço e comprimento de veículos categorizadas pela variável procedência nacional e importado R Os comandos no R são cdveiculos readtablecdveiculoscsv hT skip4 sep dec Leitura dos dados attachcdveiculos ggplotcdveiculos aescomprimento preco geompointaesshape NI colourNI size 4 49 Problemas Suplementares 18 No estudo de uma certa comunidade verificouse que I A proporção de indivíduos solteiros é de 04 II A proporção de indivíduos que recebem até 10 salários mínimos é de 02 III A proporção de indivíduos que recebem até 20 salários mínimos é de 07 IV A proporção de indivíduos casados entre os que recebem mais de 20 salários mínimos é de 07 V A proporção de indivíduos que recebem até 10 salários mínimos entre os solteiros é de 03 a Construa a distribuição conjunta das variáveis estado civil e faixa salarial e as respectivas distribuições marginais b Você diria que existe relação entre as duas variáveis consideradas 19 Uma amostra de 200 habitantes de uma cidade foi escolhida para declarar sua opinião sobre um certo projeto governamental O resultado foi o seguinte Opinião Local de residência Total Urbano Suburbano Rural A favor 30 35 35 100 Contra 60 25 15 100 Total 90 60 50 200 a Calcule as proporções em relação ao total das colunas b Você diria que a opinião independe do local de residência c Encontre uma medida de dependência entre as variações 20 Com base na tabela abaixo você concluiria que o tipo de atividade está relacionado ao fato de as embarcações serem de propriedade estatal ou particular Encontre uma medida de dependência entre as variáveis Propriedade Atividade Total Costeira Fluvial Internacional Estatal 5 141 51 197 Particular 92 231 48 371 Total 97 372 99 568 Fonte Sinopse Estatística do Brasil IBGE 1975 21 Uma pesquisa sobre a participação em atividades esportivas de adultos moradores nas proximidades de centros esportivos construídos pelo estado de São Paulo mostrou os resultados da tabela abaixo Baseado nesses resultados você diria que a participação em atividades esportivas depende da cidade Participam Cidade São Paulo Campinas Rib Preto Santos Sim 50 65 105 120 Não 150 185 195 180 22 Uma pesquisa para verificar a tendência dos alunos a prosseguir os estudos segundo a classe social do respondente mostrou o seguinte quadro Pretende continuar Classe social Total Alta Média Baixa Sim 200 220 380 800 Não 200 280 720 1200 a Você diria que a distribuição de respostas afirmativas é igual à de respostas negativas b Existe dependência entre os dois fatores Dê uma medida quantificadora da dependência c Se dos 400 alunos da classe alta 160 escolhessem continuar e 240 não você mudaria sua conclusão Justifique 23 Refaça os cálculos do Problema 19 usando as fórmulas derivadas em 42 43 24 Prove que 25 Numa amostra de cinco operários de uma dada empresa foram observadas duas variáveis X anos de experiência num dado cargo e Y tempo em minutos gasto na execução de uma certa tarefa relacionada com esse cargo As observações são apresentadas na tabela abaixo Você diria que a variável X pode ser usada para explicar a variação de Y Justifique 26 Muitas vezes a determinação da capacidade de produção instalada para certo tipo de indústria em certas regiões é um processo difícil e custoso Como alternativa podese estimar a capacidade de produção por meio da escolha de uma outra variável de medida mais fácil e que esteja linearmente relacionada com ela Suponha que foram observados os valores para as variáveis capacidade de produção instalada potência instalada e área construída Com base num critério estatístico qual das variáveis você escolheria para estimar a capacidade de produção instalada X cap prod inst ton 4 5 4 5 8 9 10 11 12 12 Y potência inst 1000 kW 1 1 2 3 3 5 5 6 6 6 Z área construída l00 m 6 7 10 10 11 9 12 10 11 14 27 Usando os dados da Tabela 21 Capítulo 2 a Construa a tabela de distribuições de frequências conjunta para as variáveis salário e idade mas divida cada uma delas num certo número de intervalos de classe b Como poderia ser calculado o coeficiente de correlação baseado nessa tabela c Você conseguiria escrever a fórmula da correlação para dados agrupados 28 Lançamse simultaneamente uma moeda de um real e uma de um quarto de dólar Em cada tentativa anotouse o resultado cujos dados estão resumidos na tabela a seguir 1 Real 14 dólar Cara Coroa Total Cara 24 22 46 Coroa 28 26 54 Total 52 48 100 Fonte Experimento conduzido pelos autores a Esses dados sugerem que os resultados da moeda de um real e as de um quarto de dólar estão associados b Atribua para ocorrência cara o valor 0 e para a ocorrência de coroa o valor 1 Chamando de X1 o resultado do real e de X2 o resultado do quarto de dólar calcule a correlação entre X1 e X2 Essa medida está de acordo com a resposta que você deu anteriormente 29 Uma amostra de dez casais e seus respectivos salários anuais em sm foi colhida num certo bairro conforme vemos na tabela abaixo Salário Casal nº 1 2 3 4 5 6 7 8 9 10 Homem X 10 10 10 15 15 15 15 20 20 20 Mulher Y 5 10 10 5 10 10 15 10 10 15 Sabese que a Encontre o salário anual médio dos homens e o seu desvio padrão b Encontre o salário anual médio das mulheres e o seu desvio padrão c Construa o diagrama de dispersão d Encontre a correlação entre o salário anual dos homens e o das mulheres e Qual o salário médio familiar E a variância do salário familiar f Se o homem é descontado em 8 e a mulher em 6 qual o salário líquido anual médio familiar E a variância 30 O departamento de vendas de certa companhia foi formado há um ano com a admissão de 15 vendedores Nessa época foram observados para cada um dos vendedores os valores de três variáveis T resultado em um teste apropriado para vendedores E anos de experiência de vendas G conceito do gerente de venda quanto ao currículo do candidato O diretor da companhia resolveu agora ampliar o quadro de vendedores e pede sua colaboração para responder a algumas perguntas Para isso ele lhe dá informações adicionais sobre duas variáveis V volume médio mensal de vendas em sm Z zona da capital para a qual o vendedor foi designado O quadro de resultados é o seguinte Vendedor T teste E experiência G conceito V vendas do gerente Z zona Vendedor T teste E experiência G conceito do gerente V vendas Z zona 1 8 5 Bom 54 Norte 2 9 2 Bom 50 Sul 3 7 2 Mau 48 Sul 4 8 1 Mau 32 Oeste 5 6 4 Bom 30 Sul 6 8 4 Bom 30 Oeste 7 5 3 Bom 29 Norte 8 5 3 Bom 27 Norte 9 6 1 Mau 24 Oeste 10 7 3 Mau 24 Oeste 11 4 4 Bom 24 Sul 12 7 2 Mau 23 Norte 13 3 3 Mau 21 Sul 14 5 1 Mau 21 Oeste 15 3 2 Bom 16 Norte Dados Mais especificamente o diretor lhe pede que responda aos sete itens seguintes a Faça o histograma da variável V em classes de 10 tendo por limite inferior da primeira classe o valor 15 b Encontre a média e a variância da variável V Suponha que um vendedor seja considerado excepcional se seu volume de vendas é dois desvios padrões superior à média geral Quantos vendedores excepcionais existem na amostra c O diretor de vendas anunciou que transferirá para outra praça todos os vendedores cujo volume de vendas for inferior ao 1º quartil da distribuição Qual o volume mínimo de vendas que um vendedor deve realizar para não ser transferido d Os vendedores argumentam com o diretor que esse critério não é justo pois há zonas de venda privilegiadas A quem você daria razão e Qual das três variáveis observadas na admissão do pessoal é mais importante para julgar um futuro candidato ao emprego f Qual o grau de associabilidade entre o conceito do gerente e a zona a que o vendedor foi designado Você tem explicação para esse resultado g Qual o grau de associação entre o conceito do gerente e o resultado do teste E entre zona e vendas 31 A seção de assistência técnica da Companhia MB tem cinco funcionários A B C D e E cujos tempos de serviço na companhia são respectivamente um três cinco cinco e sete anos a Faça um gráfico representando a distribuição de frequência dos tempos de serviço X b Calcule a média meX a variância varX e a mediana mdX Duas novas firmas a Verde e a Azul solicitaram o serviço de assistência técnica da MB Um mesmo funcionário pode ser designado para atender a ambos os pedidos ou dois funcionários podem fazêlo Assim o par A B significa que o funcionário A atenderá à firma Verde e o funcionário B à firma Azul c Escreva os 25 possíveis pares de funcionários para atender a ambos os pedidos d Para cada par calcule o tempo médio de serviço X faça a distribuição de frequência e uma representação gráfica Compare com o resultado de a e Calcule para os 25 valores de X os parâmetros me X varX e mdX Compare com os resultados obtidos em b Que tipo de conclusão você poderia tirar f Para cada par obtido em c calcule a variância do par e indiquea por S2 Faça a representação gráfica da distribuição dos valores de S2 g Calcule meS2 e varS2 h Indicando por X1 a variável que expressa o tempo de serviço do funcionário que irá atender à firma Verde e X2 o que irá atender à firma Azul faça a distribuição conjunta da variável bidimensional X1 X2 i As duas variáveis X1 e X2 são independentes j O que você pode falar sobre as distribuições marginais de X1 e X2 l Suponha agora que três firmas solicitem o serviço de assistência técnica Quantas triplas podem ser formadas m Sem calcular todas as possibilidades como você acha que ficaria o histograma de X E meX e varX n E sobre a variável S2 o A variável tridimensional X1 X2 X3 teria alguma propriedade especial para as suas distribuições marginais 32 Refaça o problema anterior admitindo agora que um mesmo funcionário não pode atender a duas firmas 33 Faça o gráfico q q para os dois conjuntos de dados em A e B a seguir A 65 54 49 60 70 25 87 100 70 102 40 47 B 48 35 45 50 52 20 72 102 46 82 34 Faça gráficos de dispersão unidimensionais e box plots para a variável salário da Tabela 21 segundo a região de procedência Analise os resultados 35 Analise as variáveis salário e idade da Tabela 21 segundo o estado civil de cada indivíduo Quais conclusões você pode obter 36 Analise a população total do CDBrasil segundo as regiões geográficas 37 Considere os dados do Exemplo 413 e o seguinte critério valores abaixo da média indicam mercado em BAIXA e valores maiores ou iguais à média indicam mercado em ALTA Categorize os dados segundo esse critério e apresente os resultados numa tabela de dupla entrada Calcule uma medida de associação O valor obtido corrobora ou não o resultado obtido no Exemplo 413 Comente 38 Considere o CDPoluição e as variáveis CO temperatura e umidade Faça gráficos de dispersão para pares de variáveis Quais conclusões você pode obter 39 Calcule os valores C T e V para a tabela abaixo Justifique porque T 1 Y X A1 A2 A3 Total B1 100 0 0 100 B2 0 200 0 200 B3 0 0 200 200 Total 100 200 200 500 40 Suponha que queiramos verificar se existe relação entre a cor do cabelo de mães X e dos filhos Y Suponha os dados da tabela abaixo Verifique se há associação entre X e Y Calcule C V e T Mãe Filhos Claro Escuro Total Claro 23 5 28 Escuro 10 2 12 Total 33 7 40 410 Complemento Metodológico 1 Gráficos quantis quantis Na Seção 45 vimos como construir um gráfico q q quando m n Suponha n m isto é temos um número maior de observações de X Então usamos as observações ordenadas y1 ym e interpolamos um conjunto correspondente de quantis para o conjunto dos xi ordenados O valor ordenado yi corresponde a Para X queremos um valor j tal que logo Se j for inteiro fazemos o gráfico de yi versus xj Se j k r em que k é inteiro e 0 r 1 então Exemplo Se m 20 e n 40 logo k 2i 1 r 05 e fazemos o gráfico de y1 versus 05x1 05x2 y2 versus 05x3 05x4 etc Parte II PROBABILIDADES Capítulo 5 Probabilidades Capítulo 6 Variáveis Aleatórias Discretas Capítulo 7 Variáveis Aleatórias Contínuas Capítulo 8 Variáveis Aleatórias Multidimensionais Capítulo 9 Noções de Simulação Capítulo 5 Probabilidades 51 Introdução Na primeira parte deste livro vimos que a análise de um conjunto de dados por meio de técnicas numéricas e gráficas permite que tenhamos uma boa ideia da distribuição desse conjunto Em particular a distribuição de frequências é um instrumento importante para avaliarmos a variabilidade das observações de um fenômeno aleatório A partir dessas frequências observadas podemos calcular medidas de posição e variabilidade como média mediana desvio padrão etc Essas frequências e medidas calculadas a partir dos dados são estimativas de quantidades desconhecidas associadas em geral a populações das quais os dados foram extraídos na forma de amostras Em particular as frequências relativas são estimativas de probabilidades de ocorrências de certos eventos de interesse Com suposições adequadas e sem observarmos diretamente o fenômeno aleatório de interesse podemos criar um modelo teórico que reproduza de maneira razoável a distribuição das frequências quando o fenômeno é observado diretamente Tais modelos são chamados modelos probabilísticos e serão objeto de estudo neste capítulo e nos subsequentes Exemplo 51 Queremos estudar as frequências de ocorrências das faces de um dado Um procedimento a adotar seria lançar o dado certo número de vezes n e depois contar o número ni de vezes em que ocorre a face i i 1 2 6 As proporções nin determinam a distribuição de frequências do experimento realizado Lançando o dado um número nn n de vezes teríamos outra distribuição de O modelo probabilístico pode ser construído por meio de premissas como se segue Primeiro observamos que só podem ocorrer seis faces a segunda consideração que se faz é que o dado seja perfeitamente equilibrado de modo a não favorecer alguma face em particular Com essas suposições cada face deve ocorrer o mesmo número de vezes quando o dado é lançado n vezes e portanto a proporção de ocorrência de cada face deve ser 16 Nessas condições o modelo teórico ou probabilístico para o experimento é dado na Tabela 51 Uma probabilidade Pω para cada ponto amostral de tal sorte que seja possível encontrar a probabilidade PA de qualquer subconjunto A de Ω isto é a probabilidade do que chamaremos de um evento aleatório ou simplesmente evento Para ilustrar graficamente eventos é costume utilizarse os mesmos diagramas comumente usados na teoria dos conjuntos Veja Morettin et al 2005 Exemplo 54 Uma fábrica produz determinado artigo Da linha de produção são retirados três artigos e cada um é classificado como bom B ou defeituoso D Um espaço amostral do experimento é Ω BBB BBD BDB DBB DDD DBD BDD DDB DDD Se A designar o evento que consiste em obter dois artigos defeituosos então A DDB BDB DBD Exemplo 55 Considere o experimento que consiste em retirar uma lâmpada de um lote e medir seu tempo de vida antes de se queimar Um espaço amostral conveniente é Ω t ℝ t 0 isto é o conjunto de todos os números reais não negativos Se A indicar o evento o tempo de vida da lâmpada é inferior a 20 horas então A t 0 t 20 Esse é um exemplo de um espaço amostral contínuo contrastado com os anteriores que são discretos d Numa entrevista telefônica com 250 assinantes anotase se o proprietário tem ou não máquina de secar roupa e Medese a duração de lâmpadas deixandoas acesas até que se queimem f Um fichário com dez nomes contém três nomes de mulheres Selecionase ficha após ficha até o último nome de mulher ser selecionado e anotase o número de fichas selecionadas g Lançase uma moeda até aparecer cara e anotase o número de lançamentos h Um relógio mecânico pode parar a qualquer momento por falha técnica Medese o ângulo em graus que o ponteiro dos segundos forma com o eixo imaginário orientado do centro ao número 12 i Mesmo enunciado anterior mas supondo que o relógio seja elétrico e portanto seu ponteiro dos segundos movase continuamente j De um grupo de cinco pessoas A B C D E sorteiamse duas uma após outra com reposição e anotase a configuração formada l Mesmo enunciado que j sem reposição m Mesmo enunciado que j mas as duas selecionadas simultaneamente n De cada família entrevistada numa pesquisa anotamse a classe social a que pertence A B C D e o estado civil do chefe da família 52 Algumas Propriedades Sendo o modelo probabilístico um modelo teórico para as frequências relativas de suas propriedades podemos obter algumas das propriedades das probabilidades que estudaremos a seguir Como a frequência relativa é um número entre 0 e 1 temos que 0 PA 1 52 para qualquer evento A Será útil considerar o espaço todo Ω e o conjunto vazio ø como eventos O primeiro é denominado evento certo e o segundo evento impossível e temos PΩ 1 Pø 0 53 Exemplo 56 Na Tabela 53 temos dados referentes a alunos matriculados em quatro cursos de uma universidade em dado ano Tabela 53 Distribuição de alunos segundo o sexo e escolha de curso Curso Sexo Homens H Mulheres F Total Matemática Pura M 70 40 110 Matemática Aplicada A 15 15 30 Estatística E 10 20 30 Computação C 20 10 30 Total 115 85 200 Vamos indicar por M o evento que ocorre quando escolhendose ao acaso um aluno do conjunto desses quatro cursos ele for um estudante de Matemática Pura A E C H e F têm significados análogos Dessa maneira vemos que PE 30200 ao passo que PH 115200 Dados os eventos A e H podemos considerar dois novos eventos A H chamado a reunião de A e H quando pelo menos um dos eventos ocorre A H chamado a intersecção de A e H quando A e H ocorrem simultaneamente É fácil ver que PA H 15200 pois o aluno escolhido terá de estar ao mesmo tempo matriculado no curso de Matemática Aplicada e ser homem Vemos que PA 30200 e PH 115200 suponha que nosso cálculo para PA H fosse Se assim o fizéssemos estaríamos contando duas vezes os alunos que são homens e estão matriculados no curso de Matemática Aplicada como destacado na Tabela 53 Portanto a resposta correta é No entanto considerandose os eventos A e C vemos que PA 30200 PC 30200 e PA C 60200 PA PC Nesse caso os eventos A e C são disjuntos ou mutuamente exclusivos pois se A ocorre então C não ocorre e viceversa Aqui A C ø e PA C 0 Portanto se U e V são dois eventos quaisquer teremos a chamada regra da adição de probabilidades PU V PU PV PU V 54 que se reduz a PU V PU PV 55 se U e V são eventos mutuamente exclusivos Veja o Problema 58 Suponha agora que estejamos somente interessados em saber se um estudante escolhido ao acaso está matriculado como aluno de Matemática Pura Aplicada Estatística ou Computação não interessando saber se é homem ou mulher Seja B M E C Então A B Ω e A B Dizemos que A e B são complementares e PA 30200 PB 110200 30200 30200 170200 isto é PA PB 1 De modo geral vamos indicar por Ac o complemento de um evento qualquer A e teremos então PA PAc 1 56 As operações de reunião interseção e complementação entre eventos possuem propriedades análogas àquelas válidas para operações entre conjuntos Ver Morettin et al 2005 Por exemplo a A Bc Ac Bc b A Bc Ac Bc c A A A d c Ω Ωc e A A f A Ac Ω g A A A Ω Ω h A B C A B A C Vejamos um exemplo de aplicação das propriedades das probabilidades Exemplo 57 Consideremos um experimento aleatório e os eventos A e B associados tais que PA 12 PB 13 e PA B 14 Então temos a PAc 1 PA 1 12 12 PBc 1 PB 1 13 23 b PA B PA PB PA B 12 13 14 712 c PAc Bc PA Bc 1 PA B 1 712 512 d PAc Bc PA Bc 1 PA B 1 14 34 e Calculemos PAc B isto é a probabilidade de que ocorra B e não ocorra A Podemos escrever B A B Ac B ou seja B pode ocorrer com A ou exclusivo com Ac Logo PB PA B PAc B do que decorre PAc B PB PA B 13 14 112 Consideremos agora uma situação historicamente importante a saber aquela em que temos um espaço amostral finito Ω ω1 ωn em que todos os pontos têm a mesma probabilidade 1n Se A for um evento contendo m pontos amostrais então defeituosas na amostra Seguese que pois podemos escolher na amostra de quatro elementos duas defeituosas e duas não defeituosas simultaneamente de maneiras usando o princípio multiplicativo Logo Exemplo 59 O jogo da Megasena consiste em escolher 6 números dentre os 60 números 01 02 59 60 O jogador pode marcar num cartão de 6 a 15 números Os custos em reais de cada jogo estão relacionados abaixo Números Custo 6 200 7 1400 8 5600 9 16800 10 42000 11 92400 12 184800 13 343200 14 601000 15 1001000 Temos ao todo possibilidades Portanto com um jogo único de R 200 seis números a probabilidade de ganhar o prêmio máximo é ou seja aproximadamente uma chance em 50 milhões Por que o jogo com 7 números custa R 700 Porque com 7 números podemos formar jogos de 6 números Ou seja fazer um jogo com 7 números ou 7 jogos com 6 números são ações equivalentes em termos de probabilidade de ganhar Do mesmo modo um jogo de 15 dezenas custa R 1001000 porque com 15 números podemos formar jogos de 6 números Portanto é mais fácil preencher um boleto com 15 números do que 5005 boletos com 6 números já que as probabilidades associadas são iguais Problemas 7 No Problema 4 liste os eventos a pelo menos uma cara b duas caras c o complementar do evento em b 8 Expresse em termos de operações entre eventos a A ocorre mas B não ocorre b exatamente um dos eventos A e B ocorre c nenhum dos dois eventos A e B ocorre 9 No espaço amostral do Problema 3 atribua a cada ponto contendo k letras a probabilidade 12k assim AA tem probabilidade 14 a Mostre que a soma das probabilidades dos pontos do espaço amostral é 1 b Calcule a probabilidade de que A vença um jogador vence quando ganha duas partidas seguidas Em seguida calcule a probabilidade de que B vença c Qual a probabilidade de que não haja decisão 10 No Problema 2 suponha que 5 indique o aparecimento da face 5 e Q indique que apareceu outra face qualquer diferente da 5 Atribua probabilidade 56k 16 a cada ponto com k letras iguais a Q seguidas de 5 a Mostre que a soma das probabilidades dos pontos amostrais é igual a um aqui você deve usar o resultado da soma dos termos de uma sequência geométrica infinita b Calcule a probabilidade de que a face 5 apareça após três lançamentos do dado 11 Dentre seis números positivos e oito negativos dois números são escolhidos ao acaso sem reposição e multiplicados Qual a probabilidade de que o produto seja positivo 12 Considere o lançamento de dois dados Considere os eventos A soma dos números obtidos igual a 9 e B número no primeiro dado maior ou igual a 4 Enumere os elementos de A e B Obtenha A B A B e Ac 13 Obtenha as probabilidades dos eventos que aparecem nos Problemas 7 e 12 14 Que suposições devem ser feitas para que os resultados dos experimentos abaixo possam ser considerados equiprováveis a Lançamento de um dado b Opinião de moradores de uma cidade sobre um projeto governamental c Preço de uma ação no fim da próxima semana 53 Probabilidade Condicional e Independência Voltemos à Tabela 53 do Exemplo 56 Dado que um estudante escolhido ao acaso esteja matriculado no curso de Estatística a probabilidade de que seja mulher é 2030 23 Isso porque do total de 30 alunos que estudam Estatística 20 são mulheres Escrevemos Para dois eventos quaisquer A e B sendo PB 0 definimos a probabilidade condicional de A dado B PAB como 57 Para o exemplo mencionado se B e A indicam respectivamente os eventos aluno matriculado em Estatística e aluno é mulher então como havíamos obtido Observe que PA Pmulher 85200 1740 e com a informação de que B ocorreu o aluno é matriculado em Estatística obtemos PAB 23 Podemos dizer que PA é a probabilidade a priori de A e com a informação adicional de que B ocorreu obtemos a probabilidade a posteriori PAB Note que nesse caso PAB PA logo a informação de que B ocorreu aumentou a chance de A ocorrer Da relação 57 obtemos a chamada regra do produto de probabilidades PA B PB P AB 58 Exemplo 510 Uma urna contém duas bolas brancas B e três vermelhas V Suponha que são sorteadas duas bolas ao acaso sem reposição Isso significa que escolhemos a primeira bola verificamos sua cor e não a devolvemos à urna misturamos as bolas restantes e retiramos a segunda O diagrama em árvore da Figura 52 ilustra as possibilidades Em cada galho da árvore estão indicadas as probabilidades de ocorrência sendo que para as segundas bolas as probabilidades são condicionais A probabilidade do resultado conjunto é dada então por 58 Veja a Tabela 54 Figura 52 Diagrama em árvore para a extração de duas bolas de uma urna sem reposição Se A indicar o evento bola branca na segunda extração então Tabela 54 Resultados e probabilidades para o experimento do Exemplo 510 Resultados Probabilidades BB 25 14 220 BV 25 34 620 VB 35 24 620 VV 35 24 620 Total 1 Exemplo 511 Imagine agora que as duas extrações são feitas da mesma urna do exemplo anterior mas a primeira bola é reposta na urna antes da extração da segunda Nessas condições as extrações são independentes pois o resultado de uma extração não tem influência no resultado da outra Obtemos a situação da Figura 53 e da Tabela 55 Figura 53 Diagrama em árvore para a extração de duas bolas de uma urna com reposição Tabela 55 Resultados e probabilidades para o experimento do Exemplo 511 Resultados Probabilidades BB 25 25 425 BV 25 35 625 VB 35 25 625 VV 35 35 925 Total 1 Observe que aqui Pbranca na 2ª branca na 1ª 25 Pbranca na 2ª ou seja se indicarmos por A e B os eventos bola branca na segunda extração e bola branca na primeira extração respectivamente então PAB PA Nesse caso dizemos que o evento A independe do evento B e usando 58 temos PA B PA PB 59 É fácil ver que se A independe de B então B independe de A dizemos que A e B são independentes A Fórmula 59 pode ser tomada como definição de independência entre dois eventos ou seja A e B são independentes se e somente se 59 for válida Exemplo 512 Considere ainda a urna dos dois exemplos anteriores mas vamos fazer três extrações sem reposição Indiquemos por Vi ou Bi a obtenção de bola vermelha ou branca na iésima extração respectivamente i 1 2 3 Obtemos a Figura 54 e a Tabela 56 Figura 54 Diagrama em árvore para a extração de três bolas de uma urna sem reposição Tabela 56 Resultados e probabilidades para o experimento do Exemplo 512 Resultados Probabilidades B1B2V3 25 14 1 220 660 B1V2B3 25 34 13 660 B1V2V3 25 34 23 1260 V1B2B3 35 24 13 660 V1B2V3 35 24 23 1260 V1V2B3 35 24 23 1260 V1V2V3 35 24 13 660 Total 6060 1 Observe que PB2B1 14 ao passo que PV3B1 B2 1 daí PB1 B2 V3 PB1 PB2B1 PV3B1 B2 25 14 1 110 De modo geral dados três eventos A B e C temos que PA B C PA PBA PCA B 510 Essa relação pode ser estendida para um número finito qualquer de eventos Veja o Problema 60 Exemplo 513 A teoria da confiabilidade estuda sistemas e seus componentes por exemplo sistemas mecânicos e eletrônicos um automóvel ou um computador e sistemas biológicos como o corpo humano O objetivo da teoria é estudar as relações entre o funcionamento dos componentes e do sistema A Figura 55 a ilustra um sistema composto de dois componentes ligados em série Figura 55 Sistema com dois componentes a em série b em paralelo O sistema da figura funcionará se os componentes 1 e 2 funcionarem simultaneamente Se um dos componentes falhar o sistema também falhará Supondo que os componentes funcionem independentemente e se pi for a probabilidade de o componente i i 12 funcionar então a probabilidade de o sistema funcionar será PF PA1 A2 PA1PA2 p1p2 em que indicamos por F o evento o sistema funciona e por Ai o evento o componente i funciona i 1 2 A probabilidade pi é a chamada confiabilidade do componente i e PF hp1 p2 p1p2 a confiabilidade do sistema Se os componentes 1 e 2 estiverem em paralelo como na Figura 55 b então o sistema funcionará se pelo menos um dos dois componentes funcionar Ou seja PF PA1 A2 PA1 PA2 PA1 A2 p1 p2 p1p2 e a confiabilidade do sistema é hp1 p2 p1 p2 p1p2 Vejamos agora o conceito de independência para três eventos dizemos que os eventos A B e C são independentes se e somente se PA B PA PB PA C PA PC PB C PB PC PA B C PA PB PC 511 Se apenas as três primeiras relações de 511 estiverem satisfeitas dizemos que os eventos A B e C são mutuamente independentes É possível que três eventos sejam mutuamente independentes mas não sejam completamente independentes Veja o Problema 59 A definição pode ser estendida facilmente para um número finito qualquer de eventos Veja o Problema 61 Problemas 15 Considere uma urna contendo três bolas pretas e cinco bolas vermelhas Retire duas bolas da urna sem reposição a Obtenha os resultados possíveis e as respectivas probabilidades b Mesmo problema para extrações com reposição 16 No problema anterior calcule as probabilidades dos eventos a Bola preta na primeira e segunda extrações b Bola preta na segunda extração c Bola vermelha na primeira extração 17 A probabilidade de que A resolva um problema é de 23 e a probabilidade de que B o resolva é de 34 Se ambos tentarem independentemente qual a probabilidade de o problema ser resolvido 18 Um dado é viciado de tal forma que a probabilidade de sair um certo ponto é proporcional ao seu valor por exemplo o ponto 6 é três vezes mais provável de sair do que o ponto 2 Calcular a a probabilidade de sair 5 sabendose que o ponto que saiu é ímpar b a probabilidade de tirar um número par sabendose que saiu um número maior que 3 19 As probabilidades de que dois eventos independentes ocorram são p e q respectivamente Qual a probabilidade a de que nenhum desses eventos ocorra b de que pelo menos um desses eventos ocorra 20 Na figura abaixo temos um sistema com três componentes funcionando independentemente com confiabilidades p1 p2 e p3 Obtenha a confiabilidade do sistema 21 Na tabela abaixo os números que aparecem são probabilidades relacionadas com a ocorrência de A B A B etc Assim PA 010 enquanto PA B 004 B Bc Total A 004 006 010 Ac 008 082 090 Total 012 088 100 Verifique se A e B são independentes 22 Supondo que todos os componentes do sistema da figura abaixo tenham a mesma confiabilidade p e funcionem independentemente obtenha a confiabilidade do sistema 54 O Teorema de Bayes Uma das relações mais importantes envolvendo probabilidades condicionais é dada pelo Teorema de Bayes A versão mais simples desse teorema é dada pela Fórmula 512 512 Como salientamos na seção anterior temos a probabilidade inicial PA e dada a informação de que B ocorreu ou dada a suposição de que B venha a ocorrer obtemos a probabilidade a posteriori PAB dada por 512 Ou seja atualizamos a probabilidade inicial multiplicandoa por Observe que PAB PA se PBA PB A probabilidade P BA é chamada verossimilhança da hipótese A A forma geral do Teorema de Bayes será introduzida por um exemplo Exemplo 514 Temos cinco urnas cada uma com seis bolas Duas dessas urnas tipo C1 têm 3 bolas brancas duas outras tipo C2 têm 2 bolas brancas e a última urna tipo C3 tem 6 bolas brancas Escolhemos uma urna ao acaso e dela retiramos uma bola Qual a probabilidade de a urna escolhida ser do tipo C3 sabendose que a bola sorteada é branca Na Figura 56 temos esquematizados o espaço amostral e os eventos de interesse Figura 56 Espaço amostral e eventos para o Exemplo 514 Queremos encontrar PC3B sabendo que PC1 25 PBC1 12 PC2 25 PBC2 13 PC3 15 PBC3 1 Da definição de probabilidade condicional temos 513 A segunda igualdade é devida à Fórmula 58 Precisamos encontrar o valor de PB já que o numerador é conhecido Como C1 C2 e C3 são eventos mutuamente exclusivos e reunidos formam o espaço amostral completo podemos decompor o evento B na reunião de três outros também mutuamente exclusivos como segue ver também a Figura 56 B C1 B C2 B C3 B 514 e então Substituindo esse resultado em 513 obtemos Podemos agora generalizar os resultados acima do seguinte modo seja C1 C2 Cn uma partição do espaço amostral Ω isto é Ci Cj ø sempre que i j C1 C2 Cn Ω Considere um evento qualquer A em Ω Supomos conhecidas as probabilidades PCi e PACi i 1 2 n Então temos o seguinte resultado ilustrado pela Figura 57 Figura 57 Partição de um espaço amostral Teorema 51 Bayes A probabilidade de ocorrência do evento Ci supondose a ocorrência do evento A é dada por 515 para todo i 1 2 n Podemos pensar C1 Cn como um conjunto de hipóteses sendo somente uma delas verdadeira Dado que A ocorreu a probabilidade inicial de Ci PCi é modificada de modo a se obter PCiA dada por 515 Passamos da probabilidade a priori PCi para a probabilidade a posteriori PCiA multiplicando a primeira por 516 Para A fixado as probabilidades PACi em 515 são denominadas verossimilhanças das hipóteses C1 C2 Cn Vemos que PCiA PCi se 516 for maior do que um isto é se PACi PA em que PA é o denominador de 516 Observe que esse denominador é uma média ponderada dos PACj e os pesos são as probabilidades PCj que têm soma unitária Como o numerador é sempre uma das parcelas do denominador PA tornase indispensável o uso de um novo índice j na decomposição deste Exemplo 515 Para selecionar seus funcionários uma empresa oferece aos candidatos um curso de treinamento durante uma semana No final do curso eles são submetidos a uma prova e 25 são classificados como bons B 50 como médios M e os restantes 25 como fracos F Para facilitar a seleção a empresa pretende substituir o treinamento por um teste contendo questões referentes a conhecimentos gerais e específicos Para isso gostaria de conhecer qual a probabilidade de um indivíduo aprovado no teste ser considerado fraco caso fizesse o curso Assim neste ano antes do início do curso os candidatos foram submetidos ao teste e receberam o conceito aprovado A ou reprovado R No final do curso obtiveramse as seguintes probabilidades condicionais PAB 080 PAM 050 PAF 020 Queremos encontrar PFA e pelo Teorema de Bayes essa probabilidade é dada por Então apenas 10 dos aprovados é que seriam classificados como fracos durante o curso De modo análogo podemos encontrar PBA 040 e PMA 050 que poderiam fornecer subsídios para ajudar na decisão de substituir o treinamento pelo teste Um gráfico em árvore pode ajudar bastante na solução de um problema envolvendo o Teorema de Bayes Desse modo para o Exemplo 515 teremos a Figura 58 e a Tabela 57 Assim o numerador de PFA está assinalado com um pequeno círculo ao passo que o denominador é a soma das três parcelas assinaladas com asterisco Figura 58 Diagrama em árvore para o Exemplo 515 O Teorema de Bayes que aparentemente poderia ser encarado como mais um resultado na teoria de probabilidades tem importância fundamental pois fornece a base para uma abordagem da inferência estatística conhecida como inferência bayesiana Esse ponto será abordado brevemente no Capítulo 11 Tabela 57 Resultados e probabilidades para o Exemplo 515 Resultados Probabilidades BA 025 080 020 BR 025 020 005 MA 050 050 025 MR 050 050 025 FA 025 020 005 FR 025 080 020 O Teorema de Bayes fornece um mecanismo formal para atualizar probabilidades como já vimos acima Vejamos mais um exemplo para ilustrar esse ponto Exemplo 516 A administração de um fundo de investimentos em ações pretende divulgar após o encerramento do pregão a probabilidade de queda de um índice da bolsa no dia seguinte baseandose nas informações disponíveis até aquele momento Suponha que a previsão inicial seja de 010 Após encerrado o pregão nova informação sugere uma alta do dólar frente ao real A experiência passada indica que quando houve queda da bolsa no dia seguinte 20 das vezes foram precedidas por esse tipo de notícia enquanto nos dias em que a bolsa esteve em alta apenas em 5 das vezes houve esse tipo de notícia no dia anterior Chamando de E o evento que indica queda da bolsa a sua probabilidade a priori é PE 010 enquanto a probabilidade de alta é PEc 090 Se B indicar alta do dólar então as verossimilhanças são dadas por PBE 020 P BEc 005 Logo pelo Teorema de Bayes teremos que ou seja Portanto a nova informação aumenta a probabilidade de que haja queda na bolsa de 10 para 31 Suponha agora que horas depois surja nova informação relevante o Banco Central irá reduzir a taxa de juros vigente a partir do dia seguinte Denotandose agora por B1 o evento alta do dólar e por B2 o evento queda na taxa de juros o interesse será saber como essa nova informação B2 afetará a probabilidade calculada PEB1 Seguese que essa é agora a probabilidade a priori para E com respeito a B2 Novamente informações passadas mostram que dado que tenha havido alta do dólar e queda da bolsa 10 das vezes foram precedidas por notícias de queda de juros enquanto dado que tenha havido alta do dólar e alta da bolsa 60 das vezes foram precedidas de queda dos juros Então as verossimilhanças agora serão dadas por PB2E B1 010 PB2Ec B1 060 O Teorema de Bayes fica escrito agora na forma do que segue que Ou seja a informação B2 causa um decréscimo na probabilidade de queda da bolsa de 031 para 007 que é menor ainda do que a probabilidade a priori inicial PE 010 Observe que a probabilidade PEB1 B2 pode ser escrita também como PEB1 B2 ou seja temos a ocorrência simultânea dos eventos B1 e B2 Problemas 23 Uma companhia produz circuitos em três fábricas I II e III A fábrica I produz 40 dos circuitos enquanto a II e a III produzem 30 cada uma As probabilidades de que um circuito integrado produzido por essas fábricas não funcione são 001 004 e 003 respectivamente Escolhido um circuito da produção conjunta das três fábricas qual a probabilidade de o mesmo não funcionar 24 Considere a situação do problema anterior mas suponha agora que um circuito escolhido ao acaso seja defeituoso Determine qual a probabilidade de ele ter sido fabricado por I 25 A urna I contém duas bolas pretas e três brancas ao passo que a urna II contém três bolas pretas e três brancas Escolhemos uma urna ao acaso e dela extraímos uma bola que tem cor branca Se a bola é recolocada na urna qual é a probabilidade de se retirar novamente uma bola branca da mesma urna 55 Probabilidades Subjetivas Na Seção 51 vimos como associar probabilidades a eventos Utilizamos um enfoque chamado frequentista pois se baseia na estabilidade das frequências relativas e no fato de podermos hipoteticamente repetir um experimento várias vezes Mas é óbvio que nem sempre podemos considerar replicações Suponha que queiramos calcular a probabilidade de chover no dia 12 de janeiro do próximo ano na cidade de São Paulo Evidentemente se considerarmos o evento A chover em São Paulo no dia 12 de janeiro do próximo ano ele não pode ser replicado O que poderemos eventualmente considerar é em quantos dias 12 de janeiro de anos anteriores choveu e calcular uma frequência relativa Se tivermos essa informação ela evidentemente poderá ser usada Mas suponha que uma pessoa morando em Fortaleza tenha de calcular essa probabilidade Se ela não tiver informação sobre o tempo em São Paulo poderá simplesmente dizer que essa probabilidade é de 12 Por outro lado uma pessoa vivendo em São Paulo terá informações adicionais Por exemplo saberá que normalmente janeiro fevereiro e março são meses com muita chuva Esse morador de São Paulo poderá arriscar uma probabilidade digamos de 23 para o evento A Vemos portanto que a associação de probabilidades a um evento depende de cada indivíduo de sua informação a respeito desse evento Esse tipo de apreciação é particularmente recomendável quando o indivíduo julga que as replicações anteriores não sejam comparáveis com a próxima Por exemplo o fenômeno El Niño pode ter ocorrido com grande intensidade em janeiro de 1999 provocando muita chuva no sudeste do Brasil e sua intensidade nos anos seguintes talvez seja menor Respostas a questões como essa envolvem o que chamamos de probabilidade subjetiva Ou seja cada indivíduo baseado em informações anteriores e na sua opinião pessoal a respeito do evento em questão pode ter uma resposta para a probabilidade desse evento A Inferência Bayesiana de que trataremos brevemente neste livro veja o Capítulo 11 toma como uma de suas bases o fato de que todas as probabilidades são subjetivas O Teorema de Bayes tem papel importante nesse tipo de inferência pois passa a ser visto como um mecanismo de atualização de opiniões Ou seja o indivíduo aprende B e passa a ter opinião PAB sobre A Um ingrediente básico quando se associam probabilidades é a coerência Se um indivíduo julgar que um evento A é mais provável que seu complementar então ele deverá como que apostando na ocorrência de A associar uma probabilidade maior do que 12 ao evento A Por exemplo se ele julgar que uma proporção 3 1 a favor de A é razoável então ele deverá sugerir PA 34 A fórmula de Bayes fornece uma maneira coerente de atualizar opiniões As probabilidades associadas a eventos de modo subjetivo têm propriedades análogas àquelas vistas em seções anteriores e podem ser obtidas a partir do princípio da coerência Há outras maneiras de se associar probabilidades a eventos e os interessados poderão consultar OHagan 1994 por exemplo para obter mais informações sobre esse assunto e outros ligados à Inferência Bayesiana 56 Problemas Suplementares 26 Um restaurante popular apresenta apenas dois tipos de refeições salada completa ou um prato à base de carne Considere que 20 dos fregueses do sexo masculino preferem a salada 30 das mulheres escolhem carne 75 dos fregueses são homens e os seguintes eventos H freguês é homem A freguês prefere salada M freguês é mulher B freguês prefere carne Calcular a PH PAH PBM b PA H PA H c PMA 27 Uma companhia de seguros analisou a frequência com que 2000 segurados 1000 homens e 1000 mulheres usaram o hospital Os resultados são apresentados na tabela Homens Mulheres Usaram o hospital 100 150 Não usaram o hospital 900 850 a Qual a probabilidade de que uma pessoa segurada use o hospital b O uso do hospital independe do sexo do segurado 28 As probabilidades de três motoristas serem capazes de guiar até em casa com segurança depois de beber são de 13 14 e 15 respectivamente Se decidirem guiar até em casa depois de beber numa festa qual a probabilidade de todos os três motoristas sofrerem acidentes Qual a probabilidade de pelo menos um dos motoristas guiar até em casa a salvo 29 Duas lâmpadas queimadas foram acidentalmente misturadas com seis lâmpadas boas Se vamos testando as lâmpadas uma por uma até encontrar duas defeituosas qual é a probabilidade de que a última defeituosa seja encontrada no quarto teste 30 Suponhamos que 10000 bilhetes sejam vendidos em uma loteria e 5000 em outra cada uma tendo apenas um ganhador Um homem tem 100 bilhetes de cada Qual a probabilidade de que a ele ganhe exatamente um prêmio b ele ganhe alguma coisa 31 Uma companhia de seguros vendeu apólices a cinco pessoas todas da mesma idade e com boa saúde De acordo com as tábuas atuariais a probabilidade de que uma pessoa daquela idade esteja viva daqui a 30 anos é de 23 Calcular a probabilidade de que daqui a 30 anos a exatamente duas pessoas estejam vivas b todas as pessoas estejam vivas e c pelo menos três pessoas estejam vivas Indique as suposições necessárias para a resolução do problema 32 Num teste com duas marcas que lhe são apresentadas em ordem aleatória um experimentador de vinhos faz três identificações corretas em três tentativas a Qual a probabilidade de isso ocorrer se na realidade ele não possuir habilidade alguma para distinguilos b E se a probabilidade de distinguir corretamente é de 90 em cada tentativa 33 Um grupo de 12 homens e 8 mulheres concorre a três prêmios por meio de um sorteio sem reposição de seus nomes Qual a probabilidade de a nenhum homem ser sorteado b um prêmio ser ganho por homem c dois homens serem premiados 34 Um empreiteiro apresentou orçamentos separados para a execução da parte elétrica e da parte de encanamento de um edifício Ele acha que a probabilidade de ganhar a concorrência da parte elétrica é de 12 Caso ele ganhe a parte elétrica a chance de ganhar a parte de encanamento é de 34 caso contrário essa probabilidade é de 13 Qual a probabilidade de ele a ganhar os dois contratos b ganhar apenas um c não ganhar nada 35 Em média 5 dos produtos vendidos por uma loja são devolvidos Qual a probabilidade de que das quatro próximas unidades vendidas desse produto duas sejam devolvidas 36 Três alarmes estão dispostos de tal maneira que qualquer um deles funcionará independentemente quando qualquer coisa indesejável ocorrer Se cada alarme tem probabilidade 09 de trabalhar eficientemente qual é a probabilidade de se ouvir o alarme quando necessário 37 Em uma fábrica de parafusos as máquinas A B e C produzem 25 35 e 40 do total respectivamente Da produção de cada máquina 5 4 e 2 respectivamente são parafusos defeituosos Escolhese ao acaso um parafuso e verificase que é defeituoso Qual a probabilidade de que o parafuso venha da máquina A da B e da C 38 Um fabricante afirma que apenas 5 de todas as válvulas que produz têm duração inferior a 20 horas Uma indústria compra semanalmente um grande lote de válvulas desse fabricante mas sob a seguinte condição ela aceita o lote se em dez válvulas escolhidas o acaso no máximo uma tiver duração inferior a 20 horas caso contrário o lote todo é rejeitado a Se o fabricante de fato tem razão qual a probabilidade de um lote ser rejeitado b Suponha agora que o fabricante esteja mentindo isto é na verdade a proporção de válvulas com duração inferior a 20 horas é de 10 Qual a probabilidade de um lote ser aceito segundo o critério acima 39 Para estudar o comportamento do mercado automobilístico as marcas foram divididas em três categorias marca F marca W e as demais reunidas como marca X Um estudo sobre o hábito de mudança de marca mostrou o seguinte quadro de probabilidade Proprietário de carro da marca Probabilidade de mudança para W F X W 050 025 025 F 015 070 015 X 030 030 040 A compra do primeiro carro é feita segundo as seguintes probabilidades marca W com 50 marca F com 30 e marca X com 20 a Qual a probabilidade de um indivíduo comprar o terceiro carro da marca W b Se o terceiro carro é da marca W qual a probabilidade de o primeiro também ter sido W 40 A empresa M B tem 15800 empregados classificados de acordo com a tabela abaixo Idade Sexo Homens M Mulheres F Total 25 anos A 2000 800 2800 25 40 anos B 4500 2500 7000 40 anos C 1800 4200 6000 Total 8300 7500 15800 Se um empregado é selecionado ao acaso calcular a probabilidade de ser ele a um empregado com 40 anos de idade ou menos b um empregado com 40 anos de idade ou menos e mulher c um empregado com mais de 40 anos de idade e que seja homem d uma mulher dado que é um empregado com menos de 25 anos 41 Considere o Problema 40 e suponha que escolhamos dois empregados ao acaso com reposição Qual a probabilidade de que a ambos sejam do sexo masculino b o primeiro tenha menos de 25 anos e o segundo seja do sexo masculino e tenha menos de 25 anos c nenhum tenha menos de 25 anos 42 Resolva as questões a e c do Problema 41 supondo que a amostragem é feita sem reposição 43 Numa empresa existem operários de determinada categoria com idades iguais a a b e c anos existem pelo menos três com a mesma idade Escolhemse três ao acaso para que façam determinado curso Se indicarmos por x a idade do primeiro y a do segundo e z a do terceiro o terno x y z indica cada possível resultado Enumere a o espaço amostral e b os eventos A x y zx y z B x y zx y 44 Os colégios A B e C têm as seguintes porcentagens de rapazes respectivamente 40 20 e 10 Um desses colégios é selecionado ao acaso e oito alunos são escolhidos com reposição Se o resultado for RRRMMMMM R para rapaz e M para moça qual é a probabilidade de ter sido selecionado o colégio C 45 Um inspetor da seção de controle de qualidade de uma firma examina os artigos de um lote que tem m peças de primeira qualidade e n peças de segunda qualidade Uma verificação dos b primeiros artigos selecionados ao acaso do lote mostrou que todos eram de segunda qualidade b n 1 Qual a probabilidade de que entre os dois próximos artigos selecionados ao acaso dos restantes pelo menos um seja de segunda qualidade 46 Prove que se A e B são independentes também o serão Ac e Bc A e Bc e Ac e B 47 Obtenha uma fórmula para PA B C 48 Na figura abaixo temos um sistema chamado ponte Nas mesmas condições do Problema 22 obtenha a confiabilidade do sistema 49 Considere o quadrado com vértices 00 10 01 e 11 Suponha que a probabilidade de uma região A evento seja a área dessa região a Represente graficamente o evento A conjunto dos pontos cuja distância à origem seja menor ou igual a 1 b Calcule PA c Calcule a probabilidade do evento B x y x b ou y b em que b é um número tal que 0 b 1 d Calcule PBc em que B foi definido em c 50 Considere Ω como o quadrado da figura do Problema 49 Considere os eventos A x y 13 x 23 0 y 12 B x y 12 x 1 14 y 34 Calcular PA PB PA B PAc PBc e PAc Bc 51 Considere agora a situação do Problema 49 mas suponha que o quadrado não tenha área unitária Como você definiria a probabilidade de um evento A 52 Suponha uma população de N elementos a1 a2 aN Qualquer arranjo ordenado ai1 ai2 ain de n símbolos é chamado de uma amostra ordenada de tamanho n extraída da população Considere o símbolo Nn como significando NN 1 N n 1 Suponha n N Mostre que existem Nn amostras com reposição um mesmo elemento pode ser retirado mais de uma vez e Nn amostras sem reposição um elemento quando escolhido é removido da população não havendo pois repetição na amostra 53 Uma amostra ordenada de tamanho n extraída de uma população com N elementos produz um plano aleatório simples se todas as possíveis amostras têm a mesma probabilidade de serem escolhidas essa probabilidade será 1Nn se a amostra for com reposição e 1Nn se for sem reposição Uma amostra casual de tamanho n com reposição é extraída de uma população com N elementos Encontre a probabilidade de não haver repetição na amostra 54 Considere Observe a situação do Problema 52 na qual não levamos em consideração a ordem do conjunto ai1 ai2 ain Mostre que existem amostras sem reposição 55 a Se A B e C são independentes prove que A e B C são independentes b Nas mesmas condições prove que A B e C são independentes 56 Dizemos que A B A é subconjunto de B se todo elemento de A também pertence a B Por exemplo 1 2 1 2 3 Se PA 13 PBc 14 A e B podem ser disjuntos ou mutuamente exclusivos Sugestão PA PA B PA Bc e A Bc Bc Use o fato de que se A B PA PB 57 Um sistema é composto de três componentes 1 2 e 3 com confiabilidade 09 08 e 07 respectivamente O componente 1 é indispensável ao funcionamento do sistema se 2 ou 3 não funcionam o sistema funciona mas com um rendimento inferior A falha simultânea de 2 e 3 implica o nãofuncionamento do sistema Supondo que os componentes funcionem independentemente calcular a confiabilidade do sistema 58 Prove 54 Sugestão escreva U V e V como reuniões de eventos mutuamente exclusivos 59 Há quatro bolas numa urna numeradas 000 011 101 110 Selecione uma bola ao acaso da urna Considere os eventos Ai na bola selecionada o número 1 aparece na posição i i 1 2 3 Seja A A1 A2 A3 a Calcule PAi i 1 2 3 e PA b Mostre que A1 A2 e A3 são mutuamente independentes mas não são independentes 60 Como fica a relação 510 para n eventos quaisquer A1 A2 An 61 Definir independência para n eventos quaisquer A1 An 62 O problema do aniversário Considere k pessoas numa sala Qual a probabilidade de que pelo menos duas pessoas façam aniversário no mesmo dia e mês A partir de qual valor de k essa probabilidade é maior que 05 Sugestão seja A o evento pelo menos duas pessoas fazem aniversário no mesmo dia O evento complementar é Ac todas as k pessoas fazem aniversário em dias diferentes Calcule primeiro a PAc Para isso use o resultado do Problema 53 Aqui temos N 365 dias e k n pessoas Se PA p então mostre que Note que há k fatores no numerador e no denominador dessa expressão 63 Mostre que a probabilidade 1 p do Problema 62 pode ser escrita como para k pequeno Como ficará PA neste caso 64 Num mercado três corretoras A B e C são responsáveis por 20 50 e 30 do volume total de contratos negociados respectivamente Do volume de cada corretora 20 5 e 2 respectivamente são contratos futuros em dólares Um contrato é escolhido ao acaso e este é futuro em dólares Qual é a probabilidade de ter sido negociado pela corretora A E pela corretora C 65 Lance uma moeda duas vezes e sejam os eventos A cara no primeiro lançamento B cara no segundo lançamento e C as duas moedas mostram faces diferentes Mostre que A B e C são dois a dois independentes mas não totalmente independentes 66 O Problema de Monty Hall Num programa de TV o objetivo é ganhar um carro como prêmio O apresentador do programa mostra a você três portas P1 P2 e P3 atrás de uma há um carro e das outras duas cabras Ele pede a você para escolher uma porta você escolhe P1 mas essa não é aberta Então ele abre uma das outras duas portas e mostra uma cabra ele sabe o que há atrás de cada porta Então ele pergunta se você quer mudar sua escolha de porta O que você faria Sugestão solução informal faça a árvore de possibilidades Solução formal seja G o evento ganhar o carro mudando sua escolha Seja Ci o evento carro está atrás da porta Pi i 1 2 3 e seja Hi o evento apresentador abriu a porta Pi i 1 2 3 Escreva G como uma reunião disjunta de dois eventos e use 58 67 Defina a diferença simétrica entre os eventos A e B como A B Ac B A Bc Calcule PA B para os eventos A e B do Exemplo 57 Capítulo 6 Variáveis Aleatórias Discretas 61 Introdução No capítulo anterior introduzimos alguns modelos probabilísticos por meio de espaços amostrais bem simples Isso facilitou bastante a compreensão do conceito de probabilidade e a obtenção de algumas propriedades Mas para atender a situações práticas mais gerais necessitamos ampliar esses conceitos para que tenhamos modelos probabilísticos que representem todos os tipos de variáveis definidas no Capítulo 2 Muito do que foi apresentado naquele capítulo para tratamento descritivo das variáveis terá o seu correspondente no modelo teórico Para as variáveis qualitativas a descrição de probabilidades associadas a eventos construída no capítulo precedente adaptase muito bem Dada a sua simplicidade trataremos aqui de variáveis quantitativas discretas Já os modelos para variáveis contínuas necessitarão de um artifício matemático baseado em uma generalização do conceito de histograma definido na Seção 23 e esse será o objetivo do próximo capítulo A extensão dos modelos para várias variáveis será tratada no Capítulo 8 Por outro lado quando estudamos a descrição de dados vimos que os recursos disponíveis para a análise das variáveis quantitativas são muito mais ricos do que para as variáveis qualitativas Isso sugere o uso de artifícios para transformar essas últimas variáveis naquelas do primeiro tipo Por exemplo considere o caso de um questionário em que uma pessoa é indagada a respeito de uma proposição e as respostas possíveis são sim ou não Podemos associar ao problema uma variável que toma dois valores 1 ou 0 por exemplo correspondentes às respostas sim ou não respectivamente Esse tipo de variável será estudado neste capítulo O conhecimento de modelos probabilísticos para variáveis quantitativas é muito importante e grande parte do restante deste livro será dedicada à construção desses modelos e inferências sobre seus parâmetros Essas variáveis para as quais iremos construir modelos probabilísticos serão chamadas de variáveis aleatórias va 62 O Conceito de Variável Aleatória Discreta O conceito de va discreta será introduzido por meio de um exemplo Exemplo 61 Um empresário pretende estabelecer uma firma para montagem de um produto composto de uma esfera e um cilindro As partes são adquiridas em fábricas diferentes A e B e a montagem consistirá em juntar as duas partes e pintálas O produto acabado deve ter o comprimento definido pelo cilindro e a espessura definida pela esfera dentro de certos limites e isso só poderá ser verificado após a montagem Para estudar a viabilidade de seu empreendimento o empresário quer ter uma ideia da distribuição do lucro por peça montada Sabese que cada componente pode ser classificado como bom longo ou curto conforme sua medida esteja dentro da especificação maior ou menor que a especificada respectivamente Além disso foram obtidos dos fabricantes o preço de cada componente 500 e as probabilidades de produção de cada componente com as características bom longo e curto Esses valores estão na Tabela 61 Se o produto final apresentar algum componente com a característica C curto ele será irrecuperável e o conjunto será vendido como sucata ao preço de 500 Cada componente longo poderá ser recuperado a um custo adicional de 500 Se o preço de venda de cada unidade for de 2500 como seria a distribuição de frequências da variável X lucro por conjunto montado Tabela 61 Distribuição da produção das fábricas A e B de acordo com as medidas das peças produzidas Produto Fábrica A Cilindro Fábrica B Esfera Dentro das especificações bom B 080 070 Maior que as especificações longo L 010 020 Menor que as especificações curto C 010 010 Fonte Retirada das especificações técnicas das fábricas A e B A construção dessa distribuição de frequências vai depender de certas suposições que faremos sobre o comportamento do sistema considerado Com base nessas suposições estaremos trabalhando com um modelo da realidade e a distribuição que obtivermos será uma distribuição teórica tanto mais próxima da distribuição de frequências real quanto mais fiéis à realidade forem as suposições Primeiramente vejamos a construção do espaço amostral para a montagem dos conjuntos segundo as características de cada componente e suas respectivas probabilidades Como os componentes vêm de fábricas diferentes vamos supor que a classificação dos cilindros e a da esfera segundo suas características sejam eventos independentes Obteremos a configuração da Figura 61 Uma representação do espaço amostral em questão está apresentada na Tabela 62 e foi obtida da Figura 61 Figura 61 Diagrama em árvore para o Exemplo 61 Tabela 62 Distribuição de probabilidade das possíveis composições das montagens Produto Probabilidade Lucro por montagem X BB 056 15 BL 016 10 BC 008 5 LB 007 10 LL 002 5 LC 001 5 CB 007 5 CL 002 5 CC 001 5 Fonte Figura 51 e informações no texto A última coluna da Tabela 62 foi construída com base nas informações sobre preços Por exemplo obtendo uma montagem LB cilindro longo e esfera boa do preço de venda 2500 devemos descontar 1000 dos custos dos componentes e 500 para recuperar o cilindro longo Portanto o lucro X desse conjunto será 1000 Verifique os lucros das demais montagens Com os dados da Tabela 62 vemos que X pode assumir um dos seguintes valores 15 se ocorrer o evento A1 BB 10 se ocorrer o evento A2 BL LB 5 se ocorrer o evento A3 LL 5 se ocorrer o evento A4 BC LC CB CL CC Cada um desses eventos tem uma probabilidade associada ou seja PA1 056 PA2 023 PA3 002 PA4 019 o que nos permite escrever a função x p x da Tabela 63 que é um modelo teórico para a distribuição da variável X que o empresário poderá usar para julgar a viabilidade econômica do projeto que ele pretende realizar Aqui x é o valor da va X e px é a probabilidade de X tomar o valor x Voltaremos a esse problema mais adiante Tabela 63 Distribuição da va X x px 15 056 10 023 5 002 5 019 Total 100 A função x p x é chamada função de probabilidade da va X Esquematicamente teremos a situação da Figura 62 Figura 62 Função de probabilidade da va X lucro por montagem É evidente que ao mesmo espaço amostral da Tabela 62 podemos associar outras variáveis aleatórias como veremos a seguir Exemplo 62 Se considerarmos Y como a variável custo de recuperação de cada conjunto produzido verificaremos que Y irá assumir os valores 0 se ocorrer o evento B1 BB BC LC CB CL CC 5 se ocorrer o evento B2 BL LB 10 se ocorrer o evento B3 LL A função de probabilidade da va Y está representada na Tabela 64 e a Figura 63 representa a situação esquematicamente Figura 63 Função de probabilidade da va Y custo de recuperação Tabela 64 Distribuição da va Y y py 0 075 5 023 10 002 Total 100 Deduzse do exposto que uma va X do tipo discreto estará bem caracterizada se indicarmos os possíveis valores x1 x2 xn que ela pode assumir e as respectivas probabilidades px1 px2 pxn ou seja se conhecermos a sua função de probabilidade x px Também usaremos a notação px PX x Em algumas situações a determinação da função de probabilidade fp é bem mais simples Isso pode ser verificado pelos dois exemplos seguintes Exemplo 63 Voltemos à situação do Exemplo 510 em que consideramos duas extrações sem reposição de uma urna contendo duas bolas brancas e três bolas vermelhas Definamos a va X número de bolas vermelhas obtidas nas duas extrações Obtemos a Tabela 65 e a Figura 64 Tabela 65 Extrações sem reposição de urna com duas bolas brancas e três bolas vermelhas Resultados Probabilidades X BB 110 0 BV 310 1 VB 310 1 VV 310 2 Fonte Figura 64 Figura 64 Diagrama em árvore para o Exemplo 63 Vemos pois que a cada resultado do experimento está associado um valor da va X a saber 0 1 ou 2 Temos que X 0 com probabilidade 110 pois X 0 se e somente se ocorre o resultado BB X 1 com probabilidade 310 310 610 pois X 1 se e somente se ocorrem os resultados BV ou VB que são mutuamente exclusivos finalmente X 2 com probabilidade 310 pois X 2 se e somente se ocorre o resultado VV Resumidamente p0 PX 0 PBB 110 p1 PX 1 PBV ou VB 610 p2 PX 2 PVV 310 Na Tabela 66 apresentamos a distribuição de probabilidades da va X Tabela 66 Distribuição de probabilidades da va X número de bolas vermelhas x px 0 110 1 610 2 310 Fonte Tabela 65 Exemplo 64 Retomemos o Exemplo 53 em que consideramos o lançamento de uma moeda duas vezes Definamos a va Y número de caras obtidas nos dois lançamentos Temos então p0 PY 0 PRR 14 p1 PY 1 PCR ou RC 14 14 12 p2 PY 2 PCC 14 Na Tabela 67 e na Figura 65 temos esquematizado o que ocorre e na Tabela 68 apresentamos a distribuição de probabilidades de Y Tabela 67 Lançamento de duas moedas Resultados Probabilidades Y CC 14 2 CR 14 1 RC 14 1 RR 14 0 Fonte Figura 65 Figura 65 Diagrama em árvore para o Exemplo 64 Tabela 68 Distribuição da va Y número de caras y py 0 14 1 12 2 14 Fonte Tabela 67 Dos exemplos apresentados vemos que a cada ponto do espaço amostral a variável sob consideração associa um valor numérico o que corresponde em Matemática ao conceito de função mais precisamente a uma função definida no espaço amostral Ω e assumindo valores reais Definição Uma função X definida no espaço amostral Ω e com valores num conjunto enumerável de pontos da reta é dita uma variável aleatória discreta Esquematicamente teremos a situação da Figura 66 PX xi PA onde A ω₁ ω₂ Ω é tal que Xωj xi se ωj A e Xωj xi se ωj Ac Definição Chamase função de probabilidade da va discreta X que assume os valores x₁ x₂ xₙ a função xᵢ pxᵢ i 1 2 que a cada valor de xᵢ associa a sua probabilidade de ocorrência isto é pxᵢ PX xᵢ pᵢ i 1 2 6 Generalize o Problema 5 para n lançamentos da moeda 63 Valor Médio de uma Variável Aleatória Vamos introduzir o conceito de valor médio por meio do seguinte exemplo Exemplo 65 Uma pergunta que logo ocorreria ao empresário do Exemplo 61 é qual o lucro médio por conjunto montado que ele espera conseguir Da Tabela 63 observamos que 56 das montagens devem produzir um lucro de 15 reais 23 um lucro de dez reais e assim por diante Logo o lucro esperado por montagem será dado por lucro médio 05615 02310 0025 0195 985 Isto é caso sejam verdadeiras as suposições feitas para determinar a distribuição da va o empresário espera ter um lucro de 985 reais por conjunto montado Definição Dada a va X discreta assumindo os valores x1 xn chamamos valor médio ou esperança matemática de X ao valor 61 A Fórmula 61 é semelhante àquela utilizada para a média introduzida no Capítulo 3 na qual no lugar das probabilidades pi tínhamos as frequências relativas fi A distinção entre essas duas quantidades é que a primeira corresponde a valores de um modelo teórico pressuposto e a segunda a valores observados da variável Como pi e fi têm a mesma interpretação todas as medidas e gráficos discutidos no Capítulo 2 baseados na distribuição das fi possuem um correspondente na distribuição de uma va Além do valor médio ou simplesmente média definido acima podemos considerar também outras medidas de posição e variabilidade como a mediana e o desvio padrão Veja a Seção 68 para a definição da mediana de uma va discreta Vamos considerar agora a definição de variância Definição Chamamos de variância da va X o valor 62 O desvio padrão de X DPX é definido como a raiz quadrada positiva da variância Exemplo 66 Deixamos a cargo do leitor verificar que no caso do problema do empresário teremos i VarX 5723 ii DPX 757 iii gráfico de x px Figura 67 Figura 67 Gráfico de px distribuição da va X lucro por montagem Observação Até agora consideramos o caso em que a va X pode assumir um número finito de valores Mas uma va discreta X pode assumir um número infinito porém enumerável de valores x1 xn com probabilidades p1 pn tal que cada pi 0 e a soma de todos os pi seja 1 ou seja Veja o Problema 3 Nesse caso a definição de esperança deve ser modificada A soma na Fórmula 61 é uma soma infinita que temos de supor que seja convergente Problemas 7 Obtenha a média e a variância da va X dos Problemas 1 e 2 8 Obter a média e a variância da va Y do Problema 4 64 Algumas Propriedades do Valor Médio Retomemos o Exemplo 61 para ilustrar algumas propriedades da média de uma va Exemplo 67 Suponha que todos os preços determinados pelo empresário do Exemplo 61 estivessem errados Na realidade todos os valores deveriam ser duplicados isto é custos e preços de venda Isso corresponde à transformação Z 2X As probabilidades associadas à va Z serão as mesmas da va X pois cada valor de X irá corresponder a um único valor de Z Na Tabela 69 temos a distribuição de Z O valor médio da va Z é obtido por Suponha agora que queiramos a distribuição da va W X2 Baseados na Tabela 63 obtemos a Tabela 610 Tabela 69 Distribuição da variável aleatória Z 2X x z 2x pz px z pz 15 30 056 1680 10 20 023 460 5 10 002 020 5 10 019 190 Total 100 1970 Fonte Tabela 63 Tabela 610 Distribuição da variável aleatória W X2 w pw w pw 225 056 12600 100 023 2300 25 021 525 Total 100 15425 Fonte Tabela 63 Observe que o evento W 25 ocorre quando X 5 ou X 5 portanto PW 25 PX 5 PX 5 002 019 021 Seguese que a média de W é EW Σwᵢpwᵢ 225056 100023 25021 225056 100023 25002 25019 Σx₂pxᵢ 15425 Dada a va discreta X e a respectiva função de probabilidade px a esperança matemática da função hX é dada por EhX Σhxᵢpxᵢ No Capítulo 2 demos a definição de função de distribuição acumulada ou empírica para um conjunto de n observações O equivalente teórico para variáveis aleatórias é definido a seguir Definição Dada a variável aleatória X chamaremos de função de distribuição acumulada fda ou simplesmente função de distribuição fd Fx à função Fx PX x 67 Observe que o domínio de F é todo o conjunto dos números reais ao passo que o contradomínio é o intervalo 01 Exemplo 69 Voltando ao problema do empresário e usando a fp de X definida na Tabela 63 a fda de X será dada por cujo gráfico está na Figura 68 Figura 68 fda para a va X lucro por montagem Observe que PX xi é igual ao salto que a função Fx dá no ponto xi por exemplo PX 10 023 F10 F10 De modo geral PX xi Fxi Fxi em que lembramos que Fa limx a Fx Observe também que o conhecimento de Fx é equivalente ao conhecimento da fp de X Problemas 9 No Problema 1 obtenha as distribuições das va 3X e X2 10 Considere o lançamento de três moedas Se ocorre o evento CCC dizemos que temos uma sequência ao passo que se ocorre o evento CRC temos três sequências Defina a va X número de caras obtidas e Y número de sequências isso para cada resultado possível Assim X CRR 1 e Y CRR 2 Obtenha as distribuições de X e Y Calcule EX EY VarX e VarY 11 Suponha que a va V tem a distribuição seguinte v 0 1 pv q 1 q Obtenha EV e VarV 12 Seja X com distribuição dada abaixo calcule EX Considere a va X a2 e calcule EX a2 para a 0 14 12 34 1 Obtenha o gráfico de EX a2 ga Para qual valor de a ga é mínimo x 0 1 2 px 12 14 14 13 Um vendedor de equipamento pesado pode visitar num dia um ou dois clientes com probabilidade de 13 ou 23 respectivamente De cada contato pode resultar a venda de um equipamento por 5000000 com probabilidade 110 ou nenhuma venda com probabilidade 910 Indicando por Y o valor total de vendas diárias desse vendedor escreva a função de probabilidade de Y e calcule o valor total esperado de vendas diárias 14 Calcule a variância da va Y definida no Problema 13 15 Obter a fda para a va V do Problema 11 Faça seu gráfico 16 Calcule a fda da va Y do Problema 10 e faça seu gráfico 17 O tempo T em minutos necessário para um operário processar certa peça é uma va com a seguinte distribuição de probabilidade t 2 3 4 5 6 7 pt 01 01 03 02 02 01 a Calcule o tempo médio de processamento Para cada peça processada o operário ganha um fixo de 200 mas se ele processa a peça em menos de seis minutos ganha 050 em cada minuto poupado Por exemplo se ele processa a peça em quatro minutos recebe a quantia adicional de 100 b Encontre a distribuição a média e a variância da va G quantia em ganha por peça 18 Sabese que a va X assume os valores 1 2 e 3 e que sua fda Fx é tal que F1 F1 13 F2 F2 16 F3 F3 12 Obtenha a distribuição de X a fda Fx e os gráficos respectivos 19 Obtenha a fda Ft da va T do Problema 17 66 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas Algumas variáveis aleatórias adaptamse muito bem a uma série de problemas práticos Portanto um estudo pormenorizado dessas variáveis é de grande importância para a construção de modelos probabilísticos para situações reais e a consequente estimação de seus parâmetros Para algumas dessas distribuições existem tabelas que facilitam o cálculo de probabilidades em função de seus parâmetros Nesta seção iremos estudar alguns desses modelos procurando enfatizar as condições em que eles aparecem suas funções de probabilidade parâmetros e como calcular probabilidades 661 Distribuição Uniforme Discreta Este é o caso mais simples de va discreta em que cada valor possível ocorre com a mesma probabilidade Definição A va discreta X assumindo os valores x1 xk tem distribuição uniforme se e somente se 68 para todo i 1 2 k É fácil verificar que 69 610 e que a função de distribuição acumulada é dada por 611 em que nx é o número de xi x veja a Figura 69 Figura 69 Distribuição uniforme discreta Exemplo 610 Seja X a va que indica o número de pontos marcados na face superior de um dado quando ele é lançado Obtemos na Tabela 611 a distribuição de X Temos também EX 16 1 2 3 4 5 6 216 35 VarX 16 1 4 36 2126 3512 29 Tabela 611 Número de pontos no lançamento de um dado x 1 2 3 4 5 6 Total px 16 16 16 16 16 16 10 662 Distribuição de Bernoulli Muitos experimentos são tais que os resultados apresentam ou não uma determinada característica Por exemplo 1 uma moeda é lançada o resultado ou é cara ou não ocorrendo então coroa 2 um dado é lançado ou ocorre face 5 ou não ocorrendo então uma das faces 1 2 3 4 ou 6 3 uma peça é escolhida ao acaso de um lote contendo 500 peças essa peça é defeituosa ou não 4 uma pessoa escolhida ao acaso dentre 1000 é ou não do sexo masculino 5 uma pessoa é escolhida ao acaso entre os moradores de uma cidade e verificase se ela é favorável ou não a um projeto municipal Em todos esses casos estamos interessados na ocorrência de sucesso cara face 5 etc ou fracasso coroa face diferente de 5 etc Essa terminologia sucesso e fracasso será usada frequentemente Para cada experimento acima podemos definir uma va X que assume apenas dois valores 1 se ocorrer sucesso e 0 se ocorrer fracasso Indicaremos por p a probabilidade de sucesso isto é Psucesso PS p 0 p 1 Definição A variável aleatória X que assume apenas os valores 0 e 1 com função de probabilidade x px tal que p0 PX 0 1 p p1 PX 1 p é chamada variável aleatória de Bernoulli Então seguese facilmente que EX p 612 VarX p p2 p1 p 613 Na Figura 610 temos representadas as fp e fda de X Figura 610 Distribuição de Bernoulli a fp b fda Exemplo 611 Vamos supor o caso do experimento 2 Supondo o dado perfeito teremos PX 0 56 PX 1 16 EX 16 VarX 16 56 536 Observação Experimentos que resultam numa va de Bernoulli são chamados ensaios de Bernoulli Usaremos a notação X Berp para indicar uma va com distribuição de Bernoulli com parâmetro p 663 Distribuição Binomial Imagine agora que repetimos um ensaio de Bernoulli n vezes ou de maneira alternativa obtemos uma amostra de tamanho n de uma distribuição de Bernoulli Suponha ainda que as repetições sejam independentes isto é o resultado de um ensaio não tem influência nenhuma no resultado de qualquer outro ensaio Uma amostra particular será constituída de uma sequência de sucessos e fracassos ou alternativamente de uns e zeros Por exemplo repetindo um ensaio de Bernoulli cinco vezes n 5 um particular resultado pode ser FSSFS ou a quíntupla ordenada 0 1 1 0 1 Usando a notação da Seção 662 com PS p a probabilidade de tal amostra será 1 ppp1 pp p31 p2 O número de sucessos nessa amostra é igual a 3 sendo 2 o número de fracassos Considere agora as seguintes situações obtidas de 1 a 5 da seção anterior 1 uma moeda é lançada três vezes qual é a probabilidade de se obter duas caras 2 um dado é lançado cinco vezes qual é a probabilidade de se obter face 5 no máximo três vezes 3 dez peças são extraídas ao acaso com reposição de um lote contendo 500 peças qual é a probabilidade de que todas sejam defeituosas sabendose que 10 das peças do lote são defeituosas 4 cinco pessoas são escolhidas ao acaso entre 1000 qual é a probabilidade de que duas sejam do sexo masculino 5 sabese que 90 das pessoas de uma cidade são favoráveis a um projeto municipal Escolhendose 100 pessoas ao acaso entre os moradores qual é a probabilidade de que pelo menos 80 sejam favoráveis ao projeto Observe que nos casos 4 e 5 o fato de estarmos extraindo indivíduos de um conjunto muito grande implica que podemos supor que as extrações sejam praticamente independentes Exemplo 612 Consideremos a situação 1 supondo que a moeda seja honesta isto é Psucesso Pcara 12 Indiquemos o sucesso cara por S e fracasso coroa por F Então estamos interessados na probabilidade do evento A SSF SFS FSS ou em termos da notação anterior na probabilidade de A 1 1 0 1 0 1 0 1 1 É claro que PA PSSF PSFS PFSS e devido à independência dos ensaios e portanto Se a probabilidade de sucesso for p 0 p 1 e PF 1 p q então PSSF p p q p2 q PSFS PFSS de modo que PA 3p2q Uma característica interessante dos experimentos considerados é que estamos interessados apenas no número total de sucessos e não na ordem em que eles ocorrem Podemos construir a Tabela 612 para n 3 lançamentos da moeda com PS p PF 1 p q a partir da Figura 611 Vamos designar por X o número total de sucessos em n ensaios de Bernoulli com probabilidade de sucesso p 0 p 1 Os possíveis valores de X são 0 1 2 n e os pares x px em que px PX x constituem a chamada distribuição binomial Figura 611 Probabilidades binomiais para n 3 e PS p Tabela 612 Probabilidades binomiais para n 3 e PS p Número de sucessos Probabilidades p 12 0 q3 18 1 3pq2 38 2 3p2q 38 3 p3 18 Fonte Figura 611 Para o exemplo 1 acima n 3 e p 12 obtemos a distribuição dada pela primeira e terceira colunas da Tabela 612 e o gráfico da Figura 612 Figura 612 Gráfico da fp px para n 3 e p 12 Obtenhamos agora PX k ou seja numa sequência de n ensaios de Bernoulli a probabilidade de obter k sucessos e portanto n k fracassos k 012 n com PS p PF 1 p q Uma particular sequência é SSS SFF F em que temos k sucessos seguidos por n k fracassos A probabilidade de tal sequência é pk1 pn k pkqn k 614 devido à independência dos ensaios Mas qualquer sequência com k sucessos e n k fracassos terá a mesma probabilidade 614 Portanto resta saber quantas sequências com a propriedade especificada podemos formar É fácil ver que existem tais sequências de modo que 615 As probabilidades 615 também serão indicadas por bk n p e quando a va X tiver distribuição binomial com parâmetros n e p escreveremos X bn p Exemplo 613 Vamos considerar a situação 3 acima Temos n 10 ensaios de Bernoulli cada um com PS Ppeça defeituosa p 01 Se X indicar o número de peças defeituosas na amostra queremos calcular PX 10 b10 10 110 Por 615 obtemos A média e a variância de uma va binomial com parâmetros n e p são dadas respectivamente por EX np 616 VarX npq 617 Veja o Problema 41 e as Seções 83 e 84 Para o Exemplo 613 temos As probabilidades binomiais bk n p são facilmente calculadas em programas estatísticos como o Minitab e o SPlus ou planilhas como o Excel ou então são dadas por tabelas especialmente construídas para diferentes valores de n e p A Tabela I fornece essas probabilidades para valores de n 2 3 19 e alguns valores de p Exemplo 614 Usando 615 e a Tabela I ou com a ajuda de um computador obtemos No Capítulo 7 e na Seção 665 veremos duas maneiras de calcular valores aproximados para as probabilidades binomiais para n grande Para finalizar vamos formalizar os principais pontos apresentados nesta seção Definição Chamase de experimento binomial ao experimento a que consiste em n ensaios de Bernoulli b cujos ensaios são independentes e c para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p 0 p 1 Definição A variável aleatória X correspondente ao número de sucessos num experimento binomial tem distribuição binomial bn p com função de probabilidade 618 Na Seção 69 veremos como podemos obter os valores bk n p para n e p dados usando um pacote estatístico 664 Distribuição Hipergeométrica Essa distribuição é adequada quando consideramos extrações casuais feitas sem reposição de uma população dividida segundo dois atributos Para ilustrar considere uma população de N objetos r dos quais têm o atributo A e N r têm o atributo B Um grupo de n elementos é escolhido ao acaso sem reposição Estamos interessados em calcular a probabilidade de que esse grupo contenha k elementos com o atributo A Podese ver facilmente utilizando o princípio multiplicativo que essa probabilidade é dada por 619 em que max0 n N r k minr n Os pares k pk constituem a distribuição hipergeométrica de probabilidades Se definirmos a va X como o número de elementos na amostra que têm o atributo A então PX k pk Exemplo 615 Em problemas de controle de qualidade lotes com N itens são examinados O número de itens com defeito atributo A r é desconhecido Colhemos uma amostra de n itens e determinamos k Somente para ilustrar suponha que num lote de N 100 peças r 10 sejam defeituosas Escolhendo n 5 peças sem reposição a probabilidade de não se obter peças defeituosas é enquanto a probabilidade de se obter pelo menos uma defeituosa é p1 p2 p5 1 p0 0426 Podese demonstrar que a va X definida acima tem esperança e variância dadas por EX np 620 621 As probabilidades 622 calculadas agora para todos os valores inteiros não negativos k 0 1 2 constituem a chamada distribuição de Poisson tabelada na Tabela II para alguns valores de λ np A aproximação bk n p enpnpkk é boa se n grande e p pequeno e de tal sorte que np 7 Ver o Problema 43 para uma sugestão de como provar 623 As probabilidades dadas por 623 podem também ser obtidas em aplicativos estatísticos ou planilhas assim como a binomial vemos que essas probabilidades decaem à medida que k cresce e normalmente são desprezíveis para k maior do que 5 ou 6 A distribuição de Poisson é largamente empregada quando se deseja contar o número de eventos de certo tipo que ocorrem num intervalo de tempo ou superfície ou volume São exemplos a número de chamadas recebidas por um telefone durante cinco minutos b número de falhas de um computador num dia de operação e c número de relatórios de acidentes enviados a uma companhia de seguros numa semana De modo geral dizemos que uma va N tem uma distribuição de Poisson com parâmetro λ 0 se PN k eλλkk k 012 É fácil verificar que EN VarN λ veja o Problema 46 logo λ representa o número médio de eventos ocorrendo no intervalo considerado Uma suposição que se faz usualmente em relação à distribuição de Poisson é que a probabilidade de se obter mais de um evento em um intervalo muito pequeno é desprezível Exemplo 617 Uma situação prática de interesse na qual a distribuição de Poisson é empregada diz respeito à desintegração de substâncias radioativas Considerase o urânio 238 U238 por exemplo Cada núcleo de U238 tem uma probabilidade muito pequena 49 1018 de se desintegrar emitindo uma partícula α em um segundo Considere agora um número grande n de núcleos e uma va N número de núcleos que se desintegram Admitindose que a desintegração de um núcleo não afeta a probabilidade de desintegração de qualquer outro núcleo independência a va N tem uma distribuição binomial com parâmetros n e p este dado pelo valor acima Logo estamos numa situação em que podemos usar 623 ou seja aproximar probabilidades binomiais por probabilidades de Poisson Em 030 mg de U238 temos aproximadamente n 76 1017 átomos Helene Vanin 1981 logo λ np 37 e Por exemplo PN 0 eλλ00 0025 e PN 2 0169 Podese ver que PN 19 é muito pequena menor do que 106 Tabela 613 Frequências observadas e esperadas para o Exemplo 617 k nk npk 0 57 54399 1 203 210523 2 383 407361 3 525 525496 4 532 508418 5 408 393515 6 273 253817 7 139 140325 8 45 67862 9 27 29189 10 16 17075 2608 2608000 Seria interessante avaliar se a distribuição de Poisson realmente é um modelo razoável para essa situação Um experimento devido a Rutherford e Geiger veja Feller 1964 p 149 para a referência completa sobre esse experimento de fato comprova essa adequação Eles observaram os números de partículas α emitidas por uma substância radioativa em n 2608 intervalos de 75 segundos A Tabela 613 apresenta os números nk de intervalos de 75 segundos contendo k partículas Uma estimativa de λ número médio de partículas emitidas durante um intervalo de 75 segundos é dada por λ kin 10094 2608 387 Se considerarmos ocorrências de eventos em intervalos de tempo de comprimento t no lugar do intervalo unitário de tempo basta ajustar o parâmetro λ na Fórmula 624 Vejamos um exemplo As probabilidades de Poisson são dadas por Pk 387k e387k k 01 Seguese que nPk é o número esperado de intervalos contendo k partículas e esses valores também estão apresentados na Tabela 613 Vemos que há uma boa coincidência entre os valores das duas colunas Um teste formal pode ser feito para verificar a adequação da distribuição de Poisson Veja o Capítulo 14 Exemplo 145 Exemplo 618 Um telefone recebe em média cinco chamadas por minuto Supondo que a distribuição de Poisson seja adequada nessa situação obter a probabilidade de que o telefone não receba chamadas durante um intervalo de um minuto Seguese que λ 5 e PN 0 e5 50 0 e5 00067 Por outro lado se quisermos a probabilidade de obter no máximo duas chamadas em quatro minutos teremos λ 20 chamadas em quatro minutos logo PN 2 PN 0 PN 1 PN 2 e20 1 20 200 221e20 que é um número muito próximo de zero Esse exemplo nos mostra que a probabilidade de k ocorrências num intervalo fixo de comprimento t pode ser escrita como PN k eλλkk k 012 em que λ representa o número médio de ocorrências naquele intervalo Denotaremos uma va N com distribuição de Poisson de parâmetro λ por N Poisλ 22 Numa central telefônica o número de chamadas chega segundo uma distribuição de Poisson com a média de oito chamadas por minuto Determinar qual a probabilidade de que num minuto se tenha a dez ou mais chamadas b menos que nove chamadas c entre sete inclusive e nove exclusive chamadas 23 Num certo tipo de fabricação de fita magnética ocorrem cortes a uma taxa de um por 2000 pés Qual a probabilidade de que um rolo com 2000 pés de fita magnética tenha a nenhum corte b no máximo dois cortes c pelo menos dois cortes 24 Suponha que a probabilidade de que um item produzido por uma máquina seja defeituoso é de 02 Se dez itens produzidos por essa máquina são selecionados ao acaso qual é a probabilidade de que não mais do que um defeituoso seja encontrado Use a binomial e a distribuição de Poisson e compare os resultados 25 Examinaramse 2000 ninhadas de cinco porcos cada uma segundo o número de machos Os dados estão representados na tabela abaixo Nº de Machos Nº de Ninhadas 0 20 1 360 2 700 3 680 4 200 5 40 Total 2000 a Calcule a proporção média de machos b Calcule para cada valor de X o número de ninhadas que você deve esperar se X b5 p em que p é a proporção média de machos calculada em a 26 Se X tem distribuição binomial com parâmetros n 5 e p 12 faça os gráficos da distribuição de X e da fda Fx 27 Considere agora n 5 e p 14 Obtenha o gráfico da distribuição de X Qual a diferença entre esse gráfico e o correspondente do Problema 26 O que ocasionou a diferença 28 Refaça o Problema 26 com n 6 e p 12 67 O Processo de Poisson No Exemplo 617 acima vimos uma aplicação importante da distribuição de Poisson ao problema da desintegração radioativa Lá tratamos da emissão de partículas alfa em intervalos de 75 segundos Ou seja estamos contando o número de ocorrências de um evento ao longo do tempo Na realidade consideramos o que se chama um processo estocástico Designandose por Nt o número de partículas emitidas no intervalo 0 t obtemos o que se chama de processo de Poisson para todo t 0 Nesta seção iremos partir de algumas suposições que consideramos plausíveis sobre tal processo e mostrar que a distribuição da variável aleatória Nt para cada t 0 é dada pela Fórmula 625 As suposições que iremos admitir como válidas são as seguintes S1 N0 0 ou seja o processo começa no instante zero com probabilidade um PN0 0 1 S2 Os números de eventos em intervalos de tempo disjuntos são va independentes Considere 0 t t s Nt como antes e Nts Nt o número de eventos no intervalo t t s Então estamos supondo que sva Nt N1s Nt são independentes Dizemos que o processo tem incrementos independentes S3 Considere os intervalos 0 t e s s t de mesmo comprimento t e as va Nt como antes e Mt número de eventos no intervalo s s t Então para todo s 0 as va Nt e Mt têm a mesma distribuição de probabilidades Ou seja a distribuição do número de eventos ocorridos num intervalo depende somente do comprimento do intervalo e não de sua localização Dizemos que o processo tem incrementos estacionários S4 Para h suficientemente pequeno PNh 1 λh com λ 0 constante Ou seja num intervalo pequeno a probabilidade de ocorrência de um evento é proporcional ao comprimento do intervalo S5 Para h como em S4 PNh 2 0 Isso nos diz que a probabilidade de se ter dois ou mais eventos num intervalo suficientemente pequeno é desprezível Considere o intervalo 0 t e o divida em subintervalos de comprimento tn como na Figura 613 Chamemos de Y a va que dá os números de subintervalos com um evento Então Y é uma va com distribuição binomial de parâmetros n número total de subintervalos e p P um evento λtn Para n grande usando a aproximação da seção anterior temos que essa variável pode ser aproximada por uma va com distribuição de Poisson com parâmetro np nλtn λt Note que aqui usamos as suposições S2 cada subintervalo contém um evento independentemente dos demais intervalos e S3 com a mesma probabilidade Pela suposição S5 a probabilidade de que cada subintervalo contenha dois ou mais eventos tende a zero quando n cresce Logo Nt é uma va com distribuição de Poisson com parâmetro λt Uma prova um pouco mais rigorosa usando derivadas pode ser dada Veja Meyer 1965 Q2 Q05 mediana ou segundo quartil Q3 Q075 terceiro quartil Vejamos o caso da mediana Q05 Md Por 626 devemos ter PX Md 05 e PX Md 05 627 Suponha a va X com a distribuição x 0 1 px 13 23 Então Md 1 pois PX 1 13 23 1 12 e PX 1 PX 1 23 12 Na Figura 614 temos a fda de X Sabemos que de modo que não existe algum valor x tal que Fx 05 o que ilustra por que não podemos definir a mediana por meio de FMd 05 Figura 614 fda da va X Por outro lado considere a va Y com a distribuição da tabela abaixo Y 1 0 1 py 14 14 12 Então qualquer valor Md entre 0 e 1 é uma mediana pois PY Md PY 1 PY 0 12 12 e Tabela 614 Modelos para variáveis discretas Modelo PX x Parâmetros Bernoulli p1 p1x x 0 1 p p p1 p Binomial n p np np1 p Poisson λ λ λ Geométrica p1 px 1 x 1 2 p Hipergeométrica N r n 1a max0 n N r b minr n PY Md PY 1 12 12 A fda de Y está na Figura 615 Observe que 0 e 1 também são medianas Observe também que Q075 1 pois PX 1 1 p 075 PX 1 05 1 p 025 Novamente não há nenhum valor de y tal que Fy 075 Mostre que Q090 também é igual a 1 Figura 615 fda da va Y 69 Exemplos Computacionais No R é possível obter a função de probabilidade ou densidade a função de distribuição acumulada e os quantis de uma variável aleatória Por exemplo para uma variável aleatória com distribuição binomial podemos utilizar os seguintes comandos dbinom x size prob log FALSE pbinom q size prob lowertail TRUE logp FALSE qbinom p size prob lowertail TRUE logp FALSE rbinom n size prob Principais argumentos x valor observador para o qual se deseja calcular o valor da distribuição q vetor de quantis p vetor de probabilidades n Número de observações a serem simuladas size parâmetro da distribuição número de ensaios prob parâmetro da distribuição probabilidade de sucesso de cada ensaio lowertail Variável TRUEFALSE Se TRUE PX x para TRUE e PX x Com relação à nomenclatura note que no exemplo anterior a referência à distribuição é sempre precedida de uma letra d para densidade p para função distribuição q para quantis e r para simulação Dessa forma se quisermos simular uma distribuição de Poisson o comando será rpois para acessar os quantis de uma distribuição geométrica qgeom e assim por diante Além do R outros pacotes podem ser usados para gerar probabilidades e probabilidades acumuladas quantis etc para os modelos mais importantes discutidos neste capítulo Exemplo 619 Consideremos a va X com distribuição binomial com parâmetros n14 e pPsucesso03 Os comandos no R abaixo geram PXk para k0112 e PXx para x0112 No Quadro 61 temos essas probabilidades mas geradas pelo Minitab que fornece os mesmos valores por meio dos comandos PDF e CDF Quadro 61 Probabilidades binomiais geradas pelo Minitab x017 pxdpoisx lambada52 fdaxcumsumpx quadro62dataframex px fdax No Quadro 62 obtemos as mesmas probabilidades via Minitab Quadro 62 Probabilidades de Poisson geradas pelo Minitab MTB PDF MTB CDF SUBC Poisson 52 SUBC Poisson 52 Probability Density Function Cumulative Distribution Function Poisson with mu 520000 Poisson with mu 520000 x PX x x PX x x PX x x PX x 0 00055 9 00423 0 00055 9 09603 1 00287 10 00220 1 00342 10 09823 2 00746 11 00104 2 01088 11 09927 3 01293 12 00045 3 02381 12 09972 4 01681 13 00018 4 04061 13 09990 5 01748 14 00007 5 05809 14 09997 6 01515 15 00002 6 07324 15 09999 7 01125 16 00001 7 08449 16 10000 8 00731 17 00000 8 09181 610 Problemas Suplementares 29 Um florista faz estoque de uma flor de curta duração que lhe custa 050 e que ele vende a 150 no primeiro dia em que a flor está na loja Toda flor que não é vendida nesse primeiro dia não serve mais e é jogada fora Seja X a variável aleatória que denota o número de flores que os fregueses compram em um dia casualmente escolhido O florista descobriu que a função de probabilidade de X é dada pela tabela abaixo x 0 1 2 3 px 01 04 03 02 Quantas flores deveria o florista ter em estoque a fim de maximizar a média valor esperado do seu lucro 30 As cinco primeiras repetições de um experimento custam 1000 cada Todas as repetições subsequentes custam 500 cada Suponha que o experimento seja repetido até que o primeiro sucesso ocorra Se a probabilidade de sucesso de uma repetição é igual a 09 e se as repetições são independentes qual é o custo esperado da operação 31 Na manufatura de certo artigo é sabido que um entre dez dos artigos é defeituoso Qual a probabilidade de que uma amostra casual de tamanho quatro contenha a nenhum defeituoso b exatamente um defeituoso Para um va X com distribuição de Poisson com parâmetro λ 5 2 teremos os comandos no R acaso Para verificar essa hipótese foi feita uma contagem do número de acidentes por hora durante um certo número de dias 24 horas por dia Os resultados da pesquisa foram apresentados no quadro a seguir Nº de acidentes por hora Nº de horas 0 200 1 152 2 60 3 30 4 13 5 9 6 7 7 5 8 4 a Calcule o número médio de acidentes por hora nessa amostra b Se o número de acidentes por hora seguisse uma distribuição de Poisson com média igual à que você calculou qual seria o número esperado de dias com 0 1 2 etc acidentes c Os dados revelam que a suspeita dos operários é verdadeira 37 Determinado tipo de parafuso é vendido em caixas com 1000 peças É uma característica da fabricação produzir 10 com defeito Normalmente cada caixa é vendida por 1350 Um comprador faz a seguinte proposta de cada caixa ele escolhe uma amostra de 20 peças se a caixa não tiver parafusos defeituosos ele paga 2000 um ou dois defeituosos ele paga 1000 três ou mais defeituosos ele paga 800 Qual alternativa é a mais vantajosa para o fabricante Justifique 38 Uma certa região florestal foi dividida em 109 quadrados para estudar a distribuição da espécie Primula simenses selvagem Supomos que a distribuição de Poisson seja adequada nessa situação A tabela abaixo indica o número de quadrados com X Primulas O número médio de plantas por quadrado foi de 22 X plantas por quadrado Nº de quadrados com X plantas 0 26 1 21 2 23 3 14 4 11 5 4 6 5 7 4 8 1 acima de 8 0 a Se as plantas realmente distribuemse segundo uma distribuição de Poisson qual a probabilidade de encontrarmos pelo menos duas Primulas b Dê as frequências esperadas para os valores de X 0 X 1 e X 2 c Apenas comparando os resultados de b com as frequências observadas qual a conclusão a que você chegaria d Quais as causas que você daria para a conclusão 39 Uma fábrica produz válvulas das quais 20 são defeitosas As válvulas são vendidas em caixas com dez peças Se uma caixa não tiver nenhuma defeituosa seu preço de venda é 10 todo uma o preço é 800 duas ou três o preço é 600 mais do que três o preço é 200 Qual o preço médio de uma caixa 50 Em um experimento binomial com três provas a probabilidade de exatamente dois sucessos é 12 vezes a probabilidade de três sucessos Encontre p 51 No sistema abaixo cada componente tem probabilidade p de funcionar Supondo independência de funcionamento dos componentes qual a probabilidade de a o sistema funcionar b o sistema não funcionar c exatamente dois componentes funcionarem d pelo menos cinco componentes funcionarem 52 Prove que 53 Encontre a mediana da va Z com distribuição Z 0 1 2 3 pZ 14 14 14 14 54 Encontre os quantis de ordens p 025 060 080 da va Z do exercício 53 55 Meyer 1965 O custo de realização de um experimento é 100000 Se o experimento falha um custo adicional de 30000 tem de ser imposto Se a probabilidade de sucesso em cada prova é 02 se as provas são independentes e continuadas até a ocorrência do primeiro sucesso qual o custo esperado do experimento 56 Use o 628 para verificar as relações entre a EeX e eEX b Elog X e log EX para X 0 c E1X e 1EX para X 0 611 Complementos Metodológicos 1 Distribuição Geométrica Suponha que ao realizar um experimento ocorra o evento A com probabilidade p ou não ocorra A ou seja ocorre Ac com probabilidade 1 p Repetimos o experimento de forma independente até que o evento A ocorra pela primeira vez Seja X número de repetição do experimento até que se obtenha A pela primeira vez Então PX j 1 pj 1 p j 1 2 3 pois se X j nas primeiras j 1 repetições A não ocorre ocorrendo na j ésima a Prove que b Mostre que EX 1p e VarX 1 pp2 Sugestão c Se s e t são inteiros positivos então PX s tX s PX t Essa propriedade nos diz que a distribuição geométrica não tem memória Essa propriedade é compartilhada pela distribuição exponencial a ser estudada no Capítulo 7 2 Distribuição de Pascal Considere a mesma situação experimental do Problema 55 só que agora o experimento é continuado até que o evento A ocorra pela résima vez Defina a va Y número de repetições necessárias para que A ocorra exatamente r vezes Note que se r 1 obtemos a distribuição geométrica Mostre que 3 A Desigualdade de Jensen Vimos na fórmula 64 que se hx ax b então EhX hEX ou seja EaX b aEX b Esta fórmula pode não valer se hx não for linear O que vale é o seguinte resultado denominado Desigualdade de Jensen Se hx for uma função convexa e X uma va então EhX hEX 628 com igualdade se e somente se h for linear ou se a variância de X for zero Por exemplo se hx x2 então EX2 EX2 do que decorre que VarX EX2 EX2 0 Lembremos que uma função h é convexa se hx y2 hx hy2 para todo par x y no domínio de h Em termos geométricos h é convexa se o ponto médio da corda que une dois pontos quaisquer da curva representando h está acima da curva A função h é côncava se h for convexa Por exemplo log x é uma função côncava Capítulo 7 Variáveis Aleatórias Contínuas 71 Introdução Neste capítulo iremos estudar modelos probabilísticos para variáveis aleatórias contínuas ou seja variáveis para as quais os possíveis valores pertencem a um intervalo de números reais A definição dada no capítulo anterior para va discreta deve ser modificada como segue Definição Uma função X definida sobre o espaço amostral Ω e assumindo valores num intervalo de números reais é dita uma variável aleatória contínua No Capítulo 2 vimos alguns exemplos de variáveis contínuas como o salário de indivíduos alturas etc A característica principal de uma va contínua é que sendo resultado de uma mensuração o seu valor pode ser pensado como pertencendo a um intervalo ao redor do valor efetivamente observado Por exemplo quando dizemos que a altura de uma pessoa é 175 cm estamos medindo sua altura usando cm como unidade de medida e portanto o valor observado é na realidade um valor entre 1745 cm e 1755 cm Vejamos um exemplo para motivar a discussão que se segue Exemplo 71 O ponteiro dos segundos de um relógio mecânico pode parar a qualquer instante devido a algum defeito técnico ou término da bateria e vamos indicar por X o ângulo que esse ponteiro forma com o eixo imaginário passando pelo centro do mostrador e pelo número XII conforme mostra a Figura 71 Tabela 71 Distribuição uniforme discreta Figura 71 Ilustração de uma va X discreta Medindo esse ângulo X em graus e lembrando que i o ponteiro deve dar 60 saltos ele dá um salto em cada segundo para completar uma volta ii acreditamos que o ponteiro tenha probabilidade igual de parar em qualquer ponto então a va X tem distribuição uniforme discreta com função de probabilidade dada pela Tabela 71 e representada graficamente na Figura 72 parar cada um com igual probabilidade se fôssemos usar o mesmo método usado para a va discreta uniforme cada ponto teria probabilidade de ocorrer igual a zero Assim não tem muito sentido falar na probabilidade de que o ângulo X seja igual a certo valor pois essa probabilidade sempre será igual a zero Entretanto podemos determinar a probabilidade de que X esteja compreendido entre dois valores quaisquer Por exemplo usando a Figura 71 como referência a probabilidade de o ponteiro parar no intervalo compreendido entre os números XII e III é 14 pois esse intervalo corresponde a 14 do intervalo total Podemos pois escrever Do mesmo modo a probabilidade P120º X 150º 112 Por menor que seja o intervalo sempre poderemos calcular a probabilidade de o ponteiro parar num ponto qualquer desse intervalo E é fácil verificar que nesse caso dados dois números a e b tais que 0º a b 360º a probabilidade de X a b é Por meio da divisão do intervalo 0º 360º em pequenos subintervalos podemos construir um histograma para as probabilidades da va X como fizemos para va contínuas no Capítulo 2 Ou ainda como naquele capítulo fazendo esses intervalos tenderem a zero podemos construir o histograma alisado da va X apresentado na Figura 73 Figura 73 Histograma alisado distribuição uniforme contínua O histograma alisado da Figura 73 corresponde à seguinte função Como vimos na construção de histogramas a área correspondente ao intervalo a b hachurada na Figura 73 deve indicar a probabilidade de a variável estar entre a e b Matematicamente isso é expresso por meio da integral da função entre a e b então pois a integral definida de uma função entre dois pontos determina a área sob a curva representativa da função compreendida entre esses dois pontos A função fx é chamada função densidade de probabilidade fdp da va X Podemos construir modelos teóricos para variáveis aleatórias contínuas escolhendo adequadamente as funções densidade de probabilidade Teoricamente qualquer função f que seja não negativa e cuja área total sob a curva seja igual à unidade caracterizará uma va contínua Exemplo 72 Se fx 2x para 0 x 1 e zero fora desse intervalo vemos que fx 0 para qualquer x e a área sob o gráfico de fx é unitária verifique na Figura 74 Logo a função f pode representar a função densidade de uma va contínua X Figura 74 fdp da va X do Exemplo 72 Para esse caso P0 X 12 é igual à área do triângulo de base 12 e altura 1 hachurado na Figura 74 logo a probabilidade em questão é Observamos então que a probabilidade de essa va assumir um valor pertencente ao intervalo 0 12 é menor que a probabilidade de a variável assumir um valor pertencente ao intervalo 12 1 A comparação das funções densidade dos dois últimos exemplos ajuda a entender seu significado No primeiro exemplo consideremos dois intervalos I1 a b e I2 c d contidos no intervalo 0360 com a mesma amplitude b a d c então PX I1 PX I2 O mesmo não acontece no segundo exemplo dados dois intervalos de mesma amplitude aquele mais próximo de 1 irá apresentar maior probabilidade Ou seja a probabilidade de que a va X assuma um valor num intervalo de amplitude fixa depende da posição do intervalo existem regiões com maior chance de ocorrer e o que determina esse fato é a função densidade de probabilidade Portanto a fdp é um indicador da concentração de massa probabilidade nos possíveis valores de X Convém ressaltar ainda que fx não representa a probabilidade de ocorrência de algum evento A área sob a curva entre dois pontos é que irá fornecer a probabilidade Problemas 1 Dada a função a Mostre que esta é uma fdp b Calcule a probabilidade de X 10 2 Uma va X tem distribuição triangular no intervalo 0 1 se sua fdp for dada por a Qual valor deve ter a constante C b Faça o gráfico de fx c Determine PX 12 PX 12 e P14 X 34 3 Suponha que estamos atirando dardos num alvo circular de raio 10 cm e seja X a distância do ponto atingido pelo dardo ao centro do alvo A fdp de X é a Qual a probabilidade de acertar o centro do alvo se esse for um círculo de 1 cm de raio b Mostre que a probabilidade de acertar qualquer círculo concêntrico é proporcional à sua área 4 Encontre o valor da constante c se for uma densidade Encontre PX 15 72 Valor Médio de uma Variável Aleatória Contínua Do que foi visto até aqui deduzse que qualquer função f não negativa tal que define uma va contínua X ou seja cria um modelo teórico para as frequências relativas de uma va contínua A área compreendida entre dois valores a e b da abscissa x sob a curva representativa de fx dá a probabilidade proporção teórica da variável pertencer ao intervalo limitado pelos dois valores Usando o conceito de integral podemos escrever 71 Vejamos agora como podemos definir a esperança valor médio ou média de uma va contínua Para isso usaremos um artifício semelhante àquele usado na Seção 31 para calcular a média das variáveis quantitativas com os dados agrupados em classes Lá substituímos todos os valores de um intervalo classe por um único valor aproximado o ponto médio do intervalo e agimos como se a variável fosse do tipo discreto Aqui iremos repetir esse artifício Consideremos a va X com função densidade fx e dois pontos a e b bem próximos isto é h b a é pequeno e consideremos x₀ o ponto médio do intervalo a b Observando a Figura 75 é fácil verificar que Pa X b h fx₀ 72 o que significa aproximar a área da parte hachurada pelo retângulo de base h e altura fx₀ É fácil ver que a aproximação melhora com h tendendo a zero que será uma aproximação da esperança EX Para determinar EX com maior precisão podemos aumentar o número de intervalos diminuindo sua amplitude h No limite quando h 0 teremos o valor de EX Definamos pois 73 Mas da definição de integral veja Morettin et al 2005 temos que se o limite 73 existe ele define a integral de x fx entre A e B isto é 74 Exemplo 73 Continuando com o Exemplo 72 observamos que dividindo o intervalo 0 1 em n subintervalos teremos h 1n xi 2i 12n e fxi 2i 1n i 1 2 n Portanto na qual usamos o conhecido resultado que dá a soma dos quadrados dos primeiros n números ímpares Logo O mesmo resultado é obtido diretamente da relação 74 Exemplo 74 No caso do relógio elétrico do Exemplo 71 obtemos que é o valor esperado devido à distribuição uniforme das frequências teóricas Como a função fx é sempre não negativa podemos escrever a esperança como 75 A extensão do conceito de variância para va contínuas é feita de maneira semelhante e o equivalente à Fórmula 62 é 76 Exemplo 75 Para os dois exemplos vistos anteriormente teremos i para o caso do relógio ii para o Exemplo 72 Como no caso de va discretas o desvio padrão de uma va contínua X é definido como 77 que é dado na mesma unidade de medida do que X Deixamos a cargo do leitor a verificação de que o seguinte resultado vale como consequência de 76 VarX EX2 EX2 78 Como frisamos no Capítulo 6 frequentemente usaremos outros símbolos para indicar os parâmetros discutidos a saber EX µX VarX σ2X DPX σX ou simplesmente µ σ2 e σ respectivamente se não houver possibilidade de confusão 73 Função de Distribuição Acumulada Dada uma va X com função densidade de probabilidade fx podemos definir a sua função de distribuição acumulada Fx do mesmo modo como foi definida no Capítulo 6 Fx PX x x 79 De 71 seguese que 710 para todo real x Exemplo 76 Retomemos o Exemplo 72 Temos O gráfico de Fx está na Figura 77 Figura 77 fda da va X do Exemplo 76 De 79 vemos que 0 Fx 1 para todo x real além disso Fx é não decrescente e possui as duas seguintes propriedades i ii No Exemplo 76 temos efetivamente Fx 0 para x 0 e Fx 1 para x 1 Para va contínuas o seguinte resultado é importante Proposição 71 Para todos os valores de x para os quais Fx é derivável temos Vamos usar esse resultado no exemplo a seguir Exemplo 77 Suponha que seja a fda de uma va X Então Na Figura 78 temos os gráficos dessas duas funções Veremos que fx é um caso especial da densidade exponencial a ser estudada na Seção 743 Figura 78 Distribuição exponencial β 1 a fda b fdp Se a e b forem dois números reais quaisquer Pa X b Fb Fa 711 Esse resultado não será afetado se incluirmos ou não os extremos a e b na desigualdade entre parênteses Problemas 5 Calcule a esperança a variância e a fda da va X do Problema 2 6 Determine a esperança e a variância da va cuja fdp é 7 Calcule a média da va X do Problema 4 8 A va contínua X tem fdp a Se b for um número que satisfaz 1 b 0 calcule PX b X b2 b Calcule EX e VarX 9 Certa liga é formada pela mistura fundida de dois metais A liga resultante contém certa porcentagem de chumbo X que pode ser considerada uma va com fdp Suponha que L o lucro líquido obtido na venda dessa liga por unidade de peso seja dado por L C1 C2X Calcule EL o lucro esperado por unidade 10 A demanda diária de arroz num supermercado em centenas de quilos é uma va com fdp a Qual a probabilidade de se vender mais do que l50 kg num dia escolhido ao acaso b Em 30 dias quanto o gerente do supermercado espera vender c Qual a quantidade de arroz que deve ser deixada à disposição dos clientes diariamente para que não falte arroz em 95 dos dias 11 Suponha que X tenha fdp fx do Problema 1 Calcule EX e VarX 12 Seja X com densidade Calcule a média e a variância de X 74 Alguns Modelos Probabilísticos para Variáveis Aleatórias Contínuas De modo geral podemos dizer que as va cujos valores resultam de algum processo de mensuração são va contínuas Alguns exemplos são a o peso ou a altura das pessoas de uma cidade b a demanda diária de arroz num supermercado c o tempo de vida de uma lâmpada d o diâmetro de rolamentos de esferas e e erros de medidas em geral resultantes de experimentos em laboratórios Dada uma va contínua X interessa saber qual a fdp de X Alguns modelos são frequentemente usados para representar a fdp de va contínuas Alguns dos mais utilizados serão descritos a seguir e para uniformizar o estudo desses modelos iremos em cada caso analisar a definição b gráfico da fdp c momentos EXVarX d função de distribuição acumulada fda Outros modelos serão apresentados na Seção 77 741 O Modelo Uniforme O modelo uniforme é uma generalização do modelo estudado no Exemplo 71 e é o modelo mais simples para va contínuas a Definição A va X tem distribuição uniforme no intervalo α β se sua fdp é dada por 712 b Gráfico A Figura 79 representa a função dada por 712 Figura 79 Distribuição uniforme no intervalo α b c Momentos Podese mostrar veja o Problema 29 que 713 714 d Fda A função de distribuição acumulada da uniforme é fácil de ser encontrada veja o Problema 29 715 cujo gráfico está na Figura 710 Figura 710 fda de uma va uniforme no intervalo α β Assim para dois valores quaisquer c e d c d teremos Pc X d Fd Fc que é obtida facilmente de 715 Usaremos a notação X uα β para indicar que a va X tem distribuição uniforme no intervalo α β Exemplo 78 Um caso particular bastante interessante é aquele em que α 12 e β 12 lndicando essa va por U teremos Nessa situação temos que EU 0 VarU 112 e a fda é dada por Por exemplo P14 U 14 FU14 FU14 12 Se quiséssemos facilitar o nosso trabalho poderíamos tabelar os valores da fda para essa variável U Devido à simetria da área em relação a x 0 poderíamos construir uma tabela indicando a função Gu tal que Gu P0 U u para alguns valores de u veja o Problema 30 Dada uma va uniforme X qualquer com parâmetros α e β podemos definir a va U como 716 Seguese que a transformação 716 leva uma uniforme no intervalo α β numa uniforme no intervalo 12 12 e para dois números quaisquer c e d com c d Artifícios semelhantes a esse são muito úteis na construção de tabelas e programas para cálculos de probabilidades referentes a famílias de modelos Um outro caso importante é para α 0 e β 1 Um número aleatório é um valor gerado de uma va com distribuição uniforme no intervalo 0 1 Veja o Capítulo 9 742 O Modelo Normal Vamos introduzir agora um modelo fundamental em probabilidades e inferência estatística Suas origens remontam a Gauss em seus trabalhos sobre erros de observações astronômicas por volta de 1810 donde o nome de distribuição gaussiana para tal modelo a Definição Dizemos que a va X tem distribuição normal com parâmetros µ e σ2 µ e 0 σ2 se sua densidade é dada por 717 Claramente fx µ σ2 0 para todo x e podese provar que Veja o Problema 60 b Gráfico A Figura 711 ilustra uma particular curva normal determinada por valores particulares de µ e σ2 Figura 711 fdp de uma va normal com média µ e desvio padrão σ c Momentos Podese demonstrar que veja o Problema 32 EX µ 718 VarX σ2 719 Além disso fx µ σ2 0 quando x m σ e µ σ são pontos de inflexão de fx µ σ2 x µ é ponto de máximo de fx µ σ2 e o valor máximo é A densidade fx µ σ2 é simétrica em relação à reta x µ isto é fm x m σ2 fm x m σ2 720 para todo x real Para simplificar a notação denotaremos a densidade da normal simplesmente por fx e escreveremos simbolicamente X Nm σ2 Quando m 0 e σ2 1 temos uma distribuição padrão ou reduzida ou brevemente N01 Para essa a função densidade reduzse a 721 O gráfico da normal padrão está na Figura 712 Figura 712 fdp de uma va normal padrão Z N0 1 Se X Nm σ2 então a va definida por 722 terá média zero e variância 1 prove esses fatos O que não é tão fácil mostrar é que Z também tem distribuição normal Isso não será feito aqui A transformação 722 é fundamental para calcularmos probabilidades relativas a uma distribuição normal qualquer d Fda A fda Fy de uma va normal X com média m e variância σ2 é obtida integrandose 717 de até y ou seja 723 A integral 723 corresponde à área sob fx desde até y como ilustra a Figura 713 Figura 713 Representação gráfica de Fy como área No caso específico da normal padrão utilizamos a seguinte notação que é universal 724 O gráfico de Φz é ilustrado na Figura 714 Figura 714 fda da normal padrão Suponha então que X Nm σ2 e que queiramos calcular 725 em que fx é dada por 717 Ver Figura 715 A integral 725 não pode ser calculada analiticamente e portanto a probabilidade indicada só poderá ser obtida aproximadamente por meio de integração numérica No entanto para cada valor de m e cada valor de σ teríamos de obter Pa X b para diversos valores de a e b Essa tarefa é facilitada pelo uso de 722 de sorte que somente é necessário construir uma tabela para a distribuição normal padrão Figura 715 Ilustração gráfica da Pa X b para uma va normal Vejamos então como obter probabilidades a partir da Tabela III Essa tabela dá as probabilidades sob uma curva normal padrão que nada mais são do que as correspondentes áreas sob a curva A Figura 716 ilustra a probabilidade fornecida pela tabela a saber P0 Z zc em que Z N01 Figura 716 P0 Z zc fornecido pela Tabela III Se tomarmos por exemplo zc 173 seguese que P0 Z 173 04582 Calculemos mais algumas probabilidades Figura 717 a P173 Z 0 P0 Z 173 04582 devido à simetria da curva b PZ 173 05 P0 Z 173 05 04582 00418 pois PZ 0 05 PZ 0 c PZ 173 PZ 173 00418 d P047 Z 173 P0 Z 173 P0 Z 047 04582 01808 02774 Figura 717 Ilustração do cálculo de probabilidades para a N01 Suponha agora que X seja uma va Nm σ2 com m 3 e σ2 16 e queiramos calcular P2 X 5 Utilizando 722 temos Portanto a probabilidade de que X esteja entre 2 e 5 é igual à probabilidade de que Z esteja entre 025 e 05 Figura 718 Utilizando a Tabela III vemos que P025 Z 05 00987 01915 02902 ou seja P2 X 5 02902 Figura 718 Ilustração do cálculo de P2 X 5 para a va N3 16 Exemplo 79 Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro são distribuídos normalmente com média de l000000 e desvio padrão de 150000 Um depósito é selecionado ao acaso dentre todos os referentes ao mês em questão Encontrar a probabilidade de que o depósito seja a 1000000 ou menos b pelo menos 1000000 c um valor entre 1200000 e 1500000 d maior do que 2000000 Temos que m 10000 e σ 1500 Seja a va X depósito a b PX 10000 PZ 0 05 c d 743 O Modelo Exponencial Outra distribuição importante e que tem aplicações em confiabilidade de sistemas assunto de que já tratamos brevemente no Capítulo 5 é a exponencial a Definição A va T tem distribuição exponencial com parâmetro β 0 se sua fdp tem a forma 726 Escreveremos brevemente T Expβ b Gráfico O gráfico de ft β ft está ilustrado na Figura 78 b com β 1 c Momentos Usando integração por partes podese demonstrar que veja o Problema 41 ET β 727 VarT β2 728 Exemplo 710 O tempo de vida em horas de um transistor pode ser considerado uma va com distribuição exponencial com β 500 Seguese que a vida média do transistor é ET 500 horas e a probabilidade de que ele dure mais do que a média é d Fda Usando a definição 710 obtemos 729 O gráfico de Ft está na Figura 78 a com β 1 75 Aproximação Normal à Binomial Suponha que a va Y tenha uma distribuição binomial com parâmetros n 10 e p 12 e queiramos calcular PY 7 Embora seja uma va discreta vimos no Capítulo 2 que é possível representála por meio de um histograma como na Figura 719 Vemos que PY 7 é igual à área do retângulo de base unitária e altura igual a PY 7 similarmente para PY 8 etc Logo PY 7 é igual à soma das áreas dos retângulos hachurados na Figura 719 Figura 719 PY 7 para Y b10 12 A ideia é aproximar tal área pela área sob uma curva normal à direita de 65 Qual curva normal Parece razoável considerar aquela normal de média e variância Veja a Figura 720 Figura 720 Aproximação de PY 7 pela área sob a N5 25 Chamando X tal variável com distribuição normal em que Z é como sempre N0 1 Utilizando a Tabela I vemos que a probabilidade verdadeira é 0172 Vamos calcular agora P3 Y 6 PY 4 PY 5 PY 6 Vemos pela Figura 721 que a aproximação a ser feita deve ser ao passo que a probabilidade verdadeira é 0656 Figura 721 Aproximação de P3 Y 6 A justificativa formal de tal aproximação é dada pelo chamado Teorema Limite Central que será visto no Capítulo 10 A aproximação é boa quando np 5 e n1 p 5 Problemas 13 A temperatura T de destilação do petróleo é crucial na determinação da qualidade final do produto Suponha que T seja considerada uma va com distribuição uniforme no intervalo 150 300 Suponha que o custo para produzir um galão de petróleo seja C1 reais Se o óleo for destilado a uma temperatura inferior a 200 o produto obtido é vendido a C2 reais se a temperatura for superior a 200 o produto é vendido a C3 reais a Fazer o gráfico da fdp de T b Qual o lucro médio por galão 14 Se X N10 4 calcular a P8 X 10 c PX 10 b P9 X 12 d PX 8 ou X 11 15 Para X N100 100 calcule a PX 115 b PX 80 c PX 100 10 d o valor a tal que P100 a X 100 a 095 16 Para a va X Nµ σ2 encontre a PX µ 2σ b PX µ σ c o número a tal que Pµ aσ X µ aσ 099 d o número b tal que PX b 090 17 As alturas de 10000 alunos de um colégio têm distribuição aproximadamente normal com média 170 cm e desvio padrão 5 cm a Qual o número esperado de alunos com altura superior a 165 cm b Qual o intervalo simétrico em torno da média que conterá 75 das alturas dos alunos 18 As vendas de determinado produto têm distribuição aproximadamente normal com média 500 unidades e desvio padrão 50 unidades Se a empresa decide fabricar 600 unidades no mês em estudo qual é a probabilidade de que não possa atender a todos os pedidos desse mês por estar com a produção esgotada 19 Suponha que as amplitudes de vida de dois aparelhos elétricos D1 e D2 tenham distribuições N42 36 e N45 9 respectivamente Se os aparelhos são feitos para ser usados por um período de 45 horas qual aparelho deve ser preferido E se for por um período de 49 horas 20 O diâmetro X de rolamentos esféricos produzidos por uma fábrica tem distribuição N06140 000252 O lucro T de cada rolamento depende de seu diâmetro Assim T 010 se o rolamento for bom 0610 X 0618 T 005 se o rolamento for recuperável 0608 X 0610 ou 0618 X 0620 T 010 se o rolamento for defeituoso X 0608 ou X 0620 Calcule a as probabilidades de que os rolamentos sejam bons recuperáveis e defeituosos b ET 21 Suponha que um mecanismo eletrônico tenha um tempo de vida X em 1000 horas que possa ser considerado uma va contínua com fdp fx ex x 0 Suponha que o custo de fabricação de um item seja 200 reais e o preço de venda seja 500 reais O fabricante garante total devolução se X 09 Qual o lucro esperado por item 22 Seja Y com distribuição binomial de parâmetros n 10 e p 04 Determine a aproximação normal para a P3 Y 8 b PY 7 c PY 5 23 De um lote de produtos manufaturados extraímos 100 itens ao acaso se 10 dos itens do lote são defeituosos calcule a probabilidade de 12 itens serem defeituosos Use também a aproximação normal 24 A confiabilidade de um mecanismo eletrônico é a probabilidade de que ele funcione sob as condições para as quais foi planejado Uma amostra de 1000 desses itens é escolhida ao acaso e os itens são testados obtendose 30 defeituosos Calcule a probabilidade de se obter pelo menos 30 itens defeituosos supondo que a confiabilidade de cada item é 095 76 Funções de Variáveis Contínuas Vimos no Capítulo 6 como obter a distribuição de uma va Y hX se conhecermos a distribuição da va discreta X Vejamos agora o caso em que X é contínua Suponhamos primeiramente que a função h seja estritamente monotônica crescente ou decrescente Neste caso a inversa h1 estará univocamente determinada e podemos obter x h1y para valores x e y das va X e Y respectivamente Observando a Figura 722 vemos que se a densidade de X fx digamos for positiva no intervalo a x b então a densidade de Y será positiva para ha y hb se h for crescente e para hb y ha se h for decrescente Figura 722 Função de uma va Exemplo 711 Suponha X com a densidade do Exemplo 72 e considere Y 3X 4 Aqui y hx 3x 4 que é crescente Figura 723 a Figura 723 Exemplos de funções de va a Exemplo 711 b Exemplo 712 Denotando a densidade de Y por gy e como fx 0 para 0 x 1 gy 0 para 4 y 7 Notemos que se podem obter probabilidades relativas a Y a partir da densidade de X Por exemplo PY 1 P3X 4 1 PX 1 1 Vejamos como se pode obter gy Denotemos por Gy a função de distribuição acumulada de Y Da Seção 73 sabemos que Gy gy para todo valor de y para o qual G for derivável Então temos em que estamos denotando por F a função de distribuição acumulada de X Usando a regra da cadeia para derivadas temos Exemplo 712 Suponha agora que X tenha densidade fx 3x²2 1 x 1 e Y ex Seguese que hx ex é uma função decrescente e x lny Figura 723 b Então em que novamente F denota a fda de X Derivando obtemos a fdp de Y O seguinte resultado generaliza esses dois exemplos Teorema 71 Se X for uma va contínua com densidade fx 0 a x b então Y hX tem densidade gy fh¹y 730 supondo que h seja monotônica derivável para todo x Se h for crescente gy 0 ha y hb e se h for decrescente gy 0 hb y ha 731 em que f é a densidade de X Se fx 1 0 x 1 X é uniforme no intervalo 0 1 então Figura 724 Ilustração de Y hX X2 Problemas 25 Considere a va X do Problema 2 e Y X 5 a Calcule PY 55 b Obtenha a densidade de Y c Obtenha a densidade de Z 2X 26 Suponha que a va X tenha a densidade do Problema 8 Se Y 2X 35 obter a densidade de Y Calcule EY e VarY 27 Suponha X u 1 1 Calcule a densidade de Y X2 e de W X 77 Outros Modelos Importantes Nesta seção vamos introduzir alguns modelos para va contínuas que serão bastante utilizados na terceira parte deste livro Juntamente com o modelo normal esses modelos são úteis para as va de interesse prático que na maioria dos casos assumem valores positivos e tendem a ter distribuições assimétricas à direita 771 A Distribuição Gama Uma extensão do modelo exponencial é estudado a seguir Definição A va contínua X assumindo valores positivos tem uma distribuição gama com parâmetros α 0 e β 0 se sua fdp for dada por Em 732 Γα é a função gama importante em muitas áreas da Matemática dada por Γα ₀ eˣˡˣ¹ dx α 0 Não é difícil ver que Γα α 1 Γα 1 se α n for um inteiro positivo Γn n 1 e que Γ12 π Veja o Problema 45 A Figura 725 ilustra a densidade 732 para α 3 e β 1 Se α 1 obtemos a distribuição exponencial 726 Muitos casos de interesse têm α inteiro positivo Usaremos a notação X Gamaα β para designar uma va com a distribuição dada por 732 Podese demonstrar que EX αβ VarX αβ² 734 Usaremos a notação Y χ²v A Figura 726 ilustra os gráficos de 735 para v 1 2 3 Seguese de 734 que EY v VarY 2v 736 A distribuição quiquadrado tem muitas aplicações em Estatística e como no caso da normal existem tabelas para obter probabilidades A Tabela IV fornece os valores de y₀ tais que PY y₀ p para alguns valores de p e de v Ver Figura 727 Por exemplo consultando a Tabela IV temos que se v 30 PY 40256 010 enquanto que usando a fórmula acima temos que z 240256 2v 1 N01 e PZ 1292 0099 que resulta ser uma boa aproximação Considera Z N01 e considera a va Y Z² De 731 temos que a densidade de Y é dada por gy 12y φy φy y 0 em que por φz indicamos a densidade da N01 Resulta em comparação com 735 vemos que Y χ²1 Temos aqui um resultado importante O quadrado de uma va com distribuição normal padrão é uma va com distribuição χ²1 Teorema 72 Sejam U e V duas va independentes cada uma com distribuição quiquadrado com v1 e v2 graus de liberdade respectivamente Então a va W Uv1V2 741 tem densidade dada por 742 Diremos que W tem distribuição F de Snedecor com v1 e v2 graus de liberdade e usaremos a notação W Fv1 v2 Podese mostrar que O gráfico típico de uma va com distribuição F está na Figura 729 Na Tabela VI são dados os pontos f0 tais que para α 005 α 0025 e alguns valores de v1 e v2 Para encontrar os valores inferiores usase o fato que se W Fv1 v2 então 743 744 005 PF57 f0 PF75 f0 PF75 1f0 e procurando na Tabela VI para F75 obtemos 1f0 488 e portanto f0 0205 Na seção de Problemas e Complementos apresentamos algumas outras distribuições de interesse como a lognormal Pareto Weibull e beta Na Tabela 72 mostramos os principais modelos para va contínuas incluindo a densidade o domínio dos valores os parâmetros a média e a variância Tabela 72 Modelos para variáveis contínuas Modelo f x Parâmetros EX VarX Uniforme 1β α α x β α β α β2 β α 212 Exponencial 1β etβ t 0 β β β2 Normal µ σ µ σ2 Gama ba Γa x a1e xb x 0 β 0 α 0 αβ αβ2 Quiquadrado v v 2v tStudent v 0 v v 2 FSnedecor v1 v2 78 Quantis No Capítulo 6 definimos o pquantil Qp como o valor da va discreta X satisfazendo as duas desigualdades de 626 No caso de uma va contínua X essa definição tornase mais simples Se Fx designar a fda de X temos que as desigualdades em 626 ficam PX Qp FQp p 745 e PX Qp 1 PX Qp 1 PX Qp 1 FQp 1 p 746 Mas 746 pode ser reescrita como FQp p 747 Portanto de 745 e 747 chegamos à conclusão de que o p quantil deve satisfazer FQp p 748 Graficamente temos a situação ilustrada na Figura 730 Ou seja para obter Qp marcamos p no eixo das ordenadas consideramos a reta horizontal pelo ponto 0 p até encontrar a curva de Fx e baixamos uma reta vertical até encontrar Qp no eixo das abscissas Analiticamente temos de resolver a Equação 748 Vejamos alguns exemplos Figura 730 Definição de Qp a fda b fdp Exemplo 717 Se Z N0 1 utilizando a Tabela III encontramos facilmente que Q0 5 Q2 0 Q0 25 Q1 0675 Q0 30 052 Q075 Q3 0675 Exemplo 718 Suponha que Y Exp2 Se quisermos calcular a mediana Q2 teremos de resolver 79 Exemplos Computacionais Para variáveis contínuas o padrão dos comandos é muito parecido com o padrão utilizado no capítulo anterior para variáveis discretas Valem os mesmos prefixos isto é d para densidade p para função distribuição q para quantis e r para simulação A Tabela 73 apresenta os principais sufixos para distribuições contínuas Tabela 73 As principais distribuições contínuas e seus sufixos no R Nesta seção vamos dar alguns exemplos de como obter probabilidades acumuladas e quantis para a normal e exponencial usando o R Isso também pode ser feito usando outros pacotes como o Minitab e SPlus bem como podemos considerar outras distribuições contínuas Considere a va contínua X com fda FxPXx para todo x real Dado x queremos calcular Fx ou dado Fxp 0 p 1 queremos calcular xQp conforme 748 ou seja queremos calcular o pquantil de X Exemplo 719 Suponha X com distriuição normal de média 10 e desvio padrão 25 Se x865 para obter Fx usamos o comando pnorm 865mean10 sd25 obtendose 1 047847 Por outro lado se Fx08269p usamos o comando qnorm 08269mean10 sd25 obtendose o quantil 1 3355 Exemplo 720 Suponha agora que tenhamos uma distribuição exponencial com média EX05 ou seja parâmetro β 2 Da mesma forma os comandos para a distribuição exponencial serão pexp e qexp respectivamente pexp 085 rate2 1 081732 qexp 0345 rate2 1 021156 1 021156 Exemplo 721 Podemos também construir o gráfico de uma fda por meio de comandos do R ou de outro pacote Suponha Z N01 Como os valores de Z estão concentrados no intervalo 44 podemos considerar um vetor de valores nesse intervalo e obter o gráfico de da fda Os comandos estão abaixo onde utilizamos o comando curve O gráfico está na Figura 731 Diremos que tal variável tem uma distribuição t de Student com v graus de liberdade e a indicaremos por tv Podese provar que Et 0 Vart vv 2 v 2 739 e verificar que o gráfico da densidade de t aproximase bastante de uma N01 quando v é grande Veja a Figura 728 Como essa distribuição é bastante utilizada na prática existem tabelas fornecendo probabilidades relativas a ela A Tabela V fornece os valores de tc tais que Ptc tv tc 1 p 740 para alguns valores de p e de v O nome Student vem do pseudônimo usado pelo estatístico irlandês W S Gosset que introduziu essa distribuição no início do século passado Exemplos 715 Se v 6 então usando a Tabela V P1943 t6 1943 090 ao passo que Pt6 2447 0025 Observe que nessa tabela há uma linha com v que corresponde a usar os valores da N01 Para n 120 essa aproximação é muito boa 774 A Distribuição F de Snedecor Vamos considerar agora uma va definida como o quociente de duas variáveis com distribuição quiquadrado curve pnormq x mean 0 sd1 xlimc 4 4 colblue lwd2 ylab xlabz Figura 731 Gráfico da fda da N0 1 R 710 Problemas Suplementares 28 Numa determinada localidade a distribuição de renda em reais é uma va X com fdp a Qual a renda média nessa localidade b Escolhida uma pessoa ao acaso qual a probabilidade de sua renda ser superior a 300000 c Qual a mediana da variável 29 Se X tiver distribuição uniforme com parâmetros α e β mostre que a b VarX β α212 c 30 Complete a tabela abaixo que corresponde a alguns valores da função Gu P0 U u definida na Seção 741 com U uma va uniforme no intervalo 12 12 Probabilidades p tais que p P0 U u Primeira decimal de u Segunda decimal de u Primeira decimal de u 00 0 1 9 00 01 01 02 02 03 03 04 04 05 05 31 Dada a va X uniforme em 5 10 calcule as probabilidades abaixo usando a tabela do problema anterior a PX 7 c PX 85 b P8 X 9 d PX 75 2 32 Se X Nµ σ2 calcular EX e VarX Sugestão Fazendo a transformação de variáveis x µ σt obtemos que A primeira integral resulta µ por quê e a segunda anulase pois o integrando é uma função ímpar Para obter a variância obtenha EX2 por integração por partes 33 As notas de Estatística Econômica dos alunos de determinada universidade distribuem se de acordo com uma distribuição normal com média 64 e desvio padrão 08 O professor atribui graus A B e C da seguinte forma Nota Grau x 5 C 5 x 75 B 75 x 10 A Numa classe de 80 alunos qual o número esperado de alunos com grau A E com grau B E C 34 O peso bruto de latas de conserva é uma va normal com média 1000 g e desvio padrão 20 g a Qual a probabilidade de uma lata pesar menos de 980 g b Qual a probabilidade de uma lata pesar mais de 1010 g 35 A distribuição dos pesos de coelhos criados numa granja pode muito bem ser representada por uma distribuição normal com média de 5 kg e desvio padrão de 08 kg Um abatedouro comprará 5000 coelhos e pretende classificálos de acordo com o peso do seguinte modo 20 dos leves como pequenos os 55 seguintes como médios os 15 seguintes como grandes e os 10 mais pesados como extras Quais os limites de peso para cada classe 36 Uma enchedora automática de garrafas de refrigerantes está regulada para que o volume médio de líquido em cada garrafa seja de 1000 cm3 e o desvio padrão de 10 cm3 Podese admitir que a variável volume seja normal a Qual é a porcentagem de garrafas em que o volume de líquido é menor que 990 cm3 b Qual é a porcentagem das garrafas em que o volume líquido não se desvia da média em mais que dois desvios padrões c O que acontecerá com a porcentagem do item b se a máquina for regulada de forma que a média seja 1200 cm3 e o desvio padrão 20 cm3 37 O diâmetro de certo tipo de anel industrial é uma va com distribuição normal de média 010 cm e desvio padrão 002 cm Se o diâmetro de um anel diferir da média em mais que 003 cm ele é vendido por 500 caso contrário é vendido por 1000 Qual o preço médio de venda de cada anel 38 Uma empresa produz televisores e garante a restituição da quantia paga se qualquer televisor apresentar algum defeito grave no prazo de seis meses Ela produz televisores do tipo A comum e do tipo B luxo com lucros respectivos de 100000 e 200000 caso não haja restituição e com prejuízos de 300000 e 800000 se houver restituição Suponha que o tempo para a ocorrência de algum defeito grave seja em ambos os casos uma va com distribuição normal respectivamente com médias 9 meses e 12 meses e variâncias 4 meses2 e 9 meses2 Se tivesse de planejar uma estratégia de marketing para a empresa você incentivaria as vendas dos aparelhos do tipo A ou do tipo B 39 Determine as médias das va X Y e Z a X uniforme em 1 3 Y 3X 4 Z eX b X tem fdp fx ex x 0 Y X2 Z 3X 12 40 Suponha que X tenha distribuição uniforme em a 3a Determine a média e a variância de X 41 Se T tiver distribuição exponencial com parâmetro β mostre que a ET β b VarT β2 42 Os dados a seguir representam uma amostra de firmas de determinado ramo de atividade de uma região Foram observadas duas variáveis faturamento e número de empregados a Calcule a média e a variância para cada variável b Supondo normalidade para cada uma dessas variáveis com parâmetros estimados pela amostra calcule os valores esperados para cada intervalo de classe e compare com o observado 43 Suponha que a va X tenha densidade fx 1 para 0 x 1 e igual a zero no complementar Faça Y X2 a Determine FY PY y y real b Determine a fdp de Y c Calcule EX² utilizando a fdp de X d Calcule EY utilizando a fdp de Y e compare com c 44 Dada a va determine a média e a variância de Z sabendose que a fdp de X é fX ex x 0 45 a Prove que se α for inteiro positivo Γα 1 αΓα b Prove que Γ1 é Γ12 c Calcule Γ1 e Γ12 d Prove que a média e a variância de uma va X com distribuição gama densidade em 723 são respectivamente αβ e αβ² 46 Suponha que X tenha distribuição exponencial com parâmetro β Prove que PX x 1 eβx x 0 Essa propriedade nos diz que a distribuição exponencial não tem memória Por exemplo se X for a vida de um componente eletrônico a relação acima diz que se o componente durou até o instante x a probabilidade de ele não falhar após o intervalo t x é a mesma de não falhar após o instante t Nesse sentido X esquece sua idade e a eventual falha do componente não resulta de uma deterioração gradual e sim de alguma falha repentina 47 Se X for uma va contínua com fdp fx e se Y gX for uma função de X então Y será uma va com Suponha que X tenha densidade Obtenha EY se Y X 48 Se X for uniforme no intervalo 0 1 obtenha a média da va Y γ2X² 49 Obtenha o gráfico da fda de uma va T Exp0 5 ou seja ET 2 considerando 20 valores de T e calculando os valores de Ft como na Seção 79 50 Idem para 30 valores de uma uniforme no intervalo 11 51 Obtenha os quantis Q01 Q1 Q2 Q3 Q09 para uma va X N10 16 52 Resolva a mesma questão para uma va Y χ²5 53 Usando a aproximação normal a uma variável quiquadrado calcular a Pχ²35 4976 b o valor y tal que Pχ²40 y 005 711 Complementos Metodológicos 1 Distribuição de Pareto Esta é uma distribuição frequentemente usada em Economia em conexão com problemas de distribuição de renda Dizemos que a va X tem distribuição de Pareto com parâmetros α 0 b 0 se sua fdp for dada por fx αbα xα 1 x b Aqui b pode representar algum nível mínimo de renda x é o nível de renda e fx Δx dá a proporção de indivíduos com renda entre x e x Δx O gráfico de fx está na figura a seguir a Prove que fx dx 1 b Mostre que para a 1 2 Distribuição lognormal Outra distribuição usada quando se têm valores positivos é a distribuição lognormal A va X tem distribuição lognormal com parâmetros μ e σ² μ σ² 0 se Y lnX tiver distribuição normal com média μ e variância σ² A fdp de X tem a forma O gráfico de fx está na figura abaixo a Prove que EX eμ σ²2 b Se EX m prove que VarX m²eσ² 1 3 Distribuição de Weibull Um modelo que tem muitas aplicações na teoria da confiabilidade é o modelo de Weibull cuja fdp é dada por fx αβxα 1eβxα x 0 A va X pode representar por exemplo o tempo de vida de um componente de um sistema a Se β 1 qual a fdp resultante b Obtenha EX para β 2 4 Distribuição Beta Uma va X tem distribuição beta com parâmetros α 0 β 0 se sua fdp for dada por fx 1Bα βxα 11 xβ 1 0 x 1 Aqui Bα β é a função beta definida por Bα β ΓαΓβ Γα β A figura abaixo mostra a densidade da distribuição beta para α β 2 Para esse caso calcule PX 02 Calcule a média e a variância de X para α β 2 5 Se na distribuição t de Student colocarmos ν 1 obteremos a distribuição de Cauchy Mostre que EX não existe 6 Para uma va com distribuição quiquadrado com ν graus de liberdade e ν par vale a seguinte fórmula Calcule essa probabilidade para os seguintes casos e compare com os valores tabelados na Tabela IV a ν 4 c 9488 b ν 10 c 16 7 Se X Nμ σ² com densidade fx dada por 717 provemos que a integral I fxeθ² dx 1 Como esta integral é sempre positiva mostramos que P² 1 Novamente vida de um componente de um sistema Capítulo 8 Variáveis Aleatórias Multidimensionais 81 Distribuição Conjunta Em muitas situações ao descrevermos os resultados de um experimento atribuímos a um mesmo ponto amostral os valores de duas ou mais variáveis aleatórias Neste capítulo iremos nos concentrar no estudo de um par de variáveis aleatórias indicando que os conceitos e resultados apresentados estendemse facilmente a um conjunto finito de variáveis aleatórias Um tratamento mais completo é dado ao caso de variáveis discretas nas Seções 81 a 84 Exemplo 81 Suponha que estamos interessados em estudar a composição de famílias com três crianças quanto ao sexo Definamos X número de meninos Z número de vezes em que houve variação do sexo entre um nascimento e outro dentro da mesma família Com essas informações e supondo que as possíveis composições tenham a mesma probabilidade obtemos a Tabela 81 em que por exemplo o evento HMH indica que o primeiro filho é homem o segundo mulher e o terceiro homem As distribuições de probabilidades das va X Y e Z podem ser obtidas dessa tabela e são dadas na Tabela 82 Tabela 81 Composição de famílias com três crianças quanto ao sexo Eventos Probabilidade X Y Z HHH 18 3 1 0 HHM 18 2 1 1 HMH 18 2 1 2 MHH 18 2 0 1 HMM 18 1 1 1 MHM 18 1 0 2 MMH 18 1 0 1 MMM 18 0 0 0 Tabela 82 Distribuições de probabilidades unidimensionais a b c x 0 1 2 3 y 0 1 z 0 1 2 px 18 38 38 18 py 12 12 pz 14 12 14 A Tabela 83 apresenta as probabilidades associadas aos pares de valores nas variáveis X e Y Nessa tabela px y PX x Y y denota a probabilidade do evento X x e Y y X x Y y Essa tabela é denominada distribuição conjunta de X e Y Tabela 83 Distribuição bidimensional da va X Y x y px y 0 0 18 1 0 28 1 1 18 2 0 18 2 1 28 3 1 18 A partir da Tabela 81 podemos formar também as distribuições conjuntas de X e Z de Y e Z bem como a distribuição conjunta de X Y e Z que está dada na Tabela 84 Tabela 84 Distribuição conjunta das va X Y e Z x y z px y z 0 0 0 18 1 0 1 18 1 0 2 18 1 1 1 18 2 0 1 18 2 1 1 18 2 1 2 18 3 1 0 18 Aqui px y z PX x Y y Z z Vamos nos fixar nas distribuições bidimensionais isto é nas distribuições conjuntas de duas variáveis Nesse caso uma maneira mais cômoda de representar a distribuição conjunta é por meio de tabelas de duplas entradas como na Tabela 85 em que temos representada a mesma distribuição de X e Y dada antes na Tabela 83 Tabela 85 Distribuição conjunta de X e Y como uma tabela de dupla entrada Y X 0 1 2 3 py 0 18 28 18 0 12 1 0 18 28 18 12 px 18 38 38 18 1 A representação gráfica de variáveis aleatórias bidimensionais X Y exige gráficos com três eixos um para a va X outro para a va Y e um terceiro eixo z para a probabilidade conjunta px y A Figura 81 representa a distribuição conjunta resumida na Tabela 85 A dificuldade em desenhar e interpretar tais gráficos nos leva muitas vezes a evitar o uso desse recurso tão valioso Figura 81 Representação gráfica da va X Y da Tabela 85 Uma tentativa de representar distribuições de probabilidades discretas em duas dimensões é o gráfico de curvas de níveis Esse é o mesmo recurso utilizado em mapas geográficos sobre relevos indicandose por meio de linhas as cotas alturas de mesma intensidade em uma região Curvas de níveis podem ser usadas também em mapas meteorológicos de marés etc Embora tais mapas sejam usados principalmente para variáveis contínuas vamos exemplificar abaixo sua construção para os dados da Tabela 85 Notamos que existem valores apenas para as probabilidades 0 18 28 e 38 e cada um deles define um conjunto de pontos Por exemplo correspondendo à probabilidade 18 temos o conjunto de pontos 0 0 1 1 2 0 e 3 1 Na Figura 82 b representamos esses pontos que corresponderiam à curva de nível para a cota 18 De modo análogo traçaríamos as demais curvas de níveis A Figura 82 e reunindo todos os resultados seria equivalente à Figura 81 Assim os pontos representados por formariam a curva de nível da cota 18 os pontos representados por formariam a curva de nível com cota probabilidade 28 e assim por diante Esse recurso é mais bem visualizado para variáveis contínuas como na Figura 817 Figura 82 Curvas de níveis para a Tabela 85 a px y 0 b px y 18 c px y 28 d todas as cotas 82 Distribuições Marginais e Condicionais Da Tabela 85 podemos obter facilmente as distribuições de X e Y A primeira e última colunas da tabela dão a distribuição de Y y py enquanto a primeira e última linhas da tabela dão a distribuição de X x px Essas distribuições são chamadas distribuições marginais Observamos por exemplo que PX 1 PX 1 Y 0 PX 1 Y 1 28 18 38 e PY 0 PX 0 Y 0 PX 1 Y 0 PX 2 Y 0 PX 3 Y 0 18 28 18 0 12 Portanto para obter as probabilidades marginais basta somar linhas e colunas Quando estudamos os aspectos descritivos das distribuições com mais de uma variável vimos que às vezes é conveniente calcular proporções em relação a uma linha ou coluna e não em relação ao total Isso é equivalente aqui ao conceito de distribuição condicional Por exemplo qual seria a distribuição do número de meninos sabendose que o primeiro filho é do sexo masculino Ou seja queremos calcular a probabilidade PX xY 1 Da definição de probabilidade condicional obtemos 81 para x 0 1 2 3 Pela Tabela 85 obtemos por exemplo Do mesmo modo obtemos as demais probabilidades e a distribuição condicional de X dado que Y 1 está na Tabela 86 Tabela 86 Distribuição condicional de X dado que Y 1 x 1 2 3 pxY 1 14 12 14 Observe que x pxY 1 p0Y 1 p3Y 1 1 Do mesmo modo podemos obter a distribuição condicional de Y dado que X 2 que está na Tabela 87 Tabela 87 Distribuição condicional de Y dado que X 2 y 0 1 pyX 2 13 23 Podemos generalizar o que foi dito acima para duas va X e Y quaisquer assumindo os valores x1 x2 xn e y1 y2 ym respectivamente Definição Seja xi um valor de X tal que PX xi pxi 0 A probabilidade 82 é denominada probabilidade condicional de Y yj dado que X xi Como observamos acima para xi fixado os pares yj PY yjX xi j 1 m definem a distribuição condicional de Y dado que X xi pois Considere a distribuição condicional de X dado que Y 1 da Tabela 86 Podemos calcular a média dessa distribuição a saber Observe que EX 15 ao passo que EXY 1 2 De modo geral temos a seguinte definição Definição A esperança condicional de X dado que Y yj é definida por Uma definição análoga vale para EYX xi Exemplo 82 Para a distribuição condicional de Y dado que X 2 da Tabela 87 temos Exemplo 83 Considere agora a distribuição conjunta das variáveis Y e Z definidas no Exemplo 81 Da Tabela 81 obtemos a Tabela 88 Aqui observamos que para quaisquer z 0 1 2 e y 0 1 O que significa dizer que PZ z Y y PZ z PY y isto é a probabilidade de cada casela é igual ao produto das respectivas probabilidades marginais Por exemplo Tabela 88 Distribuição conjunta de Y e Z Y Z 0 1 2 py 0 18 28 18 12 1 18 28 18 12 pz 14 24 14 1 Também é verdade que PY yZ z PY y para todos os valores de y e z Dizemos que Y e Z são independentes Definição As variáveis aleatórias X e Y assumindo os valores x1 x2 e y1 y2 respectivamente são independentes se e somente se para todo par de valores xi yj de X e Y tivermos que PX xi Y yj PX xiPY yj 83 Basta que 83 não se verifique para um par xi yj para que X e Y não sejam independentes Nesse caso diremos que X e Y são dependentes Essa definição pode ser estendida para mais de duas variáveis aleatórias Problemas 1 Lançamse simultaneamente uma moeda e um dado a Determine o espaço amostral correspondente a esse experimento b Obtenha a tabela da distribuição conjunta considerando X o número de caras no lançamento da moeda e Y o número da face do dado c Verifique se X e Y são independentes d Calcule 1 PX 1 2 PX 1 3 PX 1 4 PX 2 Y 3 5 PX 0 Y 4 6 PX 0 Y 1 2 A tabela abaixo dá a distribuição conjunta de X e Y a Determine as distribuições marginais de X e Y b Obtenha as esperanças e variâncias de X e Y c Verifique se X e Y são independentes d Calcule PX 1Y 0 e PY 2X 3 e Calcule PX 2 e PX 2 Y 1 Y X 1 2 3 0 01 01 01 1 02 0 03 2 0 01 01 3 Considere a distribuição conjunta de X e Y parcialmente conhecida dada na tabela abaixo a Complete a tabela considerando X e Y independentes b Calcule as médias e variâncias de X e Y c Obtenha as distribuições condicionais de X dado que Y 0 e de Y dado que X 1 Y X 1 0 1 PY y 1 112 0 13 1 14 14 PX x 1 83 Funções de Variáveis Aleatórias Retomemos a Tabela 85 que dá a distribuição conjunta das variáveis aleatórias X e Y A partir dela podemos considerar por exemplo a va X Y ou a va XY A soma X Y é definida naturalmente a cada resultado do experimento ela associa a soma dos valores de X e Y isto é X Yω Xω Yω 84 Do mesmo modo XYω Xω Yω 85 Podemos então construir a Tabela 89 Tabela 89 Funções de variáveis aleatórias x y X Y XY px y 0 0 0 0 18 0 1 1 0 0 1 0 1 0 28 1 1 2 1 18 2 0 2 0 18 2 1 3 2 28 3 0 3 0 0 3 1 4 3 18 A partir dessa tabela obtemos as distribuições de X Y e XY ilustradas nas Tabelas 810 e 811 Tabela 810 Distribuição de X Y x y 0 1 2 3 4 px y 18 28 28 28 18 Tabela 811 Distribuição de XY xy 0 1 2 3 pxy 48 18 28 18 Vimos no Capítulo 6 como calcular a esperança de uma va Para as va X e Y da Tabela 85 temos EX01812823831812815 EY01211205 Da Tabela 810 obtemos Notamos que EX Y EX EY Poderia ser uma simples coincidência mas essa relação é de fato verdadeira Teorema 81 Se X for uma va com valores x1 xn e probabilidades px1 pxn Y for uma va com valores y1 ym e probabilidades py1 pym e se pxi yj PX xi Y yj i 1 n j 1 m então EX Y EX EY 86 Prova Observando a Tabela 89 podemos escrever 87 Mas para um i fixo e para um j fixo logo podemos escrever e Comparando essas duas últimas relações com 87 obtemos a relação 86 Do que foi visto acima podemos concluir que se X e Y são duas va nas condições do Teorema 81 e se gX Y for uma função de X e Y então 88 Exemplo 84 Da Tabela 89 temos É claro que o mesmo valor pode ser obtido da Tabela 811 isto é se W XY e pw pxy então Observamos que neste caso EW EXY 1 EXEY 15 05 075 ou seja de modo geral a esperança de um produto de duas va não é igual ao produto das esperanças das va No entanto existem situações em que essa propriedade se verifica O teorema seguinte apresenta uma dessas situações Teorema 82 Se X e Y são variáveis aleatórias independentes então EXY EX EY 89 Prova Nas condições do Teorema 81 usando 88 e 83 logo A recíproca do Teorema 82 não é verdadeira isto é 89 pode ser válida e X e Y serem dependentes Veja o Exemplo 87 abaixo Observações i Se tivermos um número finito de va X1 Xn então 86 toma a forma EX1 Xn EX1 EXn 810 ii Se X1 Xn forem va independentes então EX1X2 Xn EX1 EX2 EXn 811 Exemplo 85 Nas Seções 662 e 663 definimos a va de Bernoulli e a va binomial Seja X o número de sucessos em n provas de Bernoulli Definamos i 1 2 n Então seguese que X X1 X2 Xn e X1 Xn são independentes Se p Psucesso então EXi 1 p 0 1 p p i 1 n e por 810 EX EX1 EXn np o que demonstra a relação 616 A relação 617 será demonstrada na seção seguinte Problemas 4 No Problema 2 obtenha as distribuições de X Y e de XY Calcule EX Y EXY VarX Y VarXY 5 a No Problema 3 calcule EX Y e VarX Y b Se Z aX bY calcule a e b de modo que EZ 10 e VarZ 600 6 Dois tetraedros dados com quatro faces com as faces numeradas de um a quatro são lançados e os números das faces voltadas para baixo são anotados Sejam as va X maior dos números observados Y menor dos números observados Z X Y a Construa a tabela da distribuição conjunta de X e Y b Determine as médias e as variâncias de X Y e Z 7 Numa urna há cinco tiras de papel numeradas 1 3 5 5 7 Uma tira é sorteada e recolocada na urna então uma segunda tira é sorteada Sejam X1 e X2 o primeiro e o segundo números sorteados a Determine a distribuição conjunta de X1 e X2 b Obtenha as distribuições marginais de X1 e X2 Elas são independentes c Encontre a média e a variância de X1 X2 e X X1 X22 d Como seriam as respostas anteriores se a primeira tira de papel não fosse devolvida à urna antes da segunda extração 8 Numa urna há cinco bolas marcadas com os seguintes números 1 0 0 0 1 Retiram se três bolas simultaneamente X indica a soma dos números extraídos e Y o maior valor da trinca Calcule a Função de probabilidade de X Y b EX e VarX c VarX Y 9 Dada a distribuição conjunta de X e Y abaixo determine a média e a variância de a X Y b XY Y X 1 2 3 1 527 127 327 2 427 327 427 3 227 327 227 10 Suponha que X e Y tenham a seguinte distribuição conjunta Y X 1 2 3 1 01 01 00 2 01 02 03 3 01 01 00 a Determine a fp de X Y e a partir dela calcule EX Y Podese obter a mesma resposta de outra maneira b Determine a fp de XY e em seguida calcule EXY c Mostre que embora EXY EX EY X e Y não são independentes 84 Covariância entre Duas Variáveis Aleatórias Vamos introduzir agora uma medida da relação linear entre duas variáveis aleatórias Definição Se X e Y são duas va a covariância entre elas é definida por CovX Y EX EXY EY 812 ou seja o valor médio do produto dos desvios de X e Y em relação às suas respectivas médias Suponha que X assuma os valores x1 xn e Y os valores y1 ym e que PX xi Y yj pxi yj Então 812 pode ser escrita 813 A Fórmula 812 pode ser escrita de uma forma mais simples Note que CovX Y EXY XEY YEX EXEY EXY EXEY EYEX EXEY ou seja CovX Y EXY EX EY 814 Exemplo 86 Para as va X e Y do Exemplo 81 veja a Tabela 85 obtemos EX 15 EY 05 EXY 10 de modo que CovX Y 10 15 05 025 Definição Quando CovX Y 0 dizemos que as variáveis aleatórias X e Y são não correlacionadas Exemplo 87 Consideremos a distribuição conjunta de X e Y dada pela Tabela 812 Tabela 812 Distribuição conjunta para o Exemplo 87 Y X 0 1 2 py 1 320 320 220 820 2 120 120 220 420 3 420 120 320 820 px 820 520 720 100 Temos que do que obtemos CovX Y 190 0 95200 0 Portanto as va X e Y desse exemplo são não correlacionadas Exemplo 88 Retomemos o Exemplo 83 para o qual vimos que Y e Z são independentes É fácil ver que EZ 1 e EY 12 Da Tabela 88 obtemos que EYZ 12 do que decorre que a covariância entre Y e Z é zero De modo geral se X e Y forem independentes então 89 é válida logo por 814 temos que CovX Y 0 Vamos destacar esse fato por meio da Proposição 81 Proposição 81 Se X e Y são duas variáveis aleatórias independentes então CovX Y 0 Em outras palavras se X e Y forem independentes então elas serão não correlacionadas A recíproca não é verdadeira isto é se tivermos CovX Y 0 isso não implica que X e Y sejam independentes De fato para as va do Exemplo 87 a covariância entre X e Y é zero mas X e Y não são independentes como podemos facilmente verificar Podemos agora demonstrar o Teorema 83 a Para duas va X e Y quaisquer temos VarX Y VarX VarY 2CovX Y 815 b se X e Y forem independentes então VarX Y VarX VarY 816 Prova a VarX Y EX Y EX Y2 EX EX Y EY2 EX EX2 EY EY2 2EX EXY EY e da definição de covariância obtemos 815 b A relação 816 segue imediatamente da Proposição 81 As relações 815 e 816 podem ser generalizadas para mais de duas variáveis Em particular se X1 Xn são va independentes então VarX1 Xn VarX1 VarXn 817 Exemplo 85 continuação Temos que VarXi p1 p para todo i 1 n logo VarX VarX1 VarXn np1 p o que demonstra a relação 617 Vamos introduzir agora uma medida que não depende das unidades de medida de X e Y O análogo descritivo para dois conjuntos de dados foi introduzido na Seção 45 Definição O coeficiente de correlação entre X e Y é definido por ρX Y CovX Y σXσY 818 Exemplo 89 Para X e Y do Exemplo 87 a covariância entre X e Y é zero logo ρX Y 0 Para X e Y do Exemplo 86 temos que CovX Y 025 Verifique que VarX 075 VarY 025 logo O seguinte resultado será demonstrado no Problema 48 Teorema 84 O coeficiente de correlação entre X e Y satisfaz a desigualdade 1 ρX Y 1 O coeficiente de correlação é uma medida da relação linear entre X e Y Quando ρX Y 1 existe uma correlação perfeita entre X e Y pois Y aX b Se ρX Y 1 a 0 e se ρX Y 1 a 0 O grau de associação linear entre X e Y varia à medida que ρX Y varia entre 1 e 1 As seguintes propriedades podem ser provadas facilmente ver Problema 38 Se a e b são constantes então ρX a Y b ρX Y 819 ραX βY abab ρX Y 820 Ou seja se ab 0 ρaX bY ρX Y e se ab 0 ρaX bY ρX Y Exemplo 810 Ainda usando o enunciado do Exemplo 81 defina a va W como o número de meninas A distribuição conjunta de X e W está na Tabela 813 É fácil ver que EX EW 15 VarX VarW 075 EXW 15 do que segue que CovX W 075 e portanto ρX W 1 Esse é um resultado esperado pois sabemos que X 3 W Para se analisar a possível correlação entre duas va X e Y é conveniente usar os chamados diagramas de dispersão que consistem no gráfico dos pares de valores de X e Y Exemplo 811 Na Figura 83a temos os diagramas de dispersão para as va X e Y e X e Z do Exemplo 81 a X e Y b X e Z Na Figura 83a ao lado dos pontos 1 0 e 2 1 colocamos o número 2 para mostrar que esses pares têm probabilidades 28 ao passo que os demais têm probabilidades 18 Exemplo 812 O diagrama de dispersão das va Y e Z do Exemplo 82 está ilustrado na Figura 84 Exemplo 813 Na Figura 85 temos o diagrama de dispersão das variáveis X e W do Exemplo 810 Observe que nesse caso existe uma relação linear perfeita entre as duas variáveis Problemas 11 Para as va X e Y do Problema 2 e usando os resultados do Problema 4 calcule CovX Y e ρX Y 12 Considere a situação do Problema 10 do Capítulo 6 a Obtenha as distribuições de X Y e X Y b Calcule EXY EXY e EX Y c Verifique se X e Y são independentes d Verifique se EXY EX EY O que você pode concluir e Verifique se EXY EXEY f Calcule VarX Y É verdade que VarX Y VarX VarY 13 Sejam X e Y com a distribuição conjunta da tabela abaixo Mostre que CovX Y 0 mas X e Y não são independentes a fx y 0 para todo par x y b c A relação b nos diz que o volume sob a superfície representada por fx y é igual a 1 A relação c dá a probabilidade do par x y estar num retângulo de lados ba e dc Exemplo 814 Suponha que fx y 4xy 0 x 1 0 y 1 Então a está satisfeita e o que mostra que b também está satisfeita Calculemos PX 12 Y 12 A Figura 86 mostra o domínio de variação de X e Y e a região para a qual X 12 Y 12 Logo por c Figura 86 Domínio de variação de X Y para o Exemplo 814 Exemplo 815 Suponha que a va X Y seja uniformemente distribuída no quadrado Q da Figura 86 Isso significa que 821 Como vimos b acima vale logo e seguese que c 1 Como a área de Q é 1 na realidade Veja a Figura 87 De modo geral podemos representar a densidade bidimensional fx y por uma superfície no espaço tridimensional como ilustra a Problemas 18 As va X e Y têm distribuição conjunta dada por a Faça um gráfico do domínio de variação de x e y b Prove que fx y dx dy 1 c Encontre as fdp marginais de X e Y d Encontre PX 1 19 Suponha que as va X e Y tenham fdp a Calcule as fdp marginais de X e Y b Calcule P0 X 1 1 Y 2 Figura 88 Figura 87 Densidade uniforme no quadrado de lado unitário com densidade condicional representada Se A for um evento então a probabilidade PX Y A será representada pelo volume sob a superfície delimitado pela região A no plano x y e pela superfície cilíndrica na Figura 88 Figura 88 Densidade como uma superfície no espaço e PX Y A PA Se a densidade fx y for positiva numa região qualquer R do plano x y uma va dizse uniformemente distribuída sobre R se fx y 1áreaR para x y R e fx y 0 nos demais pontos Veja a Figura 89 Figura 89 Distribuição uniforme na região R do plano x y Vimos que no caso discreto a partir da distribuição conjunta de duas va X e Y podíamos determinar a distribuição marginal de cada variável O mesmo ocorre para va contínuas Frequentemente usaremos a notação X Y para denotar o par de va e diremos que essa é uma va bidimensional Usamos também a nomenclatura vetor bidimensional Definição Dada a va bidimensional X Y com função densidade de probabilidade conjunta fx y definimos as densidades marginais de X e Y respectivamente por 822 e 823 Exemplo 816 Para as va do Exemplo 814 temos Exemplo 817 Considere a va X Y com densidade conjunta Então as densidades marginais são dadas por Para o Exemplo 814 vemos que o produto das densidades marginais é igual à densidade conjunta para todo par x y do domínio 01 01 que é o produto cartesiano dos domínios de variação de X e Y Dizemos que as va são independentes Definição As variáveis aleatórias X e Y com densidade conjunta fx y e marginais fXx e fyy respectivamente são independentes se fx y fXx fyy para todo par x y 824 Exemplo 818 Se a função densidade conjunta de X e Y for dada por fx y ex y x 0 y 0 então é fácil ver que fXx ex x 0 fYy ey y 0 de modo que X e Y são independentes As definições de covariância coeficiente de correlação etc continuam é claro a valer para va bidimensionais contínuas Portanto se X e Y são independentes o coeficiente de correlação entre elas é zero Exemplo 819 Calculemos o coeficiente de correlação entre X e Y se a densidade conjunta delas for fx y x y 0 x 1 0 y 1 Temos que as marginais são dadas por A partir delas calculamos médias e variâncias Para calcular a covariância entre X e Y necessitamos calcular A interpretação de 825 por exemplo é a seguinte Se Y y0 considere o plano passando por y0 e paralelo ao plano x z Esse plano determina na superfície fx y z a densidade condicional fXYxy0 Mesma interpretação vale para 826 Suponha por exemplo que X denote o salário de um conjunto de indivíduos e Y denote o consumo deles Então fixado o consumo y0 a densidade condicional fXYxy0 representa a densidade dos salários para aquele nível fixado de consumo Nas Figuras 87 e 810 ilustramos como essa densidade condicional pode ser representada Exemplo 820 Suponha que a densidade de X Y seja dada por fx y 61 x y 0 x 1 0 y 1 x O domínio de variação dos pares x y é o triângulo da Figura 811 Figura 810 Densidade condicional de X dado que Y y0 Figura 811 Domínio de variação de X Y para o Exemplo 820 Temos então que as densidades marginais são dadas por Consequentemente as densidades condicionais são Observe que fXYxy define de fato uma densidade de probabilidade para y fixado Temos que int01fXYxydx1 0 x 1 Por exemplo se X05 fYXyX05412y 0 y 12 Assim Dado que fXYxy e fYXyx definem densidades de probabilidades tem sentido calcular suas médias variâncias etc Definição A esperança condicional de Y dado que Xx é definida por EYXx e definição análoga para EXY Note que EYX é uma função de x isto é EYXsx e é denominada curva de regressão de Y sobre x Na realidade EYX é o valor da variável aleatória EYX A mesma interpretação deve ser dada para EXY A Figura 812 ilustra esses conceitos Figura 813 Curvas de regressão para o Exemplo 821 Temos então e portanto as densidades condicionais são e As esperanças condicionais serão dadas por Note portanto que ambas as curvas de regressão são funções lineares como ilustra a Figura 813 No caso geral a Figura 814 mostra como seriam essas médias condicionais Figura 814 Representação gráfica da curva de regressão de Y sobre x Observe também que se por exemplo X 1 EY1 12 Problemas 20 Calcule fXYxy e fYXyx para a densidade do Problema 18 21 Calcule as densidades condicionais para o Problema 19 Comente 22 Calcule as densidades marginais e condicionais para a va X Y com fdp fx y164xy 0 x 4 0 y 4 23 Mesmos itens do Problema 22 para a fdp conjunta fx y3ex3y x 0 y 0 24 Calcule as esperanças condicionais EYX e EXY para o Problema 21 25 Calcule as esperanças condicionais para o Problema 22 26 Prove que EEXYEX Sugestão EXY é uma função de y e portanto é uma va Na realidade EXY é o valor da va EXY Considere a expressão para EXY e tome a esperança novamente Mude a ordem das integrais e obtenha o resultado No caso unidimensional Y hX J era simplesmente com x h1y Exemplo 822 Retomemos o Exemplo 814 no qual tínhamos fXx 2x 0 x 1 fYy 2y 0 y 1 e X e Y eram independentes Suponha que queiramos determinar a densidade FZz da va Z XY Considere W X e portanto x w e o Jacobiano é de modo que Seguese que 0 z w 1 e a densidade de Z é obtida por Problemas 27 Encontre a densidade de Z X Y para X e Y va independentes com fXx 2x 0 x 1 e fYy 2y 0 y 1 Sugestão considere 0 z 1 e 1 z 2 28 Se X tiver densidade fXx 2x 0 x 1 e Y tiver densidade fYy y29 0 y 3 e forem independentes encontre a densidade de W XY 29 Encontre a densidade de Z XY se X e Y são independentes com densidades fXx ex x 0 e fYy 2e2y y 0 Sugestão z xy w y 88 Distribuição Normal Bidimensional Assim como a distribuição normal é um modelo importante para variáveis contínuas unidimensionais para va contínuas bidimensionais podemos considerar o modelo normal bidimensional definido a seguir Definição A variável X Y tem distribuição normal bidimensional se sua densidade conjunta for dada por fx y frac12pisigmaxsigmaysqrt1rho2 expleft frac121rho2 left fracxmux2sigmax2 frac2rhoxmuxymuysigmaxsigmay fracymuy2sigmay2rightright para infty x infty infty y infty Aqui estamos usando a notação expz ez Vemos que a densidade em questão depende de cinco parâmetros as médias mux e muy que podem assumir quaisquer valores reais as variâncias sigma2x e sigma2y que devem ser positivas e o coeficiente de correlação rho entre X e Y que deve satisfazer 1 rho 1 Dois exemplos de gráficos dessa densidade estão representados na Figura 815 As seguintes propriedades podem ser demonstradas a As distribuições marginais de X e Y são normais unidimensionais a saber X sim Nmux sigma2x Y sim Nmuy sigma2y b rho CorrX Y c As distribuições condicionais são normais com fXYxyNμx ρσxσyy μy σx21 ρ2 Vimos que ρ 0 significa que as variáveis X e Y são não correlacionadas Aqui podemos concluir algo mais Nessa situação podemos escrever a densidade 829 como fxy 12πσxσy e12xμxσx2 yμyσy2830 isto é a densidade conjunta é o produto das duas marginais que sabemos serem normais Ou seja concluímos que X e Y são independentes e Considere a va Z igual à soma dos rendimentos de cada homem e mulher Calcule a média e a variância de Z f Supondo que todos os casais tenham a renda de um ano disponível e que se oferecerá ao casal escolhido a possibilidade de comprar uma casa pelo preço de 20 qual a probabilidade de que o casal escolhido possa efetuar a compra b Obtenha o coeficiente de correlação entre X e Y e interprete esse coeficiente para as variáveis em estudo 37 Uma urna contém três bolas numeradas 0 1 2 Duas bolas são retiradas ao acaso e sucessivamente Sejam X número da primeira bola retirada e Y número da segunda bola retirada Calcule a EXY b CovX Y c VarX Y nos casos em que as bolas são retiradas i com reposição ii sem reposição 38 Prove as relações 819 e 820 do texto 39 Se ρX Y for o coeficiente de correlação entre X e Y e se tivermos que Z AX B W CY D com A 0 C 0 prove que ρX Y ρZ W 40 Uma urna contém n bolas numeradas de 1 até n Duas bolas são retiradas sucessivamente sem reposição Determine a distribuição do módulo da diferença entre os dois números observados 41 Suponha que X e Y sejam va com VarX 1 VarY 2 e ρX Y 12 Determine VarX 2Y 42 Seja X e Y va com EX EY 0 e VarX VarY 1 Prove que ρZ U 0 se Z X Y e U X Y 43 As va X e Y do Problema 18 são independentes Justifique 44 Mostre que X e Y do Problema 19 são independentes 45 Se X1 Xn são va independentes cada Xi com média μi e variância σi² i 1 2 n calcule EX X₁ Xnn 46 Refatore o problema anterior para o caso de as va terem todas a mesma média μ e mesma variância σ² 47 Suponha que X bn p e Y bm p sendo ainda X e Y va independentes Mostre que X Y bm n p 48 Se X e Y forem va independentes com distribuições de Poisson com parâmetros λ₁ e λ₂ respectivamente mostre que X Y terá distribuição de Poisson com parâmetro λ₁ λ₂ 49 Prove 89 para va X e Y contínuas 810 Complementos Metodológicos 1 Um resultado importante é o seguinte se X₁ Xn são variáveis normais e independentes então a1X₁ a2X₂ anXn será uma va normal sendo a₁ an constantes Suponha X Nμ σ² para i 12n Calcule a média e variância de y ₁ⁿaiXᵢ 2 Vamos provar que 1 ρ 1 Suponha EX μ₁ EY μ₂ VarX σ₁² VarY σ₂² CovX Y σ₁₂ Então o coeficiente de correlação entre X e Y é dado por ρX Y σ₁² ft EX μ₁² 2tX μ₁Y μ₂ t²Y μ₂² σ₁² 2tσ₁₂ t²σ₂² é sempre positiva ou nula quaisquer que sejam os parâmetros σ²₁ σ²₂ e σ₁₂ Sendo um polinômio de segundo grau em t o seu discriminante deve ser negativo ou nulo isto é Δ 4σ₁₂² 4σ₁²σ₂² 0 do que decorre que implica ρ² 1 e finalmente 1 ρ 1 Capítulo 9 Noções de Simulação 91 Introdução Nos capítulos anteriores aprendemos a construir alguns modelos probabilísticos simples que são úteis para representar situações reais ou então para descrever um experimento aleatório Notamos também que se especificarmos um espaço amostral e probabilidades associadas aos pontos desse espaço o modelo probabilístico ficará completamente determinado e poderemos então calcular a probabilidade de qualquer evento aleatório de interesse Muitas vezes mesmo construindo um modelo probabilístico certas questões não podem ser resolvidas analiticamente e teremos de recorrer a estudos de simulação para obter aproximações de quantidades de interesse De modo bastante amplo estudos de simulação tentam reproduzir num ambiente controlado o que se passa com um problema real Para nossos propósitos a solução de um problema real consistirá na simulação de variáveis aleatórias A simulação de variáveis aleatórias deu origem aos chamados Métodos Monte Carlo MMC que por sua vez supõem que o pesquisador disponha de um gerador de números aleatórios equiprováveis Um Número Aleatório NA representa o valor de uma variável aleatória uniformemente distribuída no intervalo 01 Originalmente esses números aleatórios eram gerados manualmente ou mecanicamente usando dados roletas etc Modernamente usamos computadores para gerar números que na realidade são pseudoaleatórios Para nossos propósitos uma simulação pode ser entendida como uma particular realização do modelo binomial normal etc Nesse sentido os valores simulados podem ser considerados como uma amostra como veremos nos capítulos seguintes Esse entendimento será útil para estudar as distribuições de estimadores e suas propriedades O nome Monte Carlo está relacionado com a cidade de mesmo nome no Principado de Mônaco principalmente devido à roleta que é um mecanismo simples para gerar números aleatórios Os MMC apareceram durante a Segunda Guerra Mundial em pesquisas relacionadas à difusão aleatória de neutrons num material radioativo Os trabalhos pioneiros devemse a Ulam Metropolis Fermi e von Neumann por volta de 19481949 Alguns trabalhos que podem ser consultados são os artigos de Metropolis e Ulam 1949 e von Neumann 1951 e os livros de Sóbol 1976 Hammersley e Handscomb 1964 e Ross 1997 Para ilustrar suponha que se queira calcular a área da figura F contida no quadrado Q de lado unitário Figura 91 Suponha que sejamos capazes de gerar pontos aleatórios em Q de modo homogêneo isto é de modo a cobrir toda a área do quadrado ou ainda que esses pontos sejam uniformemente distribuídos sobre Q Se gerarmos N pontos suponha que N desses caiam em F Então poderemos aproximar a área de F por NN No caso da figura uma estimativa da área é 24200 pois geramos 200 pontos em Q e 24 estão dentro de F Quanto mais pontos gerarmos melhor será a aproximação Note que o problema em si não tem nenhuma componente aleatória queremos calcular a área de uma figura plana Mas para resolver o problema uma possível maneira foi considerar um mecanismo aleatório Esse procedimento pode ser utilizado em muitas situações Vejamos algumas maneiras de obter um número aleatório Figura 91 Área de uma figura por simulação Exemplo 91 Lance uma moeda três vezes e atribua o valor 1 se ocorrer cara e o valor 0 se ocorrer coroa Os resultados possíveis são as sequências ou números binários abaixo 000 001 010 011 100 101 110 111 Cada um desses números binários corresponde a um número decimal Por exemplo 1112 710 pois 1112 1 22 1 21 1 20 o índice indica a base em que o número está sendo expresso Veja Morettin et al 2005 Considere a representação decimal de cada sequência acima e divida o resultado por 23 1 7 Obteremos os números aleatórios 0 17 27 1 Observe que você poderá eventualmente considerar a sequência 111 menos aleatória do que 010 digamos Mas qualquer uma das oito sequências anteriores tem a mesma probabilidade a saber 123 18 Suponha agora que você lance a moeda dez vezes Teremos números binários com dez dígitos e cada um terá probabilidade 1210 11024 Assim a sequência 1 1 1 1 1 1 1 1 1 1 formada por dez uns parece menos aleatória do que a sequência 1 0 1 0 1 0 1 0 1 0 formada por cinco pares de dez que por sua vez parece menos aleatória do que a sequência 0 1 1 0 1 1 1 0 0 1 que requer uma descrição mais elaborada No entanto todas elas têm a mesma probabilidade de ocorrer no experimento acima Intuitivamente a aleatoriedade de uma sequência está ligada à dificuldade de descrevêla em palavras como fizemos acima Para esse caso de dez lançamentos procederíamos como no caso de três lançamentos dividindo os 1024 números decimais obtidos por 210 1 1023 para obter 1024 NA entre 0 e 1 De modo geral lançandose a moeda n vezes teremos 2n possibilidades e os NA finais são obtidos por meio de divisão por 2n 1 Exemplo 92 Números aleatórios também podem ser gerados usando se uma roleta como a da Figura 92 com dez setores numerados 0 1 2 9 Gire a roleta dez vezes e anote os números obtidos numa coluna Faça a mesma coisa mais duas vezes de modo a obter algo como Figura 92 Roleta com dez setores Agora divida cada número em cada linha por 1000 para obter os NA 0610 0944 0504 0510 0254 0639 0129 0380 0226 0079 Para obter NA com quatro casas decimais basta girar a roleta quatro vezes Na realidade os números acima foram obtidos de uma tabela de números aleatórios como aquela da Tabela VII No exemplo iniciamos no canto superior esquerdo e tomamos as três primeiras colunas com dez dígitos cada Tabelas de números aleatórios são construídas por meio de mecanismos como o que descrevemos O problema que enfrentamos muitas vezes é o de gerar uma quantidade muito grande de números aleatórios da ordem de 1000 ou 10000 O procedimento de simulação manual usando uma tabela de números aleatórios pode se tornar muito trabalhoso ou mesmo impraticável A solução alternativa é substituir a simulação manual por simulação por meio de computadores utilizando números pseudo aleatórios em vez de números aleatórios Os números pseudoaleatórios NPA são obtidos por meio de técnicas que usam relações matemáticas recursivas determinísticas Logo um NPA gerado numa iteração dependerá do número gerado na iteração anterior e portanto não será realmente aleatório originando o nome pseudoaleatório Há vários métodos para gerar NPA Um dos primeiros formulado pelo matemático John von Neumann é chamado o método de quadrados centrais veja o Problema 18 Um método bastante utilizado em pacotes computacionais é o método congruencial discutido nos Problemas 1 e 2 Os diversos pacotes aplicativos estatísticos ou não utilizam métodos como o congruencial para implementar subrotinas de geração de NPA Como exemplos de pacotes citamos o NAG Numerical Algorithm Group atualmente incorporado ao pacote MATLAB e o IMSL O pacote estatístico Minitab usa os comandos Random e Uniform para gerar NPA Exemplo 93 Temos no Quadro 91 um exemplo de geração de dez NA O comando Random 10 C1 seguido de Uniform 01 pede para gerar dez NA e guardálos na coluna C1 Quadro 91 Geração de números aleatórios Minitab MTB RANDOM 10 C1 SUBC UNIFORM 0 1 C1 1 0590042 2 0859332 3 0021023 4 0340748 5 0673675 6 0558276 7 0911412 8 0775391 9 0867138 10 0865328 O pacote SPlus usa o comando runifn min max em que n é o número de valores a gerar e min max é o intervalo no qual se quer gerar os NPA No nosso caso min 0 e max 1 Exemplo 94 O comando u runif1001 pede para gerar dez NA e guardálos no vetor u O comando u imprime os dez valores Veja o Quadro 92 Quadro 92 Geração de números aleatórios SPlus u runif 10 0 1 u 1 06931500 08586156 01494293 02947197 03474523 07571899 03016043 03051952 9 09135144 07996542 A planilha Excel usa a função ALEATÓRIO para gerar NA ou então Geração de números aleatórios escolhendo a opção Análise de Dados do menu Ferramentas Exemplo 95 O Quadro 93 mostra na coluna A o resultado de gerar 20 NA usando o Excel Foi utilizada a opção Uniforme 01 Quadro 93 Geração de números aleatórios Excel A B C D E F G 1 0382 0 5 1 077423 1 2 2 0100681 1 4 1 091015 2 9 3 0596484 1 3 0 012675 3 10 4 0899106 1 4 4 143943 4 6 5 088461 1 6 0 1192723 5 7 6 0958464 1 5 1 089864 6 7 0014496 0 6 1 064207 7 8 0407422 1 6 0 116122 8 9 0863247 0 3 0 047886 9 10 0138585 1 5 3 0832001 10 11 0245033 1 1 1001472 12 0045473 0 0 061513 13 003238 0 2 1896733 14 0164129 1 3 125248 15 0219611 0 1 1308572 16 001709 2 128498 17 0285043 1 0357816 18 0343089 0 01679 19 0553636 2 1580393 20 0357372 1 0994548 Problemas 1 Vejamos o significado da expressão x mod m na qual x e m são inteiros não negativos O resultado de tal operação é o resto da divisão de x por m Ou seja se x mq r então x mod m r Por exemplo 13 mod 4 1 Encontre 18 mod 5 e 360 mod 100 2 O método congruencial No chamado método congruencial multiplicativo de gerar NPA começamos com um valor inicial n0 chamado semente e geramos sucessivos valores n1 n2 por meio da relação ni 1 ani mod m sendo n0 a m inteiros não negativos e i 0 1 2 m 1 A constante a é o multiplicador e m é o módulo Por meio da fórmula acima no máximo m números diferentes são gerados a saber 0 1 m 1 Se h m for o valor de i correspondente ao número máximo de pontos gerados a partir do qual os valores se repetem então h é chamado o ciclo ou o período do gerador Os NPA são obtidos por meio de ui nim i 0 1 m 1 Tomemos por exemplo a semente n0 17 a 7 e m 100 É fácil ver que obtemos o seguinte i 0 1 2 3 4 ni 17 19 33 31 17 Temos então que o ciclo é h 4 e os valores ni vão se repetir a partir daí Os correspondentes NPA gerados serão 017 019 033 031 017 Devemos escolher a e m de modo a obter ciclos grandes ou seja geramos muitos NPA antes que eles comecem a se repetir A seleção de m é normalmente determinada pelo número de bits das palavras do computador usado Atualmente tomamos por exemplo m 264 Para o valor a a sugestão é tomar uma potência grande de um número primo por exemplo a 75 O método congruencial misto usa a fórmula ni 1 ani b mod m 3 Considere a semente n0 13 o multiplicador a 5 e o módulo m 100 para gerar dez números pseudoaleatórios Qual o período h nesse caso 4 Idem para n0 19 a 13 e m 100 5 Use algum programa ou planilha computacional para gerar 10000 números pseudo aleatórios Faça um histograma e um box plot desses valores Esses gráficos corroboram o fato de que esses números obtidos são observações de uma va com distribuição uniforme no intervalo 0 1 Explique 92 Simulação de Variáveis Aleatórias De posse de um bom gerador de NA podemos em princípio gerar NA de qualquer outra va usando a correspondente função de distribuição acumulada fda Como ilustração vamos supor uma va contínua X com fda Fx mostrada na Figura 93 Figura 93 fda de uma va contínua X Usandose um gerador de NA produzse um NA u marcase esse valor no eixo das ordenadas de Fx por meio da função inversa de Fx obtémse o valor x da va X no eixo das abcissas Isto é resolvese a seguinte equação Fx u 91 ou seja x F1u Observe a figura para melhor entendimento Na realidade o procedimento ilustrado acima pode ser formalizado no seguinte resultado chamado de método da transformação integral Suponha F estritamente crescente Teorema 91 Se X for uma va com fda F então a va U FX tem distribuição uniforme no intervalo 0 1 Prova Como F é estritamente crescente e u Fx então x F1u pois existe a inversa de X Se Gu é a fda de U temos Gu PU u PFX u PX F1u FF1u u o que demonstra o teorema Exemplo 96 Considere a va com densidade fx 2x 0 x 1 Temos Na Figura 94 temos os gráficos de fx e Fx Figura 94 Fdp e fda da va X do Exemplo 96 Então a equação 91 fica u x2 Para obter um valor de X basta gerar um NA u e depois gerar Como 0 x 1 devese tomar a raiz quadrada positiva de u Por exemplo se u 05 então Fx 05 e portanto que é um valor número aleatório gerado da va X Para simular dados de uma va discreta o segredo está em fazer uma pequena modificação no gráfico da fda Considere uma va com a seguinte distribuição de probabilidades X x1 x2 xn pj p1 p2 pn A fda dessa va é dada por Os gráficos correspondentes estão na Figura 95 Figura 95 Fp e fda de uma va discreta Para usar o procedimento anterior basta alterar o gráfico de Fx acima do modo apresentado na Figura 96 Figura 96 Fda modificada para a va discreta X Como antes geramos um NA u entre 0 e 1 e o marcamos no eixo das ordenadas procurase o inverso de u no eixo das abcissas Suponha que u esteja entre p1 p2 pj 1 e p1 p2 pj 1 pj Segundo a Figura 96 vemos que então obteremos o valor xj da va X A descrição acima pode ser resumida no seguinte procedimento gerase um NA u ou seja um valor de uma va U uniforme no intervalo 0 1 Coloque 92 Exemplo 97 Consideremos a va X com distribuição X 0 1 2 pj 14 12 14 Suponha que ao gerar um NA obtemos u 03 Então como p1 u p1 p2 ou seja 025 u 075 tomamos o valor gerado de X como x 1 Para obter uma amostra de n valores de X basta gerar n números aleatórios e proceder para cada um deles como acima Note que poderemos obter valores repetidos de X Na Seção 93 mostraremos como gerar valores de algumas distribuições conhecidas Nem sempre o método apresentado é utilizado pois há dificuldade em resolver a equação 91 Os pacotes estatísticos como o Minitab e SPlus e as planilhas eletrônicas como a do Excel possuem subrotinas próprias para simular valores para vários modelos de vas tanto discretas como contínuas Na Seção 94 apresentaremos exemplos de uso de tais programas Problemas 6 Gere cinco valores da va X cuja distribuição é dada por X 0 1 2 3 4 pj 01 02 04 02 01 Use a Tabela VII para gerar os NA 7 Gere dez valores da va T do Problema 17 do Capítulo 6 8 Considere a va X contínua com fdp Como você procederia para obter um valor simulado de X Se u 05 qual será o valor correspondente gerado de X 93 Simulação de Alguns Modelos Utilizando o que foi estudado nas seções anteriores vejamos como podemos simular valores de alguns modelos que já consideramos anteriormente Exemplo 98 Simulação de uma distribuição de Bernoulli Suponha que X tenha uma distribuição de Bernoulli com PX 0 1 p 048 e PX 1 p 052 Para gerar valores de tal distribuição basta gerar NA u e concluir Se u 048 coloque X 0 Se u 048 coloque X 1 Por exemplo suponha que geramos dez NA 011 082 000 043 056 060 072 042 008 053 Então os dez valores gerados da distribuição em questão são 0 1 0 0 1 1 1 0 0 1 respectivamente Exemplo 99 Simulação de uma distribuição binomial Sabemos que se Y bn p então Y é o número de sucessos num experimento de Bernoulli com n repetições e probabilidades de sucesso p Mas Psucesso PY 1 p No Exemplo 98 obtivemos cinco sucessos logo Y 5 Portanto se Y b10 052 e queremos digamos gerar 20 valores dessa distribuição basta considerar 20 experimentos de Bernoulli sendo que em cada um deles repetimos o experimento n 10 vezes com probabilidade de sucesso p 052 Para cada experimento j consideramos o número de sucessos número de 1 yj j 1 2 20 Obteremos então os 20 valores simulados y1 y20 da va Y Observe que esses valores serão inteiros entre 0 e 20 inclusive esses dois últimos Exemplo 910 Simulação de uma distribuição exponencial Se a va T tiver densidade dada por ft 1β etβ t 0 93 a sua fda é dada por Ft 1 etβ 94 logo temos de resolver a equação 91 para gerar t Tomando logaritmo na base e temos 1 u etβ log 1 u tβ t β log 1 u Logo gerado um NA um valor da distribuição Expβ é dado por β log 1 u Por exemplo suponha β 2 e queremos gerar cinco valores de T Exp2 Gerados os valores u1 057 u2 019 u3 038 u4 033 u5 031 de uma distribuição uniforme em 0 1 os números aleatórios obteremos t1 2log043 168 t2 2log81 042 t3 2log062 096 t4 2log067 080 t5 2 log069 074 Podemos reduzir um pouco os cálculos se usarmos o seguinte fato se U u0 1 então 1 U u0 1 Resulta que poderemos gerar os valores de uma exponencial por meio de t β log u Usando essa fórmula para os valores de U acima obteremos os seguintes valores de T 112 332 193 096 234 Exemplo 911 Simulação de uma distribuição normal Há vários métodos para gerar va normais mas uma observação importante é que basta gerar uma va normal padrão pois qualquer outra pode ser obtida desta De fato gerado um valor z1 da va Z N0 1 para gerar um valor de uma va X Nµ σ2 basta usar a transformação z x µσ para obter x1 µ σz1 95 Vamos dar um exemplo usando a transformação integral e uma tabela de probabilidades para a normal padrão Suponha que X N10 016 ou seja µ 10 e σ 04 Temos de resolver a Fórmula 91 ou seja Φz u em que estamos usando a notação Φz para a fda da N0 1 Vamos gerar em primeiro lugar um NA u usando a Tabela VII Tomando as três primeiras colunas e o canto inferior esquerdo obtemos u 0230 Então temos de resolver Φz 0230 ou seja temos de encontrar o valor z tal que a área à sua esquerda sob a curva normal padrão seja 0230 Veja a Figura 97 Figura 97 Geração de um valor z N0 1 Consultando uma tabela para a normal encontramos que z 074 Logo o valor gerado da normal em questão satisfaz ou seja x 10 04074 9704 Qualquer outro valor pode ser gerado da mesma forma Esse método embora simples não é prático sob o ponto de vista computacional Há outros métodos mais eficientes Alguns são variantes do método de BoxMüller 1958 Nesse método são geradas duas va Z₁ e Z₂ independentes e N0 1 por meio das transformações Z₁ 2logU₁cos2πU₂ Z₂ 2logU₁sen2πU₂ em que U₁ e U₂ são va com distribuição uniforme em 0 1 Portanto basta gerar dois NA u₁ e u₂ e depois gerar Z₁ e Z₂ usando 96 Veja também o Problema 22 94 Exemplos Computacionais Nesta seção vamos apresentar alguns exemplos de simulação de vas usando os pacotes R Minitab SPSS e Excel As Tabelas 91 e 92 trazem distribuições discretas e contínuas respectivamente contempladas por cada um e os comandos apropriados quando pertinentes Tabela 91 Opções de Distribuições Discretas Distribuição Excel Par Minitab Par R e SPSS Par Bernoulli Bernoulli p Bernoulli p Binomial Binomial n p Binomial n p binom n p Geométrica geom p Hipergeométrica hyper N r k Poisson Poisson λ Poisson λ pois λ Discreta Discreta Começamos com vas discretas Para gerar uma distribuição de Bernoulli no R ou SPSS basta colocar n 1 no caso binomial O pacote Minitab usa o comando Random seguido de um dos comandos da tabela Os pacotes R e SPSS colocam a letra r de random antes do comando apropriado A planilha Excel pode tanto usar a função ALEATÓRIO como a opção Geração de número aleatório dentro de Análise de Dados do menu Ferramentas Existe uma opção Discreta para gerar uma distribuição discreta especificada xi pi i 1 k Vejamos alguns exemplos Exemplo 912 Suponha que queiramos simular 20 valores de uma distribuição binomial com n 10 e p 06 e 15 valores de uma distribuição de Poisson com parâmetro λ 24 usando o R Obtemos o Quadro 94 Os valores simulados são arquivados nas colunas C1 e C2 Quadro 94 Simulação da binomial e Poisson R C1rbinom201006 C2rpois1524 C2appendC2values repNA5 quadro94dataframeC1C2 quadro94 C1 C2 C1 C2 1 3 1 11 3 2 2 7 1 12 7 2 3 3 1 13 7 1 4 7 4 14 7 2 5 7 3 15 4 3 6 4 1 16 8 NA 7 8 3 17 9 NA 8 7 4 18 4 NA 9 4 3 19 7 NA 10 7 2 20 4 NA Exemplo 913 Usando o SPlus mostramos no Quadro 95 as saídas correspondentes a simular 20 valores de uma va X b10 05 e 20 valores de uma va Y Poisson 17 Quadro 95 Simulação da binomial e Poisson SPlus x rbinom20 10 05 x 1 6 4 7 5 5 5 5 7 6 1 8 4 6 6 7 6 5 5 6 7 y rpois 20 17 y 1 1 2 5 5 1 3 2 1 2 2 3 1 3 2 1 1 4 2 3 0 Exemplo 914 Suponha que queiramos gerar as seguintes distribuições usando o R a X b10 05 c Z u01 b Y Poisson17 d B Bern07 Os comandos respectivos estão dados no Quadro 96 Quadro 96 Simulação de variáveis R xrbinom201005 yrpois2017 zrunif10001 brbinom15107 Os histogramas respectivos estão na Figura 98 Figura 98 Histogramas de distribuições simuladas no Exemplo 914 SPlus Tabela 92 Opções de Distribuições Contínuas Distribuição Excel Par Minitab Par R e SPSS Par Normal Normal 0 1 Normal μ σ Normal μ σ Exponencial Exponential β t Student T ν t ν F Snedecor F ν1 ν2 F ν1 ν2 Gama Gamma α β gamma α β QuiQuadrado Chisquare ν chisq ν beta Betaα β beta α β Vejamos agora alguns exemplos para vas contínuas Exemplo 915 Usando o pacote Minitab geramos a 10 valores de uma N0 1 b 20 valores de uma Exp2 c 15 valores de uma χ25 Os comandos e respectivos valores simulados estão mostrados no Quadro 97 Quadro 97 Simulação de variáveis Minitab Exemplo 916 Usando o pacote R simulamos a 500 valores de uma va Z N01 b 200 valores de uma va Y N10 03 c 500 valores de uma va t35 d 500 valores de uma va T Exp2 e 300 valores de uma va W χ25 f 500 valores de uma va F10 12 Os comandos necessários são mostrados no Quadro 98 e os respectivos histogramas estão na Figura 99 Quadro 98 Simulação de variáveis R MTB Random 10 C1 MTB SUBC Normal 0 1 MTB Random 15 C3 MTB SUBC Chisquare 5 MTB Random 20 C2 MTB SUBC Exponential 2 C1 C2 C3 C1 C2 C3 1 006636 252004 444339 11 060892 071995 2 014940 111469 260994 12 011405 558489 3 008339 183977 252374 13 410192 552644 4 009516 047236 110394 13 487223 286108 5 108060 060830 231042 15 255956 287105 6 063088 183693 626708 16 050944 7 017117 235880 020627 17 105514 8 178075 131464 152421 18 391126 9 189407 129729 488943 19 198810 10 021054 181755 390320 23 082243 Na planilha Excel a normal pode ser gerada por meio da opção normal no menu Ferramentas Análise de Dados Geração de números aleatórios ou pela função ALEATÓRIO e a fórmula INVNORMALEATÓRIO µ σ Em cada caso faça um histograma e veja se este corresponde à distribuição em questão Os histogramas que você obteve estão de acordo com as definições dadas dessas distribuições Comente 22 Usando um pacote gere a 300 valores de uma distribuição t120 b 500 valores de uma distribuição F56 38 c 300 valores de uma distribuição B20 30 Faça um histograma dos valores simulados em cada caso e responda a mesma pergunta do problema anterior 23 Simule cinco valores de uma distribuição Gama3 12 usando o procedimento descrito no CM3 24 Usando um pacote computacional gere a 1000 valores de uma distribuição uniforme bidimensional no quadrado de lado unitário supondo os componentes independentes b 1000 valores de uma normal bidimensional X Y com X e Y independentes X N10 4 e Y N15 9 25 Um time de futebol irá disputar 10 partidas num torneio de classificação a Supondo que sua chance de vitória em cada jogo é de 60 simule sua possível campanha b Simule agora se é esperado o seguinte desempenho em cada jogo 50 de vitória 30 de empate e 20 de derrota c Para a situação descrita em b simule 12 possíveis campanhas para o time e estude a variável X número de pontos obtidos vitória 3 empate 1 e derrota 0 d Proponha outros parâmetros para o time e repita a questão c 26 Suponha que uma moeda é viciada de tal sorte que favoreça mais cara do que coroa Para estimar a probabilidade de cara você a pode lançar digamos 50 vezes a Para simular um possível resultado do seu experimento o que é que seria necessário b Supondo que a probabilidade de ocorrer cara é p 06 qual seria a sua simulação e sua estimativa de p c Faça a simulação para 4 outras pessoas e dê suas respectivas estimativas Alguém acertou o verdadeiro parâmetro 27 Em uma população 20 das pessoas compram o produto C Selecionase com reposição indivíduos dessa população até encontrar um comprador de C A variável X indica o número de indivíduos entrevistados Qual é a distribuição simulada de X 28 Uma pesquisa domiciliar irá entrevistar todos os moradores do domicílio e a distribuição do número de moradores por domicílio encontrase abaixo Será usada uma amostra de 5 domicílios A geração de valores de uma distribuição de Poisson parte da seguinte relação recursiva que pode ser facilmente verificada pnj lambdaj e lambda j j 01 F FJ Então o algoritmo para se gerar os sucessivos valores é o seguinte Passo 1 Gere o NA u Passo 2 Faça j 0 p eλ e F p Passo 3 Se u F coloque N j Passo 4 Faça p λ j 1 F F p e j j 1 Passo 5 Volte ao Passo 3 Note que no Passo 2 se j 0 PN 0 p0 eλ e F0 PN 0 p0 2 Transformação de BoxMüller Considere as va X e Y independentes e ambas N0 1 Observando a Figura 910 vemos que R² X² Y² e tgθ YX A densidade conjunta de X e Y é uma distribuição Gamar β com r 0 inteiro basta gerar r valores de uma distribuição exponencial de parâmetro β e depois somálos 4 Simulação de várias variáveis É mais complicado simular distribuições bidimensionais No caso de X e Y serem independentes então fx y fXx fYy x y se elas forem contínuas por exemplo Logo para gerar um valor x y da densidade conjunta fx y basta gerar o componente x da distribuição marginal de X e a componente y da distribuição marginal de Y independente No caso de va dependentes temos que vale a relação fx y fXx fYXyx Logo por essa relação primeiramente geramos um valor x da distribuição marginal de X e fixado esse valor x0 digamos geramos um valor da distribuição condicional de X dado que X x0 Isso implica que devemos saber como gerar valores das distribuições fXx e fYXyx Vamos nos limitar a dar dois exemplos no caso de va independentes Exemplo 918 Distribuição uniforme bidimensional Na Seção 91 vimos que para calcular a área da figura F contida no quadrado Q de lado unitário Figura 91 considerávamos o quociente NN Como geramos naquele exemplo os N pontos uniformemente distribuídos sobre Q Pelo que vimos acima basta gerar valores de va U1 u0 1 e U2 u0 1 independentemente Então PU1 U2 F áreaF Ou seja a va U1 U2 é uniformemente distribuída em Q No caso da Figura 91 consideramos 200 valores gerados para U1 e U2 de modo que a área F 24100 Exemplo 919 Distribuição normal bidimensional O método de BoxMüller gera valores de duas normais padrões independentes Z1 e Z2 Logo se quisermos gerar valores da distribuição conjunta de X e Y independentes e normais com X Nµx σ2 x e Y Nµy σ2 y basta considerarmos X µx σx Z1 Y µy σy Z2 Na Figura 911 temos as curvas de níveis e o gráfico bidimensional obtidos gerandose 10000 valores cada uma de duas normais padrões independentes Figura 911 Distribuição normal padrão bidimensional gerada Parte III INFERÊNCIA ESTATÍSTICA Capítulo 10 Introdução à Inferência Estatística Capítulo 11 Estimação Capítulo 12 Testes de Hipóteses Capítulo 13 Inferência para Duas Populações Capítulo 14 Análise de Aderência e Associação Capítulo 15 Inferência para Várias Populações Capítulo 16 Regressão Linear Simples Capítulo 10 Introdução à Inferência Estatística 101 Introdução Vimos na Parte I como resumir descritivamente variáveis associadas a um ou mais conjuntos de dados Na Parte II construímos modelos teóricos probabilísticos identificados por parâmetros capazes de representar adequadamente o comportamento de algumas variáveis Nesta terceira parte apresentaremos os argumentos estatísticos para fazer afirmações sobre as características de uma população com base em informações dadas por amostras O uso de informações de uma amostra para concluir sobre o todo faz parte da atividade diária da maioria das pessoas Basta observar como uma cozinheira verifica se o prato que está sendo preparando tem ou não a quantidade adequada de sal Ou ainda quando um comprador após experimentar um pedaço de laranja numa banca de feira decide se vai comprar ou não as laranjas Essas são decisões baseadas em procedimentos amostrais Nosso objetivo nos capítulos seguintes é procurar dar a conceituação formal a esses princípios intuitivos do dia a dia para que possam ser utilizados cientificamente em situações mais complexas 102 População e Amostra Nos capítulos anteriores tomamos conhecimento de alguns modelos probabilísticos que procuram medir a variabilidade de fenômenos casuais de acordo com suas ocorrências as distribuições de probabilidades de variáveis aleatórias qualitativas ou quantitativas Na prática frequentemente o pesquisador tem alguma ideia sobre a forma da distribuição mas não dos valores exatos dos parâmetros que a especificam Por exemplo parece razoável supor que a distribuição das alturas dos brasileiros adultos possa ser representada por um modelo normal embora as alturas não possam assumir valores negativos Mas essa afirmação não é suficiente para determinar qual a distribuição normal correspondente precisaríamos conhecer os parâmetros média e variância dessa normal para que ela ficasse completamente especificada O propósito do pesquisador seria então descobrir estimar os parâmetros da distribuição para sua posterior utilização Se pudéssemos medir as alturas de todos os brasileiros adultos teríamos meios de obter sua distribuição exata e daí produzir os correspondentes parâmetros Mas nessa situação não teríamos necessidade de usar a inferência estatística Raramente se consegue obter a distribuição exata de alguma variável ou porque isso é muito dispendioso ou muito demorado ou às vezes porque consiste num processo destrutivo Por exemplo se estivéssemos observando a durabilidade de lâmpadas e testássemos todas até queimarem não restaria nenhuma para ser vendida Assim a solução é selecionar parte dos elementos amostra analisála e inferir propriedades para o todo população Outras vezes estamos interessados em explorar relações entre variáveis envolvendo experimentos mais complexos para a obtenção dos dados Por exemplo gostaríamos de obter resposta para a seguinte indagação a altura que um produto é colocado na gôndola de um supermercado afeta a sua venda Observe que para responder a questão precisamos obter dados de vendas com o produto oferecido em diferentes alturas e que essas vendas sejam controladas para evitar interferências de outros fatores que não a altura Nesse caso não existe claramente um conjunto de todos os elementos para os quais pudéssemos encontrar os parâmetros populacionais Recorrer a modelos para descrever o todo população facilita a identificação e solução do problema Nesse exemplo supondo que as vendas Vh do produto oferecido na altura h h 1 representando baixo h 2 representando meio e h 3 representando alto segue uma distribuição próxima a normal ou seja Vh Nµh σ2 o nosso problema passa a ser o de verificar por meio de dados coletados do experimento amostra se existe evidência de igualdade das médias µ1 µ2 e µ3 Note que em nossa formulação do problema consideremos que as três situações de alturas resultam observações com a mesma variância σ2 Essa suposição poderia ser modificada Soluções de questões como as apresentadas acima são o objeto da inferência estatística Dois conceitos básicos são portanto necessários para o desenvolvimento da Inferência Estatística população e amostra Definição População é o conjunto de todos os elementos ou resultados sob investigação Amostra é qualquer subconjunto da população Vejamos outros exemplos para melhor entender essas definições Exemplo 101 Consideremos uma pesquisa para estudar os salários dos 500 funcionários da Companhia MB Selecionase uma amostra de 36 indivíduos e anotamse os seus salários A variável aleatória a ser observada é salário A população é formada pelos 500 funcionários da companhia A amostra é constituída pelos 36 indivíduos selecionados Na realidade estamos interessados nos salários portanto para sermos mais precisos devemos considerar como a população os 500 salários correspondentes aos 500 funcionários Consequentemente a amostra será formada pelos 36 salários dos indivíduos selecionados Podemos estudar a distribuição dos salários na amostra e esperamos que esta reflita a distribuição de todos os salários desde que a amostra tenha sido escolhida com cuidado Exemplo 102 Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a certo projeto governamental Uma amostra de 200 pessoas é sorteada e a opinião de cada uma é registrada a favor ou contra o projeto A população consiste de todos os moradores da cidade e a amostra é formada pelas 200 pessoas selecionadas Podemos como foi visto no Capítulo 5 definir a variável X que toma o valor 1 se a resposta de um morador for favorável e o valor 0 se a resposta for contrária ao projeto Assim nossa população pode ser reduzida à distribuição de X e a amostra será constituída de uma sequência de 200 zeros e uns Exemplo 103 O interesse é investigar a duração de vida de um novo tipo de lâmpada pois acreditamos que ela tenha uma duração maior do que as fabricadas atualmente Então 100 lâmpadas do novo tipo são deixadas acesas até queimarem A duração em horas de cada lâmpada é registrada Aqui a variável é a duração em horas de cada lâmpada A população é formada por todas as lâmpadas fabricadas ou que venham a ser fabricadas por essa empresa com o mesmo processo A amostra é formada pelas 100 lâmpadas selecionadas Notese que nesse caso não podemos observar a população ou seja a distribuição da duração de vida das lâmpadas na população pois isso corresponderia a queimar todas as lâmpadas Assim em alguns casos não podemos observar a população toda pois isso significaria danificar ou destruir todos os elementos da população Esse problema geralmente é contornado atribuindose um modelo teórico para a distribuição da variável populacional Exemplo 104 Em alguns casos fazemos suposições mais precisas sobre a população ou sobre a variável definida para os elementos da população Digamos que X represente o peso real de pacotes de café enchidos automaticamente por uma máquina Sabese que a distribuição de X pode ser representada por uma normal com parâmetros µ e σ2 desconhecidos Sorteamos 100 pacotes e medimos seus pesos A população será o conjunto de todos os pacotes enchidos ou que virão a ser enchidos pela máquina e que pode ser suposta como normal A amostra será formada pelas 100 medidas obtidas dos pacotes selecionados que pode ser pensada como constituída de 100 observações feitas de uma distribuição normal Veremos mais adiante como tal amostra pode ser obtida Exemplo 105 Para investigar a honestidade de uma moeda nós a lançamos 50 vezes e contamos o número de caras observadas A população como no caso do Exemplo 102 pode ser considerada como tendo a distribuição da variável X assumindo o valor 1 com probabilidade p se ocorrer cara e assumindo o valor 0 com probabilidade 1 p se ocorrer coroa Ou seja a população pode ser considerada como tendo distribuição de Bernoulli com parâmetro p A variável ficará completamente especificada quando conhecermos p A amostra será uma sequência de 50 números zeros ou uns Exemplo 106 Há razões para supor que o tempo Y de reação a certo estímulo visual dependa da idade do indivíduo esse exemplo será usado nos Capítulos 15 e 16 Suponha ainda que essa dependência seja linear Para verificarmos se essa suposição é verdadeira obtiveramse 20 dados da seguinte maneira 20 pessoas foram selecionadas sendo 10 homens e 10 mulheres Dentro de cada grupo de homens e mulheres foram selecionadas duas pessoas das seguintes faixas de idade 20 25 30 35 e 40 anos Cada pessoa foi submetida ao teste e seu tempo de reação y foi medido A população poderia ser considerada como formada por todas aquelas pessoas que viessem a ser submetidas ao teste segundo o sexo e a idade A amostra é formada pelas 20 medidas que estão apresentadas na Tabela 151 Observações i Os três últimos exemplos mostram uma ampliação do conceito definido de população ou seja designamos agora a população como a função probabilidade ou função densidade de probabilidade de uma va X modelando a característica de interesse Esse artifício simplifica substancialmente o problema estatístico exigindo no entanto uma proposta de modelo para a variável X Nesses casos simplificaremos a linguagem dizendo seja a população fx Por exemplo considere a população das alturas X Nµ σ2 ii Essa abordagem por meio da distribuição de probabilidades utiliza muitas vezes o conceito de população infinita contínua exigindo um tratamento matemático mais cuidadoso É mais fácil apresentar os problemas e soluções por meio de populações finitas É o que faremos muitas vezes Entretanto é importante que o estudante aprenda a trabalhar com o conceito de modelo explorando o caso de população fx 103 Problemas de Inferência Como já dissemos anteriormente o objetivo da Inferência Estatística é produzir afirmações sobre dada característica da população na qual estamos interessados a partir de informações colhidas de uma parte dessa população Essa característica na população pode ser representada por uma variável aleatória Se tivéssemos informação completa sobre a função de probabilidade no caso discreto ou sobre a função densidade de probabilidade no caso contínuo da variável em questão não teríamos necessidade de escolher uma amostra Toda a informação desejada seria obtida por meio da distribuição da variável usandose a teoria estudada anteriormente Mas isso raramente acontece Ou não temos qualquer informação a respeito da variável ou ela é apenas parcial Podemos admitir como no exemplo das alturas de brasileiros adultos que ela siga uma distribuição normal mas desconhecemos os parâmetros que a caracterizam média variância Em outros casos podemos ter uma ideia desses parâmetros mas desconhecemos a forma da curva Ou ainda o que é muito frequente não possuímos informações nem sobre os parâmetros nem sobre a forma da curva Em todos os casos o uso de uma amostra nos ajudaria a formar uma opinião sobre o comportamento da variável população Embora a identificação e a descrição da população sejam fundamentais no processo inferencial é comum os pesquisadores dedicarem mais atenção em descrever a amostra do que a população para a qual serão feitas as afirmações É imprescindível que se explicite claramente a população investigada Neste livro estaremos mais preocupados em trabalhar com populações descritas por modelos do que com populações finitas identificadas por elementos portadores de uma característica de interesse Portanto na maioria das vezes iremos nos referir à população X significando que a variável de interesse X definida sobre a populaçãoalvo segue uma distribuição fx Nosso problema de interesse passaria a ser o de fazer afirmações sobre a forma da curva e seus parâmetros Alguns exemplos simples nos darão uma noção dos tipos de formulações e problemas que a inferência estatística pode nos ajudar a resolver Exemplo 105 continuação Voltemos ao exemplo da moeda Indicando por X o número de caras obtidas depois de lançar a moeda 50 vezes sabemos que se tomados alguns cuidados quando do lançamento X segue uma distribuição binomial ou seja X b50 p Esse modelo é válido admitindose ou não a honestidade da moeda isto é sendo ou não p 12 Lançada a moeda vamos supor que tenham ocorrido 36 caras Esse resultado traz evidência de que a moeda seja honesta Para tomarmos uma decisão podemos partir do princípio de que a moeda não favorece nem cara nem coroa isto é p 12 Com essa informação e com o modelo binomial podemos encontrar qual a probabilidade de se obterem 36 caras ou mais e esse resultado nos ajudaria a tomar uma decisão Suponha que a decisão foi rejeitar a honestidade da moeda qual é a melhor estimativa para p baseandose no resultado observado Descrevemos aí os dois problemas básicos da Inferência Estatística o primeiro é chamado teste de hipóteses e o segundo estimação Nos capítulos seguintes esses problemas serão abordados com mais detalhes Exemplo 104 continuação Às vezes o modelo teórico associado ao problema não é tão evidente No caso da máquina de encher pacotes de café automaticamente digamos que ela esteja regulada para enchêlos segundo uma distribuição normal com média 500 gramas e desvio padrão de 10 gramas isto é X N500 102 Sabemos também que às vezes a máquina desregulase e quando isso acontece o único parâmetro que se altera é a média permanecendo a mesma variância Para manter a produção sob controle iremos colher uma amostra de 100 pacotes e pesálos Como essa amostra nos ajudará a tomar uma decisão Parece razoável nesse caso usarmos a média x da amostra como informação pertinente para uma decisão Mesmo que a máquina esteja regulada dificilmente x será igual a 500 gramas dado que os pacotes apresentam certa variabilidade no peso Mas se x não se afastar muito de 500 gramas não existirão razões para suspeitarmos da qualidade do procedimento de produção Só iremos pedir uma revisão se x 500 em valor absoluto for muito grande O problema que se apresenta agora é o de decidir o que é próximo ou distante de 500 gramas Se o mesmo procedimento de colher a amostra de 100 pacotes fosse repetido um número muito grande de vezes sob a condição de a máquina estar regulada teríamos ideia do comportamento da va x e saberíamos dizer se aquele valor observado é ou não um evento raro de ocorrer Caso o seja é mais fácil suspeitar da regulagem da máquina do que do acaso Vemos então a importância nesse caso de se conhecer as propriedades da distribuição da variável x Exemplo 106 continuação A descrição matemática da va Y tempo de reação ao estímulo é um pouco mais complexa Podemos supor que esse tempo para uma dada idade x seja uma va com distribuição normal com média dependendo da idade x ou seja podemos escrever Y Nµx σ2 A linearidade expressa no problema pode ser incluída na média µx da seguinte maneira µx α βx Voltaremos a esse modelo no Capítulo 16 Outra maneira de escrever as duas relações anteriores é Y x Nα βx σ2 Leiase Y dado x Podemos por exemplo estimar os parâmetros α e β baseados na amostra de 20 dados Ou podemos querer investigar a possibilidade de β ser igual a zero significando que a idade não afeta o tempo de reação Novamente os dois principais problemas de inferência aparecem aqui estimação e teste de uma hipótese Um outro problema importante em inferência é o de previsão Por exemplo considerando um grupo de pessoas de 40 anos poderemos prever com o modelo acima qual será o respectivo tempo de reação Repetir um mesmo experimento muitas vezes sob as mesmas condições nem sempre é possível mas em determinadas condições é possível determinar teoricamente o comportamento de algumas medidas feitas na amostra como por exemplo a média Mas isso depende em grande parte do procedimento plano adotado para selecionar a amostra Assim em problemas envolvendo amostras antes de tomarmos uma decisão teríamos de responder a quatro perguntas a Qual a população a ser amostrada b Como obter os dados a amostra c Que informações pertinentes estatísticas serão retiradas da amostra d Como se comportam as estatísticas quando o mesmo procedimento de escolher a amostra é usado numa população conhecida Nas seções e capítulos subsequentes tentaremos responder a essas perguntas 104 Como Selecionar uma Amostra As observações contidas em uma amostra são tanto mais informativas sobre a população quanto mais conhecimento explícito ou implícito tivermos dessa mesma população Por exemplo a análise da quantidade de glóbulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente dará uma ideia geral da quantidade dos glóbulos brancos no corpo todo pois sabese que a distribuição dos glóbulos brancos é homogênea e de qualquer lugar que se tivesse retirado a amostra ela seria representativa Mas nem sempre a escolha de uma amostra adequada é imediata Voltando ao Exemplo 102 para o qual queríamos obter uma amostra de habitantes para saber a opinião sobre um projeto governamental escolhendo intencionalmente uma amostra de 200 indivíduos moradores de certa região beneficiada pelo projeto saberemos de antemão que o resultado conterá um viés de seleção Isto é na amostra a proporção de pessoas favoráveis ao projeto deverá ser maior do que no todo donde a importância da adoção de procedimentos científicos que permitam fazer inferências adequadas sobre a população A maneira de se obter a amostra é tão importante e existem tantos modos de fazêlo que esses procedimentos constituem especialidades dentro da Estatística sendo Amostragem e Planejamento de Experimentos as duas mais conhecidas Poderíamos dividir os procedimentos científicos de obtenção de dados amostrais em três grandes grupos a Levantamentos Amostrais nos quais a amostra é obtida de uma população bem definida por meio de processos bem protocolados e controlados pelo pesquisador Podemos ainda subdividilos em dois subgrupos levantamentos probabilísticos e não probabilísticos O primeiro reúne todas aquelas técnicas que usam mecanismos aleatórios de seleção dos elementos de uma amostra atribuindo a cada um deles uma probabilidade conhecida a priori de pertencer à amostra No segundo grupo estão os demais procedimentos tais como amostras intencionais nas quais os elementos são selecionados com o auxílio de especialistas e amostras de voluntários como ocorre em alguns testes sobre novos medicamentos e vacinas Ambos os procedimentos têm suas vantagens e desvantagens A grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida baseandose no resultado contido na própria amostra Tais medidas já são bem mais difíceis para os procedimentos do segundo grupo Estão nessa situação os Exemplos 101 conhecer os salários da Cia MB 102 identificar a proporção de indivíduos favoráveis ao projeto 104 pesos dos pacotes de café etc b Planejamento de Experimentos cujo principal objetivo é o de analisar o efeito de uma variável sobre outra Requer portanto interferências do pesquisador sobre o ambiente em estudo população bem como o controle de fatores externos com o intuito de medir o efeito desejado Podemos citar como exemplos aquele já citado sobre a altura de um produto na gôndola de um supermercado afetar as vendas e o Exemplo 106 Em ensaios clínicos em medicina esse tipo de estudo é bastante usado como por exemplo para testar se um novo medicamento é eficaz ou não para curar certa doença c Levantamentos Observacionais nos quais os dados são coletados sem que o pesquisador tenha controle sobre as informações obtidas exceto eventualmente sobre possíveis erros grosseiros As séries de dados temporais são exemplos típicos desses levantamentos Por exemplo queremos prever as vendas de uma empresa em função de vendas passadas O pesquisador não pode selecionar dados esses são as vendas efetivamente ocorridas Nesses casos a especificação de um modelo desempenha um papel crucial na ligação entre dados e população No caso de uma série temporal o modelo subjacente é o de processo estocástico podemos pensar que a série efetivamente observada é uma das infinitas possíveis realizações desse processo A população hipotética aqui seria o conjunto de todas essas realizações e a série observada seria a amostra Veja Morettin e Toloi 2006 para mais informações Neste livro iremos nos concentrar principalmente em levantamentos amostrais e mais ainda num caso simples de amostragem probabilística a amostragem aleatória simples com reposição a ser designada por AAS O leitor poderá consultar Bussab e Bolfarine 2005 para obter mais detalhes sobre outros procedimentos amostrais Um breve resumo sobre alguns planos é dado no Problema 37 Noções sobre planejamento de experimentos podem ser vistas em Peres e Saldiva 1982 Problemas 1 Dê sua opinião sobre os tipos de problemas que surgiriam nos seguintes planos amostrais a Para investigar a proporção dos operários de uma fábrica favoráveis à mudança do início das atividades das 7h para as 7h30 decidiuse entrevistar os 30 primeiros operários que chegassem à fábrica na quartafeira b Mesmo procedimento só que o objetivo é estimar a altura média dos operários c Para estimar a porcentagem média da receita municipal investida em lazer enviaram se questionários a todas as prefeituras e a amostra foi formada pelas prefeituras que enviaram as respostas d Para verificar o fato de oferecer brindes nas vendas de sabão em pó tomaramse quatro supermercados na zona sul e quatro na zona norte de uma cidade Nas quatro lojas da zona sul o produto era vendido com brinde enquanto nas outras quatro era vendido sem brinde No fim do mês compararamse as vendas da zona sul com as da zona norte 2 Refazer o Problema 7 do Capítulo 8 105 Amostragem Aleatória Simples A amostragem aleatória simples é a maneira mais fácil para selecionarmos uma amostra probabilística de uma população Além disso o conhecimento adquirido com esse procedimento servirá de base para o aprendizado e desenvolvimento de outros procedimentos amostrais planejamento de experimentos estudos observacionais etc Comecemos introduzindo o conceito de AAS de uma população finita para a qual temos uma listagem de todas as N unidades elementares Podemos obter uma amostra nessas condições escrevendo cada elemento da população num cartão misturandoos numa urna e sorteando tantos cartões quantos desejarmos na amostra Esse procedimento tornase inviável quando a população é muito grande Nesse caso usase um processo alternativo no qual os elementos são numerados e em seguida sorteados por meio de uma tabela de números aleatórios veja a sua utilização em Problemas e Complementos ou por meio do uso de computadores que podem gerar números aleatórios veja o Capítulo 9 Utilizandose um procedimento aleatório sorteiase um elemento da população sendo que todos os elementos têm a mesma probabilidade de ser selecionados Repetese o procedimento até que sejam sorteadas as n unidades da amostra Podemos ter uma AAS com reposição se for permitido que uma unidade possa ser sorteada mais de uma vez e sem reposição se a unidade sorteada for removida da população Do ponto de vista da quantidade de informação contida na amostra amostrar sem reposição é mais adequado Contudo a amostragem com reposição conduz a um tratamento teórico mais simples pois ela implica que tenhamos independência entre as unidades selecionadas Essa independência facilita o desenvolvimento das propriedades dos estimadores que serão considerados Portanto para o restante do livro o plano amostral considerado será o de amostragem aleatória simples com reposição que denotaremos simplesmente por AAS Vejamos com algum detalhe o significado mais preciso de uma amostra Exemplo 107 Considere o Problema 2 acima em que colhemos todas as amostras possíveis de tamanho 2 com reposição da população 1 3 5 5 7 Defina a variável X valor assumido pelo elemento na população Então a distribuição de X é dada pela Tabela 101 Tabela 101 Distribuição da va X para o Problema 2 x 1 3 5 7 PX x 15 15 25 15 Indicando por X1 o número selecionado na primeira extração e por X2 o número selecionado na segunda extração vimos que era possível escrever a distribuição conjunta do par X1 X2 Veja também a Tabela 102 Além disso as distribuições marginais de X1 e X2 são independentes e iguais à distribuição de X Desse modo cada uma das 25 possíveis amostras de tamanho 2 que podemos extrair dessa população corresponde a observar uma particular realização da va X1 X2 com X1 e X2 independentes e PX1 x PX2 x PX x para todo x Essa é a caracterização de amostra casual simples que iremos usar neste livro Definição Uma amostra aleatória simples de tamanho n de uma variável aleatória X com dada distribuição é o conjunto de n variáveis aleatórias independentes X1 X2 Xn cada uma com a mesma distribuição de X Ou seja a amostra será a nupla ordenada X1 X2 Xn em que Xi indica a observação do iésimo elemento sorteado Quando a população é caracterizada por uma distribuição de probabilidades o modo mais simples para sortear uma AAS é usar os procedimentos de simulação estudados no Capítulo 9 O processo de simular uma observação de uma distribuição especificada por seus parâmetros nada mais é do que retirar uma AAS de tamanho um da população Desse modo para retirar uma AAS com reposição de n indivíduos da população X basta gerar n números aleatórios independentes dessa distribuição Exemplo 108 Vamos retirar uma AAS de 5 alturas em cm de uma população de mulheres cujas alturas X seguem a distribuição N167 25 Usandose por exemplo o gerador de números aleatórios do Excel fornecendo os parâmetros µ 167 e σ 5 além do tamanho da amostra n 5 obtemos os valores x1 165 x2 161 x3 168 x4 173 x5 173 Note que se você for gerar uma tal amostra poderá obter valores diferentes desses Observe também que o primeiro elemento a ser observado pode ser qualquer valor da população simulada N167 25 Desse modo indicando por X1 o valor observado na primeira extração concluímos que X1 N167 25 Como a geração do segundo número aleatório é feita independentemente do segundo resulta que a va X2 valor observado na segunda extração também segue uma distribuição N167 25 e assim por diante Diante do exposto vemos que continua válida a definição de AAS dada acima quando a amostra é retirada de uma população referenciada pela sua distribuição de probabilidades No caso de uma população X contínua com fdp f x a fdp conjunta da amostra X1 X2 Xn segundo o que vimos no Capítulo 8 será dada por fx1 x2 xn f1x1 f2x2 fnxn em que fixi denota a distribuição marginal de Xi i 1 n Antes de prosseguirmos seria interessante fazer uma comparação da inferência estatística com o processo de simulação da população Podemos imaginar que qualquer característica X de interesse seja produzida por um programa modelo de gerador de números aleatórios e que somente o proprietário natureza desse programa é que conhece a forma da distribuição de X os valores dos parâmetros etc relacionados ao programa Quando obtemos a amostra estamos apenas observando o resultado da simulação não conhecemos nada do processo gerador dos dados O objetivo da inferência estatística é fornecer critérios para nos ajudar a descobrir a forma da distribuição eou parâmetros usados pelo proprietário Bons indicadores desses valores nos ajudam a entender melhor os fenômenos e fazer previsões para futuras observações Daqui para frente a menos que esteja especificada de outra maneira sempre que mencionarmos a palavra amostra estaremos entendendo a amostra obtida pelo processo probabilístico AAS ou seja o vetor aleatório X1 X2 Xn definido acima Problemas 3 A distribuição do número de filhos por família de uma zona rural está no quadro abaixo Nº de filhos Porcentagem 0 10 1 20 2 30 3 25 4 15 Total 100 a Sugira um procedimento para sortear uma observação ao acaso dessa população b Dê na forma de uma tabela de dupla entrada as possíveis amostras do número de filhos de duas famílias que podem ser sorteadas e as respectivas probabilidades de ocorrência c Se fosse escolhida uma amostra de tamanho 4 qual seria a probabilidade de se observar a quádrupla ordenada 2 3 3 1 106 Estatísticas e Parâmetros Obtida uma amostra muitas vezes desejamos usála para produzir alguma característica específica Por exemplo se quisermos calcular a média da amostra X1 X2 Xn esta será dada por É fácil verificar que X é também uma variável aleatória Podemos também estar interessados em qualquer outra característica da amostra que será sempre uma função do vetor aleatório X1 Xn Definição Uma estatística é uma característica da amostra ou seja uma estatística T é uma função de X1 X2 Xn As estatísticas mais comuns são Em geral como já vimos no Capítulo 3 podemos considerar as estatísticas de ordem X1 X2 Xn ou seja os elementos da amostra ordenados Outras estatísticas importantes são os quantis empíricos qp 0 p 1 definidos no Capítulo 3 especialmente os três quartis q1 q2 e q3 Para facilitar a linguagem usada em Inferência Estatística iremos diferenciar as características da amostra e da população Definição Um parâmetro é uma medida usada para descrever uma característica da população Assim se estivermos colhendo amostras de uma população identificada pela va X seriam parâmetros a média EX e sua variância VarX Os símbolos mais comuns são dados na tabela a seguir elementos sorteados dessa população Nossa decisão será baseada na estatística T que será uma função da amostra X1 X2 Xn ou seja T f X1 Xn Colhida essa amostra teremos observado um particular valor de T digamos t0 e baseados nesse valor é que faremos a afirmação sobre q o parâmetro populacional Veja a Figura 101 a A validade da nossa resposta seria melhor compreendida se soubéssemos o que acontece com a estatística T quando retiramos todas as amostras de uma população conhecida segundo o plano amostral adotado Isto é qual a distribuição de T quando X1 Xn assume todos os valores possíveis Essa distribuição é chamada distribuição amostral da estatística T e desempenha papel fundamental na teoria da inferência estatística Esquematicamente teríamos o procedimento representado na Figura 101 em que temos a uma população X0 com determinado parâmetro de interesse θ b todas as amostras retiradas da população de acordo com certo procedimento c para cada amostra calculamos o valor t da estatística T e d os valores t formam uma nova população cuja distribuição recebe o nome de distribuição amostral de T Vejamos alguns exemplos simples para aclarar um pouco mais o conceito de distribuição amostral de uma estatística Nosso principal objetivo é identificar um modelo que explique bem a distribuição amostral de T É evidente que a distribuição de T irá depender da distribuição de X e do plano amostral em nosso caso reduzido a AAS Exemplo 109 Voltemos ao Exemplo 107 no qual selecionamos todas as amostras de tamanho 2 com reposição da população 1 3 5 5 7 A distribuição conjunta da variável bidimensional X1 X2 é dada na Tabela 102 Vejamos qual é a distribuição da estatística 101 Essa distribuição é obtida por meio da Tabela 102 Por exemplo quando a amostra selecionada é o par 1 1 a média será 1 então temos que P X 1 125 Obteremos a média igual a 3 quando ocorrer o evento A 1 53 35 1 logo Tabela 102 Distribuição das probabilidades das possíveis amostras de tamanho 2 que podem ser selecionadas com reposição da população 1 3 5 5 7 w 0 2 4 6 Total PW w 725 1025 625 225 100 Tabela 105 Distribuição amostral de S2 s2 0 2 8 18 Total PS2 s2 725 1025 625 225 100 Exemplo 105 continuação No caso do lançamento de uma moeda 50 vezes usando como estatística X número de caras obtidas a obtenção da distribuição amostral que já foi vista é feita por meio do modelo binomial b50 p qualquer que seja p probabilidade de ocorrência de cara num lançamento 0 p 1 Se estivermos interessados em julgar a honestidade da moeda estaremos verificando se p 05 Nessas condições a PX 36n 50 p 05 00013 013 Portanto caso a moeda seja honesta em 50 lançamentos a probabilidade de se obterem 36 ou mais caras é da ordem de 1 por 1000 Ou seja se a moeda fosse honesta o resultado observado 36 caras seria muito pouco provável evidenciando que p 05 Comparando os dois últimos exemplos vemos que nos interessa determinar propriedades das distribuições amostrais que possam ser aplicadas em situações mais gerais como no caso binomial e não em situações muito particulares como no Exemplo 107 Iremos agora estudar as distribuições amostrais de algumas estatísticas importantes Nos capítulos seguintes essas distribuições serão usadas para fazer inferências sobre populações Quando estivermos trabalhando com populações identificadas pela distribuição de probabilidades não poderemos gerar todas as amostras possíveis Devemos contentarnos em simular um número grande de amostras e ter uma ideia do que acontece com a estatística de interesse Exemplo 108 continuação Qual seria a distribuição amostral da mediana das alturas de amostras de 5 mulheres retiradas da população X N167 25 Como não podemos gerar todas as possíveis amostras de tamanho 5 dessa população simulamos via Excel 200 amostras de tamanho 5 e obtivemos os seguintes resultados Emd 16688 Varmd 74289 dpmd 272 x1 minX1 X200 160 x200 max X1 X200 173 Observando os resultados somos levados a pensar que a distribuição amostral de md deve ser próxima de uma normal com média próxima de µ 167 e desvio padrão menor do que σ 5 Veja a Figura 103 Voltaremos a falar na distribuição da mediana amostral em seções futuras Figura 103 Distribuição amostral da mediana obtida de 200 amostras de tamanho 5 de X N 167 25 Problemas 4 Usando os dados da Tabela 102 construa a distribuição amostral da estatística 5 No Problema 3 se X indicar o número de filhos na população X1 o número de filhos observados na primeira extração e X2 na segunda a calcule a média e a variância de X b calcule EXi e VarXi i 1 2 c construa a distribuição amostral de d calcule EX e VarX e faça num mesmo gráfico os histogramas de X e de X f construa as distribuições amostrais de g baseado no resultado de f qual dos dois estimadores você usaria para estimar a variância de X Por quê h calcule PX µ 1 6 Ainda com os dados do Problema 3 e para amostras de tamanho 3 a determine a distribuição amostral de X e faça o histograma b calcule a média e variância de X c calcule PX µ 1 d se as amostras fossem de tamanho 4 a PX µ 1 seria maior ou menor do que a probabilidade encontrada em c Por quê 108 Distribuição Amostral da Média Vamos estudar agora a distribuição amostral da estatística X a média da amostra Consideremos uma população identificada pela variável X cujos parâmetros média populacional µ EX e variância populacional σ2 VarX são supostos conhecidos Vamos retirar todas as possíveis AAS de tamanho n dessa população e para cada uma calcular a média X Em seguida consideremos a distribuição amostral e estudemos suas propriedades Voltemos a considerar a título de ilustração o Exemplo 107 Exemplo 1010 A população 1 3 5 5 7 tem média µ 42 e variância σ2 416 A distribuição amostral de X está na Tabela 103 da qual obtemos De modo análogo encontramos VarX 208 Verificamos aqui dois fatos primeiro a média das médias amostrais coincide com a média populacional segundo a variância de X é igual à variância de X dividida por n 2 Estes dois fatos não são casos isolados Na realidade temos o seguinte resultado Teorema 101 Seja X uma va com média µ e variância σ2 e seja X1 Xn uma AAS de X Então Prova Pelas propriedades vistas no Capítulo 8 temos E X 1n EX1 EXn 1n µ µ µ nµn µ De modo análogo e pelo fato de X1 Xn serem independentes temos Var X 1n2 VarX1 VarXn 1n2 σ2 σ2 nσ2n2 σ2n Determinamos então a média e a variância da distribuição amostral de X Vejamos agora como obter informação sobre a forma da distribuição dessa estatística Exemplo 1010 continuação Para a população 1 3 5 5 7 vamos construir os histogramas das distribuições de X para n 1 2 e 3 i Para n 1 vemos que a distribuição de X coincide com a distribuição de X com EX EX 42 e VarX VarX 416 Figura 104a Figura 104 Distribuição de X para amostras de 1 3 5 5 7 ii Para n 2 baseados na Tabela 103 temos a distribuição de X dada na Figura 104b com EX 42 e VarX 208 iii Finalmente para n 3 com os dados da Tabela 106 temos a distribuição de X na Figura 104 c com EX 42 e VarX 139 Observe que conforme n vai aumentando o histograma tende a se concentrar cada vez mais em torno de EX EX 42 já que a variância vai diminuindo Os casos extremos passam a ter pequena probabilidade de ocorrência Quando n for suficientemente grande o histograma alisado aproximase de uma distribuição normal Essa aproximação pode ser verificada analisandose os gráficos da Figura 105 que mostram o comportamento do histograma de X para várias formas da distribuição da população e vários valores do tamanho da amostra n Esses exemplos sugerem que quando o tamanho da amostra aumenta independentemente da forma da distribuição da população a distribuição amostral de X aproximase cada vez mais de uma distribuição normal Esse resultado fundamental na teoria da Inferência Estatística é conhecido como Teorema Limite Central TLC Figura 105 Histogramas correspondentes às distribuições amostrais de X para amostras extraídas de algumas populações Teorema 102 TLC Para amostras aleatórias simples X1 Xn retiradas de uma população com média µ e variância σ2 finita a distribuição amostral da média X aproximase para n grande de uma distribuição normal com média µ e variância σ2n A demonstração completa desse teorema exigiria recursos dos quais não dispomos portanto não será dada mas o importante é sabermos como esse resultado pode ser usado Observemos que se a população for normal então X terá distribuição exata normal Esse resultado segue do fato de que a distribuição de uma combinação linear de vas normais independentes tem ainda distribuição normal No caso da X a média e variância dessa normal serão dadas pelo Teorema 101 A prova dessa propriedade depende do conceito de função geradora de momentos que não será objeto deste livro O leitor interessado pode consultar Meyer 1965 por exemplo Exemplo 1011 Voltemos ao Exemplo 104 em que uma máquina enchia pacotes cujos pesos seguiam uma distribuição N500 100 Colhendose um amostra de n 100 pacotes e pesandoos pelo que foi dito acima X terá uma distribuição normal com média 500 e variância 100100 1 Logo se a máquina estiver regulada a probabilidade de encontrarmos a média de 100 pacotes diferindo de 500 g de menos de 2 gramas será PX 500 2 P498 X 502 P2 Z 2 95 Ou seja dificilmente 100 pacotes terão uma média fora do intervalo 498 502 Caso 100 pacotes apresentem uma média fora desse intervalo podemos considerar como um evento raro e será razoável supor que a máquina esteja desregulada Outra maneira de apresentar o TLC é por meio do Corolário 101 Se X1 Xn for uma amostra aleatória simples da população X com média µ e variância σ2 finita e X X1 Xnn então 102 Basta notar que se usou a transformação usual de reduzir a distribuição de X a uma normal padrão Observe também que 102 pode ser escrita como 103 Chamemos de e a va que mede a diferença entre a estatística X e o parâmetro µ isto é e X µ e é chamado o erro amostral da média Então temos o Corolário 102 A distribuição de e aproximase de uma distribuição normal com média 0 e variância σ2n isto é 104 O TLC afirma que X aproximase de uma normal quando n tende para o infinito e a rapidez dessa convergência veja a Figura 105 depende da distribuição da população da qual a amostra é retirada Se a população original tem uma distribuição próxima da normal a convergência é rápida se a população original se afasta muito de uma normal a convergência é mais lenta ou seja necessitamos de uma amostra maior para que X tenha uma distribuição aproximadamente normal Para amostras da ordem de 30 ou 50 elementos a aproximação pode ser considerada boa Problemas 7 Uma va X tem distribuição normal com média 100 e desvio padrão 10 a Qual a P90 X 110 b Se X for a média de uma amostra de 16 elementos retirados dessa população calcule P90 X 110 c Represente num único gráfico as distribuições de X e X d Que tamanho deveria ter a amostra para que P90 X 110 095 8 A máquina de empacotar um determinado produto o faz segundo uma distribuição normal com média µ e desvio padrão 10 g a Em quanto deve ser regulado o peso médio µ para que apenas 10 dos pacotes tenham menos do que 500 g b Com a máquina assim regulada qual a probabilidade de que o peso total de 4 pacotes escolhidos ao acaso seja inferior a 2 kg 9 No exemplo anterior e após a máquina estar regulada programouse uma carta de controle de qualidade De hora em hora será retirada uma amostra de quatro pacotes os quais serão pesados Se a média da amostra for inferior a 495 g ou superior a 520 g encerrase a produção para reajustar a máquina isto é reajustar o peso médio a Qual é a probabilidade de ser feita uma parada desnecessária b Se o peso médio da máquina desregulouse para 500 g qual é a probabilidade de continuar a produção fora dos padrões desejados 10 A capacidade máxima de um elevador é de 500 kg Se a distribuição X dos pesos dos usuários for suposta N70 100 a Qual é a probabilidade de sete passageiros ultrapassarem esse limite b E seis passageiros 109 Distribuição Amostral de uma Proporção Vamos considerar uma população em que a proporção de elementos portadores de certa característica é p Logo podemos definir uma va X da seguinte maneira logo µ EX p σ2 VarX p1 p Retirada uma AAS dessa população e indicando por Yn o total de indivíduos portadores da característica na amostra já vimos que Yn bn p Vamos definir por a proporção de indivíduos portadores da característica na amostra isto é Então PYn k PYnn kn P kn ou seja a distribuição amostral de é obtida da distribuição de Yn Vimos na Seção 75 que a distribuição binomial pode ser aproximada pela distribuição normal Vamos mostrar que a justificativa desse fato está no TLC Inicialmente observe que Yn X1 X2 Xn em que cada Xi tem distribuição de Bernoulli com média µ p e variância σ2 p1 p e são duas a duas independentes Podemos escrever que Yn n X mas pelo TLC X terá distribuição aproximadamente normal com média p e variância ou seja Logo a transformação Yn n X terá a distribuição Yn Nnp np1 p que foi a aproximação adotada na Seção 75 Observe que X na expressão acima é a própria variável e desse modo para n grande podemos considerar a distribuição amostral de p como aproximadamente normal Exemplo 1012 Suponha que p 30 dos estudantes de uma escola sejam mulheres Colhemos uma AAS de n 10 estudantes e calculamos proporção de mulheres na amostra Qual a probabilidade de que difira de p em menos de 001 Temos que essa probabilidade é dada por P p 001 P001 p 001 Mas e como p 03 temos que Var 0 30 710 0021 e portanto a probabilidade pedida é igual a Problemas 11 Sabese que 20 das peças de um lote são defeituosas Sorteiamse oito peças com reposição e calculase a proporção p de peças defeituosas na amostra a Construa a distribuição exata de p use a tábua da distribuição binomial b Construa a aproximação normal à binomial c Você pensa que a segunda distribuição é uma boa aproximação da primeira d Já sabemos que para dado p fixo a aproximação melhora conforme n aumenta Agora se n for fixo para qual valor de p a aproximação é melhor 12 Um procedimento de controle de qualidade foi planejado para garantir um máximo de 10 de itens defeituosos na produção A cada 6 horas sorteiase uma amostra de 20 peças e havendo mais de 15 de defeituosas encerrase a produção para verificação do processo Qual a probabilidade de uma parada desnecessária 13 Supondo que a produção do exemplo anterior esteja sob controle isto é p 10 e que os itens sejam vendidos em caixas com 100 unidades qual a probabilidade de que uma caixa a tenha mais do que 10 de defeituosos b não tenha itens defeituosos 1010 Outras Distribuições Amostrais Do mesmo modo que estudamos a distribuição amostral de X podemos em princípio estudar a distribuição amostral de qualquer estatística T fX1 Xn Mas quanto mais complexa for essa relação f mais difícil será a derivação matemática das propriedades dessa estatística Vejamos alguns exemplos Exemplo 1013 Na Tabela 106 apresentamos a distribuição de três outras estatísticas a variância da amostra a mediana amostral md e o estimador que difere de S2 apenas no denominador e que foi estudado no Capítulo 3 Desta tabela obtemos as distribuições amostrais apresentadas nas Tabelas 107 108 e 109 Tabela 106 Distribuição amostral de algumas estatísticas obtidas de amostra de tamanho n 3 retiradas da população 1 3 5 5 7 µ 42 σ2 416 e Md 5 Tipo de amostra Frequência prob 125 Soma Soma dos quadrados Média x Mediana md Variância s2 2 111 1 3 3 100 1 0 0 113 3 5 11 167 1 43 89 115 6 7 27 233 1 163 329 117 3 9 51 300 1 12 8 133 3 7 19 233 3 43 89 135 12 9 35 300 3 4 83 137 6 11 59 367 3 283 569 155 12 11 51 367 5 163 329 157 12 13 75 433 5 283 569 177 3 15 99 500 7 12 8 333 1 9 27 300 3 0 0 335 6 11 43 367 3 43 89 337 3 13 67 433 3 163 329 355 12 13 59 433 5 43 89 357 12 15 83 500 5 4 83 377 3 17 107 567 7 163 329 555 8 15 75 500 5 0 0 557 12 17 99 567 5 43 89 577 6 19 123 633 7 43 89 777 1 21 147 700 7 0 0 Total 125 Tabela 107 Distribuição amostral da variância S2 para amostras de tamanho 3 retiradas da população 1 3 5 5 7 s2 000 133 400 533 933 1200 PS2 s2 11125 42125 24125 24125 18125 6125 ES2 416 VarS2 1128 Tabela 108 Distribuição amostral da mediana da amostra md para amostras de tamanho 3 retiradas da população 1 3 5 5 7 md 1 3 5 7 Prob 13125 31125 68125 13125 Emd 430 Varmd 254 Tabela 109 Distribuição amostral da variância 2 para amostras de tamanho 3 retiradas da população 1 3 5 5 7 σ² 000 089 267 356 622 800 Prob 11125 42125 24125 24125 18125 6125 Figura 108 Distribuição amostral de σ2 para amostras de tamanho n 3 extraídas de 1 3 5 5 7 Problemas 14 Usando os dados da Tabela 102 a construa a distribuição amostral de 2 e compare com a distribuição amostral de S2 Tabela 105 Você notou alguma propriedade de S2 que seja melhor do que de 2 b seja U a média de elementos distintos de amostras de tamanho n 3 Por exemplo se a amostra observada for 1 1 3 então u 1 32 2 Construa a distribuição amostral de U c compare as distribuições amostrais de U e X 15 Na tabela abaixo temse a distribuição dos salários da Secretaria A Classes de salários Frequência relativa 45 75 010 75 105 020 105 135 040 135 165 020 165 195 010 a Calcule a média a variância e a mediana dos salários nessa população b Construa a distribuição amostral da média e da mediana para amostras de tamanho 2 retiradas dessa população c Mostre que a média X e a mediana md da amostra são estimadores não viesados da mediana Md da população no sentido que EX Emd Md d Qual dos dois estimadores não viesados você usaria para estimar Md nesse caso Por quê e Baseado na distribuição amostral da média encontre a distribuição amostral da estatística para n 2 f Quais são os valores de EZ e VarZ g Construa a distribuição amostral da estatística e faça o seu histograma h Calcule a média e variância de S2 i Baseandose nas distribuições amostrais anteriores determine a distribuição amostral da estatística e construa seu histograma Qual é o problema encontrado j Calcule a média e variância de t quando possível k Calcule a Pt 2 e Pt 430 16 Tente esboçar como ficariam os histogramas das estatísticas abaixo para amostras de tamanho grande a S2 faça o histograma da distribuição da Tabela 105 b Veja o Teorema Limite Central c definida no problema anterior compare com a expressão e o resultado obtido em b 1011 Determinação do Tamanho de uma Amostra Em nossas considerações anteriores fizemos a suposição que o tamanho da amostra n era conhecido e fixo Podemos em certas ocasiões querer determinar o tamanho da amostra a ser escolhida de uma população de modo a obter um erro de estimação previamente estipulado com determinado grau de confiança Por exemplo suponha que estejamos estimando a média µ populacional e para tanto usaremos a média amostral X baseada numa amostra de tamanho n Suponha que se queira determinar o valor de n de modo que 105 com 0 γ 1 e ε é o erro amostral máximo que podemos suportar ambos valores fixados Sabemos que X Nµ σ2n logo X µ N0 σ2n e portanto 105 pode ser escrita com Dado γ podemos obter zγ da N01 tal que Pzγ Z zγ γ de modo que do que obtemos finalmente 106 Note que em 106 conhecemos zγ e ε mas σ2 é a variância desconhecida da população Para podermos ter uma ideia sobre n devemos ter alguma informação prévia sobre σ2 ou então usar uma pequena amostra piloto para estimar σ2 Exemplo 1013 continuação Suponha que uma pequena amostra piloto de n 10 extraída de uma população forneceu os valores X 15 e S2 16 Fixandose ε 05 e γ 095 temos No caso de proporções usando a aproximação normal da Seção 109 para é fácil ver que 106 resulta 107 Como não conhecemos p a verdadeira proporção populacional podemos usar o fato de que p1 p 14 para todo p e 107 fica 108 Por outro lado se tivermos alguma informação sobre p ou pudermos estimálo usando uma amostra piloto basta substituir esse valor estimado em 107 Exemplo 1014 Suponha que numa pesquisa de mercado estimase que no mínimo 60 das pessoas entrevistadas preferirão a marca A de um produto Essa informação é baseada em pesquisas anteriores Se quisermos que o erro amostral de seja menor do que ε 003 com probabilidade γ 095 teremos na qual usamos o fato de que p 060 Veja também os Problemas 19 20 e 41 Problemas 17 Suponha que uma indústria farmacêutica deseja saber a quantos voluntários se deva aplicar uma vacina de modo que a proporção de indivíduos imunizados na amostra difira de menos de 2 da proporção verdadeira de imunizados na população com probabilidade 90 Qual o tamanho da amostra a escolher Use 108 18 No problema anterior suponha que a indústria tenha a informação de que a proporção de imunizados pela vacina seja p 080 Qual o novo tamanho de amostra a escolher Houve redução 19 Seja o tamanho de amostra dado por 107 e n0 dado por 108 Prove que para todo p temos n n0 Use a função fp p1 p para sua resposta 20 Suponha que haja a informação p p0 05 com p0 conhecida Se mostre que n n1 n0 Mostre que essa mesma relação vale se soubermos que p p0 05 Sugestão note que fp p1 p é crescente em 0 05 atinge o máximo em 05 e depois é decrescente em 05 1 1012 Exemplos Computacionais Vimos no Exemplo 107 como escolher todas as possíveis amostras de tamanho n 2 com reposição da população 1 3 5 5 7 Obtemos 52 25 amostras Como já salientamos em seções anteriores ao escolher uma amostra de uma população estamos na realidade gerando valores de uma va com determinada distribuição de probabilidades supostamente conhecida No exemplo podemos pensar na va X assumindo os valores x1 1 x2 3 x3 5 x4 5 x5 7 com probabilidades todas iguais a 02 Portanto para escolher uma amostra de tamanho n 2 basta gerar dois valores dessa distribuição como aprendemos no Capítulo 9 Os programas Excel SPlus Minitab e R têm comandos apropriados para gerar amostras de uma população especificada Exemplo 1015 O Excel usa a opção Amostragem dentro de Análise de Dados do menu Ferramentas Na coluna G do quadro do Exemplo 95 temos uma amostra aleatória simples com reposição de tamanho n 5 da população P 1 2 10 que está na coluna F Exemplo 1016 O R e o SPlus usam o comando samplexn para gerar uma amostra sem reposição de tamanho n do conjunto x e o comando samplexnreplaceT para gerar uma amostra com reposição O Quadro 101 mostra como obter amostras de tamanho n 7 do conjunto x 1 2 3 15 sem e com reposição Quadro 101 Geração de amostras R e SPlus xc 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 sample x 7 1 6 7 4 2 3 10 5 sample x 7 replaceT 1 12 14 11 10 15 4 11 Exemplo 1017 O Minitab usa os comandos Sample e Replace para obter amostras Temos no Quadro 102 amostras de tamanho n 5 obtidas do conjunto 1 2 10 na coluna C1 Na coluna C2 temos uma amostra sem reposição e na coluna C3 uma amostra com reposição Quadro 102 Geração de amostras Minitab C1 C2 C3 1 1 10 8 2 2 1 3 3 3 8 8 MTB Sample 5 C1 C2 4 4 2 6 MTB 5 5 7 4 MTB Sample 5 C1 C3 6 6 SUBC Replace 7 7 MTB 8 8 9 9 10 10 1013 Problemas Suplementares 21 Uma va X tem distribuição normal com média 10 e desvio padrão 4 Aos participantes de um jogo é permitido observar uma amostra de qualquer tamanho e calcular a média amostral Ganha um prêmio aquele cuja média amostral for maior que 12 a Se um participante escolher uma amostra de tamanho 16 qual é a probabilidade de ele ganhar um prêmio b Escolha um tamanho de amostra diferente de 16 para participar do jogo Qual é a probabilidade de você ganhar um prêmio c Baseado nos resultados acima qual o melhor tamanho de amostra para participar do jogo 22 Se uma amostra com 36 observações for tomada de uma população qual deve ser o tamanho de uma outra amostra para que o desvio padrão dessa amostra seja 23 do desvio padrão da média da primeira 23 Definimos a variável e X µ como sendo o erro amostral de média Suponha que a variância dos salários de uma certa região seja 400 reais2 a Determine a média e a variância de e b Que proporção das amostras de tamanho 25 terão erro amostral absoluto maior do que 2 reais c E qual a proporção das amostras de tamanho 100 d Nesse último caso qual o valor de d tal que Pe d 1 e Qual deve ser o tamanho da amostra para que 95 dos erros amostrais absolutos sejam inferiores a um real 24 A distribuição dos comprimentos dos elos da corrente de bicicleta é normal com média 2 cm e variância 001 cm2 Para que uma corrente se ajuste à bicicleta deve ter comprimento total entre 58 e 61 cm a Qual é a probabilidade de uma corrente com 30 elos não se ajustar à bicicleta b E para uma corrente com 29 elos Observação suponha que os elos sejam selecionados ao acaso para compor a corrente de modo que se tenha independência 25 Cada seção usada para a construção de um oleoduto tem um comprimento médio de 5 m e desvio padrão de 20 cm O comprimento total do oleoduto será de 8 km a Se a firma construtora do oleoduto encomendar 1600 seções qual é a probabilidade de ela ter de comprar mais do que uma seção adicional isto é de as 1600 seções somarem menos do que 7995 m b Qual é a probabilidade do uso exato de 1599 seções isto é a soma das 1599 seções estar entre 8000 m e 8005 m 26 Um professor dá um teste rápido constante de 20 questões do tipo certoerrado Para testar a hipótese de o estudante estar adivinhando a resposta ele adota a seguinte regra de decisão Se 13 ou mais questões estiverem corretas ele não está adivinhando Qual é a probabilidade de rejeitarmos a hipótese sendo que na realidade ela é verdadeira 27 Um distribuidor de sementes determina por meio de testes que 5 das sementes não germinam Ele vende pacotes com 200 sementes com garantia de 90 de germinação Qual é a probabilidade de que um pacote não satisfaça à garantia 28 Uma empresa fabrica cilindros com 50 mm de diâmetro sendo o desvio padrão 25 mm Os diâmetros de uma amostra de quatro cilindros são medidos a cada hora A média da amostra é usada para decidir se o processo de fabricação está operando satisfatoriamente Aplicase a seguinte regra de decisão Se o diâmetro médio de amostra de quatro cilindros for maior ou igual a 537 mm ou menor ou igual a 463 mm devese parar o processo Se o diâmetro médio estiver entre 463 e 537 mm o processo continua a Qual é a probabilidade de se parar o processo se a média dos diâmetros permanecer em 50 mm b Qual é a probabilidade de o processo continuar se a média dos diâmetros se deslocar para 537 mm 29 O CDVeículos traz os preços de 30 carros nacionais e importados extraídos da população de todos os carros vendidos no mercado Supondo que o desvio padrão dessa amostra seja um bom representante do verdadeiro desvio padrão da população qual será o tamanho de uma outra amostra a ser escolhida de modo que com probabilidade 90 a média amostral difira da verdadeira média de menos de 002 30 Tabela de Números Aleatórios Para sortear AAS costumase usar tabelas de números aleatórios que são coleções de dígitos construídos aleatoriamente e que simulam o processo de sorteio Na Tabela VII apresentamos um pequeno conjunto de números aleatórios Podem ser usados do seguinte modo se quisermos selecionar dez nomes de uma lista de 90 pessoas devemos começar numerandoos 01 02 90 Em seguida escolhemos duas colunas digamos as duas primeiras e tomamos os dez primeiros números no caso serão 61 94 50 51 25 63 12 38 22 07 61 Observe que o 94 foi eliminado pois não existe esse número na população e o 61 deverá aparecer repetido Para outras explicações e tabelas maiores consultar Pereira e Bussab 1974 31 Como você usaria uma tabela ou um gerador de números aleatórios para sortear uma amostra nas seguintes situações a 5 alunos de sua classe b 10 alunos de sua escola c 15 domicílios de seu bairro d 20 ações negociadas na Bolsa de São Paulo e 5 números de uma população cujos elementos são numerados de 1 a 115 Existe algum modo de apressar o sorteio f 5 números de uma população de 115 nomes cujos números vão de 612 a 726 Distribuição amostral da diferença de duas proporções Usando os resultados do problema 32 qual seria a distribuição de p₁ p₂ a diferença entre proporções de amostras independentes retiradas de populações com parâmetros p₁ e p₂ σ² Xᵢ μ²N Considera uma AAS de tamanho n extraída de P e X a média amostral Considera o estimador T NX Mostre que ET T e VarT N²σ²n 40 Suponha que queiramos retirar uma amostra de uma distribuição de Bernoulli com parâmetro p Escolhidos k dados x₁ x₂ xₖ temos que xₖ jxj é um estimador de p Então o estimador natural da variância σ² p1 p da população é xk1 xk Como ficaria o algoritmo descrito no CM4 para essa situação 1014 Complementos Metodológicos 1 Amostras sem reposição de populações finitas Suponha uma população com N elementos Vimos que extraímos uma amostra de tamanho n com reposição e calculamos a média amostral X então EX μ e VarX σ²n onde μ e σ² são a média e a variância da população respectivamente No entanto se a amostragem for feita sem reposição então EX μ contínua a valer mas VarX σ²N nnN n O fator N nN 1 é chamado fator de correção para populações finitas Note se n for muito menor que N então esse fator é aproximadamente igual a 1 e amostras com ou sem reposição são praticamente equivalentes 2 Planos probabilísticos Existem vários planos probabilísticos que são utilizados em situações práticas Vamos descrever brevemente alguns deles a Amostragem Aleatória Simples AAS Nesse plano n unidades que compõem a amostra são selecionadas de tal forma que todas as possíveis amostras têm a mesma probabilidade de serem escolhidas Podemos ter AAS com e sem reposição Exemplo 107 cada amostra com reposição tem probabilidade 125 de ser escolhida b Amostragem Aleatória Estratificada Nesse procedimento a população é dividida em subpopulações ou estratos usualmente de acordo com os valores ou categorias de uma variável e depois AAS é utilizada na seleção de uma amostra de cada estrato Por exemplo considere uma população de N 10 estudantes para os quais definimos as variáveis renda familiar X₁ e classe social X₂ categorizada como A B ou C Então P 1 2 10 e suponha que a matriz de dados seja D 10 8 15 12 2 33 37 47 Podemos considerar três estratos determinados pela variável X₂ Pₐ 3 5 8 P𝓑 1 6 9 10 P𝒞 2 4 7 Um dos objetivos da estratificação é homogeneizar a variância dentro de cada estrato relativamente à principal variável de interesse c Amostragem Aleatória por Conglomerados Como no item b a população é dividida em grupos subpopulações distintos chamados conglomerados Por exemplo podemos dividir uma cidade em bairros ou quadras Usamos AAS para selecionar uma amostra de conglomerados e depois todos os indivíduos dos conglomerados selecionados são analisados d Amostragem em Dois Estágios A população é dividida em grupos como em c Num primeiro estágio por meio de AAS selecionamos algumas subpopulações Num segundo estágio usando novamente AAS retiramos amostras das subpopulações selecionadas na primeiro estágio e Amostragem Sistemática Nesse plano supõese que temos uma listagem das unidades populacionais Para k fixado sorteamos um elemento entre os k primeiros da listagem Depois observamos sistematicamente indivíduos separados por k unidades Por exemplo se k 10 e sorteamos o oitavo elemento observamos depois o décimo oitavo vigésimo oitavo etc 3 Distribuição do máximo de uma amostra Considere M o máximo de uma AAS X1 Xn escolhida de uma população com densidade fx e fda Fx Seja FMm a fda de M Então FMm PM m Agora o evento M m é equivalente ao evento Xi m para todo 1 i n Como as va Xi são independentes teremos FMm PM m PX1 m Xn m PX1 m PXn m Fmn Portanto a densidade de M é dada por fMm F Mm nFmn 1fm 1010 4 Tamanho de uma amostra Na prática não conhecemos a distribuição de va X e retiramos uma amostra a fim de estimar algum parâmetro dessa distribuição Suponha agora que nosso interesse esteja na média µ EX Para estimála colhemos uma amostra X1 X2 Xn de X Logo as va Xi são independentes cada uma delas tem a mesma distribuição que X e EXi µ i 1 n Para estimar µ consideramos a média amostral X Um problema que se apresenta é determinar o tamanho da amostra a colher Isso pode ser feito usando a TLC como vimos na Seção 1011 Agora vamos ver um procedimento diferente também baseado no TLC mas que envolve uma regra de parada para determinar o número de dados a colher Esse procedimento foi sugerido por Ross 1997 Pelo TLC podemos escrever 1011 para qualquer constante c 0 em que Z N0 1 e Φ denota a fda de Z Por exemplo se c 196 a probabilidade acima é 005 Suponha que em vez de colher uma pequena amostra piloto para estimar σ tenhamos informação suficiente para escolher um valor aceitável digamos d para o desvio padrão de X que é dado por Por 1011 podemos escrever por exemplo PX µ 196d 095 Seguese que podemos amostrar sequencialmente de X até que em que calculamos S com os valores até então escolhidos O seguinte algoritmo pode então ser adotado 1 Escolha um valor aceitável d para 2 Gere pelo menos 30 dados para obter uma estimativa razoável de σ 3 Continue a gerar dados parando quando com n dados com 4 Estime µ por Esse método implica podermos calcular X e S2 recursivamente Isso pode ser feito por meio das seguintes fórmulas facilmente verificáveis Suponha x1 3 x2 5 x3 2 x4 6 x5 4 Então usando as fórmulas acima obtenha recursivamente Xi S2 i i 1 2 3 4 5 Capítulo 11 Estimação 111 Primeiras Ideias Vimos que a Inferência Estatística tem por objetivo fazer generalizações sobre uma população com base nos dados de uma amostra Salientamos que dois problemas básicos nesse processo são a estimação de parâmetros e b teste de hipóteses sobre parâmetros Lembremos que parâmetros são funções de valores populacionais enquanto estatísticas são funções de valores amostrais O problema do teste de hipóteses sobre parâmetros de uma população será tratado no Capítulo 12 Neste capítulo iremos discutir as ideias básicas sobre estimação Para ilustrar consideremos o exemplo seguinte Exemplo 111 Uma amostra de n 500 pessoas de uma cidade é escolhida e a cada pessoa da amostra é feita uma pergunta a respeito de um problema municipal para o qual foi apresentada uma solução pela prefeitura A resposta à pergunta poderá ser SIM favorável à solução ou NÃO contrária à solução Desejase estimar a proporção de pessoas na cidade favoráveis à solução apresentada Se 300 pessoas responderam SIM à pergunta então uma estimativa natural para essa proporção seria 300500 ou 60 Nossa resposta é baseada na suposição de que a amostra é representativa da população Sabemos também que outra amostra poderia levar a outra estimativa Conhecer as propriedades desses estimadores é um dos propósitos mais importantes da Inferência Estatística Vejamos o que pode ser feito nesse caso particular Definamos as va X1 Xn tais que e seja p P sucesso em que sucesso significa resposta SIM à questão formulada Portanto se sabemos que Yn tem distribuição binomial com parâmetros n e p e o problema consiste em estimar p É claro que Yn representa o número de pessoas na amostra que responderam SIM portanto um possível estimador de p é 111 Então se Yn k isto é observarmos o valor k da variável Yn obteremos kn como uma estimativa de p Observe que dado por 111 é uma va ao passo que kn é um número ou seja um valor da va No exemplo acima uma estimativa é 06 ou 60 O estimador teve sua distribuição amostral estudada na Seção 109 De lá podemos concluir que tem distribuição aproximadamente normal com parâmetros E p 112 Var p1 pn 113 Esses resultados nos ajudam a avaliar as qualidades desse estimador Por exemplo o resultado 112 indica que o estimador em média acerta p Dizemos que é um estimador não viesado ou não viciado de p Ou ainda o resultado 113 indica que para amostras grandes a diferença entre e p tende a ser pequena pois para n Var 0 Nesse caso dizemos que é um estimador consistente de p Observe que essas propriedades são válidas para o estimador no conjunto de todas as amostras que poderiam ser extraídas da população Para uma particular amostra pode estar distante de p Em algumas situações podemos ter mais de um estimador para um mesmo parâmetro e desejamos saber qual deles é melhor O julgamento pode ser feito analisando as propriedades desses estimadores Vejamos um exemplo Exemplo 112 Desejamos comprar um rifle e após algumas seleções restaram quatro alternativas que chamaremos de rifles A B C e D Foi feito um teste com cada rifle que consistiu em fixálo num cavalete mirar o centro de um alvo e disparar 15 tiros Os resultados estão ilustrados na Figura 111 Para analisar qual a melhor arma podemos fixar critérios Por exemplo segundo o critério de em média acertar o alvo escolheríamos as armas A e C Segundo o critério de não ser muito dispersivo variância pequena a escolha recairia nas armas C e D A arma C é aquela que reúne as duas propriedades e segundo esses critérios seria a melhor arma Mas se outro critério fosse introduzido por exemplo menor preço talvez não fosse a arma escolhida Muitas vezes a solução deve ser um compromisso entre as propriedades Esse exemplo também nos permite introduzir os conceitos de acurácia e precisão A acurácia mede a proximidade de cada observação do valor alvo que se procura atingir A precisão mede a proximidade de cada observação da média de todas as observações Figura 111 Resultados de 15 tiros dados por 4 rifles Desse modo podemos descrever cada arma da seguinte maneira Arma A não viesada pouco acurada e baixa precisão Arma B viesada pouco acurada e baixa precisão Arma C não viesada muito acurada e boa precisão Arma D viesada pouco acurada e alta precisão Do exposto acima notamos a importância de se definir propriedades desejáveis para estimadores Trataremos desse assunto na próxima seção Outro problema que aparece em inferência é como obter um estimador de determinado parâmetro Nem sempre temos uma sugestão para um estimador como no caso da proporção no exemplo Neste tempo no Exemplo 111 Nas Seções 113 114 e 115 trataremos de três desses métodos 112 Propriedades de Estimadores Inicialmente vejamos a questão da estimação de um modo mais geral Consideremos uma amostra X₁ X₂ Xn de uma va que descreve uma característica de interesse de uma população Seja θ um parâmetro que desejamos estimar por exemplo a média μ EX ou a variância σ² VarX Definição Um estimador T do parâmetro θ é qualquer função das observações da amostra ou seja T gX₁ Xn Notemos que segundo essa definição um estimador é o que chamamos antes de estatística porém associandoo a um parâmetro populacional O problema da estimação é então determinar uma função T gX₁ X₂ Xn que seja próxima de θ segundo algum critério O primeiro critério que iremos abordar é dado a seguir Definição O estimador T é não viesado para θ se ET θ para todo θ Se 114 não valer T dizse viesado e a diferença VT ET θ é chamado o viés de T Notemos que a esperança de T em 114 é calculada sobre a distribuição amostral de T como tratada no capítulo anterior Definição Estimativa é o valor assumido pelo estimador em uma particular amostra Assim no Exemplo 111 𝑝 é um estimador de p enquanto 60 é uma estimativa de p Exemplo 113 Vimos que a média amostral X é um estimador não viesado de μ EX colhida uma amostra X₁ Xn da va X Do mesmo modo como vimos na Seção 109 a proporção amostral p é um estimador não viesado da proporção p de indivíduos de uma população que tem certa característica comum Exemplo 114 Considera uma população com N elementos e a variância populacional σ² 1NXᵢ μ² 115 em que μ 1NXᵢ é a média populacional Um possível estimador para σ² baseado numa AAS de tamanho n extraída dessa população é 116 Mostremos que esse estimador é viesado Pela fórmula 311 temos que logo Mas pela definição de AAS e definição de variância de uma va EX2 i VarXi EXi2 σ2 µ2 Também usando o Teorema 101 temos que EX2 VarX Seguese que ou seja Finalmente 117 De 117 vemos que 2 é viesado para σ2 e o viés é dado por 118 Como esse viés é negativo o estimador 2 em geral subestima o verdadeiro parâmetro σ2 Por outro lado por 118 o viés diminui com n ou seja formalmente para n o viés de 2 tende a zero Note também que o viés de 2 é uma função de σ2 Uma estimativa do viés seria dada por ou seja substituímos o valor desconhecido de σ2 por uma estimativa como por exemplo 2 É fácil ver que para obter um estimador não viesado de σ2 basta considerar nn 1 σ² pois de 117 seguese que Enn 1 σ² σ² Logo se definirmos S² 1n 1 Xᵢ X² 119 então ES² σ² e S² é um estimador não viesado para σ² Essa é a razão para se usar n 1 em vez de n como denominador da variância da amostra No Capítulo 3 usamos sempre n como denominador porque não havia preocupação em saber se estávamos trabalhando com uma população ou uma amostra Daqui por diante será feita essa distinção Vimos que o estimador p é não viesado e tem variância que tende a zero quando n Ver 112 e 113 Dizemos que p é consistente Esse conceito de consistência é um pouco mais difícil de se definir Vejamos um exemplo para motivar a definição que será dada Considere a média X calculada para diversos tamanhos de amostras obtemos na realidade uma sequência de estimadores Xn n 1 2 À medida que n cresce a distribuição de X tornase mais concentrada ao redor da verdadeira média μ Veja por exemplo a Figura 104 do Capítulo 10 Dizemos que Xn é uma sequência consistente de estimadores de μ Definição Uma sequência Tn de estimadores de um parâmetro θ é consistente se para todo ε 0 PTn θ ε 0 n 1110 Não é muito difícil ver que essa condição está satisfeita para Xn Veja o Problema 33 Em vez de usar 1110 para verificar se uma sequência é estimadores é consistente podemos usar o seguinte resultado Proposição Uma sequência Tn de estimadores de θ é consistente se lim n ETn θ 1111 Se Tn for não viesado a primeira condição estará obviamente satisfeita Usando esse resultado vemos que p e Xn são estimadores consistentes de ρ e μ respectivamente nos Exemplos 111 e 113 Exemplo 115 Vimos que S² dado por 119 é não viesado para σ² É possível demonstrar no caso que X₁ Xn são observações de uma distribuição Nμ σ² que VarS² σ²2σ² 2σ²nn 1 1113 Como ES² σ² e lim n VarS² 0 seguese que S² é um estimador consistente para σ² Dado o que foi dito acima talvez fosse melhor escrever S²n Exemplo 116 Vimos que Eθ² σ²1 1n de modo que as observações são de uma distribuição normal Nμ σ² temos que Varθ² n 1σ²n VarS² n 1n²2σ² 1114 o que mostra que Varθ² 0 quando n logo θ² também é consistente para σ² De 1114 obtemos também que Varθ² 2σ²n 1VarS² 1115 Portanto usandose somente o critério de ter menor variância σ² seria um melhor estimador de σ² Mas observe que estamos nos referindo a amostras de uma distribuição normal Vejamos agora um critério que nos permite escolher entre dois estimadores de mesmo parâmetro θ e ainda VarT VarT 1116 então T dizse mais eficiente do que T Exemplo 117 Consideremos uma população normal X com parâmetros μ e σ² Queremos estimar a mediana dessa população Por ser uma distribuição simétrica sabemos que μ MdX Definindo como X a média e como md a mediana de uma amostra de tamanho n dessa população qual dos dois estimadores é o melhor para estimar a mediana populacional Pelo que vimos no capítulo anterior X Nμσ²n 1117 Podese demonstrar que a distribuição da mediana amostral pode ser aproximada por uma normal especificamente md NMdXπσ²2n 1118 Vemos portanto que os dois estimadores são não viesados mas VarmdVarX π2 1 Concluise que para estimar a mediana dessa população é preferível usar a média da amostra como estimador o que contraria um pouco a nossa intuição Para precisar o conceito de estimador acurado discutido na seção anterior vamos agora introduzir o conceito de erro quadrático médio Chamemos de e T θ o erro amostral que cometemos ao estimar o parâmetro θ da distribuição da va X pelo estimador T gX₁ Xn baseado na amostra X₁ Xn Definição Chamase erro quadrático médio EQM do estimador T ao valor EQMT θ Ee² ET θ² 1119 De 1119 temos já que ET θ é uma constante e ET ET 0 Podemos pois escrever EQMT θ ET ET² ET ET² 2ET ETET θ EET θ² em que V VT ET θ indica como vimos o viés de T A Figura 112 ilustra essas duas medidas usando o caso das armas discutido no Exemplo 112 Vamos portanto que um estimador preciso tem variância pequena mas pode ter EQM grande Problemas 1 Obtenha a distribuição de ˆp quando p 02 e n 5 Depois calcule Eˆp e Varˆp 2 Encontre um limite superior para Varˆp quando n 10 25 100 e 400 Faça o gráfico em cada caso 3 Suponha um experimento consistindo de n provas de Bernoulli com probabilidade de sucesso p Seja X o número de sucessos e considere os estimadores a ˆp1 Xn b ˆp2 1 se a primeira prova resultar sucesso 0 caso contrário Determine a esperança e a variância de cada estimador Por que ˆp2 não é um bom estimador 4 Verifique se ˆp1 e ˆp2 do Problema 3 são consistentes 5 Temse duas fórmulas distintas para estimar um parâmetro populacional θ Para ajudar a escolher a melhor simulouse uma situação em que θ 100 Dessa população retiraramse 1000 amostras de dez unidades cada uma e aplicaramse ambas as fórmulas às dez unidades de cada amostra Desse modo obtémse 1000 valores para e finalmente 1133 Convém lembrar que µ não é uma variável aleatória e sim um parâmetro e a Fórmula 1133 deve ser interpretada da seguinte maneira se pudéssemos construir uma quantidade grande de intervalos aleatórios da forma X 196σX X 196σX todos baseados em amostras de tamanho n 95 deles conteriam o parâmetro µ Veja a Figura 113 Dizemos que γ 095 é o coeficiente de confiança Nessa figura estão esquematizados o funcionamento e o significado de um intervalo de confiança IC para µ com γ 095 e σ2 conhecido Figura 113 Significado de um IC para µ com γ 095 e σ2 conhecido Escolhida uma amostra e encontrada sua média x0 e admitindo se σx conhecido podemos construir o intervalo 1134 Esse intervalo pode ou não conter o parâmetro µ mas pelo exposto acima temos 95 de confiança de que contenha com zγ definido como em 1140 Na realidade podese demonstrar que do que resulta a Fórmula 1141 Exemplo 1116 Suponha que em n 400 provas obtemos k 80 sucessos Vamos obter um intervalo de confiança para p com γ 090 Como 80400 02 e 1 08 então 1141 fica ou seja Usando 1140 o intervalo conservador é Observe que o primeiro intervalo tem amplitude menor que o segundo Outra observação importante é que por 1140 e um γ fixo os intervalos que podemos obter para amostras diferentes mas de mesmo tamanho n terão a mesma amplitude dada por Por outro lado usando 1141 a amplitude do intervalo será que é variável de amostra para amostra pois e consequentemente variará de amostra para amostra Problemas 14 Calcule o intervalo de confiança para a média de uma Nµ σ2 em cada um dos casos abaixo Média Amostral Tamanho da Amostra Desvio Padrão da População Coeficiente de Confiança 170 cm 100 15 cm 95 165 cm 184 30 cm 85 180 cm 225 30 cm 70 15 De 50000 válvulas fabricadas por uma companhia retirase uma amostra de 400 válvulas e obtémse a vida média de 800 horas e o desvio padrão de 100 horas a Qual o intervalo de confiança de 99 para a vida média da população b Com que confiança é possível afirmar que a vida média é 800 098 c Que tamanho deve ter a amostra para que seja de 95 a confiança na estimativa 800 784 Que suposições você fez para responder às questões acima 16 Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença da média amostral para a média da população em valor absoluto seja menor que 1 com coeficiente de confiança igual a a 95 b 99 17 Uma população tem desvio padrão igual a 10 a Que tamanho deve ter uma amostra para que com probabilidade 8 o erro em estimar a média seja superior a uma unidade b Supondose colhida a amostra no caso anterior qual o intervalo de confiança se x 50 18 Uma amostra aleatória de 625 donas de casa revela que 70 delas preferem a marca A de detergente Construir um intervalo de confiança para p proporção das donas de casa que preferem A com cc γ 90 19 Encontre os intervalos de confiança para p se kn 03 com cc γ 095 Utilize os dois enfoques apontados na Seção 116 com n 400 20 Antes de uma eleição um determinado partido está interessado em estimar a proporção p de eleitores favoráveis ao seu candidato Uma amostra piloto de tamanho 100 revelou que 60 dos eleitores eram favoráveis ao candidato em questão a Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de no máximo 001 com probabilidade de 80 b Se na amostra final com tamanho igual ao obtido em a observouse que 55 dos eleitores eram favoráveis ao candidato em questão construa um intervalo de confiança para a proporção p Utilize γ 095 21 Suponha que estejamos interessados em estimar a proporção de consumidores de um certo produto Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado produto determine a o intervalo de confiança para p com coeficiente de confiança de 95 interprete o resultado b o tamanho da amostra para que o erro da estimativa não exceda a 002 unidades com probabilidade de 95 interprete o resultado 117 Erro Padrão de um Estimador Vimos que obtida a distribuição amostral de um estimador podíamos calcular a sua variância Se não pudermos obter a distribuição exata usamos uma aproximação se essa estiver disponível como no caso de X e a variância do estimador será a variância dessa aproximação Por exemplo para a média amostral X obtida de uma amostra de tamanho n temos que na qual σ2 é a variância da va X definida sobre a população Exemplo 1119 Suponha que temos os dados amostrais x x1 x2 xn e queremos estimar a mediana populacional Md por meio da mediana amostral mdx medx1 xn Vamos escolher uma AAS portanto com reposição de tamanho n dos dados Tal amostra é chamada uma amostra bootstrap e denotada por x x 1 x n Por exemplo suponha que x x1 x2 x3 x4 x5 Poderemos obter por exemplo x x4 x3 x3 x1 x2 Suponha agora que geremos B tais amostras independentes denotadas x 1 x B Para cada amostra bootstrap geramos uma réplica bootstrap do estimador proposto ou seja de mdx obtendo se mdx1 mdx2 mdxB 1150 Definimos o estimador bootstrap do erro padrão de mdx como 1151 com 1152 Ou seja o estimador bootstrap do erro padrão da mediana amostral é o desvio padrão amostral do conjunto 1150 Na Figura 115 temos representado o esquema do método Vamos ilustrar o método com um exemplo numérico simples Suponha que n 5 e a amostra é x 2 5 3 4 6 Vamos considerar B 5 amostras bootstrap de x Como gerar tais amostras Primeiramente geramos cinco números aleatórios i1 i5 dentre os cinco números inteiros 1 2 3 4 5 e consideramos a amostra bootstrap x xi1 xi5 Repetimos esse procedimento cinco vezes Podemos usar a Tabela VII para gerar esses NA como já aprendemos Considere por exemplo as cinco primeiras linhas e começando do canto esquerdo prossiga em cada linha até obter cinco dígitos entre 1 e 5 inclusive note que pode haver repetições Obtemos a Tabela 112 Figura 115 Procedimento bootstrap para calcular o erro padrão da mediana amostral Tabela 112 Procedimento bootstrap NA Amostra bootstrap mdx xx 12251 25562 50 40 44432 44435 40 40 54555 64666 60 56 51155 62266 60 44 25453 56463 50 48 Por exemplo obtidos os NA 1 2 2 5 1 teremos a amostra bootstrap x1 x2 x2 x5 x1 2 5 5 6 2 para a qual a mediana amostral é 5 Seguese que e Se usarmos a aproximação 1118 calculamos a variância da amostra original obtendose S2 25 donde Levando se em conta o tamanho da amostra a discrepância entre os dois valores não é grande Veja a página do livro para aprender como usar o R para obter amostra bootstrap e calcular o erro padrão correspodente Exemplo 1120 Na Tabela 112 calculamos também para cada amostra bootstrap a média amostral x Obtemos usando 1151 e usando a fórmula 1144 logo o valor obtido pelo método bootstrap está bastante próximo do valor calculado pela fórmula obtida de maneira analítica Obviamente em situações nas quais há uma fórmula disponível não há necessidade de se usar bootstrap A questão que se apresenta é qual deve ser o valor de B ou seja quantas amostras bootstrap devemos gerar para estimar erros padrões de estimadores A experiência indica que um valor razoável é B 200 No caso geral de um estimador Tx o algoritmo bootstrap para estimar o erro padrão de é o seguinte 1 Selecione B amostras bootstrap independentes x 1 x B cada uma consistindo de n valores selecionados com reposição de x Tome B 200 2 Para cada amostra bootstrap x B calcule a réplica bootstrap 3 O erro padrão de é estimado pelo desvio padrão das B réplicas 1153 com 1154 No exemplo acima notamos que um intervalo de confiança aproximado para a mediana populacional Md com coeficiente de confiança 95 seria No exemplo dado para efeito de ilustração do método bootstrap tomamos uma amostra pequena n 5 e poucas amostras bootstrap B 5 Para amostras maiores e B na ordem de 200 deveremos fazer um pequeno programa em alguma linguagem como o Visual Basic S Fortram C etc que gere as amostras bootstrap e calcular o estimador dado por 1153 Isso implica em particular gerar para cada amostra bootstrap n números aleatórios Salário Frequência 15000 25000 8 25000 35000 22 35000 45000 38 45000 55000 28 55000 65000 2 65000 75000 2 Use γ 095 26 Suponha que as vendas de um produto satisfaçam ao modelo Vt α βt at em que at é a variável aleatória satisfazendo as suposições da Seção 114 e o tempo é dado em meses Suponha que os valores das vendas nos 10 primeiros meses do ano 1 sejam dados pelos valores da tabela abaixo Obtenha as previsões para os meses de novembro e dezembro do ano 1 e para julho e agosto do ano 2 t 1 2 3 4 5 6 7 8 9 10 yt 50 67 60 87 62 86 110 119 106 108 27 Numa pesquisa de mercado para estudar a preferência da população de uma cidade em relação a um determinado produto colheuse uma amostra aleatória de 300 indivíduos dos quais 180 preferiam esse produto a Determine um intervalo de confiança para a proporção da população que prefere o produto em estudo tome γ 090 b Determine a probabilidade de que a estimativa pontual dessa proporção não difira do verdadeiro valor em mais de 0001 c É possível obter uma estimativa pontual dessa proporção que não difira do valor verdadeiro em mais de 00005 com probabilidade 095 Caso contrário determine o que deve ser feito 28 Uma amostra de 10000 itens de um lote de produção foi inspecionada e o número de defeitos por item foi registrado na tabela abaixo Nº de defeitos 0 1 2 3 4 Quantidade de peças 6000 3200 600 150 50 a Determine os limites de confiança para a proporção de itens defeituosos na população com coeficiente de confiança de 98 Use 1140 b Mesmo problema usando 1141 29 Antes de uma eleição em que existiam dois candidatos A e B foi feita uma pesquisa com 400 eleitores escolhidos ao acaso e verificouse que 208 deles pretendiam votar no candidato A Construa um intervalo de confiança com cc γ 095 para a porcentagem de eleitores favoráveis ao candidato A na época das eleições 30 Encontre o cc de um intervalo de confiança para p se n 100 06 e a amplitude do intervalo deve ser igual a 0090 Capítulo 12 Testes de Hipóteses 121 Introdução Vimos no Capítulo 10 que um dos problemas a serem resolvidos pela Inferência Estatística é o de testar uma hipótese Isto é feita determinada afirmação sobre uma população usualmente sobre um parâmetro dessa desejamos saber se os resultados experimentais provenientes de uma amostra contrariam ou não tal afirmação Muitas vezes essa afirmação sobre a população é derivada de teorias desenvolvidas no campo substantivo do conhecimento A adequação ou não dessa teoria ao universo real pode ser verificada ou refutada pela amostra O objetivo do teste estatístico de hipóteses é então fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evidências que apoiem ou não uma hipótese estatística formulada Neste capítulo iremos introduzir o procedimento básico de teste de hipótese sobre um parâmetro de uma população A ideia central desse procedimento é a de supor verdadeira a hipótese em questão e verificar se a amostra observada é verossímil nessas condições No capítulo seguinte daremos alguns testes para comparação de parâmetros de duas populações 122 Um Exemplo Vamos introduzir a ideia de teste de uma hipótese por meio de um exemplo hipotético que partindo de uma situação simples será gradualmente ampliado para atender à situação geral do teste de hipóteses Exemplo 121 Uma indústria usa como um dos componentes das máquinas que produz um parafuso importado que deve satisfazer a algumas exigências Uma dessas é a resistência à tração Esses parafusos são fabricados por alguns países e as especificações técnicas variam de país para país Por exemplo o catálogo do país A afirma que a resistência média à tração de seus parafusos é de 145 kg com desvio padrão de 12 kg Já para o país B a média é de 155 kg e desvio padrão 20 kg Um lote desses parafusos de origem desconhecida será leiloado a um preço muito convidativo Para que a indústria saiba se faz ou não uma oferta ela necessita saber qual país produziu tais parafusos O edital do leiloeiro afirma que pouco antes do leilão será divulgada a resistência média x de uma amostra de 25 parafusos do lote Qual regra de decisão deve ser usada pela indústria para dizer se os parafusos são do país A ou B Uma resposta que ocorre imediatamente é a que considera como país produtor aquele para o qual a média da amostra mais se aproximar da média da população Assim uma possível regra de decisão seria Se x 150 o ponto médio entre 145 e 155 diremos que os parafusos são do país A caso contrário isto é x 150 são do país B Na Figura 121 ilustramos essa regra de decisão Figura 121 Regra de decisão para o Exemplo 121 Suponha que no dia do leilão fôssemos informados de que x 148 de acordo com nossa regra de decisão diríamos que os parafusos são de origem A Podemos estar enganados nessa conclusão Ou em outras palavras é possível que uma amostra de 25 parafusos de origem B apresente média x 148 Sim é possível Então para melhor entendermos a regra de decisão De modo análogo quando H1 for a alternativa verdadeira teremos que a va X é tal que aproximadamente X N145 576 Teremos então Observando esses dois resultados notamos que com a regra de decisão adotada estaremos cometendo o erro de tipo I com maior probabilidade do que o erro de tipo II De certo modo essa regra de decisão privilegia a afirmação de que os parafusos são de A No Quadro 121 ilustramos as consequências que podem advir da regra de decisão adotada Quadro 121 Resumo do teste H0 µ 155 H1 µ 145 com RC 150 Desse quadro podemos notar que se os parafusos forem realmente de B segunda linha e a amostra tiver média superior a 150 segunda coluna diremos que são de B e não cometeremos erro algum Por outro lado se a média x for inferior a 150 primeira coluna devemos dizer que são de A e estaremos cometendo um erro cuja probabilidade nesse caso é de 1056 De modo análogo teremos uma interpretação para o caso de os parafusos serem realmente de A primeira linha Para cada regra de decisão adotada isto é se escolhermos um valor xc em vez de 150 no Quadro 121 apenas as probabilidades α e β mudarão Se xc for escolhido menor que 150 notamos que α diminuirá e β aumentará Logo deve existir um ponto em que α seja igual a β ou seja uma regra de decisão em que a probabilidade de errar contra A seja a mesma que errar contra B Mostre que esse ponto é xc 14875 e nesse caso α β 594 Do exposto acima constatamos que escolhido um valor de xc podemos achar as probabilidades α e β de cometer cada tipo de erro Mas também podemos proceder de modo inverso fixar um dos erros digamos α e encontrar a regra de decisão que irá corresponder à probabilidade de erro de tipo I igual a α Por exemplo fixemos α em 5 e vejamos qual a regra de decisão correspondente Temos mas da transformação para a normal padrão sabemos que ou seja xc 14842 Então a regra de decisão será Se x for inferior a 14842 dizemos que o lote é de A caso contrário dizemos que é de B Com essa regra a probabilidade do erro de tipo II será Veja a ilustração na Figura 122 Figura 122 Ilustração dos erros de tipo I e II para o Exemplo 121 Esse segundo tipo de procedimento é bastante utilizado porque usualmente a decisão que devemos tomar não é apenas entre duas possíveis populações Os parafusos poderiam ser produzidos por outros países além daqueles citados e portanto com outras características quanto à resistência média Suponha ainda que interessa à indústria fazer uma proposta apenas no caso de o parafuso ser de origem B Qual a regra de decisão que deve adotar A hipótese que nos interessa agora é H0 os parafusos são de origem B µ 155 e σ 20 Caso essa não seja a hipótese verdadeira a alternativa é muito mais ampla e pode ser expressa como H1 os parafusos não são de origem B µ e σ desconhecidos Aqui não podemos especificar os parâmetros sob a hipótese alternativa H1 pois se não forem de origem B os parafusos podem ser de vários outros países cada um com suas próprias especificações Alguns países podem ter técnicas mais sofisticadas de produção e portanto produzir com resistência média superior a 155 Outros como no exemplo dado com resistência menor A especificação da hipótese alternativa depende muito do grau de informação que se tem do problema Por exemplo vamos admitir que a indústria do país B para esse caso seja a mais desenvolvida e nenhum outro país possa produzir uma resistência média superior à dela Então nossa hipótese alternativa seria mais explícita H1 os parafusos não são de origem B µ 155 e σ qualquer Isso significa que só iremos desconfiar de H0 se x for muito menor do que 155 Ou seja a nossa regra de decisão deverá ser semelhante à vista anteriormente Como os parâmetros sob a hipótese alternativa são muitos a melhor solução para construir a regra de decisão é fixar α a probabilidade do erro de tipo I rejeitar H0 quando ela for verdadeira Se fixarmos novamente α 05 e nesse caso a regra de decisão depende apenas das informações de H0 a regra de decisão será a mesma anterior Se x for superior a 14842 diremos que o lote é de origem B caso contrário diremos que não é de origem B Com essa regra de decisão e com a hipótese alternativa mais ampla não podemos encontrar β pois não temos um único parâmetro µ como alternativa e nada sabemos sobre σ Então não podemos controlar o erro de tipo II As implicações dessa regra de decisão estão resumidas na Figura 123 e no Quadro 122 Figura 123 Teste H0 µ 155 vs H1 µ 155 com RC 14842 Quadro 122 Resumo do teste H0 µ 155 H1 µ 155 com RC 14842 Podemos reescrever as hipóteses nessa situação da seguinte maneira H0 µ 155 H1 µ 155 O cálculo de β depende do valor de µ que não é especificado Mas podemos considerar a seguinte e importante função Definição A função característica de operação função CO do teste acima é definida como b Qual deve ser a regra de decisão se quisermos fixar a probabilidade do erro de tipo I em 5 Qual a probabilidade do erro de tipo II nesse caso c Se σA 5 como ficariam as respostas de b d Quais as probabilidades do erro de tipo II nas condições da questão b se a média µB 178 E µB 180 E µB 181 Coloque num gráfico os pares µB Perro II µB 2 Fazendo o teste H0 µ 1150 σ 150 contra H1 µ 1200 σ 200 e n 100 estabeleceuse a seguinte região crítica RC 1170 a Qual a probabilidade α de rejeitar H0 quando verdadeira b Qual a probabilidade β de aceitar H0 quando H1 é verdadeira c Qual deve ser a região crítica para que α β 3 Nas situações abaixo escolha como hipótese nula H0 aquela que para você leva a um erro de tipo I mais importante Descreva quais os dois erros em cada caso a O trabalho de um operador de radar é detectar aeronaves inimigas Quando surge alguma coisa estranha na tela ele deve decidir entre as hipóteses 1 está começando um ataque 2 tudo bem apenas uma leve interferência b Num júri um indivíduo está sendo julgado por um crime As hipóteses sujeitas ao júri são 1 o acusado é inocente 2 o acusado é culpado c Um pesquisador acredita que descobriu uma vacina contra resfriado Ele irá conduzir uma pesquisa de laboratório para verificar a veracidade da afirmação De acordo com o resultado ele lançará ou não a vacina no mercado As hipóteses que pode testar são 1 a vacina é eficaz 2 a vacina não é eficaz 4 Se ao lançarmos três vezes uma moeda aparecerem 3 coroas decidimos rejeitar a hipótese de que a moeda é honesta Quais as probabilidades de erro de tipo I e erro de tipo II se p 23 5 A variável X custo de manutenção de um tear pode ser considerada como tendo distribuição normal de média µ e desvio padrão 20 unidades Os valores possíveis de µ podem ser 200 ou 210 Para verificar qual dos dois valores é o mais provável usar seá uma amostra de 25 teares Defina a Uma hipótese a ser testada b Uma regra de decisão e encontre as probabilidades dos erros de tipo I e II Passo 2 Use a teoria estatística e as informações disponíveis para decidir qual estatística estimador será usada para testar a hipótese H0 Obter as propriedades dessa estatística distribuição média desvio padrão Passo 3 Fixe a probabilidade α de cometer o erro de tipo I e use este valor para construir a região crítica regra de decisão Lembre que essa região é construída para a estatística definida no passo 2 usando os valores do parâmetro hipotetizados por H0 Passo 4 Use as observações da amostra para calcular o valor da estatística do teste Passo 5 Se o valor da estatística calculado com os dados da amostra não pertencer à região crítica não rejeite H0 caso contrário rejeite H0 Procuraremos sempre que fizermos teste de hipóteses distinguir bem esses cinco passos Finalmente um comentário sobre H0 e o erro de tipo I Devemos tomar como H0 aquela hipótese que rejeitada conduza a um erro de tipo I mais importante de evitar Vejamos um exemplo devido a Neyman 1978 Suponha um experimento para se determinar se um produto A é ou não cancerígeno Após realizado o teste podemos concluir i A é cancerígeno ou ii A não é cancerígeno Cada uma dessas conclusões pode estar errada e temos os dois tipos de erro já mencionados dependendo de qual hipótese seja H0 Do ponto de vista do usuário do produto a hipótese a ser testada deve ser H0 A é cancerígeno pois a probabilidade de erro na rejeição dessa hipótese se ela for verdadeira deve ser um valor muito pequeno Outros exemplos estão contidos no Problema 3 125 Testes sobre a Média de uma População com Variância Conhecida Vejamos agora uma aplicação dos cinco passos definidos na seção anterior para testar a hipótese de que a média de uma população µ seja igual a um número fixado µ0 supondose a variância σ2 dessa população conhecida Exemplo 122 Uma máquina automática para encher pacotes de café encheos segundo uma distribuição normal com média µ e variância sempre igual a 400 g2 A máquina foi regulada para µ 500 g Desejamos periodicamente colher uma amostra de 16 pacotes e verificar se a produção está sob controle isto é se µ 500 g ou não Se uma dessas amostras apresentasse uma média x 492 g você pararia ou não a produção para regular a máquina Vejamos como testar essa hipótese Passo 1 Indiquemos por X o peso de cada pacote então X Nµ 400 E as hipóteses que nos interessam são H0 µ 500 g H1 µ 500 g pois a máquina pode desregular para mais ou para menos Passo 2 Pela afirmação do problema σ2 400 será sempre a mesma logo para todo µ a média X de 16 pacotes terá distribuição Nµ 40016 de modo que o desvio padrão ou erro padrão de X é σx 5 Em particular se H0 for verdadeira X N50025 Passo 3 Vamos fixar α 1 pela hipótese alternativa vemos que H0 deve ser rejeitada quando X for muito pequena ou muito grande dizemos que temos um teste bilateral Portanto nossa região crítica será como a da Figura 125 Figura 125 Região crítica para o teste H0 µ 500 vs H1 µ 500 do Exemplo 122 Da tabela da curva normal padronizada obtemos que Seguese que a região crítica é Passo 4 A informação pertinente da amostra é sua média que nesse caso particular é x0 492 Passo 5 Como x0 não pertence à região crítica nossa conclusão será não rejeitar H0 Ou seja o desvio da média da amostra para a média proposta por H0 pode ser considerado como devido apenas ao sorteio aleatório dos pacotes A situação analisada não é muito realista conhecer a variância da população O caso mais geral de média e variância desconhecidas será tratado na Seção 1210 Problemas 6 Sabese que o consumo mensal per capita de um determinado produto tem distribuição normal com desvio padrão 2 kg A diretoria de uma firma que fabrica esse produto resolveu que retiraria o produto da linha de produção se a média de consumo per capita fosse menor que 8 kg Caso contrário continuaria a fabricálo Foi realizada uma pesquisa de mercado tomandose uma amostra de 25 indivíduos e verificouse que em que Xi representa o consumo mensal do iésimo indivíduo da amostra a Construa um teste de hipótese adequado utilizando α 005 e com base na amostra colhida determine a decisão a ser tomada pela diretoria b Qual a probabilidade β de se tomar uma decisão errada se na realidade a média populacional for µ 78 kg c Se a diretoria tivesse fixado α 001 a decisão seria a mesma Justifique sua resposta d Se o desvio da população fosse 4 kg qual seria a decisão com α 005 Justifique sua resposta 7 A associação dos proprietários de indústrias metalúrgicas está muito preocupada com o tempo perdido com acidentes de trabalho cuja média nos últimos tempos tem sido da ordem de 60 horashomem por ano e desvio padrão de 20 horashomem Tentouse um programa de prevenção de acidentes após o qual foi tomada uma amostra de nove indústrias e medido o número de horashomens perdidas por acidente que foi de 50 horas Você diria no nível de 5 que há evidência de melhoria 8 O salário médio dos empregados das indústrias siderúrgicas de um país é de 25 salários mínimos com um desvio padrão de 05 salários mínimos Uma indústria é escolhida ao acaso e desta é escolhida uma amostra de 49 empregados resultando um salário médio de 23 salários mínimos Podemos afirmar que esta indústria paga salários inferiores à média nacional com o nível de 5 9 Uma companhia de cigarros anuncia que o índice médio de nicotina dos cigarros que fabrica apresentase abaixo de 23 mg por cigarro Um laboratório realiza 6 análises desse índice obtendo 27 24 21 25 26 22 Sabese que o índice de nicotina se distribui normalmente com variância igual a 486 mg2 Podese aceitar no nível de 10 a afirmação do fabricante 126 Teste para Proporção Vamos usar os passos descritos na Seção 124 para mostrar a construção do teste para proporções Passo 1 Temos uma população e uma hipótese sobre a proporção p de indivíduos portadores de certa característica Esta hipótese afirma que essa proporção é igual a certo valor p0 Então H0 p p0 O problema fornece informações sobre a alternativa que pode ter uma das três formas abaixo i H1 p p0 teste bilateral ii H1 p p0 teste unilateral à direita e iii H1 p p0 teste unilateral à esquerda Passo 2 Como vimos na Seção 109 a estatística a proporção amostral tem uma distribuição aproximadamente normal a saber Passo 3 Fixado um valor de α devemos construir a região crítica para p sob a suposição de que o parâmetro definido por H0 seja o verdadeiro Ou seja podemos escrever e consequentemente teremos a região crítica da Figura 126 supondo a alternativa i acima sendo que e Zp é o pquantil da normal padrão Figura 127 Região crítica para o teste H0 p 060 vs H1 p 060 do Exemplo 123 De fato devemos achar o valor c tal que P c 005 e usando a aproximação normal acima teremos o que implica o valor 1645 sendo obtido da normal padronizada Seguese que c 0544 correspondendo à região crítica acima Passo 4 Admitamos que da pesquisa feita com as 200 famílias obtivemos 104 pessoas que estavam assistindo ao programa A proporção da amostra será 104200 052 Passo 5 Do resultado do passo anterior vemos que 052 RC portanto somos levados a rejeitar H0 Isto é há evidências que a audiência do programa de segundafeira não foi de 60 mas inferior a esse número Problemas 10 Uma pessoa gabase de adivinhar qual será o resultado do lance de uma moeda mas é preciso que os presentes não o perturbem com pensamentos duvidosos Para testar tal capacidade lançouse uma moeda perfeita 6 vezes e o adivinhador acertou 5 Qual seria sua conclusão 11 O consumidor de um certo produto acusou o fabricante dizendo que mais de 20 das unidades fabricadas apresentam defeito Para confirmar sua acusação ele usou uma amostra de tamanho 50 em que 27 das peças eram defeituosas Mostre como o fabricante poderia refutar a acusação Utilize um nível de significância de 10 128 Valorp O método de construção de um teste de hipóteses descrito nas seções anteriores parte da fixação do nível de significância α Podese argumentar que esse procedimento pode levar à rejeição da hipótese nula para um valor de α e à não rejeição para um valor menor Outra maneira de proceder consiste em apresentar a probabilidade de significância ou valorp do teste Os passos são muito parecidos aos já apresentados a principal diferença está em não construir a região crítica O que se faz é indicar a probabilidade de ocorrer valores da estatística mais extremos do que o observado sob a hipótese de H0 ser verdadeira Exemplo 125 Voltemos ao Exemplo 123 em que H0 p 060 Como vimos admitindo essa hipótese verdadeira N060 024200 Colhida a amostra obtivemos 0 104200 052 Portanto podemos calcular qual a probabilidade de ocorrerem valores de mais desfavoráveis para H0 do que esse É evidente que quanto menor for maior será a evidência contra H0 p 060 Assim calculemos Esse resultado mostra que se a audiência do programa fosse de 60 realmente a probabilidade de encontrarmos uma amostra de 200 famílias com 52 ou menos de audiência é de 1 Isso sugere que ou estamos diante de uma amostra rara de ocorrer 1 em 100 ou então a hipótese formulada não é aceitável Nesse caso somos levados a essa segunda opção ou seja os dados da amostra sugerem que a hipótese H0 deve ser rejeitada O procedimento está ilustrado na Figura 1211 O valorp do teste será α 001 Figura 1211 Determinação do valorp para o Exemplo 125 Exemplo 126 Um antibiótico A traz em sua bula a seguinte citação Nas broncopneumonias a ação antiinflamatória de A é colocada em evidência pelo estudo dos parâmetros ventilatórios em duplo cego contra placebo Durante o tratamento com A podese observar uma melhora significativa em relação ao placebo da capacidade vital p 005 e o VEMSp 0001 e do débito respiratório máximo p 0001 Esse exemplo ilustra o uso cada vez mais difundido em muitas áreas aplicadas do conceito de valorp As afirmações do tipo p 005 acima referemse a esse conceito Vale a pena comentar um pouco sobre estudos duplocego mencionados acima Nesse tipo de estudo um número n de indivíduos é dividido em dois grupos de tamanhos aproximadamente iguais a seleção dos indivíduos que vão pertencer a cada grupo é aleatória Os indivíduos de um grupo recebem o tratamento o antibiótico A no caso e os do outro grupo recebem placebo uma substância inóqua Os pesquisadores que acompanham o experimento não sabem quem recebeu tratamento e quem recebeu placebo o mesmo acontecendo com os pacientes daí o nome duplocego Podemos considerar probabilidades de significância bilaterais Um procedimento é tomar o valorp bilateral igual a duas vezes o valorp unilateral Esta prática é razoável quando a distribuição da estatística do teste sob H0 for simétrica Exemplo 127 Uma companhia de serviços de ônibus intermunicipais planejou uma nova rota para servir vários locais situados entre duas cidades importantes Um estudo preliminar afirma que a duração das viagens pode ser considerada uma va normal com média igual a 300 minutos e desvio padrão 30 minutos As dez primeiras viagens realizadas nessa nova rota apresentaram média igual a 314 minutos Esse resultado comprova ou não o tempo médio determinado nos estudos preliminares Passo 1 Indicando por X a duração de cada viagem e por µ EX queremos testar H0 µ 300 H1 µ 300 Passo 2 Amostras de dez viagens terão média X Nµ σ210 Passo 3 Sob a hipótese de que H0 é verdadeira e pelo fato de σ2 ser conhecido σ 30 teremos X N300 90010 Passo 4 Como o valor observado x0 314 podemos encontrar a probabilidade de ocorrerem amostras com valores de X mais extremos do que esse Como a distribuição de X é normal portanto simétrica tomamos α 014 Nosso problema consiste em decidir se essa probabilidade corresponde ou não à chance de ocorrer um evento raro Por ser uma probabilidade não muito pequena podemos concluir que não existe muita evidência para rejeitar H0 Assim os estudos preliminares parecem estar corretos Um problema que pode ocorrer com o procedimento acima de dobrar a probabilidade é que o valor de α pode ser maior do que um Por isso às vezes é preferível anunciar o valor do valorp unilateral e a direção segundo a qual a observação afastase de H0 No exemplo o resultado indica que a chance de ocorrerem amostras com médias iguais ou superiores a 314 é 7 que é um valor ainda não pequeno Para outro método ver o Problema 43 Se indicarmos genericamente por α o valorp rejeitaremos H0 para aqueles níveis de significância α maiores do que α No Exemplo 127 rejeitaremos H0 por exemplo se α 010 mas não a rejeitaremos se α 005 ou α 001 Ou seja se o nível descritivo for muito pequeno como o caso α 001 do Exemplo 126 há evidências de que a hipótese não seja válida Como vimos nesse exemplo a probabilidade de significância é muitas vezes denotada por p na literatura pvalue Em nosso procedimento de testar uma hipótese estamos usando uma escala de evidências sugerida por Fisher 1954 Suponha que estejamos testando H0 contra H1 e como vimos rejeitamos H0 se o valorp α for bastante pequeno A Tabela 122 extraída de Efron e Gous 1997 ilustra a escala de Fisher contra H0 ou a favor de H1 Tabela 122 Escala de significância de Fisher valorp 010 005 0025 001 0005 0001 Natureza da evidência marginal moderada substancial forte muito forte fortíssima Assim um valor de α 001 indica uma evidência forte contra a validade de H0 α 005 indica uma evidência moderada etc É interessante notar que Fisher tomou como ponto de referência o valor 005 valores do valorp menores do que 005 indicam que devemos rejeitar a hipótese nula As considerações feitas por Fisher referiamse a testes do quiquadrado veja o Capítulo 14 Problemas 16 Suponha que queiramos testar H0 µ 50 contra H1 µ 50 em que µ é a média de uma normal Nµ 900 Extraída uma amostra de n 36 elementos da população obtemos x 52 Calcule o valorp α do teste 17 Os novos operários de uma empresa são treinados a operarem uma máquina cujo tempo X em horas de aprendizado é anotado Observouse que X segue de perto a distribuição N25 100 Uma nova técnica de ensino que deve melhorar o tempo de aprendizado foi testada em 16 novos empregados o quais apresentaram 205 horas como tempo médio de aprendizado Usando o valorp você diria que a nova técnica é melhor que a anterior 129 Teste para a Variância de uma Normal Um teste sobre a variância desconhecida de uma variável com distribuição normal irá usar a distribuição quiquadrado introduzida na Seção 77 Estamos agora em condições de testar as hipóteses 1210 que sabemos agora ter uma distribuição t de Student com n 1 graus de liberdade Fixado o valor de α podemos usar a Tabela V e encontrar o valor tc tal que PT tc 1 α Veja a Figura 1214 Figura 1214 Valores críticos para o teste t Colhida a amostra de n indivíduos calculamos os valores x0 e s2 0 das estatísticas X e S2 respectivamente e depois o valor de T Se o valor dessa estatística for inferior a tc ou superior a tc rejeitase H0 Caso contrário aceitase H0 Para a construção de intervalos de confiança temos que da qual segue o intervalo de confiança 1211 muito parecido com aquele da variância conhecida Exemplo 1210 Um fabricante afirma que seus cigarros contêm não mais que 30 mg de nicotina Uma amostra de 25 cigarros fornece média de 315 mg e desvio padrão de 3 mg No nível de 5 os dados refutam ou não a afirmação do fabricante Passo 1 As hipóteses aqui são Passo 2 Supondo que X a quantidade de nicotina por cigarro tenha distribuição Nµ σ2 a estatística terá distribuição t24 Passo 3 Por ser um teste unilateral devemos procurar o valor tc tal que PT tc 005 Da Tabela V obtemos tc 1711 ou seja a região crítica para a estatística T é RC 1711 Passo 4 O valor observado da estatística é Passo 5 Como t0 pertence à região crítica rejeitamos H0 ou seja há evidências de que os cigarros contenham mais de 30 g de nicotina Outra maneira de proceder é calcular o valorp ou seja α PT t0H0 PT 25H0 001 Esse valor pequeno de α leva à rejeição de H0 Para construir um ICµ 095 verificamos na Tabela V que o valor tγ 2064 e portanto ou seja ICµ 095 3026 3274 Antes de encerrar este capítulo cabe uma observação Quando aceitamos uma hipótese estamos concluindo que temos algum conhecimento sobre a distribuição da variável de interesse Já quando rejeitamos a hipótese a distribuição da variável não fica especificada A construção de intervalos de confiança desempenha um papel importante nessa situação Ressaltamos também que temos usado a expressão aceitamos a hipótese quando o mais correto talvez fosse não rejeitamos a hipótese c Supondo que na realidade µ 330 qual a probabilidade de tirarmos uma conclusão errada 26 Supõese que determinado tipo de indústria deva ter em média 30 empregados Para testar tal hipótese colhese uma amostra de 50 indústrias cujo resultado está abaixo Caso rejeite a hipótese dê um intervalo de confiança para a verdadeira média suponha que s2 σ2 Nº de empregados Frequência 25 35 8 35 45 10 45 55 13 55 65 10 65 75 9 27 Uma fábrica de automóveis anuncia que seus carros consomem em média 11 litros por 100 km com desvio padrão de 08 litro Uma revista resolve testar essa afirmação e analisa 35 automóveis dessa marca obtendo 113 litros por 100 km como consumo médio considerar distribuição normal O que a revista pode concluir sobre o anúncio da fábrica no nível de 10 28 Um dos maiores problemas de uma grande rede de vendas a varejo é a adequação do estoque declarado com o real existente Decidiuse fazer a verificação por meio de procedimentos amostrais Indicando por X o total em unidades monetárias de cada produto em estoque verificouse que X Nµ 400 Serão sorteados 4 produtos O total X de cada um será verificado e calcularseá a média X que será a estatística de decisão Numa determinada filial o valor declarado de µ é 50 Havendo falta esse parâmetro deve ser 45 no caso de excesso 58 a Defina H0 e H1 b Descreva os erros do tipo I e II c Fixando α 10 qual a regra de decisão para julgar se o estoque está correto ou não d Calcule o erro β e Qual o significado de α e β nesse problema 29 Seja X uma va com distribuição binomial com n 15 Considere H0 p 05 contra H1 p 05 com RC 0 1 2 a Calcule a probabilidade do erro de tipo I b Calcule a probabilidade do erro de tipo II quando p 03 c Esboce o gráfico do poder do teste 30 O custo X de manutenção de teares segue uma distribuição normal X Nµ 400 Durante muito tempo o parâmetro µ tem sido adotado como igual a 200 Suspeitase que esse parâmetro aumentou e só nos interessa saber se o novo parâmetro superior a 210 Assim queremos planejar um teste em que α 5 quando µ 200 e β 10 quando µ 210 a Qual deve ser o tamanho da amostra b Qual a RC nesse caso 31 O número médio diário de clientes de um posto de gasolina tem sido 250 com um desvio padrão de 80 clientes Durante uma campanha de 25 dias em que os clientes recebiam um brinde o número médio de clientes foi 280 com um desvio padrão de 50 Você diria que a campanha modificou a distribuição do número de clientes do posto Descreva as suposições feitas para a resolução do problema 32 A receita média em porcentagem dos quase 600 municípios de um estado tem sido 7 O governo pretende melhorar esse índice e para isso está estudando alguns incentivos Para verificar os efeitos desses incentivos sorteou 10 cidades e estudou quais seriam as porcentagens investidas neles Os resultados foram em porcentagem 8 10 9 11 8 12 16 9 12 13 Admitindose que esses números realmente venham a ocorrer os dados trazem evidência de melhoria Caso altere a média do estado dê um intervalo de confiança para a nova média 33 Para o problema anterior construa ICσ2 90 e descreva as suposições consideradas para obtenção da resposta 34 A prefeitura de uma cidade quer estimar a proporção p dos moradores favoráveis à mudança do horário comercial com o intuito de economizar combustível Essa proporção deverá ser estimada com um erro máximo de 5 a um nível de 90 de confiança a Que tamanho deverá ter a amostra se a proporção p esperada deve estar entre 20 e 50 Justifique a resposta b Numa amostra de 400 moradores 160 foram favoráveis à mudança qual seria o intervalo de confiança para p nesse caso com γ 095 35 Numa pesquisa realizada com 2000 proprietários de carros na cidade de São Paulo 800 responderam que pretendem mudar de carro no decorrer do próximo ano Dê um IC de 90 para a proporção de todos os proprietários de carros de São Paulo que pretendem mudar de carro no próximo ano 36 Um fabricante de um certo tipo de aço especial afirma que seu produto tem um severo serviço de controle de qualidade traduzido pelo desvio padrão da resistência à tensão que não é maior do que 5 kg por cm2 Um comprador querendo verificar a veracidade da afirmação tomou uma amostra de 11 cabos e submeteua a um teste de tensão Os resultados foram os seguintes x 263 e s2 48 Estes resultados trazem alguma evidência contra a afirmação do fabricante Use α 005 37 Um escritório de investimento acredita que o rendimento das diversas ações movimentadas por ele foi de 24 Mais ainda a nova estratégia definida deve garantir uma maior uniformidade nos rendimentos das diversas ações No passado o desvio padrão do rendimento era da ordem de 5 Para verificar as duas hipóteses tomaramse 8 empresas ao acaso obtendose os seguintes rendimentos dados em 236 228 257 248 264 243 239 e 25 Quais seriam as conclusões 38 Sendo X o número de sucessos em n 10 provas de Bernoulli queremos testar H0 p 06 Capítulo 13 Inferência para Duas Populações 131 Introdução Neste capítulo abordaremos o tópico importante de comparar duas populações Pl e P2 baseados em dados fornecidos por amostras dessas populações Como vimos uma grande parte das técnicas usadas em Estatística supõe que as variáveis aleatórias envolvidas tenham distribuição normal Alguns testes que trataremos envolverão a normal Contudo se essa suposição de normalidade for violada procedimentos mais robustos têm de ser utilizados e veremos exemplos de tal situação Uma pergunta que aparece frequentemente em Ciência é a seguinte o método A é melhor do que o B Em termos estatísticos ela equivale a comparar dois conjuntos de informações resultantes das medidas obtidas da aplicação dos dois métodos a dois conjuntos de objetos ou indivíduos Uma das dificuldades que enfrentamos é a de caracterizar adequadamente a igualdade ou equivalência de duas populações Por exemplo suponha que estamos interessados em saber se alunos de duas regiões A e B tiveram desempenhos iguais em um mesmo teste nacional Mais ainda suponha que tenhamos os resultados do teste para todos os alunos das duas regiões isto é conhecemos as duas populações Suponha que cálculos posteriores revelem que as médias e desvios padrões das duas populações sejam iguais isto é µA µB e σA σB Será que isso equivale a dizer que os desempenhos nas duas regiões são equivalentes Se uma análise mais cuidadosa não for feita poderemos ser levados a responder afirmativamente a essa questão Entretanto observando a Figura 131 vemos que é possível ter duas distribuições com os mesmos parâmetros acima mas formas bastante distintas Figura 131 Distribuições das populações A e B com µA µB 4 σA σB 116 Esse fato nos remete à necessidade de também mencionarmos a forma da distribuição Especificada a forma a igualdade dos parâmetros que identificam a curva implica a igualdade ou coincidência das duas populações É bem pouco provável que um mesmo fenômeno obedeça a formas de distribuições distintas como no exemplo da Figura 131 Seguir uma mesma distribuição porém com parâmetros distintos é mais verossímil Como a normal é um modelo importante e seguido por muitas variáveis de interesse prático estaremos admitindo essa forma a não ser quando uma análise dos dados nos diga o contrário Neste capítulo trataremos de várias situações que passamos a descrever 1 Inferências para duas médias amostras independentes Aqui temos dados na forma de duas amostras extraídas independentemente de cada população É muito comum em experimentos do tipo controle versus tratamento nos quais o interesse principal é verificar o efeito desse último O caso típico é aquele de comparar uma nova droga com uma padrão usadas para o tratamento de uma doença Exemplo 131 a Um curso de Estatística é ministrado pela televisão para um grupo de alunos e ao vivo para outro grupo Queremos testar a hipótese de que o curso ao vivo é mais eficaz que o curso por meio da televisão b Queremos comparar o efeito de duas rações A e B sobre o crescimento de porcos Dois grupos de porcos em crescimento foram alimentados com as duas rações e após cinco semanas verificamse quais foram os ganhos de peso dos porcos dos dois grupos c 20 canteiros foram plantados com uma variedade de milho Em dez deles um novo tipo de fertilizante é aplicado e nos outros um fertilizante padrão Examinandose as produções dos dois canteiros queremos saber se há diferenças significativas entre as produções Na maioria das vezes fica claro o que chamamos de controle e tratamento No exemplo c acima os canteiros tratados com o novo fertilizante seriam o grupo de tratamento enquanto os demais tratados com o fertilizante usual constituiriam o grupo de controle Mas nos exemplos a e b essa distinção é apenas convencional Formalmente o modelo para o problema das duas amostras é o seguinte as va X1 Xm representam as respostas do grupo de controle e são consideradas va independentes com a mesma distribuição P1 Y1 Yn representam as respostas do grupo de tratamento e são v a independentes com a mesma distribuição P2 Além disso X1 Xm Y1 Yn são independentes entre si A hipótese a ser testada é H0 P1 P2 131 ou seja queremos testar a homogeneidade das populações de onde as amostras foram extraídas H0 é chamada hipótese de homogeneidade O significado de 131 dependerá muito do interesse do pesquisador em considerar qual tipo de igualdade implicará a coincidência das duas distribuições Admitamos que tanto P1 como P2 sigam uma distribuição normal ou seja P1 Nµ1 σ2 1 e P2 Nµ2 σ2 2 Na Figura 132 temos as quatro situações possíveis Observando os gráficos da Figura 132 não temos dúvidas em reconhecer que as duas populações são iguais no caso a e diferentes no caso d Já nos outros dois casos podem existir situações em que elas possam ser consideradas iguais ou não Por exemplo uma pesquisa para verificar se o salário médio da região P1 é o mesmo da região P2 aceita como resposta verdadeira tanto a situação a como a b Outra pesquisa para verificar se dois processos produzem peças com a mesma qualidade em termos de dispersão aceita como verdadeiras as situações a ou c Assim a estratégia para comparar duas populações por meio de seus parâmetros envolve suposições sobre a forma das distribuições para depois testar médias e variâncias É comum estarmos interessados em testar apenas que P1 e P2 difiram em localização ou posição isto é a alternativa a H0 é que P1 esteja à direita de P2 ou o contrário mas que ambas tenham a mesma dispersão caso µ1 µ2 e σ1 σ2 da figura Nesse caso H0 será equivalente a H0 0 132 com µ2 µ1 Figura 132 a µ1 µ2 σ1 σ2 b µ1 µ2 σ1 σ2 c µ1 µ2 σ1 σ2 d µ1 µ2 σ1 σ2 Os testes t de Student e de Wilcoxon descritos a seguir são apropriados para esse tipo de situação O teste t é aplicável quando P1 e P2 supostas são normais com médias µ e µ respectivamente e com a mesma variância O teste de Wilcoxon aplicase para P1 e P2 quaisquer mas suponhase que a escala de medidas seja pelo menos ordinal A análise fica mais fácil quando a P1 e P2 são atribuídas distribuições de variáveis contínuas Discutiremos a razão desta suposição adicional Outro caso de interesse é aquele em que queremos testar se as duas médias são iguais mas as variâncias são diferentes Na Figura 131 as duas curvas teriam dispersões diferentes ao redor de suas médias Então um teste preliminar de igualdade de variâncias seria necessário O teste t de Student para o caso de populações normais será apresentado neste capítulo A hipótese 131 ou 132 nos diz que não há efeito do tratamento A alternativa usual para H0 é que o efeito do tratamento é o de aumentar as respostas Isto é P2 gera valores maiores que P1 com maior frequência Mas pode ocorrer o contrário diminuir as respostas Por exemplo o tratamento visa a diminuir o tempo para executar determinada tarefa 2 Inferências para duas médias amostras dependentes Quando se comparam as médias de duas populações pode ocorrer uma diferença significativa por causa de fatores externos não controlados Por exemplo no caso do Exemplo 134 abaixo poderia ocorrer que um dos grupos tivesse vendedores mais experientes e habilidosos do que o outro Logo a diferença seria devido a esses fatos e não ao mérito real da técnica de vendas Um modo de contornar esse problema é coletar as observações em pares de modo que os dois elementos de cada par sejam homogêneos em todos os sentidos exceto no que diz respeito ao fator que queremos comparar Por exemplo no caso do Exemplo 131 a para testar os dois métodos de ensino poderíamos usar n pares de gêmeos sendo que um elemento de cada par recebe aulas pela TV e outro ao vivo Esse procedimento pretende controlar o maior número possível de fatores externos que possam afetar o aprendizado Se houver diferença no aprendizado essa deverseá realmente ao método Esse procedimento também é usado quando observações das duas amostras são feitas no mesmo indivíduo por exemplo medindo uma característica do indivíduo antes e depois de ele ser submetido a um tratamento O teste t de Student para observações pareadas ou emparelhadas supondo normalidade é apropriado para essas situações 3 Inferências para duas variâncias amostras independentes Como vimos no item 1 podemos testar se duas amostras independentes provêm de duas populações com variâncias iguais desconhecidas Se essas variâncias forem diferentes o teste tem de ser modificado Esse teste sob a suposição de normalidade das duas populações usa uma estatística que tem uma distribuição especial chamada F de Snedecor Finalizando esta seção ressaltamos que poderemos ter mais do que duas amostras e técnicas semelhantes podem ser desenvolvidas Veja o Capítulo 15 132 Comparação das Variâncias de Duas Populações Normais A situação que vamos considerar nesta seção envolve a utilização da distribuição F estudada na Seção 77 A descrição a seguir é importante Uma das distribuições amostrais mais usadas e que corresponde a uma distribuição F resulta do seguinte problema Suponha que temos duas amostras independentes de tamanhos n1 e n2 retiradas de duas populações normais com a mesma variância σ2 Indiquemos os estimadores de σ2 obtidos das amostras por S2 1 e S2 2 respectivamente Já vimos que e portanto a va Máquina A 145 127 136 142 141 137 Máquina B 143 128 132 138 142 132 As hipóteses a serem testadas são H0 σ2 A σ2 B σ2 H1 σ2 A σ2 B Sob a suposição de normalidade das medidas de resistência à tensão para as duas máquinas temos que a va W definida por 134 tem uma distribuição F55 Fixando α 010 e consultando a Tabela VI teremos RC 0 5051 505 Das amostras encontramos s2 A 40 e s2 B 37 portanto w0 108 Como esse valor não pertence à região crítica aceitamos H0 ou seja as máquinas produzem com a mesma homogeneidade quanto à variabilidade Caso tivéssemos rejeitado a hipótese de igualdade das variâncias seria conveniente obter um intervalo de confiança para o quociente das duas variâncias De 133 podemos escrever quando σ2 1 σ2 2 e para um dado γ 0 γ 1 podemos encontrar dois valores f1 e f2 tais que Pf1 Fn 1 m 1 f2 γ Dessa igualdade seguese que com probabilidade γ ou seja o ICσ2 2σ2 1 γ será dado por 135 Exemplo 133 Suponha que para outras seis medidas para as máquinas A e B do Exemplo 132 tivéssemos S2 A 85 e S2 B 8 Como w0 858 1062 rejeitaríamos H0 Então o IC dado por 135 ficaria com γ 090 ou seja Invertendose obtemos também que indica a variação possível no nível fixado da razão entre as duas variâncias Note que sob H0 temos σ2 Aσ2 B 1 que não pertence a esse intervalo Problemas 1 Da população X N50 100 retirouse uma amostra casual simples de n 10 elementos Da população Y N60 100 retirouse uma amostra casual simples de m 6 indivíduos independente da primeira Obtemos as variâncias amostrais S2 1 e S2 2 respectivamente a Encontre o valor de a tal que PS2 1S2 2 a 95 b Encontre o valor de b tal que PS2 1S2 2 b 95 2 Por que em 133 as va U e V são independentes 3 Uma das maneiras de medir o grau de satisfação dos empregados de uma mesma categoria quanto à política salarial é por meio do desvio padrão de seus salários A fábrica A diz ser mais coerente na política salarial do que a fábrica B Para verificar essa afirmação sorteouse uma amostra de 10 funcionários não especializados de A e 15 de B obtendose os desvios padrões sA 1000 reais e sB 1600 reais Qual seria a sua conclusão 4 Desejase comparar a qualidade de um produto produzido por duas fábricas Essa qualidade será definida pela uniformidade com que o produto é produzido em cada fábrica Tomaramse duas amostras uma de cada fábrica medindose o comprimento dos produtos o resumo dos resultados está no quadro abaixo A qualidade das duas fábricas é a mesma Caso a sua resposta seja negativa dê um intervalo de confiança para indicar a intensidade dessa desigualdade Estatísticas Fábrica A Fábrica B Amostra 21 17 Média 2115 2112 Variância 00412 01734 133 Comparação de Duas Populações Amostras Independentes Nesta seção estudaremos o caso em que temos duas amostras independentes X1 Xn e Y1 Ym de duas populações P1 e P2 respectivamente Estaremos interessados em comparar as médias dessas populações verificando se elas podem ser consideradas iguais ou não No caso de populações normais teremos preliminarmente de usar o que aprendemos na seção anterior para testar se as variâncias de P1 e P2 são iguais Consideraremos duas situações na primeira iremos supor que as populações sejam normais reveja os Problemas 32 33 e 34 do Capítulo 10 os Problemas 31 e 32 do Capítulo 11 e o Problema 29 do Capítulo 12 na segunda essa suposição não é necessária 1331 Populações Normais Aqui P1 Nµ1 σ2 1 e P2 Nµ2 σ2 2 Queremos testar a hipótese 131 que aqui fica escrita na forma H0 µ1 µ2 Na situação da Figura 132 c a alternativa adequada é H1 µ2 µ1 mas supondo as variâncias iguais Se estivermos apenas interessados em verificar se existe diferença entre as médias das duas populações não importando a direção então a alternativa adequada será H1 µ1 µ2 viesados de σ2 podemos combinálos para obter um estimador comum 1310 que também é um estimador não viesado de σ2 Mais ainda cada parcela do numerador de 1310 quando dividida por σ2 terá distribuição quiquadrado com n 1 e m 1 graus de liberdade respectivamente Logo teremos que 1311 Pelo Teorema 71 a estatística 1312 terá uma distribuição t de Student com n m 2 graus de liberdade sob a hipótese H0 isto é se µ1 µ2 Tabela 131 Dados para duas técnicas de vendas Dados Vendas Técnica A Técnica B Média 68 76 Variância 50 52 Vendedores 12 15 Exemplo 134 Duas técnicas de venda são aplicadas por dois grupos de vendedores a técnica A por 12 vendedores e a técnica B por 15 vendedores Esperase que a técnica B produza melhores resultados No final de um mês obtiveramse os resultados da Tabela 131 Vamos testar para o nível de significância de 5 se há diferenças significativas entre as vendas resultantes das duas técnicas Supondo que as vendas sejam normalmente distribuídas e usando o teste da Seção 132 vemos que σ2 A σ2 B As hipóteses a serem testadas ficam H0 µA µB H1 µA µB Pelas suposições acima podemos usar a estatística 1312 com n 12 m 15 e S2 p 11S2 A 14S2 B25 Da Tabela V obtemos RC 1708 Da Tabela 131 calculamos Como t0 RC rejeitamos H0 ou seja existe evidência de que a técnica B produz melhores resultados do que a técnica A Encontrada diferença entre os métodos a continuação natural é construir um intervalo de confiança para a diferença µB µA Do resultado 1312 é fácil verificar que Para o nosso exemplo com γ 095 esse intervalo reduzse a b Variâncias Desiguais Desconhecidas Quando a hipótese de igualdade de variâncias for rejeitada devemos usar a estatística 1313 Podese provar que sob a veracidade de H0 a va T aproximase de uma distribuição t de Student com o número de graus de liberdade dado aproximadamente por 1314 na qual A s2 1n B s2 2m ambos os casos deve ser da ordem de 20 unidades É possível afirmar que o gasto médio nas duas filiais seja o mesmo Caso contrário dê um intervalo de confiança para a diferença 7 Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas especiais Para verificar o efeito dos tratamentos foram usadas amostras cujos resultados estão no quadro abaixo em porcentagem de corrosão eliminada Qual seria a conclusão sobre os dois tratamentos Método Amostra Média Desvio Padrão A 15 48 10 B 12 52 15 8 No Problema 4 teste a hipótese de que as médias dos comprimentos do produto produzido pelas duas fábricas são iguais 9 Para investigar a influência da opção profissional sobre o salário inicial de recém formados investigaramse dois grupos de profissionais um de liberais em geral e outro de formados em Administração de Empresas Com os resultados abaixo expressos em salários mínimos quais seriam suas conclusões Liberais 66 103 108 129 92 123 70 Administradores 81 98 87 100 102 82 87 101 1332 Populações Não Normais Passamos agora a descrever um teste que não faz suposições a respeito da forma das distribuições P1 e P2 a não ser que as variáveis envolvidas tenham uma escala de medida pelo menos ordinal Ou seja podemos abordar o caso de variáveis qualitativas ordinais e variáveis quantitativas Esse teste chamado de Wilcoxon ou de MannWhitney pertence a uma categoria de procedimentos chamados não paramétricos ou livres de distribuição Teremos para análise amostras independentes das duas populações e queremos testar a hipótese 131 contra a alternativa de que as distribuições diferem em localização estaremos interessados em saber se uma população tende a ter valores maiores do que a outra ou se elas têm a mesma mediana ou média O teste de Wilcoxon é baseado nos postos dos valores obtidos combinandose as duas amostras Isso é feito ordenandose esses valores do menor para o maior independentemente do fato de qual população cada valor provém A estatística do teste é a soma dos postos associados aos valores amostrados de uma população P1 por exemplo Se essa soma for grande isso é uma indicação de que os valores dessa população tendem a ser maiores do que os valores de P2 e então rejeitamos 131 No caso de termos uma va qualitativa ordinal comumente associamos números às diversas categorias ou classes ou atributos segundo as quais a variável é classificada Por exemplo podemos ter 1 para bom 2 para muito bom e 3 para ótimo Vemos então que esses valores são os postos nesse caso e em outras situações é preferível trabalhar com postos do que com valores arbitrários associados à va qualitativa Quando trabalhamos com va quantitativas poderemos ter valores repetidos nas amostras Veremos como associar postos nesse caso Para evitar esses empates uma possibilidade é supor que a va seja contínua de modo que se X for uma tal variável PX x0 0 Essa suposição é eventualmente necessária para o desenvolvimento teórico do teste mas na prática quer X seja contínua ou discreta valores repetidos poderão aparecer a Observações Distintas Suponha que tenhamos N observações Z1 Z2 ZN Ordenando as da menor para a maior obtemos as estatísticas de ordem Z1 Z2 ZN Inicialmente suponha que não haja observações coincidentes de modo que os sinais de são substituídos por Então associamos números normalmente 1 2 N chamados postos que correspondem às posições das observações na ordenação O posto de Zi é igual a 1 número de Zj Zi Assim dadas as observações Z1 03 Z2 15 Z3 05 Z4 20 os postos de Z1 Z2 Z3 e Z4 serão respectivamente R1 2 R2 3 R3 1 R4 4 já que a ordenação resulta em 05 03 15 20 ou Z3 Z1 Z2 Z4 Exemplo 136 Num estudo sobre um novo método para ensinar Matemática elementar foram selecionadas cinco crianças Destas três são escolhidas ao acaso e ensinadas segundo o novo método enquanto as outras duas funcionaram como controle e receberam instrução por um método tradicional Após um período de cinco semanas é feito um teste e as crianças são ordenadas segundo seu desempenho a criança que tiver menor nota recebe posto 1 etc até a criança que tiver maior nota recebe posto 5 O método de ensino será considerado eficaz se as três crianças que recebem o novo método tiverem postos altos nessa ordenação combinada das cinco crianças Seja H0 a hipótese nula que especifica que o tratamento novo método não tem efeito isto é a nota da criança não é afetada se ela for ou não ensinada pelo novo método Se H0 for verdadeira o posto atribuído a cada criança é determinado somente pela sua inteligência ou seja a ordenação das crianças não depende de qual recebe tratamento e qual funciona como controle A Tabela 133 mostra todos os casos possíveis para a ordenação em que C indica controle e T tratamento Tabela 133 Valores de WS para o Exemplo 136 Postos WS 1 2 3 4 5 C C T T T 12 C T C T T 11 T C C T T 10 C T T C T 10 T C T C T 9 C T T T C 9 T C T T C 8 T T C T C 7 T T T C C 6 T T C C T 8 Vemos que as crianças e seus postos podem ser divididos em dois grupos tratados e controles de maneiras diferentes A suposição de que as três crianças recebendo o tratamento são selecionadas ao acaso e de que os tratamentos são equivalentes implica que todas as dez possibilidades têm a mesma probabilidade 110 Consideremos a estatística WS S1 S2 S3 1315 em que S1 S2 e S3 são os postos das crianças que receberam o tratamento na amostra combinada Poderíamos considerar como regra de decisão para rejeitar H0 a ocorrência de WS 12 correspondendo à ocorrência de CCTTT clara superioridade do tratamento Qual seria a probabilidade de esse evento ocorrer por mero acaso ou seja quando os dois métodos são equivalentes Nesse caso teremos PWS 12H0 verdadeiro 010 que é a probabilidade do erro de tipo I ou seja o nível de significância do teste Mas como vimos antes usualmente procedemos de maneira oposta ou seja fixamos α e não a regra de decisão Como vimos acima rejeitamos H0 para valores grandes de WS ou seja WS c em que c é uma constante determinada a partir do nível de significância do teste α Obtemos o teste de Wilcoxon Rejeite H0 se WS c em que c é determinada por PWS cH0 é verdadeira α A distribuição nula isto é sob H0 de WS é obtida da Tabela 133 e está na Tabela 134 Tabela 134 Distribuição de WS observações distintas w 6 7 8 9 10 11 12 PWS w 110 110 210 210 210 110 110 A distribuição de WS é simétrica ao redor do valor 9 que como veremos representa a média de WS dada por nN 12 com N n m Ver Figura 133 Figura 133 Distribuição de WS para o Exemplo 136 Se por exemplo α 005 não existe valor satisfazendo PWS c 005 Podemos encontrar c somente para valores de α iguais a 01 02 04 etc Por exemplo se α 01 então PWS 12 01 e c 12 Consideremos agora a situação geral Queremos testar 131 Temos duas amostras independentes X1 Xn de P1 e Y1 Ym de P2 Seja N n m e combinamos as duas amostras numa só ordenamos os N valores no menor para o maior e chamemos S1 S2 Sm os postos dos Yi tratamentos e R1 R2 Rn os postos dos Xi controles Estamos supondo que não haja empates Seja WS S1 S2 Sm 1316 a soma dos postos dos tratamentos Rejeitamos H0 se WS c No caso bilateral rejeite H0 se WS c1 ou WS c2 para dado α Não é difícil verificar que se a distribuição de P1 for contínua então 1317 em que s1 s2 sm e si 1 2 N N n m Observação Por 1317 vemos que a distribuição dos postos e portanto de WS não depende de P1 Isso não ocorrerá se P1 não for contínua Se as distribuições P1 e P2 forem contínuas há ausência de empates isto é coincidência entre valores de X e de Y Isso significa que poderíamos considerar nossas medidas de X e Y de tal sorte que coincidências seriam evitadas Na prática contudo as medidas são feitas em geral com o mesmo número de casas decimais de modo que empates podem ocorrer Essa situação é analisada abaixo A distribuição sob H0 de WS pode ser encontrada como no Exemplo 136 Para dado valor de w verificamos quantas amostras de tamanho m retiradas de P 1 2 N fornecem o valor de w Se w n m indicar esse número então por 1317 1318 Podese provar o seguinte resultado veja por exemplo Lehmann 1975 Teorema 131 Para a estatística WS temos 1319 1320 Além disso a distribuição de WS pode ser aproximada pela distribuição normal quando n m a va 1321 tem uma distribuição aproximada N0 1 Uma estatística equivalente a WS é 1322 chamada estatística de MannWhitney Há duas vantagens em se usar US a a distribuição de US para n n1 e m m1 é a mesma que a distribuição de US quando os tamanhos são invertidos isto é para n m1 e m n1 Isso não acontece com WS b o valor mínimo de WS é obtido quando os postos dos m tratamentos são 1 2 m e 1 2 m mm 12 logo o valor mínimo de US é zero para quaisquer valores de n e m simplificando a construção de tabelas A Tabela VIII do Apêndice dá os valores de PUS u Para essa estatística temos o resultado seguinte Teorema 132 A média e variância de US são dadas por 1323 e 1324 respectivamente Além disso a distribuição de US pode também ser aproximada por uma normal Exemplo 137 Suponha que m n 10 e queremos calcular PWS 87 O valor tabelado é 00952 que é encontrado na Tabela VIII com n m 10 e levandose em conta que US 87 10 112 32 e portanto PUS 32 00952 Por outro lado usando a aproximação normal EWS 105 VarWS 175 temos que está bem próxima do valor encontrado usandose a tabela A aproximação pode ser melhorada usandose a correção de continuidade discutida na Seção 75 pois aqui também estamos aproximando a distribuição de uma va discreta WS por uma distribuição de variável contínua normal Verifique que usando essa correção obtemos PWS 87 00934 b Observações Não Todas Distintas Consideremos agora a situação em que haja observações coincidentes ou empates Suponha por exemplo que n 3 m 2 e as observações são 13 15 15 21 25 Nesse caso usamos postos médios Associamos o posto 1 à observação 13 às duas observações empatadas 15 associamos a média dos postos 2 e 3 que seriam atribuídas se as observações fossem distintas ou seja atribuímos o posto 2 32 25 à observação 21 atribuímos o posto 4 e à observação 25 atribuímos o posto 5 Embora a atribuição de postos seja diferente nesse caso continuaremos a usar a mesma notação anterior para os postos das observações Xi e Yi A distribuição da estatística WS não é mais dada por 1317 pois os valores de S1 Sm não são mais os anteriores Retomemos o exemplo dado Temos que a distribuição conjunta dos postos S1 e S2 será PS1 1 S2 25 210 PS1 1 S2 4 110 PS1 1 S2 5 110 PS1 S2 25 110 PS1 25 S2 4 210 PS1 25 S2 5 210 PS1 4 S2 5 110 pois ainda cada uma das escolhas de dois dos postos médios como S1 e S2 são igualmente prováveis Portanto a distribuição de WS S1 S2 é dada pela Tabela 135 Tabela 135 Distribuição de WS observações nãodistintas w 35 50 60 65 75 90 PWS w 210 210 110 210 210 110 Observe que a distribuição da va WS nesse caso não é simétrica será simétrica ao redor de mN 12 se n m Genericamente o teste de Wilcoxon no caso de observações empatadas rejeita H0 usando a mesma regra de decisão que no caso de observações não empatadas exceto que a distribuição de WS vai depender de n m e dos números de observações empatadas em cada valor ao contrário da situação de não empates para a qual a distribuição de WS depende somente de n e m Exemplo 138 Supondo n 3 m 2 as observações dos controles são 13 15 e 21 e as observações dos tratamentos são 15 e 25 Então S1 25 S2 5 R1 1 R2 25 R3 4 e WS S1 S2 75 Pelo que vimos acima o valorp será α PWS 75 210 110 03 logo não rejeitaremos H0 nos níveis usuais Suponha que temos d1 observações empatadas no menor valor d2 observações empatadas no segundo menor valor etc até de observações empatadas no maior valor em que e é o número de valores distintos Denominamos e d1 de de configuração de empates e a distribuição de WS dependerá dessa configuração Assim sendo tabelas teriam de ser construídas para cada configuração de empates o que não é prático O que se faz é o seguinte se o número de empates for pequeno continue a usar a Tabela VIII Caso contrário use a aproximação normal Nesse caso a média de WS é a mesma anterior mas a variância é igual à anterior menos uma correção devida aos empates 1325 A aproximação normal será adequada se m e n forem relativamente grandes e as proporções diN não forem próximas de 1 Exemplo 139 Em aparelhos dentários são usados grampos de dois tipos um modelo em T e outro circunferencial C O objetivo é verificar se a resistência à remoção de grampos em T é a mesma do modelo C Foram usados 40 corpos de provas dentegrampo sendo 20 para o modelo T e 20 para o modelo C com cinco leituras para cada corpo de prova num total de 100 observações para cada modelo As Figuras 134 e 135 mostram os histogramas para os dois modelos a resistência sendo medida em kg Figura 134 Resistência à remoção em kg para o modelo C Figura 135 Resistência à remoção em kg para o modelo T Vemos que há assimetrias nos histogramas sugerindo que a aplicação do teste t de Student não é adequada nessa situação A Tabela 136 mostra as médias das 5 leituras para cada corpo de prova para o modelo T e para o modelo C em ordem crescente Admitamos que o grupo de controle seja aquele em que os grampos sejam do tipo T e grampos do tipo C constituam o tratamento Ordenando as médias da Tabela 136 e atribuindo postos obtemos a Tabela 137 Tabela 136 Valores de resistência à remoção para os dois modelos T C T C 060 052 119 119 063 077 120 120 083 079 126 134 085 079 128 136 091 081 130 138 095 081 137 143 101 089 145 164 103 098 154 171 103 101 168 216 116 118 220 225 Tabela 137 Postos para o Exemplo 139 Média 052 060 063 077 079 079 081 081 083 085 Tipo C T T C C C C C T T Posto 1 2 3 4 55 55 75 75 9 10 Média 089 091 095 098 101 101 103 103 116 118 Tipo C T T C C T T T T C Posto 11 12 13 14 155 155 175 175 19 20 Média 119 119 120 120 126 128 130 134 136 137 Tipo C T T C T T T C C T Posto 215 215 235 235 25 26 27 28 29 30 Média 138 143 145 154 164 168 171 216 220 225 Tipo C C T T C T C C T C Posto 31 32 33 34 35 36 37 38 39 40 Aqui n m 20 e queremos testar H0 a resistência à remoção é a mesma para os dois tipos de grampos H1 o tipo C apresenta menor resistência à remoção do que o do tipo T A soma dos postos dos tratamentos é WS S1 S2 S20 4065 Usando a aproximação normal a va 1326 em que VarWS é dada por 1325 e terá distribuição aproximadamente N0 1 Consultando a Tabela 137 temos d1 d2 d3 d4 1 d5 2 d6 2 d7 d12 1 d13 2 d14 2 d15 d16 1 d17 2 d18 2 d19 d34 1 Aqui temos e 34 valores distintos e EWS 20 412 410 VarWS 20 20 4112 20 2012 40 39 8 2 6 1366667 2857 1363810 O valor de 1326 é Z 4065 4103693 0095 Como rejeitaremos H0 se WS c no nível α 005 devemos comparar esse valor com o valor 164 da normal padrão portanto não rejeitamos H0 Vemos que o valorp do teste é α PWS 4065 PZ 0095 046 que é uma indicação de que a hipótese H0 deve ser aceita Observação Comparação entre o Teste t e o Teste de Wilcoxon O teste t baseiase na suposição de que as populações P1 e P2 sejam normais Uma violação dessa suposição altera a distribuição da estatística usada no teste e muda as probabilidades dos erros de tipo I e II Dizemos que um teste é robusto contra a violação de uma suposição se suas probabilidades de erro de tipo I e II não são afetadas de forma apreciável pela violação Podese mostrar que o teste t é pouco sensível à heterogeneidade de variâncias se m n mas ele será mais afetado se as variâncias forem diferentes e m n Os testes t e de Wilcoxon são comparados pelos de seus poderes em termos de uma quantidade chamada eficiência relativa assintótica mas não entraremos em detalhes aqui sobre esse assunto Mas podemos resumir a situação da seguinte maneira a o teste t é mais poderoso quando temos populações normais mas a perda de eficiência do teste de Wilcoxon é pequena menos de 5 nesse caso b haverá pouca diferença entre os dois testes para distribuições próximas da normal c o teste de Wilcoxon é mais eficiente para distribuições que têm caudas mais pesadas do que a normal Para se ter uma ideia do que significa mais pesada observamos que as distribuições t e Cauchy têm distribuições com caudas mais pesadas que a normal Se P1 e P2 forem ambas uniformes podese provar que os dois testes são igualmente eficientes e se P1 e P2 forem ambas exponenciais o teste de Wilcoxon é três vezes mais eficiente Problemas 10 Vinte canteiros foram plantados com milho Em dez deles um novo tipo de fertilizante foi aplicado obtendose as produções abaixo Há diferenças significativas entre as produções A alternativa é que o novo fertilizante tende a produzir valores maiores Tome α 005 Calcule α Controle 71 60 80 70 66 74 70 70 69 68 Tratamento 69 68 75 68 69 68 68 68 67 66 11 Obtenha a distribuição nula de WS para os casos a m 2 n 2 b m 2 n 4 c m n 3 12 Calcule as seguintes probabilidades usando a Tabela VIII e a aproximação normal a m 6 n 7 PWS 48 b m 8 n 10 PWS 65 c m 10 n 10 PWS 63 13 Encontre a distribuição nula de WS no caso de empates para os casos a m n 3 d1 d2 1 d3 2 d4 d5 1 b m n 3 d1 d2 d3 2 c m 2 n 3 d1 d2 1 d3 3 14 Faça os histogramas para WS nos Problemas 11 e 13 15 Suponha que as observações dos tratamentos sejam 3 3 5 e 7 e as observações dos controles sejam 1 4 e 8 e que o teste de Wilcoxon rejeite para valores grandes de WS Calcule α PWS w em que w é o valor observado de WS 134 Comparação de Duas Populações Amostras Dependentes Na Seção 131 já discutimos essa situação Aqui temos duas amostras X1 Xn e Y1 Yn só que agora as observações são pareadas isto é podemos considerar que temos na realidade uma amostra de pares X1 Y1 Xn Yn Se definirmos a va D X Y teremos a amostra D1 D2 Dn resultante das diferenças entre os valores de cada par Observe que reduzimos a um problema com uma única população conforme estudado nos capítulos anteriores Consideraremos dois casos no primeiro supomos que a população das diferenças é normal no segundo supomos que essa população é simétrica 1341 População Normal Nessa situação faremos a seguinte suposição a va D tem distribuição normal NµD σ2 D Podemos deduzir daqui que 1327 terá distribuição NµD σ2 Dn Considere 1328 Pelo Teorema 71 a estatística 1329 terá distribuição t de Student com n 1 graus de liberdade Como µD ED EX Y EX EY µ1 µ2 qualquer afirmação sobre o µ1 µ2 corresponde a uma afirmação sobre µD Exemplo 1310 Cinco operadores de certo tipo de máquina são treinados em máquinas de duas marcas diferentes A e B Mediuse o tempo que cada um deles gasta na realização de uma mesma tarefa e os resultados estão na Tabela 138 Tabela 138 Tempos para realização de tarefa para cinco operadores Operador Marca A Marca B 1 80 75 2 72 70 3 65 60 4 78 72 5 85 78 Com o nível de significância de 10 poderíamos afirmar que a tarefa realizada na máquina A demora mais do que na máquina B Estamos interessados em testar H0 µA µB H1 µA µB Essas hipóteses são equivalentes a H0 µD 0 H1 µD 0 Como é o mesmo operador que realiza a tarefa nas duas máquinas estamos diante do caso em que se pode usar variáveis emparelhadas Vamos admitir que sob H0 a diferença de tempo segue uma distribuição normal N0 σ2 D Logo usamos a estatística 1329 Para determinar a região crítica note que devido à forma de H1 devemos encontrar tc tal que PT tc 010 sendo que T tem distribuição t4 Usando a Tabela V obtemos RC 154 Da Tabela 138 obtemos os valores de D di 5 2 5 6 7 e portanto d 5 e s2 D 35 O valor observado da estatística T é Seguese que rejeitamos H0 ou seja demorase mais para realizar a tarefa com a máquina A Podemos construir um intervalo de confiança para µD para γ 090 ou seja ICµD 090 322 678 1342 População Não Normal Vamos considerar agora um teste baseado nos postos das diferenças Di o chamado teste dos postos sinalizados de Wilcoxon Para esse teste supomos que a escala das diferenças seja pelo menos intervalar e que os pares Xi Yi constituam uma AAS Isso implica em particular que os Di são independentes com a mesma mediana Suponha ainda que cada Di tenha uma distribuição simétrica Ou seja as médias e medianas coincidem Exemplo 1311 Suponha que se possa simular um modelo por meio de duas linguagens computacionais que chamaremos A e B Supostamente o tempo usando B é menor que o tempo usando A Cinco pares de alunos são selecionados para o teste de modo que cada membro de um par tenha a mesma habilidade computacional nas duas linguagens do que o outro Um membro de cada par é escolhido ao acaso e este vai usar a linguagem B o outro usará A O tempo de simulação em segundos de cada linguagem é anotado obtendose a Tabela 139 Tabela 139 Tempos de simulação em segundos para as linguagens A e B Par 1 2 3 4 5 tempo de BX 300 410 420 410 400 tempo de AY 350 390 490 435 440 D X Y 50 20 70 25 40 Posto de D 4 1 5 2 3 Posto sinalizado 4 1 5 2 3 Queremos testar a hipótese de que os tempos são semelhantes contra a hipótese de que os tempos de B são menores Ou ainda H0 µB µA µD 0 H1 µB µA µD 0 Na quarta linha da Tabela 139 estão apresentadas as diferenças Di e os postos são calculados a partir das variáveis Di ou seja os módulos ou valores absolutos dos Di quinta linha A sexta linha posto sinalizado é obtida atribuindose ao posto de Di o sinal correspondente de Di Por exemplo para a primeira observação D1 300 350 50 com D1 50 que tem posto 4 e portanto posto sinalizado 4 Notamos que só há um posto positivo 1 Se indicarmos por T a soma dos postos positivos rejeitaremos H0 se T for pequeno É claro que podemos trabalhar com os postos negativos também e considerar T soma dos postos negativos No exemplo T 1 e T 14 Usando T rejeitaremos H0 se esta for grande Note que T T 15 que é a soma de todos os postos dos Di que por sua vez é nn 12 sendo n 5 o número de pares Em geral devemos usar a menor soma Trabalhemos com T Para conduzir o teste devemos obter a distribuição dessa estatística sob a hipótese nula H0 Para isso note que se H0 for verdadeira cada posto tem a mesma probabilidade de ser associado com um sinal ou com um sinal Logo a sequência de postos sinalizados é uma de todas as possíveis combinações de 1 2 5 Há 25 32 tais combinações todas equiprováveis sob H0 ou seja com probabilidade 132 Na Tabela 1310 temos todas as possibilidades juntamente com o valor de T Na Tabela 1311 temos a distribuição de T Note que a distribuição de T é simétrica com média e mediana iguais a 75 Tabela 1310 Sinais possíveis para os postos Exemplo 1310 1 2 3 4 5 T 1 2 3 4 5 T 15 7 14 7 13 7 12 6 12 6 11 6 11 5 10 5 10 5 10 4 9 4 9 3 9 3 8 2 8 1 8 0 Tabela 1311 Distribuição de T sob H0 T 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Frequência 1 1 1 2 2 3 3 3 3 3 3 2 2 1 1 1 O valorp do teste é PT 1H0 232 006 usando a Tabela 1311 Ou seja há indicação de que o tempo de simulação usando a linguagem B é menor do que o tempo de A Observe que temos poucos pares e o valor α 006 não é tão pequeno reveja a Tabela 122 Mas como temos somente um posto positivo dentre cinco somos levados a duvidar da validade de H0 Vejamos agora o caso geral Tomemos os valores absolutos das diferenças ou seja Di Xi Yi i 1 m Quando Xi Yi omitir a diferença correspondente e seja n o número de diferenças estritamente diferentes de zero Associemos a cada par Xi Yi o posto do módulo de Di correspondente Use postos médios se houver Di coincidentes A hipótese a ser testada é que a média ou a mediana das diferenças seja igual a zero contra a alternativa que não seja Testes unilaterais podem também ser considerados Ou seja dada a simetria da distribuição dos Di iremos testar H0 µD 0 H1 µD 0 em que µD representa como antes a média das diferenças Considere 1330 em que RXi Yi é o posto associado a Xi Yi Temos dois casos a tratar a Se não houver empates use a estatística 1331 ou seja a soma dos postos positivos Use a Tabela IX página 528 para obter os quantis wp da estatística ou seja o valor tal que PT wp p e PT wp 1 p se H0 for verdadeira Para n 50 use a aproximação normal com média e variância dados no teorema abaixo Para p 05 o quantil é dado por b Se houver empates use a estatística 1332 que tem uma distribuição aproximadamente N01 sob a hipótese nula Teorema 133 A média e variância de T são dadas por 1333 e 1334 respectivamente Exemplo 1311 continuação Obtivemos aqui T 1 A região crítica é unilateral à esquerda logo rejeitamos H0 se T wα em que wα é o quantil dado pela Tabela IX Se fixarmos α 0025 ou α 001 obteremos wα 0 com n 5 e portanto aceitaremos H0 Se α 005 então wα 1 e o valor observado estará na fronteira da região crítica e teremos dúvidas em aceitar ou rejeitar H0 Como salientamos antes a decisão nesse caso dependerá de uma análise cuidadosa dos resultados dado o pequeno valor de n 135 Comparação de Proporções em Duas Populações Nosso objetivo agora é a comparação das proporções p1 e p2 de indivíduos de duas populações P1 e P2 respectivamente que tenham um mesmo atributo Para isso extraímos duas amostras independentes dessas populações com tamanhos n1 e n2 respectivamente e obtemos os estimadores usuais 1 e 2 Das seções 109 e 126 temos que Usando os resultados da Seção 1331 e Problema 1032 obtemos e portanto Podese provar que substituindo p1 e p2 por seus estimadores 1335 Suponha agora que queiramos testar as hipóteses H0 p1 p2 H1 p1 p2 Usando os mesmos argumentos apresentados na Seção 1331a devese usar um estimador comum de p1 p2 a saber e de 1335 obtemos sob H0 1336 Exemplo 1312 Para lançamento da nova embalagem do sabonete X a divisão de criação estuda duas propostas A e B Em cada um de dois supermercados similares foram colocados sabonetes com cada tipo de embalagem e a clientes selecionados aleatoriamente foi perguntado se tinham notado o sabonete e que descrevessem o tipo de embalagem Abaixo estão os resultados Proposta Notaram Total Sim Não A 168 232 400 B 180 420 600 Total 348 652 1000 Queremos testar a hipótese que os dois tipos de embalagem são igualmente atraentes ou seja H0 pA pB H1 pA pB Da tabela obtemos c 3481000 0348 substituindo em 1336 obtemos Consultando a Tabela III encontramos um valorp próximo de zero o que leva à rejeição de H0 Como este resultado mostra que as variâncias também são diferentes a construção de um intervalo de confiança para pA pB pode ser feita usando 1335 Supondo o coeficiente de confiança γ 095 obtemos ou seja IC pA pB 095 0059 0181 Problemas 16 Para investigar a lealdade de consumidores a um determinado produto sorteouse uma amostra de 200 homens e 200 mulheres Foram classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres Os dados trazem evidências de diferença de grau de fidelidade entre os sexos Em caso afirmativo construa um intervalo de confiança para a diferença 17 Em uma amostra de 500 famílias da cidade A constatouse que 298 haviam comprdo durante os últimos 30 dias o refrigerante MecaMela em sua nova versão incolor Na cidade B esse número foi de 147 em 300 famílias entrevistadas Na cidade A foi feita uma campanha publicitária pela rádio local e não na cidade B Os resultados trazem evidências de que as campanhas locais aumentam as vendas 18 Um partido afirma que a porcentagem de votos masculinos a seu favor será 10 a mais que a de votos femininos Em uma pesquisa feita entre 400 homens 170 votariam no partido enquanto que entre 625 mulheres 194 lhe seriam favoráveis A afirmação do partido é verdadeira ou não Caso rejeite a igualdade dê um IC para a diferença 19 Para investigar os resultados do segundo turno de uma eleição estadual tomaramse duas amostras de 600 eleitores cada uma da capital e outra do interior Da primeira 276 disseram que votariam no candidato A enquanto que 312 eleitores do interior também o fariam a Estime a proporção de eleitores da capital que votariam em A Dê um IC b Existe diferença nas proporções entre capital e interior c Que tamanho igual deveriam ter ambas as amostras para que a diferença entre as proporções fosse estimada com erro inferior a 2 d Qual a proporção esperada de votos que irá receber o candidato A no estado e De uma amostra de 120 indivíduos da classe A e B 69 são favoráveis a eleição em dois turnos enquanto que em uma amostra de 100 indíviduos da classe C 48 é que são favoráveis Existe evidência e diferenças de opiniões em relação à classe social 20 Para verificar a importância de um cartaz nas compras de certo produto procedeuse do seguinte modo a formaramse sete pares de lojas b os pares foram formados de modo que tivessem as mesmas características quanto à localização ao tamanho e ao volume de vendas c num dos elementos do par colocouse o cartaz no outro não d as vendas semanais foram registradas e os resultados estão a seguir Qual seria a sua conclusão sobre a eficiência do cartaz Use o teste t fazendo as suposições necessárias Pares Vendas Sem cartaz Com cartaz 1 13 16 2 18 24 3 14 18 4 16 14 5 19 26 6 12 17 7 22 29 21 Resolva o problema anterior usando o teste dos postos sinalizados de Wilcoxon 22 Aplique o teste de Wilcoxon para os dados do Exemplo 1310 23 Os dados abaixo referemse a medidas de determinada variável em 19 pessoas antes e depois de uma cirurgia Verifique se as medidas pré e pósoperatórias apresentam a mesma média Que suposições você faria para resolver o problema Faça gráficos apropriados para verificar suas suposições Pessoas Pré Pós Pessoas Pré Pós 1 500 420 10 400 500 2 500 420 11 500 480 3 500 780 12 750 520 4 875 330 13 925 740 5 325 960 14 380 475 6 350 820 15 465 490 7 400 440 16 500 580 8 450 310 17 300 420 9 625 870 18 350 600 19 394 280 136 Exemplo Computacional Consideremos as medidas de um índice de placa bacteriana obtidas de 26 crianças em idade préescolar antes e depois do uso de uma escova experimental Hugger Veja o CDPlaca no final do livro Como temos medidas feitas num mesmo indivíduo as duas amostras são dependentes Se quisermos testar se os índices médios de placa bacteriana antes e depois da escovação são iguais teremos de usar a metodologia da seção anterior Usando a notação dessa seção teremos que testar H0 µ1 µ2 H1 µ1 µ2 ou o que é equivalente H0 µD 0 H1 µD 0 Na Tabela 1312 temos os dados e as diferenças di xi yi i 1 2 26 Na Figura 136 temos os box plots dos dois conjuntos de dados que sugerem distribuições bem diferentes Tabela 1312 Índices de placa bacteriana Sujeito Antes xi Depois yi di xi yi Postos de di 1 218 043 175 18 2 205 008 197 20 3 105 018 087 7 4 195 078 117 13 5 028 003 025 2 6 263 023 240 235 7 150 020 130 16 8 045 000 045 3 9 070 005 065 5 10 130 030 100 10 11 125 033 092 8 12 018 000 018 1 13 330 090 240 235 14 140 024 116 12 15 090 015 075 6 16 058 010 048 4 17 250 033 217 21 18 225 033 192 19 19 153 053 100 10 20 143 043 100 10 21 348 065 283 26 22 180 020 160 17 23 150 025 125 145 24 255 015 240 235 25 130 005 125 145 26 265 025 240 235 Total 3552 3510 Figura 136 Box plot para xi antes e yi depois R Temos que d 1366 e S2 D 05631 donde o desvio padrão SD 075 A estatística do teste é Fixandose α 001 o valor crítico da estatística t com 25 graus de liberdade é 2485 que deve ser comparado com o valor obtido acima Logo rejeitamos H0 de modo que a nova escova é eficaz em remover a placa bacteriana O valorp do teste é α Pt25 92864 0 o que confirma que a hipótese nula deve ser rejeitada Um intervalo de confiança para µD é dado por 1063 1669 A saída do programa Minitab para efetuar esse teste está no Quadro 131 Uma breve explicação dos comandos segue abaixo a o comando Paired C1 C2 significa que estamos solicitando que seja feito um teste com observações pareadas que estão nas colunas C1 e C2 b o comando Test 00 significa que queremos um teste para igualdade de médias c o comando Alternative 1 significa que a hipótese alternativa é aquela estabelecida acima isto é µ1 µ2 d o comando Confidence 950 estabelece que o intervalo de confiança a ser construído tem coeficiente de confiança γ 095 e finalmente os comandos GDotplot e GBoxplot pedem para fazer um gráfico de dispersão unidimensional e um box plot respectivamente A saída do programa mostra a as médias das duas amostras e a diferença das médias Mean b os desvios padrões das duas amostras e das diferenças StDev por exemplo SD 075 como encontramos acima c os erros padrões estimados dos estimadores SE Mean por exemplo o erro padrão estimado de X Y é esse valor é usado para construir o intervalo de confiança para µ1 µ2 d o intervalo de confiança com cc 095 para µ1 µ2 dado por 1063 1669 e o valor observado da estatística t Tvalue no caso t 929 e o valorp Pvalue que é zero nesse caso Além dessa saída podemos pedir gráficos ilustrativos Por exemplo o dotplot com o intervalo de confiança da Figura 137 Neste vemos destacado o valor estipulado por H0 que no exemplo é zero e não pertence ao intervalo Na Figura 138 temos o box plot das diferenças com o mesmo intervalo de confiança e H0 Quadro 131 Test t pareado Minitab attachtab1312 ttestantesdepois alternativetwosided pairedTRUE conflevel 095 Paired ttest data tab1312antes and tab1312depois t 929 df 25 pvalue 14e09 alternative hypothesis true difference in means is not equal to 0 95 percent confidence interval 10632 16691 sample estimates mean of the differences 13662 Figura 137 Dotplot das diferenças di com o intervalo de confiança para µD também mostrados H0 µD 0 e d 1366 R Figura 138 Box plot para as diferenças di com o intervalo de confiança para µd também mostrados H0 µD 0 e d 1366 R 137 Problemas Suplementares c Em outra região sabese que o gasto médio com pessoal é de 65 e o desvio padrão é de 20 Qual das duas regiões é mais homogênea em relação a essa variável Por quê 28 Uma amostra de 100 trabalhadores de uma fábrica grande demora em média 12 minutos para completar uma tarefa com um desvio padrão de dois minutos Uma amostra de 50 trabalhadores de uma outra fábrica demora em média 11 minutos para completar a mesma tarefa com desvio padrão igual a três minutos a Construa um IC de 95 para a diferença entre as duas médias populacionais b Deixe bem claro quais as suposições feitas para a solução apresentada 29 Desejase testar se dois tipos de ensino profissional são igualmente eficazes Para isso sortearamse duas amostras de operários a cada uma deuse um dos tipos de treinamento e no final submeteramse os dois grupos a um mesmo teste Que tipo de conclusão você poderia tirar baseandose nos resultados abaixo Amostra Nº de elementos Média Desvio padrão Tipo I 12 75 5 Tipo II 10 74 10 30 Numa discussão sobre reajuste salarial entre empresários e o sindicato dos empregados chegouse a um impasse Os empresários dizem que o salário médio da categoria é 76 salários mínimos SM e os empregados dizem que é 65 SM Para eliminar dúvidas cada um dos grupos resolveu colher uma amostra independente Os empresários com uma amostra de 90 operários observaram um salário médio de 70 SM com um desvio padrão igual a 29 SM Já a amostra do sindicato com 60 operários apresentou média igual a 710 SM e desvio padrão de 24 SM a As amostras colhidas servem para justificar as respectivas afirmações dos dois grupos b De posse dos dois resultados qual é o seu parecer 31 A Torrefação Guarany está querendo comprar uma nova ensacadora de café Após consultar o mercado ficou indecisa entre comprar a de marca A ou a de marca B Quanto ao custo facilidade de pagamento tamanho etc elas são equivalentes O fator que decidirá a compra será a precisão em encher os pacotes medido pela variância Deseja se na realidade testar hipótese σ2 A σ2 B por meio da estatística F S2 AS2 B Podem se construir regiões críticas bilaterais unilaterais à direita ou à esquerda dependendo do objetivo Indique qual seria a região crítica mais favorável às seguintes pessoas Justifique a proprietário da torrefação b fabricante de A e c fabricante de B 32 Um médico deseja saber se uma certa droga reduz a pressão arterial média Para isso mediu a pressão arterial em cinco voluntários antes e depois da ingestão da droga obtendo os dados do quadro abaixo Você acha que existe evidência estatística de que a droga realmente reduz a pressão arterial média Que suposições você fez para resolver o problema Voluntário A B C D E Antes 68 80 90 72 80 Depois 60 71 88 74 76 33 Uma amostra de 100 lâmpadas elétricas produzidas pela fábrica A indica uma vida média de 1190 horas com desvio padrão de 90 horas Uma amostra de 75 lâmpadas produzidas pela fábrica B indica uma vida média de 1230 horas com desvio padrão de 120 horas Admitindo que as variâncias populacionais sejam diferentes você acha que existe diferença entre as vidas médias populacionais das lâmpadas produzidas pelas fábricas A e B 34 Queremos comparar dois métodos de ensino A e B Dispomos de 40 crianças Podemos proceder de duas maneiras i Sorteamos 20 crianças para compor uma classe e as restantes formam outra classe Aplicamos um método a cada classe e depois fazemos uma avaliação para todas as crianças a respeito do assunto ensinado ii Aplicamos inicialmente um teste de inteligência às 40 crianças Numeramos as crianças de 1 a 40 segundo o resultado do teste Consideramos os 20 pares 1 2 3 4 39 40 e de cada par sorteamos uma criança para cada classe Obtemos assim duas classes de 20 crianças homogêneas quanto à inteligência Aplicamos um método a cada classe e depois avaliamos todas as crianças a Qual a variável de observação em cada procedimento b Quais as hipóteses estatísticas adequadas c Qual o teste estatístico de decisão em cada caso d Qual dos dois procedimentos você preferiria Por quê 35 De 400 moradores sorteados de uma grande cidade industrial 300 são favoráveis a um projeto governamental e de uma amostra de 160 moradores de uma cidade cuja principal atividade é o turismo 120 são contra a Você diria que a diferença de opiniões nas duas cidades é estatisticamente significante b Qual seria um IC de 90 para a proporção de favoráveis ao projeto nas duas cidades Suponha que o número de pessoas nas duas cidades seja aproximadamente igual 36 Para verificar o grau de adesão de uma nova cola para vidros preparamse dois tipos de montagem cruzado A em que a cola é posta em forma de X e quadrado B em que a cola é posta apenas nas quatro bordas Os resultados da resistência para duas amostras de 10 cada estão abaixo Que tipo de conclusão poderia ser tirada Método A 16 14 19 18 19 20 15 18 17 18 Método B 13 19 14 17 21 24 10 14 13 15 37 Em um estudo para comparar os efeitos de duas dietas A e B sobre o crescimento 6 ratos foram submetidos à dieta A e 9 ratos à dieta B Após 5 semanas os ganhos em peso foram A 15 18 12 11 14 15 B 11 11 12 16 12 13 8 10 13 a Admitindo que temos duas amostras independentes de populações normais teste a hipótese de que não há diferença entre as duas dietas contra a alternativa que a dieta A é mais eficaz usando o teste t de Student no nível de α 001 Calcule α b Efetue o teste usando a estatística de Wilcoxon com α 001 Calcule α 38 As amostras X1 X10 e Y1 Y10 de duas populações normais com médias µ1 e µ2 e mesma variância σ2 forneceram as estatísticas X 80 S21 16 Y 83 S22 18 Teste com o nível α 005 a hipótese H0 µ1 µ2 contra a alternativa H1 µ1 µ2 39 Em um estudo sobre um novo método para ensinar Matemática a alunos do primeiro grau dez crianças foram selecionadas ao acaso de um grupo de 20 e ensinadas pelo novo método enquanto as outras dez serviram como controle e ensinadas pelo método tradicional Após dez semanas o desempenho dos alunos em um teste foi avaliado e obtiveramse as seguintes notas Novo método 85 75 90 95 100 70 65 80 85 70 Controle 75 100 65 50 80 75 45 95 65 75 Teste com nível α 005 a hipótese de que o novo método é mais eficaz utilizando o teste t e o teste Wilcoxon Obtenha α em cada caso 40 Seja WR R1 Rn a soma dos postos dos controles Qual o valor de WR WS 41 Se n 4 e m 6 prove que PWS 35 PWS 31 usando o fato que WS é simétrica em torno de mN 12 42 Se n 4 e m 6 prove que PWS 35 PWR 20 43 Para o CDPlaca teste se a escova convencional é eficaz para remover a placa bacteriana Calcule o valorp do teste 44 Para o CDTemperaturas teste se a temperatura média de Cananeia é igual à temperatura média de Ubatuba suponha que as observações para cada cidade sejam independentes embora saibamos que elas não são pois temos dados de séries temporais 45 Numa pesquisa sobre a opinião dos moradores de duas cidades A e B com relação a um determinado projeto obtevese Cidade A B Nº de entrevistados 400 600 Nº de favoráveis 180 350 Construa um IC para a diferença de proporções de opiniões nas duas cidades 46 Duas máquinas A e B são usadas para empacotar pó de café A experiência passada garante que o desvio padrão para ambas é de 10 g Porém suspeitase que elas têm médias diferentes Para verificar sortearamse duas amostras uma com 25 pacotes da máquina A e outra com 16 pacotes da máquina B As médias foram respectivamente xA 50274 g e xB 49660 g Com esses números e com o nível de 5 qual seria a conclusão do teste H0 µA µB 47 Na região sul da cidade 60 entre 400 pessoas preferem a bebida MecaMela entre as demais similares Na região norte a proporção é de 40 entre 225 entrevistados Baseado no resultado dessa amostra você diria que a proporção de todos os moradores nas duas regiões é a mesma Use α 005 48 Uma pesquisa mercadológica sobre fidedignidade a um produto foi realizada em dois anos consecutivos com duas amostras independentes de 400 donas de casa em cada uma delas A preferência pela marca em questão foi de 33 e 29 respectivamente Os resultados trazem alguma evidência de mudança de preferência 49 No exemplo 1312 suponha que se acredite que a proposta A chame a atenção em pelo menos 5 a mais do que a proposta B Teste a validade de tal afirmação isto é teste H0 pA pB 005 contra H1 pA pB 005 Capítulo 14 Análise de Aderência e Associação 141 Introdução No Capítulo 4 estudamos como analisar descritivamente dois conjuntos de dados provenientes de duas variáveis aleatórias resumidas na forma de tabelas de dupla entrada Essas variáveis podem ser qualitativas ou quantitativas e a ideia era que podíamos classificar os elementos da amostra de cada variável em categorias ou classes ou ainda atributos Na Tabela 411 temos a situação geral em que duas va qualitativas X e Y foram classificadas em r categorias para X e s categorias para Y Usaremos a notação dada naquele capítulo ver Seção 44 Lá estávamos interessados em analisar a possível associação entre X e Y e para isso propusemos o uso da estatística quiquadrado de Pearson dada por 44 e que repetimos aqui 141 em que n ij denota o valor esperado sob a hipótese de que as duas va não são associadas Naquele capítulo apenas notamos que essa estatística deveria ser pequena se a hipótese H0 de não associação fosse verdadeira e grande caso contrário Lá também estudamos como medir por meio do coeficiente de correlação a associação entre duas variáveis quantitativas Neste capítulo vamos precisar esses conceitos Além do teste mencionado no Capítulo 4 iremos estudar outros testes que utilizam muito a estatística 141 bem como outras distribuições já estudadas Faremos agora uma breve resenha sobre esses testes 1 Testes de Aderência Temos uma população P e queremos verificar se ela segue uma distribuição especificada P0 isto é queremos testar a hipótese H0 P P0 No Capítulo 12 vimos também como testar essa hipótese empregando testes sobre os parâmetros média e variância Aqui o teste comparará o número de casos ocorridos em caselas especificadas com o número esperado de casos nelas quando a hipótese H0 for verdadeira O procedimento consiste em considerar classes segundo as quais a variável X característica da população pode ser classificada A variável X pode ser qualitativa ou quantitativa Neste capítulo estudaremos um teste no qual as probabilidades da va X pertencer a cada uma das classes são especificadas A estatística usada será 141 Exemplo 141 Um dado é lançado 300 vezes com os resultados dados na Tabela 141 Por enquanto considere somente a linha correspondente às frequências observadas Com os resultados observados queremos saber se o dado é honesto isto é se a probabilidade de ocorrência de qualquer face é 16 Ou seja queremos testar a hipótese H0 p1 p2 p6 16 em que pi P face i i 1 2 6 Isso equivale a dizer que P0 segue uma distribuição uniforme discreta Tabela 141 Resultados do lançamento de um dado 300 vezes Ocorrência i 1 2 3 4 5 6 Total Freq Observada ni 43 49 56 45 66 41 300 Freq Esperada n i 50 50 50 50 50 50 300 2 Testes de Homogeneidade Considere o seguinte exemplo Exemplo 142 Uma prova básica de Estatística foi aplicada a 100 alunos de Ciências Humanas e a 100 alunos de Ciências Biológicas As notas são classificadas segundo os graus A B C D e E em que D significa que o aluno não recebe créditos e E indica que o aluno foi reprovado Os resultados estão na Tabela 142 Tabela 142 Resultados da aplicação de uma prova de Estatística a 100 alunos de Ciências Humanas e 100 alunos de Biologia Aluno de Grau Total A B C D E C Humanas 15 20 30 20 15 100 C Biológicas 8 23 18 34 17 100 Total 23 43 48 54 32 200 Queremos testar se as distribuições das notas para as diversas classes são as mesmas para os dois grupos de alunos Esse teste pode ser estendido para o caso de três ou mais populações Testes desse tipo já foram vistos no Capítulo 13 quando queríamos testar a hipótese 131 Estudamos lá dois testes o t de Student e o de Wilcoxon Para esses testes supomos ou que as populações sejam normais ou então preferencialmente que tenham distribuições contínuas não necessariamente normais Mas de qualquer modo testávamos separadamente se as duas populações diferiam em localização ou escala No caso presente iremos apresentar um teste baseado na estatística 141 que contempla alternativas gerais por exemplo as populações podem diferirse em localização e escala Novamente para efetuar o teste consideramos amostras das duas populações P1 e P2 e classificamos os seus elementos de acordo com certo número de categorias para as duas variáveis características de P1 e P2 3 Testes de Independência Vimos no Capítulo 4 a importância de quantificar o grau de associação entre duas variáveis usando a estatística 141 Porém essa quantificação só tem sentido se as variáveis não forem independentes O teste que apresentaremos aqui supõe a existência de duas vas X e Y e os valores de amostras delas são classificados segundo categorias obtendose uma tabela de dupla entrada Queremos testar a hipótese que X e Y são independentes Exemplo 143 Uma companhia de seguros analisou a frequência com que 2000 segurados 1000 homens e 1000 mulheres usaram hospitais Os resultados estão na Tabela 143 A hipótese a testar é que o uso de hospital independe do sexo do segurado veja o Problema 6 do Capítulo 4 Tabela 143 Frequências com que 2000 segurados usaram hospital Homens Mulheres Usaram hospital 100 150 Não usaram hospital 900 850 4 Teste para o Coeficiente de Correlação Quando se investiga associação entre duas variáveis quantitativas o artifício de agrupar os dados em intervalos classes reduz a variável quantitativa a um caso particular de variável qualitativa assim poderíamos usar as mesmas técnicas da análise desse último tipo de variável Mas esse procedimento pode não ser o melhor possível e o uso do coeficiente de correlação como medida de associação entre variáveis quantitativas é o caminho mais apropriado Na Seção 145 voltaremos a tratar desse tema agora sob o ponto de vista da inferência Para finalizar esta seção notamos que os testes descritos nos itens 13 são todos baseados na distribuição quiquadrado e são parte dos chamados testes não paramétricos Para essa classe de testes não se supõe que a população ou populações siga algum modelo particular como fizemos para alguns dos testes dos Capítulos 12 e 13 Na Seção 146 introduzimos por meio de um exemplo um outro tipo de teste não paramétrico de aderência baseado na comparação da distribuição empírica dos dados com a distribuição hipotetizada para a população 142 Testes de Aderência Retomemos o Exemplo 141 Ocorrência 1 2 3 4 5 6 Frequência 158 186 179 161 141 175 Teste a hipótese que o dado é balanceado 143 Testes de Homogeneidade Vimos no capítulo anterior como testar a hipótese 131 de que as duas populações P1 e P2 tinham a mesma distribuição Os testes utilizados foram baseados na distribuição t de Student que assume normalidade das populações ou o teste não paramétrico de Wilcoxon MannWhitney que não faz essa suposição mas fica bem mais fácil se as distribuições forem contínuas O teste que apresentaremos agora pode ser usado para dados discretos ou contínuos e serve para testar H0 dada por 131 contra alternativas gerais e não somente para testar diferenças de localização Exemplo 142 continuação Considerando P1 como a população de alunos de Ciências Humanas e P2 a dos alunos de Ciências Biológicas nosso objetivo é testar a hipótese H0 P1 P2 usando os resultados amostrais da Tabela 142 Para isso precisamos encontrar os valores esperados n ij para aplicar a fórmula 141 Inicialmente observemos que se H0 for verdadeira a distribuição de probabilidades nas duas linhas deveria ser a mesma e equivaleria a ter uma única população P A última linha de totais da Tabela 142 representaria uma amostra de 200 alunos dessa única população A Tabela 147 apresenta as estimativas das proporções em cada grau para P1 P2 e P Sendo H0 verdadeira deveríamos esperar para P1 e P2 as mesmas proporções observadas para P ou valores aproximadamente iguais Ou ainda todas as linhas dessa tabela deveriam ser iguais entre si e iguais à linha de totais o que aparentemente não ocorre A partir dessas porcentagens podemos obter as frequências absolutas correspondentes ou valores esperados se H0 for verdadeira Obtemos então a Tabela 148 Tabela 147 Porcentagens estimadas das classes para cada população Aluno de Grau Total A B C D E C Humanas 15 20 30 20 15 100 C Biológicas 8 23 18 34 17 100 Total 115 215 24 27 16 100 Tabela 148 Frequências absolutas sob H0 nij Aluno de Grau Total A B C D E C Humanas 115 215 24 27 16 100 C Biológicas 115 215 24 27 16 100 Total 23 43 48 54 32 200 Desse modo encontramos os valores esperados n ij que podem ser substituídos em 141 obtendose Novamente para consultar a tabela precisamos determinar os graus de liberdade e vamos usar o mesmo argumento anterior Quantas caselas poderíamos preencher livremente em uma simulação sendo que os totais marginais são conhecidos Observando a Tabela 149 concluímos que basta preencher apenas quatro caselas as seis restantes são encontradas por diferenças Como exemplo preenchemos quatro caselas com círculos as demais sinais de mais podem ser obtidas por diferenças a partir dos totais de linhas ou colunas Tabela 149 Determinação do número de graus de liberdade Aluno de Grau Total A B C D E C Humanas o o 100 C Biológicas o o 100 Total 23 43 48 54 32 200 Problemas 6 Suponha que tenhamos razões para crer que as notas obtidas por estudantes de escolas públicas sejam menores que as notas obtidas por estudantes de escolas particulares ao tomarem o exame vestibular para uma Universidade Para testar essa hipótese foram selecionadas duas amostras de estudantes que prestaram o vestibular suas médias gerais foram anotadas e obtevese a tabela a seguir Escola 0 25 25 50 50 75 75 100 Total Pública 15 22 18 3 58 Particular 6 10 20 6 42 Total 21 32 38 9 100 Teste a hipótese que as duas populações são homogêneas para o nível de significância α 001 Obtenha o valorp α 7 Cem estudantes foram divididos em duas classes de 50 cada e o objetivo era testar um novo método de ensinar Probabilidades Uma classe recebeu um método tradicional e a outra o novo método Após o curso foi pedido que os estudantes resolvessem um problema típico de Probabilidades Os resultados foram os seguintes Exercício correto Exercício errado Método convencional 33 17 Método novo 37 13 Há razões para acreditar que o novo método é superior 8 Duas novas drogas vão ser testadas em 160 pessoas portadoras de rinite alérgica Metade das pessoas recebe a droga A e a outra metade recebe a droga B Obtémse a tabela abaixo Teste a hipótese de que as duas drogas são igualmente eficazes para tratar a doença Eficaz Não Eficaz Droga A 55 25 Droga B 48 32 9 Um produto novo é lançado por uma empresa e para verificar a sua aceitação dois grupos de pessoas de duas cidades são consultados De 100 pessoas da cidade A 32 gostaram do produto e de 50 pessoas da cidade B 12 gostaram do produto Há evidências que o produto seja igualmente aceito nas duas cidades 144 Testes de Independência Retomemos o Exemplo 43 para efeito de ilustração Exemplo 148 Naquele exemplo o que se queria era verificar se a criação de determinado tipo de cooperativa estava associada ao fator maior do que um valor crítico dado pela Tabela IV fixado um valor do nível de significância α Dado que a distribuição de quiquadrado nesse caso é uma distribuição aproximada precisamos tomar certos cuidados na sua aplicação Um deles é garantir que todos os valores esperados das caselas não sejam inferiores a cinco Problemas 10 Para o Problema 16 do Capítulo 4 teste formalmente se a opinião dos habitantes depende do local da residência 11 Teste se o uso de hospital independe do sexo para o Exemplo 143 12 Para o Problema 22 do Capítulo 4 teste se existe dependência entre os fatores tendência dos alunos a prosseguir os estudos e classe social dos entrevistados 13 Investigando a fidelidade de consumidores de um produto obtevese uma amostra de 200 homens e 200 mulheres Foram classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres Os dados fornecem evidência de possíveis diferenças de grau de fidelidade entre sexos 14 Uma pesquisa sobre a qualidade de certo produto foi realizada enviandose questionários a donas de casa pelo correio Aventandose a possibilidade de que os respondentes voluntários tenham um particular viés de respostas fizeramse mais duas tentativas com os não respondentes Os resultados estão indicados abaixo Você acha que existe relação entre a resposta e o número de tentativas Opinião sobre o produto Nº de donas de casa 1ª tentativa 2ª tentativa 3ª tentativa Excelente 62 36 12 Satisfatório 84 42 14 Insatisfatório 24 22 24 145 Teste Para o Coeficiente de Correlação O teste apresentado na seção anterior é adequado para averiguar a independência de duas variáveis qualitativas Vimos na Seção 45 que para variáveis quantitativas o coeficiente de correlação é uma medida de associação mais adequada Usualmente podemos determinar o coeficiente de correlação para uma amostra pois desconhecemos esse valor na população Uma população que tenha duas variáveis não correlacionadas pode produzir uma amostra com coeficiente de correlação diferente de zero Para testar se a amostra foi colhida de uma população para a qual o coeficiente de correlação Na Seção 142 estudamos por meio da distribuição quiquadrado como testar a hipótese de que um conjunto de dados provém de uma distribuição especificada Nesta seção vamos introduzir uma outra maneira de testar a hipótese 142 por meio de um exemplo No Problema 47 do Capítulo 3 vimos que um estimador da verdadeira função densidade de uma população é o histograma Em particular foi apresentada uma maneira de obter o intervalo de classe baseada numa distância entre o histograma e a função densidade Suponha que tenhamos uma amostra X1 Xn de uma população P sobre a qual estamos considerando uma va X Designemos por fx a função densidade e por Fx a função de distribuição acumulada fda de X Estimar fx é equivalente a estimar Fx Nosso objetivo é testar se a amostra observada veio de uma distribuição de probabilidades especificada e 142 é equivalente a H0 Fx F0x para todo x Vamos considerar a função de distribuição empírica fde Fex definida no Problema 17 do Capítulo 2 como um estimador de Fx para todo valor x real A situação é a da Figura 143 Figura 143 Gráficos da fda e fde e distâncias di Fxi Fexi Se Fex for um bom estimador de Fx as duas curvas devem estar próximas Como em todo teste de hipóteses para testar a hipótese acima teremos que definir o que significa próximo Há várias maneiras de medir a distância entre Fx e Fex Os probabilistas russos Kolmogorov e Smirnov propuseram uma estatística para o teste obtida tomando o máximo dos valores absolutos das diferenças Fxi Fexi i 1 n Nessas diferenças calculadas nos valores amostrais Fxi é o valor calculado sob a hipótese nula H0 ou seja é o valor que a fda hipotetizada toma no ponto xi Formalmente a estatística a ser usada no teste é 1410 O valor encontrado deve ser comparado com um valor crítico obtido na Tabela X fixado um nível de significância do teste Se D for maior que o valor tabelado rejeitamos H0 Retomemos o Exemplo 146 no qual queríamos testar se 30 valores observados provinham de uma distribuição normal com média 10 e desvio padrão 5 Exemplo 146 continuação A hipótese a ser testada pode ser escrita na forma H0 Fx F0x x H1 Fx F0x para algum x em que F0x é a fda da va X N1025 Lembremos que a fde Fex é uma função em escada dando um salto igual a 130 em cada valor xi Na Tabela 1413 temos os cálculos necessários Vemos por exemplo Tabela 1413 Dados para o Teste de KolmogorovSmirnov do Exemplo 146 xi Fxi Fexi Fxi Fexi xi Fxi Fexi Fxi Fexi 104 00366 00333 000323 1001 05008 05333 003253 173 00491 00667 001760 1052 05414 05667 002525 393 01124 01000 001237 1069 05549 06000 004512 444 01331 01333 000026 1172 06346 06333 000124 637 02340 01667 006725 1217 06679 06667 000119 651 02426 02000 004259 1261 06992 07000 000083 761 03163 02333 008299 1298 07244 07333 000892 764 03185 02667 005180 1303 07277 07667 003892 818 03579 03000 005793 1316 07363 08000 006369 848 03806 03333 004723 1411 07945 08333 003887 857 03874 03667 002077 1460 08212 08667 004545 865 03936 04000 000642 1464 08233 09000 007670 971 04769 04333 004354 1475 08289 09333 010439 987 04896 04667 002296 1668 09092 09667 005744 995 04960 05000 000399 2214 09924 10000 007591 Os valores de F0x podem ser obtidos como na Seção 78 por exemplo usando o comando CDF do Minitab Da tabela vemos que o valor máximo dos valores absolutos das diferenças é D 0104 Da Tabela X vemos que para α 005 o valor crítico é 0242 logo aceitamos H0 ou seja os dados realmente são uma amostra de uma distribuição normal com µ 10 e σ 5 Podemos comparar os quantis empíricos dos dados com os quantis da normal por meio de um gráfico q q com o objetivo de verificar que os pontos se distribuem ao redor de uma reta como na Figura 144 Figura 144 Quantis da normal padrão contra quantis dos dados Capítulo 15 Inferência para Várias Populações 151 Introdução Como vimos no Capítulo 1 uma das preocupações de um estatístico ao analisar um conjunto de dados é criar modelos que explicitem estruturas do fenômeno sob observação as quais frequentemente estão misturadas com variações acidentais ou aleatórias A identificação dessas estruturas permite conhecer melhor o fenômeno bem como fazer afirmações sobre possíveis comportamentos Portanto uma estratégia conveniente de análise é supor que cada observação seja formada por duas partes como vimos em 11 do Capítulo 1 observação previsível aleatório 151 Aqui a primeira componente incorpora o conhecimento que o pesquisador tem sobre o fenômeno e é usualmente expressa por uma função matemática com parâmetros desconhecidos A segunda parte a aleatória ou não previsível representa aquilo que o pesquisador não pode controlar e para a qual são impostas algumas suposições por exemplo que ela obedeça a algum modelo probabilístico específico que por sua vez também contém parâmetros desconhecidos Dentro desse cenário o trabalho do estatístico passa a ser o de estimar os parâmetros desconhecidos das duas partes do modelo baseado em amostras observadas Neste capítulo iremos investigar um modelo simples chamado de análise de variância com um fator No capítulo seguinte iremos estudar o modelo de regressão linear simples As técnicas de análise de variância foram desenvolvidas principalmente pelo estatístico inglês Ronald A Fisher a partir de 1918 O leitor interessado pode consultar os trabalhos pioneiros de Fisher 1935 1954 ou Peres e Saldiva 1982 para mais informações sobre esse assunto A situação geral pode ser descrita como segue Temos uma população P de unidades experimentais indivíduos animais empresas etc para a qual temos uma va Y de interesse Suponha agora que possamos classificar as unidades dessa população segundo níveis de um fator Por exemplo o fator pode ser o sexo com dois níveis arbitrariamente denotados por l sexo masculino e 2 sexo feminino A va Y pode ser a altura de cada indivíduo Genericamente podemos ter I níveis para esse fator A população fica então dividida em I subpopulações ou estratos P1 PI cada uma representada por um nível i do fator i 1 2 I No exemplo citado teríamos duas subpopulações a dos indivíduos do sexo masculino e a dos indivíduos do sexo feminino Na Figura 151 mostramos graficamente as suposições adotadas para o comportamento da população neste modelo A Figura 151 a mostra um comportamento mais amplo com distribuições distintas para cada subpopulação Na Figura 151 b aparece a suposição mais comum em que a parte aleatória segue uma distribuição normal com a mesma variância σ2 para todas as subpopulações Pi i 1 2 I Figura 151 Formas da distribuição de y para os diversos níveis do fator Para cada nível i observamos a va Y em ni unidades experimentais selecionadas ao acaso da subpopulação correspondente ou seja teremos uma amostra yi1 yini dessa subpopulação No exemplo citado acima temos i 1 2 ou seja dois níveis para o fator sexo Extraímos uma amostra de tamanho n1 de P1 pessoas do sexo masculino y11 y1n1 e uma amostra de tamanho n2 de P2 pessoas do sexo feminino y21 y2n2 Essas amostras são independentes Suponha que EY µ para a população toda ou seja a média global da va Y para P Suponha também que EYPi µi i 1 I ou seja as médias da va Y para as subpopulações sejam µ1 µI No nosso exemplo µ é a média das alturas da população de todos os indivíduos µ1 é a média das alturas dos homens e µ2 é a média das alturas das mulheres O objetivo é estimar µi i 1 I e testar hipóteses sobre essas médias Uma hipótese de interesse é H0 µ1 µ2 µI µ 152 contra a alternativa H1 µi µj para algum par i j 153 O teste acima corresponde a verificar se as duas populações estão dispostas como na Figura 151 c ou seja os centros das distribuições têm a mesma ordenada e estão sobre uma reta paralela ao eixo do fator Isso significa que o fator não tem influência sobre a média da variável sob observação A análise da variância pode ser pensada como um método para testar a hipótese H0 acima por meio da análise das variâncias das diversas amostras Esse método estende aquele visto no Capítulo 13 onde comparávamos apenas duas médias A teoria desenvolvida naquele capítulo envolvia situações mais amplas do que as que serão vistas aqui Sob as mesmas suposições os dois métodos são equivalentes Porém não podemos usar os métodos do Capítulo 13 para comparar mais do que duas populações Poderia ser aventada a possibilidade de testar as hipóteses duas a duas mas isso traz problemas relacionados no nível de significância do teste global já que efetuaremos testes parciais Voltaremos a esse assunto na Seção 154 Um modelo conveniente para descrever essa situação é yij µi eij i 1 I j 1 ni 154 para o qual supomos que eij são va independentes de média zero e variância σ2 e desconhecida por exemplo Podemos adicionar a hipótese de que esses erros sejam normais ou seja eij N0 σ2 e 155 para i 1 2 I j 1 2 ni Logo além de estimar µ1 µI temos que estimar também σ2 e Se 154 e 155 valerem teremos I subpopulações normais Nµi σ2 e i 1 2 I que têm médias diferentes e mesma variância A Figura 151 b ilustra essa situação com I 4 O modelo 154 é chamado modelo com efeitos fixos no sentido de que as subpopulações determinadas pelos níveis do fator são aquelas de interesse do pesquisador Se o experimento fosse repetido amostras aleatórias das mesmas subpopulações seriam extraídas e analisadas Podese considerar também modelos com efeitos aleatórios mas esse caso não será tratado neste livro Exemplo 151 Um psicólogo está investigando a relação entre o tempo que um indivíduo leva para reagir a um estímulo visual Y e alguns fatores como sexo W idade X e acuidade visual Z medida em porcentagem Na Tabela 151 temos os tempos para n 20 indivíduos valores da va Y O fator sexo tem dois níveis i 1 sexo masculino H e i 2 sexo feminino M com n1 n2 10 O fator idade tem cinco níveis i 1 indivíduos com 20 anos de idade i 2 indivíduos com 25 anos etc i 5 indivíduos com 40 anos Aqui n1 n5 4 A acuidade visual como porcentagem da visão Tabela 151 Tempos de reação a um estímulo Y e acuidade visual Z de 20 indivíduos segundo o sexo W e a idade X Indivíduo Y W X Z 1 96 H 20 90 2 92 M 20 100 3 106 H 20 80 4 100 M 20 90 5 98 M 25 100 6 104 H 25 90 7 110 H 25 80 8 101 M 25 90 9 116 M 30 70 10 106 H 30 90 11 109 H 30 90 12 100 M 30 80 13 112 M 35 90 14 105 M 35 80 15 118 H 35 70 16 108 H 35 90 17 113 M 40 90 18 112 M 40 90 19 127 H 40 60 20 117 H 40 80 completa também gera cinco níveis i 1 indivíduos com 100 de visão i 2 indivíduos com 90 de visão e assim por diante Não foi possível controlar essa variável a priori como as outras duas já que ela exige exames oftalmológicos para sua mensuração Daí o desbalanceamento dos tamanhos observados n1 2 n2 10 n3 5 n4 2 e n5 1 Fatores desse tipo são chamados de cofatores Assim para o fator sexo teremos o modelo 154 com i 1 2 j 1 2 3 10 e para o fator idade o mesmo modelo com i 1 2 5 j 1 2 3 4 Exemplo 152 Uma escola analisa seu curso por meio de um questionário com 50 questões sobre diversos aspectos de interesse Cada pergunta tem uma resposta numa escala de 1 a 5 va Y em que a maior nota significa melhor desempenho Na última avaliação usouse uma amostra de alunos de cada período e os resultados estão na Tabela 152 Aqui o fator é período com três níveis i 1 manhã i 2 tarde e i 3 noite temos n1 7 n2 6 e n3 8 Tabela 152 Avaliação de um curso segundo o período Período Manhã Tarde Noite 42 27 46 40 24 39 31 24 38 27 22 37 23 19 36 33 18 35 41 34 28 Exemplo 153 Num experimento sobre a eficácia de regimes para emagrecer homens todos pesando cerca de 100 kg e de biotipos semelhantes são submetidos a três regimes Após um mês verificase a perda de peso de cada indivíduo obtendose os valores da Tabela 153 Tabela 153 Perdas de peso de indivíduos submetidos a três regimes Regime 1 2 3 118 74 105 105 97 112 125 82 118 123 72 131 155 86 140 114 71 98 Aqui o fator é regime com I 3 níveis e cada regime é indexado por i 1 2 3 A va Y é a perda de peso depois de um mês EY µ é a perda de peso global dos 18 homens µi é a perda média de peso para o regime i As amostras têm todas o mesmo tamanho n1 n2 n3 6 Problemas 1 O modelo 154 pode ser escrito na forma yij µ αi eij com i 1 I e j 1 ni Dizemos que αi é o efeito diferenciado da subpopulação Pi ou do nível i do fator Mostre que os estimadores de mínimos quadrados para µ e αi são dados por se impusermos a condição 2 Obtenha i para os Exemplos 152 e 153 152 Modelo para Duas Subpopulações Inicialmente consideremos o caso em que temos um fator com dois níveis como no Exemplo 151 com o fator sexo Ou seja queremos avaliar o efeito do sexo do indivíduo sobre o seu tempo de reação ao estímulo Temos então o modelo yij µi eij 156 em que µi efeito comum a todos os elementos do nível i 1 2 eij efeito aleatório não controlado do jésimo indivíduo do nível i yij tempo de reação ao estímulo do jésimo indivíduo do nível i 1521 Suposições É necessário introduzir suposições sobre os erros eij a fim de fazer inferências sobre µ1 e µ2 Iremos admitir que i eij N0 σe 2 para todos i 1 2 e j 1 2 ni ii Eeij eik 0 para j k e i 1 2 indicando independência entre observações dentro de cada subpopulação iii Ee1j e2k 0 para todo j e k indicando independência entre observações das duas subpopulações Com essas suposições temos duas amostras aleatórias simples independentes entre si retiradas das duas subpopulações Nµ1 σe 2 e Nµ2 σe 2 Queremos testar a hipótese H0 µ1 µ2 contra a alternativa H1 µ1 µ2 Como já salientamos acima esse teste pode ser conduzido com os métodos do Capítulo 13 mas o objetivo aqui é introduzir a metodologia da análise de variância com um caso simples A extensão para mais de dois níveis será estudada na Seção 153 Note que estamos supondo que as variâncias residuais dos níveis l e 2 são iguais ou seja Vare1j Vare2j σe 2 para todo j 1 ni 157 Essa é a propriedade conhecida como homoscedasticidade isto é estamos admitindo que a variabilidade residual é a mesma para os dois níveis ou que P1 e P2 têm a mesma variabilidade segundo a va Y Note também que Eyij µi Varyij Vareij σ2 e 158 1522 Estimação do Modelo Nosso objetivo é estimar µ1 µ2 e σe 2 no modelo 156 para podermos testar H0 Usaremos estimadores de mínimos quadrados Poderíamos usar também estimadores de máxima verossimilhança pois sabemos que nossas observações têm distribuição normal Temos que de 156 os resíduos são dados por eij yij µi 159 e a soma dos quadrados dos resíduos é dada por ou seja 1510 Observe que essa soma de quadrados é uma função de µ1 e µ2 Se as variâncias residuais das duas subpopulações não fossem iguais essa soma seria mais afetada por aquele nível que tivesse maior variância e isso deveria influenciar a escolha dos estimadores Nesse caso uma sugestão seria então minimizarmos a Fórmula 1510 com eij 2 substituída por eijσi2 com Vareij σi 2 o que conduz a estimadores de mínimos quadrados ponderados Derivando 1510 em relação a µ1 e µ2 obtemos do que segue que os estimadores são dados por 1511 1512 que são as médias das observações dos níveis l e 2 respectivamente Logo 1513 Podemos pensar em 1513 como a quantidade total de informação quadrática perdida pela adoção do modelo 156 Essa soma é também denominada soma dos quadrados dos resíduos Vejamos outra maneira de escrever essa soma Dentro do grupo dos homens a variância da subpopulação P1 pode ser estimada por 1514 e a variância da subpopulação P2 das mulheres é estimada por 1515 Seguese que SQµ1 µ2 n1 1S2 1 n21S2 2 1516 Temos acima dois estimadores não viesados do mesmo parâmetro σe 2 e portanto podemos definir uma variância amostral ponderada 1517 e usando 1516 podemos escrever 1518 se n n1 n2 Vemos que S2 e é a quantidade média de informação quadrática perdida e é um estimador não viesado de σ2 e Observe que esse é o mesmo estimador definido em 1310 Temos portanto um primeiro enfoque para estimar a variância desconhecida σe 2 por meio da variância devida ao erro ou variância dentro de amostras dada por Se 2 que é baseada nas variâncias amostrais dadas por 1514 e 1515 A soma de quadrados 1516 é também chamada de soma de quadradros dentro dos grupos Um outro enfoque será visto mais adiante e que consiste em estimar σe 2 por meio de uma variância entre amostras baseada na variabilidade entre as médias amostrais também chamada variação devida ao fator Exemplo 151 continuação Para os dados da Tabela 151 temos Grupo dos Homens nível l Grupo das Mulheres nível 2 Seguese que Note que a soma dos quadrados dos resíduos é SQµ1 µ2 SQ y1 y2 12378 Observe também que y1 e y2 denotam os tempos médios estimados de reação ao estímulo dos homens e mulheres respectivamente Uma questão de interesse é a seguinte será que o conhecimento do sexo de um indivíduo ajuda a melhorar a previsão do tempo de reação dele ao estímulo Para responder a essa questão devemos ter algum modelo alternativo para poder comparar os ganhos O modelo usualmente adotado é o mais simples de todos ou seja aquele que considera os dados vindos de uma única população Suponha que os valores da va Y para todos os n 20 indivíduos sigam o modelo yi µ ei i 1 2 20 1519 Podemos considerar esse modelo para uma população ou seja aquela de todos os indivíduos para a qual queremos investigar o tempo de reação ao estímulo independentemente do sexo idade e outros fatores Para o modelo 1519 a soma dos quadrados dos resíduos é 1520 e o estimador de mínimos quadrados de µ é obtido derivandose 1520 com relação a µ e igualando a zero chegandose a 1521 ou seja a média de todas as observações Como aqui yi Nµ σe 2 um estimador da variância residual σe 2 é 1522 ou seja a nossa conhecida variância amostral Para os dados da Tabela 151 encontramos Assim sem informação adicional podemos prever o tempo de reação de um indivíduo como 10750 com um desvio padrão de 85 Os resíduos desse modelo e do modelo 156 estão na Tabela 154 colunas el e e2 respectivamente Comparando esses resíduos vemos que os segundos melhoram um pouco as previsões isto é fazem cair o erro quadrático médio de 85 para 829 Mas essa queda nos parece pequena para justificar a inclusão do fator sexo no modelo e talvez fosse preferível adotar o modelo mais simples 1519 Tabela 154 Resíduos para vários modelos ajustados aos dados do Exemplo 151 Variáveis Resíduos dos Modelos e1 e2 e3 Indivíduo Tempo de Reação Sexo Idade yi y yij yi yij yi Variáveis Resíduos dos Modelos e1 e2 e3 Indivíduo Tempo de Reação Sexo Idade yi y yij yi yij yi 1 96 H 20 1150 141 250 2 92 M 20 1550 129 650 3 106 H 20 150 41 750 4 100 M 20 750 49 150 5 98 M 25 950 69 525 6 104 H 25 350 61 075 7 110 H 25 250 01 675 8 101 M 25 650 39 225 9 116 M 30 850 111 825 10 106 H 30 150 41 175 11 109 H 30 150 11 125 12 100 M 30 750 49 775 13 112 M 35 450 71 125 14 105 M 35 250 01 575 15 118 H 35 1050 79 725 16 108 H 35 050 21 275 17 113 M 40 550 81 425 18 112 M 40 450 71 525 19 127 H 40 1950 169 975 20 117 H 40 950 69 025 dp 850 829 608 2dp 1700 1658 1216 Nota Nesta tabela estão expressos os resíduos de diversos modelos ajustados aos dados e colocados juntos para comparar os lucros na adoção de cada modelo No texto aparece o significado de cada coluna dos resíduos 1523 Intervalos de Confiança Com as suposições feitas sobre os erros podemos escrever 1523 o que permite construir intervalos de confiança separados para os dois parâmetros µ1 e µ2 como já vimos anteriormente Esses têm a forma 1524 em que tγ é o valor crítico da distribuição t de Student com v n 2 graus de liberdade tal que Ptγ tn 2 tγ γ 0 γ 1 Observe que o número de graus de liberdade é n 2 e não ni l porque e portanto tem distribuição tn 2 pelo Teorema 71 Daqui obtemos 1524 Exemplo 151 continuação Para o Exemplo 151 temos com t095 2101 encontrado na Tabela V com v 18 graus de liberdade Ainda com as suposições feitas podemos concluir que y1 y2 Nµ1 µ2 σ 2 en1 σ 2 e n2 1525 de modo que a estatística 1526 tem distribuição t de Student com v n1 n2 2 n 2 graus de liberdade e um intervalo de confiança para a diferença µ1 µ2 pode ser construído Exemplo 151 continuação Para o exemplo Este resultado implica que a hipótese H0 µ1 µ2 1527 não pode ser rejeitada no nível α 005 já que o zero pertence ao intervalo Isso está de acordo com o resultado já apontado de que o conhecimento do sexo de um indivíduo não irá ajudar a prever o tempo de reação ao estímulo O teste da hipótese para 1527 com as suposições adotadas é feito usando a estatística 1526 com n1 n2 2 gl obtendose o valor observado t0 140 que comparado com o valor crítico de 2101α 5 e l8 gl leva à não rejeição da hipótese como foi visto acima 1524 Tabela de Análise de Variância As operações processadas anteriormente podem ser resumidas num quadro para facilitar a análise Se 1527 for válida o modelo adotado será yij µ eij e a quantidade de informação perdida devida aos resíduos será dada por 1528 que iremos chamar de soma de quadrados total abreviadamente SQTot Analogamente adotado o modelo 154 a quantidade de informação perdida é dada por 1513 ou 1516 e que chamamos de soma de quadrados dos resíduos abreviadamente SQRes ou soma de quadrados dentro dos dois grupos abreviadamente SQDen A economia obtida ao passarmos de um modelo para outro será SQTot SQDen SQEnt 1529 que chamaremos de soma de quadrados entre grupos Não é difícil provar que veja o Problema 18 1530 Observando essa expressão vemos que ela representa a variabilidade entre as médias amostrais ou seja uma distância entre a média de cada grupo e a média global Donde o nome soma de quadrados entre grupos Quanto mais diferentes forem as médias yi i 1 2 maior será SQEnt e consequentemente menor será SQDen As quantidades 1531 e 1532 são chamadas quadrado médio total e quadrado médio dentro ou residual respectivamente Todas essas informações são agrupadas numa única tabela conhecida pelo nome de ANOVA abreviação de ANalysis Of VAriance descrita na Tabela 155 Tabela 155 Tabela de Análise de Variância ANOVA FV gl SQ QM F Entre 1 SQEnt QMEnt QMEntSe 2 Dentro n 2 SQDen QMDen ou Se 2 Total n 1 SQTot QMTot ou S2 Na primeira coluna temos as descrições das diferentes somas de quadrados tecnicamente indicadas por fontes de variação FV Os graus de liberdade gl da segunda coluna estão associados às respectivas somas de quadrados sendo que o número de gl da SQEnt é obtido por subtração Falaremos abaixo sobre QMEnt e a razão F QMEntQMDen Exemplo 151 continuação Com os dados obtidos anteriormente para o Exemplo 151 podemos construir a tabela ANOVA para o modelo 154 O resultado está na Tabela 156 Tabela 156 Tabela ANOVA para o Exemplo 151 FV gl SQ QM F Entre 1 13520 13520 197 Dentro 18 123780 6877 Total 19 137300 7226 Da ANOVA encontramos os desvios padrões residuais do modelo completo 154 e do modelo reduzido 1519 A economia propiciada ao passar de um modelo para outro em termos de soma de quadrados é 13520 e em termos de quadrados médios comparando 7226 e 6877 Proporcionalmente economizamos ou seja aproximadamente 10 na SQ de resíduos Podemos dizer que essa é a proporção da variação explicada pelo modelo 159 Essa medida é chamada coeficiente de explicação do modelo denotada por 1533 Essa medida já foi usada na Seção 46 Veja o Problema 27 A conveniência ou não do modelo 154 está associada ao teste 1527 já que aceitar essa hipótese implica a adoção do modelo 1519 Com as suposições feitas a estatística para o teste é 1526 que sob H0 fica 1534 que tem distribuição tn1 n2 2 Também sabemos que o quadrado de T tem distribuição F1 n1 n2 2 ver Seção 133 Contudo e como podemos escrever 1535 Logo concluímos que 1536 Essa é a estatística que aparece na última coluna da tabela ANOVA Portanto podemos usar F com 1 n 2 graus de liberdade para testar a hipótese 1527 Rejeitaremos H0 se F c c determinado pelo nível de significância do teste Exemplo 154 Da ANOVA da Tabela 156 vemos que o valor da estatística F é 197 Consultando a Tabela VI com 118 gl e α 005 encontramos o valor crítico 441 Logo não rejeitamos H0 µ1 µ2 Isso significa que não há vantagem em usar o modelo 154 no lugar de 1519 Problemas 3 Na tabela abaixo estão os dados referentes a uma amostra de 21 alunos do primeiro ano de um curso universitário As variáveis são Y nota obtida na primeira prova do curso X se cursou escola particular P ou oficial O Z o período em que está matriculado manhã M tarde T noite N y 56 68 69 70 70 72 75 77 83 84 84 x P O P P O O O P P P O z N M M M T N M M T N N y 85 90 92 95 95 95 100 100 100 100 x O P O P P P P P P P z T T M M N T T M M T 1539 e que ou seja em que Si 2 é variância amostral do iésimo nível grupo de idade Todas essas variâncias amostrais são estimadores não viesados de σe 2 logo podese novamente considerar o estimador ponderado 1540 Para nossos dados obtemos 1 i l 20 anos 2 i 2 25 anos 3 i 3 30 anos 4 i 4 35 anos 5 i 5 40 anos Seguese que Se 2 55415 3693 Se 608 A tabela ANOVA para o fator idade está na Tabela 157 Tabela 157 Tabela ANOVA para o Exemplo 151 com fator idade FV gl SQ QM F Entre 4 81900 20475 554 Dentro 15 55400 3693 Total 19 137300 7226 Da tabela concluímos que houve uma redução substancial na soma de quadrados 819 unidades quadradas ou seja isto é aproximadamente 60 da variação total é explicada pelo fator idade reduzindo o erro quadrático médio de 850 para 608 Como antes podemos construir os intervalos de confiança para os parâmetros µi Por exemplo para o grupo de idade de 25 anos Os resíduos desse modelo encontramse na Tabela 154 coluna e3 e verificamos que eles diminuíram bastante indicando a boa capacidade de previsão do modelo A análise dos resíduos na Figura 153 não sugere violação de nenhuma das suposições feitas Figura 153 Resíduos do modelo yij µi eij para o fator idade Entretanto quando o teste rejeita a hipótese de igualdade 152 estamos afirmando que ocorre pelo menos uma desigualdade e essa conclusão na maioria dos casos não é suficiente para o pesquisador Ele deseja saber de que modo ocorre essa desigualdade Como ilustração suponha que se rejeite a hipótese H0 µ1 µ2 µ3 Então existem as seguintes possibilidades para a alternativa 1 µ1 µ2 µ3 2 µ1 µ2 µ3 3 µ1 µ3 µ2 e 4 µ1 µ2 µ3 Existem vários métodos para resolver esse problema e alguns deles podem ser vistos em Peres e Saldiva 1982 Aqui iremos discutir apenas um deles Um modo de investigar a causa da rejeição é comparar os grupos dois a dois Como já foi visto na Seção 152 isso pode ser feito por meio da construção de intervalos de confiança para a diferença obtendose por exemplo 1542 com tγ obtido de uma distribuição t de Student com n I graus de liberdade Poderíamos então construir os intervalos para todos os possíveis pares e observandose aqueles que não contêm o valor zero obter conclusões sobre a razão da rejeição Exemplo 155 Investigando o efeito da idade vimos que a hipótese H0 foi rejeitada O intervalo de confiança para a diferença de duas médias quaisquer seria dado por Seguese que grupos de idade cuja diferença de médias seja superior a 916 seriam diferentes Na Tabela 158 observase que se aceita a igualdade apenas para grupos vizinhos indicando uma relação mais forte entre as variáveis fato que será explorado no próximo capítulo Tabela 158 Médias e diferenças de médias para os diversos grupos de idades para o Exemplo 151 Grupo 20 anos 25 anos 30 anos 35 anos 40 anos Média 9850 10325 10775 11075 11725 Diferença 475 450 300 650 No entanto com esse procedimento não se pode controlar as probabilidades do erro de tipo I ou seja a probabilidade de rejeitar uma hipótese verdadeira Por exemplo suponhamos que todas as médias sejam iguais No problema acima com cinco grupos e sob a hipótese nula teríamos então possíveis comparações duas a duas cada uma testada no nível de 5 e a probabilidade de que pelo menos uma das comparações exceda 916 é bem maior do que 5 na realidade pode ser mostrado que essa probabilidade está em torno de 29 Essa probabilidade cresce com o número de comparações Para controlar melhor essa probabilidade global do erro de tipo I pode ser usada uma correção baseada na desigualdade de Bonferroni ver Problema 19 Usase então o intervalo 1543 em que o único valor que muda é o de t γ que tem o mesmo número de graus de liberdade mas o nível de significância agora é α αm em que m é o número de comparações duas a duas que desejamos fazer Exemplo 156 No Exemplo 155 α 00510 0005 Da Tabela V com 15 graus de liberdade encontramos t 3438 obtido por interpolação linear e então Rejeitaremos H0 para diferenças maiores do que 1478 e vemos que apenas existe diferença entre os grupos de 20 e 40 anos Os intervalos de Bonferroni são conservadores pois o nível α real será menor do que aquele nominal e essa diferença aumenta com m Portanto recomendase que o seu uso seja restrito a um número pequeno de comparações Problemas 11 Queremos verificar o efeito do tipo de impermeabilização em lajes de concreto As quantidades de água que passaram pela laje em cada tipo foram medidas durante um mês obtendose os valores da tabela abaixo Que conclusão pode obter I II III IV 56 64 45 42 55 61 46 39 62 50 45 45 59 55 39 43 60 56 43 41 12 Os dados abaixo vêm de um experimento completamente aleatorizado em que 5 processos de estocagem foram usados com um produto perecível por absorção de água 25 exemplares desse produto foram divididos em cinco grupos de cinco elementos e após uma semana mediuse a quantidade de água absorvida Os resultados codificados estão no quadro abaixo Existem evidências de que os processos de estocagem produzem resultados diferentes Sexo A B C D E 8 4 1 4 10 6 2 2 6 8 7 0 0 5 7 5 2 1 5 4 8 3 3 4 9 155 Teste de Homoscedasticidade Uma das suposições básicas para a aplicação da técnica de ANOVA é a de homoscedasticidade ou seja que a variância seja a mesma em todos os níveis Muitas vezes não podemos garantir a priori se essa suposição é adequada e podemos analisar os dados para obter uma resposta Podemos fazer uma inspeção visual ou um teste A seguir apresentaremos o teste de Barlett para testar a igualdade de variâncias veja Dixon e Massey 1957 H0 σ2 1 σ2 2 σ2 I 1544 156 Exemplo Computacional Vamos utilizar o Minitab para ilustrar o uso de um pacote para resolver um problema de análise de variância Retomemos o Exemplo 151 como fator idade O Quadro 151 mostra a saída do Minitab usando a opção ANOVA do menu Observe que os valores encontrados coincidem com aqueles já obtidos na Seção 153 Tabela 157 O valorp do teste de igualdade de médias é indicado por P 0006 A saída mostra também as estimativas das médias dos grupos os desvios padrões e o desvio padrão ponderado Se 608 Os intervalos de confiança individuais estão mostrados de forma pictórica com uma escala anexa notandose intersecções que levam à rejeição da hipótese de igualdade de médias Quadro 151 ANOVA para o Exemplo 151 Minitab Oneway Analysis of Variance Analysis of Variance for C1 Source DF SS MS F P C2 4 8190 2048 554 0006 Error 15 5540 369 Total 19 13730 Individual 95 CIs For Mean Based on Pooled StDev Level N Mean StDev 20 4 9850 597 25 4 10325 512 30 4 10775 665 35 4 11075 562 40 4 11725 685 Pooled StDev 608 100 110 120 Na Figura 153 temos os resíduos para cada nível do fator idade bem como os resíduos para todas as idades Na Figura 154 vemos os box plots desses resíduos por nível e na Figura 155 o box plot dos resíduos para todas as idades Figura 154 Box plots para os resíduos por nível do fator idade R suas conclusões e críticas a esse experimento Réplicas Semanas Embalagens A B C 1 15 21 9 2 20 23 13 3 9 19 20 4 12 25 18 Total 56 88 60 15 Um produtor de gelatina em pó está testando um novo lançamento e quer verificar em que condições de preparo o produto seria mais bem aceito Vinte e quatro donas de casa atribuíram notas 0 a 10 para o prato que produziram com o produto Junto com o produto foram fornecidos quatro tipos de receitas duas para doces A e D e duas para salgados B e C Feita a análise estatística quais recomendações você faria ao produtor Discuta a validade das suposições feitas para resolver o problema Receita A B C D 2 4 3 3 5 7 5 6 1 3 1 2 7 9 9 8 2 4 6 1 6 8 8 4 16 Num curso de extensão universitária entre outras informações obtevese informação sobre salário e área de formação acadêmica com os seguintes resultados Formação ni x s Humanas 65 2875 354 Exatas 12 3521 546 Biológicas 8 4390 493 Aqui ni indica a frequência x o salário médio e s o desvio padrão amostral Teste a hipótese de que os salários médios nessas três áreas são iguais 17 Suspeitase que quatro livros escritos sob pseudônimo são de um único autor Uma pequena investigação inicial selecionou amostras de páginas de cada um dos livros contandose o número de vezes que determinada construção sintática foi usada Com os resultados abaixo quais seriam as suas conclusões Livros 1 2 3 4 28 29 26 39 31 33 24 27 17 35 22 35 25 24 19 34 26 28 23 28 22 25 34 24 29 33 30 18 Prove que 19 Construa uma ANOVA completa para os Exemplos 152 e 153 20 Usando a proposta do Problema 19 e os dados do Exemplo 153 teste H0 µ1 µ2 µ3 com α 005 21 Teste a igualdade de variâncias para o Exemplo 153 22 As vendas diárias Y de um grande centro de compras seguem uma distribuição normal com média igual a 100 e desvio padrão igual a 20 a Qual o intervalo que contém 95 das vendas diárias b Se X representar a média de amostras de vendas de nove dias qual intervalo conterá 95 das médias c Compare e interprete os dois intervalos acima Suponha agora que não se conheça nem a média nem o desvio padrão da população Sorteouse uma amostra de nove dias com as seguintes vendas diárias 157 162 135 136 154 178 180 127 128 d Qual a melhor estimativa para a média populacional e E para o desvio padrão populacional f Construa um intervalo de confiança IC de 95 para a média populacional g Construa um IC para a variância populacional h Explique em poucas palavras o significado dos intervalos obtidos em f e g i Suponha agora que baseado nessa amostra você deva responder à pergunta a Como você não conhece a média e a variância populacional você decide emprestar os respectivos valores da amostra e calcular o intervalo Qual seria esse intervalo Você tem alguma restrição a essa resposta j Usando 1547 construa o IP e interprete o resultado k Compare com a resposta dado em h explicando a diferença entre eles 23 Mostre que o IP para uma observação futura Yif do iésimo grupo pode ser escrito como Para m grande α pode ser tão pequeno que não o encontramos em tabelas da distribuição t de Student Podese usar a aproximação na qual v é o número de graus de liberdade da distribuição t e Zα é o valor da N0 l tal que PZ Zα α 2 Intervalo de predição Vamos supor adotado o modelo 1519 para a variável Y e desejamos prever uma observação futura Yf Pelo modelo adotado podemos escrever que Yf µ Ef que poderá ser estimado por Ŷf y εf e por desconhecer εf substituímolo por seu valor esperado que é zero Logo o estimador ou predição da futura observação será a média da amostra Admitindo a observação futura como independente das observações anteriores podemos escrever e que será estimada por Usando a mesma argumentação para a construção de intervalos de confiança podemos construir um IC para a futura observação que chamaremos de intervalo de predição IP do seguinte modo 1547 Capítulo 16 Regressão Linear Simples 161 Introdução No Capítulo 8 introduzimos o conceito de regressão para duas va quantitativas X e Y Vimos que a esperança condicional de Y dado que X x por exemplo denotada por EYx é uma função de x ou seja EYx µx 161 Em 827 definimos precisamente essa função Uma definição similar vale para EXy que será uma função de y Estamos considerando aqui o caso em que X e Y são definidas sobre uma mesma população P Por exemplo X pode ser a idade e Y o tempo de reação ao estímulo no Exemplo 151 Nesse exemplo a análise sugeriu a existência de uma relação mais forte entre as duas variáveis e a modelamos por yij µi eij i 1 5 j 1 4 162 em que µi é a média do grupo de idade i Podemos pensar que o fator idade determina cinco subpopulações ou estratos em P e de lá escolhemos cinco amostras aleatórias de tamanhos ni 4 i 1 5 Em 161 µx pode ser qualquer função de x veja o Exemplo 821 Um caso simples de interesse é aquele em que X e Y têm distribuição conjunta normal bidimensional Nesse caso µx e µy são de fato funções lineares Veja a Seção 88 Continuando com o Exemplo 151 tanto X idade como Y tempo de resposta ao estímulo são va contínuas e podemos pensar em introduzir um modelo alternativo para yij dada a relação entre X e Y Observando as médias de Y segundo os grupos de idades ou seja EYx percebemos que estas aumentam conforme as pessoas envelhecem A Figura 161 mostra os dados observados na qual notamos uma tendência crescente bem como os valores repetidos de Y para cada nível de idade x Um modelo razoável para EYx pode ser EYx µx α βx 163 ou seja o tempo médio de reação é uma função linear da idade Figura 161 Gráfico de dispersão de idade e reação ao estímulo com reta ajustada A forma da função µx deve ser definida pelo pesquisador em função do grau de conhecimento teórico que ele tem do fenômeno sob estudo Um modelo alternativo a 162 seria então yij µxi eij 164 com EYxi µxi α βxi i 1 2 5 Entretanto a forma usual de escrever o modelo é yi µxi ei 165 em que yi indica o tempo de reação do iésimo indivíduo com xi anos de idade i 1 2 n e n é o número total de observações Teremos então com essa notação valores repetidos para X por exemplo x1 x4 20 Convém reforçar a ideia que estamos propondo um modelo de comportamento para as médias das subpopulações logo teremos de estimar os parâmetros envolvidos mas o mesmo desenvolvimento pode ser aplicado em modelos mais complexos Será necessário ainda introduzir algumas suposições para as va envolvidas A primeira delas é que a variável X é por hipótese controlada e não está sujeita a variações aleatórias Dizemos que X é uma variável fixa ou sem erro ou determinística Segundo para dado valor x de X os erros distribuemse ao redor da média α βx com média zero isto é Eeix 0 168 Em terceiro lugar e pela mesma razão apresentada no capítulo anterior devemos supor que os erros tenham a mesma variabilidade em torno dos níveis de X ou seja Vareix σ2 e 169 E em quarto lugar introduziremos a restrição de que os erros sejam não correlacionados Colhida uma amostra de n indivíduos teremos n pares de valores xi yi i 1 n que devem satisfazer ao modelo 166 isto é yi α βxi ei i 1 n 1610 Temos então n equações e n 2 incógnitas α β e1 e2 en Precisamos introduzir um critério que permita encontrar α e β Como no capítulo anterior vamos adotar o critério que consiste em encontrar os valores de α e β que minimizam a soma dos quadrados dos erros dados por ei yi α βxi i 1 n 1611 Obtemos então a quantidade de informação perdida pelo modelo ou soma dos quadrados dos erros ou desvios 1612 Para cada valor de α e β teremos um resultado para essa soma de quadrados e a solução de mínimos quadrados MQ é aquela que torna essa soma mínima Temos então o problema de encontrar o mínimo de uma função de duas variáveis α e β no caso ver Morettin et al 2005 Derivando em relação a α e β e igualando a zero observamos que as soluções α e β devem satisfazer 1613 as quais produzem as soluções 1614 Substituindo em 163 teremos o estimador para a média µx dado por µˆxi α βxi i 1 n 1615 que iremos indicar por ˆyi α βxi 1616 ou ainda por ˆyi y β x β xi y β xi x 1617 Exemplo 161 Voltemos ao Exemplo 151 e vamos ajustar o modelo 1610 com yi tempo de reação do iésimo indivíduo xi idade do iésimo indivíduo ei desvio i 1 2 20 Da Tabela 161 obtemos as informações n 20 yi 2150 xi 600 xiyi 65400 y 10750 x 30 x2 i 19000 Substituindo em 1614 obtemos o que nos dá o modelo ajustado ŷi 8050 090xi i 1 2 20 1618 Com esse modelo podemos prever por exemplo o tempo médio de reação para pessoas de 20 anos que será indicado por ŷ 20 e determinado por ŷ20 8050 09020 9850 De modo análogo os tempos médios para as idades 25 30 35 e 40 serão respectivamente estimados por 10300 10750 11200 e 11650 Esses valores são muito próximos daqueles encontrados na Seção 153 e a vantagem desse modelo sobre aquele é a possibilidade de estimar o tempo de reação médio para um grupo de idades não observado Suponhamos por exemplo que se deseja estimar o tempo médio para o grupo de pessoas com 33 anos este será dado por ŷ33 8050 09033 11020 Na Figura 161 aparecem representados os dados observados bem como a reta ajustada Podemos observar que o modelo parece ser adequado não apresentando nenhum ponto com desvio exagerado Problemas 1 Usando os dados do Exemplo 151 a Encontre a reta de mínimos quadrados ˆzi α βxi em que z mede a acuidade visual e x a idade b Interprete o significado de α e β nesse problema c Para cada indivíduo encontre o desvio ˆei zi ˆzi existe algum com valor muito exagerado 2 A tabela abaixo indica o valor y do aluguel e a idade x de cinco casas a Encontre a reta de MQ supondo a relação Eyx α βx b Faça o gráfico dos pontos e da reta ajustada Você acha que o modelo adotado é razoável c Qual o significado do coeficiente angular nesse caso d E do coeficiente linear x 10 13 5 7 20 y 4 3 6 5 2 3 Um laboratório está interessado em medir o efeito da temperatura sobre a potência de um antibiótico Dez amostras de 50 gramas cada foram guardadas a diferentes temperaturas e após 15 dias mediuse a potência Os resultados estão no quadro abaixo a Faça a representação gráfica dos dados b Ajuste a reta de MQ da potência como função da temperatura c O que você acha desse modelo d A que temperatura a potência média seria nula Temperatura 30 50 70 90 Potência 38 43 32 26 33 19 27 23 14 21 4 Ainda usando os dados do exemplo numérico 151 investigue o ajuste da reta de MQ na variável tempo de reação como função da acuidade visual 163 Avaliação do Modelo Nesta seção e nas seguintes estudaremos várias formas de avaliar se o modelo linear postulado é adequado ou não dadas as suposições que fizemos sobre ele 1631 Estimador de σ2e Como no capítulo anterior para julgar a vantagem da adoção de um modelo mais complexo linear ou outro qualquer vamos usar a estratégia de comparálo com o modelo mais simples que é aquele discutido na Seção 152 ou seja yi µ ei 1619 A vantagem será sempre medida por meio da diminuição dos erros de previsão ou ainda da variância residual S2 e Para o modelo ajustado 1616 cada resíduo é dado por ˆei yi ŷi yi α β xi 1620 Como vimos na Seção 161 vários gráficos envolvendo esses resíduos podem ser feitos para avaliar se eles são bons representantes dos verdadeiros ei desconhecidos no sentido de que as suposições feitas sobre estes estão satisfeitas Esses gráficos serão estudados na Seção 165 Quando estes resíduos forem pequenos temos uma indicação de que o modelo está produzindo bons resultados Para julgarmos se o resíduo é pequeno ou não devemos comparálo com os resíduos do modelo alternativo dados por yi y Da dificuldade de compará los individualmente preferimos trabalhar com as respectivas somas de resíduos quadráticos dadas por 1621 e 1622 Exemplo 161 continuação Na quinta coluna da Tabela 161 aparecem os resíduos êi yi ŷi yi 8050 090xi que elevados ao quadrado e somados produzirão SQRes 56300 Tabela 161 Resíduos para o modelo 1618 i Variáveis Resíduos Tempo de Reação Sexo Idade yi ŷi i Variáveis Resíduos Tempo de Reação Sexo Idade yi ŷi 1 96 H 20 25 2 92 M 20 65 3 106 H 20 75 4 100 M 20 15 5 98 M 25 50 6 104 H 25 10 7 110 H 25 70 8 101 M 25 20 9 116 M 30 85 10 106 H 30 15 11 109 H 30 15 12 100 M 30 75 13 112 M 35 00 14 105 M 35 70 15 118 H 35 60 16 108 H 35 40 17 113 M 40 45 18 112 M 40 55 19 127 H 40 95 20 117 H 40 05 SQRes 563 Se 2 3128 Se 559 2Se 1118 Sabemos que SQTot 137300 o que mostra uma sensível redução de 810 unidades Mais ainda a comparação da quinta coluna da Tabela 161 com a coluna e3 da Tabela 154 mostra o melhor comportamento dos resíduos do modelo de regressão 1618 No entanto a comparação direta dessas somas de quadrados não nos parece justa pois o modelo 1618 tem mais parâmetros do que o modelo 1619 Vejamos então como comparar as variâncias residuais Para o modelo simples 1619 o estimador não viesado de σ2 e é 1623 Também vimos que para o modelo 162 com I níveis ou subpopulações o estimado da variância residual era 1624 e I também denota o número de parâmetros desconhecidos do modelo as médias µi Portanto de modo geral perdese um grau de liberdade para cada parâmetro envolvido no modelo e é natural definir o estimador de σ2 e num modelo de regressão como sendo 1625 em que p é o número de parâmetros do modelo No caso particular da regressão linear simples p 2 e 1626 será um estimador não viesado de σ2 e isto é ES2 e σ2 e Veja o Problema 32 Exemplo 162 Continuando o exemplo anterior obteremos S2 137319 7226 S 850 e S2 e 56318 3128 Se 559 números que sugerem uma diminuição significativa na soma dos quadrados dos resíduos Observe que passando de um modelo com um parâmetro para outro com dois há uma redução de 810 unidades na soma de quadrados residuais Ou seja perdendo um grau de liberdade reduziuse a soma dos resíduos quadráticos em 810 unidades o que é mais uma evidência da vantagem de adoção do segundo modelo 1632 Decomposição da Soma de Quadrados Ao passarmos do modelo simples para o modelo de regressão linear vimos que a redução da soma de quadrados é dada por SQTot SQRes Esse lucro é devido à adoção do segundo modelo e será indicado por SQReg significando a soma dos quadrados devida à regressão Seguese que SQReg SQTot SQRes 1627 ou seja SQTot SQReg SQRes 1628 Observando a Figura 163 notamos que vale a seguinte relação yi y yi ŷi ŷi y êi ŷi y 1629 Em palavras o desvio de uma observação em relação à média pode ser decomposto como o desvio da observação em relação ao valor ajustado pela regressão mais o desvio do valor ajustado em relação à média Figura 163 Representação gráfica dos diversos desvios Elevandose ao quadrado ambos os membros da igualdade 1629 tomandose a soma e observandose que a soma do duplo produto se anula veja o Problema 31 obtemos 1630 ou 1631 do que deduzimos que 1632 De 1617 obtemos que ŷi y βxi x portanto podemos escrever 1633 Daqui se pode observar que quanto maior o valor de β maior será a redução da soma dos quadrados dos resíduos 1633 Tabela de Análise de Variância Do mesmo modo como foi feito na Seção 152 podemos resumir as informações anteriores numa única tabela ANOVA ilustrada na Tabela 162 Tabela 162 Tabela ANOVA para modelo de regressão FV gl SQ QM F Regressão 1 SQReg SQReg QMReg QMRegS2e Resíduo n 2 SQRes SQResn 2 S2e Total n 1 SQTot SQTotn 1 S2 Também podemos medir o lucro relativo que se ganha ao introduzir o modelo usando a estatística 1634 definida anteriormente A estatística F será discutida na Seção 164 Exemplo 163 Dos cálculos que nos levaram ao modelo 1618 podemos construir a Tabela 163 Temos que Tabela 163 Tabela ANOVA para o modelo 1618 FV gl SQ QM F Regressão 1 810 810 2590 Resíduo 18 563 3128 Total 19 1373 7226 O modelo proposto diminui a variância residual em mais da metade e explica 59 da variabilidade total Verificamos então que é vantajosa a adoção do modelo linear 1618 para explicar o tempo médio de reação ao estímulo em função da idade A estratégia adotada para verificar se compensa ou não utilizar o modelo y α βx e é observar a redução no resíduo quando comparado com o modelo y µ e Se a redução for muito pequena os dois modelos serão praticamente equivalentes e isso ocorre quando a inclinação β for zero ou muito pequena não compensando usar um modelo mais complexo Estaremos pois interessados em testar a hipótese H0 β 0 1635 o que irá exigir que se coloque uma estrutura de probabilidades sobre os erros Esse assunto será objeto da próxima seção A Figura 164 ilustra as duas situações que podem ocorrer Na Figura 164 a temos o caso em que claramente a variável auxiliar ajuda a prever a variável resposta Na situação da Figura 164 b teremos dúvidas se vale a pena ou não introduzir um modelo mais complexo ganhando muito pouco em termos de explicação Figura 164 Retas ajustadas a dois conjuntos de dados a x explica y b x não explica y Para a avaliação final do modelo devemos investigar com mais cuidado o comportamento dos resíduos o que será feito na Seção 165 Problemas 5 Usando os resultados do Problema 1 construa a tabela ANOVA para o modelo z β x encontrado naquele problema a Qual a estimativa S2 E S2 e b Você acha que a redução nos resíduos foi grande c Qual o valor de R2 Interprete esse número 6 Um estudo sobre duração de certas operações está investigando o tempo requerido em segundos para acondicionar objetos e o volume em dm3 que eles ocupam Uma amostra foi observada e obtiveramse os seguintes resultados Tempo 108 144 196 180 84 152 110 133 231 Volume 2039 2492 3484 3172 1359 3087 1784 2322 3965 a Faça o diagrama de dispersão dos dados b Estime a reta de regressão do tempo de operação em função do volume c Construa a tabela ANOVA para o modelo d Qual o valor de S2 É pequeno quando comparado com S2 e e Você acha que conhecer o volume do pacote ajuda a prever o tempo de empacotamento 7 Construa a tabela ANOVA para o Problema 2 e interprete os resultados 8 Construa a tabela ANOVA com os dados do Problema 3 9 Idem para o Problema 4 164 Propriedades dos Estimadores Iremos agora estudar as propriedades amostrais dos estimadores α e β e para isso é conveniente voltar ao modelo e às suposições adotadas para a variável aleatória Y sob investigação Lembremos que a variável X é suposta controlada fixa e para cada valor x de X teremos associada uma distribuição de probabilidades para Y como ilustra a Figura 165 a em que supomos que a dispersão é a mesma para cada nível da variável X A Figura 165 b ilustra o caso que será considerado aqui em que estas distribuições condicionais são normais com a mesma variância Note que EYx é linear como estamos considerando neste capítulo Formalmente o modelo Yi EYxi ei α βxi ei i 1 n deve satisfazer as seguintes suposições i Para cada valor de xi o erro ei tem média zero e variância constante σ2 e ii Se i j Covei ej 0 isto é para duas observações distintas os erros são não correlacionados Seguese que EYixi α βxi e VarYixi σ2 e e ainda que Yi e Yj são não correlacionados para i j Figura 165 a médias alinhadas distribuições com a mesma variância b médias alinhadas distribuições normais com a mesma variância 1641 Média e Variância dos Estimadores Nesta seção vamos obter a média e a variância dos estimadores α e β dados em 1614 Proposição 161 Para o estimador β temos Eβ β 1636 1637 Prova Inicialmente vamos escrever β de um modo mais conveniente veja o Problema 30 em que estamos usando a notação Y maiúscula e x minúscula para diferenciar o fato de que a primeira está sendo considerada aleatória e a segunda fixa e Observe que estamos usando o fato de e que Usando propriedades da esperança e variância de somas de va veja o Capítulo 8 podemos escrever o que mostra que o estimador é não viesado Para a variância pois as observações são não correlacionadas e portanto e o resultado segue Proposição 162 Para o estimador α temos Eα α 1638 1639 Prova Precisaremos dos seguintes resultados Problema 33 Covy β 0 1640 1641 Como temos que dado que x é supostamente fixa e não uma va Também Temos então que Eα Ey β x α β x β x α e Varα Vary β x Vary Varβ x 2Covy β x Vary x2Varβ 2 xCovy β e usando os diversos resultados obtidos acima obtemos 1639 1642 Distribuições Amostrais dos Estimadores dos Parâmetros Para completar o estudo das propriedades dos estimadores vamos introduzir uma terceira suposição iii Os erros ei são va com distribuição normal isto é ei N0 σ2 e 1642 o que implica yi Nα βxi σ2e 1643 Como β e α são combinações lineares de va normais e independentes temos o seguinte resultado Proposição 163 Os estimadores α e β têm ambos distribuição normal com médias e variâncias dadas pelas Proposições 161 e 162 isto é 1644 1645 Os resultados acima permitem concluir que 1646 1647 1643 Intervalos de Confiança para α e β Substituindo σe por seu estimador Se em 1646 e 1647 sabemos que as estatísticas resultantes terão distribuição t de Student com n 2 graus de liberdade o que permitirá construir intervalos de confiança para os parâmetros Proposição 164 As estatísticas 1648 e 1649 têm distribuição t de Student com n 2 graus de liberdade Esse resultado combinado com os procedimentos de construção de intervalos de confiança já estudados nos leva aos seguintes intervalos para α e β com γ denotando o coeficiente de confiança e tγn 2 denotando o valor obtido da Tabela V com n 2 graus de liberdade 1650 1651 Exemplo 164 Da tabela ANOVA do Exemplo 163 podemos retirar as informações necessárias para construir intervalos de confiança para α e β Temos que x2 i 19000 xi x 2 1000 e x 30 Temos também S2 e 3128 e portanto Se 559 Se γ 095 obtemos t09518 2101Os intervalos são dados por Ou seja ICα 095 6905 9195 ICβ 095 060 120 Este último resultado é mais uma evidência de que β 0 o que reforça conclusões anteriores Os intervalos de confiança 1650 e 1651 podem ser utilizados para testar hipóteses do tipo H0 α α0 H0 β β0 Em particular temos o resultado Proposição 165 A estatística para testar H0 α 0 é 1652 e a estatística para testar H0 β 0 é 1653 cada uma tendo distribuição t de Student com n 2 graus de liberdade Observe que e usando o resultado 1633 podemos escrever 1654 que é a estatística F que aparece na tabela ANOVA Assim para testar a hipótese H0 β 0 podese usar a estatística 1654 que segue uma distribuição F1 n 2 Exemplo 165 Para testar separadamente as hipóteses acima os valores das estatísticas correspondentes serão os quais devem ser comparados com 2101 que é o valor crítico de t18 no nível de significância 5 Vemos que em ambos os casos rejeitamos as hipóteses de que os parâmetros sejam iguais a zero Comparando o resultado de tβ com o valor F da tabela ANOVA constatamos que t2β 2590 F de acordo com o apresentado acima Algumas vezes para indicar a significância das estatísticas a reta ajustada é escrita do seguinte modo em que entre parênteses aparece o valor de t para indicar com que intensidade o parâmetro pode ser considerado distinto de zero 1644 Intervalo de Confiança para µz e Intervalo de Predição O modelo linear 166 estudado até agora será utilizado frequentemente para fazer previsões da variável resposta y para algum nível da variável de controle x Usando o enunciado do Exemplo 161 poderíamos estar interessados em saber qual o tempo de reação aos 28 anos É importante estabelecer se queremos estimar o tempo médio para o grupo etário de 28 anos ou o tempo de reação provável para uma pessoa de 28 anos Veremos que a estimação pontual é a mesma nos dois casos porém os intervalos de confiança serão distintos Para entender bem as diferenças sugerimos recordar as soluções aos Exercícios 23 24 e 25 do Capítulo 15 Do modelo 163 e do exposto até agora temos o seguinte resultado Proposição 166 A distribuição amostral do estimador 1615 é dada por 1655 em que 1656 Prova Das proposições 161 e 162 vem o que demonstra a primeira parte da proposição De 1617 temos ŷi y βxi x portanto Varŷi Var y xi x2 Varβ 2xi x Covy β mas de 1640 Cov y β 0 e de 1637 vem o que conclui a prova Com a proposição acima e substituindo σ2 e por seu estimador S2 e é fácil verificar que o Intervalo de Confiança para µx será dado por 1657 Vejamos agora como construir um intervalo de predição para uma futura observação Imitando a proposta do Problema 1524 uma futura observação para um dado nível xf é dada por Yfx µxf εf e o estimador será Ŷf ŷf εf ŷf em que substituímos o valor desconhecido εf pelo seu valor esperado que é zero Da expressão anterior calculamos ou seja 1658 Substituindo σ2 e pelo seu estimador S2 e teremos um estimador da variância e analogamente o intervalo de predição abaixo 1659 Exemplo 166 Qual o tempo de reação aos 28 anos A estimativa pontual é dada por ŷ28 805 0928 1057 Considerando como resposta adequada o tempo de reação médio do grupo de 28 anos podemos escrever o Intervalo de Confiança para a média ou seja Se quiséssemos saber dentro de que intervalo 95 das futuras observações iriam estar construiríamos o Intervalo de Predição Problemas 10 Usando a tabela ANOVA construída no Problema 5 a Construa o ICβ 95 b Construa o ICα 90 c Use a estatística F para testar a hipótese H0 β 0 d Construa o IC para a acuidade visual média do grupo etário de 28 anos e E qual seria o Intervalo de Predição da acuidade visual das pessoas de 28 anos 11 Com as informações do Exemplo 151 e a ANOVA construída no Problema 9 você diria que a acuidade visual ajuda a prever o tempo de reação dos indivíduos Que estatística você usou para justificar seu argumento e por quê 12 Investigando a relação entre a quantidade de fertilizante usado x e a produção de soja y numa estação experimental com 20 canteiros obtevese a equação de MQ ŷ 1500 283x 322 165 Com esses resultados você diria que a quantidade de fertilizante influi na produção Por quê 165 Análise de Resíduos Para verificar se um modelo é adequado temos que investigar se as suposições feitas para o desenvolvimento do modelo estão satisfeitas Para tanto estudamos o comportamento do modelo usando o conjunto de dados observados notadamente as discrepâncias entre os valores observados e os valores ajustados pelo modelo ou seja fazemos uma análise dos resíduos O iésimo resíduo é dado por êi yi ŷi i 1 2 n 1660 Lembremos que já utilizamos estes resíduos para obter medidas da qualidade dos estimadores dos parâmetros do modelo Agora iremos estudar o comportamento individual e conjunto destes resíduos comparando com as suposições feitas sobre os verdadeiros erros ei Existem várias técnicas formais para conduzir essa análise mas aqui iremos ressaltar basicamente métodos gráficos Para mais detalhes ver Draper e Smith 1998 Uma representação gráfica bastante útil é obtida plotandose pares xi êi i 1 n Outras vezes é de maior utilidade fazer a representação gráfica dos chamados resíduos padronizados 1661 plotandose os pares xi zi Observe que a forma dos dois gráficos será semelhante havendo apenas uma mudança de escala das ordenadas nos dois casos Por isso iremos usar a primeira representação indicando no gráfico a posição do valor Se Outro resíduo usado é o chamado resíduo estudentizado definido por 1662 em que O denominador de 1662 é o desvio padrão de êi Não iremos explorar aqui a análise feita com esse tipo de resíduo Exemplo 167 Voltemos ao Exemplo 151 Os resíduos do modelo 1618 estão reproduzidos na Tabela 164 dos quais foram obtidos os demais Os dois primeiros resíduos estão representados na Figura 166 Note que os dois gráficos são parecidos e levarão ao mesmo tipo de diagnóstico Comentários adicionais sobre esse exemplo serão feitos abaixo Tabela 164 Resíduos para o modelo 1618 Idade êi zi rˆi Idade êi zi rˆi 20 25 045 049 30 15 027 028 20 65 116 126 30 75 134 137 20 75 134 145 35 00 00 00 20 15 027 029 35 70 125 130 25 50 089 092 35 60 107 111 25 10 018 019 35 40 072 075 25 70 125 130 40 45 080 086 25 20 036 037 40 55 098 106 30 85 152 156 40 95 170 184 30 15 027 028 40 05 009 010 Figura 166 Resíduos para o Exemplo 161 a êi yi ŷi b resíduos padronizados Obtido o gráfico dos resíduos precisamos saber como identificar possíveis inadequações Apresentamos na Figura 167 alguns tipos usuais de gráficos de resíduos A Figura 167 a é a situação ideal para os resíduos distribuídos aleatoriamente em torno do zero sem nenhuma observação muito discrepante Figura 167 Gráficos de resíduos a situação ideal b c modelo não linear d elemento atípico e f g heterocedasticidade h não normalidade Nas situações b e c temos possíveis inadequações do modelo adotado e as curvaturas sugerem que devemos procurar outras funções matemáticas que expliquem melhor o fenômeno A Figura 167 d mostra a existência de um elemento discrepante e deve ser investigada a razão desse desvio tão marcante Pode ser um erro de medida ou a discrepância pode ser real Em situações como essa em que há observações muito diferentes das demais métodos chamados robustos têm de ser utilizados Os casos e f e g indicam claramente que a suposição de homoscedasticidade mesma variância não está satisfeita Em h parece haver maior incidência de observações nos extremos mostrando que a suposição de normalidade não está satisfeita Analisados os resíduos e diagnosticada uma possível transgressão das suposições devemos propor alterações que tornem o modelo mais adequado aos dados e às suposições feitas A verificação da hipótese de normalidade pode ser realizada fazendose um histograma dos resíduos ou um gráfico de q q como explicado no Capítulo 3 Exemplo 167 continuação A análise dos resíduos do modelo 1618 mostra que esses não violam as suposições de média zero e variância comum A Figura 168 mostra o histograma dos resíduos e a Figura 169 mostra um gráfico q q Esse gráfico feito com o SPlus coloca nos eixos das ordenadas os valores crescentes dos êi e no eixo das abscissas os quantis de uma normal padrão Se os valores fossem de uma normal eles deveriam se dispor ao longo de uma reta Notamos que tanto o histograma quanto o gráfico de quantis mostram que os resíduos não são normalmente distribuídos Figura 168 Histograma dos resíduos do modelo 1618 Figura 169 Gráfico q q normalidade para os resíduos do modelo 1618 Quando a suposição de variância comum não estiver satisfeita usualmente fazse uma transformação da variável resposta y ou da preditora x ou de ambas Para detalhes ver Bussab 1986 e a Seção 166 Exemplo 168 Num processo industrial além de outras variáveis foram medidas X temperatura média F e Y quantidade de vapor Os dados estão na Tabela 165 Draper e Smith 1998 Appendix A Tabela 165 Temperatura e quantidade de vapor de um processo industrial Nº xi yi êi 1 353 1098 0174 2 297 1113 0123 3 308 1251 1345 4 588 840 0531 5 614 927 0547 6 713 873 0797 7 744 636 1326 8 767 850 0998 9 707 782 0161 10 575 914 0106 11 464 824 1680 12 289 1219 0873 13 281 1188 0499 14 391 957 0933 15 468 1094 1052 16 485 958 0173 17 593 1009 1199 18 700 811 0073 19 700 683 1207 20 745 888 1202 21 721 768 0189 22 581 847 0517 23 446 886 1204 24 334 1036 0598 25 286 1108 0261 Fonte Draper e Smith 1998 O gráfico de dispersão e a reta de MQ estão na Figura 1610 a A reta estimada de MQ é dada por ŷi 9424 00798xi 526 1663 ou ainda ŷi 13623 00798xi 1664 de modo que α 13623 e β 00798 Os resíduos e ˆ i yi ŷi estão na quarta coluna da Tabela 165 e seu gráfico contra xi na Figura 1610 b O gráfico q q para verificar a suposição de normalidade está na Figura 1610 c Observamos que há vários pontos afastados da reta Figura 1610 a gráfico de dispersão com reta ajustada b resíduos vs temperatura c gráfico q q normalidade Problemas 13 Com o modelo linear já obtido para a acuidade visual como função da idade construa os tipos de resíduos apresentados no Exemplo 166 Representeos graficamente Você observa alguma transgressão das suposições básicas 14 Para cada gráfico de resíduo abaixo indique qual a possível transgressão observada 15 Abaixo estão os valores da variável preditora x os resíduos observados depois do ajuste do modelo e a ordem em que os dados foram obtidos Preditor 11 20 14 22 12 25 15 Resíduo 1 2 3 3 1 5 0 Ordem 9 6 13 1 7 14 8 Preditor 14 19 21 18 22 16 21 Resíduo 0 3 2 2 5 0 1 Ordem 3 12 4 11 2 10 5 a Verifique se existe alguma possível transgressão das suposições analisando o gráfico xi êi b Faça o gráfico do resíduo contra a ordem do experimento Você observa alguma inconveniência 166 Alguns Modelos Especiais Nesta seção introduziremos alguns modelos particulares simples e que são de interesse prático Iniciamos com o modelo que teoricamente passa pela origem Depois consideramos modelos não lineares mas que podem ser linearizados por meio de alguma transformação 1661 Reta Passando pela Origem Em algumas situações temos razões teóricas ou ditadas pelas peculiaridades do problema a analisar para supor que o modelo deva ser do tipo yi βxi ei i 1 n 1665 Com as mesmas suposições anteriores e observada uma amostra xi yi i 1 n é fácil ver que o EMQ de β é 1666 Deixamos a cargo do leitor verificar como ficam os resultados obtidos anteriormente para o modelo completo nesse caso particular Por exemplo Exemplo 169 A mensuração exata Y de uma substância do sangue por meio de uma análise química é muito cara Um novo método mais barato resulta na medida X que supostamente pode ser usada para prever o valor de Y Nove amostras de sangue foram obtidas e avaliadas pelos dois métodos obtendose as medidas abaixo X 119 155 174 190 196 233 272 253 276 Y 112 152 172 183 192 228 263 239 263 Algumas estatísticas obtidas são Vamos ajustar o modelo 1665 a esses dados Obtemos β 396933411436 09648 resultando no modelo ajustado ŷi 09648xi i 1 2 9 É fácil ver que S2 e 59136 e Se 24318 Para testar a hipótese H0 β 0 usamos a estatística que resulta ser igual a o que claramente leva à rejeição de H0 Um intervalo de confiança para β com coeficiente de confiança 95 é ou seja ICβ 095 09561 09735 Os dados e a reta ajustada estão na Figura 1611 Figura 1611 Dados e reta ajustada para o Exemplo 168 1662 Modelos Não Lineares Quando usamos modelos de regressão ou qualquer outro tipo de modelo a situação ideal é aquela em que o pesquisador por razões teóricas inerentes ao problema real sob estudo pode sugerir a forma funcional da relação entre duas ou mais variáveis Na prática isso nem sempre acontece Muitas vezes o pesquisador está interessado em usar técnicas de regressão para explorar modelos convenientes sugeridos pelos dados observados Como vimos o primeiro passo para investigar o tipo de modelo a ser adotado é a representação gráfica dos dados a qual pode sugerir a forma da curva relacionando as variáveis além de fornecer outras informações veja o final da Seção 161 Por exemplo com os dados da Tabela 166 obtemos o diagrama de dispersão da Figura 1612 Notamos claramente a inadequação da reta como modelo sendo que provavelmente uma relação exponencial do tipo fx α eβx 1667 seja mais adequada Um modelo que pode então ser sugerido é yi α eβxi εi i 1 n 1668 Tabela 166 Taxa de Inflação no Brasil de 1961 a 1979 Ano t Inflação Y Y log Y 1961 9 9 22 1963 7 24 32 1965 5 72 43 1967 3 128 48 1969 1 192 52 1971 1 277 56 1973 3 373 59 1975 5 613 64 1977 7 1236 71 1979 9 2639 79 Figura 1612 Dados de inflação no Brasil pontos e modelo exponencial ajustado Suponha que queiramos estimar os parâmetros α e β pelo método de mínimos quadrados Devemos minimizar 1669 Derivando S em relação a α e β e igualando a zero obtemos as duas equações 1670 A solução desse sistema de equações não lineares exige o uso de procedimentos de otimização não lineares como Newton Raphson GaussNewton scoring e outros Ou seja os pontos de máximo da função S são obtidos numericamente dada a impossibilidade de termos soluções analíticas para as Equações 1670 Mas devemos dizer que essa é a regra mais do que a exceção em problemas encontrados na prática Portanto a utilização desses procedimentos de otimização é um requisito importante para estudantes de áreas como estatística economia engenharia etc Neste livro vamos nos limitar a tratar de alguns casos em que as transformações das variáveis sob estudo permitirão o uso de um modelo linear simples Suponha que a função 1667 seja apropriada para os dados da Tabela 166 Considere o modelo yi αeβxi εi i 1 n 1671 Observe que nesse modelo os erros εi entram de forma multiplicativa e não aditiva como no caso do modelo 166 Considerando agora o logaritmo na base e de ambos os lados de 1671 e chamando y i log yi α log α ε i log εi 1672 podemos escrever o modelo na forma y i α βxi ε i i 1 n 1673 Note que esse modelo é linear em α e β e temos que supor que os erros εi sejam positivos do contrário não podemos tomar logaritmos deles Por outro lado os erros ε i podem ser negativos positivos ou nulos Portanto para o modelo linear 1673 podemos fazer as suposições usuais das seções anteriores Exemplo 1610 Utilizando os dados da Tabela 166 devemos inicialmente calcular os logaritmos naturais da variável Y Note que nesse exemplo a variável explicativa é o tempo convenientemente codificado Na Figura 1613 temos o diagrama de dispersão dos dados transformados e da reta ajustada a saber ˆy i 527 028t t 9 9 1674 A análise de tal modelo pode ser conduzida como antes Veja o Problema 35 Observe que o modelo original ajustado é ˆy i 19442 e028t i 1 10 1675 pois α e527 Essa curva está representada na Figura 1612 Os resíduos do modelo 1674 transformado e do modelo 1675 original são dados na Tabela 167 e nas Figuras 1614 e 1615 respectivamente Note que em ambos os casos os resíduos não parecem ser aleatórios havendo curvaturas sugerindo a possibilidade de um modelo com termos quadráticos ou cúbicos por exemplo Figura 1613 Diagrama de dispersão para o logaritmo da inflação com reta ajustada Tabela 167 Resíduos para os modelos linear e exponencial t Resíduos Reta Exponencial 9 055 6643 7 011 3386 5 043 24057 3 037 44067 1 021 45061 1 005 19757 3 021 77348 5 027 175412 7 013 145251 9 011 222632 Figura 1614 Resíduos da reta ajustada ao logaritmo da inflação versus ano Figura 1615 Resíduos do modelo exponencial ajustado aos dados originais versus ano Os histogramas e gráficos q q para normalidade dos resíduos estão nas Figuras 1616 e 1617 Notamos que o histograma é assimétrico mostrando claramente o valor correspondente a t 9 Como há poucos pontos a análise de resíduos fica prejudicada o gráfico q q mostra os pontos não muito próximos de retas Figura 1616 Histogramas a resíduos reta ajustada ao log inflação b resíduos modelo exponencial Figura 1617 Gráficos q q dos resíduos a reta b exponencial 167 Regressão Resistente Nesta seção vamos considerar apenas o caso de regressão linear simples Ou seja temos os valores observados xi yi i 1 n e queremos ajustar o modelo 166 Notamos que os estimadores α e β em 1614 são baseados em x y e desvios em relação a essas médias A regressão resistente baseiase em medianas em vez de médias Inicialmente dividimos o conjunto dos n pontos em três grupos de tamanhos aproximadamente iguais baseados principalmente na ordenação da variável x e no gráfico de dispersão Chamemos esses grupos de E de esquerda C de centro e D de direita Se n 3k cada grupo terá k pontos Se n 3k 1 colocamos k pontos nos grupos E e D e k 1 pontos no grupo C Finalmente se n 3k 2 colocamos k 1 pontos nos grupos E e D e k pontos no grupo C Para cada grupo obtemos um ponto resumo formado pela mediana dos xi e a mediana dos yi naquele grupo Denominemos esses pontos por xE yE xC yC xD yD Na Figura 1618 temos um exemplo com três grupos com k 3 em cada grupo Figura 1618 Reta resistente com três grupos Os estimadores de β e α são dados respectivamente por 1676 1677 A reta resistente ajustada é yi a0 b0xi i 1 n 1678 Os modelos robustos necessitam muitas vezes recorrer a processos interativos para obter estimadores mais eficientes Isso deve ser feito quando os resíduos não forem bem comportados Não abordaremos esse tópico neste livro Veja Hoaglin et al 1983 para mais informação Exemplo 1611 Voltemos aos dados do Exemplo 161 Como n 20 3 6 2 os grupos E C e D serão formados com 7 6 e 7 pontos respectivamente Observando a Figura 161 consideramos os grupos como seguem Grupo E i 2 1 4 3 5 8 6 Idade 20 20 20 20 25 25 25 Y 92 96 100 106 98 101 104 Grupo C i 7 12 10 11 9 14 Idade 25 30 30 30 30 35 Y 110 100 106 109 116 105 Grupo D i 16 13 15 18 17 20 19 Idade 35 35 35 40 40 40 40 Y 108 112 118 112 113 117 127 Os pontos resumidores são xE yE 20 100 xC yC 30 1075 xD yD 40 113 logo as estimativas dos coeficientes serão de modo que a reta resistente ajustada será que está representada na Figura 1619 justamente com a reta de MQ dada em 1618 Figura 1619 Reta de MQ e reta resistente para o Exemplo 1611 Na próxima seção daremos um exemplo em que as duas retas a de MQ e a resistente são bastante diferentes 168 Exemplos Computacionais Nesta seção vamos considerar dois exemplos um sobre a aplicação a dados reais do mercado de ações e outro aplicando regressão resistente a um conjunto de dados com um outlier Exemplo 1612 Retomemos o Exemplo 413 no qual consideramos as variáveis Y preço de ação da Telebrás e X índice da Bolsa de Valores de São Paulo cada uma com n 39 observações O gráfico de dispersão das duas variáveis está na Figura 1620 juntamente com a reta de mínimos quadrados O modelo ajustado é ŷi 557 093xi e no Quadro 161 temos a saída do programa Minitab Nesta encontramos a Estimativas dos coeficientes α e β juntamente com as estimativas dos desvios padrões respectivos 1085 e 00297 b Valores da estatística t para testar as hipóteses nulas de que os coeficientes são nulos denotados por T juntamente com o valorp P 0000 mostrando que devemos rejeitar essas hipóteses nulas c Uma tabela de análise de variância com o valor F 96944 com 1 e 37 gl e o valorp P 0000 d O valor de R2 963 que nos diz que o modelo ajustado explica a maior parte da variabilidade dos dados Figura 1620 Gráfico de dispersão das variáveis X e Y para o Exemplo 1612 e reta ajustada Quadro 161 Análise do Exemplo 1612 Minitab Regression Analysis The regression equation is Tel 557 0925 Ibv Predictor Coef StDev T P Constant 5570 1085 513 0000 Ibv 092491 002971 3114 0000 S 07614 R Sq 963 R Sq adj 962 Analysis of Variance Source DF SS MS F P Regression 1 56199 56199 96944 0000 Residual Error 37 2145 058 Total 38 58344 Na Figura 1621 temos gráficos que nos auxiliam a fazer um diagnóstico do modelo ajustado Na Figura 1621a temos o gráfico q q dos quantis dos resíduos contra os quantis da normal padrão para avaliar a normalidade dos resíduos Na Figura 1621b temos o gráfico dos resíduos contra a ordem das observações e na Figura 1621d o gráfico dos resíduos contra os valores ajustados Finalmente na Figura 1621c temos o histograma dos resíduos O que você pode dizer desses gráficos Figura 1621 Gráficos após o ajuste do modelo análise de resíduos Exemplo 1611 Minitab Exemplo 1613 Considere os dados da Tabela 168 provenientes da mensuração da velocidade do vento no aeroporto de Philadelphia EUA sempre a uma hora da manhã para os primeiros 15 dias de dezembro de 1974 Graedel e Kleiner 1985 Tabela 168 Velocidade do vento no aeroporto de Philadelphia t vt t vt 1 222 9 204 2 611 10 204 3 130 11 204 4 278 12 111 5 222 13 130 6 74 14 74 7 74 15 148 8 74 Observamos no diagrama de dispersão da Figura 1622 o valor atípico 611 destacado dos demais pontos A reta de MQ ajustada aos dados é ˆvt 30034 1454t t 1 2 15 1679 e é puxada por esse ponto Essa reta está representada por uma linha cheia na figura Para ajustar a reta resistente consideramos três conjuntos de cinco pontos É fácil ver que obtemos v t 2156 092t t 1 2 15 1680 também representada por uma linha tracejada na figura Figura 1622 Reta de MQ e resistente para os dados de velocidade do vento c Se você respondeu que o valor obtido em b não é razoável encontre uma explicação para o ocorrido Sugestão interprete a natureza das variáveis X e Y e o comportamento de Y para grandes valores de X 20 A análise do lucro anual de uma ação como função linear da sua cotação média anual forneceu os resultados abaixo com alguns campos em branco Preencha as lacunas e interprete os resultados ANOVA Fonte gl SQ QM F Regressão Resíduo 1209 Total 11 1766 Modelo Descrição Coef EP t valorp LI 95 LS 95 Intercepto 4900 2200 0055 134 Cotação 030 007 0003 045 21 Um jornal quer verificar a eficácia de seus anúncios na venda de carros usados A tabela abaixo mostra o número de anúncios publicados e o correspondente número de carros vendidos por seis companhias que usaram apenas esse jornal como veículo de propaganda Companhia A B C D E G Anúncios 74 45 48 36 27 16 Carros vendidos 139 108 98 76 62 57 Ajustandose a reta de regressão obtevese y 1516x 27844 e F 7017 Como você argumentaria com a companhia G para que ela aumentasse o número de anúncios aumentando a venda de carros 22 O custo de manutenção de tratores parece aumentar com a idade do trator Os seguintes dados foram obtidos X representa idade em anos e Y o custo por seis meses a Ajuste o modelo ŷ β0 β1x e teste a hipótese de interesse para o nível α 010 b Devemos procurar um modelo mais adequado c Determine uma previsão para o custo de manutenção para tratores com 5 anos de idade e obtenha um intervalo de confiança com γ 090 d Teste as hipóteses H0 β0 300 H1 β0 300 para o nível α 005 X Y 05 163 05 182 10 978 10 466 10 549 40 495 40 723 40 681 45 619 45 1049 45 1033 50 890 50 1522 50 1194 55 987 60 764 60 1373 23 Os dados abaixo referemse a outro experimento de Galton veja CM1 dentro da mesma investigação procurando estudar a relação entre o diâmetro em centésimos de polegada de ervilhaspais x e ervilhasfilhas y Analise a reta de regressão para os dados e interprete os coeficientes Diâmetros em 001 de polegadas de sementes de ervilhas Pais x 150 160 170 180 190 200 210 Filhos y 154 157 160 163 166 170 173 24 Um pesquisador deseja verificar se um instrumento para medir concentração de ácido lático no sangue está bem calibrado Para isso ele tomou 20 amostras de concentrações conhecidas e determinou a respectiva concentração por meio do instrumento Como uma análise de regressão poderia auxiliar o pesquisador Modele o problema acima especificando as variáveis independente e dependente e as hipóteses de interesse 25 Os dados abaixo correspondem a duas variáveis X e Y em que X concentração conhecida de ácido lático e Y concentração de ácido lático registrada pelo instrumento X Y 1 11 07 18 04 3 30 14 49 44 45 5 73 82 62 10 120 131 126 132 15 187 197 174 171 Ajuste o modelo ŷ β0 β1x e teste a hipótese H0 β1 1 contra a alternativa H1 β1 1 Tire conclusões com base no resultado desse teste 26 Sejam X volume de precipitação pluvial Y produção de trigo por alqueire a Você acha que um modelo do tipo Y α βx e seria adequado para essas variáveis Por quê b Caso esse modelo não seja adequado esboce um gráfico do tipo de relação que você esperaria existir entre X e Y 27 Num experimento foram aplicadas três doses diferentes de insulina em coelhos e foram observadas quedas na quantidade de açúcar no sangue variável Y depois de determinados períodos Nesse tipo de experimento é usual admitirse que a relação entre queda de açúcar e o logaritmo da dose da insulina é linear log da dose X 036 056 076 17 64 62 21 48 72 49 34 61 54 63 91 São dados Faça um estudo completo sobre o ajuste do modelo y β0 β1x ε a esses dados 28 A indústria farmacêutica MIMI vende um remédio para combater resfriado Após dois anos de operação ela coletou as seguintes informações trimestrais Trimestre Vendas 10000 Y Despesas cPropaganda X Temperatura Média do Trimestre Z 1 25 11 2 2 13 5 13 3 8 3 16 4 20 9 7 5 25 12 4 6 12 6 10 7 10 5 13 8 15 9 4 a Faça os gráficos x y e z y b Encontre as retas ŷ a bx e ŷ c dz c Qual das duas você acha estatisticamente mais adequada para prever as vendas Por quê d De acordo com a decisão acima qual a previsão de vendas para um trimestre em que a despesa de propaganda será 8 e a temperatura prevista 10 29 Para construir um modelo linear relacionando a quantidade de fertilizantes usada x e a produtividade obtida y com uma amostra de sete canteiros o pesquisador obteve as seguintes estatísticas x 400 y 60 sx 21602 sy 1384 e r 0922 a Encontre as estimativas do modelo ŷ βx b Construa a tabela ANOVA c Analise os resultados 30 Obtenha 1664 e os gráficos que seguem 31 Para o Exemplo 1610 obtenha a tabela ANOVA e os intervalos de confiança para α e β ajustando o modelo 1671 32 Ainda para o Exemplo 1610 obtenha o intervalo de confiança para α 33 Para o exemplo da reação ao estímulo a construa o IC para a média das pessoas com 28 anos de idade b construa o IP para uma futura pessoa de 28 anos de idade c compare e ressalte as diferenças dos dois resultados 34 Construa o gráfico das regiões de previsão da média e individual 1 α 095 para o modelo desenvolvido no Problema 3 e complementado no Problema 8 A que temperatura a potência média já poderia ser considerada como zero Compare com a resposta dada na questão d do Problema 3 35 Sejam Y despesa com viagem X duração da viagem em dias Para uma amostra com n 102 obtevese a Obter a reta ŷ βxi b Qual o significado prático de e β c Uma viagem irá durar sete dias Quanto o vendedor deve levar para que exista apenas uma chance em dez de lhe faltar dinheiro 1610 Complementos Metodológicos 1 Origem do Termo Regressão O uso do termo regressão devese a Francis Galton por volta de 1885 quando investigava relações entre características antropométricas de sucessivas gerações Uma de suas constatações era de que cada peculiaridade de um homem é transmitida aos seus descendentes mas em média numa intensidade menor Por exemplo embora pais com baixa estatura tendam a ter filhos também com baixa estatura estes têm altura média maior do que a altura média de seus pais O mesmo ocorre mas em direção contrária com pais com estatura alta Essa afirmação pode ser mais bem compreendida observandose os dados usados por Galton e representados parcialmente na Figura 1623 Se as características permanecessem as mesmas de geração para geração esperarseia que a reta de regressão tivesse seu coeficiente angular próximo de 1 Em sua análise Galton encontrou o valor 0516 mostrando que a reta tende para aquela paralela ao eixo x e passando pela média y y A esse fenômeno de a altura dos filhos moverse em direção à altura média de todos os homens ele chamou de regressão e às vezes de reversão tendo aparecido num artigo de 1885 no Journal of the Anthropological Institute com o título Regression Towards Mediocrity in Hereditary Stature Regressão para a Mediocridade em Estaturas Hereditárias mediocridade aqui referindose a média Figura 1623 Média da altura de filhos contra altura composta dos pais baseada no estudo de Galton 2 Vamos provar que o coeficiente angular β da Fórmula 1614 pode ser escrita como De 1614 temos Mas De modo análogo Definindose e a demonstração está completa 3 Vamos provar 1630 ou seja De 1629 yi y yi ŷi ŷi y êi ŷi y e elevando ao quadrado ambos os membros e somandoos obtemos Mas como ŷi y βxi x e e ˆi yi y βxi x teremos Usando a expressão de β do Problema 30 obtemos o que demonstra a expressão 4 Mostremos que ES2 e σ2 e Vamos decompor a demonstração em três partes a Vejamos quanto vale ESQTot Temos Yi α βxi ei i 1 2 n ei N0 σ2e Somando as n parcelas em cada membro e dividindo por n obtemos Y α βx e e N 0 σ2en e ainda Calculando a esperança teremos Mas pois é equivalente à variância de uma amostra aleatória simples de tamanho n retirada da população N0 σ2 e e já vimos que essa é a expressão de um estimador não viesado da variância σ2 e Então b Vamos calcular agora ESQReg De 1633 e de 1637 Mas da definição de variância sabemos que Varβ Eβ2 E2β Eβ2 β2 pois Eβ β Combinando estas expressões teremos Explicitamente c Finalmente como a partir de que podemos escrever ou seja REFERÊNCIAS Livros básicos BLACKWELL D Estatística básica São Paulo Editora McGrawHill 1973 BUSSAB W O Análise de variância e de regressão São Paulo Atual 1986 FELLER W An introduction to probability theory and its applications v I 2 ed Nova York Wiley 1964 HAMMERSLEY J M HANDSCOMB D C Monte Carlo methods Nova York Wiley 1964 MORETTIN P A HAZZAN S BUSSAB W O Cálculo funções de uma e várias variáveis 3 ed São Paulo Editora Saraiva 2016 HELENE O A M VANIN V R Tratamento estatístico de dados 2 ed São Paulo Editora Edgard Blücher 1991 MEYER P L Introductory probability and statistical applications Reading AddisonWesley 1965 MORETTIN P A Introdução à estatística para ciências exatas São Paulo Atual 1981 MURTEIRA B J Análise exploratória de dados Lisboa McGraw Hill 1993 SOBOL I M Método de Monte Carlo Moscou Editorial MIR 1976 STUART A The ideas of sampling Nova York MacMillan Publishing Company 1984 TUKEY J W Exploratory data analysis Reading AddisonWesley 1977 Livros mais avançados BUSSAB W O BOLFARINE H Elementos de amostragem São Paulo Editora E Blücher 2005 CHAMBERS J M CLEVELAND W S KLEINER B TUKEY P A Graphical methods for data analysis Nova York Chapman and Hall 1983 CONOVER W J Pratical nonparameric statistics Nova York Wiley 1971 DAVISON A C HINKLEY D V Bootstrap methods and their application Cambridge University Press 1997 DIXON W J MASSEY F J Introduction to statistical analysis 2 ed Nova York McGrawHill 1957 DRAPER N R SMITH H Applied regression analysis 3 ed Nova York Wiley 1998 EFROM B TIBSHIRANI R J An introduction to the bootstrap Nova York Chapman and Hall 1993 FISHER R A The design of experiments Edimburgo Oliver and Boyd 1935 Statistical methods for research workers 12 ed Nova York Hafner 1954 HOAGLIN D C MOSTELLER F TUKEY J W Understanding robust and exploratory data analysis Nova York Wiley 1983 KLEIJNEN J VAN GROENENDAAL W Simulation a statistical perspective Chichester John Wiley and Sons 1994 LEHMANN E L Nonparametrics statistical methods based on ranks São Francisco HoldenDay 1975 MORETTIN P A TOLOI C M C Análise de séries temporais 2 ed São Paulo Editora Edgard Blücher 2006 OHAGAN A Bayesian inference Londres Edward Arnold 1994 PERES C A SALDIVA C D Planejamento de experimentos São Paulo 5º SINAPE 1982 ROSS C A Simulation 2 ed Nova York Academic Press 1997 Artigos de interesse BOX G E P MÜLLER M E A note on the generation of random normal deviates Annals of Statistics 29 p 610611 1958 EFRON B Bootstrap methods another look at the jackknife Annals of Statistics 7 p 126 1979 EFRON B GOUS A Bayesian and frequentist model selection TR n 193 Division of Biostatistics Stanford University 1997 FREEDMAN D DIACONIS P On the maximum deviation between the histogram and the underling density Zeitschrift für wahrscheinlichkeits theorie und Verwandte Gebiete 58 p 139167 GRAEDEL T E KLEINER B Exploratory analysis of atmospheric data Probability Statistics and Decision Making in the Atmospheric Sciences A H Murphy and R W Katz Editors p 143 Boulder Westview Press 1985 Metropolis N ULAM S The Monte Carlo method Journal of The American Statistical Association 44 p 335341 1949 NEYMAN J Probabilidade e Estatística Frequentista Rio de Janeiro IMPACNPq 1978 SALDIVA P H N LICHTENFELS A J F C PAIVA P S O BARONE I A MARTINS M A MASSAD E PEREIRA J C R XAVIER V P SINGER J M BÖHM G M Association between air pollution and mortality due to respiratory diseases in children in São Paulo a preliminary report Environmental Research 65 p 218226 1994 SINGER J M ANDRADE D F Regression models for the analysis of pretest data Biometrics 53 p 729735 1997 VON NEUMANN J Various techniques used in connection with random digits Monte Carlo Method U S National Bureau of Standards Applied Mathematical Series 12 p 3638 1951 Tabelas HARTER H L OWEN D B Selected tables in mathematical statistics Volume 1 Chicago Markham 1970 MILLER L H Table of percentage points of Kolmogorov statistics Journal of the American Statistical Association 51 p 11121 1956 PEREIRA J S C BUSSAB W O Tábuas de estatística e matemática São Paulo Brasiliense 1974 CONJUNTOS DE DADOS A seguir apresentamos vários conjuntos de dados que serão referenciados no texto pela sigla CD acompanhada de um nome identificador CDBrasil Dados sobre o Brasil CDMunicípios Populações de Municípios do Brasil CDNotas Notas em Estatística CDPoluição Dados de Poluição de São Paulo CDTemperaturas Temperaturas Médias Mensais CDSalários Salários para Quatro Profissões CDVeículos Estatísticas sobre Veículos CDPIB Produto Interno Bruto do Brasil CDMercado Preços de Ações da Telebrás e IBOVESPA CDPlaca Índices de Placa Bacteriana 1 Dados sobre o Brasil Dados de superfície em km2 população estimada e densidade habkm2 das unidades federativas UF do Brasil por região Fonte IBGE Contagem da População 2007 2 Populações de Municípios do Brasil Populações em 10000 habitantes dos 30 municípios mais populosos do Brasil Fonte IBGE Contagem da População 1996 3 Notas em Estatística Notas de 100 alunos do curso de Economia da FEAUSP em prova da disciplina Introdução à Probabilidade e à Estatística 1999 Fonte Autores 4 Dados de Poluição de São Paulo Dados de poluentes na cidade de São Paulo 1º jan a 30 abr 1991 CO monóxido de carbono ppm O3 ozônio ppb Temp temperatura C Umid umidade relativa do ar ao meio dia Fonte Saldiva et al 1994 5 Temperaturas Médias Mensais Temperaturas médias mensais em graus centígrados de janeiro de 1976 a dezembro de 1985 em Cananeia e Ubatuba São Paulo Fonte Boletim Climatológico nº 6 1989 IOUSP 6 Salários Salários em 1979 em francos suíços para quatro profissões em 30 cidades de diferentes países Fonte Prices and Salaries Around The World 19791980 União dos Bancos Suíços Zurique 7 Estatísticas sobre Veículos Dados sobre 30 veículos novos nacionais N e importados I em março de 1999 Preço em dólares comprimento em metros e motor em CV Fonte Folha de S Paulo 14 mar 1999 8 Produto Interno Bruto do Brasil Dados anuais do PIB de 1861 a 1986 índices relativos a 1949 9 Mercado Preços de fechamento de ações da Telebrás multiplicados por 1000 e índice diário da Bolsa de Valores de São Paulo dividido por 100 de 1º de janeiro de 1995 a 29 de junho de 1995 Fonte Bolsa de Valores de São Paulo 10 Índices de Placa Bacteriana Medidas de um índice de placa bacteriana obtidas de 26 crianças em idade préescolar antes e depois do uso de uma escova experimental e de uma escova convencional TABELAS As tabelas a seguir são em geral autoexplicativas mas o uso de cada uma está explicado no texto O Manual Explicativo de Pereira e Bussab 1974 pode ser consultado para mais explicações 1 As Tabelas I a VII são reproduzidas de Pereira e Bussab 1974 com permissão da Editora e autores 2 A Tabela VIII foi elaborada usando o SPlus e baseada em Lehmann 1975 3 As Tabelas IX e X são adaptadas de Pereira e Bussab 1974 com permissão da Editora e autores RESPOSTAS Capítulo 2 1 a razão e razão b ordinal f nominal c razão g intervalar d intervalar 3 População em mil habitantes Número de habitantes ni fi Menos de 1000 3 01111 1000 a 5000 12 04444 5000 10000 6 02222 100000 a 20000 5 01852 Mais de 20000 1 00371 Densidade populacional Densidade habkm2 ni fi Menos de 10 9 03333 10 a 30 5 01852 30 a 50 4 01481 50 a 100 6 02222 Mais de 100 3 01111 Total 27 10000 6 a Histograma b Gráfico de dispersão unidimensional 8 Histograma Ramoefolhas Decimal point is 1 place to the right of the colon 4 6 5 0046 6 234778 7 35 8 045 9 2 10 22 11 69 12 13 06 14 15 2 16 17 18 8 19 20 1 21 1 22 5 Valores maiores 5569 9988 Gráfico de dispersão unidimensional Gráfico de dispersão unidimensional 15 Ramoefolhas para a variável CO 4 77 5 12 5 55677789 6 1111122222222233333444444 6 5666677777899999999 7 00122233444 7 5566777778888899999999 8 012334 8 55678999 9 0114 9 557 10 1333 10 8 11 469 12 05 Capítulo 3 1 a 066 b 05 c 08393 e 330 2 6 a 2 b 2 c supondose o valor 6 para mais que 5 8 dq 9 di 14 ds 14 aproximadamente normal 9 q01 135 q09 790 11 Distribuição assimétrica à direita Desenho esquemático box plot dos salários dos funcionários da Companhia Milsa 16 a Histograma das vendas semanais de vendedores de gêneros alimentícios b c s 662 d 94 e md 525 17 a q01 924 b q02 1021 c q1 1057 q2 1358 q3 2086 19 b c q1 2 q2 325 d Média dobra e variância multiplicada por 4 e Média e mediana aumentadas de 2 variância não se altera 21 a Receber menos do que 5000 b empresa B 23 c média 175 md 16 10 EX15 EY2 VarX 075 VarY05 11 EV 1 q VarV q1 q 13 Y toma valores 0 50000 100000 com probabilidades 126150 23150 e 1150 respectivamente EY 833333 15 A partir do problema 11 temse Gráfico para q 04 17 ET 46 EG 275 VarG 04125 20 1 X b5 13 2 não é binomial ensaios não independentes 3 X será binomial se a proporção de bolas brancas for a mesma em todas as urnas 4 X será binomial se a proporção de pessoas com opinião contrária for a mesma nas dez cidades 5 X será binomial se a probabilidade de obter peça defeituosa for a mesma para todas as máquinas 22 a 02834 c 02792 b 05925 24 binomial 03758 Poisson 04060 26 O gráfico da distribuição de X px é O gráfico da fda de X Fx é