·
Relações Internacionais ·
Probabilidade e Estatística 1
Send your question to AI and receive an answer instantly
Recommended for you
12
Estimativa e Intervalo de Confiança para a Média Populacional
Probabilidade e Estatística 1
UFG
1
Estudo sobre Consumo de Água e Estimações Estatísticas no DF
Probabilidade e Estatística 1
UFG
1
Teste de Hipóteses: Análise de Votação e Consumo de Café
Probabilidade e Estatística 1
UFG
1
Teste de Hipoteses Estatistica - Exercicio Resolvido com P-valor
Probabilidade e Estatística 1
UFG
23
Teste de Hipóteses para Proporção: Exemplos e Análises
Probabilidade e Estatística 1
UFG
27
Aula de Inferência Estatística - Engenharia Civil
Probabilidade e Estatística 1
UFG
1
Estatística-Exercícios Resolvidos sobre Amostragem e Testes de Hipóteses
Probabilidade e Estatística 1
UFG
1
Exercícios Resolvidos - Estatística Inferencial e Teste de Hipóteses
Probabilidade e Estatística 1
UFG
Preview text
WILTON DE O BUSSAB PEDRO A MORETTIN WILTON DE O BUSSAB PEDRO A MORETTIN ESTATÍSTICA BÁSICA Livro mais vendido da área a 6ª edição de Estatística Básica confirma o grande sucesso das edições anteriores com um extenso trabalho de revisão atualização e ampliação O grande diferencial da obra é a atualização que contou com sugestões de professo res o que enriqueceu ainda mais o conteúdo por meio de discussões sobre roteiros apropriados para cursos de diferentes níveis O livro é dividido em três partes A primeira trata da análise de dados unidimensionais e bidimensionais com atenção especial para métodos gráficos A segunda parte trata dos conceitos básicos de probabilidades e variáveis aleatórias Por fim a terceira parte estuda os tópicos principais da interferência estatística além de alguns temas especiais como regressão linear simples Com um projeto gráfico moderno é o único com uma seção em todos os capítulos que ensina a aplicar a teoria por meio dos pacotes computacionais Minitab Excel e Splus No final do livro os autores apresentam vários conjuntos de dados que poderão ser utilizados pelos leitores e que estão disponíveis no site wwwsaravaunicombr Completo e didático Estatística Básica é o livro mais adequado para alunos e profissio nais de diversas áreas do conhecimento APLICAÇÃO Este livro pode ser utilizado nas seguintes disciplinas Estatística Estatística básica Estatística aplicada e Introdução à estatística PEDRO A MORETTIN Professor Titular do Instituto de Matemática e Estatística da Universidade de São Paulo Master e PhD em Estatística pela Universidade da Califórnia Berkeley Contato com o autor morettineditorasaraivacombr WILTON DE O BUSSAB Professor Adjunto da Escola de Administração de Empresas de São Paulo da Fundação Getulio Vargas Mestre em Estatística pela Universidade de São Paulo USP e PhD pela London School of Economics Contato com o autor bussabeditorasaraivacombr 0 5 25 75 95 100 arte final estat bas aprovado quintafeira 8 de outubro de 2009 191930 ESTATÍSTICA BÁSICA wwwsaraivaunicombr Pedro A Morettin Wilton de O Bussab 6a edição Revista e atualizada ESTATÍSTICA BÁSICA Rua Henrique Schaumann 270 CEP 05413010 Pinheiros TEL PABX 0XX11 36133000 Fax 0XX11 36113308 Televendas 0XX11 36133344 Fax Vendas 0XX11 32683268 São Paulo SP Endereço Internet httpwwwsaraivaunicombr Filiais AMAZONASRONDÔNIARORAIMAACRE Rua Costa Azevedo 56 Centro FoneFax 0XX92 36334227 36334782 Manaus BAHIASERGIPE Rua Agripino Dórea 23 Brotas Fone 0XX71 33815854 33815895 33810959 Salvador BAURUSÃO PAULO sala dos professores Rua Monsenhor Claro 255257 Centro Fone 0XX14 32345643 32347401 Bauru CAMPINASSÃO PAULO sala dos professores Rua Camargo Pimentel 660 Jd Guanabara Fone 0XX19 32438004 32438259 Campinas CEARÁPIAUÍMARANHÃO Av Filomeno Gomes 670 Jacarecanga Fone 0XX85 32382323 32381331 Fortaleza DISTRITO FEDERAL SIASUL Trecho 2 Lote 850 Setor de Indústria e Abastecimento Fone 0XX61 33442920 33442951 33441709 Brasília GOIÁSTOCANTINS Av Independência 5330 Setor Aeroporto Fone 0XX62 32252882 32122806 32243016 Goiânia MATO GROSSO DO SULMATO GROSSO Rua 14 de Julho 3148 Centro Fone 0XX67 33823682 33820112 Campo Grande MINAS GERAIS Rua Além Paraíba 449 Lagoinha Fone 0XX31 34298300 Belo Horizonte PARÁAMAPÁ Travessa Apinagés 186 Batista Campos Fone 0XX91 32229034 32249038 32410499 Belém PARANÁSANTA CATARINA Rua Conselheiro Laurindo 2895 Prado Velho Fone 0XX41 33324894 Curitiba PERNAMBUCOALAGOASPARAÍBAR G DO NORTE Rua Corredor do Bispo 185 Boa Vista Fone 0XX81 34214246 34214510 Recife RIBEIRÃO PRETOSÃO PAULO Av Francisco Junqueira 1255 Centro Fone 0XX16 36105843 36108284 Ribeirão Preto RIO DE JANEIROESPÍRITO SANTO Rua Visconde de Santa Isabel 113 a 119 Vila Isabel Fone 0XX21 25779494 25778867 25779565 Rio de Janeiro RIO GRANDE DO SUL Av A J Renner 231 Farrapos Fone 0XX51 3371 4001 33711467 33711567 Porto Alegre SÃO JOSÉ DO RIO PRETOSÃO PAULO sala dos professores Av Brig Faria Lima 6363 Rio Preto Shopping Center V São José Fone 0XX17 2273819 2270982 2275249 São José do Rio Preto SÃO JOSÉ DOS CAMPOSSÃO PAULO sala dos professores Rua Santa Luzia 106 Jd Santa Madalena Fone 0XX12 39210732 São José dos Campos SÃO PAULO Av Antártica 92 Barra Funda Fone PABX 0XX11 36133666 São Paulo Nenhuma parte desta publicação poderá ser reproduzida por qualquer meio ou forma sem a prévia autorização da Editora Saraiva A violação dos direitos autorais é crime estabelecido na lei nº 961098 e punido pelo artigo 184 do Código Penal M843e 6 ed Morettin Pedro Alberto Estatística BásicaPedro A Morettin Wilton O Bussab 6 ed São Paulo Saraiva 2010 Inclui Bibliografia ISBN 9788502081772 1 Econometria 2 Estatística 3 Estatística Matemática Problemas Questões Exercícios I Bussab Wilton de Oliveira 1940 II Título 090719 CDD 330028 CDU 33043 CIPBRASIL CATALOGAÇÃO NA FONTE SINDICATO NACIONAL DOS EDITORES DE LIVROS RJ ISBN 9788502081772 Direção editorial Coordenação editorial Produção editorial Marketing editorial Arte e produção Capa Atualização da 2a tiragem Flávia Alves Bravin Ana Paula Matos Gisele Folha Mós Juliana Rodrigues de Queiroz Rita de Cássia da Silva Daniela Nogueira Secondo Rosana Peroni Fazolari Nathalia Setrini ERJ Composição Editorial Weber Amendola ERJ Composição Editorial 6ª Edição 1ª tiragem 2009 2ª tiragem 2010 Copyright Wilton de O Bussab e Pedro A Morettin 2010 Editora Saraiva Todos os direitos reservados Contato com o editorial editorialuniversitarioeditorasaraivacombr A vida é complicada mas não desinteressante Jersy Neyman Para Célia e Ligia P R E F Á C I O À S E X T A E D I Ç Ã O Nesta edição atendemos à solicitação de leitores que sugeriram modificações em alguns tópicos considerados difíceis Por exemplo o tópico sobre quantis empíricos agora traz o cálculo utilizando o histograma deixando a definição mais geral para a seção de Problemas e Complementos Inúmeras correções foram feitas na edição anterior à medida que as sucessivas tiragens foram editadas Nesta sexta edição outros erros foram corrigidos mas sabemos que diversos persistirão Agradecemos aos diversos leitores que nos enviaram correções e sugestões Acrescentamos problemas a diversas seções do livro e substituímos o conjunto de dados sobre o Brasil CDBrasil com informações atualizadas da Contagem da População 2007 feita pelo IBGE Os dados também estão disponíveis na página httpwwwimeuspbrpam Os leitores que desejarem contatar os autores poderão usar os endereços eletrônicos morettineditorasarivacombr e bussabeditorasarivacombr Os Autores Esta edição é uma revisão substancial da edição anterior deste livro Cinco novos capítulos foram adicionados e os demais foram revisados e atualizados Creemos que este texto com a escolha adequada dos tópicos possa ser utilizado por alunos de diversas áreas do conhecimento O Site do Professor disponível na Internet httpwwwsaraivaunicombr fornece uma discussão mais longa sobre roteiros apropriados para cursos de diferentes níveis Com essa filosofia em mente procuramos incluir no texto uma quantidade de informação substancial em cada capítulo Obviamente caberá ao professor escolher o material apropriado para cada curso desenvolvido O livro é dividido em três partes A primeira trata da análise de dados unidimensionais e bidimensionais com atenção especial a métodos gráficos Pensamos que a leitura dessa parte é essencial para o bom entendimento dos demais Recomendamos que o aluno trabalhe com dados reais embora isso não seja uma necessidade essencial pois normalmente é um primeiro curso de estatística e dado no início do programa do aluno que não possui ainda um conhecimento sólido dos problemas de sua área A segunda parte trata dos conceitos básicos de probabilidades e variáveis aleatórias Finalmente na terceira parte estudamos os tópicos principais da inferência estatística além de alguns temas especiais como regressão linear simples Um capítulo sobre noções de simulação foi adicionado pois tais noções são hoje fundamentais em muitas áreas O uso de algum pacote computacional é fortemente recomendado para a prática dos conceitos desenvolvidos Apresentamos exemplos de aplicações utilizando alguns desses pacotes Minitab Excel e SPlus Mas evidentemente outros pacotes poderão ser usados No final do livro apresentamos vários conjuntos de dados que poderão ser utilizados pelos alunos Esses dados também estão disponíveis nas seguintes páginas da Internet httpwwwimeuspbrpam httpwwwsaraivaunicombr Finalmente agradecemos a todos aqueles que enviaram sugestões e comentários com a finalidade de melhorar a presente edição Para tanto além do correio normal os leitores poderão usar os endereços eletrônicos dos autores morettineditorasaraivacombr e bussabeditorasaraivacombr Os Autores X E S T A T Í S T I C A B Á S I C A Prefsumario ap65 2192009 1127 10 XI S U M Á R I O Capítulo 1 Preliminares 1 11 Introdução 1 12 Modelos 1 13 Técnicas Computacionais 2 14 Métodos Gráficos 3 15 Conjuntos de Dados 4 16 Plano do Livro 5 Parte I Análise Exploratória de Dados Capítulo 2 Resumo de Dados 9 21 Tipos de Variáveis 9 22 Distribuições de Freqüências 11 23 Gráficos 15 231 Gráficos para Variáveis Qualitativas 15 232 Gráficos para Variáveis Quantitativas 16 24 RamoeFolhas 20 25 Exemplos Computacionais 23 26 Problemas e Complementos 26 Capítulo 3 MedidasResumo 35 31 Medidas de Posição 35 32 Medidas de Dispersão 37 33 Quantis Empíricos 41 34 Box Plots 47 35 Gráficos de Simetria 51 36 Transformações 52 37 Exemplos Computacionais 54 38 Problemas e Complementos 56 Capítulo 4 Análise Bidimensional 68 41 Introdução 68 42 Variáveis Qualitativas 70 S U M Á R I O Prefsumario ap65 2192009 1127 11 XII E S T A T Í S T I C A B Á S I C A 43 Associação entre Variáveis Qualitativas 73 44 Medidas de Associação entre Variáveis Qualitativas 76 45 Associação entre Variáveis Quantitativas 80 46 Associação entre Variáveis Qualitativas e Quantitativas 86 47 Gráficos q x q 90 48 Exemplos Computacionais 92 49 Problemas e Complementos 94 Parte II Probabilidades Capítulo 5 Probabilidades 103 51 Introdução 103 52 Algumas Propriedades 106 53 Probabilidade Condicional e Independência 111 54 O Teorema de Bayes 116 55 Probabilidades Subjetivas 121 56 Problemas e Complementos 122 Capítulo 6 Variáveis Aleatórias Discretas 128 61 Introdução 128 62 O Conceito de Variável Aleatória Discreta 129 63 Valor Médio de uma Variável Aleatória 135 64 Algumas Propriedades do Valor Médio 137 65 Função de Distribuição Acumulada 138 66 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas 140 661 Distribuição Uniforme Discreta 140 662 Distribuição de Bernoulli 142 663 Distribuição Binomial 143 664 Distribuição Hipergeométrica 147 665 Distribuição de Poisson 148 67 O Processo de Poisson 153 68 Quantis 154 69 Exemplos Computacionais 156 610 Problemas e Complementos 157 Capítulo 7 Variáveis Aleatórias Contínuas 163 71 Introdução 163 72 Valor Médio de uma Variável Aleatória Contínua 167 73 Função de Distribuição Acumulada 170 Prefsumario ap65 2192009 1127 12 XIII S U M Á R I O 74 Alguns Modelos Probabilísticos para Variáveis Aleatórias Contínuas 173 741 O Modelo Uniforme 174 742 O Modelo Normal 176 743 O Modelo Exponencial 181 75 Aproximação Normal à Binomial 182 76 Funções de Variáveis Contínuas 185 77 Outros Modelos Importantes 188 771 A Distribuição Gama 188 772 A Distribuição QuiQuadrado 189 773 A Distribuição t de Student 191 774 A Distribuição F de Snedecor 192 78 Quantis 193 79 Exemplos Computacionais 195 710 Problemas e Complementos 196 Capítulo 8 Variáveis Aleatórias Multidimensionais 203 81 Distribuição Conjunta 203 82 Distribuições Marginais e Condicionais 206 83 Funções de Variáveis Aleatórias 209 84 Covariância entre Duas Variáveis Aleatórias 214 85 Variáveis Contínuas 220 86 Distribuições Condicionais Contínuas 224 87 Funções de Variáveis Contínuas 228 88 Distribuição Normal Bidimensional 229 89 Problemas e Complementos 231 Capítulo 9 Noções de Simulação 235 91 Introdução 235 92 Simulação de Variáveis Aleatórias 240 93 Simulação de Alguns Modelos 244 94 Exemplos Computacionais 247 95 Problemas e Complementos 252 Parte III Inferência Estatística Capítulo 10 Introdução à Inferência Estatística 261 101 Introdução 261 102 População e Amostra 261 103 Problemas de Inferência 264 Prefsumario ap65 2192009 1127 13 XIV E S T A T Í S T I C A B Á S I C A 104 Como Selecionar uma Amostra 267 105 Amostragem Aleatória Simples 268 106 Estatísticas e Parâmetros 271 107 Distribuições Amostrais 272 108 Distribuição Amostral da Média 277 109 Distribuição Amostral de uma Proporção 281 1010 Outras Distribuições Amostrais 283 1011 Determinação do Tamanho de uma Amostra 287 1012 Exemplos Computacionais 289 1013 Problemas e Complementos 290 Capítulo 11 Estimação 296 111 Primeiras Idéias 296 112 Propriedades de Estimadores 298 113 Estimadores de Momentos 304 114 Estimadores de Mínimos Quadrados 305 115 Estimadores de Máxima Verossimilhança 308 116 Intervalos de Confiança 310 117 Erro Padrão de um Estimador 316 118 Inferência Bayesiana 317 119 Exemplos Computacionais 320 1110 Problemas e Complementos 324 Capítulo 12 Testes de Hipóteses 330 121 Introdução 330 122 Um Exemplo 330 123 Procedimento Geral do Teste de Hipóteses 337 124 Passos para a Construção de um Teste de Hipóteses 339 125 Testes sobre a Média de uma População com Variância Conhecida 339 126 Teste para Proporção 341 127 Poder de um Teste 344 128 Valorp 348 129 Teste para a Variância de uma Normal 351 1210 Teste sobre a Média de uma Normal com Variância Desconhecida 355 1211 Problemas e Complementos 358 Prefsumario ap65 2192009 1127 14 XV S U M Á R I O Capítulo 13 Inferência para Duas Populações 361 131 Introdução 361 132 Comparação das Variâncias de Duas Populações Normais 365 133 Comparação de Duas Populações Amostras Independentes 367 1331 Populações Normais 368 1332 Populações NãoNormais 372 134 Comparação de Duas Populações Amostras Dependentes 382 1341 População Normal 382 1342 População NãoNormal 384 135 Comparação de Proporções em Duas Populações 387 136 Exemplo Computacional 390 137 Problemas e Complementos 394 Capítulo 14 Análise de Aderência e Associação 399 141 Introdução 399 142 Testes de Aderência 402 143 Testes de Homogeneidade 406 144 Testes de Independência 409 145 Teste para o Coeficiente de Correlação 411 146 Outro Teste de Aderência 414 147 Problemas e Complementos 417 Capítulo 15 Inferência para Várias Populações 420 151 Introdução 420 152 Modelo para Duas Subpopulações 425 1521 Suposições 425 1522 Estimação do Modelo 426 1523 Intervalos de Confiança 430 1524 Tabela de Análise de Variância 432 153 Modelo para Mais de Duas Subpopulações 435 154 Comparações entre as Médias 439 155 Teste de Homocedasticidade 441 156 Exemplo Computacional 443 157 Problemas e Complementos 444 Prefsumario ap65 2192009 1127 15 XVI E S T A T Í S T I C A B Á S I C A Capítulo 16 Regressão Linear Simples 449 161 Introdução 449 162 Estimação dos Parâmetros 452 163 Avaliação do Modelo 454 1631 Estimador de σ 2 e 454 1632 Decomposição da Soma de Quadrados 456 1633 Tabela de Análise de Variância 458 164 Propriedades dos Estimadores 460 1641 Média e Variância dos Estimadores 461 1642 Distribuições Amostrais dos Estimadores dos Parâmetros 462 1643 Intervalos de Confiança para α e β 463 1644 Intervalo de Confiança para μ z e Intervalo de Predição 465 165 Análise de Resíduos 467 166 Alguns Modelos Especiais 473 1661 Reta Passando pela Origem 473 1662 Modelos NãoLineares 475 167 Regressão Resistente 479 168 Exemplos Computacionais 481 169 Problemas e Complementos 484 Referências 495 Conjuntos de Dados 497 Tabelas 507 Respostas 522 Prefsumario ap65 2192009 1127 16 11 Introdução Em alguma fase de seu trabalho o pesquisador deparase com o problema de anali sar e entender um conjunto de dados relevante ao seu particular objeto de estudos Ele necessitará trabalhar os dados para transformálos em informações para comparálos com outros resultados ou ainda para julgar sua adequação a alguma teoria De modo bem geral podemos dizer que a essência da Ciência é a observação e que seu objetivo básico é a inferência que pode ser dedutiva na qual se argumenta das premissas às conclusões ou indutiva por meio da qual se vai do específico ao geral A inferência estatística é uma das partes da Estatística Esta é a parte da metodologia da Ciência que tem por objetivo a coleta redução análise e modelagem dos dados a partir do que finalmente fazse a inferência para uma população da qual os dados a amostra foram obtidos Um aspecto importante da modelagem dos dados é fazer previsões a partir das quais se podem tomar decisões Na primeira parte deste livro estaremos interessados na redução análise e interpretação dos dados sob consideração adotando um enfoque que chamaremos de análise exploratória de dados AED Nessa abordagem tentaremos obter dos dados a maior quantidade possível de informação que indique modelos plausíveis a serem utilizados numa fase posterior a análise confirmatória de dados ou inferência estatística Tradicionalmente uma análise descritiva de dados limitase a calcular algumas medidas de posição e variabilidade como a média e variância por exemplo Contrária a essa tendência uma corrente mais moderna liderada por Tukey 1977 utiliza prin cipalmente técnicas gráficas em oposição a resumos numéricos Isso não significa que sumários não devam ser obtidos mas uma análise exploratória de dados não deve se limitar a calcular tais medidas 12 Modelos Fundamentalmente quando se procede a uma análise de dados buscase alguma forma de regularidade ou padrão ou ainda modelo presente nas observações Capítulo 1 Preliminares cap01bP65 2192009 1129 1 C A P Í T U L O 1 P R E L I M I N A R E S 2 Exemplo 11 Imagine que estejamos estudando a relação entre rendimentos e gastos de consumo de um conjunto de indivíduos Podemos obter um gráfico como o da Figura 11 O que se espera intuitivamente é que os gastos de um indivíduo estejam diretamente relacionados com os seus rendimentos de modo que é razoável supor uma relação linear entre essas duas quantidades Os pontos da Figura 11 não estão todos evidentemente sobre uma reta essa seria o nosso padrão ou modelo A diferen ça entre os dados e o modelo constitui os resíduos Figura 11 Relação entre consumo e rendimento Podemos então escrever de modo esquemático Dados Modelo Resíduos ou ainda D M R 11 A parte M é também chamada parte suave ou regular ou ainda previsível dos dados enquanto R é a parte aleatória A parte R é tão importante quanto M e a análise dos resíduos constitui uma parte fundamental de todo trabalho estatístico Basicamen te são os resíduos que nos dizem se o modelo é adequado ou não para representar os dados De modo coloquial o que se deseja é que a parte R não contenha nenhuma suavidade caso contrário mais suavização é necessária Uma análise exploratória de dados busca essencialmente fornecer informações para estabelecer 11 13 Técnicas Computacionais O desenvolvimento rápido e constante na área de computação foi acompanhado pela introdução de novas técnicas de análise de dados notadamente de métodos gráficos e de métodos chamados de computação intensiva como o método bootstrap que será tratado brevemente neste livro cap01bP65 2192009 1129 2 1 4 M É T O D O S G R Á F I C O S 3 Para a implementação dessas técnicas foram desenvolvidos pacotes estatísticos atual mente usados em larga escala tanto no meio acadêmico como em indústrias bancos órgãos de governo etc Esses pacotes podem ser genéricos ou específicos Os pacotes genéricos como o Minitab Splus SPSS SAS etc são adequados para realizar uma gama variada de análises estatísticas Os pacotes específicos são planejados para realizar análises particu lares de uma determinada área Por outro lado os pacotes podem exigir maior ou menor experiência computacional dos usuários Alguns operam com menus e seu uso é mais simples Outros requerem maior familiaridade com o computador e são baseados em linguagens próprias Do ponto de vista de sistema operacional a maioria dos pacotes é programada para uso em microcomputadores que operam com o sistema Windows Todavia um número razoável de pacotes já tem versões para o sistema Linux Em alguns exemplos deste livro usaremos alguns pacotes e em cada caso explicitaremos qual está sendo usado Não queremos fazer recomendações sobre nenhum pacote em parti cular porque cremos que o leitor utilizará aquele com o qual estiver mais acostumado ou aqueles que estiverem à sua disposição Listamos na Tabela 11 alguns pacotes genéricos utilizados na área de Estatística Salientamos também que existem planilhas à venda no mercado que possuem op ções para certas técnicas estatísticas Dentre estas mencionamos o Excel e o Lotus Tabela 11 Alguns pacotes estatísticos genéricos Pacote Ambiente Fabricante MINITAB WIN Minitab Inc USA SAS WIN SAS Institute Inc USA SPLUS WIN LINUX Insightfull Inc SPSS WIN SPSS Inc USA STATGRAPHICS WIN Stat Graphics Inc USA Além dos pacotes estatísticos há outros pacotes de grande utilidade para realizar tarefas matemáticas Dentre estes mencionamos o Mathematica o Maple o Gauss e o Mat Lab 14 Métodos Gráficos Como dissemos na introdução os métodos gráficos têm encontrado um uso cada vez maior devido ao seu forte apelo visual Normalmente é mais fácil para qualquer pessoa entender a mensagem de um gráfico do que aquela embutida em tabelas ou sumários numéricos Os gráficos são utilizados para diversos fins Chambers et al 1983 a buscar padrões e relações b confirmar ou não certas expectativas que se tinha sobre os dados cap01bP65 2192009 1129 3 4 C A P Í T U L O 1 P R E L I M I N A R E S c descobrir novos fenômenos d confirmar ou não suposições feitas sobre os procedimentos estatísticos usados e e apresentar resultados de modo mais rápido e fácil Podemos usar métodos gráficos para plotar os dados originais ou outros dados deriva dos deles Por exemplo a investigação da relação entre as variáveis da Figura 11 pode ser feita por meio daquele diagrama de dispersão Mas podemos também ajustar uma reta aos dados calcular o desvio resíduo para cada observação e fazer um novo gráfico de consu mo contra resíduos para avaliar a qualidade do ajuste Com o progresso recente da computação gráfica e a existência de hardware e software adequados a utilização de métodos gráficos tornase rotineira na análise de dados Contudo muitos gráficos podem ser feitos sem o recurso de programas de computador Neste texto introduziremos gráficos para a visualização e resumo de dados no caso de uma ou duas variáveis principalmente Noções para o caso de três ou mais variáveis serão rapidamente abordadas Gráficos com o propósito de comparar duas distribuições também serão tratados 15 Conjuntos de Dados No final do livro aparecem alguns conjuntos de dados que serão utilizados nos exemplos ou nos exercícios propostos Aconselhamos os leitores a reproduzir os exemplos usan do esses dados bem como resolver os problemas pois somente a efetiva manipulação de dados pode levar a um bom entendimento das técnicas apresentadas Os conjuntos de dados apresentados provêm de diferentes fontes que são mencio nadas em cada conjunto e depois explicitadas nas referências Os leitores é claro poderão usar as técnicas apresentadas em seus próprios con juntos de dados Como salientamos na seção 13 usaremos alguns programas computacionais dis poníveis para análises estatísticas Decidimos pela utilização de dois pacotes o SPlus e o Minitab e de uma planilha o Excel Embora o último não possa ser considerado um aplicativo estatístico sua grande difusão entre os usuários de computadores pessoais motivou nossa escolha Alguns conjuntos de dados são parte de conjuntos maiores Todos esses dados podem ser obtidos no endereço httpwwweditorasaraivacombruni Usaremos um nome curto para identificar cada conjunto de dados Por exemplo o Conjunto de Dados 1 será designado simplesmente por CDBrasil o Conjunto de Da dos 4 por CDPoluição etc cap01bP65 2192009 1129 4 1 6 P L A N O D O L I V R O 5 16 Plano do Livro Na primeira parte do livro trataremos nos Capítulos 2 a 4 de técnicas gráficas e numéricas que nos permitirão fazer uma primeira análise dos dados disponíveis No Capítulo 2 estudaremos como resumir os dados por meio de distribuições de freqüên cias e como representálos graficamente por meio de gráficos em barras histogramas e ramoefolhas No Capítulo 3 veremos as principais medidas numéricas resumidoras de um conjunto de dados medidas de posição ou localização e medidas de dispersão ou de variabilidade A partir dessas medidas poderemos construir gráficos importantes como o gráfico de quantis e o desenho esquemático ou box plot No Capítulo 4 trataremos do caso em que temos duas variáveis Estaremos interessados em verificar se existe alguma associação entre duas variáveis e como medila O caso de três variá veis será considerado brevemente Na segunda parte introduzimos os conceitos básicos sobre probabilidades e variáveis aleatórias A idéia é que a primeira parte sirva de motivação para construir os modelos probabilísticos da segunda parte No Capítulo 5 tratamos da noção de probabilidade suas propriedades probabilidade condicional e independência Também consideramos o teorema de Bayes e destacamos sua importância em problemas de inferência As variáveis aleatórias discretas são estudadas no Capítulo 6 e as contínuas no Capítulo 7 Em particular são intro duzidos os principais modelos para variáveis aleatórias O caso de duas variáveis aleatórias é considerado no Capítulo 8 No Capítulo 9 introduzimos noções básicas de simulação Esse assunto é muito impor tante notadamente quando se quer avaliar algum modelo construído para uma situação real A terceira parte trata da inferência estatística Nesta parte todos os conceitos apreen didos nas duas partes anteriores são imprescindíveis Os dois grandes problemas de inferência estimação e teste de hipóteses são estudados nos Capítulos 11 e 12 respectiva mente após serem introduzidas no Capítulo 10 as noções básicas de amostragem e distri buições amostrais O caso de duas populações é considerado no Capítulo 13 e de várias populações no Capítulo 15 Basicamente são desenvolvidos testes para médias propor ções e variâncias O Capítulo 14 trata dos chamados testes do quiquadrado para dados que aparecem sob a forma de tabelas de contingência Finalmente no Capítulo 16 estuda mos com algum detalhe o modelo de regressão linear simples Em cada capítulo há sempre que possível uma seção com exemplos computacionais Isso significa que algum conjunto de dados é analisado utilizandose um ou alguns dos programas mencionados acima Em geral são problemas um pouco mais difíceis do que aqueles exemplificados nas demais seções ou então têm o caráter de ilustrar o uso de tais pacotes para simulações por exemplo Recomendamos que o leitor tente reproduzir esses exemplos para adquirir experiência na manipulação de dados e procura de eventuais mode los que possam representálos cap01bP65 2192009 1129 5 Parte 1 Parte 1 Capítulo 2 9 Resumo de Dados Capítulo 3 35 MedidasResumo Capítulo 4 68 Análise Bidimensional A N Á L I S E E X P L O R A T Ó R I A D E D A D O S cap02bp65 2192009 1137 7 O histograma é um gráfico de barras contíguas com as bases proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva frequência 21 Tipos de Variáveis Para ilustrar o que segue consideremos o seguinte exemplo Exemplo 21 Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia MB Usando informações obtidas do departamento pessoal ele elaborou a Tabela 21 De modo geral para cada elemento investigado numa pesquisa temse associado um ou mais de um resultado correspondendo à realização de uma característica ou características No exemplo em questão considerandose a característica variável estado civil para cada empregado podese associar uma das realizações solteiro ou casado note que poderia haver outras possibilidades como separado divorciado mas somente as duas mencionadas foram consideradas no estudo Podemos atribuir uma letra digamos X para representar tal variável Observamos que o pesquisador colheu informações sobre seis variáveis Variável Representação Estado civil X Grau de instrução Y Número de filhos Z Salário S Idade U Região de procedência V Algumas variáveis como sexo educação estado civil apresentam como possíveis rea lizações uma qualidade ou atributo do indivíduo pesquisado ao passo que outras como número de filhos salário idade apresentam como possíveis realizações números resultan tes de uma contagem ou mensuração As variáveis do primeiro tipo são chamadas qualitati vas e as do segundo tipo quantitativas Capítulo 2 Resumo de Dados cap02bp65 2192009 1137 9 10 C A P Í T U L O 2 R E S U M O D E D A D O S Dentre as variáveis qualitativas ainda podemos fazer uma distinção entre dois tipos variável qualitativa nominal para a qual não existe nenhuma ordenação nas possíveis realizações e variável qualitativa ordinal para a qual existe uma ordem nos seus resultados A região de procedência do Exemplo 21 é um caso de variável nominal enquanto grau de instrução é um Exemplo de variável ordinal pois ensinos fundamental médio e superior correspondem a uma ordenação baseada no número de anos de escolaridade completos A variável qualitativa classe social com as possíveis realizações alta média e baixa é outro exemplo de variável ordinal De modo análogo as variáveis quantitativas podem sofrer uma classificação dicotômi ca a variáveis quantitativas discretas cujos possíveis valores formam um conjunto finito ou enumerável de números e que resultam freqüentemente de uma contagem como por exemplo número de filhos 0 1 2 b variáveis quantitativas contínuas cujos possíveis valores pertencem a um intervalo de números reais e que resultam de uma mensuração como por exemplo estatura e peso melhor seria dizer massa de um indivíduo A Figura 21 esquematiza as classificações feitas acima Figura 21 Classificação de uma variável Para cada tipo de variável existem técnicas apropriadas para resumir as informações donde a vantagem de usar uma tipologia de identificação como a da Figura 21 Entre tanto verificaremos que técnicas usadas num caso podem ser adaptadas para outros Para finalizar cabe uma observação sobre variáveis qualitativas Em algumas situa ções podemse atribuir valores numéricos às várias qualidades ou atributos ou ain da classes de uma variável qualitativa e depois procederse à análise como se esta fosse quantitativa desde que o procedimento seja passível de interpretação Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil a chamada variável dicotômica Para essa variável só podem ocorrer duas realizações usualmente chamadas sucesso e fracasso A variável estado civil no exemplo acima estaria nessa situação Esse tipo de variável aparecerá mais vezes nos próximos capítulos cap02bp65 2192009 1137 10 2 2 D I S T R I B U I Ç Õ E S D E F R E Q Ü Ê N C I A S 11 Tabela 21 Informações sobre estado civil grau de instrução número de filhos salário expresso como fração do salário mínimo idade medida em anos e meses e procedência de 36 empregados da seção de orçamentos da Companhia MB No Estado Grau de No de Salário Idade Região de civil instrução filhos sal mín anos meses procedência 1 solteiro ensino fundamental 400 26 03 interior 2 casado ensino fundamental 1 456 32 10 capital 3 casado ensino fundamental 2 525 36 05 capital 4 solteiro ensino médio 573 20 10 outra 5 solteiro ensino fundamental 626 40 07 outra 6 casado ensino fundamental 0 666 28 00 interior 7 solteiro ensino fundamental 686 41 00 interior 8 solteiro ensino fundamental 739 43 04 capital 9 casado ensino médio 1 759 34 10 capital 10 solteiro ensino médio 744 23 06 outra 11 casado ensino médio 2 812 33 06 interior 12 solteiro ensino fundamental 846 27 11 capital 13 solteiro ensino médio 874 37 05 outra 14 casado ensino fundamental 3 895 44 02 outra 15 casado ensino médio 0 913 30 05 interior 16 solteiro ensino médio 935 38 08 outra 17 casado ensino médio 1 977 31 07 capital 18 casado ensino fundamental 2 980 39 07 outra 19 solteiro superior 1053 25 08 interior 20 solteiro ensino médio 1076 37 04 interior 21 casado ensino médio 1 1106 30 09 outra 22 solteiro ensino médio 1159 34 02 capital 23 solteiro ensino fundamental 1200 41 00 outra 24 casado superior 0 1279 26 01 outra 25 casado ensino médio 2 1323 32 05 interior 26 casado ensino médio 2 1360 35 00 outra 27 solteiro ensino fundamental 1385 46 07 outra 28 casado ensino médio 0 1469 29 08 interior 29 casado ensino médio 5 1471 40 06 interior 30 casado ensino médio 2 1599 35 10 capital 31 solteiro superior 1622 31 05 outra 32 casado ensino médio 1 1661 36 04 interior 33 casado superior 3 1726 43 07 capital 34 solteiro superior 1875 33 07 capital 35 casado ensino médio 2 1940 48 11 capital 36 casado superior 3 2330 42 02 interior Fonte Dados hipotéticos 22 Distribuições de Freqüências Quando se estuda uma variável o maior interesse do pesquisador é conhecer o compor tamento dessa variável analisando a ocorrência de suas possíveis realizações Nesta seção cap02bp65 2192009 1137 11 12 C A P Í T U L O 2 R E S U M O D E D A D O S veremos uma maneira de se dispor um conjunto de realizações para se ter uma idéia global sobre elas ou seja de sua distribuição Exemplo 22 A Tabela 22 apresenta a distribuição de freqüências da variável grau de instrução usando os dados da Tabela 21 Tabela 22 Freqüências e porcentagens dos 36 emprega dos da seção de orçamentos da Companhia MB segundo o grau de instrução Grau de Freqüência Proporção Porcentagem instrução ni fi 100 fi Fundamental 12 03333 3333 Médio 18 05000 5000 Superior 6 01667 1667 Total 36 10000 10000 Fonte Tabela 21 Observando os resultados da segunda coluna vêse que dos 36 empregados da com panhia 12 têm o ensino fundamental 18 o ensino médio e 6 possuem curso superior Uma medida bastante útil na interpretação de tabelas de freqüências é a proporção de cada realização em relação ao total Assim 636 01667 dos empregados da companhia MB seção de orçamentos têm instrução superior Na última coluna da Tabela 22 são apresentadas as porcentagens para cada realização da variável grau de instrução Usaremos a notação ni para indicar a freqüência absoluta de cada classe ou categoria da variável e a notação fi nin para indicar a proporção ou freqüência relativa de cada classe sendo n o número total de observações As proporções são muito úteis quando se quer comparar resultados de duas pesquisas distintas Por exemplo suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Companhia MB Digamos que a empresa tenha 2000 empre gados e que a distribuição de freqüências seja a da Tabela 23 Tabela 23 Freqüências e porcentagens dos 2000 empregados da Companhia MB segundo o grau de instrução Grau de instrução Freqüência Porcentagem ni 100 fi Fundamental 1650 3250 Médio 1020 5100 Superior 1330 1650 Total 2000 10000 Fonte Dados hipotéticos cap02bp65 2192009 1137 12 Não podemos comparar diretamente as colunas das frequências das Tabelas 22 e 23 pois os totais de empregados são diferentes nos dois casos Mas as colunas das porcentagens são comparáveis pois reduzimos as frequências a um mesmo total no caso 100 14 C A P Í T U L O 2 R E S U M O D E D A D O S 1 Escalas de medidas A seguir descrevemos outros possíveis critérios para classificar variá veis em função da escala adotada Observe a similaridade com a classificação apresen tada anteriormente Nossas observações são resultados de medidas feitas sobre os elementos de uma população Existem quatro escalas de medidas que podem ser consideradas Escala nominal Nesta escala somente podemos afirmar que uma medida é diferente ou não de outra e ela é usada para categorizar indivíduos de uma população Um exemplo é o sexo de um indivíduo Para cada categoria associamos um numeral diferente letra ou número Por exemplo no caso de sexo podemos associar as letras M masculino e F feminino ou 1 masculino e 2 feminino Não podemos realizar operações aritméticas aqui e uma medida de posição apropriada é a moda As medidas citadas nesse problema como a média mediana e moda são definidas no Capítulo 3 Escala ordinal Aqui podemos dizer que uma medida é diferente e maior do que outra Temos a situação anterior mas as categorias são ordenadas e a ordem dos numerais associados ordena as categorias Por exemplo a classe socioeconômica de um indivíduo pode ser baixa 1 ou X média 2 ou Y e alta 3 ou Z Transformações que preservam a ordem não alteram a estrutura de uma escala ordinal No exemplo acima podemos representar as categorias por 1 10 e 100 ou A L e Z Medidas de posição apropriadas são a mediana e a moda Escala intervalar Nesta escala podemos afirmar que uma medida é igual ou diferente maior e quanto maior do que outra Podemos quantificar a diferença entre as categorias da escala ordinal Necessitamos de uma origem arbitrária e de uma unidade de medida Por exemplo considere a temperatura de um indivíduo na escala Fahrenheit A origem é 0o F e a unidade é 1o F Transformações que preservam a estrutura dessa escala são do tipo y ax b a 0 Por exemplo a transformação y 59 x 32 transforma graus Fahrenheit em centígrados Para essa escala podemos fazer operações aritméticas e mé dia mediana e moda são medidas de posição apropriadas Escala razão Dadas duas medidas nessa escala podemos dizer se são iguais ou se uma é diferente maior quanto maior e quantas vezes a outra A diferença com a escala intervalar é que agora existe um zero absoluto A altura de um indivíduo é um exemplo de medida nessa escala Se ela for medida em centímetros cm 0 cm é a origem e 1 cm é a unidade de medida Um indivíduo com 190 cm é duas vezes mais alto do que um indivíduo com 95 cm e esta relação continua a valer se usarmos 1 m como unidade Ou seja a estrutura da escala razão não é alterada por transformações da forma y cx c 0 Por exemplo y x100 transforma cm em m As estatísticas apropriadas para a escala intervalar são também apropriadas para a escala razão Para cada uma das variáveis abaixo indique a escala usualmente adotada para resu mir os dados em tabelas de freqüências a Salários dos empregados de uma indústria b Opinião de consumidores sobre determinado produto c Número de respostas certas de alunos num teste com dez itens d Temperatura diária da cidade de Manaus e Porcentagem da receita de municípios aplicada em educação f Opinião dos empregados da Companhia MB sobre a realização ou não de cursos obrigatórios de treinamento g QI de um indivíduo Problemas cap02bp65 2192009 1137 14 2 3 G R Á F I C O S 15 2 Usando os dados da Tabela 21 construa a distribuição de freqüências das variáveis a Estado civil b Região de procedência c Número de filhos dos empregados casados d Idade 3 Para o Conjunto de Dados 1 CDBrasil construa a distribuição de freqüências para as variáveis população urbana e densidade populacional 23 Gráficos Como já salientamos no Capítulo 1 a representação gráfica da distribuição de uma variável tem a vantagem de rápida e concisamente informar sobre sua variabilidade Exis tem vários gráficos que podem ser utilizados e abordaremos aqui os mais simples para variáveis quantitativas No Capítulo 3 voltaremos a tratar deste assunto em conexão com medidas associadas à distribuição de uma variável 231 Gráficos para Variáveis Qualitativas Existem vários tipos de gráficos para representar variáveis qualitativas Vários são versões diferentes do mesmo princípio logo nos limitaremos a apresentar dois deles gráficos em barras e de composição em setores pizza ou retângulos Exemplo 24 Tomemos como ilustração a variável Y grau de instrução exemplificada nas Tabelas 22 e 23 O gráfico em barras consiste em construir retângulos ou barras em que uma das dimensões é proporcional à magnitude a ser representada ni ou fi sendo a outra arbitrária porém igual para todas as barras Essas barras são dispostas paralelamente umas às outras horizontal ou verticalmente Na Figura 22 temos o gráfico em barras verticais para a variável Y Figura 22 Gráfico em barras para a variável Y grau de instrução cap02bp65 2192009 1137 15 16 C A P Í T U L O 2 R E S U M O D E D A D O S Já o gráfico de composição em setores sendo em forma de pizza o mais conhecido destinase a representar a composição usualmente em porcentagem de partes de um todo Consiste num círculo de raio arbitrário representando o todo dividido em setores que correspondem às partes de maneira proporcional A Figura 23 mostra esse tipo de gráfico para a variável Y Muitas vezes é usado um retângulo no lugar do círculo para indicar o todo Figura 23 Gráfico em setores para a variável Y grau de instrução 232 Gráficos para Variáveis Quantitativas Para variáveis quantitativas podemos considerar uma variedade maior de representa ções gráficas Exemplo 25 Considere a distribuição da variável Z número de filhos dos empregados casados da seção de orçamentos da Companhia MB Tabela 21 Na Tabela 25 temos as freqüências e porcentagens Além dos gráficos usados para as variáveis qualitativas como ilustrado na Figura 24 podemos considerar um gráfico chamado gráfico de dispersão unidimensional como o da Figura 25 a em que os valores são representados por pontos ao longo da reta provida de uma escala Valores repetidos são acompanhados por um número que indica as repetições Outra possibilidade é considerar um gráfico em que os valores repetidos são empilhados um em cima do outro como na Figura 25 b Podese também apresentar o ponto mais alto da pilha como aparece na Figura 25 c Figura 24 Gráfico em barras para a variável Z número de filhos cap02bp65 2192009 1137 16 2 3 G R Á F I C O S 17 Figura 25 Gráficos de dispersão unidimensionais para a variável Z número de filhos Para variáveis quantitativas contínuas necessitase de alguma adaptação como no exemplo a seguir Tabela 25 Freqüências e porcentagens dos empregados da seção de orça mentos da Companhia MB se gundo o número de filhos No de filhos Freqüência Porcentagem zi ni 100 fi 0 4 20 1 5 25 2 7 35 3 3 15 5 1 5 Total 20 100 Fonte Tabela 21 Exemplo 26 Queremos representar graficamente a distribuição da variável S salário dos empregados da seção de orçamentos da Companhia MB A Tabela 24 fornece a distribuição de freqüências de S Para fazer uma representação similar às apresentadas anteriormente devemos usar o artifício de aproximar a variável contínua por uma variável discreta sem perder muita informação Isto pode ser feito supondose que todos os salários em determinada classe são iguais ao ponto médio desta classe Assim os dez salários pertencentes à primeira classe de quatro a oito salários serão admitidos iguais a 600 os 12 salários da segunda classe oito a doze salários serão admitidos iguais a 1000 e assim por diante Então podemos reescrever a Tabela 24 introduzindo os pon tos médios das classes Estes pontos estão na segunda coluna da Tabela 26 cap02bp65 2192009 1137 17 Com a tabela assim construída podemos representar os pares si ni ou si fi por um gráfico em barras setores ou de dispersão unidimensional Veja a Figura 26 2 3 G R Á F I C O S 19 Quando os intervalos das classes forem todos iguais a Δ a densidade de freqüência da iésima classe passa a ser fiΔ ou niΔ É claro que marcar no eixo das ordenadas os valores ni fi niΔ ou fiΔ leva a obter histogramas com a mesma forma somente as áreas é que serão diferentes O Problema 10 traz mais informações sobre a construção de histogramas Figura 27 Histograma da variável S salários Para facilitar o entendimento foi colocada acima de cada setor retângulo a res pectiva porcentagem das observações arredondada Assim por meio da figura po demos dizer que 61 dos empregados têm salário inferior a 12 salários mínimos ou 17 possuem salário superior a 16 salários mínimos Do mesmo modo que usamos um artifício para representar uma variável contínua como uma variável discreta podemos usar um artifício para construir um histograma para variáveis discretas A Figura 28 é um exemplo de como ficaria o histograma da variável Z número de filhos dos empregados casados da seção de orçamentos da Com panhia MB segundo os dados da Tabela 25 O gráfico é suficientemente autoexplicativo de modo que omitimos detalhes sobre sua construção Figura 28 Histograma da variável Z número de filhos cap02bp65 2192009 1137 19 20 C A P Í T U L O 2 R E S U M O D E D A D O S 24 RamoeFolhas Tanto o histograma como os gráficos em barras dão uma idéia da forma da distribuição da variável sob consideração Veremos no Capítulo 3 outras características da distribuição de uma variável como medidas de posição e dispersão Mas a forma da distribuição é tão importante quanto estas medidas Por exemplo saber que a renda per capita de um país é de tantos dólares pode ser um dado interessante mas saber como esta renda se distribui é mais importante Um procedimento alternativo para resumir um conjunto de valores com o objetivo de se obter uma idéia da forma de sua distribuição é o ramoefolhas Uma vantagem deste diagrama sobre o histograma é que não perdemos ou perdemos pouca informação sobre os dados em si Exemplo 28 Na Figura 29 construímos o ramoefolhas dos salários de 36 empregados da Companhia MB Tabela 21 Não existe uma regra fixa para construir o ramoefolhas mas a idéia básica é dividir cada observação em duas partes a primeira o ramo é colocada à esquerda de uma linha vertical a segunda a folha é colocada à direita Assim para os salários 400 e 456 o 4 é o ramo e 00 e 56 são as folhas Um ramo com muitas folhas significa maior incidência daquele ramo realização Figura 29 Ramoefolhas para a variável S salários 4 00 56 5 25 73 6 26 66 86 7 39 44 59 8 12 46 74 95 9 13 35 77 80 10 53 76 11 06 59 12 00 79 13 23 60 85 14 69 71 15 99 16 22 61 17 26 18 75 19 40 20 21 22 23 30 Algumas informações que se obtêm deste ramoefolhas são a Há um destaque grande para o valor 2330 b Os demais valores estão razoavelmente concentrados entre 400 e 1940 c Um valor mais ou menos típico para este conjunto de dados poderia ser por exemplo 1000 d Há uma leve assimetria em direção aos valores grandes a suposição de que estes dados possam ser considerados como amostra de uma população com distribuição simétrica em forma de sino a chamada distribuição normal pode ser questionada cap02bp65 2192009 1137 20 2 4 R A M O E F O L H A S 21 A escolha do número de linhas do ramoefolhas é equivalente à escolha do número de classes de um histograma Um número pequeno de linhas ou de classes enfatiza a parte M da relação 11 enquanto um número grande de linhas ou de classes enfatiza a parte R Exemplo 29 Os dados abaixo referemse à dureza de 30 peças de alumínio Hoaglin Mosteller e Tukey 1983 pág 13 530 702 843 695 778 875 534 825 673 541 705 714 954 511 744 557 635 858 535 643 827 785 557 691 723 595 553 730 524 507 Na Figura 210 temos o ramoefolhas correspondente Aqui optamos por truncar cada valor omitindo os décimos de modo que 691 e 695 por exemplo tornamse 69 e 69 e aparecem como 9 na linha que corresponde ao ramo 6 Figura 210 Ramoefolhas para os dados de du reza de peças de alumínio 5 0 1 2 3 3 3 4 5 5 5 9 6 3 4 7 9 9 7 0 0 1 2 3 4 7 8 8 2 2 4 5 7 9 5 Este é um exemplo em que temos muitas folhas em cada ramo Uma maneira alternativa é duplicar os ramos Criamos os ramos 5 e 5 6 e 6 etc onde coloca mos folhas de 0 a 4 na linha e folhas de 5 a 9 na linha Obtemos o ramoefolhas da Figura 211 Um ramoefolhas pode ser adornado com outras informações como o núme ro de observações em cada ramo Para outros exemplos veja o Problema 19 Figura 211 Ramoefolhas para os dados de dureza com ramos divididos 5 0 1 2 3 3 3 4 5 5 5 5 9 6 3 4 6 7 9 9 7 0 0 1 2 3 4 7 7 8 8 2 2 4 8 5 7 9 9 5 cap02bp65 2192009 1137 21 22 C A P Í T U L O 2 R E S U M O D E D A D O S 4 Contouse o número de erros de impressão da primeira página de um jornal durante 50 dias obtendose os resultados abaixo 8 11 8 12 14 13 11 14 14 15 6 10 14 19 6 12 7 5 8 8 10 16 10 12 12 8 11 6 7 12 7 10 14 5 12 7 9 12 11 9 14 8 14 8 12 10 12 22 7 15 a Represente os dados graficamente b Faça um histograma e um ramoefolhas 5 Usando os resultados do Problema 2 e da Tabela 23 a construa um histograma para a variável idade e b proponha uma representação gráfica para a variável grau de instrução 6 As taxas médias geométricas de incremento anual por 100 habitantes dos 30 maiores municípios do Brasil estão dadas abaixo 367 182 373 410 430 128 814 243 417 536 396 654 584 735 363 293 282 845 528 541 777 465 188 212 426 278 554 090 509 407 a Construa um histograma b Construa um gráfico de dispersão unidimensional 7 Você foi convidado para chefiar a seção de orçamentos ou a seção técnica da Compa nhia MB Após analisar o tipo de serviço que cada seção executa você ficou indeciso e resolveu tomar a decisão baseado em dados fornecidos para as duas seções O departa mento pessoal forneceu as dados da Tabela 21 para os funcionários da seção de orçamentos ao passo que para a seção técnica os dados vieram agrupados segundo as tabelas abaixo que apresentam as freqüências dos 50 empregados dessa seção segundo as variáveis grau de instrução e salário Baseado nesses dados qual seria a sua deci são Justifique Instrução Freqüência Fundamental 15 Médio 30 Superior 5 Total 50 Problemas cap02bp65 2192009 1137 22 Classe de Salários Frequência 24 C A P Í T U L O 2 R E S U M O D E D A D O S Figura 213 Gráfico de dispersão unidimensional para o CDNotas Minitab Figura 214 Ramoefolhas para o CDNotas Minitab 1 5 2 555 3 000055555 4 000000555555 5 00000000055555555555 6 000000000000055555555555 7 0000005555555555 8 000000555 9 005 10 000 Exemplo 211 O conjunto de dados 4 CDPoluição traz dados sobre a poluição na cidade de São Paulo Tomemos os dados de temperatura de 1o de janeiro a 30 de abril de 1991 120 dados Essas observações constituem o que se chama série temporal ou seja os da dos são observados em instantes ordenados do tempo Esperase que exista relação entre as observações em instantes de tempo diferentes o que não acontece com os dados do exemplo anterior a nota de um aluno em princípio é independente da nota de outro aluno qualquer O gráfico dessa série temporal está na Figura 215 Observase uma variação da temperatura no decorrer do tempo entre 12 e 22 C Figura 215 Dados de temperatura de São Paulo SPlus cap02bp65 2192009 1137 24 2 5 E X E M P L O S C O M P U T A C I O N A I S 25 O histograma e o gráfico de dispersão unidimensional estão nas Figuras 216 e 217 respectivamente mostrando que a distribuição dos dados não é simétrica O ramoefolhas da Figura 218 ilustra o mesmo comportamento Figura 216 Histograma dos dados de temperatura de São Paulo SPlus Figura 217 Gráfico de dispersão unidimensional para os dados de temperatura de São Paulo Minitab Figura 218 Ramoefolhas para os dados de temperatura de São Paulo Minitab 12 3 13 128 14 0012588899 15 112222225558899 16 000000013344678999 17 000000001236688888999 18 00000000001111233345566889999999 19 00000000012289 20 00011 21 0 Em cada figura está indicado o pacote computacional que foi utilizado com as devidas adaptações cap02bp65 2192009 1137 25 C A P Í T U L O 2 R E S U M O D E D A D O S 26 26 Problemas e Complementos 9 A MB Indústria e Comércio desejando melhorar o nível de seus funcionários em cargos de chefia montou um curso experimental e indicou 25 funcionários para a primeira turma Os dados referentes à seção a que pertencem notas e graus obtidos no curso estão na tabela a seguir Como havia dúvidas quanto à adoção de um único critério de avaliação cada instrutor adotou seu próprio sistema de aferição Usando dados daquela tabela responda às questões a Após observar atentamente cada variável e com o intuito de resumilas como você identificaria qualitativa ordinal ou nominal e quantitativa discreta ou contínua cada uma das 9 variáveis listadas b Compare e indique as diferenças existentes entre as distribuições das variáveis Direito Política e Estatística c Construa o histograma para as notas da variável Redação d Construa a distribuição de freqüências da variável Metodologia e faça um gráfico para indicar essa distribuição e Sorteado ao acaso um dos 25 funcionários qual a probabilidade de que ele tenha obtido grau A em Metodologia f Se em vez de um sorteássemos dois a probabilidade de que ambos tivessem tido A em Metodologia é maior ou menor do que a resposta dada em e g Como é o aproveitamento dos funcionários na disciplina Estatística segundo a seção a que eles pertencem Func Seção Administr Direito Redação Estatíst Inglês Metodologia Política Economia 1 P 80 90 86 90 B A 90 85 2 P 80 90 70 90 B C 65 8 0 3 P 80 90 80 80 D B 90 85 4 P 60 90 86 80 D C 60 85 5 P 80 90 80 90 A A 65 90 6 P 80 90 85 100 B A 65 95 7 P 80 90 82 80 D C 90 70 8 T 100 90 75 80 B C 60 85 9 T 80 90 94 90 B B 100 80 10 T 100 90 79 80 B C 90 75 11 T 80 90 86 100 C B 100 85 12 T 80 90 83 70 D B 65 80 13 T 60 90 70 70 B C 60 85 14 T 100 90 86 90 A B 100 75 15 V 80 90 86 90 C B 100 70 16 V 80 90 95 70 A A 90 75 17 V 80 90 63 80 D C 100 75 18 V 60 90 76 90 C C 60 85 19 V 60 90 68 40 D C 60 95 20 V 60 90 75 70 C B 60 85 21 V 80 90 77 70 D B 65 80 22 V 60 90 87 80 C A 60 90 23 V 80 90 73 100 C C 90 70 24 V 80 90 85 90 A A 65 90 25 V 80 90 70 90 B A 90 85 P departamento pessoal T seção técnica e V seção de vendas cap02bp65 2192009 1137 26 Número de empregados Frequência ni Amplitude Δi Densidade niΔi Proporção fi Densidade fiΔi Figura 219 Histograma dos dados do Problema 10 2 6 P R O B L E M A S E C O M P L E M E N T O S 29 Figura 220 a Histograma para a variável S salário Δ 2 Se houvesse um número suficientemente grande de observações poderseia ir diminuindo os intervalos de classe e o histograma iria ficando cada vez menos irregu lar até atingir um caso limite com uma curva bem mais suave Por exemplo o compor tamento da distribuição dos salários poderia ter a representação da Figura 220 b Esse histograma alisado é muito útil para ilustrar rapidamente qual o tipo de compor tamento que se espera para a distribuição de uma dada variável No capítulo referente a variáveis aleatórias contínuas voltaremos a estudar este histograma sob um ponto de vista mais matemático A interpretação desse gráfico é a mesma do histograma Assim nas regiões onde a curva é mais alta significa uma maior densidade de observações No exemplo aci ma conforme se aumenta o salário observase que a densidade de freqüência vai diminuindo Figura 220 b Histograma alisado para a variável S salário cap02bp65 2192009 1137 29 13 Esboce o histograma alisado para cada uma das situações descritas abaixo a Distribuição dos salários registrados em carteira de trabalho de moradores da cidade de São Paulo b Distribuição das idades de alunos de uma Faculdade de Economia e Administração c Distribuição das idades dos alunos de uma classe da Faculdade do item anterior Compare as duas distribuições d Distribuição do número de óbitos segundo a faixa etária e Distribuição do número de divórcios segundo o número de anos de casado f Distribuição do número formado pelos dois últimos algarismos do primeiro prêmio da Loteria Federal durante os últimos anos 14 Faça no mesmo gráfico um esboço das três distribuições descritas abaixo a Distribuição das alturas dos brasileiros adultos b Distribuição das alturas dos suecos adultos c Distribuição das alturas dos japoneses adultos 15 Frequências acumuladas Uma outra medida muito usada para descrever dados quantitativos é a frequência acumulada que indica quantos elementos ou que porcentagem deles estão abaixo de um certo valor Na tabela a seguir a terceira e a quinta colunas indicam respectivamente a frequência absoluta acumulada e a proporção porcentagem acumulada Assim observando a tabela podemos afirmar que 2778 dos indivíduos ganham até oito salários mínimos 6111 ganham até 12 salários mínimos 8333 ganham até 16 salários mínimos 9722 ganham até 20 salários mínimos e 100 dos funcionários ganham até 2400 salários A Figura 221 é a ilustração gráfica da porcentagem acumulada Este gráfico pode ser usado para fornecer informações adicionais Por exemplo para saber qual o salário s tal que 50 dos funcionários ganham menos do que s basta procurar o ponto s 50 na curva Observando as linhas pontilhadas no gráfico verificamos que a solução é um pouco mais do que 10 salários mínimos 16 Usando os dados da Tabela 21 a Construa a distribuição de frequências para a variável idade b Faça o gráfico da porcentagem acumulada c Usando o gráfico anterior ache os valores de s correspondentes aos pontos i 25 i 50 e i 75 17 Frequências acumuladas continuação Para um tratamento estatístico mais rigoroso das variáveis quantitativas costumase usar uma definição mais precisa para a distribuição das frequências acumuladas Em capítulos posteriores será vista a sua utilização Definição Dadas n observações de uma variável quantitativa e um número x real qualquer indicarseá por Nx o número de observações menores ou iguais a x e chamarseá de função de distribuição empírica fde a função Fnx ou Fx Fx Fnx Nx n Exemplos 212 Para a variável S salário dos 36 funcionários listados na Tabela 21 é fácil verificar que F36s 0 se s 400 136 se 400 s 456 236 se 456 s 525 1 se s 2330 O gráfico está na Figura 222 Aqueles não familiarizados com a representação gráfica de funções recomendase a leitura de Morettin Hazzan Bussab 2005 2 6 P R O B L E M A S E C O M P L E M E N T O S 33 18 Construir a fde para a variável idade referente aos dados da Tabela 21 19 Ramoefolhas continuação Os dados abaixo referemse à produção em toneladas de dado produto para 20 companhias químicas numeradas de 1 a 20 1 50 2 280 3 560 4 170 5 180 6 500 7 250 8 200 9 1050 10 240 11 180 12 1000 13 1100 14 120 15 4200 16 5100 17 480 18 90 19 870 20 360 Vemos que os valores estendemse de 50 a 5100 e usando uma representação semelhante à da Figura 29 teríamos um grande número de linhas A Figura 224 a mostra uma outra forma de ramoefolhas com ramos divididos A divisão ocorre no ramo cada vez que se muda por um fator de 10 Uma economia de 4 linhas poderia ser obtida representandose os valores 50 e 90 da Figura 224 a num ramo denominado 0 Obtemos a Figura 224 b Os pacotes computacionais trazem algumas opções adicionais ao construir um ramo efolhas Por exemplo podemos ter a contagem do número de folhas em cada ramo como mostra a Figura 225 a Aqui temos o ramoefolhas dos salários dos empregados da Tabela 21 Na Figura 225 b acrescentamos as contagens de folhas a partir de cada extremo até o ramo que contém a mediana Esse tipo de opção é chamado profundidade depth nos pacotes Figura 224 Ramoefolhas das produções de companhias químicas 5 0 6 0 5090 7 1 70 80 80 20 8 2 80 50 00 40 9 0 3 60 4 80 1 70 80 80 20 5 60 00 2 80 50 00 40 6 3 60 7 4 80 8 70 5 60 00 9 6 7 1 050 000 100 8 70 2 9 3 4 200 1 050 000 100 5 100 2 3 4 200 5 100 a b cap02bp65 2192009 1137 33 C A P Í T U L O 2 R E S U M O D E D A D O S 34 Figura 225 Ramoefolhas com a freqüências em cada ramo b profundidade 2 4 00 56 2 4 00 56 2 5 25 73 4 5 25 73 3 6 26 66 86 7 6 26 66 86 3 7 39 44 59 10 7 39 44 59 4 8 12 46 74 95 14 8 12 46 74 95 4 9 13 35 77 80 18 9 13 35 77 80 2 10 53 76 2 10 53 76 2 11 06 59 16 11 06 59 2 12 00 79 14 12 00 79 3 13 23 60 85 12 13 23 60 85 2 14 69 71 9 14 69 71 1 15 99 7 15 99 2 16 22 61 6 16 22 61 1 17 26 4 17 26 1 18 75 3 18 75 1 19 40 2 19 40 0 20 1 20 0 21 1 21 0 22 1 22 1 23 30 1 23 30 a b 20 Construa um ramoefolhas para a variável CO monóxido de carbono do conjunto de dados 4 CDPoluição cap02bp65 2192009 1137 34 31 Medidas de Posição Vimos que o resumo de dados por meio de tabelas de freqüências e ramoefolhas forne ce muito mais informações sobre o comportamento de uma variável do que a própria tabela original de dados Muitas vezes queremos resumir ainda mais estes dados apresentando um ou alguns valores que sejam representativos da série toda Quando usamos um só valor obtemos uma redução drástica dos dados Usualmente empregase uma das seguintes me didas de posição ou localização central média mediana ou moda A moda é definida como a realização mais freqüente do conjunto de valores observados Por exemplo considere a variável Z número de filhos de cada funcionário casado resumida na Tabela 25 do Capítulo 2 Vemos que a moda é 2 correspondente à realização com maior freqüência 7 Em alguns casos pode haver mais de uma moda ou seja a distribuição dos valores pode ser bimodal trimodal etc A mediana é a realização que ocupa a posição central da série de observações quando estão ordenadas em ordem crescente Assim se as cinco observações de uma variável forem 3 4 7 8 e 8 a mediana é o valor 7 correspondendo à terceira observação Quando o número de observações for par usase como mediana a média aritmética das duas observa ções centrais Acrescentandose o valor 9 à série acima a mediana será 7 82 75 Finalmente a média aritmética conceito familiar ao leitor é a soma das observações divi dida pelo número delas Assim a média aritmética de 3 4 7 8 e 8 é 3 4 7 8 85 6 Exemplo 31 Usando os dados da Tabela 25 já encontramos que a moda da variável Z é 2 Para a mediana constatamos que esta também é 2 média aritmética entre a décima e a décima primeira observações Finalmente a média aritmética será 4 0 5 1 7 2 3 3 5 1 33 165 20 20 Capítulo 3 MedidasResumo cap03ep65 2192009 1149 35 Neste exemplo as três medidas têm valores próximos e qualquer uma delas pode ser usada como representativa da série toda A média aritmética é talvez a medida mais usada Contudo ela pode conduzir a erros de interpretação Em muitas situações a mediana é uma medida mais adequada Voltaremos a este assunto mais adiante A moda mediana e média para os dados da Tabela 26 são respectivamente moS 1000 mdS 1000 x 10 600 12 1000 8 1400 5 1800 1 2200 36 1122 O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações Por exemplo suponhamos que cinco grupos de alunos submeteramse a um teste obtendose as seguintes notas grupo A variável X 3 4 5 6 7 grupo B variável Y 1 3 5 7 9 grupo C variável Z 5 5 5 5 5 grupo D variável W 3 5 5 7 grupo E variável V 3 5 5 6 6 dpX varX 2 141 varX ni1 Xi2n X2 3 3 Q U A N T I S E M P Í R I C O S 41 a Use cinco intervalos e construa um histograma b Determine uma medida de posição central e uma medida de dispersão 4 a Dê uma situação prática onde você acha que a mediana é uma medida mais apro priada do que a média b Esboce um histograma onde a média e a mediana coincidem Existe alguma classe de histogramas onde isso sempre acontece c Esboce os histogramas de três variáveis X Y e Z com a mesma média aritmética mas com as variâncias ordenadas em ordem crescente 5 Suponha que a variável de interesse tenha a distribuição como na figura abaixo Você acha que a média é uma boa medida de posição E a mediana Justifique 6 Numa pesquisa realizada com 100 famílias levantaramse as seguintes informações Número de filhos 10 11 12 13 4 5 mais que 5 Freqüência de famílias 17 20 28 19 7 4 5 a Qual a mediana do número de filhos b E a moda c Que problemas você enfrentaria para calcular a média Faça alguma suposição e encontrea 33 Quantis Empíricos Tanto a média como o desvio padrão podem não ser medidas adequadas para represen tar um conjunto de dados pois a são afetados de forma exagerada por valores extremos b apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos dados Para contornar esses fatos outras medidas têm de ser consideradas Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima ver fórmula 35 De modo geral podemos definir uma medida chamada quantil de ordem p ou pquantil indicada por qp onde p é uma proporção qualquer 0 p 1 tal que 100p das observações sejam menores do que qp cap03ep65 2192009 1149 41 md 800 267 1067 42 C A P Í T U L O 3 M E D I D A S R E S U M O Indicamos abaixo alguns quantis e seus nomes particulares q025 q1 1o Quartil 25o Percentil q050 q2 Mediana 2o Quartil 50o Percentil q075 q3 3o Quartil 75o Percentil q040 4o Decil q095 95o Percentil Dependendo do valor de p há dificuldades ao se calcular os quantis Isso é ilustrado no exemplo a seguir Exemplo 35 Suponha que tenhamos os seguintes valores de uma variável X 15 5 3 8 10 2 7 11 12 Ordenando os valores obtemos as estatísticas de ordem x1 2 x2 3 x9 15 ou seja teremos 2 3 5 7 8 10 11 12 15 Usando a definição de mediana dada teremos que md q05 q2 x5 8 Suponha que queiramos calcular os dois outros quartis q1 e q3 A idéia é dividir os dados em quatro partes 2 3 5 7 8 10 11 12 15 Uma possibilidade razoável é então considerar a mediana dos primeiros quatro valores para obter q1 ou seja q1 3 5 4 2 e a mediana dos últimos quatro valores para obter q3 ou seja q3 11 12 115 2 Obtemos então a sequência 2 3 4 5 7 8 10 11 115 12 15 Observe que a média dos n 9 valores é x 81 próximo à mediana Exemplo 35 continuação Acrescentemos agora o valor 67 à lista de nove valores do Exemplo 35 obtendose agora os n 10 valores ordenados 2 3 5 7 8 10 11 12 15 67 cap03ep65 2192009 1149 42 3 3 Q U A N T I S E M P Í R I C O S 43 Agora x 14 enquanto que a mediana fica q2 x5 x6 9 2 que está próxima da mediana dos nove valores originais mas ambas 8 e 9 relativa mente longes de x Dizemos que a mediana é resistente ou robusta no sentido que que ela não é muito afetada pelo valor discrepante ou atípico 67 Para calcular q1 e q3 para este novo conjunto de valores considereos assim dispostos 2 3 5 7 8 9 10 11 12 15 67 de modo que q1 5 e q3 12 Obtemos então os dados separados em 4 partes por q1 q2 e q3 2 3 5 7 8 9 10 11 12 15 67 Suponha agora que queiramos calcular q020 ou seja aquele valor que deixa 20 dos dados à sua esquerda para o conjunto original de n 9 valores de X Como 20 das observações correspondem a 18 observações qual valor devemos tomar como q0 20 O valor 3 que é a segunda observação ordenada ou 5 ou a média de 3 e 5 Se adotarmos esta última solução então q0 20 q0 25 q1 o que pode parecer não razoável Para responder a esta questão temos que definir quantil de uma sequência de valores de uma variável de modo apropriado Isto está feito no Problema 17 Se os dados estiverem agrupados em classes podemos obter os quantis usando o histograma Por exemplo para obter a mediana sabemos que ela deve corresponder ao valor da abscissa que divide a área do histograma em duas partes iguais 50 para cada lado Então usando argumentos geométricos podemos encontrar um ponto satisfazendo essa propriedade Vejamos como proceder através de um exemplo Exemplo 36 Vamos repetir abaixo a Figura 27 que é o histograma da variável S salário dos empregados da Companhia MB cap03ep65 2192009 1149 43 Devemos localizar o ponto das abscissas que divide o histograma ao meio A área do primeiro retângulo corresponde a 28 do total os dois primeiros a 61 portanto a mediana md é algum número situado entre 800 e 1200 Ou melhor a mediana irá corresponder ao valor md no segundo retângulo cuja área do retângulo de base 800 H 1200 seja 22 28 do primeiro retângulo mais 22 do segundo perfazendo os 50 Consulte a figura para melhor compreensão Pela proporcionalidade entre área e a base do retângulo temos 1200 800 33 md 800 22 ou md 800 22 33 400 logo md 800 267 1067 que é uma expressão mais precisa para a mediana do que a mediana bruta encontrada anteriormente O cálculo dos quantis pode ser feito de modo análogo ao cálculo da mediana usando argumentos geométricos no histograma Vejamos a determinação de alguns quantis usando os dados do último exemplo a q025 Verificamos que q025 deve estar na primeira classe pois a proporção no primeiro retângulo é 028 Logo q025 400 25 800 400 28 e então q025 400 2528 400 757 b q095 Analisando a soma acumulada das proporções verificamos que este quantil deve pertencer à quarta classe e que nesse retângulo devemos achar a parte correspondente a 12 pois a soma acumulada até a classe anterior é 83 faltando 12 para atingirmos os 95 Portanto q095 1600 12 2000 1600 14 logo q095 1600 12 14 4 1943 c q075 De modo análogo concluímos que o terceiro quantil deve pertencer ao intervalo 1200 H 1600 portanto q075 1200 14 1600 1200 22 e q075 1455 Uma medida de dispersão alternativa ao desvio padrão é a distância interquartil definida como a diferença entre o terceiro e primeiro quartis ou seja dq q₃ q₁ Para o Exemplo 35 temos q₁ 4 q₃ 115 de modo que dq 75 Para um cálculo mais preciso veja o Problema 17 Lá obtemos q₁ 45 q₃ 1125 logo dq 675 Os quartis q025 q₁ q05 92 e q075 93 são medidas de localização resistentes de uma distribuição 46 C A P Í T U L O 3 M E D I D A S R E S U M O A Figura 31 ilustra estes fatos para a chamada distribuição normal ou gaussiana Figura 31 Uma distribuição simétrica normal ou gaussiana Na Figura 32 temos ilustradas estas cinco medidas para os n 9 valores do Exemplo 35 Figura 32 Quantis e distâncias para o Exemplo 35 2 4 35 35 6 di 7 ds As cinco estatísticas de ordem consideradas acima podem ser representadas esquematicamente como na Figura 33 onde também incorporamos o número de ob servações n Representamos a mediana por md os quartis por q e os extremos por E Podemos ir além considerando os chamados oitavos ou seja o primeiro oitavo que corresponde a q0125 o sétimo oitavo que corresponde a q0875 etc Teríamos então sete números para representar a distribuição dos dados Em geral podemos considerar as chamadas letrasresumos descendo aos dezesseisavos trinta e dois avos etc Para detalhes ver Hoaglin Mosteller and Tukey1983 Figura 33 Esquema dos cinco números cap03ep65 2892009 0938 46 3 4 B O X P L O T S 47 Exemplo 37 Os aplicativos SPlus e Minitab assim como a planilha Excel possuem ferramentas que geram as principais medidas descritas nesse capítulo e outras Por exemplo o comando describe do Minitab usado para as populações dos municípios brasileiros produz a saída do Quadro 31 Quadro 31 Medidasresumo para o CDMunicípios Minitab MTB Describe C1 Descriptive Statistics Variable N Mean Median Tr mean StDev SE Mean C1 30 1454 843 1047 1866 341 Variable Min Max Q1 Q3 C1 463 9888 635 1397 Aqui temos N 30 dados a média é 1454 a mediana 843 o desvio padrão 1866 o menor valor 463 o maior valor 9888 o primeiro quartil 635 e o terceiro quartil 1397 Além desses valores o resumo traz a média aparada trimmed mean e o erro padrão da média a ser tratado no Capítulo 11 Esse é dado por S n 1866 30 341 O comando summary do SPlus produz a saída do Quadro 32 para os mesmos dados Note a diferença no cálculo dos quantis q025 e q075 Concluise que é necessário saber como cada programa efetua o cálculo de determinada estatística para poder reportálo Quadro 32 Medidasresumo para o CDMunicípios SPlus summary munic Min 1st Qu Median Mean 3rd Qu Max 463 6448 843 1454 1343 9888 17 Obtenha o esquema dos cinco números para os dados do Problema 3 Calcule o intervalo interquartil e as dispersões inferior e superior Baseado nessas medidas verifi que se a forma da distribuição dos dados é normal 18 Refaça o problema anterior utilizando desta vez os dados do Problema 5 do Capítulo 2 19 Obter os três quartis q01 e q090 para os dados do Problema 3 10 Para a variável população urbana do CDBrasil obtenha q010 q025 q050 q075 q080 e q095 34 Box Plots A informação contida no esquema dos cinco números da Figura 33 pode ser traduzida graficamente num diagrama ilustrado na Figura 34 que chamaremos de box plot Murteira 1993 usa o termo caixadebigodes Problemas cap03ep65 2192009 1149 47 48 C A P Í T U L O 3 M E D I D A S R E S U M O Figura 34 Box Plot Para construir este diagrama consideremos um retângulo onde estão representados a mediana e os quartis A partir do retângulo para cima segue uma linha até o ponto mais remoto que não exceda LS q3 15dq chamado limite superior De modo similar da parte inferior do retângulo para baixo segue uma linha até o ponto mais remoto que não seja menor do que LI q1 15dq chamado limite inferior Os valores compreendidos entre esses dois limites são chamados valores adjacentes As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos O box plot dá uma idéia da posição dispersão assimetria caudas e dados discrepantes A posição central é dada pela mediana e a dispersão por dq As posições relativas de q1 q2 q3 dão uma noção da assimetria da distribuição Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores remotos e pelos valores atípicos Exemplo 38 Retomemos o exemplo dos 15 maiores municípios do Brasil ordenados pelas populações Usando o procedimento do Problema 17 veja também o Problema 18 obtemos q1 1057 q2 1358 q3 2086 O diagrama para os cinco números x1 q1 q2 md q3 x15 está na Figura 35 abaixo Figura 35 Esquema dos cinco núme ros para o Exemplo 38 cap03ep65 2192009 1149 48 3 4 B O X P L O T S 49 Temos que LI q1 15dq 1057 15 1029 487 LS q3 15dq 2086 15 1029 3629 Então as cidades com populações acima de 3629000 habitantes são pontos exteriores ou seja Rio de Janeiro e São Paulo O box plot correspondente está na Figura 36 Vemos que os dados têm uma distribuição assimétrica à direita com 13 valores concentrados entre 80 e 230 e duas observações discrepantes bastante afas tadas do corpo principal dos dados Figura 36 Box plot para os quinze maiores municípios do Brasil Do ponto de vista estatístico um outlier pode ser produto de um erro de observa ção ou de arredondamento No exemplo acima as populações de São Paulo e Rio de Janeiro não são outliers neste sentido pois elas representam dois valores realmente muito diferentes dos demais Daí usarmos o nome pontos ou valores exteriores Contudo na prática estas duas denominações são freqüentemente usadas com o mes mo significado observações fora de lugar discrepantes ou atípicas A Figura 37 mostra o box plot para as populações dos trinta municípios brasilei ros feito com o Minitab cap03ep65 2192009 1149 49 50 C A P Í T U L O 3 M E D I D A S R E S U M O Figura 37 Box plot com Minitab A justificativa para usarmos os limites acima LI q1 15dq e LS q3 15dq para definir as observações atípicas é a seguinte considere uma curva normal com média zero e portanto com mediana zero É fácil verificar veja o Capítulo 7 e Tabela III que q1 06745 q2 0 q3 06745 e portanto dq 1349 Seguese que os limites são LI 2698 e LS 2698 A área entre estes dois valores embaixo da curva normal é 0993 ou seja 993 da distribuição está entre estes dois valores Isto é para dados com uma distribuição normal os pontos exteriores constituirão cerca de 07 da distri buição Veja a Figura 38 Figura 38 Área sob a curva normal entre LI e LS 11 Construa o box plot para os dados do Exemplo 23 Capítulo 2 O que você pode con cluir a respeito da distribuição 12 Refaça a questão anterior com os dados do Problema 3 deste capítulo 13 Faça um box plot para o Problema 10 Comente sobre a simetria caudas e presença de valores atípicos Problemas cap03ep65 2192009 1149 50 3 5 G R Á F I C O S D E S I M E T R I A 51 35 Gráficos de Simetria Os quantis podem ser úteis para se verificar se a distribuição dos dados é simétrica ou aproximadamente simétrica Se um conjunto de observações for perfeitamente simétrico devemos ter q05 xi xn 1 i q05 314 onde i 1 2 n2 se n for par e i 1 2 n 12 se n for ímpar Pela relação 314 vemos que se os quantis da direita estão mais afastados da mediana do que os da esquerda os dados serão assimétricos à direita Se ocorrer o contrário os dados serão assimétricos à esquerda A Figura 39 ilustra essas duas situações Figura 39 Distribuições assimétricas Para os dados do Exemplo 38 vemos que as observações são assimétricas à direita Em geral esse tipo de situação ocorre com dados positivos Podemos fazer um gráfico de simetria usando a identidade 314 Chamando de ui o primeiro membro e de vi o segundo membro fazendose um gráfico cartesiano com os uis como abscissas e os vis como ordenadas se os dados forem aproximada mente simétricos os pares ui vi estarão dispersos ao redor da reta v u Exemplo 39 Considere os dados que dispostos em ordem crescente ficam represen tados no eixo real como na Figura 310 Figura 310 Dados aproximadamente simétricos Esses dados são aproximadamente simétricos pois como q2 8 ui q2 xi vi xn 1 i q2 teremos u1 80 05 75 v1 153 80 73 u2 80 23 57 v2 135 80 55 u3 80 40 40 v3 120 80 40 u4 80 64 16 v4 98 80 18 cap03ep65 2192009 1149 51 A Figura 311 mostra o gráfico de simetria para as populações dos trinta municípios do Brasil Vemos que a maioria dos pontos estão acima da reta v μ mostrando a assimetria à direita da distribuição dos valores Nessa figura vemos destacados os pontos correspondentes a Rio de Janeiro e São Paulo 3 6 T R A N S F O R M A Ç Õ E S 53 Exemplo 310 Consideremos os dados das populações do CDMunicípios e tomemos alguns valores de p 0 14 13 12 Na Figura 312 temos os histogramas para os dados transformados e na Figura 313 os respectivos box plots Vemos que p 0 transformação logarítmica e p 13 transformação raiz cúbica fornecem distribui ções mais próximas de uma distribuição simétrica Figura 312 Histogramas para os dados transformados CDMunicípios Figura 313 Box plots para os dados transfor mados CDMunicípios SPlus cap03ep65 2192009 1149 53 54 C A P Í T U L O 3 M E D I D A S R E S U M O 37 Exemplos Computacionais Vamos retomar os exemplos estudados no Capítulo 2 e complementar as análises feitas com as técnicas aprendidas neste capítulo Exemplo 210 continuação Aqui temos as notas em Estatística de 100 alunos de Eco nomia Temos no Quadro 33 as principais medidasresumo desse conjunto de dados fornecidas pelo comando describe do Minitab Quadro 33 Medidas descritivas para o CDNotas Minitab Descriptive Statistics Variable N Mean Median Tr mean StDev SE Mean C1 100 5925 6000 5911 1812 0181 Variable Min Max Q1 Q3 C1 1500 10000 4625 7375 Vemos por exemplo que q1 4625 q2 6000 e q3 7375 e portanto dq q3 q1 275 O desvio padrão é dp 1812 Vimos que a distribuição das notas é razoavel mente simétrica não havendo valores atípicos o que é confirmado pelo box plot da Figura 314 Figura 314 Box plot para o CDNotas SPlus O gráfico de simetria está na Figura 315 mostrando também a reta u ν Note que os pontos dispõemse ao redor da reta estando vários deles sobre ela indicando a quasesimetria dos dados Deveríamos ter 50 pontos no gráfico mas há vários pares ui νi repetidos cap03ep65 2192009 1149 54 3 7 E X E M P L O S C O M P U T A C I O N A I S 55 Figura 315 Gráfico de simetria para o CDNotas Exemplo 211 continuação Os dados de temperatura diários na cidade de São Paulo no período considerado são ligeiramente assimétricos à esquerda O comando summary do SPlus fornece as medidas descritivas do Quadro 34 Note que o Minitab fornece mais informações que o SPlus por meio desses comandos Quadro 34 Medidas descritivas para temperaturas SPlus summary temp Min 1st Qu Median Mean 3rd Qu Max 123 16 177 1722 186 21 Temos por exemplo q1 16 q2 177 e q3 186 A amplitude amostral é xn x1 87 e a distância interquartil é dq 26 O box plot está na Figura 316 que mostra a assimetria Não há valores atípicos Figura 316 Box plot para as temperaturas de São Paulo CDPoluição SPlus cap03ep65 2192009 1149 55 No gráfico de simetria na Figura 317 todos os pontos estão abaixo da reta u v mostrando que ui vr para todo i 1 2 60 ou seja as distâncias da mediana aos quantis inferiores são maiores do que as distâncias dos quantis superiores à mediana indicando que a distribuição das observações é assimétrica à esquerda Vendas semanais Nº de vendedores 58 C A P Í T U L O 3 M E D I D A S R E S U M O Figura 318 Funções de distribuição empírica Fe e fde alisada Fe para o Exemplo 35 Mas vejamos que Fe pode ser a base para tal definição Considere alisar ou suavizar Fe como feito na Figura 318 de modo a obter uma curva contínua Fex que passa pelos pontos xi pi onde pi i 05 i 1 2 9 318 9 Observe que 0 p1 19 19 p2 29 etc Com esse procedimento notamos que Fex1 118 Fex5 918 05 Fex9 1718 ou seja podemos escrever Fexi i 05 i 1 2 n 319 n cap03ep65 2192009 1149 58 3 8 P R O B L E M A S E C O M P L E M E N T O S 59 sendo que no nosso caso n 9 Com essa modificação obtemos que Femd Fe8 05 e para cada p 0 p 1 podemos obter de modo unívoco o quantil qp tomando se a função inversa Fe 1p Ou seja considere uma reta horizontal passando por p no eixo das ordenadas até encontrar a curva contínua e depois baixe uma reta vertical até encontrar qp no eixo das abscissas Uma maneira equivalente de proceder nos leva à seguinte definição para calcu lar qp para qualquer p 0 p 1 Definição O pquantil é definido por xi se p pi i 05 i 1 2 n n qp 1 fixi fi xi 1 se pi p pi 1 x1 se p p1 xn se p pn onde fi p pi pi 1 pi Notamos então que se p coincidir com a proporção pi o quantil será a iésima observação xi Se pi p pi 1 o quantil estará no segmento de reta que une pi xi e pi 1 xi 1 De fato a reta passando por pi xi e p qp é qp xi xi 1 xi p pi pi 1 pi Exemplo 35 continuação Usando a definição obtemos q01 06x1 04x2 062 043 24 q02 07x2 03x3 073 035 36 q025 025x2 075x3 45 q05 x5 8 q075 075x7 025x8 07511 02512 1125 18 Considere o CDMunicípios e tome somente os 15 maiores relativamente à sua popula ção Calcule q0 1 q0 2 q1 q2 q3 cap03ep65 2192009 1149 59 como calcular o quartil O número de divórcios na cidade de acordo com a duração do casamento está representado na tabela abaixo A distribuição de frequências do salário anual dos moradores do bairro A que têm alguma forma de rendimento é apresentada na tabela abaixo Dado o histograma abaixo calcular a média a variância a moda a mediana e o 1º quartil Em uma granja foi observada a distribuição dos frangos em relação ao peso que era a seguinte Peso gramas ni 960H 980 60 980H 1000 160 1000H 1020 280 1020H 1040 260 1040H 1060 160 1060H 1080 80 a Qual a média da distribuição b Qual a variância da distribuição c Construa o histograma d Queremos dividir os frangos em quatro categorias em relação ao peso de modo que os 20 mais leves sejam da categoria D os 30 seguintes sejam da categoria C os 30 seguintes sejam da categoria B os 20 seguintes ou seja os 20 mais pesados sejam da categoria A Quais os limites de peso entre as categorias A B C e D e O granjeiro decide separar deste lote os animais com peso inferior a dois desvios padrões abaixo da média para receberem ração reforçada e também separar os animais com peso superior a um e meio desvio padrão acima da média para usálos como reprodutores Qual a porcentagem de animais que serão separados em cada caso a Baseandose nesses resultados você diria que a campanha produziu algum efeito isto é aumentou a idade média b Um outro pesquisador decidiu usar a seguinte regra se a diferença x 22 fosse maior que o valor 2δpXn então a campanha teria surtido efeito Qual a conclusão dele baseada nos dados c Faça o histograma da distribuição Para se estudar o desempenho de duas corretoras de ações selecionouse de cada uma delas amostras aleatórias das ações negociadas Para cada ação selecionada computouse a porcentagem de lucro apresentada durante um período fixado de tempo Os dados estão a seguir Corretora A Corretora B 45 60 54 57 55 58 62 55 70 50 52 59 38 48 64 59 55 56 61 52 54 59 48 57 50 55 60 55 58 54 59 51 56 Que tipo de informação revelam esses dados Sugestão use a análise proposta nas Seções 33 e 34 64 C A P Í T U L O 3 M E D I D A S R E S U M O Caso t 2 os desempenhos são semelhantes caso contrário são diferentes Qual seria a sua conclusão Aqui nA é o número de ações selecionadas da corretora A e nomencla tura análoga para nB 33 Um órgão do governo do estado está interessado em determinar padrões sobre o investi mento em educação por habitante realizado pelas prefeituras De um levantamento de dez cidades foram obtidos os valores codificados da tabela abaixo Cidade A B C D E F G H I J Investimento 20 16 14 8 19 15 14 16 19 18 Nesse caso será considerado como investimento básico a média final das observações cal culada da seguinte maneira 1 Obtémse uma média inicial 2 Eliminamse do conjunto aquelas observações que forem superiores à média inicial mais duas vezes o desvio padrão ou inferiores à média inicial menos duas vezes o desvio padrão 3 Calculase a média final com o novo conjunto de observações Qual o investimento básico que você daria como resposta Observação O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo investimento é muito diferente dos demais 34 Estudandose a distribuição das idades dos funcionários de duas repartições públicas obtiveramse algumas medidas que estão no quadro abaixo Esboce o histograma alisa do das duas distribuições indicando nele as medidas descritas no quadro Comente as principais diferenças entre os dois histogramas Repartição Mínimo 1o Quartil Mediana Média 3o Quartil Máximo dp A 18 27 33 33 39 48 15 B 18 23 32 33 42 48 10 35 Decidiuse investigar a distribuição dos profissionais com nível universitário em duas regiões A e B As informações pertinentes foram obtidas e encontramse no quadro abaixo expressas em salários mínimos Esboce a distribuição histograma alisado dos salários de cada região indicando no gráfico as medidas apresentadas no quadro Faça também uma descrição rápida das principais diferenças observadas nos gráficos Região Média dp Mediana Moda q1 q3 x1 xn A 2000 400 2032 2015 1732 2268 800 3200 B 2000 600 1800 1700 1600 2400 1400 4200 cap03ep65 2192009 1149 64 36 Construa o desenho esquemático para os dados do Problema 6 do Capítulo 2 Obtenha conclusões a respeito da distribuição a partir desse desenho 37 Usando os dados da variável qualitativa região de procedência da Tabela 21 transformea na variável quantitativa X definido da seguinte modo X 1 se a região de procedência for capital 0 se a região de procedência for interior ou outra a Calcule barx e varX b Qual a interpretação de barx c Construa um histograma para X 38 No Problema 9 do Capítulo 2 temos os resultados de 25 funcionários em vários exames a que se submeteram Sabese agora que os critérios adotados em cada exame não são comparáveis por isso decidiuse usar o desempenho relativo em cada exame Essa medida será obtida do seguinte modo I Para cada exame serão calculados a média barx e o desvio padrão phiX II A nota X de cada aluno será padronizada do seguinte modo Z fracX barxphiX a Interprete o significado de Z b Calcule as notas padronizadas dos funcionários para o exame de Estatística c Com os resultados obtidos em b calcule barz e phiZ d Se alguma das notas padronizadas estiver acima de 2dpZ ou abaixo de 2dpZ esse funcionário deve ser considerado um caso atípico Existe alguma nessa situação e O funcionário 1 obteve 90 em Direito em Estatística e em Política Em que disciplina o seu desempenho relativo foi melhor Calcule o coeficiente de variação para as regiões A e B do Problema 35 e comente o resultado 41 Desvio absoluto mediano Esta é uma medida de dispersão dos dados x₁ xₖ definida por dam med₁ i n xᵢ med₁ i n x Ou seja calculamos a mediana dos dados depois os desvios absolutos dos dados em relação à mediana e finalmente a mediana desses desvios absolutos Vamos considerar os dados abaixo extraídos de Graedel e Kleiner 1985 e que representam velocidades do vento no aeroporto de Philadelphia EUA para os primeiros 15 dias de dezembro de 1974 Vamos que há uma observação muito diferente das demais 611 mas que representa um dado real no dia 2 de dezembro houve uma tempestade forte com chuva e vento 222 611 130 278 222 74 74 204 204 204 204 111 130 74 148 Calculandose as medidas de posição e dispersão estudadas obtemos x 184 x020 158 md 148 q₁ 83 q₃ 218 dₕ 148 dam 74 dpX 135 Observemos que retirandose o valor atípico 611 a média passa a ser 153 e o desvio padrão 68 valor este mais próximo do dam 42 Calcule o desvio absoluto mediano para as populações do CDBrasil 43 Calcule as principais medidas de posição e dispersão incluindo a média aparada e o dam para a variável CO no CDPoluíção b salários de mecânicos CDSalários e c variável preço CDVeículos 44 Construa os histogramas ramoefolhas e desenhos esquemáticos para as variáveis do problema anterior 45 Faça um gráfico de quantis e um de simetria para os dados do Problema 3 Os dados são simétricos Comente 46 Para o CDTemperaturas e para a variável temperatura de Ubatuba obtenha um gráfico de quantis e um gráfico de simetria Os dados são simétricos Comente 47 O histograma dá uma ideia de como é a verdadeira densidade de frequências da população da qual os dados foram selecionados Suponha que tenhamos o histograma da figura abaixo e que a curva suave seja a verdadeira densidade populacional desconhecida Considere as distâncias entre o histograma e a densidade Suponha que queiramos determinar a amplitude de classe Δ do histograma de modo a minimizar a maior distância em valor absoluto Freedman e Diaconis 1981 mostraram que o valor de Δ é dado aproximadamente por Δ 1349S log nn13 em que S é um estimador robusto do desvio padrão populacional Por exemplo podemos tomar S dₕ1349 em que dₕ q₃ q₁ é a distância interquartil devido ao fato de numa distribuição normal dₕ 1349σ sendo σ o desvio padrão Seguese que Δ é dado por Δ dₕ log nn13 Usando esse resultado o número de classes a considerar num histograma é obtido por meio de xₙ x₁Δ Até agora vimos como organizar e resumir informações pertinentes a uma única variável ou a um conjunto de dados mas frequentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis aleatórias Os dados aparecem na forma de uma matriz geralmente com as colunas indicando as variáveis e as linhas os indivíduos ou elementos A Tabela 41 mostra a notação de uma matriz com p variáveis X₁ X₂ Xₚ e n indivíduos totalizando np dados A Tabela 21 com os dados hipotéticos da Companhia MB é uma ilustração numérica de uma matriz 36 7 O principal objetivo das análises nessa situação é explorar relações similaridades entre as colunas ou algumas vezes entre as linhas Como no caso de apenas uma variável que estudamos a distribuição conjunta das frequências será um instrumento poderoso para a compreensão do comportamento dos dados Neste capítulo iremos nos deter no caso de duas variáveis ou dois conjuntos de dados Na seção 48 daremos dois exemplos do caso de três variáveis Tabela 41 Tabela de dados Indivíduo Variável X₁ X₂ Xₖ Xₚ 1 x₁₁ x₁₂ x₁j x₁ₚ 2 x₂₁ x₂₂ x₂j x₂ₚ i xᵢ₁ xᵢ₂ xᵢj xᵢₚ n xₙ₁ xₙ₂ xₙj xₙₚ 4 1 I N T R O D U Ç Ã O 69 que são as temperaturas da cidade B nos mesmos meses Para efeito de análise podemos considerar que o primeiro conjunto são observações da variável X temperatura na cidade A enquanto o segundo conjunto são observações da variável Y temperatura na cidade B Este é o caso do CDTemperaturas Também poderíamos usar uma variável X para indicar a temperatura e outra variável L para indicar se a observação pertence à região A ou B Na Tabela 21 podemos estar interessados em comparar os salários dos casados e solteiros Uma reordenação dos dados poderia colocar os casados nas primeiras posições e os solteiros nas últimas e nosso objetivo passaria a ser comparar na coluna de salários variável S o compor tamento de S na parte superior com a inferior A escolha da apresentação de um ou outro modo será ditada principalmente pelo interesse e técnicas de análise à disposição do pesquisador No CDBrasil temos cinco variáveis superfície população urbana rural e total e densi dade populacional No CDPoluição temos quatro variáveis quantidade de monóxido de carbono ozônio temperatura do ar e umidade relativa do ar Quando consideramos duas variáveis ou dois conjuntos de dados podemos ter três situações a as duas variáveis são qualitativas b as duas variáveis são quantitativas e c uma variável é qualitativa e outra é quantitativa As técnicas de análise de dados nas três situações são diferentes Quando as variá veis são qualitativas os dados são resumidos em tabelas de dupla entrada ou de contingência onde aparecerão as freqüências absolutas ou contagens de indivíduos que pertencem simultaneamente a categorias de uma e outra variável Quando as duas variáveis são quantitativas as observações são provenientes de mensurações e técni cas como gráficos de dispersão ou de quantis são apropriadas Quando temos uma variável qualitativa e outra quantitativa em geral analisamos o que acontece com a variável quantitativa quando os dados são categorizados de acordo com os diversos atributos da variável qualitativa Mas podemos ter também o caso de duas variáveis quantitati vas agrupadas em classes Por exemplo podemos querer analisar a associação entre renda e consumo de certo número de famílias e para isso agrupamos as famílias em classes de rendas e classes de consumo Desse modo recaímos novamente numa tabe la de dupla entrada Contudo em todas as situações o objetivo é encontrar as possíveis relações ou associações entre as duas variáveis Essas relações podem ser detectadas por meio de métodos gráficos e medidas numéricas Para efeitos práticos e a razão ficará mais clara após o estudo de probabilidades iremos entender a existência de associação como a mudança de opinião sobre o comportamento de uma variável na presença ou não de informação sobre a segunda variável Ilustrando existe relação entre a altura de pessoas e o sexo homem ou mulher em dada comunidade Podese fazer uma primeira pergunta qual a freqüência esperada de uma pessoa dessa população ter digamos mais de 170 cm CAP04cP65 2192009 1202 69 70 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L de altura E também uma segunda qual a freqüência esperada de uma mulher ou ho mem ter mais de 170 cm de altura Se a resposta para as duas perguntas for a mesma diríamos que não há associação entre as variáveis altura e sexo Porém se as respostas forem diferentes isso significa uma provável associação e devemos incorporar esse conhecimento para melhorar o entendimento sobre os comportamentos das variáveis No exemplo em questão você acha que existe associação entre as variáveis 42 Variáveis Qualitativas Para ilustrar o tipo de análise consideremos o exemplo a seguir Exemplo 41 Suponha que queiramos analisar o comportamento conjunto das variá veis Y grau de instrução e V região de procedência cujas observações estão contidas na Tabela 21 A distribuição de freqüências é representada por uma tabela de dupla entrada e está na Tabela 42 Cada elemento do corpo da tabela dá a freqüência observada das realizações si multâneas de Y e V Assim observamos quatro indivíduos da capital com ensino funda mental sete do interior com ensino médio etc A linha dos totais fornece a distribuição da variável Y ao passo que a coluna dos totais fornece a distribuição da variável V As distribuições assim obtidas são chamadas tecnicamente de distribuições marginais enquanto a Tabela 42 constitui a distribui ção conjunta de Y e V Tabela 42 Distribuição conjunta das freqüências das variáveis grau de instrução Y e região de procedência V Y Ensino Ensino Médio Superior Total V Fundamental Capital 4 5 2 11 Interior 3 7 2 12 Outra 5 6 2 13 Total 12 18 6 36 Fonte Tabela 21 Em vez de trabalharmos com as freqüências absolutas podemos construir tabelas com as freqüências relativas proporções como foi feito no caso unidimensional Mas aqui existem três possibilidades de expressarmos a proporção de cada casela a em relação ao total geral b em relação ao total de cada linha c ou em relação ao total de cada coluna De acordo com o objetivo do problema em estudo uma delas será a mais conveniente CAP04cP65 2192009 1202 70 4 2 V A R I Á V E I S Q U A L I T A T I V A S 71 A Tabela 43 apresenta a distribuição conjunta das freqüências relativas expressas como proporções do total geral Podemos então afirmar que 11 dos empregados vêm da capital e têm o ensino fundamental Os totais nas margens fornecem as distribuições unidimensionais de cada uma das variáveis Por exemplo 31 dos indivíduos vêm da capital 33 do interior e 36 de outras regiões Observe que devido ao problema de aproximação das divisões a distribuição das proporções introduz algumas diferenças não existentes Compare por exemplo as colunas de instrução superior nas Tabelas 42 e 43 A Tabela 44 apresenta a distribuição das proporções em relação ao total das colunas Podemos dizer que entre os empregados com instrução até o ensino fundamental 33 vêm da capital ao passo que entre os empregados com ensino médio 28 vêm da capital Esse tipo de tabela serve para comparar a distribuição da procedência dos indivíduos conforme o grau de instrução Tabela 43 Distribuição conjunta das proporções em porcentagem em relação ao total geral das variáveis Y e V definidas no texto Y Fundamental Médio Superior Total V Capital 11 14 16 131 Interior 18 19 16 133 Outra 14 17 15 136 Total 33 50 17 100 Fonte Tabela 42 Tabela 44 Distribuição conjunta das proporções em porcentagem em relação aos totais de cada coluna das variáveis Y e V definidas no texto Y Fundamental Médio Superior Total V Capital 033 028 033 031 Interior 025 039 033 033 Outra 042 033 034 036 Total 100 100 100 100 Fonte Tabela 42 De modo análogo podemos construir a distribuição das proporções em relação ao total das linhas Aconselhamos o leitor a construir essa tabela A comparação entre as duas variáveis também pode ser feita utilizandose repre sentações gráficas Na Figura 41 apresentamos uma possível representação para os dados da Tabela 44 CAP04cP65 2192009 1202 71 72 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L Figura 41 Distribuição da região de procedência por grau de instrução 1 Usando os dados da Tabela 21 Capítulo 2 a Construa a distribuição de freqüência conjunta para as variáveis grau de instrução e região de procedência b Qual a porcentagem de funcionários que têm o ensino médio c Qual a porcentagem daqueles que têm o ensino médio e são do interior d Dentre os funcionários do interior quantos por cento têm o ensino médio 2 No problema anterior sorteando um funcionário ao acaso entre os 36 a Qual será provavelmente o seu grau de instrução b E sua região de procedência c Qual a probabilidade do sorteado ter nível superior d Sabendo que o sorteado é do interior qual a probabilidade de ele possuir nível superior e Sabendo que o escolhido é da capital qual a probabilidade de ele possuir nível superior 3 Numa pesquisa sobre rotatividade de mãodeobra para uma amostra de 40 pessoas foram observadas duas variáveis número de empregos nos últimos dois anos X e salário mais recente em número de salários mínimos Y Os resultados foram Problemas CAP04cP65 2192009 1202 72 4 3 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S 73 Indivíduo X Y Indivíduo X Y 1 1 6 21 2 4 2 3 2 22 3 2 3 2 4 23 4 1 4 3 1 24 1 5 5 2 4 25 2 4 6 2 1 26 3 2 7 3 3 27 4 1 8 1 5 28 1 5 9 2 2 29 4 4 10 3 2 30 3 3 11 2 5 31 2 2 12 3 2 32 1 1 13 1 6 33 4 1 14 2 6 34 2 6 15 3 2 35 4 2 16 4 2 36 3 1 17 1 5 37 1 4 18 2 5 38 3 2 19 2 1 39 2 3 20 2 1 40 2 5 a Usando a mediana classifique os indivíduos em dois níveis alto e baixo para cada uma das variáveis e construa a distribuição de freqüências conjunta das duas classificações b Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco c Qual a porcentagem das pessoas que ganham pouco d Entre as pessoas com baixa rotatividade qual a porcentagem das que ganham pouco e A informação adicional dada em d mudou muito a porcentagem observada em c O que isso significa 43 Associação entre Variáveis Qualitativas Um dos principais objetivos de se construir uma distribuição conjunta de duas variáveis qualitativas é descrever a associação entre elas isto é queremos conhecer o grau de dependência entre elas de modo que possamos prever melhor o resultado de uma delas quando conhecermos a realização da outra Por exemplo se quisermos estimar qual a renda média de uma família moradora da cidade de São Paulo a informação adicional sobre a classe social a que ela pertence nos permite estimar com maior precisão essa renda pois sabemos que existe uma dependência entre as duas variáveis renda familiar e classe social Ou ainda supo nhamos que uma pessoa seja sorteada ao acaso na população da cidade de São Paulo e devamos adivinhar o sexo dessa pessoa Como a proporção de pessoas de cada sexo CAP04cP65 2192009 1202 73 74 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L é aproximadamente a mesma o resultado desse exercício de adivinhação poderia ser qualquer um dos sexos masculino ou feminino Mas se a mesma pergunta fosse feita e também fosse dito que a pessoa sorteada trabalha na indústria siderúrgica então nossa resposta mais provável seria que a pessoa sorteada é do sexo masculino Ou seja há um grau de dependência grande entre as variáveis sexo e ramo de atividade Vejamos como podemos identificar a associação entre duas variáveis da distribui ção conjunta Exemplo 42 Queremos verificar se existe ou não associação entre o sexo e a carreira escolhida por 200 alunos de Economia e Administração Esses dados estão na Tabela 45 Tabela 45 Distribuição conjunta de alunos segundo o sexo X e o curso escolhido Y X Masculino Feminino Total Y Economia 185 35 120 Administração 155 25 180 Total 140 60 200 Fonte Dados hipotéticos Inicialmente verificamos que fica muito difícil tirar alguma conclusão devido à dife rença entre os totais marginais Devemos pois construir as proporções segundo as linhas ou as colunas para podermos fazer comparações Fixemos os totais das colunas a distribui ção está na Tabela 46 Tabela 46 Distribuição conjunta das proporções em porcentagem de alunos segundo o sexo X e o curso escolhido Y X Masculino Feminino Total Y Economia 061 058 060 Administração 039 042 040 Total 100 100 100 Fonte Tabela 45 A partir dessa tabela podemos observar que independentemente do sexo 60 das pessoas preferem Economia e 40 preferem Administração observe na coluna de total Não havendo dependência entre as variáveis esperaríamos essas mesmas proporções para cada sexo Observando a tabela vemos que as proporções do sexo masculino 61 e 39 e do sexo feminino 58 e 42 são próximas das marginais 60 e 40 Esses resultados parecem indicar não haver dependência entre as duas variáveis para o conjunto de alunos considerado Concluímos então que neste caso as variáveis sexo e escolha do curso parecem ser não associadas CAP04cP65 2192009 1202 74 4 3 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S 75 Vamos considerar agora um problema semelhante mas envolvendo alunos de Física e Ciências Sociais cuja distribuição conjunta está na Tabela 47 Tabela 47 Distribuição conjunta das freqüências e proporções em porcentagem segundo o sexo X e o curso escolhido Y Y X Masculino Feminino Total Física 100 71 20 33 120 600 Ciências Sociais 040 29 40 67 080 400 Total 140 100 60 100 200 100 Fonte Dados hipotéticos Inicialmente convém observar que para economizar espaço resumimos duas tabelas numa única indicando as proporções em relação aos totais das colunas entre parênteses Comparando agora a distribuição das proporções pelos cursos independentemente do sexo coluna de totais com as distribuições diferenciadas por sexo colunas de masculino e feminino observamos uma disparidade bem acentuada nas proporções Parece pois haver maior concentração de homens no curso de Física e de mulheres no de Ciências Sociais Portanto nesse caso as variáveis sexo e curso escolhido parecem ser associadas Quando existe associação entre variáveis sempre é interessante quantificar essa associação e isso será objeto da próxima seção Antes de passarmos a discutir esse aspecto convém observar que teríamos obtido as mesmas conclusões do Exemplo 42 se tivésse mos calculado as proporções mantendo constantes os totais das linhas Problemas 4 Usando os dados do Problema 1 responda a Qual a distribuição das proporções do grau de educação segundo cada uma das regiões de procedência b Baseado no resultado anterior e no Problema 2 você diria que existe dependência entre a região de procedência e o nível de educação do funcionário 5 Usando o Problema 3 verifique se há relações entre as variáveis rotatividade e salário 6 Uma companhia de seguros analisou a freqüência com que 2000 segurados 1000 homens e 1000 mulheres usaram o hospital Os resultados foram Homens Mulheres Usaram o hospital 100 150 Não usaram o hospital 900 850 a Calcule a proporção de homens entre os indivíduos que usaram o hospital b Calcule a proporção de homens entre os indivíduos que não usaram o hospital c O uso do hospital independe do sexo do segurado CAP04cP65 2192009 1202 75 76 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L 44 Medidas de Associação entre Variáveis Qualitativas De modo geral a quantificação do grau de associação entre duas variáveis é feita pelos chamados coeficientes de associação ou correlação Essas são medidas que descrevem por meio de um único número a associação ou dependência entre duas variáveis Para maior facilidade de compreensão esses coeficientes usualmente variam entre 0 e 1 ou entre 1 e 1 e a proximidade de zero indica falta de associação Existem muitas medidas que quantificam a associação entre variáveis qualitativas apresentaremos apenas duas delas o chamado coeficiente de contingência devido a K Pearson e uma modificação desse Exemplo 43 Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional Coletados os dados relevantes obtemos a Tabela 48 Tabela 48 Cooperativas autorizadas a funcionar por tipo e estado junho de 1974 Estado Tipo de Cooperativa Total Consumidor Produtor Escola Outras São Paulo 214 33 237 37 178 12 119 18 1648 100 Paraná 151 17 102 34 126 42 122 71 1301 100 Rio G do Sul 111 18 304 51 139 23 148 81 1602 100 Total 376 24 643 42 343 22 189 12 1551 100 Fonte Sinopse Estatística da Brasil IBGE 1977 A análise da tabela mostra a existência de certa dependência entre as variáveis Caso não houvesse associação esperaríamos que em cada estado tivéssemos 24 de coope rativas de consumidores 42 de cooperativas de produtores 22 de escolas e 12 de outros tipos Então por exemplo o número esperado de cooperativas de consumido res no Estado de São Paulo seria 648 024 157 e no Paraná seria 301 024 73 ver Tabela 49 Tabela 49 Valores esperados na Tabela 48 assumindo a independência entre as duas variáveis Estado Tipo de Cooperativa Total Consumidor Produtor Escola Outras São Paulo 157 24 269 42 143 22 179 12 1648 100 Paraná 173 24 124 42 67 22 137 12 1301 100 Rio G do Sul 146 24 250 42 133 22 173 12 1602 100 Total 376 24 643 42 343 22 189 12 1551 100 Fonte Tabela 48 CAP04cP65 2192009 1202 76 4 4 M E D I D A S D E A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S 77 Tabela 410 Desvios entre observados e esperados Estado Tipo de Cooperativa Consumidor Produtor Escola Outras São Paulo 57 2069 32 381 65 2955 40 2025 Paraná 22 663 22 390 59 5196 15 608 Rio G do Sul 035 839 54 1166 006 027 25 856 Fonte Tabelas 48 e 49 Comparando as duas tabelas podemos verificar as discrepâncias existentes entre os valores observados Tabela 48 e os valores esperados Tabela 49 caso as variáveis não fossem associadas Na Tabela 410 resumimos os desvios valores observados me nos valores esperados Observando essa tabela podemos tirar algumas conclusões i A soma total dos resíduos é nula Isso pode ser verificado facilmente soman dose cada linha ii A casela EscolaSão Paulo é aquela que apresenta o maior desvio da suposição de nãoassociação 65 Nessa casela esperávamos 143 casos A casela Escola Paraná também tem um desvio alto 59 mas o valor esperado é bem menor 67 Portanto se fôssemos considerar os desvios relativos aquele correspon dente ao segundo caso seria bem maior Uma maneira de observar esse fato é construir para cada casela a medida oi ei2 41 ei no qual oi é o valor observado e ei é o valor esperado Usando 41 para a casela EscolaSão Paulo obtemos 652143 2955 e para a casela EscolaParaná obtemos 59267 5196 o que é uma indicação de que o desvio devido a essa última casela é maior do que aquele da primeira Na Tabela 410 indicamos entre parênteses esses valores para todas as caselas Uma medida do afastamento global pode ser dada pela soma de todas as medi das 41 Essa medida é denominada χ 2 quiquadrado de Pearson e no nosso exemplo teríamos χ2 2069 663 856 17176 Um valor grande de χ2 indica associação entre as variáveis o que parece ser o caso Antes de dar uma fórmula geral para essa medida de associação vamos introduzir na Tabela 411 uma notação geral para tabelas de dupla entrada CAP04dP65 9102009 1027 77 Suponha que temos duas variáveis qualitativas X e Y classificadas em r categorias A1 A2 Ar para X e s categorias B1 B2 Bs para Y Na tabela temos nij número de elementos pertencentes à iésima categoria de X e jésima categoria de Y ni sumj1s nij número de elementos da iésima categoria de X nj sumi1r nij número de elementos da jésima categoria de Y n n sumi1r sumj1s nij número total de elementos Sob a hipótese de que as variáveis X e Y não sejam associadas comumente dizemos independentes temos que fracn11n1 fracn12n2 fracnisns i 1 2 r ou ainda fracnijnj fracnin i 1 r j 1 s de onde se deduz finalmente que nij fracni njn i 1 r j 1 s Portanto sob a hipótese de independência podemos escrever 43 segue que em termos de frequências relativas podemos escrever fij fifj Chamando de frequências esperadas os valores dados pelos segundos membros de 43 e denotandoas por nij temos que o quiquadrado de Pearson pode ser escrito chi2 sumi1r sumj1s fracnij nij2nij onde nij são os valores efetivamente observados Se a hipótese de nãoassociação for verdadeira o valor calculado de 44 deve estar próximo de zero Se as variáveis forem associadas o valor de chi2 deve ser grande Podemos escrever a fórmula 44 em termos de frequências relativas como chi2 n sumi1r sumj1s fracfij fij2fij para a qual as notações são similares Pearson definiu uma medida de associação baseada em 44 chamada coeficiente de contingência dado por C sqrtfracchi2chi2 n Contudo o coeficiente acima não varia entre 0 e 1 O valor máximo de C depende de r e s Para evitar esse inconveniente costumase definir um outro coeficiente dado por T fracchi2lnr1s1 que atinge o máximo igual a 1 se r s Para o Exemplo 43 temos que C 032 e T 014 Voltaremos a falar do uso do chi2 no Capítulo 14 Problemas 7 Usando os dados do Problema 1 calcule o valor de chi2 e o coeficiente de contingência C Esses valores estão de acordo com as conclusões obtidas anteriormente 8 Qual o valor de chi2 e de C para os dados do Problema 3 E para o Problema 6 Calcule T 9 A Companhia A de dedetização afirma que o processo por ela utilizado garante um efeito mais prolongado do que aquele obtido por seus concorrentes mais diretos Uma amostra de vários ambientes dedetizados foi colhida e anotouse a duração do efeito de dedetização Os resultados estão na tabela abaixo Você acha que existe alguma evidência a favor ou contra a afirmação feita pela Companhia A Companhia Menos de 4 meses De 4 a 8 meses Mais de 8 meses A 64 120 16 B 104 175 21 C 27 48 5 80 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L 45 Associação entre Variáveis Quantitativas Quando as variáveis envolvidas são ambas do tipo quantitativo podese usar o mesmo tipo de análise apresentado nas seções anteriores e exemplificado com variáveis qualitativas De modo análogo a distribuição conjunta pode ser resumi da em tabelas de dupla entrada e por meio das distribuições marginais é possível estudar a associação das variáveis Algumas vezes para evitar um grande número de entradas agrupamos os dados marginais em intervalos de classes de modo semelhante ao resumo feito no caso unidimensional Mas além desse tipo de aná lise as variáveis quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas ou entre dois conjuntos de dados é o gráfico de dispersão que vamos introduzir por meio de exemplos Exemplo 44 Na Figura 42 temos o gráfico de dispersão das variáveis X e Y da Tabela 412 Nesse tipo de gráfico temos os possíveis pares de valores x y na ordem que aparecem Para o exemplo vemos que parece haver uma associação entre as variáveis porque no conjunto à medida que aumenta o tempo de serviço aumenta o número de clientes Tabela 412 Número de anos de serviço X por número de clientes Y de agentes de uma companhia de seguros Agente Anos de serviço Número de clientes X Y A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 100 72 Fonte Dados hipotéticos CAP04cP65 2192009 1202 80 4 5 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A N T I T A T I V A S 81 Figura 42 Gráfico de dispersão para as variáveis X anos de serviço e Y número de clientes Exemplo 45 Consideremos os dados das variáveis X população urbana e Y população rural do CDBrasil O gráfico de dispersão está na Figura 43 Vemos que parece não haver associação entre as variáveis pois os pontos não apresentam nenhuma tendência particular Figura 43 Gráfico de dispersão para as variáveis X população urbana e Y população rural Exemplo 46 Consideremos agora as duas situações abaixo e os respectivos gráficos de dispersão Tabela 413 Renda bruta mensal X e porcentagem da renda gasta em saúde Y para um conjunto de famílias Família X Y A 12 72 B 16 74 C 18 70 D 20 65 E 28 66 F 30 67 G 40 60 H 48 56 I 50 60 J 54 55 Fonte Dados hipotéticos CAP04cP65 2192009 1202 81 82 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L a Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salá rios mínimos mediramse X renda bruta mensal expressa em número de salários mínimos Y a porcentagem da renda bruta anual gasta com assistência médica os dados estão na Tabela 413 Observando o gráfico de dispersão Figura 44 vemos que existe uma associação inversa isto é aumentando a renda bruta diminui a porcentagem sobre ela gasta em assistência médica Figura 44 Gráfico de dispersão para as variáveis X renda bruta e Y renda gasta com saúde Antes de passarmos ao exemplo seguinte convém observar que a disposição dos dados da Tabela 413 numa tabela de dupla entrada não iria melhorar a compreen são dos dados visto que devido ao pequeno número de observações teríamos caselas cheias apenas na diagonal b Oito indivíduos foram submetidos a um teste sobre conhecimento de língua es trangeira e em seguida mediuse o tempo gasto para cada um aprender a operar uma determinada máquina As variáveis medidas foram Xresultado obtido no teste máximo 100 pontos Y tempo em minutos necessário para operar a máquina satisfatoriamente Figura 45 Gráfico de dispersão para as variáveis X resultado no teste e Y tempo de operação CAP04cP65 2192009 1202 82 4 5 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A N T I T A T I V A S 83 Tabela 414 Resultado de um teste X e tempo de ope ração de máquina Y para oito indivíduos Indivíduo X Y A 45 343 B 52 368 C 61 355 D 70 334 E 74 337 F 76 381 G 80 345 H 90 375 Fonte Dados hipotéticos Os dados estão na Tabela 414 Do gráfico de dispersão Figura 45 concluímos que parece não haver associação entre as duas variáveis pois conhecer o resultado do teste não ajuda a prever o tempo gasto para aprender a operar a máquina A partir dos gráficos apresentados verificamos que a representação gráfica das variáveis quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à existência ou não de associação entre elas Contudo é muito útil quantificar esta associação Existem muitos tipos de associações possíveis e aqui iremos apresentar o tipo de relação mais simples que é a linear Isto é iremos definir uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão aproximase de uma reta Esta medida será definida de modo a variar num intervalo finito especificamente de 1 a 1 Consideremos um gráfico de dispersão como o da Figura 46 a no qual por meio de uma transformação conveniente a origem foi colocada no centro da nuvem de dispersão Aqueles dados possuem uma associação linear direta ou positiva e notamos que a grande maioria dos pontos está situada no primeiro e terceiro quadrantes Nesses quadrantes as coordenadas dos pontos têm o mesmo sinal e portanto o produto delas será sempre positivo Somandose o produto das coordenadas dos pontos o resultado será um número posi tivo pois existem mais produtos positivos do que negativos Figura 46 Tipos de associações entre duas variáveis Para a dispersão da Figura 46 b observamos uma dependência linear inversa ou negativa e procedendose como anteriormente a soma dos produtos das coorde nadas será negativa CAP04cP65 2192009 1202 83 84 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L Finalmente para a Figura 46 c a soma dos produtos das coordenadas será zero pois cada resultado positivo tem um resultado negativo simétrico anulandose na soma Nesse caso não há associação linear entre as duas variáveis Em casos semelhantes quando a distribuição dos pontos for mais ou menos circular a soma dos produtos será aproximadamente zero Baseandose nesses fatos é que iremos definir o coeficiente de correlação linear entre duas variáveis que é uma medida do grau de associação entre elas e também da proximidade dos dados a uma reta Antes cabe uma observação A soma dos produtos das coordenadas depende e muito do número de pontos Considere o caso de associação positiva a soma acima tende a aumentar com o número de pares x y e ficaria difícil comparar essa medida para dois conjuntos com números diferentes de pontos Por isso costumase usar a média da soma dos produtos das coordenadas Exemplo 47 Voltemos aos dados da Tabela 412 O primeiro problema que devemos resolver é o da mudança da origem do sistema para o centro da nuvem de dispersão Um ponto conveniente é xy ou seja as coordenadas da origem serão as médias dos valores de X e Y As novas coordenadas estão mostradas na quarta e quinta colunas da Tabela 415 Observando esses valores centrados verificamos que ainda existe um problema quanto à escala usada A variável Y tem variabilidade muito maior do que X e o produto ficaria muito mais afetado pelos resultados de Y do que pelos de X Para corrigirmos isso podemos reduzir as duas variáveis a uma mesma escala dividindose os desvios pelos respectivos desvios padrões Esses novos valores estão nas colunas 6 e 7 Observe as mudanças escalas dos eixos de variáveis realizadas acompanhando a Figura 47 Finalmente na coluna 8 indica mos os produtos das coordenadas reduzidas e sua soma 8769 que como esperávamos é positiva Para completar a definição dessa medida de associação basta calcular a média dos produtos das coordenadas reduzidas isto é correlação XY 876910 0877 Tabela 415 Cálculo do coeficiente de correlação Agente Anos Clientes x x y y x x zx y y zy zx zy x y dpx dpy A 2 48 37 85 154 105 1617 B 3 50 27 65 112 080 0846 C 4 56 17 05 071 006 0043 D 5 52 07 45 029 055 0160 E 4 43 17 135 071 166 1179 F 6 60 03 35 012 043 0052 G 7 62 13 55 054 068 0367 H 8 58 23 15 095 019 0181 I 8 64 23 75 095 092 0874 J 10 72 43 155 178 191 3400 Total 57 565 0 0 8769 x 57 dpX 241 y 565 dpY 811 CAP04cP65 2192009 1202 84 Portanto para esse exemplo o grau de associação linear está quantificado por 877 86 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L Para analisar dois conjuntos de dados podemos recorrer também aos métodos utilizados anteriormente para analisar um conjunto de dados exibindo as análises feitas separadamente para efeito de comparação Por exemplo podemos exibir os desenhos esquemáticos ou os ramosefolhas para os dois conjuntos de observações 46 Associação entre Variáveis Qualitativas e Quantitativas Como mencionado na introdução deste capítulo é comum nessas situações anali sar o que acontece com a variável quantitativa dentro de cada categoria da variável qualitativa Essa análise pode ser conduzida por meio de medidasresumo histogramas box plots ou ramoefolhas Vamos ilustrar com um exemplo Exemplo 48 Retomemos os dados da Tabela 21 para os quais desejamos analisar agora o comportamento dos salários dentro de cada categoria de grau de instrução ou seja investigar o comportamento conjunto das variáveis S e Y Tabela 416 Medidasresumo para a variável salário segundo o grau de instrução na Companhia MB Grau de n s dpS varS s1 q1 q2 q3 sn instrução Fundamental 12 1784 279 1777 1400 1601 1713 1916 1365 Médio 18 1154 362 1310 1573 1884 1091 1448 1940 Superior 6 1648 411 1689 1053 1365 1674 1838 2330 Todos 36 1112 452 2046 1400 1755 1017 1406 2330 Comecemos a análise construindo a Tabela 416 que contém medidasresumo da variável S para cada categoria de Y A seguir na Figura 48 apresentamos uma visualização gráfica por meio de box plots Figura 48 Box plots de salário segundo grau de instrução CAP04cP65 2192009 1202 86 4 6 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S E Q U A N T I T A T I V A S 87 A leitura desses resultados sugere uma dependência dos salários em relação ao grau de instrução o salário aumenta conforme aumenta o nível de educação do indivíduo O salário médio de um funcionário é 1112 salários mínimos já para um funcionário com curso superior o salário médio passa a ser 1648 enquanto funcionários com o ensino fundamental completo recebem em média 784 Na Tabela 417 e Figura 49 temos os resultados da análise dos salários em função da região de procedência V que mostram a inexistência de uma relação melhor definida entre essas duas variáveis Ou ainda os salários estão mais relacionados com o grau de instrução do que com a região de procedência Tabela 417 Medidasresumo para a variável salário segundo a região de procedência na Com panhia MB Região de n s dpS varS s1 q1 q2 q3 sn procedência Capital 11 1146 522 2727 456 749 1977 1663 1940 Interior 12 1155 507 2571 400 781 1064 1470 2330 Outra 13 1045 302 1913 573 874 1980 1279 1622 Todos 36 1112 452 2046 400 755 1017 1406 2330 Figura 49 Box plots de salário segundo região de procedência Como nos casos anteriores é conveniente poder contar com uma medida que quantifique o grau de dependência entre as variáveis Com esse intuito convém observar que as variâncias podem ser usadas como insumos para construir essa medida Sem usar a informação da variável categorizada a variância calculada para a variável quantitativa para todos os dados mede a dispersão dos dados globalmente Se a variância dentro de cada categoria for peque na e menor do que a global significa que a variável qualitativa melhora a capacidade de previsão da quantitativa e portanto existe uma relação entre as duas variáveis Observe que para as variáveis S e Y as variâncias de S dentro das três categorias são menores do que a global Já para as variáveis S e V temos duas variâncias de S maiores e uma menor do que a global o que corrobora a afirmação acima CAP04cP65 2192009 1202 87 Necessitase então de uma medidaresumo da variância entre as categorias da variável qualitativa Vamos usar a média das variâncias porém ponderada pelo número de observações em cada categoria ou seja 4 6 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S E Q U A N T I T A T I V A S 89 Problemas 10 Para cada par de variáveis abaixo esboce o diagrama de dispersão Diga se você espera uma dependência linear e nos casos afirmativos avalie o coeficiente de correlação a Peso e altura dos alunos do primeiro ano de um curso de Administração b Peso e altura dos funcionários de um escritório c Quantidade de trigo produzida e quantidade de água recebida por canteiros numa estação experimental d Notas de Cálculo e Estatística de uma classe onde as duas disciplinas são lecionadas e Acuidade visual e idade de um grupo de pessoas f Renda familiar e porcentagem dela gasta em alimentação g Número de peças montadas e resultado de um teste de inglês por operário 11 Abaixo estão os dados referentes à porcentagem da população economicamente ativa empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras Regiões metropolitanas Setor primário Índice de analfabetismo São Paulo 20 175 Rio de Janeiro 25 185 Belém 29 195 Belo Horizonte 33 222 Salvador 41 265 Porto Alegre 43 166 Recife 70 366 Fortaleza 1300 384 Fonte Indicadores Sociais para Áreas Urbanas IBGE 1977 a Faça o diagrama de dispersão b Você acha que existe uma dependência linear entre as duas variáveis c Calcule o coeficiente de correlação d Existe alguma região com comportamento diferente das demais Se existe elimine o valor correspondente e recalcule o coeficiente de correlação 12 Usando os dados do Problema 3 a Construa a tabela de freqüências conjuntas para as variáveis X número de empregos nos dois últimos anos e Y salário mais recente b Como poderia ser feito o gráfico de dispersão desses dados c Calcule o coeficiente de correlação Baseado nesse número você diria que existe dependência entre as duas variáveis CAP04cP65 2192009 1202 89 90 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L 13 Quer se verificar a relação entre o tempo de reação e o número de alternativas apresen tadas a indivíduos acostumados a tomadas de decisão Planejouse um experimento em que se pedia ao participante para classificar objetos segundo um critério previamente discutido Participaram do experimento 15 executivos divididos aleatoriamente em grupos de cinco Pediuse então a cada grupo para classificar dois três e quatro objetos respectivamente Os dados estão abaixo No de objetos 2 3 4 Tempo de reação 1 2 3 3 4 2 3 4 4 5 4 5 5 6 7 a Faça o gráfico de dispersão das duas variáveis b Qual o coeficiente de correlação entre elas 14 Calcule o grau de associação entre as variáveis estado civil e idade na Tabela 21 15 Usando os dados do Problema 9 do Capítulo 2 calcule o grau de associação entre seção e notas em Estatística 47 Gráficos q q Outro tipo de representação gráfica que podemos utilizar para duas variáveis é o gráfico quantis quantis que passamos a discutir Suponha que temos valores x1 xn da variável X e valores y1 ym da variável Y todos medidos pela mesma unidade Por exemplo temos temperaturas de duas cida des ou alturas de dois grupos de indivíduos etc O gráfico q q é um gráfico dos quantis de X contra os quantis de Y Pelo que vimos no Capítulo 3 se m n o gráfico q q é um gráfico dos dados ordenados de X contra os dados ordenados de Y Se as distribuições dos dois conjuntos de dados fossem idênticas os pontos estariam sobre a reta y x Enquanto um gráfico de dispersão fornece uma possível relação global entre as variá veis o gráfico q q mostra se valores pequenos de X estão relacionados com valores pequenos de Y se valores intermediários de X estão relacionados com valores intermediá rios de Y e se valores grandes de X estão relacionados com valores grandes de Y Num gráfico de dispersão podemos ter x1 x2 e y1 y2 o que não pode acontecer num gráfico q q pois os valores em ambos os eixos estão ordenados do menor para o maior Exemplo 410 Na Tabela 418 temos as notas de 20 alunos em duas provas de Estatística e na Figura 410 temos o correspondente gráfico q q Os pontos estão razoavelmente dispersos ao redor da reta x y mostrando que as notas dos alunos nas duas provas não são muito diferentes Mas podemos notar que para notas abaixo de cinco os alunos tiveram notas maiores na segunda prova ao passo que para notas de cinco a oito os alunos tiveram notas melhores na primeira prova A maioria das notas estão concentradas entre cinco e oito CAP04cP65 2192009 1202 90 4 7 G R Á F I C O S q q 91 Figura 410 Gráfico q q para as notas em duas provas de Estatística Tabela 418 Notas de 20 alunos em duas provas de Estatística Aluno Prova 1 Prova 2 Aluno Prova 1 Prova 2 1 85 80 11 74 65 2 35 28 12 56 50 3 72 65 13 63 65 4 55 62 14 30 30 5 95 90 15 81 90 6 70 75 16 38 40 7 48 52 17 68 55 8 66 72 18 100 100 9 25 40 19 45 55 10 70 68 20 59 50 Exemplo 411 Consideremos agora as variáveis temperatura de Ubatuba e temperatura de Cananéia do CDTemperaturas O gráfico q q está na Figura 411 Observamos que a maioria dos pontos está acima da reta y x mostrando que as temperaturas de Ubatuba são em geral maiores do que as de Cananéia para valores maiores do que 17 graus Quando m n é necessário modificar os valores de p para os quantis da variável com maior número de pontos Ver o Problema 33 para a solução desse caso Figura 411 Gráfico q q para os lados de tem peratura de Cananéia e Ubatuba CAP04cP65 2192009 1202 91 92 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L 16 Faça o gráfico q q para as notas em Redação e Economia dos 25 funcionários da MB Indústria e Comércio Problema 9 do Capítulo 2 17 Faça o gráfico q q para as variáveis salário de professor secundário e salário de administrador do CDSalários Comente 48 Exemplos Computacionais Vamos considerar brevemente nesta seção o caso de mais de dois conjuntos de dados Exemplos são os dados sobre o Brasil de poluição e estatísticas sobre veículos en contrados nos Conjuntos de Dados Veremos também um exemplo de cálculo do coeficiente de correlação para dados reais da Bolsa de Valores de São Paulo Vejamos um exemplo em que temos duas variáveis quantitativas e uma qualitativa Exemplo 412 Considere as variáveis salário idade e grau de instrução da Tabela 21 Separamos agora os salários e idades por classe de grau de instrução Depois podemos fazer gráficos de dispersão como na Figura 412 Figura 412 Gráficos de dispersão das variáveis salário e idade segundo a variável grau de instrução Notamos que para o ensino fundamental e grau superior os salários aumentam em geral com a idade ao passo que para o ensino médio essa relação não se verifica haven do salários baixos e altos numa faixa entre 350 e 450 meses Exemplo 413 Considere o CDMercado no qual temos os preços de fechamento diários de ações da Telebrás X e os índices IBOVESPA Y de 2 de janeiro a 24 de fevereiro de 1995 num total de n 39 observações O gráfico de dispersão está na Figura 413 que mostra que os pares de valores estão dispostos ao longo de uma reta com inclinação positiva Ou seja esse gráfico mostra que há uma forte correlação entre o preço das ações da Telebrás e o índice da Bolsa de Valores de São Paulo No gráfico está represen tada a reta de mínimos quadrados No Capítulo 16 veremos como determinála Problemas CAP04cP65 2192009 1202 92 4 8 E X E M P L O S C O M P U T A C I O N A I S 93 Figura 413 Gráfico de dispersão para ações da Telebrás e BOVESPA Utilizando 49 obtemos que corrXY 4021378 3927993628 098 3113593 39279925199968 3936282 o que mostra a forte associação linear entre X e Y Finalizamos esta seção com um tipo de gráfico que também é útil quando temos duas variáveis quantitativas e uma qualitativa Exemplo 414 Considere o CDVeículos no qual temos o preço o comprimento e a capacidade do motor de veículos vendidos no Brasil classificados em duas categorias N nacionais e I importados Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos indicando por um x se o carro for N e por um se for I Veja a Figura 414 Observamos pela figura que os preços dos veículos importados são em geral maiores do que os nacionais e que o preço aumenta com o comprimento Figura 414 Gráfico de dispersão simbólico das variáveis preço e comprimento de veículos categorizadas pela variável procedência nacional x e importado o CAP04cP65 2192009 1202 93 94 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L 49 Problemas e Complementos 18 No estudo de uma certa comunidade verificouse que I A proporção de indivíduos solteiros é de 04 II A proporção de indivíduos que recebem até 10 salários mínimos é de 02 III A proporção de indivíduos que recebem até 20 salários mínimos é de 07 IV A proporção de indivíduos casados entre os que recebem mais de 20 salários míni mos é de 07 V A proporção de indivíduos que recebem até 10 salários mínimos entre os solteiros é de 03 a Construa a distribuição conjunta das variáveis estado civil e faixa salarial e as respec tivas distribuições marginais b Você diria que existe relação entre as duas variáveis consideradas 19 Uma amostra de 200 habitantes de uma cidade foi escolhida para declarar sua opinião sobre um certo projeto governamental O resultado foi o seguinte Opinião Local de residência Total Urbano Suburbano Rural A favor 30 35 35 100 Contra 60 25 15 100 Total 90 60 50 200 a Calcule as proporções em relação ao total das colunas b Você diria que a opinião independe do local de residência c Encontre uma medida de dependência entre as variações 20 Com base na tabela abaixo você concluiria que o tipo de atividade está relacionado ao fato de as embarcações serem de propriedade estatal ou particular Encontre uma medi da de dependência entre as variáveis Propriedade Atividade Total Costeira Fluvial Internacional Estatal 05 141 51 197 Particular 92 231 48 371 Total 97 372 99 568 Fonte Sinopse Estatística do Brasil IBGE 1975 21 Uma pesquisa sobre a participação em atividades esportivas de adultos moradores nas proximidades de centros esportivos construídos pelo estado de São Paulo mostrou os resultados da tabela abaixo Baseado nesses resultados você diria que a participação em atividades esportivas depende da cidade Participam Cidade São Paulo Campinas Rib Preto Santos Sim 050 065 105 120 Não 150 185 195 180 CAP04cP65 2192009 1202 94 Uma pesquisa para verificar a tendência dos alunos a prosseguir os estudos segundo a classe social do respondente mostrou o seguinte quadro Usando os dados da Tabela 21 Capítulo 2 a Construa a tabela de distribuições de frequências conjunta para as variáveis salário e idade mas divida cada uma delas num certo número de intervalos de classe b Como poderia ser calculado o coeficiente de correlação baseado nessa tabela c Você conseguiria escrever a fórmula de correlação para dados agrupados Lançamse simultaneamente uma moeda de um real e uma de um quarto de dólar Em cada tentativa anotouse o resultado cujos dados estão resumidos na tabela abaixo a Esses dados sugerem que os resultados da moeda de um real e as de um quarto de dólar estão associados b Atribua para ocorrência cara o valor 0 e para a ocorrência de coroa o valor 1 Chamando de X1 o resultado do real e de X2 o resultado do quarto de dólar calcule a correlação entre X1 e X2 Essa medida está de acordo com a resposta que você deu anteriormente 98 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L d Os vendedores argumentam com o diretor que esse critério não é justo pois há zonas de venda privilegiadas A quem você daria razão e Qual das três variáveis observadas na admissão do pessoal é mais importante para julgar um futuro candidato ao emprego f Qual o grau de associabilidade entre o conceito do gerente e a zona a que o vende dor foi designado Você tem explicação para esse resultado g Qual o grau de associação entre o conceito do gerente e o resultado do teste E entre zona e vendas 31 A seção de assistência técnica da Companhia MB tem cinco funcionários A B C D e E cujos tempos de serviço na companhia são respectivamente um três cinco cinco e sete anos a Faça um gráfico representando a distribuição de freqüência dos tempos de serviço X b Calcule a média meX a variância varX e a mediana mdX Duas novas firmas a Verde e a Azul solicitaram o serviço de assistência técnica da Milsa Um mesmo funcionário pode ser designado para atender a ambos os pedidos ou dois funcionários podem fazêlo Assim o par A B significa que o funcionário A atenderá à firma Verde e o funcionário B à firma Azul c Escreva os 25 possíveis pares de funcionários para atender a ambos os pedidos d Para cada par calcule o tempo médio de serviçoX faça a distribuição de freqüência e uma representação gráfica Compare com o resultado de a e Calcule para os 25 valores deX os parâmetros meX varX e mdX Compare com os resultados obtidos em b Que tipo de conclusão você poderia tirar f Para cada par obtido em c calcule a variância do par e indiquea por S2 Faça a representação gráfica da distribuição dos valores de S2 g Calcule meS2 e varS2 h Indicando por X1 a variável que expressa o tempo de serviço do funcionário que irá atender à firma Verde e X2 o que irá atender à firma Azul faça a distribuição conjunta da variável bidimensional X1 X2 i As duas variáveis X1 e X2 são independentes j O que você pode falar sobre as distribuições marginais de X1 e X2 l Suponha agora que três firmas solicitem o serviço de assistência técnica Quantas triplas podem ser formadas m Sem calcular todas as possibilidades como você acha que ficaria o histograma deX E meX e varX n E sobre a variável S2 o A variável tridimensional X1 X2 X3 teria alguma propriedade especial para as suas distribuições marginais 32 Refaça o problema anterior admitindo agora que um mesmo funcionário não pode atender a duas firmas CAP04cP65 2192009 1202 98 Gráficos quantis quantis Na seção 45 vimos como construir um gráfico q q quando m n Suponha n m isto é temos um número maior de observações de X Então usamos as observações ordenadas y1 ym e interpolamos um conjunto correspondente de quantis para o conjunto dos x ordenados O valor ordenado yj corresponde a pi 05m Para X queremos um valor j tal que j nmi 05 05 Se j for inteiro fazemos o gráfico de yj versus xj Se j k r onde k é inteiro e 0 r 1 então qi 1 rxk r xk 1 Exemplo Se m 20 e n 40 j 4020i 05 05 2i 05 logo k 2i 1 r 05 e fazemos o gráfico de y1 versus 05x1 05x2 y2 versus 05x3 05x4 etc Parte 2 Parte 2 Capítulo 5 103 Probabilidades Capítulo 6 128 Variáveis Aleatórias Discretas Capítulo 7 163 Variáveis Aleatórias Contínuas Capítulo 8 203 Variáveis Aleatórias Multidimensionais Capítulo 9 235 Noções de Simulação P R O B A B I L I D A D E S cap05ep65 2192009 1317 101 Capítulo 5 Probabilidades 51 Introdução Na primeira parte deste livro vimos que a análise de um conjunto de dados por meio de técnicas numéricas e gráficas permite que tenhamos uma boa ideia da distribuição desse conjunto Em particular a distribuição de frequências é um instrumento importante para avaliarmos a variabilidade das observações de um fenômeno aleatório A partir dessas frequências observadas podemos calcular medidas de posição e variabilidade como média mediana desvio padrão etc Essas frequências e medidas calculadas a partir dos dados são estimativas de quantidades desconhecidas associadas em geral a populações das quais os dados foram extraídos na forma de amostras Em particular as frequências relativas são estimativas de probabilidades de ocorrências de certos eventos de interesse Com suposições adequadas e sem observarmos diretamente o fenômeno aleatório de interesse podemos criar um modelo teórico que reproduza de maneira razoável a distribuição das frequências quando o fenômeno é observado diretamente Tais modelos são chamados modelos probabilísticos e serão objeto de estudo neste capítulo e nos subsequentes Exemplo 51 Queremos estudar as frequências de ocorrências das faces de um dado Um procedimento a adotar seria lançar o dado certo número de vezes n e depois contar o número nₑ de vezes em que ocorre a face i i 1 2 6 As proporções nᵢn determinam a distribuição de frequências do experimento realizado Lançando o dado um número nn n de vezes teríamos outra distribuição de frequências mas com um padrão que esperamos ser muito próximo do anterior O modelo probabilístico pode ser construído por meio de premissas como se segue Primeiro observamos que só podem ocorrer seis faces a segunda consideração que se faz é que o dado seja perfeitamente equilibrado de modo a não favorecer alguma face em particular Com essas suposições cada face deve ocorrer o mesmo número de vezes quando o dado é lançado n vezes e portanto a proporção de ocorrência de cada face deve ser 16 Nessas condições o modelo teórico ou probabilístico para o experimento é dado na Tabela 51 104 C A P Í T U L O 5 P R O B A B I L I D A D E S Tabela 51 Modelo para lançamento de um dado Face 1 2 3 4 5 6 Total Freqüência teórica 16 16 16 16 16 16 1 Exemplo 52 De um grupo de duas mulheres M e três homens H uma pessoa será sorteada para presidir uma reunião Queremos saber as probabilidades de o presidente ser do sexo masculino ou feminino Observamos que i só existem duas possibilida des ou a pessoa sorteada é do sexo masculino H ou é do sexo feminino M ii supondo que o sorteio seja honesto e que cada pessoa tenha igual chance de ser sorteada teremos o modelo probabilístico da Tabela 52 para o experimento Tabela 52 Modelo teórico para o Exemplo 52 Sexo M H Total Freqüência teórica 25 35 1 Dos exemplos acima verificamos que todo experimento ou fenômeno que envolva um elemento casual terá seu modelo probabilístico especificado quando estabelecermos a um espaço amostral Ω que consiste no caso discreto da enumeração finita ou infinita de todos os resultados possíveis do experimento em questão Ω ω1 ω2 ωn os elementos de Ω são os pontos amostrais ou eventos elementares b uma probabilidade Pω para cada ponto amostral de tal sorte que seja possível encontrar a probabilidade PA de qualquer subconjunto A de Ω isto é a proba bilidade do que chamaremos de um evento aleatório ou simplesmente evento Para ilustrar graficamente eventos é costume utilizarse os mesmos diagramas comumente usados na teoria dos conjuntos Veja Morettin et al 2005 Na Figura 51 ilustramos por um quadrado o espaço amostral por círculos os eventos A e B e por pontos os pontos amostrais Figura 51 Espaço amostral e eventos aleatórios cap05ep65 2192009 1317 104 Exemplo 53 Lançamos uma moeda duas vezes Se C indicar cara e R indicar coroa então um espaço amostral será Ω ω₁ ω₂ ω₃ ω₄ onde ω₁ C C ω₂ C R ω₃ R C ω₄ R R É razoável supor que cada ponto ωᵢ tenha probabilidade 14 se a moeda for perfeitamente simétrica e homogênea Se designarmos por A o evento que consiste na obtenção de faces iguais nos dois lançamentos então PA Pω₁ ω₄ 14 14 12 De modo geral se A for qualquer evento de Ω então PA ᵢ Pωᵢ onde a soma é estendida a todos os pontos amostrais ωᵢ A Exemplo 54 Uma fábrica produz determinado artigo Da linha de produção são retirados três artigos e cada um é classificado como bom B ou defeituoso D Um espaço amostral do experimento é Ω BBB BBD BDB DBD DDB DBD DBD DDD Se A designar o evento que consiste em obter dois artigos defeituosos então A DDB BDB DBD BBD Exemplo 55 Considere o experimento que consiste em retirar uma lâmpada de um lote e medir seu tempo de vida antes de se queimar Um espaço amostral conveniente é Ω t ℝ t 0 isto é o conjunto de todos os números reais não negativos Se A indicar o evento o tempo de vida da lâmpada é inferior a 20 horas então A t 0 t 20 Esse é um exemplo de um espaço amostral contínuo contrastado com os anteriores que são discretos Problemas 1 Uma urna contém duas bolas brancas B e três bolas vermelhas V Retirase uma bola ao acaso da urna Se for branca lançase uma moeda se for vermelha ela é devolvida à urna e retirase outra Dê um espaço amostral para o experimento 2 Lance um dado até a face 5 aparecer pela primeira vez Enumere os possíveis resultados desse experimento 3 Três jogadores A B e C disputam um torneio de tênis Inicialmente A joga com B e o vencedor joga com C e assim por diante O torneio termina quando um jogador ganha duas vezes em seguido ou quando são disputadas ao todo quatro partidas Quais são os resultados possíveis do torneio 106 C A P Í T U L O 5 P R O B A B I L I D A D E S 4 Duas moedas são lançadas Dê dois possíveis espaços amostrais para esse experimento Represente um deles como o produto cartesiano de dois outros espaços amostrais ver Morettin et al 1999 para o conceito de produto cartesiano 5 Uma moeda e um dado são lançados Dê um espaço amostral do experimento e depois representeo como produto cartesiano dos dois espaços amostrais correspondente aos experimentos considerados individualmente 6 Defina um espaço amostral para cada um dos seguintes experimentos aleatórios a Lançamento de dois dados anotase a configuração obtida b Numa linha de produção contase o número de peças defeituosas num intervalo de uma hora c Investigamse famílias com três crianças anotandose a configuração segundo o sexo d Numa entrevista telefônica com 250 assinantes anotase se o proprietário tem ou não máquina de secar roupa e Medese a duração de lâmpadas deixandoas acesas até que se queimem f Um fichário com dez nomes contém três nomes de mulheres Selecionase ficha após ficha até o último nome de mulher ser selecionado e anotase o número de fichas selecionadas g Lançase uma moeda até aparecer cara e anotase o número de lançamentos h Um relógio mecânico pode parar a qualquer momento por falha técnica Medese o ângulo em graus que o ponteiro dos segundos forma com o eixo imaginário orien tado do centro ao número 12 i Mesmo enunciado anterior mas supondo que o relógio seja elétrico e portanto seu ponteiro dos segundos movase continuamente j De um grupo de cinco pessoas A B C D E sorteiamse duas uma após outra com reposição e anotase a configuração formada l Mesmo enunciado que j sem reposição m Mesmo enunciado que j mas as duas selecionadas simultaneamente n De cada família entrevistada numa pesquisa anotamse a classe social a que perten ce A B C D e o estado civil do chefe da família 52 Algumas Propriedades Sendo o modelo probabilístico um modelo teórico para as freqüências relativas de suas propriedades podemos obter algumas das propriedades das probabilidades que estudaremos a seguir Como a freqüência relativa é um número entre 0 e 1 temos que 0 PA 1 52 para qualquer evento A Será útil considerar o espaço todo Ω e o conjunto vazio ø como eventos O primeiro é denominado evento certo e o segundo evento impossível e temos PΩ 1 Pø 0 53 cap05ep65 2192009 1317 106 Exemplos 56 Na Tabela 53 temos dados referentes a alunos matriculados em quatro cursos de uma universidade em dado ano Tabela 53 Distribuição de alunos segundo o sexo e escolha de curso Sexo H Mulheres F Total Matemática Pura H 70 40 110 Matemática Aplicada A 15 15 30 Estatística E 10 20 30 Computação C 20 10 30 Total 115 85 200 Vamos indicar por M o evento que ocorre quando escolhendose ao acaso um aluno do conjunto desses quatro cursos ele for um estudante de Matemática Pura A E C H e F têm significados análogos Dessa maneira vemos que PE 30200 ao passo que PH 115200 Dados os eventos A e H podemos considerar dois novos eventos A H chamado a reunião de A e H quando pelo menos um dos eventos ocorrer A H chamado a interseção de A e H quando A e H ocorrerem simultaneamente É fácil ver que PA H 15200 pois o aluno escolhido terá de estar ao mesmo tempo matriculado no curso de Matemática Aplicada e ser homem Vemos que PA 30200 e PH 115200 suponha que nosso cálculo para PA H fosse PA H PA PH 30200 115200 145200 Se assumíssemos estaríamos contando duas vezes os alunos que são homens e estão matriculados no curso de Matemática Aplicada como destacado na Tabela 53 Portanto a resposta correta é PA H PA PH PA H 30200 115200 15200 130200 No entanto considerandose os eventos A e C vemos que PA 30200 PC 30200 e PA C PA PC Nesse caso os eventos A e C são disjuntos ou mutuamente exclusivos pois se A ocorre então C não ocorre e viceversa Aqui A C e PA C 0 Portanto se U e V são dois eventos quaisquer teremos a chamada regra da adição de probabilidades PU V PU PV PU V que se reduz a PU V PU PV se U e V são eventos mutuamente exclusivos Veja o Problema 58 Suponha agora que estejamos somente interessados em saber se um estudante escolhido ao acaso está matriculado como aluno de Matemática Pura Aplicada Estatística ou Computação não interessando saber se é homem ou mulher Seja B M E C Então A B Ω e A B Dizemos que A e B são complementares e PA 30200 PB 110200 30200 30200 170200 isto é PA PB 1 De modo geral vamos indicar por Ac o complementar de um evento qualquer A e teremos então PA PAc 1 56 As operações de reunião interseção e complementação entre eventos possuem propriedades análogas àquelas válidas para operações entre conjuntos Ver Morettin et al 2005 Por exemplo a A Bc Ac Bc e A Ac b A Bc Ac Bc f A Ac Ω g A A A Ω Ω h A B C A B A C Vejamos um exemplo de aplicação das propriedades das probabilidades Exemplo 57 Consideremos agora um experimento aleatório e os eventos A e B associados tais que PA 12 PB 13 e PA B 14 Então temos a PAc 1 PA 1 12 12 PBc 1 PB 1 13 23 b PA B PA PB PA B 12 13 14 712 c PAc B PA Bc 1 PA B 1 712 512 d PAc Bc PA Bc 1 PA B 1 14 34 e Calculemos PAc B isto é a probabilidade de que ocorra B e não ocorra A Podemos escrever B A B Ac B ou seja B pode ocorrer com A ou exclusivo com Ac Logo PB PA B PAc B do que decorre PAc B PB PA B 13 14 112 Consideremos agora uma situação historicamente importante a saber aquela em que temos um espaço amostral finito Ω ω₁ ωn em que todos os pontos têm a mesma probabilidade 1n Se A for um evento contendo m pontos amostrais então PA mn Nesse caso não é necessário explicitar completamente Ω e A bastando calcular m e n chamados respectivamente número de casos favoráveis e número de casos possíveis Portanto são usados os métodos clássicos de contagem da análise combinatória Um princípio fundamental de contagem nos diz que se uma tarefa pode ser executada em duas etapas a primeira podendo ser realizada de p maneiras e a segunda de q maneiras então as duas podem ser realizadas simultaneamente de pq maneiras Esse é o chamado princípio multiplicativo Exemplo 58 Suponha que num lote com 20 peças existam cinco defeituosas Escolhemos quatro peças do lote ao acaso ou seja uma amostra de quatro elementos de modo que a ordem dos elementos seja irrelevante Dessa maneira o número de amostras com quatro elementos que podemos extrair do lote é binom204 ou seja combinações de 20 elementos tomados quatro a quatro Suponha que queiramos calcular a probabilidade de se escolher duas defeituosas na amostra Pelo visto acima binom204 é o número de pontos do espaço amostral Seja A o evento que consiste em escolher duas defeituosas na amostra Seguese que m binom52 cdot binom152 pois podemos escolher na amostra de quatro elementos duas defeituosas e duas nãodefeituosas simultaneamente de binom52 cdot binom152 maneiras usando o princípio multiplicativo Logo PA fracbinom52cdot binom152binom204 0217 Exemplo 59 O jogo da Megasena consiste em escolher 6 dezenas dentre 60 dezenas 01 02 59 60 O jogador pode marcar num cartão de 6 a 15 dezenas Os custos em reais de cada jogo estão relacionados abaixo Temos ao todo binom606 50063860 possibilidades Portanto com um jogo único de R 100 seis dezenas a probabilidade de ganhar o prêmio máximo é 1binom606 ou seja aproximadamente uma chance em 50 milhões Por quê o jogo com 7 dezenas custa R 700 Porque com 7 dezenas podemos formar binom76 7 jogos de 6 dezenas Ou seja fazer um jogo com 7 dezenas ou 7 jogos com 6 dezenas são ações equivalentes em termos de probabilidade de ganhar Do mesmo modo um jogo de 15 dezenas custa R 500500 porque com 15 dezenas podemos formar 15 6 5005 jogos de 6 dezenas Portanto é mais fácil preencher um boleto com 15 dezenas do que 5005 boletos com 6 dezenas já que as probabilidades associadas são iguais 53 Probabilidade Condicional e Independência Voltamos à Tabela 53 do Exemplo 56 Dado que um estudante escolhido ao acaso esteja matriculado no curso de Estatística a probabilidade de que seja mulher é 2030 23 Isso porque do total de 30 alunos que estudam Estatística 20 são mulheres Escrevemos PmulherEstatística 23 Para dois eventos quaisquer A e B sendo PB 0 definimos a probabilidade condicional de A dado B PAB como sendo PAB PA B PB 112 C A P Í T U L O 5 P R O B A B I L I D A D E S Se A indicar o evento bola branca na segunda extração então PA PBB PVB 2 6 2 20 20 5 Tabela 54 Resultados e probabilidades para o experimento do Exemplo 510 Resultados Probabilidades BB 25 14 220 BV 25 34 620 VB 35 24 620 VV 35 24 620 Total 1 Exemplo 511 Imagine agora que as duas extrações são feitas da mesma urna do exemplo anterior mas a primeira bola é reposta na urna antes da extração da segun da Nessas condições as extrações são independentes pois o resultado de uma ex tração não tem influência no resultado da outra Obtemos a situação da Figura 53 e da Tabela 55 Figura 53 Diagrama em árvore para a extração de duas bolas de uma urna com reposição Tabela 55 Resultados e probabilidades para o experimento do Exemplo 511 Resultados Probabilidades BB 25 25 425 BV 25 35 625 VB 35 25 625 VV 35 35 925 Total 1 Observe que aqui Pbranca na 2a branca na 1a 25 Pbranca na 2a cap05ep65 2192009 1317 112 ou seja se indicarmos por A e B os eventos bola branca na segunda extração e bola branca na primeira extração respectivamente então PAB PA Nesse caso dizemos que o evento A independe do evento B e usando 58 temos PA B PA PB É fácil ver que se A independe de B então B independe de A dizemos que A e B são independentes A fórmula 59 pode ser tomada como definição de independência entre dois eventos ou seja A e B são independentes se e somente se 59 for válida De modo geral dados três eventos A B e C temos que PA B C PA PB A PC A B Essa relação pode ser estendida para um número finito qualquer de eventos Veja o Problema 60 Exemplo 513 A teoria da confiabilidade estuda sistemas e seus componentes como por exemplo sistemas mecânicos e eletrônicos um automóvel ou um computador e sistemas biológicos como o corpo humano O objetivo da teoria é estudar as relações entre o funcionamento dos componentes e do sistema A Figura 55 a ilustra um sistema composto de dois componentes ligados em série O sistema da figura funcionará se os componentes 1 e 2 funcionarem simultaneamente Se um dos componentes falhar o sistema também falhará Supondo que os componentes funcionem independentemente e seja pi para a probabilidade do componente i i 12 funcionar então a probabilidade de sistema funcionar será PF PA1 A2 PA1PA2 p1p2 onde indicamos por F o evento o sistema funciona e por Ai o evento o componente i funciona i 1 2 A probabilidade pi é a chamada confiabilidade do componente i e PF hp1 p2 p1p2 a confiabilidade do sistema Se os componentes 1 e 2 estiverem em paralelo como na Figura 55 b então o sistema funcionará se pelo menos um dos componentes funcionar Ou seja PF PA1 A2 PA1 PA2 PA1 A2 p1 p2 p1p2 e a confiabilidade do sistema é hp1 p2 p1 p2 p1p2 Vejamos agora o conceito de independência para três eventos dizemos que os eventos A B e C são independentes se e somente se PA B PA PB PA C PA PC PB C PB PC PA B C PA PB PC Se apenas as três primeiras relações de 511 estiverem satisfeitas dizemos que os eventos A B e C são mutuamente independentes É possível que três eventos sejam mutuamente independentes mas não sejam completamente independentes Veja o Problema 59 A definição pode ser estendida facilmente para um número finito qualquer de eventos Veja o Problema 61 Problemas 15 Considere uma urna contendo três bolas pretas e cinco bolas vermelhas Retire duas bolas da urna sem reposição a Obtenha os resultados possíveis e as respectivas probabilidades b Mesmo problema para extrações com reposição 16 No problema anterior calcule as probabilidades dos eventos a Bola preta na primeira e segunda extrações b Bola preta na segunda extração c Bola vermelha na primeira extração 17 A probabilidade de que A resolva um problema é de 23 e a probabilidade de que B o resolva é de 34 Se ambos tentarem independentemente qual a probabilidade de o problema ser resolvido 18 Um dado é viciado de tal forma que a probabilidade de sair um certo ponto é proporcional ao seu valor por exemplo o ponto 6 é três vezes mais provável de sair do que o ponto 2 Calcular a a probabilidade de sair 5 sabendose que o ponto que saiu é ímpar b a probabilidade de tirar um número par sabendose que saiu um número maior que 3 19 As probabilidades de que dois eventos independentes ocorreram são p e q respectivamente Qual a probabilidade a de que nenhum desses eventos ocorra b de que pelo menos um desses eventos ocorra 20 Na figura ao lado temos um sistema com três componentes funcionando independentemente com confiabilidades p1 p2 e p3 Obtenha a confiabilidade do sistema 21 Na tabela abaixo os números que aparecem são probabilidades relacionadas com a ocorrência de A B A B etc Assim PA 010 enquanto PA B 004 Verifique se A e B são independentes 22 Supondo que todos os componentes do sistema da figura ao lado tenham a mesma confiabilidade p e funcionem independentemente obtenha a confiabilidade do sistema 54 O Teorema de Bayes Uma das relações mais importantes envolvendo probabilidades condicionais é dada pelo Teorema de Bayes A versão mais simples desse teorema é dada pela fórmula 512 PAB PA B PB PA PBA PB Como salientamos na seção anterior temos a probabilidade inicial PA e dada a informação de que B ocorreu ou dada a suposição de que B venha a ocorrer obtemos a probabilidade a posteriori PAB dada por 512 Ou seja atualizamos a probabilidade inicial multiplicandoa por PBA PB Observe que PAB PA se PBA PB A forma geral do Teorema de Bayes será introduzida por um exemplo Exemplo 514 Temos cinco urnas cada uma com seis bolas Das dessas urnas tipo C1 têm 3 bolas brancas das outras tipo C2 têm 2 bolas brancas e a última urna tipo C3 tem 6 bolas brancas Escolhemos uma urna ao acaso e dela retiramos uma bola Qual a probabilidade de a urna escolhida ser do tipo C3 sabendose que a bola sorteada é branca Na Figura 56 temos esboçados o espaço amostral e os eventos de interesse Queremos encontrar PC3B sabendo que PC1 25 PBC1 12 PC2 25 PBC2 13 PC3 15 PBC3 1 Da definição de probabilidade condicional temos PCjB fracPCj cap BPB fracPCjPBCjPB A segunda igualdade é devida à fórmula 58 Precisamos encontrar o valor de PB já que o numerador é conhecido Como C2 e C3 são eventos mutuamente exclusivos e reunidos formam o espaço amostral completo podemos decompor o evento B na reunião de três outros também mutuamente exclusivos como segue ver também a Figura 56 B C1 cap B cup C2 cap B cup C3 cap B e então PB PC1 cap B PC2 cap B PC3 cap B PC1 PBC1 PC2 PBC2 PC3 PBC3 frac25 imes frac12 frac25 imes frac15 imes 1 frac15 imes 1 frac815 Substituindo esse resultado em 513 obtemos PC3B frac15 imes 1815 frac38 Podemos agora generalizar os resultados acima do seguinte modo seja C1 C2 Cn uma partição do espaço amostral Omega isto é Ci cap Cj emptyset sempre que i eq j C1 cup C2 cup cup Cn Omega Considere um evento qualquer A em Omega Supomos conhecidas as probabilidades PCi e PACi i 1 2 n Então temos o seguinte resultado ilustrado pela Figura 57 Partição de um espaço amostral Teorema 51 Bayes A probabilidade de ocorrência do evento Ci supondose a ocorrência do evento A é dada por PCiA fracPCiPACisumj1nPCjPACj para todo i 1 2 n Podemos pensar C1 Cn como um conjunto de hipóteses sendo somente uma delas verdadeira Dado que A ocorreu a probabilidade inicial de Ci PCi é modificada de modo a se obter PCiA dada por 515 Passamos da probabilidade a priori PCi para a probabilidade a posteriori PCiA multiplicando a primeira por fracPACisumj1nPCjPACj Para A fixado as probabilidades PACj em 515 são denominadas verossimilhanças das hipóteses C1 C2 Cn Vemos que PCiA PCj se 516 for maior do que um isto é se PACi PA onde PA é o denominador de 516 Observe que esse denominador é uma média ponderada das PACj e os pesos são as probabilidades PCj que têm soma unitária Como o numerador é sempre uma das parcelas do denominador PA tornase indispensável o uso de um novo índice j na decomposição deste Exemplo 515 Para selecionar seus funcionários uma empresa oferece aos candidatos um curso de treinamento durante uma semana No final do curso eles são submetidos a uma prova e 25 são classificados como bons B 50 como médios M e os restantes 25 como fracos F Para facilitar a seleção a empresa pretende substituir o treinamento por um teste contendo questões referentes a conhecimentos gerais e específicos Para isso gostaria de conhecer qual a probabilidade de um indivíduo aprovado no teste ser considerado fraco caso fizesse o curso Assim neste ano antes do início do curso os candidatos foram submetidos ao teste e receberam o conceito aprovado A ou reprovado R No final do curso obtiveramse as seguintes probabilidades condicionais PAB 080 PAM 050 PAF 020 Queremos encontrar PFA e pelo Teorema de Bayes essa probabilidade é dada por PFA fracPAFPFPABPB PAMPM PAFPF frac020025080025 050050 020025 010 5 4 O T E O R E M A D E B AY E S 119 Então apenas 10 dos aprovados é que seriam classificados como fracos durante o curso De modo análogo podemos encontrar PBA 040 e PMA 050 que pode riam fornecer subsídios para ajudar na decisão de substituir o treinamento pelo teste Um gráfico em árvore pode ajudar bastante na solução de um problema envolven do o Teorema de Bayes Desse modo para o Exemplo 515 teremos a Figura 58 e a Tabela 57 Assim o numerador de PFA está assinalado com um pequeno círculo ao passo que o denominador é a soma das três parcelas assinaladas com asterisco Figura 58 Diagrama em árvore para o Exemplo 515 Tabela 57 Resultados e probabilidades para o Exemplo 515 Resultados Probabilidades BA 025 080 020 BR 025 020 005 MA 050 050 025 MR 050 050 025 FA 025 020 005 FR 025 080 020 O Teorema de Bayes que aparentemente poderia ser encarado como mais um resulta do na teoria de probabilidades tem importância fundamental pois fornece a base para uma abordagem da inferência estatística conhecida como inferência bayesiana Esse pon to será abordado brevemente no Capítulo 11 O Teorema de Bayes fornece um mecanismo formal para atualizar probabilidades como já vimos acima Vejamos mais um exemplo para ilustrar esse ponto Exemplo 516 A administração de um fundo de investimentos em ações pretende divulgar após o encerramento do pregão a probabilidade de queda de um índice da bolsa no dia seguinte baseandose nas informações disponíveis até aquele momento Suponha que a previsão inicial seja de 010 Após encerrado o pregão nova infor mação sugere uma alta do dólar frente ao real A experiência passada indica que cap05ep65 2192009 1317 119 quando houve queda da bolsa no dia seguinte 20 das vezes foram precedidas por esse tipo de notícia enquanto nos dias em que a bolsa esteve em alta apenas em 5 das vezes houve esse tipo de notícia no dia anterior Chamando de E o evento que indica queda da bolsa sua probabilidade a priori é PE 010 enquanto a probabilidade de alta é PEc 090 Se B indicar alta do dólar então as verossimilhanças são dadas por PBE 020 PBEc 005 Logo pelo Teorema de Bayes teremos que PEB PE PBE PEPBE PEcPBEc ou seja PEB 010020 010020 090005 002 0065 4 13 031 Portanto a nova informação aumenta a probabilidade de que haja queda na bolsa de 10 para 31 Suponha agora que horas depois surja nova informação o Banco Central irá reduzir a taxa de juros vigente a partir do dia seguinte Denotandose agora por B1 o evento alta do dólar e por B2 o evento queda na taxa de juros o interesse será saber como essa nova informação B2 afetará a probabilidade calculada PEB1 Seguese que essa é agora a probabilidade a priori para E com respeito a B2 Novamente informações passadas mostram que dado que tenha havido alta do dólar e queda da bolsa 10 das vezes foram precedidas por notícias de queda de juros enquanto dado que tinha havido alta do dólar e alta da bolsa 60 das vezes foram precedidas de queda dos juros Então as verossimilhanças agora serão dadas por PB2E B1 010 PB2Ec B1 060 O Teorema de Bayes fica escrito agora na forma PEB1 B2 PEB1 PB2E B1 PEB1 PB2E B1 PEcB1 PB2Ec B1 do que segue que PEB1 B2 031010 031010 069060 0031 0445 007 Ou seja a informação B2 causa um decréscimo na probabilidade de queda da bolsa vamos testando as lâmpadas uma por uma até encontrar duas defeituosas qual é a probabilidade de que a última defeituosa seja encontrada no quarto teste 5 5 P R O B A B I L I D A D E S S U B J E T I V A S 121 23 Uma companhia produz circuitos em três fábricas I II e III A fábrica I produz 40 dos circuitos enquanto a II e a III produzem 30 cada uma As probabilidades de que um circuito integrado produzido por essas fábricas não funcione são 001 004 e 003 res pectivamente Escolhido um circuito da produção conjunta das três fábricas qual a pro babilidade de o mesmo não funcionar 24 Considere a situação do problema anterior mas suponha agora que um circuito escolhido ao acaso seja defeituoso Determine qual a probabilidade de ele ter sido fabricado por I 25 A urna I contém duas bolas pretas e três brancas ao passo que a urna II contém três bolas pretas e três brancas Escolhemos uma urna ao acaso e dela extraímos uma bola que tem cor branca Se a bola é recolocada na urna qual é a probabilidade de se retirar novamente uma bola branca da mesma urna 55 Probabilidades Subjetivas Na seção 51 vimos como associar probabilidades a eventos Utilizamos um enfoque chamado freqüentista pois se baseia na estabilidade das freqüências relativas e no fato de podermos hipoteticamente repetir um experimento várias vezes Mas é óbvio que nem sempre podemos considerar replicações Suponha que queiramos calcular a proba bilidade de chover no dia 12 de janeiro do próximo ano na cidade de São Paulo Evi dentemente se considerarmos o evento A chover em São Paulo no dia 12 de janeiro do próximo ano ele não pode ser replicado O que poderemos eventualmente considerar é em quantos dias 12 de janeiro de anos anteriores choveu e calcular uma freqüência relativa Se tivermos essa informação ela evidentemente poderá ser usada Mas suponha que uma pessoa morando em Fortaleza tenha de calcular essa probabilidade Se ela não tiver informação sobre o tempo em São Paulo poderá simplesmente dizer que essa pro babilidade é de 12 Por outro lado uma pessoa vivendo em São Paulo terá informações adicionais Por exemplo saberá que normalmente janeiro fevereiro e março são meses com muita chuva Esse morador de São Paulo poderá arriscar uma probabilidade diga mos de 23 para o evento A Vemos portanto que a associação de probabilidades a um evento depende de cada indivíduo de sua informação a respeito desse evento Esse tipo de apreciação é particularmente recomendável quando o indivíduo julga que as replicações anteriores não sejam comparáveis com a próxima Por exemplo o fenômeno El Niño pode ter ocorrido com grande intensidade em janeiro de 1999 provocando muita chuva no sudeste do Brasil e sua intensidade nos anos seguintes talvez seja menor Respostas a questões como essa envolvem o que chamamos de probabilidade sub jetiva Ou seja cada indivíduo baseado em informações anteriores e na sua opinião pessoal a respeito do evento em questão pode ter uma resposta para a probabilidade desse evento A Inferência Bayesiana de que trataremos brevemente neste livro veja o Capítulo 11 toma como uma de suas bases o fato de que todas as probabilidades são subjetivas O Teorema de Bayes tem papel importante nesse tipo de inferência pois passa a ser visto como um mecanismo de atualização de opiniões Ou seja o indivíduo aprende B e passa a ter opinião PAB sobre A Problemas cap05ep65 2192009 1317 121 Um ingrediente básico quando se associam probabilidades é a coerência Se um indivíduo julgar que um evento A é mais provável que seu complementar então ele deverá como que apostando na ocorrência de A associar uma probabilidade maior do que 12 ao evento A Por exemplo se ele julgar que uma proporção 3 1 a favor de A é razoável então ele deverá sugerir PA 34 A fórmula de Bayes fornece uma maneira coerente de atualizar opiniões As probabilidades associadas a eventos de modo subjetivo têm propriedades análogas àquelas vistas em seções anteriores e podem ser obtidas a partir do princípio da coerência Há outras maneiras de se associar probabilidades a eventos e os interessados poderão consultar OHagan 1994 por exemplo para obter mais informações sobre esse assunto e outros ligados à Inferência Bayesiana 56 Problemas e Complementos 26 Um restaurante popular apresenta apenas dois tipos de refeições salada completa ou um prato à base de carne Considere que 20 dos fregueses do sexo masculino preferem a salada 30 das mulheres escolhem carne 75 dos fregueses são homens e os seguintes eventos H freguês é homem A freguês prefere salada M freguês é mulher B freguês prefere carne Calcular a PH PAH PBM b PA H PA H c PMA 5 6 P R O B L E M A S E C O M P L E M E N T O S 123 31 Uma companhia de seguros vendeu apólices a cinco pessoas todas da mesma idade e com boa saúde De acordo com as tábuas atuariais a probabilidade de que uma pessoa daquela idade esteja viva daqui a 30 anos é de 23 Calcular a probabilidade de que daqui a 30 anos a exatamente duas pessoas estejam vivas b todas as pessoas estejam vivas e c pelo menos três pessoas estejam vivas Indique as suposições necessárias para a resolução do problema 32 Num teste com duas marcas que lhe são apresentadas em ordem aleatória um experimentador de vinhos faz três identificações corretas em três tentativas a Qual a probabilidade de isso ocorrer se na realidade ele não possuir habilidade alguma para distinguilos b E se a probabilidade de distinguir corretamente é de 90 em cada tentativa 33 Um grupo de 12 homens e 8 mulheres concorre a três prêmios através de um sorteio sem reposição de seus nomes Qual a probabilidade de a nenhum homem ser sorteado b um prêmio ser ganho por homem c dois homens serem premiados 34 Um empreiteiro apresentou orçamentos separados para a execução da parte elétrica e da parte de encanamento de um edifício Ele acha que a probabilidade de ganhar a concor rência da parte elétrica é de 12 Caso ele ganhe a parte elétrica a chance de ganhar a parte de encanamento é de 34 caso contrário essa probabilidade é de 13 Qual a proba bilidade de ele a ganhar os dois contratos b ganhar apenas um c não ganhar nada 35 Em média 5 dos produtos vendidos por uma loja são devolvidos Qual a probabilidade de que das quatro próximas unidades vendidas desse produto duas sejam devolvidas 36 Três alarmes estão dispostos de tal maneira que qualquer um deles funcionará independente mente quando qualquer coisa indesejável ocorrer Se cada alarme tem probabilidade 09 de trabalhar eficientemente qual é a probabilidade de se ouvir o alarme quando necessário 37 Em uma fábrica de parafusos as máquinas A B e C produzem 25 35 e 40 do total respectivamente Da produção de cada máquina 5 4 e 2 respectivamente são parafusos defeituosos Escolhese ao acaso um parafuso e verificase que é defeituoso Qual a probabilidade de que o parafuso venha da máquina A da B e da C 38 Um fabricante afirma que apenas 5 de todas as válvulas que produz têm duração inferior a 20 horas Uma indústria compra semanalmente um grande lote de válvulas desse fabri cante mas sob a seguinte condição ela aceita o lote se em dez válvulas escolhidas ao acaso no máximo uma tiver duração inferior a 20 horas caso contrário o lote todo é rejeitado cap05ep65 2192009 1317 123 124 C A P Í T U L O 5 P R O B A B I L I D A D E S a Se o fabricante de fato tem razão qual a probabilidade de um lote ser rejeitado b Suponha agora que o fabricante esteja mentindo isto é na verdade a proporção de válvulas com duração inferior a 20 horas é de 10 Qual a probabilidade de um lote ser aceito segundo o critério acima 39 Para estudar o comportamento do mercado automobilístico as marcas foram divididas em três categorias marca F marca W e as demais reunidas como marca X Um estudo sobre o hábito de mudança de marca mostrou o seguinte quadro de probabilidade Proprietário de Probabilidade de mudança para carro da marca W F X W 050 025 025 F 015 070 015 X 030 030 040 A compra do primeiro carro é feita segundo as seguintes probabilidades marca W com 50 marca F com 30 e marca X com 20 a Qual a probabilidade de um indivíduo comprar o terceiro carro da marca W b Se o terceiro carro é da marca W qual a probabilidade de o primeiro também ter sido W 40 A empresa M B tem 15800 empregados classificados de acordo com a tabela abaixo Sexo Homens M Mulheres F Total Idade 25 anos A 2000 800 2800 25 40 anos B 4500 2500 7000 40 anos C 1800 4200 6000 Total 8300 7500 15800 Se um empregado é selecionado ao acaso calcular a probabilidade de ser ele a um empregado com 40 anos de idade ou menos b um empregado com 40 anos de idade ou menos e mulher c um empregado com mais de 40 anos de idade e que seja homem d uma mulher dado que é um empregado com menos de 25 anos 41 Considere o Problema 40 e suponha que escolhamos dois empregados ao acaso com reposição Qual a probabilidade de que a ambos sejam do sexo masculino b o primeiro tenha menos de 25 anos e o segundo seja do sexo masculino e tenha menos de 25 anos c nenhum tenha menos de 25 anos 42 Resolva as questões a e c do Problema 41 supondo que a amostragem é feita sem reposição cap05ep65 2192009 1317 124 Numa empresa existem operadores de determinada categoria com idades iguais a a b e c anos existem pelo menos três com a mesma idade Escolhemse três ao acaso para que façam determinado curso Se indicarmos por x a idade do primeiro y a do segundo e z a do terceiro o termo x y z indica cada possível resultado Enumere a o espaço amostral e b os eventos A x y zx y z B x y zx y Os colégios A B e C têm as seguintes porcentagens de rapazes respectivamente 40 20 e 10 Um desses colégios é selecionado ao acaso e outros são escolhidos com reposição Se o resultado for RRRMMMM R para rapaz e M para moça qual é a probabilidade de ter sido selecionado o colégio C c Calcule a probabilidade do evento B x y x b ou y b onde b é um número tal que 0 b 1 d Calcule PB onde B foi definido em c 59 Há quatro bolas numa urna numeradas 000 011 101 110 Selecione uma bola ao acaso da urna Considere os eventos Ai na bola selecionada o número 1 aparece na posição i i 1 2 3 Seja A A1 A2 A3 a Calcule PAi i 1 2 3 e PA b Mostre que A1 A2 e A3 são mutuamente independentes mas não são independentes 61 Introdução No capítulo anterior introduzimos alguns modelos probabilísticos por meio de espaços amostrais bem simples Isso facilitou bastante a compreensão do conceito de probabilidade e a obtenção de algumas propriedades Mas para atender a situa ções práticas mais gerais necessitamos ampliar esses conceitos para que tenhamos modelos probabilísticos que representem todos os tipos de variáveis definidas no Capítulo 2 Muito do que foi apresentado naquele capítulo para tratamento descritivo das variáveis terá o seu correspondente no modelo teórico Para as variáveis qualitativas a descrição de probabilidades associadas a eventos construída no capítulo precedente adaptase muito bem Dada a sua simplicidade trataremos aqui de variáveis quantitativas discretas Já os modelos para variáveis contínuas necessitarão de um artifício matemático baseado em uma generalização do conceito de histograma definido na seção 23 e esse será o objetivo do próximo capítulo A extensão dos modelos para várias variáveis será tratada no Capítulo 8 Por outro lado quando estudamos a descrição de dados vimos que os recursos disponíveis para a análise das variáveis quantitativas são muito mais ricos do que para as variáveis qualitativas Isso sugere o uso de artifícios para transformar essas últimas variáveis naquelas do primeiro tipo Por exemplo considere o caso de um questionário em que uma pessoa é indagada a respeito de uma proposição e as respostas possíveis são sim ou não Podemos associar ao problema uma variável que toma dois valores 1 ou 0 por exemplo correspondentes às respostas sim ou não respectivamente Esse tipo de variável será estudado neste capítulo O conhecimento de modelos probabilísticos para variáveis quantitativas é muito importante e grande parte do restante deste livro será dedicada à construção desses modelos e inferências sobre seus parâmetros Essas variáveis para as quais iremos construir modelos probabilísticos serão chamadas de variáveis aleatórias va Capítulo 6 Variáveis Aleatórias Discretas CAP06dP65 2192009 1322 128 6 2 O C O N C E I T O D E V A R I Á V E L A L E A T Ó R I A D I S C R E T A 129 62 O Conceito de Variável Aleatória Discreta O conceito de va discreta será introduzido por meio de um exemplo Exemplo 61 Um empresário pretende estabelecer uma firma para montagem de um produto composto de uma esfera e um cilindro As partes são adquiridas em fábricas diferentes A e B e a montagem consistirá em juntar as duas partes e pintálas O produto acabado deve ter o comprimento definido pelo cilindro e a espessura defi nida pela esfera dentro de certos limites e isso só poderá ser verificado após a mon tagem Para estudar a viabilidade de seu empreendimento o empresário quer ter uma idéia da distribuição do lucro por peça montada Sabese que cada componente pode ser classificado como bom longo ou curto conforme sua medida esteja dentro da especificação maior ou menor que a especificada respectivamente Além disso foram obtidos dos fabricantes o preço de cada compo nente 500 e as probabilidades de produção de cada componente com as caracterís ticas bom longo e curto Esses valores estão na Tabela 61 Se o produto final apresentar algum componente com a característica C curto ele será irrecuperável e o conjunto será vendido como sucata ao preço de 500 Cada componente longo poderá ser recuperado a um custo adicional de 500 Se o preço de venda de cada unidade for de 2500 como seria a distribuição de freqüências da variável X lucro por conjunto montado Tabela 61 Distribuição da produção das fábricas A e B de acordo com as medidas das peças produzidas Produto Fábrica A Fábrica B Cilindro Esfera Dentro das especificações bom B 080 070 Maior que as especificações longo L 010 020 Menor que as especificações curto C 010 010 Fonte Retirada das especificações técnicas das fábricas A e B A construção dessa distribuição de freqüências vai depender de certas suposições que faremos sobre o comportamento do sistema considerado Com base nessas suposi ções estaremos trabalhando com um modelo da realidade e a distribuição que obtivermos será uma distribuição teórica tanto mais próxima da distribuição de freqüências real quanto mais fiéis à realidade forem as suposições Primeiramente vejamos a construção do espaço amostral para a montagem dos conjuntos segundo as características de cada componente e suas respectivas probabi lidades Como os componentes vêm de fábricas diferentes vamos supor que a classi ficação dos cilindros e a da esfera segundo suas características sejam eventos inde pendentes Obteremos a configuração da Figura 61 Uma representação do espaço amostral em questão está apresentada na Tabela 62 e foi obtida da Figura 61 CAP06dP65 2192009 1322 129 130 C A P Í T U L O 6 V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S Figura 61 Diagrama em árvore para o Exemplo 61 Tabela 62 Distribuição de probabilidade das possíveis composi ções das montagens Produto Probabilidade Lucro por montagem X BB 056 15 BL 016 10 BC 008 5 LB 007 10 LL 002 5 LC 001 5 CB 007 5 CL 002 5 CC 001 5 Fonte Figura 51 e informações no texto A última coluna da Tabela 62 foi construída com base nas informações sobre pre ços Por exemplo obtendo uma montagem LB cilindro longo e esfera boa do preço de venda 2500 devemos descontar 1000 dos custos dos componentes e 500 para recuperar o cilindro longo Portanto o lucro X desse conjunto será 1000 Verifique os lucros das demais montagens Com os dados da Tabela 62 vemos que X pode assumir um dos seguintes valores 15 se ocorrer o evento A1 BB 10 se ocorrer o evento A2 BL LB 5 se ocorrer o evento A3 LL 5 se ocorrer o evento A4 BC LC CB CL CC Cada um desses eventos tem uma probabilidade associada ou seja PA1 056 PA2 023 PA3 002 PA4 019 o que nos permite escrever a função x p x da Tabela 63 que é um modelo teórico para a distribuição da variável X que o empresário poderá usar para julgar a viabilida de econômica do projeto que ele pretende realizar Aqui x é o valor da va X e px é a probabilidade de X tomar o valor x Voltaremos a esse problema mais adiante CAP06dP65 2192009 1322 130 6 2 O C O N C E I T O D E V A R I Á V E L A L E A T Ó R I A D I S C R E T A 131 Tabela 63 Distribuição da va X x px 15 056 10 023 05 002 5 019 Total 100 A função x p x é chamada função de probabilidade da va X Esquematicamente teremos a situação da Figura 62 Figura 62 Função de probabilidade da va X lucro por montagem É evidente que ao mesmo espaço amostral da Tabela 62 podemos associar outras variáveis aleatórias como veremos a seguir Exemplo 62 Se considerarmos Y como sendo a variável custo de recuperação de cada conjunto produzido verificaremos que Y irá assumir os valores 0 se ocorrer o evento B1 BB BC LC CB CL CC 5 se ocorrer o evento B2 BL LB 10 se ocorrer o evento B3 LL A função de probabilidade da va Y está representada na Tabela 64 e a Figura 63 representa a situação esquematicamente Figura 63 Função de probabilidade da va Y custo de recuperação CAP06dP65 2192009 1322 131 132 C A P Í T U L O 6 V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S Tabela 64 Distribuição da va Y y py 0 075 5 023 10 002 Total 100 Deduzse do exposto que uma va X do tipo discreto estará bem caracterizada se indicarmos os possíveis valores x1 x2 xn que ela pode assumir e as respec tivas probabilidades px1 px2 pxn ou seja se conhecermos a sua função de probabilidade x px Também usaremos a notação px PX x Em algumas situações a determinação da função de probabilidade fp é bem mais simples Isso pode ser verificado pelos dois exemplos seguintes Exemplo 63 Voltemos à situação do Exemplo 510 em que consideramos duas extra ções sem reposição de uma urna contendo duas bolas brancas e três bolas vermelhas Definamos a va X número de bolas vermelhas obtidas nas duas extrações Obtemos a Tabela 65 e a Figura 64 Tabela 65 Extrações sem reposição de urna com duas bolas brancas e três bolas vermelhas Resultados Probabilidades X BB 110 0 BV 310 1 VB 310 1 VV 310 2 Fonte Figura 64 Figura 64 Diagrama em árvore para o Exemplo 63 Vemos pois que a cada resultado do experimento está associado um valor da va X a saber 0 1 ou 2 CAP06dP65 2192009 1322 132 6 2 O C O N C E I T O D E V A R I Á V E L A L E A T Ó R I A D I S C R E T A 133 Temos que X 0 com probabilidade 110 pois X 0 se e somente se ocorre o resultado BB X 1 com probabilidade 310 310 610 pois X 1 se e somente se ocorrem os resultados BV ou VB que são mutuamente exclusivos finalmente X 2 com probabilidade 310 pois X 2 se e somente se ocorre o resultado VV Resumidamente p0 PX 0 PBB 110 p1 PX 1 PBV ou VB 610 p2 PX 2 PVV 310 Na Tabela 66 apresentamos a distribuição de probabilidades da va X Tabela 66 Distribuição de probabilidades da va X número de bolas vermelhas x px 0 110 1 610 2 310 Fonte Tabela 65 Exemplo 64 Retomemos o Exemplo 53 em que consideramos o lançamento de uma moeda duas vezes Definamos a va Y número de caras obtidas nos dois lançamentos Temos então p0 PY 0 PRR 14 p1 PY 1 PCR ou RC 14 14 12 p2 PY 2 PCC 14 Na Tabela 67 e Figura 65 temos esquematizado o que ocorre e na Tabela 68 apresentamos a distribuição de probabilidades de Y Tabela 67 Lançamento de duas moedas Resultados Probabilidades Y CC 14 2 CR 14 1 RC 14 1 RR 14 0 Fonte Figura 65 Figura 65 Diagrama em árvore para o Exemplo 64 CAP06dP65 2192009 1322 133 Tabela 68 Distribuição da va Y número de caras y py 0 14 1 12 2 14 Fonte Tabela 67 Problemas 1 Considere uma urna contendo três bolas vermelhas e cinco pretas Retire três bolas sem reposição e defina a va X igual ao número de bolas pretas Obtenha a distribuição de X 2 Repita o problema anterior mas considerando extrações com reposição 3 Suponha que uma moeda perfeita é lançada até que cara apareça pela primeira vez Seja X o número de lançamentos até isso aconteça Obtenha a distribuição de X Observe que nesse problema pelo menos teoricamente X pode assumir um número infinito de valores Veja também o Problema 55 4 Uma moeda perfeita é lançada quatro vezes Seja Y o número de caras obtidas Calcule a distribuição de Y 5 Repita o problema anterior considerando agora que a moeda é viciada sendo a probabilidade de cara dada por p 0 p 1 p 12 6 Generalize o Problema 5 para n lançamentos da moeda 63 Valor Médio de uma Variável Aleatória Vamos introduzir o conceito de valor médio por meio do seguinte exemplo Exemplo 65 Uma pergunta que logo ocorreria ao empresário do Exemplo 61 é qual o lucro médio por conjunto montado que ele espera conseguir Da Tabela 63 observamos que 56 das montagens devem produzir um lucro de 15 reais 23 um lucro de dez reais e assim por diante Logo o lucro esperado por montagem será dado por lucro médio 05615 02310 0025 0195 985 Isto é caso sejam verdadeiras as suposições feitas para determinar a distribuição de va o empresário espera ter um lucro de 985 reais por conjunto montado Definição Dada a va X discreta assumindo os valores x1 xn chamamos valor médio ou esperança matemática de X ao valor EX i1n xiPXxi 61 A expressão 61 é semelhante àquela utilizada para a média introduzida no Capítulo 3 onde no lugar das probabilidades pi tínhamos as frequências relativas fi A distinção entre essas duas quantidades é que a primeira corresponde a valores de um modelo teórico pressuposto e a segunda a valores observados da variável Como pi e fi têm a mesma interpretação todas as medidas e gráficos discutidos no Capítulo 2 baseados na distribuição das fi possuem um correspondente na distribuição de uma va Além do valor médio ou simplesmente média definido acima podemos considerar também outras medidas de posição e variabilidade como a mediana e o desvio padrão Veja a seção 68 para a definição da mediana de uma va discreta Vamos considerar agora a definição de variância Definição Chamamos de variância da va X o valor VarX i1n xi EX²Pi 62 O desvio padrão de X DPX é definido como a raiz quadrada positiva da variância Exemplo 66 Deixamos a cargo do leitor verificar que no caso do problema do empresário temos i VarX 5723 ii DPX 757 iii gráfico de x px Figura 67 Observação Até agora consideramos o caso em que a va X pode assumir um número finito de valores Mas uma va discreta X pode assumir um número infinito porém enumerável de valores x1 xn com probabilidades P1 Pn tal que cada pi 0 e a soma de todos os pi seja 1 ou seja i1n pi 1 Veja o Problema 3 Nesse caso a definição de esperança deve ser modificada A soma na expressão 61 é uma soma infinita que temos de supor que seja convergente Problemas 7 Obtenha a média e a variância da va X dos Problemas 1 e 2 8 Obter a média e a variância da va Y do Problema 4 64 Algumas Propriedades do Valor Médio Retomemos o Exemplo 61 para ilustrar algumas propriedades da média de uma va Exemplo 67 Suponha que todos os preços determinados pelo empresário do Exemplo 61 estivessem errados Na realidade todos os valores deveriam ser duplicados isto é custos e preços de venda Isso corresponde à transformação Z 2X As probabilidades associadas à va X serão as mesmas da va X pois cada valor de X irá corresponder a um único valor de Z Na Tabela 69 temos a distribuição de Z O valor médio da va Z é obtido por EZ ziPzi 2xipxi 1970 Suponha agora que queremos a distribuição da va W X² Baseados na Tabela 63 obtemos a Tabela 610 Tabela 69 Distribuição da variável aleatória Z 2X x z 2x pz px z pz 15 30 056 1680 10 20 023 460 5 10 002 020 5 10 019 190 Total 100 1970 Tabela 610 Distribuição da variável aleatória W X² w pw w pw 225 056 12600 100 023 2300 25 021 525 Total 100 15425 Observe que o evento W 25 ocorre quando X 5 ou X 5 portanto PW 25 PX 5 PX 5 002 019 021 Seguese que a média de W é EW wpwi 225056 100023 25021 225056 100023 25002 25019 xi²pxi 15425 Quanto às esperanças de Z e W transformadas de X é fácil ver que elas podem ser escritas através da fp de X Fx 0 se x 5 019 se 5 x 5 021 se 5 x 10 044 se 10 x 15 1 se x 15 cujo gráfico está na Figura 68 140 C A P Í T U L O 6 V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S 13 Um vendedor de equipamento pesado pode visitar num dia um ou dois clientes com probabilidade de 13 ou 23 respectivamente De cada contato pode resultar a venda de um equipamento por 5000000 com probabilidade 110 ou nenhuma venda com pro babilidade 910 Indicando por Y o valor total de vendas diárias desse vendedor escreva a função de probabilidade de Y e calcule o valor total esperado de vendas diárias 14 Calcule a variância da va Y definida no Problema 13 15 Obter a fda para a va V do Problema 11 Faça seu gráfico 16 Calcule a fda da va Y do Problema 10 e faça seu gráfico 17 O tempo T em minutos necessário para um operário processar certa peça é uma va com a seguinte distribuição de probabilidade t 2 3 4 5 6 7 pt 01 01 03 02 02 01 a Calcule o tempo médio de processamento Para cada peça processada o operário ganha um fixo de 200 mas se ele processa a peça em menos de seis minutos ganha 050 em cada minuto poupado Por exem plo se ele processa a peça em quatro minutos recebe a quantia adicional de 100 b Encontre a distribuição a média e a variância da va G quantia em ganha por peça 18 Sabese que a va X assume os valores 1 2 e 3 e que sua fda Fx é tal que F1 F1 13 F2 F2 16 F3 F3 12 Obtenha a distribuição de X a fda Fx e os gráficos respectivos 19 Obtenha a fda Ft da va T do Problema 17 66 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas Algumas variáveis aleatórias adaptamse muito bem a uma série de problemas práticos Portanto um estudo pormenorizado dessas variáveis é de grande importân cia para a construção de modelos probabilísticos para situações reais e a conseqüente estimação de seus parâmetros Para algumas dessas distribuições existem tabelas que facilitam o cálculo de probabilidades em função de seus parâmetros Nesta seção iremos estudar alguns desses modelos procurando enfatizar as condições em que eles aparecem suas funções de probabilidade parâmetros e como calcular probabilidades 661 Distribuição Uniforme Discreta Este é o caso mais simples de va discreta em que cada valor possível ocorre com a mesma probabilidade CAP06dP65 2192009 1322 140 Ava discreta X assumindo os valores x₁ xₖ tem distribuição uniforme se e somente se PX xᵢ pxᵢ 1k para todo i 1 2 k É fácil verificar que EX 1k i1k xᵢ 662 Distribuição de Bernoulli Muitos experimentos são tais que os resultados apresentam ou não uma determinação característica Por exemplo 1 uma moeda é lançada o resultado ou é cara ou não ocorrendo então coroa 2 um dado é lançado ou ocorre face 5 ou não ocorrendo então uma das faces 1 2 3 4 ou 6 3 uma peça é escolhida ao acaso de um lote contendo 500 peças essa peça é defeituosa ou não 4 uma pessoa escolhida ao acaso dentro 1000 é ou não do sexo masculino 5 uma pessoa é escolhida ao acaso entre os moradores de uma cidade e verificase se ela é favorável ou não a um projeto municipal Em todos esses casos estamos interessados na ocorrência de sucesso cara face 5 etc ou fracasso coroa face diferente de 5 etc Essa terminologia sucesso e fracasso será usada frequentemente Para cada experimento acima podemos definir uma va X que assume apenas dois valores 1 se ocorrer sucesso e 0 se ocorrer fracasso Indicaremos por p a probabilidade de sucesso isto é Psucesso PS p 0 p 1 Definição A variável aleatória X que assume apenas os valores 0 e 1 com função de probabilidade x px tal que p0 PX 0 1 p p1 PX 1 p é chamada variável aleatória de Bernoulli Então seguese facilmente que EX p 612 VarX p p² p1 p 613 Fx 0 se x 0 1 p se 0 x 1 1 se x 1 Na Figura 610 temos representadas as fp e fda de X Figura 610 Distribuição de Bernoulli a fp b fda Exemplo 611 Vamos supor o caso do experimento 2 Supondo o dado perfeito teremos PX 0 56 PX 1 16 EX 16 VarX 16 56 536 Observação Experimentos que resultam numa va de Bernoulli são chamados ensaios de Bernoulli Usaremos a notação X Berp para indicar uma va com distribuição de Bernoulli com parâmetro p 663 Distribuição Binomial Imagine agora que repetimos um ensaio de Bernoulli n vezes ou de maneira alternativa obtemos uma amostra de tamanho n de uma distribuição de Bernoulli Suponha ainda que as repetições sejam independentes isto é o resultado de um ensaio não tem influência nenhuma no resultado de qualquer outro ensaio Uma amostra particular será constituída de uma sequência de sucessos e fracassos ou alternativamente de uns e zeros Por exemplo repetindo um ensaio de Bernoulli cinco vezes n 5 um particular resultado pode ser FSSFS ou a quintúplica ordenada 0 1 1 0 1 Usando a notação da seção 662 com PS p a probabilidade de tal amostra será 1 ppp1 pp p³1 p² 144 C A P Í T U L O 6 V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S 3 dez peças são extraídas ao acaso com reposição de um lote contendo 500 peças qual é a probabilidade de que todas sejam defeituosas sabendose que 10 das peças do lote são defeituosas 4 cinco pessoas são escolhidas ao acaso entre 1000 qual é a probabilidade de que duas sejam do sexo masculino 5 sabese que 90 das pessoas de uma cidade são favoráveis a um projeto mu nicipal Escolhendose 100 pessoas ao acaso entre os moradores qual é a probabilidade de que pelo menos 80 sejam favoráveis ao projeto Observe que nos casos 4 e 5 o fato de estarmos extraindo indivíduos de um conjunto muito grande implica que podemos supor que as extrações sejam praticamen te independentes Exemplo 612 Consideremos a situação 1 supondo que a moeda seja honesta isto é Psucesso Pcara 12 Indiquemos o sucesso cara por S e fracasso co roa por F Então estamos interessados na probabilidade do evento A SSF SFS FSS ou em termos da notação anterior na probabilidade de A 1 1 0 1 0 1 0 1 1 É claro que PA PSSF PSFS PFSS e devido à independência dos ensaios PSSF 1 1 1 PSFS PFSS 2 2 2 e portanto PA 3 8 Se a probabilidade de sucesso for p 0 p 1 e PF 1 p q então PSSF p p q p2 q PSFS PFSS de modo que PA 3p2q Uma característica interessante dos experimentos considerados é que estamos in teressados apenas no número total de sucessos e não na ordem em que eles ocorrem Podemos construir a Tabela 612 para n 3 lançamentos da moeda com PS p PF 1 p q a partir da Figura 611 CAP06dP65 2192009 1322 144 Obtivemos agora PX k ou seja numa sequência de n ensaios de Bernoulli a probabilidade de obter k sucessos e portanto n k fracassos k 0 1 2 n com PS p PF 1 p q Uma particular sequência é SSSS SFF F onde temos k sucessos seguidos por n k fracassos A probabilidade de tal sequência é pk1 pnk pkqnk devido à independência dos ensaios Mas qualquer sequência com k sucessos e n k fracassos terá a mesma probabilidade 614 Portanto resta saber quantas sequências com a propriedade especificada podemos formar É fácil ver que existem tais sequências de modo que PX k n k pk qnk k 0 1 n 66 ALGUNS MODELOS PROBABILÍSTICOS PARA VARIÁVEIS ALEATÓRIAS DISCRETAS 145 Figura 611 Probabilidades binomiais para n 3 e PS p Tabela 612 Probabilidades binomiais para n 3 e PS p Número de sucessos Probabilidades p 12 0 q3 18 1 3pq2 38 2 3p2q 38 3 p3 18 Fonte Figura 611 Vamos designar por X o número total de sucessos em n ensaios de Bernoulli com probabilidade de sucesso p 0 p 1 Os possíveis valores de X são 0 1 2 n e os pares x px onde px PX x constituem a chamada distribuição binomial Para o exemplo 1 acima n 3 e p 12 obtemos a distribuição dada pela primeira e terceira colunas da Tabela 612 e o gráfico da Figura 612 Figura 612 Gráfico da fp px para n 3 e p 12 CAP06dP65 2192009 1322 145 por tabelas especialmente construídas para diferentes valores de n e p A Tabela I fornece essas probabilidades para valores de n 2 3 19 e alguns valores de p itens e determinamos k Somente para ilustrar suponha que num lote de N 100 peças r 10 sejam defeituosas Escolhendo n 5 peças sem reposição a probabilidade de não se obter peças defeituosas é Exemplo 616 Consideremos aproximar b2 1000 00001 usando 623 Temos que np 01 logo b2 1000 00001 e0101²2 00045 Por exemplo PN 0 0025 e PN 2 0169 Podese ver que PN 19 é muito pequena menor do que 10⁶ Seguese que λ 5 e PN 0 50⁰e⁵0 e⁵ 00067 Se considerarmos ocorrências de eventos em intervalos de tempo de comprimento t no lugar de intervalo unitário de tempo basta ajustar o parâmetro λ na fórmula 624 Vejamos um exemplo a Calcule a proporção média de machos b Calcule para cada valor de X o número de ninhadas que você deve esperar se X b5 p onde p é a proporção média de machos calculada em a 26 Se X tem distribuição binomial com parâmetros n 5 e p 12 faça os gráficos da distribuição de X e da fda Fx 27 Considere agora n 5 e p 14 Obtenha o gráfico da distribuição de X Qual a diferença entre esse gráfico e o correspondente do Problema 26 O que ocasionou a diferença 28 Refaca o Problema 26 com n 6 e p 12 67 O Processo de Poisson No Exemplo 617 acima vimos uma aplicação importante da distribuição de Poisson ao problema da desintegração radioativa Lá tratamos da emissão de partículas alfa em intervalos de 75 segundos Ou seja estamos contando o número de ocorrências de um evento ao longo do tempo Na realidade consideramos o que se chama um processo estocástico Designandose por Nt o número de partículas emitidas no intervalo 0 t obtemos o que se chama de processo de Poisson para todo t 0 Nesta seção iremos partir de algumas suposições que consideramos plausíveis sobre tal processo e mostrar que a distribuição da variável aleatória N para cada t 0 é dada pela fórmula 625 As suposições que iremos admitir como válidas são as seguintes S1 N0 0 ou seja o processo começa no instante zero com probabilidade um PN0 0 1 S2 Os números de eventos em intervalos de tempo disjuntos são va independentes Considere 0 t t s Nt como antes e Nts Nt o número de eventos no intervalo t t s Então estamos supondo que as va Nt e Nts Nt são independentes Dizemos que o processo tem incrementos independentes S3 Considere os intervalos 0 t e s s t de mesmo comprimento t e as va Nt como antes e Mt número de eventos no intervalo s s t Então para todo s 0 as va Nt e Mt têm a mesma distribuição de probabilidades Ou seja a distribuição do número de eventos ocorridos num intervalo depende somente do comprimento do intervalo e não de sua localização Dizemos que o processo tem incrementos estacionários S4 Para h suficientemente pequeno PNh 1 λh com λ 0 constante Ou seja num intervalo pequeno a probabilidade de ocorrência de um evento é proporcional ao comprimento do intervalo S5 Para h como em S4 PNh 2 0 Isso nos diz que a probabilidade de se ter dois ou mais eventos num intervalo suficientemente pequeno é desprezível Considere o intervalo 0 t e o divida em subintervalos de comprimento tn como na Figura 613 Chamemos de Y a va que dá os números de subintervalos com um evento Então Y é uma va com distribuição binomial de parâmetros n número total de subintervalos e p P um evento λtn λtn Para n grande usando a aproximação da seção anterior temos que essa variável pode ser aproximada por uma va com distribuição de Poisson com parâmetro np nλtn λt Note que aqui usamos as suposições S2 cada subintervalo contém um evento independentemente dos demais intervalos e S3 com a mesma probabilidade Pela suposição S5 a probabilidade de que cada subintervalo contenha dois ou mais eventos tende a zero quando n cresce Logo Nt é uma va com distribuição de Poisson com parâmetro λt Uma prova um pouco mais rigorosa usando derivadas pode ser dada Veja Meyer 1965 68 Quantis No Capítulo 3 estudamos os quantis associados a um conjunto de dados Esses podem ser chamados de quantis empíricos pois podemos agora considerar quantis associados à distribuição de uma va discreta os quais poderíamos denominar quantis teóricos Definição O valor Qp satisfeito PX Qp p e PX Qp 1 p 626 para 0 p 1 é chamado o pquantil de X A interpretação do pquantil é similar à que foi dada no caso de um conjunto de dados Qp é o valor tal que a soma das probabilidades dos valores menores do que ele é p Então por que não definilo por meio de FQp PX Qp p onde Fx é a fda de X A resposta será dada acompanhando os exemplos a seguir Para determinados valores de p teremos como antes denominações especiais Por exemplo Q1 Q025 primeiro quartil Q2 Q05 mediana ou segundo quartil Q3 Q075 terceiro quartil Vejamos o caso da mediana Q05 Md Por 626 devemos ter PX Md 05 e PX Md 05 Figura 615 fda da va Y 6 1 0 P R O B L E M A S E C O M P L E M E N T O S 157 Quadro 62 Probabilidades de Poisson geradas pelo Minitab MTB PDF MTB CDF SUBC Poisson 52 SUBC Poisson 52 Probability Density Function Cumulative Distribution Function Poisson with mu 520000 Poisson with mu 520000 x PX x x PX x x PX x x PX x 0 00055 9 00423 0 00055 9 09603 1 00287 10 00220 1 00342 10 09823 2 00746 11 00104 2 01088 11 09927 3 01293 12 00045 3 02381 12 09972 4 01681 13 00018 4 04061 13 09990 5 01748 14 00007 5 05809 14 09997 6 01515 15 00002 6 07324 15 09999 7 01125 16 00001 7 08449 16 10000 8 00731 17 00000 8 09181 Na planilha Excel podem ser usadas funções específicas dentro da categoria Estatís tica Por exemplo para cálculos com a distribuição binomial usar a função DISTRBINOM para a distribuição de Poisson usar a função POISSON 610 Problemas e Complementos 29 Um florista faz estoque de uma flor de curta duração que lhe custa 050 e que ele vende a 150 no primeiro dia em que a flor está na loja Toda flor que não é vendida nesse primeiro dia não serve mais e é jogada fora Seja X a variável aleatória que denota o número de flores que os fregueses compram em um dia casualmente escolhido O florista descobriu que a função de probabilidade de X é dada pela tabela abaixo x 0 1 2 3 px 01 04 03 02 Quantas flores deveria o florista ter em estoque a fim de maximizar a média valor esperado do seu lucro 30 As cinco primeiras repetições de um experimento custam 1000 cada Todas as repetições subseqüentes custam 500 cada Suponha que o experimento seja repetido até que o primeiro sucesso ocorra Se a probabilidade de sucesso de uma repetição é igual a 09 e se as repetições são independentes qual é o custo esperado da operação 31 Na manufatura de certo artigo é sabido que um entre dez dos artigos é defeituoso Qual a probabilidade de que uma amostra casual de tamanho quatro contenha a nenhum defeituoso b exatamente um defeituoso c exatamente dois defeituosos d não mais do que dois defeituosos CAP06dP65 2192009 1322 157 69 Exemplos Computacionais 6 1 0 P R O B L E M A S E C O M P L E M E N T O S 159 No de acidentes por hora No de horas 0 200 1 152 2 60 3 30 4 13 5 9 6 7 7 5 8 4 a Calcule o número médio de acidentes por hora nessa amostra b Se o número de acidentes por hora seguisse uma distribuição de Poisson com média igual à que você calculou qual seria o número esperado de dias com 0 1 2 etc acidentes c Os dados revelam que a suspeita dos operários é verdadeira 37 Determinado tipo de parafuso é vendido em caixas com 1000 peças É uma característica da fabricação produzir 10 com defeito Normalmente cada caixa é vendida por 1350 Um comprador faz a seguinte proposta de cada caixa ele escolhe uma amostra de 20 peças se a caixa não tiver parafusos defeituosos ele paga 2000 um ou dois defeituo sos ele paga 1000 três ou mais defeituosos ele paga 800 Qual alternativa é a mais vantajosa para o fabricante Justifique 38 Uma certa região florestal foi dividida em 109 quadrados para estudar a distribuição de Primula Simenses Selvagem A priori supomos que esse tipo distribuase aleatoriamente na região O quadro abaixo indica o número de quadrados com X Primula Simenses o número médio de plantas por quadrado foi de 22 X plantas No de quadrados por quadrado com X plantas 0 26 1 21 2 23 3 14 4 11 5 4 6 5 7 4 8 1 acima de 8 0 a Se as plantas realmente se distribuem aleatoriamente na região qual a probabilidade de encontrarmos pelo menos duas Primulas b Dê as freqüências esperadas para os valores de X 0 X 1 e X 2 c Apenas comparando os resultados de b com as freqüências observadas qual a conclusão a que você chegaria d Quais as causas que você daria para a conclusão CAP06dP65 2192009 1322 159 Usando programas e planilhas computacionais é possível gerar probabilidades e probabilidades acumuladas para os modelos mais importantes discutidos neste capítulo No sistema abaixo cada componente tem probabilidade p de funcionar Supondo independência de funcionamento dos componentes qual a probabilidade de a o sistema funcionar b o sistema não funcionar c exatamente dois componentes funcionarem d pelo menos cinco componentes funcionarem Prove que bk 1 n p n kp k 11 p bk n p 71 Introdução Neste capítulo iremos estudar modelos probabilísticos para variáveis aleatórias con tínuas ou seja variáveis para as quais os possíveis valores pertencem a um intervalo de números reais A definição dada no capítulo anterior para va discreta deve ser modificada como segue Definição Uma função X definida sobre o espaço amostral Ω e assumindo valores num intervalo de números reais é dita uma variável aleatória contínua No Capítulo 2 vimos alguns exemplos de variáveis contínuas como o salário de indivíduos alturas etc A característica principal de uma va contínua é que sendo resultado de uma mensuração o seu valor pode ser pensado como pertencendo a um intervalo ao redor do valor efetivamente observado Por exemplo quando dizemos que a altura de uma pessoa é 175 cm estamos medindo sua altura usando cm como unidade de medida e portanto o valor observado é na realidade um valor entre 1745 cm e 1755 cm Vejamos um exemplo para motivar a discussão que se segue Exemplo 71 O ponteiro dos segundos de um relógio mecânico pode parar a qualquer instante devido a algum defeito técnico ou término da bateria e vamos indicar por X o ângulo que esse ponteiro forma com o eixo imaginário passando pelo centro do mostrador e pelo número XII conforme mostra a Figura 71 Tabela 71 Distribuição uniforme discreta x 0 6 12 18 348 354 px 160 160 160 160 160 160 Capítulo 7 Variáveis Aleatórias Contínuas cap07bp65 2192009 1330 163 Use o problema anterior para verificar as relações entre a EeX e eEX b Elog X e logEX para X 0 c E1X e 1EX para X 0 pois essa probabilidade sempre será igual a zero Entretanto podemos determinar a probabilidade de que X esteja compreendido entre dois valores quaisquer Podemos construir modelos teóricos para variáveis aleatórias contínuas escolhendo adequadamente as funções densidade de probabilidade Teoricamente qualquer função f que seja não negativa e cuja área total sob a curva seja igual à unidade caracterizará uma va contínua 1 Dada a função fx 2e2x x 0 0 x 0 a Mostre que esta é uma fdp b Calcule a probabilidade de X 10 da variável pertencer ao intervalo limitado pelos dois valores Usando o conceito de integral podemos escrever Pa X b b a fxdx EYn ni1 xi pi ni1 xi fxh que será uma aproximação da esperança EX Para determinar EX com maior precisão podemos aumentar o número de intervalos diminuindo sua amplitude h No limite quando h 0 teremos o valor de EX Definamos pois EX limn EYn limn ni1 xi fxh EX b a x fxdx Exemplo 76 Retomemos o Exemplo 72 Temos Fx 0 se x 0 0x 2dt x2 se 0 x 1 0 2dt 1 se x 1 O gráfico de Fx está na Figura 77 De 79 vemos que 0 Fx 1 para todo x real além disso Fx é nãodecrescente e possui as duas seguintes propriedades i limx Fx 0 ii limx Fx 1 No Exemplo 76 temos efetivamente Fx 0 para x 0 e Fx 1 para x 1 Para va contínuas o seguinte resultado é importante Proposição 71 Para todos os valores de x para os quais Fx é derivável temos Fx dFxdx fx Vamos usar esse resultado no exemplo a seguir Exemplo 77 Suponha que Fx 0 se x 0 1 ex se x 0 seja a fda de uma va X Então fx 0 se x 0 ex se x 0 Na Figura 78 temos os gráficos dessas duas funções Veremos que fx é um caso especial da densidade exponencial a ser estudada na seção 743 Se a e b forem dois números reais quaisquer Pa X b Fb Fa Esse resultado não será afetado se incluirmos ou não os extremos a e b na desigualdade entre parênteses Problemas 5 Calcule a esperança a variância e a fda da va X do Problema 2 6 Determine a esperança e a variância da va cuja fdp é fx sen x 0 x π2 0 caso contrário 7 Calcule a média da va X do Problema 4 8 A va contínua X tem fdp fx 3x² 1 x 0 0 caso contrário 9 Certa liga é formada pela mistura fundida de dois metais A liga resultante contém certa porcentagem de chumbo X que pode ser considerada uma va com fdp fx 35 105 x100 x 0 x 100 Suponha que L o lucro líquido obtido da venda dessa liga por unidade de peso seja dado por L C₁ C₂X Calcule EL o lucro esperado por unidade 10 A demanda diária de arroz num supermercado em centenas de quilos é uma va com fdp fx 2x3 se 0 x 1 33 1 se 1 x 3 0 se x 0 ou x 3 11 Suponha que X tenha fdp fx do Problema 1 Calcule EX e VarX 12 Seja X com densidade fx c1 x² se 1 x 1 0 caso contrário Calcule a média e a variância de X 74 Alguns Modelos Probabilísticos para Variáveis Aleatórias Contínuas 741 O Modelo Uniforme O modelo uniforme é uma generalização do modelo estudado no Exemplo 71 e é o modelo mais simples para va contínuas a Definição A va X tem distribuição uniforme no intervalo α β se sua fdp é dada por fx α β 1 β α se α x β 0 caso contrário 712 b Gráfico A Figura 79 representa a função dada por 712 c Momentos Podese mostrar veja o Problema 29 que EX α β 2 VarX β α² 12 d Fda A função de distribuição acumulada da uniforme é fácil de ser encontrada veja o Problema 29 Fx PX x fxdx 0 se x α x α β α se α x β 1 se x β 715 cujo gráfico está na Figura 710 Assim para dois valores quaisquer c e d c d teremos Pc X d Fd Fc que é obtida facilmente de 715 Usaremos a notação X Uα β para indicar que a va X tem distribuição uniforme no intervalo α β Exemplo 78 Um caso particular bastante interessante é aquele em que α 12 e β 12 Indicando essa va por U temos fu 1 se 12 u 12 0 caso contrário Nessa situação temos que EU 0 VarU 112 e a fda é dada por Fuu 0 se u 12 u 12 se 12 u 12 1 se u 12 Por exemplo P14 U 14 Fu14 Fu14 12 Se quiséssemos facilitar o nosso trabalho poderíamos tabelar os valores da fda para essa variável U Devido à simetria da área em relação a x 0 poderíamos construir uma tabela indicando a função Gu tal que Gu P0 U u para alguns valores de u veja o Problema 30 Dada uma va uniforme X qualquer com parâmetros α e β podemos definir a va U como U X β α 2 β α 716 Seguese que a transformação 716 leva uma uniforme no intervalo α β numa uniforme no intervalo 12 12 e para dois números quaisquer c e d com c d Para simplificar a notação denotaremos a densidade da normal simplesmente por fx e escreveremos simbolicamente X Nµ σ² Quando µ 0 e σ² 1 temos uma distribuição padrão ou reduzida ou brevemente N01 Para essa a função densidade reduzse a φz 12π ez²2 z O gráfico da normal padrão está na Figura 712 Se X Nµ σ² então a va definida por Z X µσ terá média zero e variância 1 prove esses fatos O que não é tão fácil mostrar é que Z também tem distribuição normal Isso não será feito aqui A transformação 722 é fundamental para calcularmos probabilidades relativas a uma distribuição normal qualquer d Fda A Fy de uma va normal X com média µ e variância σ² é obtida integrandose 717 de até y ou seja Fy y fx µ σ²dx y ℝ 723 A integral 723 corresponde à área sob fx desde até y como ilustra a Figura 713 No caso específico da normal padrão utilizamos a seguinte notação que é universal Φy φzdz 12π ez²2 dz 724 O gráfico de Φz é ilustrado na Figura 714 Suponha então que X Nµ σ² e que queiramos calcular Pa X b a fxdx onde fx é dada por 717 Ver Figura 715 A integral 725 não pode ser calculada analiticamente e portanto a probabilidade indicada só poderá ser obtida aproximadamente por meio de integração numérica No entanto para cada valor de µ e cada valor de σ teríamos de obter Pa X b para diversos valores de a e b Essa tarefa é facilitada através do uso de 722 de sorte que somente é necessário construir uma tabela para a distribuição normal padrão Vejamos então como obter probabilidades a partir da Tabela III Essa tabela dá as probabilidades sob uma curva normal padrão que nada mais são do que as correspondentes áreas sob a curva A Figura 716 ilustra a probabilidade fornecida pela tabela a saber P0 Z zc onde Z N01 Calculemos mais algumas probabilidades Figura 717 a P173 Z 0 P0 Z 173 04582 devido à simetria da curva b PZ 173 05 P0 Z 173 05 04582 00418 pois PZ 0 05 PZ 0 c PZ 173 PZ 173 00418 d P047 Z 173 P0 Z 173 P0 Z 047 04582 01808 02774 Figura 717 Ilustração do cálculo de probabilidades para a N01 Suponha agora que X seja uma va Nµ σ² com µ 3 e σ² 16 e queiramos calcular P2 X 5 Utilizando 722 temos P2 X 5 P2 µ σ Z 5 µ σ P2 34 Z 5 34 P14 Z 12 Portanto a probabilidade de que X esteja entre 2 e 5 é igual à probabilidade de que Z esteja entre 025 e 05 Figura 718 Utilizando a Tabela III vemos que P025 Z 05 00987 01915 02902 ou seja P2 X 5 02902 Exemplo 79 Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro são distribuídos normalmente com média de 1000000 e desvio padrão de 150000 Um depósito é selecionado ao acaso dentre todos os referentes ao mês em questão Encontrar a probabilidade de que o depósito seja a 1000000 ou menos b pelo menos 1000000 c um valor entre 1200000 e 1500000 d maior do que 2000000 Temos que µ 10000 e σ 1500 Seja X depósito a PX 10000 PZ 10000 10000 1500 PZ 0 05 b PX 10000 PZ 0 05 c P12000 X 15000 P12000 10000 1500 Z 15000 10000 1500 P43 Z 103 P133 Z 333 009133 d PX 20000 PZ 20000 10000 1500 PZ 667 0 743 O Modelo Exponencial Outra distribuição importante e que tem aplicações em confiabilidade de sistemas assunto de que já tratamos brevemente no Capítulo 5 é a exponencial a Definição A va T tem distribuição exponencial com parâmetro β 0 se sua fdp tem a forma ft β 1 β etβ se t 0 0 se t 0 726 Escreveremos brevemente T Expβ b Gráfico O gráfico de ft β ft está ilustrado na Figura 78 b com β 1 c Momentos Usando integração por partes podese demonstrar que veja o Problema 41 ET β VarT β² Exemplo 710 O tempo de vida em horas de um transistor pode ser considerado uma va com distribuição exponencial com β 500 Seguese que a vida média do transistor é ET 500 horas e a probabilidade de que ele dure mais do que a média é PT 500 500 ftdt 1500 500 et500 dt 1500 500et500500 e1 03678 d Fda Usando a definição 710 obtemos Ft 0 se t 0 1 etβ se t 0 729 O gráfico de Ft está na Figura 78 a com β 1 75 Aproximação Normal à Binomial Suponha que a va Y tenha uma distribuição binomial com parâmetros n 10 e p 12 e queiramos calcular PY 7 Embora seja uma va discreta vimos no Capítulo 2 que é possível representála por meio de um histograma como na Figura 719 Vemos que PY 7 é igual à área do retângulo de base unitária e altura igual a PY 7 semelhantemente para PY 8 etc Logo PY 7 é igual à soma das áreas dos retângulos hachurados na Figura 719 Figura 720 Aproximação de PY 7 pela área sob a N5 25 Figura 721 Aproximação de P3 Y 6 Figura 722 Função de uma va Denotando a densidade de Y por gy e como fx 0 para 0 x 1 gy 0 para 4 y 7 Notemos que se podem obter probabilidades relativas a Y a partir da densidade de X Por exemplo PY 1 P3X 4 1 PX 1 1 Vejamos como se pode obter gy Denotemos por Gy a função de distribuição acumulada de Y Da seção 73 sabemos que Gy gy para todo valor de y para o qual G for derivável Então temos Gy PY y P3X 4 y PX y 43 Fy 43 onde estamos denotando por F a função de distribuição acumulada de X Usando a regra da cadeia para derivadas temos Gy Fy 43 13 13 fy 43 do que decorre gy 2y 49 se 4 y 7 0 caso contrário Exemplo 712 Suponha agora que X tenha densidade fx 3x²2 1 x 1 e que Y ex Seguese que hx ex é uma função decrescente e x lny Figura 723 b Então Gy PY y PeX y PX lny 1 PX lny 1 Flny 81 Distribuição Conjunta Em muitas situações ao descrevermos os resultados de um experimento atribuímos a um mesmo ponto amostral os valores de duas ou mais variáveis aleatórias Neste capí tulo iremos nos concentrar no estudo de um par de variáveis aleatórias indicando que os conceitos e resultados apresentados estendemse facilmente a um conjunto finito de variáveis aleatórias Um tratamento mais completo é dado ao caso de variáveis discretas nas seções 81 a 84 Exemplo 81 Suponha que estamos interessados em estudar a composição de famílias com três crianças quanto ao sexo Definamos X número de meninos 1 se o primeiro filho for homem Y 0 se o primeiro filho for mulher Z número de vezes em que houve variação do sexo entre um nascimento e outro dentro da mesma família Com essas informações e supondo que as possíveis composições tenham a mes ma probabilidade obtemos a Tabela 81 onde por exemplo o evento HMH indica que o primeiro filho é homem o segundo mulher e o terceiro homem As distribuições de probabilidades das va X Y e Z podem ser obtidas dessa tabela e são dadas na Tabela 82 Capítulo 8 Variáveis Aleatórias Multidimensionais cap08cP65 2192009 1338 203 8 1 D I S T R I B U I Ç Ã O C O N J U N T A 205 Aqui px y z PX x Y y Z z Vamos nos fixar nas distribuições bidimensionais isto é nas distribuições conjuntas de duas variáveis Nesse caso uma maneira mais cômoda de representar a distribuição conjunta é por meio de tabelas de duplas entradas como na Tabela 85 onde temos representada a mesma distribuição de X e Y dada antes na Tabela 83 Tabela 85 Distribuição conjunta de X e Y como uma tabela de dupla entrada Y X 0 1 2 3 py 0 18 28 18 0 12 1 0 18 28 18 12 px 18 38 38 18 1 A representação gráfica de variáveis aleatórias bidimensionais X Y exige gráfi cos com três eixos um para a va X outro para a va Y e um terceiro eixo z para a probabilidade conjunta px y A Figura 81 representa a distribuição conjunta resumida na Tabela 85 A dificuldade em desenhar e interpretar tais gráficos nos leva muitas vezes a evitar o uso desse recurso tão valioso Figura 81 Representação gráfica da va X Y da Tabela 85 z px y 0375 0250 0125 1 y 1 0 2 3 x Uma tentativa de representar distribuições de probabilidades discretas em duas dimensões é o gráfico de curvas de níveis Esse é o mesmo recurso utilizado em mapas geográficos sobre relevos indicandose por meio de linhas as cotas alturas de mes ma intensidade em uma região Curvas de níveis podem ser usadas também em mapas meteorológicos de marés etc Embora tais mapas sejam usados principalmente para variáveis contínuas vamos exemplificar abaixo sua construção para os dados da Tabela 85 Notamos que existem valores apenas para as probabilidades 0 18 28 e 38 e cada um deles define um conjunto de pontos Por exemplo correspondendo à probabilidade 18 temos o conjunto de pontos 0 0 1 1 2 0 e 3 1 Na Figura 82 b representamos esses pontos que corresponderiam à curva de nível para a cota 18 De modo análogo traçaríamos as demais curvas de níveis A Figura 82 e reunindo todos os resultados seria equivalente à Figura 81 Assim os cap08cP65 2192009 1338 205 206 CAPÍTULO 8 VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS pontos representados por formariam a curva de nível da cota 18 os pontos representados por formariam a curva de nível com cota probabilidade 28 e assim por diante Esse recurso é mais bem visualizado para variáveis contínuas como na Figura 817 Figura 82 Curvas de níveis para a Tabela 85 a px y 0 b px y 18 c px y 28 d todas as cotas 82 Distribuições Marginais e Condicionais Da Tabela 85 podemos obter facilmente as distribuições de X e Y A primeira e última colunas da tabela dão a distribuição de Y y py enquanto a primeira e última linhas da tabela dão a distribuição de X x px Essas distribuições são chamadas distribuições marginais Observamos por exemplo que PX 1 PX 1 Y 0 PX 1 Y 1 28 18 38 e PY 0 PX 0 Y 0 PX 1 Y 0 PX 2 Y 0 PX 3 Y 0 18 28 18 0 12 Portanto para obter as probabilidades marginais basta somar linhas e colunas Quando estudamos os aspectos descritivos das distribuições com mais de uma variá vel vimos que às vezes é conveniente calcular proporções em relação a uma linha ou coluna e não em relação ao total Isso é equivalente aqui ao conceito de distribuição condicional Por exemplo qual seria a distribuição do número de meninos sabendose que o primeiro filho é do sexo masculino Ou seja queremos calcular a probabilidade PX xY 1 Da definição de probabilidade condicional obtemos PX xY 1 PX x Y 1 pxY 1 81 PY 1 para x 0 1 2 3 Pela Tabela 85 obtemos por exemplo cap08cP65 2192009 1338 206 8 3 F U N Ç Õ E S D E V A R I Á V E I S A L E A T Ó R I A S 213 4 No Problema 2 obtenha as distribuições de X Y e de XY Calcule EX Y EXY VarX Y VarXY 5 a No Problema 3 calcule EX Y e VarX Y b Se Z aX bY calcule a e b de modo que EZ 10 e VarZ 600 6 Dois tetraedros dados com quatro faces com as faces numeradas de um a quatro são lançados e os números das faces voltadas para baixo são anotados Sejam as va X maior dos números observados Y menor dos números observados Z X Y a Construa a tabela da distribuição conjunta de X e Y b Determine as médias e as variâncias de X Y e Z 7 Numa urna têmse cinco tiras de papel numeradas 1 3 5 5 7 Uma tira é sorteada e recolocada na urna então uma segunda tira é sorteada Sejam X1 e X2 o primeiro e o segundo números sorteados a Determine a distribuição conjunta de X1 e X2 b Obtenha as distribuições marginais de X1 e X2 Elas são independentes c Encontre a média e a variância de X1 X2 e X X1 X22 d Como seriam as respostas anteriores se a primeira tira de papel não fosse devolvida à urna antes da segunda extração 8 Numa urna têmse cinco bolas marcadas com os seguintes números 1 0 0 0 1 Retiramse três bolas simultaneamente X indica a soma dos números extraídos e Y o maior valor da trinca Calcule a Função de probabilidade de X Y b EX e VarX c VarX Y 9 Dada a distribuição conjunta de X e Y abaixo determine a média e a variância de a X Y b X Y Y X 1 2 3 1 527 127 327 2 427 327 427 3 227 327 227 10 Suponha que X e Y tenham a seguinte distribuição conjunta Y X 1 2 3 1 01 01 00 2 01 02 03 3 01 01 00 Problemas cap08cP65 2192009 1338 213 8 4 C O V A R I Â N C I A E N T R E D U A S V A R I Á V E I S A L E A T Ó R I A S 215 Tabela 812 Distribuição conjunta para o Exemplo 87 Y X 0 1 2 py 1 320 320 220 820 2 120 120 220 420 3 420 120 320 820 px 820 520 720 100 Temos que EX 0 8 1 5 2 7 095 20 20 20 EY 1 8 2 4 3 8 200 20 20 20 EXY 0 3 1 3 2 2 0 1 2 1 20 20 20 20 20 4 2 0 4 3 1 6 3 190 20 20 20 20 do que obtemos CovX Y 190 0 95200 0 Portanto as va X e Y desse exemplo são nãocorrelacionadas Exemplo 88 Retomemos o Exemplo 83 para o qual vimos que Y e Z são indepen dentes É fácil ver que EZ 1 e EY 12 Da Tabela 88 obtemos que EYZ 12 do que decorre que a covariância entre Y e Z é zero De modo geral se X e Y forem independentes então 89 é válida logo por 814 temos que CovX Y 0 Vamos destacar esse fato por meio da Proposição 81 Se X e Y são duas variáveis aleatórias independentes então CovX Y 0 Em outras palavras se X e Y forem independentes então elas serão não correlacionadas A recíproca não é verdadeira isto é se tivermos CovX Y 0 isso não implica que X e Y sejam independentes De fato para as va do Exemplo 87 a covariância entre X e Y é zero mas X e Y não são independentes como podemos facilmente verificar Podemos agora demonstrar o Teorema 83 a Para duas va X e Y quaisquer temos VarX Y VarX VarY 2CovX Y 815 cap08cP65 2192009 1338 215 218 CAPÍTULO 8 VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS Na Figura 83a ao lado dos pontos 1 0 e 2 1 colocamos o número 2 para mostrar que esses pares têm probabilidades 28 ao passo que os demais têm probabilidades 18 Exemplo 812 O diagrama de dispersão das va Y e Z do Exemplo 82 está ilustrado na Figura 84 Lembremos que nesse caso Y e Z são independentes Figura 84 Diagrama de dispersão para as va Y e Z do Exemplo 82 Exemplo 813 Na Figura 85 temos o diagrama de dispersão das variáveis X e W do Exemplo 810 Observe que nesse caso existe uma relação linear perfeita entre as duas variáveis Figura 85 Diagrama de dispersão para as va X e W do Exemplo 810 11 Para as va X e Y do Problema 2 e usando os resultados do Problema 4 calcule CovX Y e ρX Y 12 Considere a situação do Problema 10 do Capítulo 6 a Obtenha as distribuições de X Y e X Y b Calcule EXY EXY e EX Y c Verifique se X e Y são independentes Problemas cap08cP65 2192009 1338 218 8 4 C O V A R I Â N C I A E N T R E D U A S V A R I Á V E I S A L E A T Ó R I A S 219 d Verifique se EXY EX EY O que você pode concluir e Verifique se EXY EXEY f Calcule VarX Y É verdade que VarX Y VarX VarY 13 Sejam X e Y com a distribuição conjunta da tabela abaixo Mostre que CovX Y 0 mas X e Y não são independentes Y X 1 0 1 1 0 14 0 0 14 0 14 1 0 14 0 14 Lançamse dois dados perfeitos X indica o número obtido no primeiro dado e Y o maior ou o número comum nos dois dados a Escreva por meio de uma tabela de dupla entrada a distribuição conjunta de X e Y b As duas variáveis são independentes Por quê c Calcule as esperanças e variâncias de X e Y d Calcule a covariância entre X e Y e Calcule EX Y f Calcule VarX Y 15 Uma moeda perfeita é lançada três vezes Sejam X número de caras nos dois primeiros lançamentos Y número de caras no terceiro lançamento e S número total de caras a Usando a distribuição conjunta de X Y verifique se X e Y são independentes Qual é a covariância entre elas b Calcule a média e a variância das três variáveis definidas c Existe alguma relação entre os parâmetros encontrados em b Por quê 16 Depois de um tratamento seis operários submeteramse a um teste e mais tarde mediuse a produtividade de cada um deles A partir dos resultados apresentados na tabela ao lado calcule o coeficiente de correlação entre a nota do teste e a produtividade Operário Teste Produtividade 1 9 22 2 17 34 3 20 29 4 19 33 5 20 42 6 23 32 17 O exemplo a seguir ilustra que ρ 0 não implica independência Suponha que X Y tenha distribuição conjunta dada pela tabela abaixo a Mostre que EXY EX EY donde ρ 0 b Justifique por que X e Y não são independentes cap08cP65 2192009 1338 219 9 1 I N T R O D U Ç Ã O 235 91 Introdução Nos capítulos anteriores aprendemos a construir alguns modelos probabilísticos simples que são úteis para representar situações reais ou então para descrever um experimento aleató rio Notamos também que se especificarmos um espaço amostral e probabilidades asso ciadas aos pontos desse espaço o modelo probabilístico ficará completamente determinado e poderemos então calcular a probabilidade de qualquer evento aleatório de interesse Muitas vezes mesmo construindo um modelo probabilístico certas questões não podem ser resolvidas analiticamente e teremos de recorrer a estudos de simulação para obter aproxi mações de quantidades de interesse De modo bastante amplo estudos de simulação tentam reproduzir num ambiente controlado o que se passa com um problema real Para nossos propósitos a solução de um problema real consistirá na simulação de variáveis aleatórias A simulação de variáveis aleatórias deu origem aos chamados métodos Monte Carlo MMC que por sua vez supõem que o pesquisador disponha de um gerador de números aleatórios equiprováveis Um número aleatório NA representa o valor de uma variável aleatória uni formemente distribuída no intervalo 0 1 Originalmente esses números aleatórios eram gerados manualmente ou mecanicamente usando dados roletas etc Modernamente usa mos computadores para gerar números que na realidade são pseudoaleatórios Para nossos propósitos uma simulação pode ser entendida como uma particular realização do modelo binomial normal etc Nesse sentido os valores simulados po dem ser considerados como uma amostra como veremos nos capítulos seguintes Esse entendimento será útil para estudar as distribuições de estimadores e suas propriedades O nome Monte Carlo está relacionado com a cidade de mesmo nome no Principado de Mônaco principalmente devido à roleta que é um mecanismo simples para gerar números aleatórios Os MMC apareceram durante a Segunda Guerra Mundial em pesquisas relacio nadas à difusão aleatória de neutrons num material radioativo Os trabalhos pioneiros de vemse a Ulam Metropolis Fermi e von Neumann por volta de 19481949 Alguns traba lhos que podem ser consultados são os artigos de Metropolis e Ulam 1949 e von Neumann 1951 e os livros de Sóbol 1976 Hammersley e Handscomb 1964 e Ross 1997 Capítulo 9 Noções de Simulação cap09cp65 2192009 1343 235 236 C A P Í T U L O 9 N O Ç Õ E S D E S I M U L A Ç Ã O Para ilustrar suponha que se queira calcular a área da figura F contida no quadrado Q de lado unitário Figura 91 Suponha que sejamos capazes de gerar pontos aleatórios em Q de modo homogêneo isto é de modo a cobrir toda a área do quadrado ou ainda que esses pontos sejam uniformemente distribuídos sobre Q Se gerarmos N pontos suponha que N desses caiam em F Então poderemos aproximar a área de F por NN No caso da figura uma estimativa da área é 24200 pois geramos 200 pontos em Q e 24 estão dentro de F Quanto mais pontos gerarmos melhor será a aproximação Note que o problema em si não tem nenhuma componente aleatória queremos calcular a área de uma figura plana Mas para resolver o problema uma possível maneira foi considerar um mecanismo aleatório Esse procedimento pode ser utilizado em muitas situações Vejamos algumas maneiras de obter um número aleatório Figura 91 Área de uma figura por simulação Exemplo 91 Lance uma moeda três vezes e atribua o valor 1 se ocorrer cara e o valor 0 se ocorrer coroa Os resultados possíveis são as seqüências ou números binários abaixo 000 001 010 011 100 101 110 111 Cada um desses números binários corresponde a um número decimal Por exem plo 1112 710 pois 1112 1 22 1 21 1 20 o índice indica a base em que o número está sendo expresso Veja Morettin et alli 2005 Considere a representação decimal de cada seqüência acima e divida o resultado por 23 1 7 Obteremos os números aleatórios 0 17 27 1 Observe que você poderá eventualmente consi derar a seqüência 111 menos aleatória do que 010 digamos Mas qualquer uma das oito seqüências anteriores tem a mesma probabilidade a saber 123 18 Suponha agora que você lance a moeda dez vezes Teremos números binários com dez dígitos e cada um terá probabilidade 1210 11024 Assim a seqüência 1 1 1 1 1 1 1 1 1 1 cap09cp65 2192009 1343 236 9 1 I N T R O D U Ç Ã O 237 formada por dez uns parece menos aleatória do que a seqüência 1 0 1 0 1 0 1 0 1 0 formada por cinco pares de dez que por sua vez parece menos aleatória do que a seqüência 0 1 1 0 1 1 1 0 0 1 que requer uma descrição mais elaborada No entanto todas elas têm a mesma proba bilidade de ocorrer no experimento acima Intuitivamente a aleatoriedade de uma seqüência está ligada à dificuldade de descrevêla em palavras como fizemos acima Para esse caso de dez lançamentos procederíamos como no caso de três lança mentos dividindo os 1024 números decimais obtidos por 210 1 1023 para obter 1024 NA entre 0 e 1 De modo geral lançandose a moeda n vezes teremos 2n possi bilidades e os NA finais são obtidos por meio de divisão por 2n 1 Exemplo 92 Números aleatórios também podem ser gerados usandose uma roleta como a da Figura 92 com dez setores numerados 0 1 2 9 Gire a roleta dez vezes e anote os números obtidos numa coluna Faça a mesma coisa mais duas vezes de modo a obter algo como Figura 92 Roleta com dez setores 6 1 0 9 4 4 5 0 4 5 1 0 2 5 4 6 3 9 1 2 9 3 8 0 2 2 6 0 7 9 Agora divida cada número em cada linha por 1000 para obter os NA 0610 0944 0504 0510 0254 0639 0129 0380 0226 0079 Para obter NA com quatro casas decimais basta girar a roleta quatro vezes Na realidade os números acima foram obtidos de uma tabela de números aleatórios como aquela da Tabela VII No exemplo iniciamos no canto superior esquerdo e tomamos as três primeiras colunas com dez dígitos cada Tabelas de números ale atórios são construídas por meio de mecanismos como o que descrevemos O pro blema que enfrentamos muitas vezes é o de gerar uma quantidade muito grande de números aleatórios da ordem de 1000 ou 10000 O procedimento de simulação manual usando uma tabela de números aleatórios pode se tornar muito trabalhoso ou mesmo impraticável cap09cp65 2192009 1343 237 238 C A P Í T U L O 9 N O Ç Õ E S D E S I M U L A Ç Ã O A solução alternativa é substituir a simulação manual por simulação por meio de computadores utilizando números pseudoaleatórios em vez de números aleatórios Os números pseudoaleatórios NPA são obtidos por meio de técnicas que usam relações matemáticas recursivas determinísticas Logo um NPA gerado numa iteração dependerá do número gerado na iteração anterior e portanto não será realmente aleató rio originando o nome pseudoaleatório Há vários métodos para gerar NPA Um dos primeiros formulado pelo matemático John von Neumann é chamado o método de quadrados centrais veja o Problema 18 Um método bastante utilizado em pacotes computacionais é o método congruencial discutido nos Problemas 1 e 2 Os diversos pacotes aplicativos estatísticos ou não utilizam métodos como o congruencial para implementar subrotinas de geração de NPA Como exemplos de pa cotes citamos o NAG Numerical Algorithm Group atualmente incorporado ao pacote MATLAB e o IMSL O pacote estatístico Minitab usa os comandos Random e Uniform para gerar NPA Exemplo 93 Temos no Quadro 91 um exemplo de geração de dez NA O comando Random 10 C1 seguido de Uniform 01 pede para gerar dez NA e guardálos na coluna C1 Quadro 91 Geração de números aleatórios Minitab MTB RANDOM 10 C1 SUBC UNIFORM 0 1 C1 1 0590042 2 0859332 3 0021023 4 0340748 5 0673675 6 0558276 7 0911412 8 0775391 9 0867138 10 0865328 O pacote SPlus usa o comando runifn min max onde n é o número de valores a gerar e min max é o intervalo no qual se quer gerar os NPA No nosso caso min 0 e max 1 Exemplo 94 O comando u runif1001 pede para gerar dez NA e guardálos no vetor u O comando u imprime os dez valores Veja o Quadro 92 cap09cp65 2192009 1343 238 9 1 I N T R O D U Ç Ã O 239 Quadro 92 Geração de números aleatórios SPlus u runif 10 0 1 u 1 06931500 08586156 01494293 02947197 03474523 07571899 03016043 03051952 9 09135144 07996542 A planilha Excel usa a função ALEATÓRIO para gerar NA ou então Geração de números aleatórios escolhendo a opção Análise de Dados do menu Ferramentas Exemplo 95 O Quadro 93 mostra na coluna A o resultado de gerar 20 NA usando o Excel Foi utilizada a opção Uniforme 01 Quadro 93 Geração de números aleatórios Excel A B C D E F G 1 0382 0 5 1 077423 1 2 2 0100681 1 4 1 091015 2 9 3 0596484 1 3 0 012675 3 10 4 0899106 1 4 4 143943 4 6 5 088461 1 6 0 1192723 5 7 6 0958464 1 5 1 089864 6 7 0014496 0 6 1 064207 7 8 0407422 1 6 0 116122 8 9 0863247 0 3 0 047886 9 10 0138585 1 5 3 0832001 10 11 0245033 1 1 1001472 12 0045473 0 0 061513 13 003238 0 2 1896733 14 0164129 1 3 125248 15 0219611 0 1 1308572 16 001709 2 128498 17 0285043 1 0357816 18 0343089 0 01679 19 0553636 2 1580393 20 0357372 1 0994548 1 Vejamos o significado da expressão x mod m na qual x e m são inteiros nãonegativos O resultado de tal operação é o resto da divisão de x por m Ou seja se x mq r então x mod m z r Por exemplo 13 mod 4 1 Encontre 18 mod 5 e 360 mod 100 2 O método congruencial No chamado método congruencial multiplicativo de gerar NPA come çamos com um valor inicial n0 chamado semente e geramos sucessivos valores n1 n2 por meio da relação Problemas cap09cp65 2192009 1343 239 9 4 E X E M P L O S C O M P U T A C I O N A I S 249 Figura 98 Histogramas de distribuições simuladas no Exemplo 914 SPlus Tabela 92 Opções de Distribuições Contínuas Distribuição Excel Par Minitab Par SPlus Par Normal Normal 0 1 Normal μ σ norm μ σ Exponencial Exponential β exp β t Student T ν t ν F Snedecor F ν1 ν2 f ν1 ν2 Gama Gamma α β gamma α β QuiQuadrado Chisquare ν chisq ν beta Betaα β beta α β Vejamos agora alguns exemplos para vas contínuas Exemplo 915 Usando o pacote Minitab geramos a 10 valores de uma N0 1 b 20 valores de uma Exp2 c 15 valores de uma χ25 Os comandos e respectivos valores simulados estão mostrados no Quadro 97 cap09cp65 2192009 1343 249 9 4 E X E M P L O S C O M P U T A C I O N A I S 251 Figura 99 Histogramas de algumas distribuições geradas no Exemplo 916 Na planilha Excel a normal pode ser gerada por meio da opção normal no menu Ferramentas Análise de Dados Geração de números aleatórios ou pela função ALEATÓRIO e a fórmula INV NORM ALEATÓRIO μ σ Exemplo 917 A coluna E do Quadro 93 traz 20 valores gerados de uma N0 1 usando a ferramenta GNA cap09cp65 2192009 1343 251 9 5 P R O B L E M A S E C O M P L E M E N T O S 257 33 A altura X das pessoas segue aproximadamente uma curva normal com média μ e variância σ 2 a Proponha dois valores realísticos para μ e σ e gere 10 alturas de uma população de homens Calcule a média e o desvio padrão desta população b Com os mesmos parâmetros gere uma outra amostra de 10 alturas Olhando e ana lisando as duas amostras elas parecem vir de populações distintas c Gere uma amostra de 10 alturas de uma população feminina Compare com a amostra obtida em a e diga se é possível afirmar que as duas amostras vêm de populações distintas d Como você acha que os parâmetros influenciam para diferenciar bem as amostras Dê exemplos cap09cp65 2192009 1343 257 Parte 3 Parte 3 Capítulo 10 261 Introdução à Inferência Estatística Capítulo 11 296 Estimação Capítulo 12 330 Testes de Hipóteses Capítulo 13 361 Inferência para Duas Populações Capítulo 14 399 Análise de Aderência e Associação Capítulo 15 420 Inferência para Várias Populações Capítulo 16 449 Regressão Linear Simples I N F E R Ê N C I A E S T A T Í S T I C A cap10dp65 2192009 1349 259 101 Introdução Vimos na Parte 1 como resumir descritivamente variáveis associadas a um ou mais conjuntos de dados Na Parte 2 construímos modelos teóricos probabilísticos identifica dos por parâmetros capazes de representar adequadamente o comportamento de algumas variáveis Nesta terceira parte apresentaremos os argumentos estatísticos para fazer afirma ções sobre as características de uma população com base em informações dadas por amostras O uso de informações de uma amostra para concluir sobre o todo faz parte da atividade diária da maioria das pessoas Basta observar como uma cozinheira verifica se o prato que ela está preparando tem ou não a quantidade adequada de sal Ou ainda quando um comprador após experimentar um pedaço de laranja numa banca de feira decide se vai comprar ou não as laranjas Essas são decisões baseadas em procedimentos amostrais Nosso objetivo nos capítulos seguintes é procurar dar a conceituação formal a esses princípios intuitivos do diaadia para que possam ser utilizados cientificamente em situações mais complexas 102 População e Amostra Nos capítulos anteriores tomamos conhecimento de alguns modelos probabilísticos que procuram medir a variabilidade de fenômenos casuais de acordo com suas ocor rências as distribuições de probabilidades de variáveis aleatórias qualitativas ou quan titativas Na prática freqüentemente o pesquisador tem alguma idéia sobre a forma da distribuição mas não dos valores exatos dos parâmetros que a especificam Por exemplo parece razoável supor que a distribuição das alturas dos brasileiros adul tos possa ser representada por um modelo normal embora as alturas não possam assumir valores negativos Mas essa afirmação não é suficiente para determinar qual a distribuição normal correspondente precisaríamos conhecer os parâmetros média e variância des sa normal para que ela ficasse completamente especificada O propósito do pesquisador seria então descobrir estimar os parâmetros da distribuição para sua posterior utilização Capítulo 10 Introdução à Inferência Estatística cap10dp65 2192009 1349 261 1 0 2 P O P U L A Ç Ã O E A M O S T R A 263 salários na amostra e esperamos que esta reflita a distribuição de todos os salários desde que a amostra tenha sido escolhida com cuidado Exemplo 102 Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a certo projeto governamental Uma amostra de 200 pessoas é sorteada e a opinião de cada uma é registrada como sendo a favor ou contra o projeto A população consiste de todos os moradores da cidade e a amostra é formada pelas 200 pessoas selecionadas Podemos como foi visto no Capítulo 5 definir a variável X que toma o valor 1 se a resposta de um morador for favorável e o valor 0 se a resposta for contrária ao projeto Assim nossa população pode ser reduzida à distribuição de X e a amostra será constituída de uma seqüência de 200 zeros e uns Exemplo 103 O interesse é investigar a duração de vida de um novo tipo de lâmpada pois acreditamos que ela tenha uma duração maior do que as fabricadas atualmente Então 100 lâmpadas do novo tipo são deixadas acesas até queimarem A duração em horas de cada lâmpada é registrada Aqui a variável é a duração em horas de cada lâmpada A população é formada por todas as lâmpadas fabricadas ou que venham a ser fabricadas por essa empresa com o mesmo processo A amostra é formada pelas 100 lâmpadas selecionadas Notese que nesse caso não podemos observar a população ou seja a distribuição da duração de vida das lâmpadas na população pois isso corresponderia a queimar todas as lâmpadas Assim em alguns casos não podemos observar a popula ção toda pois isso significaria danificar ou destruir todos os elementos da população Esse problema geralmente é contornado atribuindose um modelo teórico para a distri buição da variável populacional Exemplo 104 Em alguns casos fazemos suposições mais precisas sobre a população ou sobre a variável definida para os elementos da população Digamos que X represen te o peso real de pacotes de café enchidos automaticamente por uma máquina Sabese que a distribuição de X pode ser representada por uma normal com parâmetros μ e σ 2 desconhecidos Sorteamos 100 pacotes e medimos seus pesos A população será o con junto de todos os pacotes enchidos ou que virão a ser enchidos pela máquina e que pode ser suposta como normal A amostra será formada pelas 100 medidas obtidas dos pacotes selecionados que pode ser pensada como constituída de 100 observações feitas de uma distribuição normal Veremos mais adiante como tal amostra pode ser obtida Exemplo 105 Para investigar a honestidade de uma moeda nós a lançamos 50 vezes e contamos o número de caras observadas A população como no caso do Exemplo 102 pode ser considerada como tendo a distribuição da variável X assumindo o valor 1 com probabilidade p se ocorrer cara e assumindo o valor 0 com probabilidade 1 p se ocorrer coroa Ou seja a população pode ser considerada como tendo distribuição de Bernoulli com parâmetro p A variável ficará completamente especificada quando co nhecermos p A amostra será uma seqüência de 50 números zeros ou uns cap10dp65 2192009 1349 263 1 0 4 C O M O S E L E C I O N A R U M A A M O S T R A 267 104 Como Selecionar uma Amostra As observações contidas em uma amostra são tanto mais informativas sobre a popula ção quanto mais conhecimento explícito ou implícito tivermos dessa mesma população Por exemplo a análise da quantidade de glóbulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente dará uma idéia geral da quantidade dos glóbulos brancos no corpo todo pois sabese que a distribuição dos glóbulos brancos é homogê nea e de qualquer lugar que se tivesse retirado a amostra ela seria representativa Mas nem sempre a escolha de uma amostra adequada é imediata Por exemplo voltando ao Exemplo 102 para o qual queríamos obter uma amostra de habitantes para saber a opi nião sobre um projeto governamental escolhendo intencionalmente uma amostra de 200 indivíduos moradores de certa região beneficiada pelo projeto saberemos de antemão que o resultado conterá um viés de seleção Isto é na amostra a proporção de pessoas favoráveis ao projeto deverá ser maior do que no todo donde a importância da adoção de procedimentos científicos que permitam fazer inferências adequadas sobre a população A maneira de se obter a amostra é tão importante e existem tantos modos de fazêlo que esses procedimentos constituem especialidades dentro da Estatística sendo Amostragem e Planejamento de Experimentos as duas mais conhecidas Poderíamos dividir os procedi mentos científicos de obtenção de dados amostrais em três grandes grupos a Levantamentos Amostrais nos quais a amostra é obtida de uma população bem definida por meio de processos bem protocolados e controlados pelo pesquisador Podemos ainda subdividilos em dois subgrupos levantamentos probabilísticos e nãoprobabilísticos O primeiro reúne todas aquelas técnicas que usam mecanismos aleatórios de seleção dos elementos de uma amostra atribuindo a cada um deles uma probabilidade conhecida a priori de pertencer à amostra No segundo grupo estão os demais procedimentos tais como amostras intencionais nas quais os elementos são selecionados com o auxílio de especialistas e amostras de voluntários como ocorre em alguns testes sobre novos medi camentos e vacinas Ambos os procedimentos têm suas vantagens e desvantagens A grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida baseandose no resultado contido na própria amostra Tais medidas já são bem mais difíceis para os procedimentos do segundo grupo Estão nessa situação os Exemplos 101 conhecer os salários da Cia MB 102 identificar a proporção de indivíduos favoráveis ao projeto 104 pesos dos pacotes de café etc bPlanejamento de Experimentos cujo principal objetivo é o de analisar o efeito de uma variável sobre outra Requer portanto interferências do pesquisador sobre o ambiente em estudo população bem como o controle de fatores externos com o intuito de medir o efeito desejado Podemos citar como exemplos aquele já citado sobre a altura de um produto na gôndola de um supermercado afetar as vendas e o Exemplo 106 Em ensaios clínicos em medicina esse tipo de estudo é bastante usado como por exemplo para testar se um novo medicamento é eficaz ou não para curar certa doença c Levantamentos Observacionais aqui os dados são coletados sem que o pesquisador tenha controle sobre as informações obtidas exceto eventualmente sobre possíveis cap10dp65 2192009 1349 267 268 CAPÍTULO 10 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA erros grosseiros As séries de dados temporais são exemplos típicos desses levanta mentos Por exemplo queremos prever as vendas de uma empresa em função de ven das passadas O pesquisador não pode selecionar dados esses são as vendas efetiva mente ocorridas Nesses casos a especificação de um modelo desempenha um papel crucial na ligação entre dados e população No caso de uma série temporal o modelo subjacente é o de processo estocástico pode mos pensar que a série efetivamente observada é uma das infinitas possíveis realizações desse processo A população hipotética aqui seria o conjunto de todas essas realizações e a série observada seria a amostra Veja Morettin e Toloi 2006 para mais informações Neste livro iremos nos concentrar principalmente em levantamentos amostrais e mais ainda num caso simples de amostragem probabilística a amostragem aleatória simples com reposição a ser designada por AAS O leitor poderá consultar Bussab e Bolfarine 2005 para obter mais detalhes sobre outros procedimentos amostrais Um breve resumo sobre alguns planos é dado no Problema 37 Noções sobre planejamento de experimentos podem ser vistas em Peres e Saldiva 1982 1 Dê sua opinião sobre os tipos de problemas que surgiriam nos seguintes planos amostrais a Para investigar a proporção dos operários de uma fábrica favoráveis à mudança do início das atividades das 7h para as 7h30 decidiuse entrevistar os 30 primeiros ope rários que chegassem à fábrica na quartafeira b Mesmo procedimento só que o objetivo é estimar a altura média dos operários c Para estimar a porcentagem média da receita municipal investida em lazer enviaram se questionários a todas as prefeituras e a amostra foi formada pelas prefeituras que enviaram as respostas d Para verificar o fato de oferecer brindes nas vendas de sabão em pó tomaramse quatro supermercados na zona sul e quatro na zona norte de uma cidade Nas quatro lojas da zona sul o produto era vendido com brinde enquanto nas outras quatro era vendido sem brinde No fim do mês compararamse as vendas da zona sul com as da zona norte 2 Refazer o Problema 7 do Capítulo 8 105 Amostragem Aleatória Simples A amostragem aleatória simples é a maneira mais fácil para selecionarmos uma amos tra probabilística de uma população Além disso o conhecimento adquirido com esse procedimento servirá de base para o aprendizado e desenvolvimento de outros procedi mentos amostrais planejamento de experimentos estudos observacionais etc Comece mos introduzindo o conceito de AAS de uma população finita para a qual temos uma listagem de todas as N unidades elementares Podemos obter uma amostra nessas condi ções escrevendo cada elemento da população num cartão misturandoos numa urna e sorteando tantos cartões quantos desejarmos na amostra Esse procedimento tornase inviável quando a população é muito grande Nesse caso usase um processo alternativo Problemas cap10dp65 2192009 1349 268 1 0 5 A M O S T R A G E M A L E A T Ó R I A S I M P L E S 269 no qual os elementos são numerados e em seguida sorteados por meio de uma tabela de números aleatórios veja a sua utilização em Problemas e Complementos ou por meio do uso de computadores que podem gerar números aleatórios veja o Capítulo 9 Utilizandose um procedimento aleatório sorteiase um elemento da população sendo que todos os elementos têm a mesma probabilidade de ser selecionados Repe tese o procedimento até que sejam sorteadas as n unidades da amostra Podemos ter uma AAS com reposição se for permitido que uma unidade possa ser sorteada mais de uma vez e sem reposição se a unidade sorteada for removida da população Do ponto de vista da quantidade de informação contida na amostra amostrar sem reposição é mais adequado Contudo a amostragem com reposição conduz a um tra tamento teórico mais simples pois ela implica que tenhamos independência entre as unidades selecionadas Essa independência facilita o desenvolvimento das proprieda des dos estimadores que serão considerados Portanto para o restante do livro o plano amostral considerado será o de amostragem aleatória simples com reposição que denotaremos simplesmente por AAS Vejamos com algum detalhe o significado mais preciso de uma amostra Exemplo 107 Considere o Problema 2 acima em que colhemos todas as amostras possí veis de tamanho 2 com reposição da população 1 3 5 5 7 Defina a variável X valor assumido pelo elemento na população Então a distribuição de X é dada pela Tabela 101 Tabela 101 Distribuição da va X para o Problema 2 x 1 3 5 7 PX x 15 15 25 15 Indicando por X1 o número selecionado na primeira extração e por X2 o número selecionado na segunda extração vimos que era possível escrever a distribuição con junta do par X1 X2 Veja também a Tabela 102 Além disso as distribuições margi nais de X1 e X2 são independentes e iguais à distribuição de X Desse modo cada uma das 25 possíveis amostras de tamanho 2 que podemos extrair dessa população corresponde a observar uma particular realização da va X1 X2 com X1 e X2 indepen dentes e PX1 x PX2 x PX x para todo x Essa é a caracterização de amostra casual simples que iremos usar neste livro Definição Uma amostra aleatória simples de tamanho n de uma variável aleatória X com dada distribuição é o conjunto de n variáveis aleatórias independentes X1 X2 Xn cada uma com a mesma distribuição de X Ou seja a amostra será a nupla ordenada X1 X2 Xn onde Xi indica a observação do iésimo elemento sorteado cap10dp65 2192009 1349 269 274 CAPÍTULO 10 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Vejamos alguns exemplos simples para aclarar um pouco mais o conceito de distri buição amostral de uma estatística Nosso principal objetivo é identificar um modelo que explique bem a distribuição amostral de T É evidente que a distribuição de T irá depender da distribuição de X e do plano amostral em nosso caso reduzido a AAS Exemplo 109 Voltemos ao Exemplo 107 no qual selecionamos todas as amostras de tamanho 2 com reposição da população 1 3 5 5 7 A distribuição conjunta da variável bidimensional X1 X2 é dada na Tabela 102 Vejamos qual é a distribuição da estatística X X1 X2 101 2 Essa distribuição é obtida por meio da Tabela 102 Por exemplo quando a amos tra selecionada é o par 1 1 a média será 1 então temos que PX 1 125 Obte remos a média igual a 3 quando ocorrer o evento A 1 53 35 1 logo PX 3 PA 2 1 2 5 1 25 25 25 25 5 Tabela 102 Distribuição das probabilidades das possíveis amostras de tamanho 2 que podem ser selecionadas com reposição da população 1 3 5 5 7 X2 X1 1 3 5 7 Total 1 125 125 225 125 15 3 125 125 225 125 15 5 225 225 425 225 25 7 125 125 225 125 15 Total 15 15 25 15 1 Procedendo de maneira análoga para os demais valores queX pode assumir obtemos a Tabela 103 que dá a distribuição da vaX Na Figura 102 temos as distribuições de X e deX Tabela 103 Distribuição amostral da estatísticaX x 1 2 3 4 5 6 7 Total PX x 125 225 525 625 625 425 125 100 cap10dp65 2192009 1349 274 278 CAPÍTULO 10 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Teorema 101 Seja X uma va com média μ e variância σ 2 e seja X1 Xn uma AAS de X Então EX μ e VarX σ 2 n Prova Pelas propriedades vistas no Capítulo 8 temos EX 1n EX1 EXn 1n μ μ μ nμn μ De modo análogo e pelo fato de X1 Xn serem independentes temos VarX 1n2 VarX1 VarXn 1n2 σ 2 σ 2 nσ 2n2 σ 2n Determinamos então a média e a variância da distribuição amostral deX Veja mos agora como obter informação sobre a forma da distribuição dessa estatística Exemplo 1010 continuação Para a população 1 3 5 5 7 vamos construir os histogramas das distribuições deX para n 1 2 e 3 i Para n 1 vemos que a distribuição deX coincide com a distribuição de X com EX EX 42 e VarX VarX 416 Figura 104a Figura 104 Distribuição deX para amostras de 1 3 5 5 7 cap10dp65 2192009 1349 278 valor esperado de x barra variavel de x barra a quantidade da população dividido pelo tamanho da amostra n a medida que n vai aumentando a variancia diminui 1 0 8 D I S T R I B U I Ç Ã O A M O S T R A L D A M É D I A 279 ii Para n 2 baseados na Tabela 103 temos a distribuição deX dada na Figura 104b com EX 42 e VarX 208 iii Finalmente para n 3 com os dados da Tabela 106 temos a distribuição deX na Figura 104 c com EX 42 e VarX 139 Observe que conforme n vai aumentando o histograma tende a se concentrar cada vez mais em torno de EX EX 42 já que a variância vai diminuindo Os casos extremos passam a ter pequena probabilidade de ocorrência Quando n for suficiente mente grande o histograma alisado aproximase de uma distribuição normal Essa apro ximação pode ser verificada analisandose os gráficos da Figura 105 que mostram o comportamento do histograma deX para várias formas da distribuição da população e vários valores do tamanho da amostra n Esses exemplos sugerem que quando o tamanho da amostra aumenta indepen dentemente da forma da distribuição da população a distribuição amostral deX apro ximase cada vez mais de uma distribuição normal Esse resultado fundamental na teoria da Inferência Estatística é conhecido como Teorema Limite Central TLC Figura 105 Histogramas correspondentes às distribuições amostrais deX para amostras extraídas de algumas populações Teorema 102 TLC Para amostras aleatórias simples X1 Xn retiradas de uma população com média μ e variância σ 2 finita a distribuição amostral da médiaX apro ximase para n grande de uma distribuição normal com média μ e variância σ 2n cap10dp65 2192009 1349 279 284 CAPÍTULO 10 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA que difere de S2 apenas no denominador e que foi estudado no Capítulo 3 Desta tabela obtemos as distribuições amostrais apresentadas nas Tabelas 107 108 e 109 Tabela 106 Distribuição amostral de algumas estatísticas obtidas de amostra de tamanho n 3 retiradas da população 1 3 5 5 7 μ 42 σ 2 416 e Md 5 Tipo de Freqüência Soma Soma dos Média Mediana Variância amostra prob 125 quadrados x md s2 σ2 111 1 3 3 100 1 0 0 113 3 5 11 167 1 43 89 115 6 7 27 233 1 163 329 117 3 9 51 300 1 12 8 133 3 7 19 233 3 43 89 135 12 9 35 300 3 4 83 137 6 11 59 367 3 283 569 155 12 11 51 367 5 163 329 157 12 13 75 433 5 283 569 177 3 15 99 500 7 12 8 333 1 9 27 300 3 0 0 335 6 11 43 367 3 43 89 337 3 13 67 433 3 163 329 355 12 13 59 433 5 43 89 357 12 15 83 500 5 4 83 377 3 17 107 567 7 163 329 555 8 15 75 500 5 0 0 557 12 17 99 567 5 43 89 577 6 19 123 633 7 43 89 777 1 21 147 700 7 0 0 Total 125 Tabela 107 Distribuição amostral da variância S 2 para amostras de tamanho 3 retiradas da população 1 3 5 5 7 s2 000 133 400 533 933 1200 PS 2 s2 11125 42125 24125 24125 18125 6125 ES2 416 VarS2 1128 Tabela 108 Distribuição amostral da mediana da amostra md para amos tras de tamanho 3 retiradas da população 1 3 5 5 7 md 1 3 5 7 Prob 13125 31125 68125 13125 Emd 430 Varmd 254 cap10dp65 2192009 1349 284 1 0 1 0 O U T R A S D I S T R I B U I Ç Õ E S A M O S T R A I S 285 Tabela 109 Distribuição amostral da variância σ 2 para amostras de tamanho 3 retiradas da população 1 3 5 5 7 σ 2 000 089 267 356 622 800 Prob 11125 42125 24125 24125 18125 6125 Eσ 2 277 Varσ 2 504 Os gráficos das funções de probabilidade estão nas Figuras 106 107 e 108 A obtenção das propriedades dessas estatísticas de modo geral não é uma tarefa fácil e os modelos de probabilidade resultantes correspondem a distribuições mais complexas Figura 106 Distribuição amostral de S2 para amostras de tamanho n 3 extraídas de 1 3 5 5 7 Figura 107 Distribuição amostral de md para amostras de tamanho n 3 de 1 3 5 5 7 cap10dp65 2192009 1349 285 290 CAPÍTULO 10 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Exemplo 1016 O SPlus usa o comando samplexn para gerar uma amostra sem reposição de tamanho n do conjunto x e o comando samplexnreplaceT para gerar uma amostra com reposição O Quadro 101 mostra como obter amostras de tamanho n 7 do conjunto x 1 2 3 15 sem e com reposição Quadro 101 Geração de amostras SPlus xc 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 sample x 7 1 6 7 4 2 3 10 5 sample x 7 replaceT 1 12 14 11 10 15 4 11 Exemplo 1017 O Minitab usa os comandos Sample e Replace para obter amostras Temos no Quadro 102 amostras de tamanho n 5 obtidas do conjunto 1 2 10 na coluna C1 Na coluna C2 temos uma amostra sem reposição e na coluna C3 uma amostra com reposição Quadro 102 Geração de amostras Minitab C1 C2 C3 1 1 10 8 2 2 1 3 3 3 8 8 MTB Sample 5 C1 C2 4 4 2 6 MTB 5 5 7 4 MTB Sample 5 C1 C3 6 6 SUBC Replace 7 7 MTB 8 8 9 9 10 10 1013 Problemas e Complementos 21 Uma va X tem distribuição normal com média 10 e desvio padrão 4 Aos participantes de um jogo é permitido observar uma amostra de qualquer tamanho e calcular a média amostral Ganha um prêmio aquele cuja média amostral for maior que 12 a Se um participante escolher uma amostra de tamanho 16 qual é a probabilidade de ele ganhar um prêmio b Escolha um tamanho de amostra diferente de 16 para participar do jogo Qual é a probabilidade de você ganhar um prêmio c Baseado nos resultados acima qual o melhor tamanho de amostra para participar do jogo cap10dp65 2192009 1349 290 C A P Í T U L O 1 1 E S T I M A Ç Ã O 296 111 Primeiras Idéias Vimos que a Inferência Estatística tem por objetivo fazer generalizações sobre uma população com base nos dados de uma amostra Salientamos que dois proble mas básicos nesse processo são a estimação de parâmetros e b teste de hipóteses sobre parâmetros Lembremos que parâmetros são funções de valores populacionais enquanto esta tísticas são funções de valores amostrais O problema do teste de hipóteses sobre parâmetros de uma população será tratado no Capítulo 12 Neste capítulo iremos discutir as idéias básicas sobre estimação Para ilustrar consideremos o exemplo seguinte Exemplo 111 Uma amostra de n 500 pessoas de uma cidade é escolhida e a cada pessoa da amostra é feita uma pergunta a respeito de um problema municipal para o qual foi apresentada uma solução pela prefeitura A resposta à pergunta poderá ser SIM favorável à solução ou NÃO contrária à solução Desejase estimar a propor ção de pessoas na cidade favoráveis à solução apresentada Se 300 pessoas responderam SIM à pergunta então uma estimativa natural para essa proporção seria 300500 ou 60 Nossa resposta é baseada na suposição de que a amos tra é representativa da população Sabemos também que outra amostra poderia levar a outra estimativa Conhecer as propriedades desses estimadores é um dos propósitos mais importantes da Inferência Estatística Vejamos o que pode ser feito nesse caso particular Definamos as va X1 Xn tais que 1 se a iésima pessoa na amostra responder SIM Xi 0 se a iésima pessoa na amostra responder NÃO e seja p P sucesso onde aqui sucesso significa resposta SIM à questão formulada Capítulo 11 Estimação cap11cp65 2192009 1405 296 C A P Í T U L O 1 1 E S T I M A Ç Ã O 298 Figura 111 Resultados de 15 tiros dados por 4 rifles Desse modo podemos descrever cada arma da seguinte maneira Arma A nãoviesada pouco acurada e baixa precisão Arma B viesada pouco acurada e baixa precisão Arma C nãoviesada muito acurada e boa precisão Arma D viesada pouco acurada e alta precisão Do exposto acima notamos a importância de se definir propriedades desejáveis para estimadores Trataremos desse assunto na próxima seção Outro problema que aparece em inferência é como obter um estimador de determinado parâmetro Nem sempre temos uma sugestão para um estimador como no caso da proporção no Exem plo 111 Nas seções 113 114 e 115 trataremos de três desses métodos 112 Propriedades de Estimadores Inicialmente vejamos a questão da estimação de um modo mais geral Considere mos uma amostra X1 X2 Xn de uma va que descreve uma característica de inte resse de uma população Seja θ um parâmetro que desejamos estimar como por exem plo a média μ EX ou a variância σ 2 VarX Definição Um estimador T do parâmetro θ é qualquer função das observações da amostra ou seja T gX1 Xn Notemos que segundo essa definição um estimador é o que chamamos antes de estatística porém associandoo a um parâmetro populacional cap11dp65 2592009 1605 298 C A P Í T U L O 1 1 E S T I M A Ç Ã O 312 Escolhida uma amostra e encontrada sua médiax0 e admitindose σ x conhecido podemos construir o intervalo x0 196σ x x0 196σ x 1134 Esse intervalo pode ou não conter o parâmetro μ mas pelo exposto acima temos 95 de confiança de que contenha Para ilustrar o que foi dito acima consideremos o seguinte experimento de simula ção Geramos 20 amostras de tamanho n 25 de uma distribuição normal de média μ 5 e desvio padrão σ 3 Para cada amostra construímos o intervalo de confiança para μ com coeficiente de confiança γ 095 que é da formaX 1176 usando 1134 Na Figura 114 temos esses intervalos representados e notamos que três deles amostras de números 5 14 e 15 não contêm a média μ 5 Figura 114 Intervalos de confiança para a média de uma N5 9 para 20 amostras de tamanho n 25 Exemplo 1113 Uma máquina enche pacotes de café com uma variância igual a 100 g2 Ela estava regulada para encher os pacotes com 500 g em média Agora ela se desregulou e queremos saber qual a nova média μ Uma amostra de 25 pacotes apre sentou uma média igual a 485 g Vamos construir um intervalo de confiança com 95 de confiança para μ De 1134 teremos ICμ 095 485 196 2 ou seja ICμ 095 481 489 pois σ x σn 105 2g Se T for um estimador do parâmetro θ e conhecida a distribuição amostral de T sempre será possível achar dois valores t1 e t2 tais que Pt1 θ t2 γ 1135 cap11cp65 2192009 1405 312 1 1 6 I N T E R V A L O S D E C O N F I A N Ç A 315 Observe que o primeiro intervalo tem amplitude menor que o segundo Outra observação importante é que por 1140 e um γ fixo os intervalos que podemos obter para amostras diferentes mas de mesmo tamanho n terão a mesma amplitude dada por 2zγ4n Por outro lado usando 1141 a amplitude do intervalo será 2zγ p q que é variável de n amostra para amostra pois p e conseqüentemente q variará de amostra para amostra 14 Calcule o intervalo de confiança para a média de uma Nμ σ 2 em cada um dos casos abaixo Média Tamanho Desvio Padrão Coeficiente de Amostral da Amostra da População Confiança 170 cm 100 15 cm 95 165 cm 184 30 cm 85 180 cm 225 30 cm 70 15 De 50000 válvulas fabricadas por uma companhia retirase uma amostra de 400 válvu las e obtémse a vida média de 800 horas e o desvio padrão de 100 horas a Qual o intervalo de confiança de 99 para a vida média da população b Com que confiança dirseia que a vida média é 800 098 c Que tamanho deve ter a amostra para que seja de 95 a confiança na estimativa 800 784 Que suposições você fez para responder às questões acima 16 Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença da média amostral para a média da população em valor absoluto seja menor que 1 com coeficiente de confiança igual a a 95 b 99 17 Uma população tem desvio padrão igual a 10 a Que tamanho deve ter uma amostra para que com probabilidade 8 o erro em estimar a média seja superior a uma unidade b Supondose colhida a amostra no caso anterior qual o intervalo de confiança se x 50 18 Uma amostra aleatória de 625 donas de casa revela que 70 delas preferem a marca A de detergente Construir um intervalo de confiança para p proporção das donas de casa que preferem A com cc γ 90 19 Encontre os intervalos de confiança para p se kn 03 com cc γ 095 Utilize os dois enfoques apontados na seção 116 com n 400 20 Antes de uma eleição um determinado partido está interessado em estimar a proporção p de eleitores favoráveis ao seu candidato Uma amostra piloto de tamanho 100 revelou que 60 dos eleitores eram favoráveis ao candidato em questão Problemas cap11cp65 2192009 1405 315 C A P Í T U L O 1 1 E S T I M A Ç Ã O 316 a Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de no máximo 001 com probabilidade de 80 b Se na amostra final com tamanho igual ao obtido em a observouse que 55 dos eleitores eram favoráveis ao candidato em questão construa um intervalo de confiança para a proporção p Utilize γ 095 21 Suponha que estejamos interessados em estimar a proporção de consumidores de um certo produto Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado produto determine a o intervalo de confiança para p com coeficiente de confiança de 95 interprete o resultado b o tamanho da amostra para que o erro da estimativa não exceda a 002 unidades com probabilidade de 95 interprete o resultado 117 Erro Padrão de um Estimador Vimos que obtida a distribuição amostral de um estimador podíamos calcular a sua variância Se não pudermos obter a distribuição exata usamos uma aproximação se essa estiver disponível como no caso deX e a variância do estimador será a variância dessa aproximação Por exemplo para a média amostralX obtida de uma amostra de tamanho n temos que VarX σ 2 n na qual σ 2 é a variância da va X definida sobre a população À raiz quadrada dessa variância chamaremos de erro padrão deX e o denotaremos por EPX σ 1142 n Definição Se T for um estimador do parâmetro θ chamaremos de erro padrão de T a quantidade EPT VarT 1143 A variância de T dependerá dos parâmetros da distribuição de X o mesmo aconte cendo com o erro padrão Por exemplo em 1142 EPX depende de σ que em geral é desconhecida Podemos então obter o erro padrão estimado deX dado por epX E P X Sn 1144 na qual S2 é a variância amostral Genericamente o erro padrão estimado de T é dado por E PT VarT 1145 Muitas vezes a quantidade 1145 é chamada de erro amostral Mas preferimos chamar de erro amostral à diferença e T θ cap11cp65 2192009 1405 316 1 1 8 I N F E R Ê N C I A B AY E S I A N A 317 Exemplo 1117 Para o Exemplo 1115 p 06 e o erro padrão de p será dado por EPp p1 p 1146 n Como não conhecemos p usamos no seu lugar o estimador p obtendose E Pp 0604400 0025 Observe que o intervalo de confiança 1141 pode ser escrito p zγ E Pp ao passo que o intervalo para μ dado por 1137 pode ser escrito X 196EPX 118 Inferência Bayesiana O estabelecimento de uma ponte entre os valores observados na amostra e os mo delos postulados para a população objeto da inferência estatística exige a adoção de princípios teóricos muito bem especificados Neste livro usaremos a chamada teoria freqüentista às vezes também chamada de clássica Seus fundamentos encontramse em trabalhos de J Neyman E Pearson R Fisher e outros Consideremos um exemplo para ilustrar esse enfoque Suponha que tenhamos uma amostra observada x1 xn de uma população normal Nμ σ 2 e queremos fazer inferências sobre os valores de μ e σ 2 baseados nas n observações Por meio de algum procedimento estudado neste capítulo selecionamos estimadores μ x e σ 2x que sejam funções do vetor de observações x x1 xn Considere dados hipotéticos x1 x2 todos amostras de tamanho n que poderiam ter sido gerados da população em questão Obtemos então as distribuições amostrais de μ x e σ 2x como na seção 107 Podemos também obter intervalos de confiança para os parâmetros des conhecidos μ e σ 2 bem como testar hipóteses sobre esses parâmetros assunto a ser discutido no Capítulo 12 Para construir intervalos de confiança e testar hipóteses será necessário conhecer a distribuição amostral dos estimadores Como só temos um conjunto de dados e não dados hipotéticos estas distribuições amostrais terão de ser obtidas de outra maneira e não como no Exemplo 107 Usualmente isso é feito usando teoremas como o Teorema Limite Central discutido na seção 108 obtendose uma distribuição aproximada para os estimadores que vale para tamanhos de amostras grandes A crítica que se faz à teoria freqüentista é a possibilidade de replicar dados bem como o recurso à teoria assintótica Uma teoria que não faz uso de tais argumentos é a inferência bayesiana cujos fundamentos foram estabelecidos por T Bayes em 1763 Outros expoentes dessa corrente foram Bernoulli 1713 Laplace 1812 e Jeffreys 1939 Aqui o Teorema de Bayes estudado no Capítulo 5 tem papel fundamental A noção de probabilidade prevalente aqui é a subjetiva discutida brevemente no mesmo capítulo cap11cp65 2192009 1405 317 C A P Í T U L O 1 1 E S T I M A Ç Ã O 320 Do mesmo modo Py 0 Pθ1Py 0θ1 Pθ2Py 0θ2 715 e teremos a tabela a seguir y py y 0 815 y 0 715 Vemos que essa é a mesma distribuição marginal de y dada na tabela que mostra a distribuição conjunta de y e θ Então por 1148 Pθ θ1y 0 Pθ1Py 0θ1 35 23 34 Py 0 815 Pθ θ2y 0 Pθ2Py 0θ2 14 Py 0 De modo análogo obtemos Pθ θ1y 0 37 Pθ θ2y 0 47 Temos então as probabilidades condicionais de alta e baixa dada a informação de que o retorno é positivo ou negativo θ pθy y θ1 θ2 y 0 34 14 y 0 37 47 Podemos por exemplo estimar θ alta ou baixa por θ1 mercado em alta se y 0 já que Pθ θ1y 0 34 e estimar θ por θ2 mercado em baixa se y 0 pois Pθ θ2y 0 47 Ou seja tomamos o valor máximo da probabilidade a posteriori dada a informação sobre o rendimento Esse é um exemplo do que se chama de modelo estático Poderíamos considerar um modelo dinâmico supondose que esse muda de período para período de dia para dia ou de mês para mês etc 119 Exemplos Computacionais Simulando Erros Padrões Na seção 117 definimos o que seja o erro padrão de um estimador T de um parâmetro θ baseado numa AAS de uma população rotulada pela va X Vimos em particular que o erro padrão da média amostralX é dado por 1142 e esse pode ser estimado por 1144 ou seja EPX S n cap11cp65 2192009 1405 320 1 1 1 0 P R O B L E M A S E C O M P L E M E N T O S 325 26 Suponha que as vendas de um produto satisfaçam ao modelo Vt α βt at onde at é a variável aleatória satisfazendo as suposições da seção 114 e o tempo é dado em meses Suponha que os valores das vendas nos 10 primeiros meses do ano 1 sejam dados pelos valores da tabela abaixo Obtenha as previsões para os meses de novembro e dezembro do ano 1 e para julho e agosto do ano 2 t 1 2 3 4 5 6 7 8 9 10 yt 50 67 60 87 62 86 110 119 106 108 27 Numa pesquisa de mercado para estudar a preferência da população de uma cidade em relação a um determinado produto colheuse uma amostra aleatória de 300 indivíduos dos quais 180 preferiam esse produto a Determine um intervalo de confiança para a proporção da população que prefere o produto em estudo tome γ 090 b Determine a probabilidade de que a estimativa pontual dessa proporção não difira do verdadeiro valor em mais de 0001 c É possível obter uma estimativa pontual dessa proporção que não difira do valor verdadeiro em mais de 00005 com probabilidade 095 Caso contrário determine o que deve ser feito 28 Uma amostra de 10000 itens de um lote de produção foi inspecionada e o número de defeitos por item foi registrado na tabela abaixo No de defeitos 0 1 2 3 4 Quantidade de peças 6000 3200 600 150 50 a Determine os limites de confiança para a proporção de itens defeituosos na popula ção com coeficiente de confiança de 98 Use 1140 b Mesmo problema usando 1141 29 Antes de uma eleição em que existiam dois candidatos A e B foi feita uma pesquisa com 400 eleitores escolhidos ao acaso e verificouse que 208 deles pretendiam votar no candidato A Construa um intervalo de confiança com cc γ 095 para a porcentagem de eleitores favoráveis ao candidato A na época das eleições 30 Encontre o cc de um intervalo de confiança para p se n 100 p 06 e a amplitude do intervalo deve ser igual a 0090 31 Usando os resultados do Problema 32 do Capítulo 10 mostre que o intervalo de confiança para a diferença das médias populacionais com variâncias conhecidas é dado por ICμ1 μ2 γ X Y zγ σ 2 1n1 σ 2 2n2 32 Estão sendo estudados dois processos para conservar alimentos cuja principal variável de interesse é o tempo de duração destes No processo A o tempo X de duração segue a distribuição NμA 100 e no processo B o tempo Y obedece à distribuição NμB 100 Sorteiamse duas amostras independentes a de A com 16 latas apresentou tempo médio de duração igual a 50 e a de B com 25 latas duração média igual a 60 cap11cp65 2192009 1405 325 121 Introdução Vimos no Capítulo 10 que um dos problemas a serem resolvidos pela Inferência Estatística é o de testar uma hipótese Isto é feita determinada afirmação sobre uma população usualmente sobre um parâmetro dessa desejamos saber se os resultados experimentais provenientes de uma amostra contrariam ou não tal afirmação Muitas vezes essa afirmação sobre a população é derivada de teorias desenvolvidas no cam po substantivo do conhecimento A adequação ou não dessa teoria ao universo real pode ser verificada ou refutada pela amostra O objetivo do teste estatístico de hipóte ses é então fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evidências que apóiem ou não uma hipótese estatística formulada Neste capítulo iremos introduzir o procedimento básico de teste de hipótese sobre um parâmetro de uma população A idéia central desse procedimento é a de supor verdadeira a hipótese em questão e verificar se a amostra observada é verossímil nessas condições No capítulo seguinte daremos alguns testes para comparação de parâmetros de duas populações 122 Um Exemplo Vamos introduzir a idéia de teste de uma hipótese por meio de um exemplo hipo tético que partindo de uma situação simples será gradualmente ampliado para aten der à situação geral do teste de hipóteses Exemplo 121 Uma indústria usa como um dos componentes das máquinas que pro duz um parafuso importado que deve satisfazer a algumas exigências Uma dessas é a resistência à tração Esses parafusos são fabricados por alguns países e as especificações técnicas variam de país para país Por exemplo o catálogo do país A afirma que a resistência média à tração de seus parafusos é de 145 kg com desvio padrão de 12 kg Já para o país B a média é de 155 kg e desvio padrão 20 kg Um lote desses parafusos de origem desconhecida será leiloado a um preço muito convidativo Para que a indústria saiba se faz ou não uma oferta ela necessita saber qual Capítulo 12 Testes de Hipóteses cap12cp65 2192009 1425 330 131 Introdução Neste capítulo abordaremos o tópico importante de comparar duas populações Pl e P2 baseados em dados fornecidos por amostras dessas populações Como vimos uma grande parte das técnicas usadas em Estatística supõe que as variáveis aleatórias envolvidas tenham distribuição normal Alguns testes que trataremos envolverão a normal Contudo se essa suposição de normalidade for violada procedimentos mais robustos têm de ser utilizados e veremos exemplos de tal situação Uma pergunta que aparece freqüentemente em Ciência é a seguinte o método A é melhor do que o B Em termos estatísticos ela equivale a comparar dois conjuntos de informações resultantes das medidas obtidas da aplicação dos dois métodos a dois conjuntos de objetos ou indivíduos Uma das dificuldades que enfrentamos é a de caracterizar adequadamente a igual dade ou equivalência de duas populações Por exemplo suponha que estamos interessados em saber se alunos de duas regiões A e B tiveram desempenhos iguais em um mesmo teste nacional Mais ainda suponha que tenhamos os resultados do teste para todos os alunos das duas regiões isto é conhecemos as duas populações Suponha que cálculos posteriores revelem que as médias e desvios padrões das duas populações sejam iguais isto é μA μB e σA σB Será que isso equivale a dizer que os desempenhos nas duas regiões são equivalentes Se uma análise mais cuidadosa não for feita poderemos ser levados a responder afirmativamente a essa questão Entretan to observando a Figura 131 vemos que é possível ter duas distribuições com os mesmos parâmetros acima mas formas bastante distintas Figura 131 Distribuições das populações A e B com μA μB 4 σA σB 116 Capítulo 13 Inferência para Duas Populações cap13dP65 2192009 1438 361 C A P Í T U L O 1 3 I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 362 Esse fato nos remete à necessidade de também mencionarmos a forma da distri buição Especificada a forma a igualdade dos parâmetros que identificam a curva implica a igualdade ou coincidência das duas populações É bem pouco provável que um mesmo fenômeno obedeça a formas de distribuições distintas como no exemplo da Figura 131 Seguir uma mesma distribuição porém com parâmetros distintos é mais verossímil Como a normal é um modelo importante e seguido por muitas variáveis de interesse prático estaremos admitindo essa forma a não ser quando uma análise dos dados nos diga o contrário Neste capítulo trataremos de várias situações que passamos a descrever 1 Inferências para duas médias amostras independentes Aqui temos dados na forma de duas amostras extraídas independentemente de cada população É muito comum em experimentos do tipo controle versus tratamento nos quais o interesse principal é verificar o efeito desse último O caso típico é aquele de comparar uma nova droga com uma padrão usadas para o tratamento de uma doença Exemplo 131 a Um curso de Estatística é ministrado pela televisão para um grupo de alunos e ao vivo para outro grupo Queremos testar a hipótese de que o curso ao vivo é mais eficaz que o curso por meio da televisão b Queremos comparar o efeito de duas rações A e B sobre o crescimento de porcos Dois grupos de porcos em crescimento foram alimentados com as duas rações e após cinco semanas verificamse quais foram os ganhos de peso dos porcos dos dois grupos c 20 canteiros foram plantados com uma variedade de milho Em dez deles um novo tipo de fertilizante é aplicado e nos outros um fertilizante padrão Exami nandose as produções dos dois canteiros queremos saber se há diferenças sig nificativas entre as produções Na maioria das vezes fica claro o que chamamos de controle e tratamento No exemplo c acima os canteiros tratados com o novo fertilizante seriam o grupo de tratamento enquanto os demais tratados com o fertilizante usual constituiriam o gru po de controle Mas nos exemplos a e b essa distinção é apenas convencional Formalmente o modelo para o problema das duas amostras é o seguinte as va X1 Xm representam as respostas do grupo de controle e são consideradas va inde pendentes com a mesma distribuição P1 Y1 Yn representam as respostas do grupo de tratamento e são v a independentes com a mesma distribuição P2 Além disso X1 Xm Y1 Yn são independentes entre si A hipótese a ser testada é H0 P1 P2 131 ou seja queremos testar a homogeneidade das populações de onde as amostras foram extraídas H0 é chamada hipótese de homogeneidade cap13dP65 2192009 1438 362 C A P Í T U L O 1 3 I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 364 ordinal A análise fica mais fácil quando a P1 e P2 são atribuídas distribuições de variá veis contínuas Discutiremos a razão desta suposição adicional Outro caso de interesse é aquele em que queremos testar se as duas médias são iguais mas as variâncias são diferentes Na Figura 131 as duas curvas teriam disper sões diferentes ao redor de suas médias Então um teste preliminar de igualdade de variâncias seria necessário O teste t de Student para o caso de populações normais será apresentado neste capítulo A hipótese 131 ou 132 nos diz que não há efeito do tratamento A alternativa usual para H0 é que o efeito do tratamento é o de aumentar as respostas Isto é P2 gera valores maiores que P1 com maior freqüência Mas pode ocorrer o contrário diminuir as respostas Por exemplo o tratamento visa a diminuir o tempo para executar deter minada tarefa 2 Inferências para duas médias amostras dependentes Quando se comparam as médias de duas populações pode ocorrer uma diferença significativa por causa de fatores externos nãocontrolados Por exemplo no caso do Exemplo 134 abaixo poderia ocorrer que um dos grupos tivesse vendedores mais experientes e habilidosos do que o outro Logo a diferença seria devido a esses fatos e não ao mérito real da técnica de vendas Um modo de contornar esse problema é coletar as observações em pares de modo que os dois elementos de cada par sejam homogêneos em todos os sentidos exceto no que diz respeito ao fator que queremos comparar Por exemplo no caso do Exemplo 131 a para testar os dois métodos de ensino poderíamos usar n pares de gêmeos sendo que um elemento de cada par recebe aulas pela TV e outro ao vivo Esse procedimento pretende controlar o maior número possí vel de fatores externos que possam afetar o aprendizado Se houver diferença no apren dizado essa deverseá realmente ao método Esse procedimento também é usado quando observações das duas amostras são feitas no mesmo indivíduo por exemplo medindo uma característica do indivíduo antes e depois de ele ser submetido a um tratamento O teste t de Student para observações pareadas ou emparelhadas supondo nor malidade é apropriado para essas situações 3 Inferências para duas variâncias amostras independentes Como vimos no item 1 podemos testar se duas amostras independentes pro vêm de duas populações com variâncias iguais desconhecidas Se essas variâncias forem diferentes o teste tem de ser modificado Esse teste sob a suposição de normalidade das duas populações usa uma estatística que tem uma distribuição especial chamada F de Snedecor Finalizando esta seção ressaltamos que poderemos ter mais do que duas amostras e técnicas semelhantes podem ser desenvolvidas Veja o Capítulo 15 cap13dP65 2192009 1438 364 C A P Í T U L O 1 3 I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 372 foram 62 e 71 respectivamente Sabese que o desvio padrão em ambos os casos deve ser da ordem de 20 unidades É possível afirmar que o gasto médio nas duas filiais seja o mesmo Caso contrário dê um intervalo de confiança para a diferença 7 Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas especiais Para verificar o efeito dos tratamentos foram usadas amostras cujos resultados estão no quadro abaixo em porcentagem de corrosão eliminada Qual seria a conclusão sobre os dois tratamentos Método Amostra Média Desvio Padrão A 15 48 10 B 12 52 15 8 No Problema 4 teste a hipótese de que as médias dos comprimentos do produto produzido pelas duas fábricas são iguais 9 Para investigar a influência da opção profissional sobre o salário inicial de recémforma dos investigaramse dois grupos de profissionais um de liberais em geral e outro de formados em Administração de Empresas Com os resultados abaixo expressos em salários mínimos quais seriam suas conclusões Liberais 66 103 108 129 92 123 70 Administradores 81 98 87 100 102 82 87 101 1332 Populações NãoNormais Passamos agora a descrever um teste que não faz suposições a respeito da forma das distribuições P1 e P2 a não ser que as variáveis envolvidas tenham uma escala de medida pelo menos ordinal Ou seja podemos abordar o caso de variáveis qualitativas ordinais e variáveis quantitativas Esse teste chamado de Wilcoxon ou de MannWhitney pertence a uma categoria de procedimentos chamados não paramétricos ou livres de distribuição Teremos para análise amostras independentes das duas populações e queremos testar a hipótese 131 contra a alternativa de que as distribuições diferem em locali zação estaremos interessados em saber se uma população tende a ter valores maiores do que a outra ou se elas têm a mesma mediana ou média O teste de Wilcoxon é baseado nos postos dos valores obtidos combinandose as duas amostras Isso é feito ordenandose esses valores do menor para o maior inde pendentemente do fato de qual população cada valor provém A estatística do teste é a soma dos postos associados aos valores amostrados de uma população P1 por exemplo Se essa soma for grande isso é uma indicação de que os valores dessa população tendem a ser maiores do que os valores de P2 e então rejeitamos 131 No caso de termos uma va qualitativa ordinal comumente associamos números às diversas categorias ou classes ou atributos segundo as quais a variável é classi cap13dP65 2192009 1438 372 1 3 3 C O M P A R A Ç Ã O D E D U A S P O P U L A Ç Õ E S A M O S T R A S I N D E P E N D E N T E S 379 Figura 134 Resistência à remoção em kg para o modelo C Figura 135 Resistência à remoção em kg para o modelo T Vemos que há assimetrias nos histogramas sugerindo que a aplicação do teste t de Student não é adequada nessa situação A Tabela 136 mostra as médias das 5 leituras para cada corpo de prova para o modelo T e para o modelo C em ordem crescente Admitamos que o grupo de controle seja aquele em que os grampos sejam do tipo T e grampos do tipo C constituam o tratamento Ordenando as médias da Tabela 136 e atribuindo postos obtemos a Tabela 137 Tabela 136 Valores de resistência à remoção para os dois modelos T C T C 060 052 119 119 063 077 120 120 083 079 126 134 085 079 128 136 091 081 130 138 095 081 137 143 101 089 145 164 103 098 154 171 103 101 168 216 116 118 220 225 cap13dP65 2192009 1438 379 1 3 5 C O M P A R A Ç Ã O D E P R O P O R Ç Õ E S E M D U A S P O P U L A Ç Õ E S 387 H0 Se α 005 então wα 1 e o valor observado estará na fronteira da região crítica e teremos dúvidas em aceitar ou rejeitar H0 Como salientamos antes a decisão nesse caso dependerá de uma análise cuidadosa dos resultados dado o pequeno valor de n 135 Comparação de Proporções em Duas Populações Nosso objetivo agora é a comparação das proporções de duas populações P1 e P2 Sendo mais explícitos queremos comparar as proporções populacionais p1 e p2 por meio dos estimadores ˆp1 e ˆp 2 obtidos de amostras independentes de tamanhos n1 e n2 respectiva mente Das seções 109 e 126 temos ˆ p1 1 1 1 1 1 N p p p n p N p p p n 2 2 1 2 2 1 ˆ Comparando com o resultado da seção 1331 e também do Problema 1032 obtemos p p N p p p p n p p n 1 2 1 2 1 1 1 2 2 2 1 1 ˆ ˆ e portanto a estatística de decisão tanto para a construção de intervalos de confiança como para testes de hipóteses será z p p p p p p n p p n N ˆ ˆ 1 2 1 2 1 1 1 2 2 2 1 1 0 1 Mas como os valores dos parâmetros são desconhecidos substituemse as variâncias pelas seus estimadores obtendose como visto em 1331b uma distribuição aproxima damente t de Student Entretanto estudos envolvendo proporções utilizam amostras gran des e os valores da distribuição t aproximamse de valores da normal padronizada Desse modo para comparação de duas proporções recomendase sempre o uso da estatística 1 1 z p p p p p p n p p n N ˆ ˆ ˆ ˆ ˆ ˆ 1 2 1 2 1 1 1 2 2 2 0 1 1335 Exemplo 1312 Para lançamento da nova embalagem do sabonete SEBO a divisão de criação estuda duas propostas A amarela com letras vermelhas ou B preta com letras douradas cap13dP65 2192009 1438 387 1 3 5 C O M P A R A Ç Ã O D E P R O P O R Ç Õ E S E M D U A S P O P U L A Ç Õ E S 389 Da tabela obtemos ˆpc 3481000 0348 substituindo em 1336 obtemos Z 0 42 0 30 0 348 0 652 1 400 1 600 3 90 Consultando a Tabela III encontramos valorp próximo de zero o que leva a rejei ção de H0 Como esse resultado mostra que as variâncias também são diferentes a construção do Intervalo de Confiança é obtida do mesmo modo acima 16 Para investigar a lealdade de consumidores a um determinado produto sorteouse uma amostra de 200 homens e 200 mulheres Foram classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres Os dados trazem evidências de diferença de grau de fidelidade entre os sexos Em caso afirmativo construa um intervalo de confiança para a diferença 17 Em uma amostra de 500 famílias da cidade A constatouse que 298 haviam comprado durante os últimos 30 dias o refrigerante MecaMela em sua nova versão incolor Na cidade B esse número foi de 147 em 300 famílias entrevistadas Na cidade A foi feita uma campanha publicitária através da rádio local e não na cidade B Os resultados trazem evidências de que as campanhas locais aumentam as vendas 18 Um partido afirma que a porcentagem de votos masculinos a seu favor será 10 a mais que a de votos femininos Em uma pesquisa feita entre 400 homens 170 votariam no partido enquanto que entre 625 mulheres 194 lhe seriam favoráveis A afirmação do partido é verdadeira ou não Caso rejeite a igualdade dê um IC para a diferença 19 Para investigar os resultados do segundo turno de uma eleição estadual tomaramse duas amostras de 600 eleitores cada uma da capital e outra do interior Da primeira 276 disse ram que votariam no candidato A enquanto que 312 eleitores do interior também o fariam a Estime a proporção de eleitores da capital que votariam em A Dê um IC b Existe diferença nas proporções entre capital e interior c Que tamanho igual deveriam ter ambas as amostras para que a diferença entre as proporções fosse estimada com erro inferior a 2 d Qual a proporção esperada de votos que irá receber o candidato A no estado e De uma amostra de 120 indivíduos da classe A e B 69 são favoráveis a eleição em dois turnos enquanto que em uma amostra de 100 indíviduos da classe C 48 é que são favoráveis Existe evidência e diferenças de opiniões em relação à classe social 20 Para verificar a importância de um cartaz nas compras de certo produto procedeuse do seguinte modo a formaramse sete pares de lojas b os pares foram formados de modo que tivessem as mesmas características quanto à localização ao tamanho e ao volume de vendas c num dos elementos do par colocouse o cartaz no outro não d as vendas semanais foram registradas e os resultados estão a seguir Qual seria a sua conclusão sobre a eficiência do cartaz Use o teste t fazendo as supo sições necessárias Problemas cap13dP65 2192009 1438 389 1 3 6 E X E M P L O C O M P U T A C I O N A L 391 Na Tabela 1312 temos os dados e as diferenças di xi yi i 1 2 26 Na Figura 136 temos os box plots dos dois conjuntos de dados que sugerem distribui ções bem diferentes Tabela 1312 Índices de placa bacteriana Sujeito Antes xi Depois yi di xi yi Postos de di 1 218 043 175 18 2 205 008 197 20 3 105 018 087 7 4 195 078 117 13 5 028 003 025 2 6 263 023 240 235 7 150 020 130 16 8 045 000 045 3 9 070 005 065 5 10 130 030 100 10 11 125 033 092 8 12 018 000 018 1 13 330 090 240 235 14 140 024 116 12 15 090 015 075 6 16 058 010 048 4 17 250 033 217 21 18 225 033 192 19 19 153 053 100 10 20 143 043 100 10 21 348 065 283 26 22 180 020 160 17 23 150 025 125 145 24 255 015 240 235 25 130 005 125 145 26 265 025 240 235 Total 3552 3510 Figura 136 Box plot para xi antes e yi depois SPlus cap13dP65 2192009 1438 391 1 3 6 E X E M P L O C O M P U T A C I O N A L 393 Quadro 131 Test t pareado Minitab MTB Paired c1 c2 SUBC Confidence 950 SUBC Test 00 SUBC Alternative 1 SUBC GDotplot SUBC GBoxplot Paired TTest and Confidence Interval Paired T for C1 C2 N Mean StDev SE Mean C1 26 1642 0883 0173 C2 26 0276 0232 0046 Difference 26 1366 0750 0147 95 CI for mean difference 1063 1669 TTest of mean difference 0 vs not 0 TValue 929 PValue 0000 Figura 137 Dotplot das diferenças di com o intervalo de confiança para μD também mostrados H0 μD 0 ed 1366 cap13dP65 2192009 1438 393 1 3 7 P R O B L E M A S E C O M P L E M E N T O S 395 conclusões você obteria se uma amostra de 25 torneiros apresentasse salário médio igual a 422 salários mínimos e desvio padrão igual a 125 salário mínimo 27 Os dados abaixo representam a porcentagem do orçamento gasto com pessoal para 50 pequenos municípios de uma certa região 695 716 730 689 689 700 726 662 681 724 676 732 676 697 710 694 715 738 696 696 682 699 714 707 697 710 660 703 717 692 698 684 695 682 721 708 722 692 717 656 696 701 699 705 680 702 690 663 694 671 a Analise estatisticamente os dados b Com base na sua análise e sabendo que na região considerada existem ao todo 200 municípios em quantos deles você acha que o gasto com pessoal é maior que 70 do orçamento c Em outra região sabese que o gasto médio com pessoal é de 65 e o desvio padrão é de 20 Qual das duas regiões é mais homogênea em relação a essa variável Por quê 28 Uma amostra de 100 trabalhadores de uma fábrica grande demora em média 12 minutos para completar uma tarefa com um desvio padrão de dois minutos Uma amostra de 50 trabalhadores de uma outra fábrica demora em média 11 minutos para completar a mesma tarefa com desvio padrão igual a três minutos a Construa um IC de 95 para a diferença entre as duas médias populacionais b Deixe bem claro quais as suposições feitas para a solução apresentada 29 Desejase testar se dois tipos de ensino profissional são igualmente eficazes Para isso sortearamse duas amostras de operários a cada uma deuse um dos tipos de treina mento e no final submeteramse os dois grupos a um mesmo teste Que tipo de conclu são você poderia tirar baseandose nos resultados abaixo Amostra No de elementos Média Desvio padrão Tipo I 12 75 5 Tipo II 10 74 10 30 Numa discussão sobre reajuste salarial entre empresários e o sindicato dos empregados chegouse a um impasse Os empresários dizem que o salário médio da categoria é 76 salários mínimos SM e os empregados dizem que é 65 SM Para eliminar dúvidas cada um dos grupos resolveu colher uma amostra independente Os empresários com uma amostra de 90 operários observaram um salário médio de 70 SM com um desvio padrão igual a 29 SM Já a amostra do sindicato com 60 operários apresentou média igual a 710 SM e desvio padrão de 24 SM a As amostras colhidas servem para justificar as respectivas afirmações dos dois grupos b De posse dos dois resultados qual é o seu parecer cap13dP65 2192009 1438 395 C A P Í T U L O 1 3 I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 396 31 A Torrefação Guarany está querendo comprar uma nova ensacadora de café Após con sultar o mercado ficou indecisa entre comprar a de marca A ou a de marca B Quanto ao custo facilidade de pagamento tamanho etc elas são equivalentes O fator que decidirá a compra será a precisão em encher os pacotes medido pela variância Desejase na realidade testar hipótese σ 2 A σ 2 B através da estatística F S 2 AS 2 B Podemse construir regiões críticas bilaterais unilaterais à direita ou à esquerda dependendo do objetivo Indique qual seria a região crítica mais favorável às seguintes pessoas Justifique a proprietário da torrefação b fabricante de A e c fabricante de B 32 Um médico deseja saber se uma certa droga reduz a pressão arterial média Para isso mediu a pressão arterial em cinco voluntários antes e depois da ingestão da droga obtendo os dados do quadro abaixo Você acha que existe evidência estatística de que a droga realmente reduz a pressão arterial média Que suposições você fez para resol ver o problema Voluntário A B C D E Antes 68 80 90 72 80 Depois 60 71 88 74 76 33 Uma amostra de 100 lâmpadas elétricas produzidas pela fábrica A indica uma vida média de 1190 horas com desvio padrão de 90 horas Uma amostra de 75 lâmpadas produzidas pela fábrica B indica uma vida média de 1230 horas com desvio padrão de 120 horas Admitindo que as variâncias populacionais sejam diferentes você acha que existe diferença entre as vidas médias populacionais das lâmpadas produzidas pelas fábricas A e B 34 Queremos comparar dois métodos de ensino A e B Dispomos de 40 crianças Podemos proceder de duas maneiras i Sorteamos 20 crianças para compor uma classe e as restantes formam outra classe Aplicamos um método a cada classe e depois fazemos uma avaliação para todas as crianças a respeito do assunto ensinado ii Aplicamos inicialmente um teste de inteligência às 40 crianças Numeramos as crian ças de 1 a 40 segundo o resultado do teste Consideramos os 20 pares 1 2 3 4 39 40 e de cada par sorteamos uma criança para cada classe Obtemos assim duas classes de 20 crianças homogêneas quanto à inteligência Apli camos um método a cada classe e depois avaliamos todas as crianças a Qual a variável de observação em cada procedimento b Quais as hipóteses estatísticas adequadas c Qual o teste estatístico de decisão em cada caso d Qual dos dois procedimentos você preferiria Por quê 35 De 400 moradores sorteados de uma grande cidade industrial 300 são favoráveis a um projeto governamental e de uma amostra de 160 moradores de uma cidade cuja princi pal atividade é o turismo 120 são contra a Você diria que a diferença de opiniões nas duas cidades é estatisticamente significante cap13dP65 2192009 1438 396 C A P Í T U L O 1 3 I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 398 44 Para o CDTemperaturas teste se a temperatura média de Cananéia é igual à temperatura média de Ubatuba suponha que as observações para cada cidade sejam independentes embora saibamos que elas não são pois temos dados de séries temporais 45 Numa pesquisa sobre a opinião dos moradores de duas cidades A e B com relação a um determinado projeto obtevese Cidade A B No de entrevistados 400 600 No de favoráveis 180 350 Construa um IC para a diferença de proporções de opiniões nas duas cidades 46 Duas máquinas A e B são usadas para empacotar pó de café A experiência passada garante que o desvio padrão para ambas é de 10 g Porém suspeitase que elas têm médias diferentes Para verificar sortearamse duas amostras uma com 25 pacotes da máquina A e outra com 16 pacotes da máquina B As médias foram respectivamente xA 50274 g e xB 49660 g Com esses números e com o nível de 5 qual seria a conclusão do teste H0 μA μB 47 Na região sul da cidade 60 entre 400 pessoas preferem a bebida MecaMela entre as demais similares Na região norte a proporção é de 40 entre 225 entrevistados Baseado no resultado dessa amostra você diria que a proporção de todos os moradores nas duas regiões é a mesma Use α 005 48 Uma pesquisa mercadológica sobre fidedignidade a um produto doi realizada em dois anos consecutivos com duas amostras independentes de 400 donas de casa em cada uma delas A preferência pela marca em questão foi de 33 e 29 respectivamente Os resultados trazem alguma evidência de mudança de preferência cap13dP65 2192009 1438 398 C A P Í T U L O 1 4 A N Á L I S E D E A D E R Ê N C I A E A S S O C I A Ç Ã O 400 Aqui o teste comparará o número de casos ocorridos em caselas especificadas com o número esperado de casos nelas quando a hipótese H0 for verdadeira O procedimento consiste em considerar classes segundo as quais a variável X característica da população pode ser classificada A variável X pode ser qualitativa ou quantitativa Neste capítulo estudaremos um teste no qual as probabilidades da va X pertencer a cada uma das classes são especificadas A estatística usada será 141 Exemplo 141 Um dado é lançado 300 vezes com os resultados dados na Tabela 141 Por enquanto considere somente a linha correspondente às freqüências observadas Com os resultados observados queremos saber se o dado é honesto isto é se a proba bilidade de ocorrência de qualquer face é 16 Ou seja queremos testar a hipótese H0 p1 p2 p6 16 onde pi P face i i 1 2 6 Isso equivale a dizer que P0 segue uma distribuição uniforme discreta Tabela 141 Resultados do lançamento de um dado 300 vezes Ocorrência i 1 2 3 4 5 6 Total Freq Observada ni 43 49 56 45 66 41 300 Freq Esperada n i 50 50 50 50 50 50 300 2 Testes de Homogeneidade Considere o seguinte exemplo Exemplo 142 Uma prova básica de Estatística foi aplicada a 100 alunos de Ciências Humanas e a 100 alunos de Ciências Biológicas As notas são classificadas segundo os graus A B C D e E onde D significa que o aluno não recebe créditos e E indica que o aluno foi reprovado Os resultados estão na Tabela 142 Tabela 142 Resultados da aplicação de uma prova de Estatística a 100 alunos de Ciências Humanas e 100 alunos de Biologia Aluno Grau de A B C D E Total C Humanas 15 20 30 20 15 100 C Biológicas 8 23 18 34 17 100 Total 23 43 48 54 32 200 Queremos testar se as distribuições das notas para as diversas classes são as mesmas para os dois grupos de alunos Esse teste pode ser estendido para o caso de três ou mais populações cap14cp65 2192009 1446 400 1 4 1 I N T R O D U Ç Ã O 401 Testes desse tipo já foram vistos no Capítulo 13 onde queríamos testar a hipótese 131 Estudamos lá dois testes o t de Student e o de Wilcoxon Para esses testes supomos ou que as populações sejam normais ou então preferencialmente que tenham distribui ções contínuas não necessariamente normais Mas de qualquer modo testávamos sepa radamente se as duas populações diferiam em localização ou escala No caso presente iremos apresentar um teste baseado na estatística 141 que contempla alternativas gerais por exemplo as populações podem diferirse em localização e escala Novamente para efetuar o teste consideramos amostras das duas populações P1 e P2 e classificamos os seus elementos de acordo com certo número de categorias para as duas variáveis características de P1 e P2 3 Testes de Independência Vimos no Capítulo 4 a importância de quantificar o grau de associação entre duas variáveis usando a estatística 141 Porém essa quantificação só tem sentido se as variáveis não forem independentes O teste que apresentaremos aqui supõe a existência de duas vas X e Y e os valores de amostras delas são classificados segundo categorias obtendose uma tabela de dupla entrada Queremos testar a hipótese que X e Y são independentes Exemplo 143 Uma companhia de seguros analisou a freqüência com que 2000 segurados 1000 homens e 1000 mulheres usaram hospitais Os resultados estão na Tabela 143 A hipótese a testar é que o uso de hospital independe do sexo do segurado veja o Problema 6 do Capítulo 4 Tabela 143 Freqüências com que 2000 segurados usaram hospital Homens Mulheres Usaram hospital 100 150 Não usaram hospital 900 850 4 Teste para o Coeficiente de Correlação Quando se investiga associação entre duas variáveis quantitativas o artifício de agrupar os dados em intervalos classes reduz a variável quantitativa a um caso parti cular de variável qualitativa assim poderíamos usar as mesmas técnicas da análise desse último tipo de variável Mas esse procedimento pode não ser o melhor possível e o uso do coeficiente de correlação como medida de associação entre variáveis quan titativas é o caminho mais apropriado Na seção 145 voltaremos a tratar desse tema agora sob o ponto de vista da inferência Para finalizar esta seção notamos que os testes descritos nos itens 13 são todos baseados na distribuição quiquadrado e são parte dos chamados testes nãoparamétricos Para essa classe de testes não se supõe que a população ou populações siga algum modelo particular como fizemos para alguns dos testes dos Capítulos 12 e 13 Na seção 146 cap14cp65 2192009 1446 401 C A P Í T U L O 1 4 A N Á L I S E D E A D E R Ê N C I A E A S S O C I A Ç Ã O 406 1 Calcule o valorp para o Exemplo 141 2 Calcule os valoresp para os Exemplos 145 e 146 3 Um modelo genético especifica que animais de certa população devam estar classificados em quatro categorias com probabilidades p1 0656 p2 0093 p3 0093 p4 0158 Dentre 197 animais obtivemos as seguintes freqüências observadas O1 125 O2 18 O3 20 O4 34 Teste se esses dados estão de acordo com o modelo genético postulado 4 Teste se os dados abaixo são observações de uma distribuição normal com média 30 e desvio padrão 10 159 169 183 185 190 195 218 230 238 245 261 269 323 350 361 365 372 385 409 442 5 Um dado foi lançado 1000 vezes com os seguintes resultados Ocorrência 1 2 3 4 5 6 Freqüência 158 186 179 161 141 175 Teste a hipótese que o dado é balanceado 143 Testes de Homogeneidade Vimos no capítulo anterior como testar a hipótese 131 de que as duas popula ções P1 e P2 tinham a mesma distribuição Os testes utilizados foram baseados na distribuição t de Student que assume normalidade das populações ou o teste não paramétrico de Wilcoxon MannWhitney que não faz essa suposição mas fica bem mais fácil se as distribuições forem contínuas O teste que apresentaremos agora pode ser usado para dados discretos ou contínu os e serve para testar H0 dada por 131 contra alternativas gerais e não somente para testar diferenças de localização Exemplo 142 continuação Considerando P1 como a população de alunos de Ciências Humanas e P2 a dos alunos de Ciências Biológicas nosso objetivo é testar a hipótese H0 P1 P2 usando os resultados amostrais da Tabela 142 Para isso precisamos encontrar os valores esperados n ij para aplicar a fórmula 141 Inicialmente observemos que se H0 for verdadeira a distribuição de probabilidades nas duas linhas deveria ser a mesma e equivaleria a ter uma única população P A última linha de totais da Tabela 142 representaria uma amostra de 200 alunos dessa única Problemas cap14cp65 2192009 1446 406 1 4 3 T E S T E S D E H O M O G E N E I D A D E 407 população A Tabela 147 apresenta as estimativas das proporções em cada grau para P1 P2 e P Sendo H0 verdadeira deveríamos esperar para P1 e P2 as mesmas proporções observadas para P ou valores aproximadamente iguais Ou ainda todas as linhas dessa tabela deveriam ser iguais entre si e iguais à linha de totais o que aparentemente não ocorre A partir dessas porcentagens podemos obter as freqüências absolutas correspon dentes ou valores esperados se H0 for verdadeira Obtemos então a Tabela 148 Tabela 147 Porcentagens estimadas das classes para cada população Aluno Grau de A B C D E Total C Humanas 15 20 30 20 15 100 C Biológicas 8 23 18 34 17 100 Total 115 215 24 27 16 100 Tabela 148 Freqüências absolutas sob H0 n ij Aluno Grau de A B C D E Total C Humanas 115 215 24 27 16 100 C Biológicas 115 215 24 27 16 100 Total 23 43 48 54 32 200 Desse modo encontramos os valores esperados n ij que podem ser substituídos em 141 obtendose χ2 obs 15 1152 15 162 8 1152 17 162 909 115 16 115 16 Novamente para consultar a tabela precisamos determinar os graus de liberdade e va mos usar o mesmo argumento anterior Quantas caselas poderíamos preencher livremente em uma simulação sendo que os totais marginais são conhecidos Observando a Tabela 149 concluímos que basta preencher apenas quatro caselas as seis restantes são encontradas por diferenças Como exemplo preenchemos quatro caselas com círculos as demais sinais de mais podem ser obtidas por diferenças a partir dos totais de linhas ou colunas Tabela 149 Determinação do número de graus de liberdade Aluno Grau de A B C D E Total C Humanas o o 100 C Biológicas o o 100 Total 23 43 48 54 32 200 cap14cp65 2192009 1446 407 C A P Í T U L O 1 4 A N Á L I S E D E A D E R Ê N C I A E A S S O C I A Ç Ã O 408 Da Tabela IV com α 005 e 4 graus de liberdade encontramos χ2 c 9488 o que leva à nãorejeição de H0 ou seja a distribuição das notas é a mesma para as duas populações Observe que os valores esperados na Tabela 148 podem ser obtidos de n ij ni njn Exemplo 147 Consideremos novamente o Exemplo 139 e verifiquemos quantos elementos de cada amostra caem nas seguintes classes de resistência à remoção 04 10 10 16 16 22 22 28 Obtemos a Tabela 1410 com os valores espera dos entre parênteses Tabela 1410 Valores observados para amostras do Exemplo 1312 Populações 04 10 10 16 16 22 22 28 Total P1T 29 33 60 52 9 11 2 4 100 P2C 37 33 44 52 13 11 6 4 100 Total 66 104 22 8 200 Utilizando 141 obtemos χ2 obs 61585 Como temos s 4 rejeitaremos H0 se 61585 c onde c é o valor de uma va com distribuição χ23 tal que Pχ 23 c α Com α 005 obtemos c 7815 da Tabela IV logo não rejeitamos H0 no nível α Esse teste pode ser estendido para o caso de termos r populações P1 Pr e que rermos testar a hipótese H0 P1 P2 Pr 146 contra a alternativa em que pelo menos duas são distintas Obteremos uma tabela de dupla entrada r s Designandose os tamanhos das amostras dessas populações por n1 nr com n1 nr N e por nij o número de elementos da amostra de Pi classificados na categoria j teremos a situação da Tabela 411 A hipótese a ser testada aqui é H0 p11 p21 pr1 p1s p2s prs Nesse caso a estatística 141 tem distribuição χ 2v onde o número de graus de liberdade v é dado por v r 1s 1 O argumento para obter esse número é o mesmo usado para o Exemplo 142 6 Suponha que tenhamos razões para crer que as notas obtidas por estudantes de escolas públicas sejam menores que as notas obtidas por estudantes de escolas particulares ao tomarem o exame vestibular para uma Universidade Para testar essa hipótese foram selecionadas duas amostras de estudantes que prestaram o vestibular suas médias gerais foram anotadas e obtevese a tabela a seguir Problemas cap14cp65 2192009 1446 408 1 4 7 P R O B L E M A S E C O M P L E M E N T O S 417 Podemos comparar os quantis empíricos dos dados com os quantis da normal por meio de um gráfico q q com o objetivo de verificar que os pontos se distribuem ao redor de uma reta como na Figura 144 Figura 144 Quantis da normal padrão contra quantis dos dados 147 Problemas e Complementos 17 Teste a independência entre o tipo de atividade e o tipo de propriedade de embarcações para o Problema 20 do Capítulo 4 18 Supõese que uma moeda favoreça cara na proporção de duas caras para três coroas Para testar tal hipótese lançase uma moeda quatro vezes contandose o número de caras Repetese esse experimento 625 vezes Os resultados estão na tabela abaixo Esses dados confirmam ou não a suposição No de caras 0 1 2 3 4 Total Freqüências 72 204 228 101 20 625 19 Num laboratório foi realizada uma pesquisa de mercado em que se estudou a preferência com relação a dois adoçantes artificiais A e B obtendose os resultados seguintes Sexo Preferem A Preferem B Indecisos Feminino 50 110 40 Masculino 150 42 8 A distribuição de preferências pelos dois sexos é a mesma Calcule o valorp cap14cp65 2192009 1446 417 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 420 151 Introdução Como vimos no Capítulo 1 uma das preocupações de um estatístico ao analisar um conjunto de dados é criar modelos que explicitem estruturas do fenómeno sob observação as quais frequentemente estão misturadas com variações acidentais ou aleatórias A identificação dessas estruturas permite conhecer melhor o fenómeno bem como fazer afirmações sobre possíveis comportamentos Portanto uma estratégia conveniente de análise é supor que cada observação seja formada por duas partes como vimos em 11 do Capítulo 1 observação previsível aleatório 151 Aqui a primeira componente incorpora o conhecimento que o pesquisador tem sobre o fenômeno e é usualmente expressa por uma função matemática com parâmetros desconhecidos A segunda parte a aleatória ou não previsível representa aquilo que o pesquisador não pode controlar e para a qual são impostas algumas suposições como por exemplo que ela obedeça a algum modelo probabilístico específico que por sua vez também contém parâmetros desconhecidos Dentro desse cenário o trabalho do estatístico passa a ser o de estimar os parâmetros desconhecidos das duas partes do modelo baseado em amostras observadas Neste capítulo iremos investigar um modelo simples chamado de análise de variância com um fator No capítulo seguinte iremos estudar o modelo de regressão linear simples As técnicas de análise de variância foram desenvolvidas principalmen te pelo estatístico inglês Ronald A Fisher a partir de 1918 O leitor interessado pode consultar os trabalhos pioneiros de Fisher 1935 1954 ou Peres e Saldiva 1982 para mais informações sobre esse assunto A situação geral pode ser descrita como segue Temos uma população P de unidades experimentais indivíduos animais empresas etc para a qual temos uma va Y de interesse Capítulo 15 Inferência para Várias Populações cap15dp65 2192009 1456 420 1 5 1 I N T R O D U Ç Ã O 421 Suponha agora que possamos classificar as unidades dessa população segundo níveis de um fator Por exemplo o fator pode ser o sexo com dois níveis arbitrariamente denotados por l sexo masculino e 2 sexo feminino A va Y pode ser a altura de cada indivíduo Genericamente podemos ter I níveis para esse fator A população fica então divi dida em I subpopulações ou estratos P1 PI cada uma representada por um nível i do fator i 1 2 I No exemplo citado teríamos duas subpopulações a dos indiví duos do sexo masculino e a dos indivíduos do sexo feminino Na Figura 151 mostramos graficamente as suposições adotadas para o comporta mento da população neste modelo A Figura 151 a mostra um comportamento mais amplo com distribuições distintas para cada subpopulação Na Figura 151 b aparece a suposição mais comum em que a parte aleatória segue uma distribuição normal com a mesma variância σ 2 para todas as subpopulações Pi i 1 2 I Figura 151 Formas da distribuição de y para os diversos níveis do fator Fator a fyx Y P2 P1 μ2 μ3 μ4 μ1 P3 P4 Fator b fyx Y P1 P2 μ2 μ3 μ4 μ1 P3 P4 Fator c fyx Y P1 P2 μ2 μ3 μ4 μ1 μ P3 P4 cap15dp65 2192009 1456 421 1 5 1 I N T R O D U Ç Ã O 423 Logo além de estimar μ1 μI temos que estimar também σ 2 e Se 154 e 155 valerem teremos I subpopulações normais Nμi σ 2 e i 1 2 I que têm médias diferentes e mesma variância A Figura 151 b ilustra essa situação com I 4 O modelo 154 é chamado modelo com efeitos fixos no sentido de que as subpopulações determinadas pelos níveis do fator são aquelas de interesse do pesquisador Se o experimento fosse repetido amostras aleatórias das mesmas subpopulações seriam extraídas e analisadas Podese considerar também modelos com efeitos aleatórios mas esse caso não será tratado neste livro Exemplo 15 l Um psicólogo está investigando a relação entre o tempo que um indi víduo leva para reagir a um estímulo visual Y e alguns fatores como sexo W idade X e acuidade visual Z medida em porcentagem Na Tabela 151 temos os tempos para n 20 indivíduos valores da va Y O fator sexo tem dois níveis i 1 sexo masculino H e i 2 sexo feminino M com n1 n2 10 O fator idade tem cinco níveis i 1 indivíduos com 20 anos de idade i 2 indivíduos com 25 anos etc i 5 indivíduos com 40 anos Aqui n1 n5 4 A acuidade visual como porcentagem Tabela 151 Tempos de reação a um estímulo Y e acuidade visual Z de 20 indivíduos segundo o sexo W e a idade X Indivíduo Y W X Z 1 96 H 20 90 2 92 M 20 100 3 106 H 20 80 4 100 M 20 90 5 98 M 25 100 6 104 H 25 90 7 110 H 25 80 8 101 M 25 90 9 116 M 30 70 10 106 H 30 90 11 109 H 30 90 12 100 M 30 80 13 112 M 35 90 14 105 M 35 80 15 118 H 35 70 16 108 H 35 90 17 113 M 40 90 18 112 M 40 90 19 127 H 40 60 20 117 H 40 80 cap15dp65 2192009 1456 423 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 424 da visão completa também gera cinco níveis i 1 indivíduos com 100 de visão i 2 indivíduos com 90 de visão e assim por diante Não foi possível controlar essa variável a priori como as outras duas já que ela exige exames oftalmológicos para sua mensuração Daí o desbalanceamento dos tamanhos observados n1 2 n2 10 n3 5 n4 2 e n5 1 Fatores desse tipo são chamados de cofatores Assim para o fator sexo teremos o modelo 154 com i 1 2 j 1 2 3 10 e para o fator idade o mesmo modelo com i 1 2 5 j 1 2 3 4 Exemplo 152 Uma escola analisa seu curso por meio de um questionário com 50 ques tões sobre diversos aspectos de interesse Cada pergunta tem uma resposta numa escala de 1 a 5 va Y onde a maior nota significa melhor desempenho Na última avaliação usouse uma amostra de alunos de cada período e os resultados estão na Tabela 152 Aqui o fator é período com três níveis i 1 manhã i 2 tarde e i 3 noite temos n1 7 n2 6 e n3 8 Tabela 152 Avaliação de um curso segundo o período Período Manhã Tarde Noite 42 27 46 40 24 39 31 24 38 27 22 37 23 19 36 33 18 35 41 34 28 Exemplo 153 Num experimento sobre a eficácia de regimes para emagrecer ho mens todos pesando cerca de 100 kg e de biotipos semelhantes são submetidos a três regimes Após um mês verificase a perda de peso de cada indivíduo obtendose os valores da Tabela 153 Tabela 153 Perdas de peso de indivíduos submetidos a três regimes Regime 1 2 3 118 74 105 105 97 112 125 82 118 123 72 131 155 86 140 114 71 98 cap15dp65 2192009 1456 424 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 426 iii Ee1j e2k 0 para todo j e k indicando independência entre observações das duas subpopulações Com essas suposições temos duas amostras aleatórias simples independentes entre si retiradas das duas subpopulações Nμ1 σe 2 e Nμ2 σe 2 Queremos testar a hipótese H0 μ1 μ2 contra a alternativa H1 μ1 μ2 Como já salientamos acima esse teste pode ser conduzido com os métodos do Capí tulo 13 mas o objetivo aqui é introduzir a metodologia da análise de variância com um caso simples A extensão para mais de dois níveis será estudada na seção 153 Note que estamos supondo que as variâncias residuais dos níveis l e 2 são iguais ou seja Vare1j Vare2j σe 2 para todo j 1 ni 157 Essa é a propriedade conhecida como homoscedasticidade isto é estamos admi tindo que a variabilidade residual é a mesma para os dois níveis ou que P1 e P2 têm a mesma variabilidade segundo a va Y Note também que Eyij μi Varyij Vareij σ2e 158 1522 Estimação do Modelo Nosso objetivo é estimar μ1 μ2 e σe 2 no modelo 156 para podermos testar H0 Usaremos estimadores de mínimos quadrados Poderíamos usar também estimadores de máxima verossimilhança pois sabemos que nossas observações têm distribuição normal Temos que de 156 os resíduos são dados por eij yij μi 159 e a soma dos quadrados dos resíduos é dada por SQ e y ij j n i ij j n i i i i μ μ μ 1 2 2 1 1 2 1 1 2 2 y y j j n j j n 1 1 1 2 2 1 2 2 1 2 μ μ ou seja SQ e e j j n j j n μ μ 1 2 1 2 1 2 2 1 1 2 1510 cap15dp65 2192009 1456 426 1 5 2 M O D E L O P A R A D U A S S U B P O P U L A Ç Õ E S 427 Observe que essa soma de quadrados é uma função de μ1 e μ2 Se as variâncias residuais das duas subpopulações não fossem iguais essa soma seria mais afetada por aquele nível que tivesse maior variância e isso deveria influenciar a escolha dos estimadores Nesse caso uma sugestão seria então minimizarmos a expressão 1510 com eij 2 substituída por eijσi2 com Vareij σi 2 o que conduz a estimadores de mínimos quadrados ponderados Derivando 1510 em relação a μ1 e μ2 obtemos SQ y i i ij j n i i μ μ μ μ 1 2 1 2 0 1 2 do que segue que os estimadores são dados por ˆ μ1 1 1 1 1 1 1 n y y j j n 1511 ˆ μ2 2 2 1 2 2 1 n y y j j n 1512 que são as médias das observações dos níveis l e 2 respectivamente Logo SQ y y y y j j n j j n μ μ 1 2 1 1 1 2 2 1 2 2 1 2 ˆ ˆ 1513 Podemos pensar em 1513 como a quantidade total de informação quadrática perdida pela adoção do modelo 156 Essa soma é também denominada soma dos quadrados dos resíduos Vejamos outra maneira de escrever essa soma Dentro do grupo dos homens a variância da subpopulação P1 pode ser estimada por S n y y j j n 1 2 1 1 1 1 2 1 1 1 1514 e a variância da subpopulação P2 das mulheres é estimada por S n y y j j n 2 2 2 2 1 2 2 1 1 2 1515 Seguese que SQ n S n S μ μ 1 2 1 1 2 2 2 2 1 1 ˆ ˆ 1516 cap15dp65 2192009 1456 427 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 428 Temos acima dois estimadores nãoviesados do mesmo parâmetro σe 2 e portanto podemos definir uma variância amostral ponderada S n S n S n n e 2 1 1 2 2 2 2 1 2 1 1 2 1517 e usando 1516 podemos escrever S SQ n e 2 1 2 2 μ μ ˆ ˆ 1518 se n n1 n2 Vemos que S2 e é a quantidade média de informação quadrática perdida e é um estimador nãoviesado de σ 2 e Observe que esse é o mesmo estimador definido em 1310 Temos portanto um primeiro enfoque para estimar a variância desconhecida σe 2 por meio da variância devida ao erro ou variância dentro de amostras dada por Se 2 que é baseada nas variâncias amostrais dadas por 1514 e 1515 A soma de quadrados 1516 é também chamada de soma de quadradros dentro dos grupos Um outro enfoque será visto mais adiante e que consiste em estimar σe 2 através de uma variância entre amostras baseada na variabilidade entre as médias amostrais também chamada variação devida ao fator Exemplo 151 continuação Para os dados da Tabela 151 temos Grupo dos Homens nível l y y y j j 1 1 1 10 1 2 1 2 110 1 670 9 74 54 S Grupo das Mulheres nível 2 y y y j j 2 2 1 10 2 2 2 2 104 9 566 9 62 99 S Seguese que S S e e 2 670 9 566 9 18 1 237 8 18 68 77 8 29 Note que a soma dos quadrados dos resíduos é SQ y y μ μ 1 2 1 2 1 237 8 SQ ˆ ˆ Observe também que y1 e y2 denotam os tempos médios estimados de reação ao estímulo dos homens e mulheres respectivamente Uma questão de interesse é a seguinte será que o conhecimento do sexo de um indivíduo ajuda a melhorar a previsão do tempo de reação dele ao estímulo Para responder a essa questão devemos ter algum modelo alternativo para poder comparar os ganhos O modelo usualmente adotado é o mais simples de todos ou seja aquele cap15dp65 2192009 1456 428 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 430 Tabela 154 Resíduos para vários modelos ajustados aos dados do Exemplo 151 Variáveis Resíduos dos Modelos e 1 e 2 e 3 Indivíduo Tempo de Sexo Idade y y i y y ij i y y ij i Reaçâo 1 96 H 20 1150 141 250 2 92 M 20 1550 129 650 3 106 H 20 150 41 750 4 100 M 20 750 49 150 5 98 M 25 950 69 525 6 104 H 25 350 61 075 7 110 H 25 250 01 675 8 101 M 25 650 39 225 9 116 M 30 850 111 825 10 106 H 30 150 41 175 11 109 H 30 150 11 125 12 100 M 30 750 49 775 13 112 M 35 450 71 125 14 105 M 35 250 01 575 15 118 H 35 1050 79 725 16 108 H 35 050 21 275 17 113 M 40 550 81 425 18 112 M 40 450 71 525 19 127 H 40 1950 169 975 20 117 H 40 950 69 025 dp 850 829 608 2dp 1700 1658 1216 Nota Nesta tabela estão expressos os resíduos de diversos modelos ajustados aos dados e colocados juntos para comparar os lucros na adoçõo de cada modelo No texto aparece o significado de cada coluna dos resíduos 1523 Intervalos de Confiança Com as suposições feitas sobre os erros podemos escrever y N n y N n e e 1 1 2 1 2 2 2 2 μ σ μ σ 1523 o que permite construir intervalos de confiança separados para os dois parâmetros μ1 e μ2 como já vimos anteriormente Esses têm a forma y t S n i i e i γ 1 2 1524 cap15dp65 2192009 1456 430 1 5 2 M O D E L O P A R A D U A S S U B P O P U L A Ç Õ E S 431 onde tγ é o valor crítico da distribuição t de Student com v n 2 graus de liberdade tal que P t t n t γ γ γ 2 0 γ 1 Observe que o número de graus de liberda de é n 2 e não ni l porque Z y n N i i i i e μ σ 0 1 W n S n e e 2 2 2 2 2 σ χ e portanto Z W n n y S i i i i e 2 μ tem distribuição tn 2 pelo Teorema 71 Daqui obtemos 1524 Exemplo 151 continuação Para o Exemplo 151 temos IC μ1 0 95 110 10 2 101 8 29 10 104 59 115 61 IC μ2 0 95 104 90 2 101 8 29 10 99 39 110 41 com t095 2101 encontrado na Tabela V com v 18 graus de liberdade Ainda com as suposições feitas podemos concluir que y y N n n e e 1 2 1 2 2 1 2 2 μ μ σ σ 1525 de modo que a estatística T y y S n n e 1 2 1 2 1 2 1 1 μ μ 1526 tem distribuição t de Student com v n1 n2 2 n 2 graus de liberdade e um intervalo de confiança para a diferença μ1 μ2 pode ser construído Exemplo 151 continuação Para o exemplo IC μ μ 1 2 1 2 1 2 0 95 1 1 y y t S n n y e 110 1 104 9 2 101 8 29 1 10 1 10 2 59 12 99 Este resultado implica que a hipótese H0 1 2 μ μ 1527 cap15dp65 2192009 1456 431 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 432 não pode ser rejeitada no nível α 005 já que o zero pertence ao intervalo Isso está de acordo com o resultado já apontado de que o conhecimento do sexo de um indiví duo não irá ajudar a prever o tempo de reação ao estímulo O teste da hipótese para 1527 com as suposições adotadas é feito usando a esta tística 1526 com n1 n2 2 gl obtendose o valor observado t0 140 que compa rado com o valor crítico de 2101α 5 e l8 gl leva à nãorejeição da hipótese como foi visto acima 1524 Tabela de Análise de Variância As operações processadas anteriormente podem ser resumidas num quadro para facilitar a análise Se 1527 for válida o modelo adotado será yij μ eij e a quantidade de informação perdida devida aos resíduos será dada por SQ y y ij j n i i μ 1 1 2 2 ˆ 1528 que iremos chamar de soma de quadrados total abreviadamente SQTot Analogamente adotado o modelo 154 a quantidade de informação perdida é dada por 1513 ou 1516 e que chamamos de soma de quadrados dos resíduos abreviadamente SQRes ou soma de quadrados dentro dos dois grupos abreviadamente SQDen A economia obtida ao passarmos de um modelo para outro será SQTot SQDen SQEnt 1529 que chamaremos de soma de quadrados entre grupos Não é difícil provar que veja o problema 18 SQEnt n y y i i i 1 2 2 1530 Observando essa expressão vemos que ela representa a variabilidade entre as médi as amostrais ou seja uma distância entre a média de cada grupo e a média global Donde o nome soma de quadrados entre grupos Quanto mais diferentes forem as médias yi i 1 2 maior será SQEnt e conseqüentemente menor será SQDen As quantidades QMTot SQTot n 1 1531 cap15dp65 2192009 1456 432 1 5 2 M O D E L O P A R A D U A S S U B P O P U L A Ç Õ E S 433 e QMDen SQDen n 2 1532 são chamadas quadrado médio total e quadrado médio dentro ou residual respec tivamente Todas essas informações são agrupadas numa única tabela conhecida pelo nome de ANOVA abreviação de ANalysis Of VAriance descrita na Tabela 155 Tabela 155 Tabela de Análise de Variância ANOVA FV gl SQ QM F Entre 1 SQEnt QMEnt QMEntS2 Dentro n 2 SQDen QMDen ou Se 2 Total n 1 SQTot QMTot ou S2 Na primeira coluna temos as descrições das diferentes somas de quadrados tec nicamente indicadas por fontes de variação FV Os graus de liberdade gl da segunda coluna estão associados às respectivas somas de quadrados sendo que o número de gl da SQE é obtido por subtração Falaremos abaixo sobre QMEnt e a razão F QMEntQMDen Exemplo 151 continuação Com os dados obtidos anteriormente para o Exemplo 151 podemos construir a tabela ANOVA para o modelo 154 O resultado está na Tabela 156 Tabela 156 Tabela ANOVA para o Exemplo 151 FV gl SQ QM F Entre 1 13520 13520 197 Dentro 18 123780 6877 Total 19 137300 7226 Da ANOVA encontramos os desvios padrões residuais Se 68 77 8 29 do mo delo completo 154 e S 72 26 8 50 do modelo reduzido 1519 A econo mia propiciada ao passar de um modelo para outro em termos de soma de quadrados é 13520 e em termos de quadrados médios comparando 7226 e 6877 Proporcio nalmente economizamos 135 20 1 373 00 0 0985 9 85 cap15dp65 2192009 1456 433 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 434 ou seja aproximadamente 10 na SQ de resíduos Podemos dizer que essa é a pro porção da variação explicada pelo modelo 159 Essa medida é chamada coeficiente de explicação do modelo denotada por R2 SQEnt SQTot 1533 Essa medida já foi usada na seção 46 Veja o problema 27 A conveniência ou não do modelo 154 está associada ao teste 1527 já que aceitar essa hipótese implica a adoção do modelo 1519 Com as suposições feitas a estatística para o teste é 1526 que sob H0 fica T y y S n n e 1 2 1 2 1 1 1534 que tem distribuição tn1 n2 2 Também sabemos que o quadrado de T tem distri buição F1 n1 n2 2 ver seção 133 Contudo QMEnt SQEnt n y y n y y 1 1 2 2 2 2 e como y n y n y n n 1 1 2 2 1 2 podemos escrever QMEnt n n n n y y y y n n 1 2 1 2 1 2 2 1 2 2 1 2 1 1 1535 Logo concluímos que T y y S n n S F e e 2 1 2 2 2 1 2 2 1 1 QMEnt 1536 Essa é a estatística que aparece na última coluna da tabela ANOVA Portanto po demos usar F com 1 n 2 graus de liberdade para testar a hipótese 1527 Rejeita remos H0 se F c c determinado pelo nível de significância do teste Exemplo 154 Da ANOVA da Tabela 156 vemos que o valor da estatística F é 197 Consultando a Tabela VI com 118 gl e α 005 encontramos o valor crítico 441 Logo não rejeitamos H0 μ1 μ2 Isso significa que não há vantagem em usar o modelo 154 no lugar de 1519 cap15dp65 2192009 1457 434 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 436 para i 1 2 3 4 5 níveis de idade e j 1 2 3 4 quatro indivíduos para cada nível de idade Na Figura 152 temos os box plots da variável resposta tempo de reação estímulo para cada nível do fator idade Vemos claramente que o tempo aumenta com a idade Figura 152 Box plots para a variável Y estímulo para cada nível de idade 130 120 110 100 90 20 25 30 35 40 Idade Estímulo Agora queremos minimizar SQ μ μ μ 1 5 2 1 4 1 5 yij i j i 1538 com as hipóteses Eeij 0 para todo i j e Vareij σe 2 para todo i j É fácil verificar que os estimadores das médias μi são ˆ μi i ij j i n y y i 1 1 2 5 1 4 1539 e que SQDen SQRes SQ μ μ 1 5 2 1 4 1 5 y y ij i j i ˆ ˆ ou seja SQDen n S i i i 1 2 1 5 cap15dp65 2192009 1457 436 1 5 3 M O D E L O P A R A M A I S D E D U A S S U B P O P U L A Ç Õ E S 437 onde S2 é variância amostrals do iésimo nível grupo de idade Todas essas variâncias amostrais são estimadores nãoviesados de σe 2 logo podese novamente considerar o estimador ponderado S n S n n e i i i 2 2 1 5 1 5 5 SQDen 1540 Para nossos dados obtemos 1 i l 20 anos y1 98 5 y y S j j 1 1 4 1 2 1 2 107 0 35 67 2 i 2 25 anos y2 103 25 y y S j j 2 1 4 2 2 2 2 78 75 26 25 3 i 3 30 anos y3 107 75 y y S j j 3 1 4 3 2 3 2 132 75 44 25 4 i 4 35 anos y3 110 75 y y S j j 4 1 4 4 2 4 2 94 75 31 58 5 i 5 40 anos y3 117 25 y y S j j 5 1 4 5 2 5 2 140 75 46 92 Seguese que Se 2 55415 3693 Se 608 A tabela ANOVA para o fator idade está na Tabela 157 Tabela 157 Tabela ANOVA para o Exemplo 151 com fator idade FV gl SQ QM F Entre 4 81900 20475 554 Dentro 15 55400 3693 Total 19 137300 7226 Da tabela concluímos que houve uma redução substancial na soma de quadrados 819 unidades quadradas ou seja R2 819 1 373 59 65 cap15dp65 2192009 1457 437 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 438 isto é aproximadamente 60 da variação total é explicada pelo fator idade reduzindo o erro quadrático médio de 850 para 608 Como antes podemos construir os intervalos de confiança para os parâmetros μi Por exemplo para o grupo de idade de 25 anos IC μ2 0 95 103 25 2 131 6 08 2 96 77 109 73 Os resíduos desse modelo encontramse na Tabela 154 coluna e3 e verifi camos que eles diminuíram bastante indicando a boa capacidade de previsão do modelo A análise dos resíduos na Figura 153 não sugere violação de nenhuma das suposições feitas Figura 153 Resíduos do modelo yij μi eij para o fator idade 1216 2se se se 2se 608 608 1216 20 anos 25 anos 30 anos 35 anos 40 anos 000 Todas as idades y y y y y y A hipótese H0 1 5 μ μ 1541 pode ser testada usandose o valor 554 da estatística F Da Tabela VI encontramos que o valor crítico de F415 com α 005 é 306 logo rejeitamos H0 Ou seja há evidências de que os tempos médios de reação para os diversos grupos de idade não sejam todos iguais cap15dp65 2192009 1457 438 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 440 Um modo de investigar a causa da rejeição é comparar os grupos dois a dois Como já foi visto na seção 152 isso pode ser feito por meio da construção de intervalos de confiança para a diferença obtendose por exemplo IC μ μ γ γ 1 2 1 2 1 2 1 1 y y t S n n e 1542 com tγ obtido de uma distribuição t de Student com n I graus de liberdade Podería mos então construir os intervalos para todos os possíveis pares e observandose aqueles que não contêm o valor zero obter conclusões sobre a razão da rejeição Exemplo 155 Investigando o efeito da idade vimos que a hipótese H0 foi rejeitada O intervalo de confiança para a diferença de duas médias quaisquer seria dado por IC μ μ i j i j y y 0 95 2 131 6 08 1 4 1 4 y y i j 9 16 Seguese que grupos de idade cuja diferença de médias seja superior a 916 seriam diferentes Na Tabela 158 observase que se aceita a igualdade apenas para grupos vizinhos indicando uma relação mais forte entre as variáveis fato que será explorado no próximo capítulo Tabela 158 Médias e diferenças de médias para os diversos grupos de idades para o Exemplo 151 Grupo 20 anos 25 anos 30 anos 35 anos 40 anos Média 9850 10325 10775 11075 11725 Diferença 475 450 300 650 No entanto com esse procedimento não se pode controlar as probabilidades do erro de tipo I ou seja a probabilidade de rejeitar uma hipótese verdadeira Por exemplo suponhamos que todas as médias sejam iguais No problema acima com cinco grupos e sob a hipótese nula teríamos então 5 2 10 possíveis comparações duas a duas cada uma testada no nível de 5 e a probabilidade de que pelo menos uma das comparações exceda 916 é bem maior do que 5 na realidade pode ser mostrado que essa probabilidade está em torno de 29 Essa probabilidade cresce com o número de comparações Para controlar melhor essa probabilidade global do erro de tipo I pode ser usada uma correção baseada na desigualdade de Bonferroni ver problema 19 Usase então o intervalo IC μ μ γ γ i j i j e i j y y t S n n 1 1 1543 onde o único valor que muda é o de tγ que tem o mesmo número de graus de liberdade mas o nível de significância agora é α αm onde m é o número de comparações duas a duas que desejamos fazer cap15dp65 2192009 1458 440 1 5 5 T E S T E D E H O M O S C E D A S T I C I D A D E 441 Exemplo 156 No Exemplo 155 α 00510 0005 Da Tabela V com 15 graus de liberdade encontramos t 3438 obtido por interpolação linear e então IC μ μ i j y y 0 95 3 438 6 08 1 2 1 2 y y 1 2 14 78 Rejeitaremos H0 para diferenças maiores do que 1478 e vemos que apenas existe diferença entre os grupos de 20 e 40 anos Os intervalos de Bonferroni são conservadores pois o nível α real será menor do que aquele nominal e essa diferença aumenta com m Portanto recomendase que o seu uso seja restrito a um número pequeno de comparações 11 Queremos verificar o efeito do tipo de impermeabilização em lajes de concreto As quan tidades de água que passaram pela laje em cada tipo foram medidas durante um mês obtendose os valores da tabela abaixo Que conclusão pode obter l II III IV 56 64 45 42 55 61 46 39 62 50 45 45 59 55 39 43 60 56 43 41 12 Os dados abaixo vêm de um experimento completamente aleatorizado onde 5 processos de estocagem foram usados com um produto perecível por absorção de água 25 exemplares desse produto foram divididos em cinco grupos de cinco elementos e após uma semana mediuse a quantidade de água absorvida Os resultados codificados estão no quadro abai xo Existem evidências de que os processos de estocagem produzem resultados diferentes Sexo A B C D E 8 4 1 4 10 6 2 2 6 8 7 0 0 5 7 5 2 1 5 4 8 3 3 4 9 155 Teste de Homoscedasticidade Uma das suposições básicas para a aplicação da técnica de ANOVA é a de homoscedasticidade ou seja que a variância seja a mesma em todos os níveis Muitas Problemas cap15dp65 2192009 1458 441 1 5 6 E X E M P L O C O M P U T A C I O N A L 443 Consultando a Tabela IV com 4 gl e α 005 encontramos χc 2 111 e portanto não rejeitamos a hipótese H0 de igualdade de variâncias 156 Exemplo Computacional Vamos utilizar o Minitab para ilustrar o uso de um pacote para resolver um problema de análise de variância Retomemos o Exemplo 151 como fator idade O Quadro 151 mostra a saída do Minitab usando a opção ANOVA do menu Observe que os valores encontrados coincidem com aqueles já obtidos na seção 153 Tabela 157 O valorp do teste de igualdade de médias é indicado por P 0006 A saída mostra também as estimativas das médias dos grupos os desvios padrões e o desvio padrão ponderado Se 608 Os intervalos de confiança individuais estão mostrados de forma pictórica com uma escala anexa notandose intersecções que levam à rejeição da hipótese de igualdade de médias Quadro 151 ANOVA para o Exemplo 151 Minitab Oneway Analysis of Variance Analysis of Variance for C1 Source DF SS MS F P C2 4 8190 2048 554 0006 Error 15 5540 369 Total 19 13730 Individual 95 CIs For Mean Based on Pooled StDev Level N Mean StDev 20 4 9850 597 25 4 10325 512 30 4 10775 665 35 4 11075 562 40 4 11725 685 Pooled StDev 608 100 110 120 Na Figura 153 temos os resíduos para cada nível do fator idade bem como os resíduos para todas as idades Na Figura 154 vemos os box plots desses resíduos por nível e na Figura 155 o box plot dos resíduos para todas as idades cap15dp65 2192009 1459 443 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 444 Figura 154 Box plots para os resíduos por nível do fator idade 10 20 25 30 35 40 Idade Resíduos 10 10 Figura 155 Boxplot para os resíduos de todas as idades 10 Resíduos 10 10 157 Problemas e Complementos 13 A seção de treinamento de uma empresa quer saber qual de três métodos de ensino é mais eficaz O encarregado de responder a essa pergunto pode dispor de 24 pessoas para verificar a hipótese Ele as dividiu em três grupos de oito pessoas de modo aleatório e submeteu cada grupo a um dos métodos Após o treinamento os 24 participantes foram submetidos a um mesmo teste cujos resultados estão na tabela abaixo quanto maior a nota melhor o resultado Quais seriam as conclusões sobre os métodos de treinamento Método 1 Método 2 Método 3 3 8 4 7 6 7 5 4 4 4 7 9 2 3 3 2 8 10 4 9 8 5 6 9 Σxi 38 37 62 Σxi 2 224 199 496 14 Querse testar o efeito do tipo de embalagem sobre as vendas do sabonete Sebo As embalagens são as seguintes A a tradicional embalagem preta B cartolina vermelha C papel alumínio rosa Escolheramse três territórios de venda com potenciais de vendas supostamente idênticos cap15dp65 2192009 1459 444 1 5 7 P R O B L E M A S E C O M P L E M E N T O S 445 Cada tipo de embalagem foi designado aleatoriamente a uma região e as vendas obser vadas durante 4 semanas obtendose os resultados da tabela abaixo Quais seriam suas conclusões e críticas a esse experimento Réplicas Embalagens Semanas A B C 1 15 21 9 2 20 23 13 3 9 19 20 4 12 25 18 Total 56 88 60 15 Um produtor de gelatina em pó está testando um novo lançamento e quer verificar em que condições de preparo o produto seria mais bem aceito Vinte e quatro donasdecasa atribuíram notas 0 a 10 para o prato que produziram com o produto Junto com o produto foram fornecidos quatro tipos de receitas duas para doces A e D e duas para salgados B e C Feita a análise estatística quais recomendações você faria ao produtor Discuta a validade das suposições feitas para resolver o problema Receita A B C D 2 4 3 3 5 7 5 6 1 3 1 2 7 9 9 8 2 4 6 1 6 8 8 4 16 Num curso de extensão universitária entre outras informações obtevese informação sobre salário e área de formação académica com os seguintes resultados Formação ni x s Humanas 65 2875 354 Exatas 12 3521 546 Biológicas 8 4390 493 Aqui ni indica a frequência x o salário médio e s o desvio padrão amostral Teste a hipótese de que os salários médios nessas três áreas é o mesmo 17 Suspeitase que quatro livros escritos sob pseudónimo são de um único autor Uma pequena investigação iniciai selecionou amostras de páginas de cada um dos livros contandose o número de vezes que determinada construção sintática foi usada Com os resultados abaixo quais seriam as suas conclusões cap15dp65 2192009 1459 445 161 Introdução No Capítulo 8 introduzimos o conceito de regressão para duas va quantitativas X e Y Vimos que a esperança condicional de Y dado que X x por exemplo denotada por EYx é uma função de x ou seja EYx μx 161 Em 827 definimos precisamente essa função Uma definição similar vale para EXy que será uma função de y Estamos considerando aqui o caso em que X e Y são definidas sobre uma mesma população P Por exemplo X pode ser a idade e Y o tempo de reação ao estímulo no Exemplo 151 Nesse exemplo a análise sugeriu a existên cia de uma relação mais forte entre as duas variáveis e a modelamos por yij μi eij i 1 5 j 1 4 162 onde μi é a média do grupo de idade i Podemos pensar que o fator idade determina cinco subpopulações ou estratos em P e de lá escolhemos cinco amostras aleatórias de tamanhos ni 4 i 1 5 Em 161 μx pode ser qualquer função de x veja o Exemplo 821 Um caso simples de interesse é aquele em que X e Y têm distribuição conjunta normal bidimensional Nesse caso μx e μy são de fato funções lineares Veja a seção 88 Continuando com o Exemplo 151 tanto X idade como Y tempo de resposta ao estímulo são va contínuas e podemos pensar em introduzir um modelo alternativo para yij dada a relação entre X e Y Observando as médias de Y segundo os grupos de idades ou seja EYx percebemos que estas aumentam conforme as pessoas enve lhecem A Figura 161 mostra os dados observados onde notamos uma tendência crescente bem como os valores repetidos de Y para cada nível de idade x Um modelo razoável para EYx pode ser EYx μx α βx 163 ou seja o tempo médio de reação é uma função linear da idade Capítulo 16 Regressão Linear Simples cap16cp65 2192009 1511 449 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 450 Figura 161 Gráfico de dispersão de idade e rea ção ao estímulo com reta ajustada A forma da função μx deve ser definida pelo pesquisador em função do grau de conhecimento teórico que ele tem do fenômeno sob estudo Um modelo alternativo a 162 seria então yij μxi eij 164 com EYxi μxi α βxi i 1 2 5 Entretanto a forma usual de escrever o modelo é yi μxi ei 165 onde yi indica o tempo de reação do iésimo indivíduo com xi anos de idade i 1 2 n e n é o número total de observações Teremos então com essa notação valores repetidos para X por exemplo x1 x4 20 Convém reforçar a idéia que estamos propondo um modelo de comportamento para as médias das subpopulações logo teremos de estimar os parâmetros envolvidos na função μx baseados numa amostra de n 20 observações no exemplo No caso de 163 o modelo pode ser escrito como yi EYxi ei α βxi ei i 1 2 n 166 devendose encontrar os valores mais prováveis para α e β segundo algum critério a partir de n observações de pares de valores de X Y Antes de prosseguirmos seria conveniente interpretar os parâmetros envolvidos no mo delo 165 Sabemos que α o intercepto representa o ponto onde a reta corta o eixo das ordenadas e β o coeficiente angular representa o quanto varia a média de Y para um aumento de uma unidade da variável X Esses parâmetros estão representados na Figura 162 Figura 162 Representação do modelo EYx α βx cap16cp65 2192009 1511 450 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 454 1 Usando os dados do Exemplo 151 a Encontre a reta de mínimos quadrados zi α βxi onde z mede a acuidade visual e x a idade b Interprete o significado de α e β nesse problema c Para cada indivíduo encontre o desvio ei zi zi existe algum com valor muito exagerado 2 A tabela abaixo indica o valor y do aluguel e a idade x de cinco casas a Encontre a reta de MQ supondo a relação Eyx α βx b Faça o gráfico dos pontos e da reta ajustada Você acha que o modelo adotado é razoável c Qual o significado do coeficiente angular nesse caso d E do coeficiente linear x 10 13 5 7 20 y 4 3 6 5 2 3 Um laboratório está interessado em medir o efeito da temperatura sobre a potência de um antibiótico Dez amostras de 50 gramas cada foram guardadas a diferentes temperaturas e após 15 dias mediuse a potência Os resultados estão no quadro abaixo a Faça a representação gráfica dos dados b Ajuste a reta de MQ da potência como função da temperatura c O que você acha desse modelo d A que temperatura a potência média seria nula Temperatura 30 50 70 90 Potência 38 43 32 26 33 19 27 23 14 21 4 Ainda usando os dados do exemplo numérico 151 investigue o ajuste da reta de MQ na variável tempo de reação como função da acuidade visual 163 Avaliação do Modelo Nesta seção e nas seguintes estudaremos várias formas de avaliar se o modelo linear postulado é adequado ou não dadas as suposições que fizemos sobre ele 1631 Estimador de σσσσσ 2 e Como no capítulo anterior para julgar a vantagem da adoção de um modelo mais complexo linear ou outro qualquer vamos usar a estratégia de comparálo com o modelo mais simples que é aquele discutido na seção 152 ou seja yi μ ei 1619 A vantagem será sempre medida por meio da diminuição dos erros de previsão ou ainda da variância residual S2 e Para o modelo ajustado 1616 cada resíduo é dado por ei yi y i yi α β xi 1620 Problemas cap16cp65 2192009 1511 454 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 458 1633 Tabela de Análise de Variância Do mesmo modo como foi feito na seção 152 podemos resumir as informações anteriores numa única tabela ANOVA ilustrada na Tabela 162 Tabela 162 Tabela ANOVA para modelo de regressão FV gl SQ QM F Regressão 1 SQReg SQReg QMReg QMRegS 2 e Resíduo n 2 SQRes SQResn 2 S 2 e Total n 1 SQTot SQTotn 1 S 2 Também podemos medir o lucro relativo que se ganha ao introduzir o modelo usando a estatística R2 SQReg 1634 SQTot definida anteriormente A estatística F será discutida na seção 164 Exemplo 163 Dos cálculos que nos levaram ao modelo 1618 podemos construir a Tabela 163 Temos que R 2 810 59 1373 Tabela 163 Tabela ANOVA para o modelo 1618 FV gl SQ QM F Regressão 1 810 810 2590 Resíduo 18 563 3128 Total 19 1373 7226 O modelo proposto diminui a variância residual em mais da metade e explica 59 da variabilidade total Verificamos então que é vantajosa a adoção do modelo linear 1618 para explicar o tempo médio de reação ao estímulo em função da idade A estratégia adotada para verificar se compensa ou não utilizar o modelo y α βx e é observar a redução no resíduo quando comparado com o modelo y μ e Se a redução for muito pequena os dois modelos serão praticamente equivalentes e isso ocorre quando a inclinação β for zero ou muito pequena não compensando usar um modelo mais complexo Estaremos pois interessados em testar a hipótese H0 β 0 1635 o que irá exigir que se coloque uma estrutura de probabilidades sobre os erros Esse assunto será objeto da próxima seção A Figura 164 ilustra as duas situações que podem ocorrer cap16cp65 2192009 1511 458 1 6 3 A V A L I A Ç Ã O D O M O D E L O 459 Na Figura 164 a temos o caso em que claramente a variável auxiliar ajuda a prever a variável resposta Na situação da Figura 164 b teremos dúvidas se vale a pena ou não introduzir um modelo mais complexo ganhando muito pouco em termos de explicação Figura 164 Retas ajustadas a dois conjuntos de dados a x explica y b x não explica y Para a avaliação final do modelo devemos investigar com mais cuidado o compor tamento dos resíduos o que será feito na seção 165 5 Usando os resultados do Problema 1 construa a tabela ANOVA para o modelo z α β x encontrado naquele problema a Qual a estimativa S 2 E S 2 e b Você acha que a redução nos resíduos foi grande c Qual o valor de R 2 Interprete esse número 6 Um estudo sobre duração de certas operações está investigando o tempo requerido em segundos para acondicionar objetos e o volume em dm3 que eles ocupam Uma amostra foi observada e obtiveramse os seguintes resultados Tempo 108 144 196 180 84 152 110 133 231 Volume 2039 2492 3484 3172 1359 3087 1784 2322 3965 a Faça o diagrama de dispersão dos dados b Estime a reta de regressão do tempo de operação em função do volume c Construa a tabela ANOVA para o modelo d Qual o valor de S2 É pequeno quando comparado com S 2 e e Você acha que conhecer o volume do pacote ajuda a prever o tempo de empacotamento 7 Construa a tabela ANOVA para o Problema 2 e interprete os resultados 8 Construa a tabela ANOVA com os dados do Problema 3 9 Idem para o Problema 4 Problemas cap16cp65 2192009 1511 459 1 6 5 A N Á L I S E D E R E S Í D U O S 467 ICμ28 095 1057 2101559 1 28 302 20 1000 1057 27 1030 1084 Se quiséssemos saber dentro de que intervalo 95 das futuras observações iriam estar construiríamos o Intervalo de Predição IPYf 095 1057 2101559 1 1 28 302 20 1000 1057 121 936 1178 10 Usando a tabela ANOVA construída no Problema 5 a Construa o ICβ 95 b Construa o ICα 90 c Use a estatística F para testar a hipótese H0 β 0 d Construa o IC para a acuidade visual média do grupo etário de 28 anos e E qual seria o Intervalo de Predição da acuidade visual das pessoas de 28 anos 11 Com as informações do Exemplo 151 e a ANOVA construída no Problema 9 você diria que a acuidade visual ajuda a prever o tempo de reação dos indivíduos Que estatística você usou para justificar seu argumento e por quê 12 Investigando a relação entre a quantidade de fertilizante usado x e a produção de soja y numa estação experimental com 20 canteiros obtevese a equação de MQ y 1500 283x 322 165 Com esses resultados você diria que a quantidade de fertilizante influi na produção Por quê 165 Análise de Resíduos Para verificar se um modelo é adequado temos que investigar se as suposições feitas para o desenvolvimento do modelo estão satisfeitas Para tanto estudamos o compor tamento do modelo usando o conjunto de dados observados notadamente as discrepâncias entre os valores observados e os valores ajustados pelo modelo ou seja fazemos uma análise dos resíduos O iésimo resíduo é dado por e i yi y i i 1 2 n 1660 Lembremos que já utilizamos estes resíduos para obter medidas da qualidade e dos estimadores dos parâmetros do modelo Agora iremos estudar o comportamento indi vidual e conjunto destes resíduos comparando com as suposições feitas sobre os verdadeiros erros ei Existem várias técnicas formais para conduzir essa análise mas aqui iremos ressaltar basicamente métodos gráficos Para mais detalhes ver Draper e Smith 1998 Problemas cap16cp65 2192009 1511 467 1 6 5 A N Á L I S E D E R E S Í D U O S 469 Obtido o gráfico dos resíduos precisamos saber como identificar possíveis inade quações Apresentamos na Figura 167 alguns tipos usuais de gráficos de resíduos A Figura 167 a é a situação ideal para os resíduos distribuídos aleatoriamente em torno do zero sem nenhuma observação muito discrepante Figura 167 Gráficos de resíduos a situação ideal b c modelo nãolinear d elemento atípico e f g heterocedasticidade h nãonormalidade Nas situações b e c temos possíveis inadequações do modelo adotado e as curvaturas sugerem que devemos procurar outras funções matemáticas que expliquem melhor o fenômeno A Figura 167 d mostra a existência de um elemento discrepante e deve ser investigada a razão desse desvio tão marcante Pode ser um erro de medida ou a discrepância pode ser real Em situações como essa em que há observações muito diferentes das demais métodos chamados robustos têm de ser utilizados Os casos e f e g indicam claramente que a suposição de homoscedasticidade mesma variância não está satisfeita Em h parece haver maior incidência de obser vações nos extremos mostrando que a suposição de normalidade não está satisfeita Analisados os resíduos e diagnosticada uma possível transgressão das suposições devemos propor alterações que tornem o modelo mais adequado aos dados e às supo sições feitas A verificação da hipótese de normalidade pode ser realizada fazendose um histograma dos resíduos ou um gráfico de q q como explicado no Capítulo 3 Exemplo 167 continuação A análise dos resíduos do modelo 1618 mostra que esses não violam as suposições de média zero e variância comum A Figura 168 mostra cap16cp65 2192009 1511 469 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 470 o histograma dos resíduos e a Figura 169 mostra um gráfico q q Esse gráfico feito com o SPlus coloca nos eixos das ordenadas os valores crescentes dos e i e no eixo das abscissas os quantis de uma normal padrão Se os valores fossem de uma normal eles deveriam se dispor ao longo de uma reta Notamos que tanto o histograma quanto o gráfico de quantis mostram que os resíduos não são normalmente distribuídos Figura 168 Histograma dos resíduos do modelo 1618 Figura 169 Gráfico q q normalidade para os resíduos do modelo 1618 Quando a suposição de variância comum não estiver satisfeita usualmente fazse uma transformação da variável resposta y ou da preditora x ou de ambas Para detalhes ver Bussab 1986 e a seção 166 Exemplo 168 Num processo industrial além de outras variáveis foram medidas X temperatura média F e Y quantidade de vapor Os dados estão na Tabela 165 Draper Smith 1998 Appendix A cap16cp65 2192009 1511 470 1 6 5 A N Á L I S E D E R E S Í D U O S 471 Tabela 165 Temperatura e quantidade de vapor de um processo industrial No xi yi e i 1 353 1098 0174 2 297 1113 0123 3 308 1251 1345 4 588 840 0531 5 614 927 0547 6 713 873 0797 7 744 636 1326 8 767 850 0998 9 707 782 0161 10 575 914 0106 11 464 824 1680 12 289 1219 0873 13 281 1188 0499 14 391 957 0933 15 468 1094 1052 16 485 958 0173 17 593 1009 1199 18 700 811 0073 19 700 683 1207 20 745 888 1202 21 721 768 0189 22 581 847 0517 23 446 886 1204 24 334 1036 0598 25 286 1108 0261 Fonte Draper e Smith 1998 O gráfico de dispersão e a reta de MQ estão na Figura 1610 a A reta estimada de MQ é dada por y i 9424 00798xi 526 1663 ou ainda y i 13623 00798xi 1664 de modo que α 13623 e β 00798 Os resíduos e i yi y i estão na quarta coluna da Tabela 165 e seu gráfico contra xi na Figura 1610 b O gráfico q q para verifi car a suposição de normalidade está na Figura 1610 c Observamos que há vários pontos afastados da reta cap16cp65 2192009 1511 471 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 472 Figura 1610 a gráfico de dispersão com reta ajustada b resíduos vs temperatura c gráfico q q normalidade 13 Com o modelo linear já obtido para a acuidade visual como função da idade construa os tipos de resíduos apresentados no Exemplo 166 Representeos graficamente Você observa alguma transgressão das suposições básicas Problemas cap16cp65 2192009 1511 472 1 6 6 A L G U N S M O D E L O S E S P E C I A I S 473 14 Para cada gráfico de resíduo abaixo indique qual a possível transgressão observada 15 Abaixo estão os valores da variável preditora x os resíduos observados depois do ajuste do modelo e a ordem em que os dados foram obtidos Preditor 11 20 14 22 12 25 15 Resíduo 1 2 3 3 1 5 0 Ordem 9 6 13 1 7 14 8 Preditor 14 19 21 18 22 16 21 Resíduo 0 3 2 2 5 0 1 Ordem 3 12 4 11 2 10 5 a Verifique se existe alguma possível transgressão das suposições analisando o gráfico xi e i b Faça o gráfico do resíduo contra a ordem do experimento Você observa alguma inconveniência 166 Alguns Modelos Especiais Nesta seção introduziremos alguns modelos particulares simples e que são de interesse prático Iniciamos com o modelo que teoricamente passa pela origem Depois consideramos modelos nãolineares mas que podem ser linearizados por meio de alguma transformação 1661 Reta Passando pela Origem Em algumas situações temos razões teóricas ou ditadas pelas peculiaridades do problema a analisar para supor que o modelo deva ser do tipo yi βxi ei i 1 n 1665 cap16cp65 2192009 1511 473 1 6 6 A L G U N S M O D E L O S E S P E C I A I S 475 Figura 1611 Dados e reta ajustada para o Exemplo 168 1662 Modelos NãoLineares Quando usamos modelos de regressão ou qualquer outro tipo de modelo a situação ideal é aquela em que o pesquisador por razões teóricas inerentes ao problema real sob estudo pode sugerir a forma funcional da relação entre duas ou mais variáveis Na prática isso nem sempre acontece Muitas vezes o pesquisador está interessado em usar técnicas de regressão para explorar modelos convenientes sugeridos pelos dados observados Como vimos o primeiro passo para investigar o tipo de modelo a ser adotado é a representação gráfica dos dados a qual pode sugerir a forma da curva relacionando as variáveis além de fornecer outras informações veja o final da seção 161 Por exemplo com os dados da Tabela 166 obtemos o diagrama de dispersão da Figura 1612 Nota mos claramente a inadequação da reta como modelo sendo que provavelmente uma relação exponencial do tipo fx α eβx 1667 seja mais adequada Um modelo que pode então ser sugerido é yi α eβxi εi i 1 n 1668 Tabela 166 Taxa de Inflação no Brasil de 1961 a 1979 Ano t Inflação Y Y log Y 1961 9 9 22 1963 7 24 32 1965 5 72 43 1967 3 128 48 1969 1 192 52 1971 1 277 56 1973 3 373 59 1975 5 613 64 1977 7 1236 71 1979 9 2639 79 cap16cp65 2192009 1511 475 1 6 6 A L G U N S M O D E L O S E S P E C I A I S 477 εi podem ser negativos positivos ou nulos Portanto para o modelo linear 1673 podemos fazer as suposições usuais das seções anteriores Exemplo 1610 Utilizando os dados da Tabela 166 devemos inicialmente calcular os logaritmos naturais da variável Y Note que nesse exemplo a variável explicativa é o tempo convenientemente codificado Na Figura 1613 temos o diagrama de dispersão dos dados transformados e da reta ajustada a saber yi 527 028t t 9 9 1674 A análise de tal modelo pode ser conduzida como antes Veja o Problema 35 Observe que o modelo original ajustado é y i 19442 e028t i 1 10 1675 pois α e527 Essa curva está representada na Figura 1612 Os resíduos do modelo 1674 transformado e do modelo 1675 original são dados na Tabela 167 e nas Figuras 1614 e 1615 respectivamente Note que em ambos os casos os resíduos não parecem ser aleatórios havendo curvaturas sugerindo a possibilidade de um modelo com termos quadráticos ou cúbicos por exemplo Figura 1613 Diagrama de dispersão para o loga ritmo da inflação com reta ajustada Tabela 167 Resíduos para os modelos linear e exponencial Resíduos Resíduos t Reta Exponencial 9 055 6643 7 011 3386 5 043 24057 3 037 44067 1 021 45061 1 005 19757 3 021 77348 5 027 175412 7 013 145251 9 011 222632 cap16cp65 2192009 1511 477 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 478 Figura 1614 Resíduos da reta ajustada ao logaritmo da inflação versus ano Figura 1615 Resíduos do modelo exponencial ajus tado aos dados originais versus ano Os histogramas e gráficos q q para normalidade dos resíduos estão nas Figuras 1616 e 1617 Notamos que o histograma é assimétrico mostrando claramente o valor correspondente a t 9 Como há poucos pontos a análise de resíduos fica prejudicada o gráfico q q mostra os pontos não muito próximos de retas Figura 1616 Histogramas a resíduos reta ajustada ao log inflação b resíduos modelo exponencial cap16cp65 2192009 1511 478 1 6 7 R E G R E S S Ã O R E S I S T E N T E 479 Figura 1617 Gráficos q q dos resíduos a reta b exponencial 167 Regressão Resistente Nesta seção vamos considerar apenas o caso de regressão linear simples Ou seja temos os valores observados xi yi i 1 n e queremos ajustar o modelo 166 Notamos que os estimadores α e β em 1614 são baseados emxy e desvios em relação a essas médias A regressão resistente baseiase em medianas em vez de médias Inicialmente dividi mos o conjunto dos n pontos em três grupos de tamanhos aproximadamente iguais basea dos principalmente na ordenação da variável x e no gráfico de dispersão Chamemos esses grupos de E de esquerda C de centro e D de direita Se n 3k cada grupo terá k pontos Se n 3k 1 colocamos k pontos nos grupos E e D e k 1 pontos no grupo C Final mente se n 3k 2 colocamos k 1 pontos nos grupos E e D e k pontos no grupo C Para cada grupo obtemos um ponto resumo formado pela mediana dos xi e a mediana dos yi naquele grupo Denominemos esses pontos por xE yE xC yC xD yD Na Figura 1618 temos um exemplo com três grupos com k 3 em cada grupo Figura 1618 Reta resistente com três grupos cap16cp65 2192009 1511 479 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 480 Os estimadores de β e α são dados respectivamente por b0 yD yE 1676 xD xE a0 1 yE b0xE yC b0xC yD b0xD 1677 3 A reta resistente ajustada é yi a0 b0xi i 1 n 1678 Os modelos robustos necessitam muitas vezes recorrer a processos interativos para obter estimadores mais eficientes Isso deve ser feito quando os resíduos não forem bem comportados Não abordaremos esse tópico neste livro Veja Hoaglin et al 1983 para mais informação Exemplo 1611 Voltemos aos dados do exemplo 161 Como n 20 3 6 2 os grupos E C e D serão formados com 7 6 e 7 pontos respectivamente Observando a Figura 161 consideramos os grupos como seguem Grupo E i 2 1 4 3 5 8 6 Idade 20 20 20 20 25 25 25 Y 92 96 100 106 98 101 104 Grupo C i 7 12 10 11 9 14 Idade 25 30 30 30 30 35 Y 110 100 106 109 116 105 Grupo D i 16 13 15 18 17 20 19 Idade 35 35 35 40 40 40 40 Y 108 112 118 112 113 117 127 Os pontos resumidores são xE yE 20 100 xC yC 30 107 5 xD yD 40 112 logo as estimativas dos coeficientes serão cap16cp65 2192009 1511 480 1 6 8 E X E M P L O S C O M P U T A C I O N A I S 481 b0 112 100 06 20 a0 1 100 0620 1075 0630 112 0640 883 3 de modo que a reta resistente ajustada será yi 883 06xi que está representada na Figura 1619 justamente com a reta de MQ dada em 1618 Figura 1619 Reta de MQ e reta resistente para o Exemplo 1611 Na próxima seção daremos um exemplo em que as duas retas a de MQ e a resistente são bastante diferentes 168 Exemplos Computacionais Nesta seção vamos considerar dois exemplos um sobre a aplicação a dados reais do mer cado de ações e outro aplicando regressão resistente a um conjunto de dados com um outlier Exemplo 1612 Retomemos o Exemplo 413 no qual consideramos as variáveis Y preço de ação da Telebrás e X índice da Bolsa de Valores de São Paulo cada uma com n 39 observações O gráfico de dispersão das duas variáveis está na Figura 1620 juntamente com a reta de mínimos quadrados O modelo ajustado é y i 557 093xi e no Quadro 161 temos a saída do programa Minitab Nesta encontramos a Estimativas dos coeficientes α e β juntamente com as estimativas dos desvios padrões respectivos 1085 e 00297 b Valores da estatística t para testar as hipóteses nulas de que os coeficientes são nulos denotadas por T juntamente com o valorp P 0000 mostrando que devemos rejeitar essas hipóteses nulas cap16cp65 2192009 1511 481 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 482 c Uma tabela de análise de variância com o valor F 96944 com 1 e 37 gl e o valorp P 0000 d O valor de R2 963 que nos diz que o modelo ajustado explica a maior parte da variabilidade dos dados Figura 1620 Gráfico de dispersão das variáveis X e Y para o Exemplo 1612 e reta ajustada Quadro 161 Análise do Exemplo 1612 Minitab Regression Analysis The regression equation is Tel 557 0925 Ibv Predictor Coef StDev T P Constant 5570 1085 513 0000 Ibv 092491 002971 3114 0000 S 07614 R Sq 963 R Sq adj 962 Analysis of Variance Source DF SS MS F P Regression 1 56199 56199 96944 0000 Residual Error 37 2145 058 Total 38 58344 Na Figura 1621 temos gráficos que nos auxiliam a fazer um diagnóstico do modelo ajustado Na Figura 1621a temos o gráfico q x q dos quantis dos resíduos contra os quantis da normal padrão para avaliar a normalidade dos resíduos Na Figura 1621b temos o gráfico dos resíduos contra a ordem das observações e na Figura 1621d o gráfico dos resíduos contra os valores ajustados Finalmente na Figura 1621c temos o histograma dos resíduos O que você pode dizer desses gráficos cap16cp65 2192009 1511 482 1 6 8 E X E M P L O S C O M P U T A C I O N A I S 483 Figura 1621 Gráficos após o ajuste do modelo análise de resíduos Exemplo 1611 Minitab Exemplo 1613 Considere os dados da Tabela 168 provenientes da mensuração da velocidade do vento no aeroporto de Philadelphia EUA sempre a uma hora da manhã para os primeiros 15 dias de dezembro de 1974 Graedel e Kleiner 1985 Tabela 168 Velocidade do vento no aeroporto de Philadelphia t vt t vt 1 222 9 204 2 611 10 204 3 130 11 204 4 278 12 111 5 222 13 130 6 74 14 74 7 74 15 148 8 74 Observamos no diagrama de dispersão da Figura 1622 o valor atípico 611 desta cado dos demais pontos A reta de MQ ajustada aos dados é vt 30034 1454t t 1 2 15 1679 e é puxada por esse ponto Essa reta está representada por uma linha cheia na figura cap16cp65 2192009 1511 483 1 6 9 P R O B L E M A S E C O M P L E M E N T O S 485 c Represente a reta de regressão no gráfico feito anteriormente d Qual a posição do ponto xy em relação à reta de regressão e Qual o número esperado de erros para um digitador com 5 meses de experiência 19 Os dados abaixo correspondem às variáveis renda familiar e gasto com alimentação numa amostra de dez famílias representadas em salários mínimos Renda familiar x Gasto com alimentação y 3 15 5 20 10 60 20 100 30 150 50 200 70 250 100 400 150 600 200 800 Obtenha a equação de regressão y α β x a Qual a previsão do gasto com alimentação para uma família com renda de 170 reais b Qual a previsão do gasto para famílias com excepcional renda por exemplo 1000 reais Você acha esse valor razoável Por quê c Se você respondeu que o valor obtido em b não é razoável encontre uma explica ção para o ocorrido Sugestão interprete a natureza das variáveis X e Y e o compor tamento de Y para grandes valores de X 20 A análise do lucro anual de uma ação como função linear da sua cotação média anual forneceu os resultados abaixo com alguns campos em branco Preencha as lacunas e interprete os resultados ANOVA Fonte gl SQ QM F Regressão 1209 Resíduo Total 11 1766 Modelo Descrição Coef EP t valorp LI 95 LS 95 Intercepto 4900 2200 0055 134 Cotação 030 007 0003 045 21 Um jornal quer verificar a eficácia de seus anúncios na venda de carros usados A tabela abaixo mostra o número de anúncios publicados e o correspondente número de cap16cp65 2192009 1511 485 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 486 carros vendidos por seis companhias que usaram apenas esse jornal como veículo de propaganda Companhia A B C D E G Anúncios 74 45 48 36 27 16 Carros vendidos 139 108 98 76 62 57 Ajustandose a reta de regressão obtevese y 1516x 27844 e F 7017 Como você argumentaria com a companhia G para que ela aumentasse o número de anúncios aumentando a venda de carros 22 O custo de manutenção de tratores parece aumentar com a idade do trator Os seguin tes dados foram obtidos X representa idade em anos e Y o custo por seis meses a Ajuste o modelo y β 0 β 1x e teste a hipótese de interesse para o nível α 010 b Devemos procurar um modelo mais adequado c Determine uma previsão para o custo de manutenção para tratores com 5 anos de idade e obtenha um intervalo de confiança com γ 090 d Teste as hipóteses H0 β0 300 H1 β0 300 para o nível α 005 X Y 05 163 05 182 10 978 10 466 10 549 40 495 40 723 40 681 45 619 45 1049 45 1033 50 890 50 1522 50 1194 55 987 60 764 60 1373 23 Origem do Termo Regressão O uso do termo regressão devese a Francis Galton por volta de 1885 quando investigava relações entre características antropométricas de sucessivas gerações Uma de suas constatações era de que cada peculiaridade de um homem é transmitida aos seus descendentes mas em média numa intensidade menor Por exemplo embora pais com baixa estatura tendam a ter filhos também com baixa estatura estes têm altura média maior do que a altura média de seus pais O mesmo ocorre mas em direção contrária com pais com estatura alta Essa afirmação pode ser mais bem compreendida observandose os dados usados por Galton e representados parcialmente na Figura 1623 Se as características permanecessem as mesmas de cap16cp65 2192009 1511 486 1 6 9 P R O B L E M A S E C O M P L E M E N T O S 487 geração para geração esperarseia que a reta de regressão tivesse seu coeficiente angular próximo de 1 Em sua análise Galton encontrou o valor 0516 mostrando que a reta tende para aquela paralela ao eixo x e passando pela média y y A esse fenômeno de a altura dos filhos moverse em direção à altura média de todos os ho mens ele chamou de regressão e às vezes de reversão tendo aparecido num artigo de 1885 no Journal of the Anthropological Institute com o título Regression Towards Mediocrity in Hereditary Stature Regressão para a Mediocridade em Estaturas Hereditárias mediocridade aqui referindose a média Figura 1623 Média da altura de filhos contra altura com posta dos pais baseada no estudo de Galton Os dados abaixo referemse a outro experimento de Galton dentro da mesma investiga ção procurando estudar a relação entre o diâmetro em centésimos de polegada de ervilhaspais x e ervilhasfilhas y Analise a reta de regressão para os dados e interprete os coeficientes Diâmetros em 001 de polegadas de sementes de ervilhas Pais x 150 160 170 180 190 200 210 Filhos y 154 157 160 163 166 170 173 24 Um pesquisador deseja verificar se um instrumento para medir concentração de ácido lático no sangue está bem calibrado Para isso ele tomou 20 amostras de concentrações conhecidas e determinou a respectiva concentração através do instrumento Como uma análise de regressão poderia auxiliar o pesquisador Modele o problema acima espe cificando as variáveis independente e dependente e as hipóteses de interesse 25 Os dados abaixo correspondem a duas variáveis X e Y onde X concentração conhecida de ácido lático e Y concentração de ácido lático registrada pelo instrumento cap16cp65 2192009 1511 487 Livros Básicos BLACKWELL D Estatística básica São Paulo Editora McGrawHill do Brasil Ltda 1973 BUSSAB W O Análise de variância e de regressão São Paulo Atual 1986 FELLER W An introduction to probability theory and its applications Volume I 2a edição Nova York Wiley 1964 HAMMERSLEY J M e HANDSCOMB D C Monte Carlo methods Nova York Wiley 1964 MORETTIN P A HAZZAN S e BUSSAB W O Cálculo funções de uma e várias variáveis São Paulo Editora Saraiva 2005 HELENE O A M e VANIN V R Tratamento estatístico de dados São Paulo Edito ra Edgard Blücher Ltda 1981 MEYER P L Introductory probability and statistical applications Reading Addison Wesley 1965 MORETTIN P A Introdução à estatística para ciências exatas São Paulo Atual 1981 MURTEIRA B J Análise exploratória de dados Lisboa McGrawHill 1993 SOBOL I M Método de Monte Carlo Moscow Editorial MIR 1976 STUART A The ideas of sampling Nova York MacMillan Publishing Company 1984 TUKEY J W Exploratory data analysis Reading AddisonWesley 1977 Livros Mais Avançados BUSSAB W O e BOLFARINE H Elementos de amostragem São Paulo Editora E Blücher 2005 CHAMBERS J M CLEVELAND W S KLEINER B e TUKEY P A Graphical methods for data analysis Nova York Chapman and Hall 1983 CONOVER W J Pratical nonparameric statistics Nova York Wiley 1971 DAVISON A C e HINKLEY D V Bootstrap methods and their application Cambridge University Press 1997 DIXON W J e MASSEY F J Introduction to statistical analysis 2a edição Nova York McGrawHill 1957 DRAPER N R e SMITH H Applied regression analysis 3a edição Nova York Wiley 1998 EFROM B e TIBSHIRANI R J An introduction to the bootstrap Nova York Chapman and Hall 1993 FISHER R A The design of experiments Edimburgo Oliver and Boyd 1935 Statistical methods for research workers 12th edition New York Hafner 1954 HOAGLIN D C MOSTELLER F e TUKEY J W Understanding robust and exploratory data analysis Nova York Wiley 1983 KLEIJNEN J e VAN GROENENDAAL W Simulation a statistical perspective Chichester John Wiley and Sons 1994 R E F E R Ê N C I A S cap17bReferenciasp65 2192009 1517 495 496 E S T A T Í S T I C A B Á S I C A LEHMANN E L Nonparametrics statistical methods based on ranks São Francisco HoldenDay 1975 MORETTIN P A e TOLOI C M C Análise de séries temporais Segunda Edição São Paulo Editora Edgard Blücher 2006 OHAGAN A Bayesian inference London Edward Arnold 1994 PERES C A e SALDIVA C D Planejamento de experimentos São Paulo 5o SINAPE 1982 ROSS C A Simulation 2a edição Nova York Academic Press 1997 Artigos de Interesse BOX G E P e MÜLLER M E A note on the generation of random normal deviates Annals of Statistics 29 pp 610611 1958 EFRON B Bootstrap methods another look at the jackknife Annals of Statistics 7 pp 126 1979 EFRON B e GOUS A Bayesian and frequentist model selection TR n 193 Division of Biostatistics Stanford University 1997 FREEDMAN D e DIACONIS P On the maximum deviation between the histogram and the underling density Zeitschrift für wahrscheinlichkeits theorie und Verwandte Gebiete 58 pp139167 GRAEDEL T E e KLEINER B Exploratory analysis of atmospheric data Probability Statistics and Decision Making in the Atmospheric Sciences A H Murphy and R W Katz Editors pp 143 Boulder Westview Press 1985 METROPOLIS N e ULAM S The Monte Carlo method Journal of The American Statistical Association 44 pp 335341 1949 NEYMAN J Probabilidade e Estatística Freqüentista Rio de Janeiro IMPACNPq 1978 SALDIVA P H N LICHTENFELS A J F C PAIVA P S O BARONE I A MARTINS M A MASSAD E PEREIRA J C R XAVIER V P SINGER J M e BÖHM G M Association between air pollution and mortality due to respiratory diseases in children in São Paulo a preliminary report Environmental Research 65 pp 218226 1994 SINGER J M e ANDRADE D F Regression models for the analysis of pretest data Biometrics 53 pp 729735 1997 VON NEUMANN J Various techniques used in connection with random digits Monte Carlo Method U S National Bureau of Standards Applied Mathematical Series 12 pp 36 38 1951 Tabelas HARTER H L e OWEN D B Selected tables in mathematical statistics Volume 1 Chi cago Markham 1970 MILLER L H Table of percentage points of Kolmogorov statistics Journal of the American Statistical Association 51 pp 11121 1956 PEREIRA J S C e BUSSAB W O Tábuas de estatística e matemática São Paulo Brasiliense 1974 cap17bReferenciasp65 2192009 1517 496 Regiões UF Superfície População Densidade Norte RO 237576167 1453756 612 AC 164165250 653385 399 AM 1559161810 3221940 207 RR 224298980 395725 176 PA 1247689515 7065573 566 AP 142814585 587311 411 TO 277620914 1243627 448 Subtot 3853327 14623317 379 Nordeste MA 331983293 6118995 1843 PI 251529186 3032435 1206 CE 148825602 8185250 550 RN 52796791 3013740 5708 PB 56439838 3641397 6452 PE 98311616 8486638 8632 AL 27767661 3037231 10838 SE 21910348 1939426 8852 BA 564692669 14080670 2494 Subtot 1554257 51535782 3316 A seguir apresentamos vários conjuntos de dados que serão referenciados no texto pela sigla CD acompanhada de um nome identificador CDBrasil Dados sobre o Brasil CDMunicípios Populações de Municípios do Brasil CDNotas Notas em Estatística CDPoluição Dados de Poluição de São Paulo CDTemperaturas Temperaturas Médias Mensais CDSalários Salários para Quatro Profissões CDVeículos Estatísticas sobre Veículos CDPIB Produto Interno Bruto do Brasil CDMercado Preços de Ações da Telebrás e IBOVESPA CDPlaca Índices de Placa Bacteriana 1 Dados sobre o Brasil Dados de superfície em km2 população estimada e densidade habkm2 das unidades federativas UF do Brasil por região Fonte IBGE Contagem da População 2007 C O N J U N T O S D E D A D O S cap18bCONJDADOSP65 2192009 1518 497 E S T A T Í S T I C A B Á S I C A 498 1 Dados sobre o Brasil cont 2 Populações de Municípios do Brasil Populações em 10000 habitantes dos 30 municípios mais populosos do Brasil Fonte IBGE Contagem da População 1996 Regiões UF Superfície População Densidade Sudeste MG 586528293 19273533 3286 ES 46077519 3351669 7274 RJ 43696054 15420450 35290 SP 248209426 39827690 16046 Subtot 924511 77873342 8423 Sul PR 199314850 10284503 516 SC 95346181 5866487 6153 RS 281748583 10582287 3756 Subtot 576410 26733877 4638 Centro MS 357124962 2265813 634 Oeste MT 903357908 2854642 316 GO 340086698 5647035 166 DF 5801937 2455903 42329 Subtot 1606372 13223393 823 Brasil Total 8514876599 183989711 2161 No Município População No Município População 1 São Paulo SP 9888 16 Nova Iguaçu RJ 839 2 Rio de Janeiro RJ 5569 17 São Luís MA 802 3 Salvador BA 2246 18 Maceió AL 747 4 Belo Horizonte MG 2109 19 Duque de Caxias RJ 727 5 Fortaleza CE 2015 20 São Bernardo do Campo SP 684 6 Brasília DF 1877 21 Natal RN 668 7 Curitiba PR 1516 22 Teresina PI 668 8 Recife PE 1358 23 Osasco SP 637 9 Porto Alegre RS 1298 24 Santo André SP 628 10 Manaus AM 1194 25 Campo Grande MS 619 11 Belém PA 1160 26 João Pessoa PB 562 12 Goiânia GO 1023 27 Jaboatão PE 541 13 Guarulhos SP 1018 28 Contagem MG 503 14 Campinas SP 924 29 São José dos Campos SP 497 15 São Gonçalo RJ 847 30 Ribeirão Preto SP 463 cap18bCONJDADOSP65 2192009 1518 498 C O N J U N T O S D E D A D O S 499 3 Notas em Estatística Notas de 100 alunos do curso de Economia da FEAUSP em prova da disciplina Introdução à Probabilidade e à Estatística 1999 Fonte Autores 35 40 55 60 50 55 50 55 40 100 65 95 40 70 75 30 45 50 25 60 50 65 35 45 85 40 80 70 60 75 85 60 90 60 65 75 55 65 80 85 45 75 80 30 40 80 45 55 60 60 75 35 30 70 15 45 100 55 25 100 40 65 75 55 70 75 60 65 65 55 65 50 55 75 80 65 50 70 60 55 30 50 35 60 65 60 80 55 75 60 25 75 90 60 65 35 45 70 50 50 4 Dados de Poluição de São Paulo Dados de poluentes na cidade de São Paulo 1o jan a 30 abr 1991 CO monóxido de carbono ppm O3 ozônio ppb Temp temperatura C Umid umidade relativa do ar ao meiodia Fonte Saldiva et al 1994 Data CO O3 Temp Umid Data CO O3 Temp Umid Jan 1 66 1136 152 56 21 62 1343 170 57 2 62 1152 155 55 22 61 821 200 61 3 79 1304 168 62 23 73 2332 201 61 4 86 1104 164 96 24 66 720 189 68 5 88 1072 152 62 25 62 968 188 70 6 64 864 160 64 26 51 616 159 94 7 69 1200 163 63 27 61 328 152 97 8 79 1504 178 68 28 57 352 170 63 9 82 1490 181 71 29 67 872 186 61 10 87 1173 183 64 30 65 856 200 63 11 63 597 192 69 31 57 347 199 88 12 63 272 172 76 13 63 1192 151 62 14 64 1208 189 78 15 77 267 192 90 16 79 501 183 73 17 79 352 160 94 18 77 400 155 78 19 69 960 160 62 20 62 1420 180 66 cap18bCONJDADOSP65 2192009 1518 499 E S T A T Í S T I C A B Á S I C A 500 4 Dados de Poluição de São Paulo cont Data CO O3 Temp Umid Data CO O3 Temp Umid Fev 1 58 229 189 78 15 62 1727 190 70 2 62 839 178 73 16 67 652 190 80 3 55 2042 170 75 17 61 1492 180 63 4 67 1925 179 66 18 67 1000 167 76 5 79 997 180 65 19 74 1284 158 65 6 64 1823 178 63 20 59 1357 160 58 7 69 1410 182 72 21 55 1212 170 99 8 64 872 180 85 22 61 852 176 57 9 52 344 185 96 23 72 484 169 86 10 57 400 189 81 24 56 816 152 61 11 47 608 200 67 25 72 728 152 71 12 73 820 179 68 26 69 1649 170 63 13 62 989 180 67 27 69 1371 170 58 14 67 2000 170 60 28 77 824 173 62 Data CO O3 Temp Umid Data CO O3 Temp Umid Mar 1 63 388 189 60 17 66 928 158 59 2 77 304 188 76 18 77 971 169 55 3 64 267 181 90 19 103 320 189 97 4 64 336 183 69 20 75 560 181 65 5 79 240 181 89 21 114 917 190 74 6 62 123 180 75 22 95 389 178 88 7 68 123 180 99 23 78 331 171 75 8 80 1292 210 69 24 74 347 180 78 9 83 1056 190 65 25 89 1408 186 77 10 78 1168 190 64 26 95 277 160 92 11 69 853 190 59 27 101 188 142 94 12 75 560 190 61 28 125 240 140 96 13 84 619 201 62 29 62 331 148 83 14 81 507 180 77 30 79 288 163 91 15 66 405 169 64 31 76 187 170 81 16 71 485 152 53 Data CO O3 Temp Umid Data CO O3 Temp Umid Abr 1 91 272 178 56 16 78 299 185 69 2 70 427 164 69 17 116 203 180 59 3 72 624 160 62 18 69 197 190 64 4 78 683 160 64 19 78 133 161 83 5 91 165 148 80 20 69 347 131 70 6 97 1221 123 57 21 47 400 138 62 7 63 1040 149 66 22 79 1502 148 58 8 108 352 176 65 23 74 1207 132 60 9 120 1503 179 70 24 85 288 149 50 10 89 488 166 60 25 85 91 155 97 11 76 384 189 52 26 90 27 159 82 12 94 597 190 56 27 89 112 141 75 13 119 396 198 82 28 103 331 145 58 14 103 635 191 57 29 61 344 140 64 15 83 920 184 60 30 70 536 151 73 cap18bCONJDADOSP65 2192009 1518 500 C O N J U N T O S D E D A D O S 501 5 Temperaturas Médias Mensais Temperaturas médias mensais em graus centígrados de janeiro de 1976 a dezem bro de 1985 em Cananéia e Ubatuba São Paulo Fonte Boletim Climatológico no 6 1989 IOUSP Ano Cananéia Ubatuba Ano Cananéia Ubatuba 1976 252 271 1980 244 261 243 253 250 266 242 258 264 277 214 237 236 244 198 216 217 230 170 200 182 205 172 193 176 201 176 202 178 203 202 202 173 197 216 213 202 215 225 237 222 226 240 255 246 256 1977 253 264 1981 250 259 264 274 262 270 249 263 243 247 218 238 223 229 210 223 219 223 193 208 182 199 208 226 171 190 196 216 180 202 202 216 195 214 216 225 194 207 225 233 232 234 240 241 236 238 1978 248 259 1982 238 243 252 258 250 259 243 255 239 237 216 229 216 221 192 215 199 201 174 198 203 203 189 214 188 203 175 208 187 208 197 218 197 208 216 223 206 215 229 237 224 243 239 247 238 238 1979 229 240 1983 259 264 245 253 259 266 232 242 241 235 218 232 226 189 193 223 209 180 166 196 169 153 165 192 172 147 188 217 179 144 181 205 171 162 220 225 204 199 217 225 235 226 241 245 245 233 cap18bCONJDADOSP65 2192009 1518 501 E S T A T Í S T I C A B Á S I C A 502 5 Temperaturas Médias Mensais cont Ano Cananéia Ubatuba Ano Cananéia Ubatuba 1984 262 256 1985 240 238 266 256 255 262 247 233 253 251 222 191 238 245 218 194 201 216 195 201 180 198 183 190 180 198 162 190 191 201 183 183 192 202 214 220 216 222 223 225 226 229 230 231 240 239 6 Salários Salários em 1979 em francos suíços para quatro profissões em 30 cidades de diferentes países Fonte Prices and Salaries Around The World 19791980 União dos Bancos Suíços Zurique Cidade Prof Sec Mecânico Administrador Eng Eletr Amsterdã 34125 26542 59280 47730 Atenas 11025 12456 31980 18870 Bogotá 4725 3806 14040 14430 Bruxelas 28350 25528 59280 33855 Buenos Aires 5775 6574 21060 36075 Caracas 11550 20068 45240 42180 Chicago 33600 39790 60060 48285 Cid México 6825 8304 28860 22200 Dublin 18375 13840 23400 25530 Estocolmo 28875 25950 54600 33855 Genebra 56700 37022 71760 53835 HongKong 11550 5822 20280 17205 Istambul 4725 6228 13260 12210 Londres 20745 17646 31200 21090 Los Angeles 32550 36330 59280 46065 Madri 14700 12110 32760 31635 Manila 2100 1730 20280 4440 Milão 12600 13494 17160 31080 Montreal 29400 23528 51480 34410 Nova Iorque 27300 32870 67080 53280 Paris 24150 15916 40560 43845 Rio de Janeiro 7350 8650 53040 42735 San Francisco 32025 39946 65520 46065 São Paulo 9450 11072 74470 29970 Singapura 8925 5190 24960 8325 Sydney 28350 20068 34320 31080 Tel Aviv 7875 9688 14040 14430 Tóquio 30450 16954 63180 34410 Toronto 29925 25950 44460 39960 Zurique 52500 34600 78000 55500 cap18bCONJDADOSP65 2192009 1518 502 C O N J U N T O S D E D A D O S 503 7 Estatísticas sobre Veículos Dados sobre 30 veículos novos nacionais N e importados I em março de 1999 Preço em dólares comprimento em metros e motor em CV Fonte Folha de S Paulo 1431999 Veículo Preço Comprimento Motor NI Asia Towner 9440 336 40 I Audi A3 38850 415 125 I Chevrolet Astra 10532 411 110 N Chevrolet Blazer 16346 460 106 N Chevrolet Corsa 6176 373 60 N Chevrolet Tigra 12890 392 100 I Chevrolet Vectra 13140 447 110 N Chrysler Neon 31640 436 115 I Dodge Dakota 11630 498 121 N Fiat Fiorino 6700 416 76 N Fiat Marea 12923 439 127 N Fiat Uno Mille 5257 364 57 N Fiat Palio 6260 373 61 N Fiat Siena 7780 410 61 I Ford Escort 10767 420 115 I Ford Fiesta 6316 383 52 N Ford Ka 5680 362 54 N Ford Mondeo 33718 456 130 I Honda Civic 14460 445 106 N Hyundai Accent 21500 412 91 I Peugeot 106 13840 368 50 I Renault Clio 13700 370 74 I Toyota Corolla 15520 439 116 N Toyota Perua 24632 440 96 N VW Gol 6340 381 54 N VW Golf 22200 415 100 I VW Parati 9300 408 69 N VW Polo 12018 414 99 I VW Santana 11386 457 101 N VW Saveiro 7742 438 88 N 8 Produto Interno Bruto do Brasil Dados anuais do PIB de 1861 a 1986 índices relativos a 1949 Ano PIB Ano PIB Ano PIB Ano PIB 1861 457 1893 938 1925 4364 1957 15571 1862 504 1894 914 1926 4483 1958 16770 1863 518 1895 880 1927 4751 1959 17709 1864 535 1896 812 1928 5428 1960 19427 1865 571 1897 733 1929 5251 1961 21428 1866 565 1898 689 1930 4799 1962 22563 1867 514 1899 698 1931 3945 1963 22902 1868 505 1900 808 1932 3940 1964 23566 1869 561 1901 914 1933 4244 1965 24202 1870 648 1902 1017 1934 5118 1966 25437 cap18bCONJDADOSP65 2192009 1518 503 E S T A T Í S T I C A B Á S I C A 504 8 Produto Interno Bruto do Brasil cont Ano PIB Ano PIB Ano PIB Ano PIB 1871 656 1903 1048 1935 5804 1967 26658 1872 655 1904 1134 1936 6379 1968 29137 1873 672 1905 1247 1937 6635 1969 31759 1874 771 1906 1376 1938 6854 1970 34777 1875 788 1907 1445 1939 6743 1971 38699 1876 798 1908 1601 1940 6753 1972 43362 1877 730 1909 1781 1941 6507 1973 49429 1878 732 1910 2056 1942 6603 1974 53896 1879 738 1911 2429 1943 6630 1975 56705 1880 788 1912 2675 1944 6824 1976 62437 1881 762 1913 2600 1945 7501 1977 65271 1882 686 1914 2291 1946 8448 1978 68346 1883 665 1915 2084 1947 8730 1979 74982 1884 654 1916 2107 1948 9376 1980 79961 1885 702 1917 2196 1949 10000 1981 77285 1886 807 1918 2460 1950 10644 1982 77994 1887 894 1919 2847 1951 11283 1983 76020 1888 925 1920 3039 1952 11570 1984 80353 1889 959 1921 3123 1953 11859 1985 86990 1890 964 1922 3376 1954 13057 1986 94126 1891 935 1923 3911 1955 13959 1892 915 1924 4360 1956 14405 9 Mercado Preços de fechamento de ações da Telebrás multiplicados por 1000 e índice diário da Bolsa de Valores de São Paulo dividido por 100 de 1o de janeiro de 1995 a 29 de junho de 1995 Fonte Bolsa de Valores de São Paulo Mês Dia Telebrás Índice Jan 2 3499 4319 3 3331 4098 4 3209 3968 5 3256 4037 6 3031 3827 9 2891 3628 10 2610 3270 11 2825 3499 12 3041 3841 13 3200 4104 16 3125 4056 17 3237 4210 18 3087 4079 19 2863 3809 20 2956 3862 23 2844 3758 24 2928 3840 26 2984 3927 27 2835 3784 30 2732 3581 31 3041 3885 Mês Dia Telebrás Índice Fev 1 3134 3990 2 3078 3898 3 3144 3944 6 3059 3830 7 2863 3637 8 2760 3556 9 2638 3401 10 2526 3308 13 2498 3295 14 2456 3192 15 2302 3069 16 2096 2864 17 2245 3023 20 2161 2962 21 1974 2793 22 2049 2872 23 2302 3217 24 2348 3271 Mês Dia Telebrás Índice Mar 2 2096 2989 3 2142 2988 6 2040 2867 7 1843 2616 8 1684 2363 9 1506 2138 10 2105 2686 13 2077 2671 14 2330 3017 15 2199 2939 16 2375 3142 17 2208 2981 20 2114 2870 21 2245 3006 22 2236 3004 23 2367 3146 24 2563 3361 27 2573 3372 28 2461 3256 29 2451 3198 30 2414 3126 31 2264 2979 cap18bCONJDADOSP65 2192009 1518 504 C O N J U N T O S D E D A D O S 505 Mês Dia Telebrás Índice Abr 3 2208 2894 4 2433 3125 5 2498 3180 6 2554 3254 7 2535 3192 10 2479 3114 11 2423 3018 12 2395 3021 17 2489 3113 18 2582 3194 19 2723 3331 20 2779 3384 24 2900 3513 25 3013 3699 26 3069 3826 27 3106 3851 28 3086 3814 Mês Dia Telebrás Índice Maio 2 3123 3862 3 3199 3976 4 3241 4044 5 3171 4008 8 3086 3914 9 3223 4065 10 3190 4050 11 3062 3951 12 3095 3998 15 2991 3894 16 2963 3835 17 3114 3964 18 3123 4008 19 3081 3950 22 3199 4034 23 3256 4088 24 3331 4100 25 3237 4019 26 3027 3905 29 3091 3896 30 2871 3707 31 2898 3721 Mês Dia Telebrás Índice Jun 1 2953 3774 2 3091 3966 5 3150 4063 6 3036 3933 7 2907 3808 8 2901 3818 9 2751 3671 12 2816 3705 13 2942 3789 14 2788 3665 16 2848 3718 19 2857 3696 20 2715 3577 21 2788 3632 22 2770 3599 23 2774 3586 26 2765 3537 27 2880 3661 28 2921 3715 29 2862 3678 10 Índices de Placa Bacteriana Medidas de um índice de placa bacteriana obtidas de 26 crianças em idade préesco lar antes e depois do uso de uma escova experimental e de uma escova convencional Fonte Singer e Andrade 1997 Tipo de Escova Hugger Convencional Sujeito Sexo Antes da Depois da Antes da Depois da Escovação Escovação Escovação Escovação 1 F 218 043 120 075 2 F 205 008 143 055 3 F 105 018 068 008 4 F 195 078 145 075 5 F 028 003 050 005 6 F 263 023 275 160 7 F 150 020 125 065 8 F 045 000 040 013 9 F 070 005 118 083 10 F 130 030 143 058 11 F 125 033 045 038 12 F 018 000 160 063 13 F 330 090 025 025 9 Mercado cont cap18bCONJDADOSP65 2192009 1518 505 E S T A T Í S T I C A B Á S I C A 506 10 Índices de Placa Bacteriana cont Tipo de Escova Hugger Convencional Sujeito Sexo Antes da Depois da Antes da Depois da Escovação Escovação Escovação Escovação 14 F 140 024 298 103 15 M 090 015 335 158 16 M 058 010 150 020 17 M 250 033 408 188 18 M 225 033 315 200 19 M 153 053 090 025 20 M 143 043 178 018 21 M 348 065 350 085 22 M 180 020 250 115 23 M 150 025 218 093 24 M 255 015 268 105 25 M 130 005 273 085 26 M 265 025 343 088 cap18bCONJDADOSP65 2192009 1518 506 As tabelas a seguir são em geral autoexplicativas mas o uso de cada uma está explica do no texto O Manual Explicativo de Pereira e Bussab 1974 pode ser consultado para mais explicações 1 As tabelas I a VII são reproduzidas de Pereira e Bussab 1974 com permissão da Editora e autores 2 A tabela VIII foi elaborada usando o SPlus e baseada em Lehmann 1975 3 As tabelas IX e X são adaptadas de Pereira e Bussab 1974 com permissão da Editora e autores T A B E L A S cap19bTABELASP65 2192009 1555 507 508 E S T A T Í S T I C A B Á S I C A Tabela I Distribuição Binomial X bn p Corpo da tabela dá as probabilidades PX j j 0 1 n p 005 010 020 025 030 040 050 n 2p 005 010 020 025 030 040 050 n 3 p 005 010 020 025 030 040 050 n 4 x 0 902 810 640 562 490 360 250 2 x x 0 857 729 512 422 343 216 125 3 x x 0 815 656 410 316 240 130 062 4 4 x 1 095 180 320 375 420 480 500 1 x n 1 135 243 384 422 441 432 375 2 x x 1 171 292 410 422 412 346 250 3 4 x 2 002 010 040 062 090 160 250 0 x n 2 007 027 096 141 189 288 375 1 x x 2 014 049 154 211 265 346 375 2 4 n 3 00 001 008 016 027 064 125 0 x n 2 095 090 080 075 070 060 050 p x 3 0004 026 047 076 154 250 1 4 n 3 095 090 080 075 070 060 050 p x 4 00 002 004 008 026 062 0 x n 4 095 090 080 075 070 060 050 p p 005 010 020 025 030 040 050 n 5 p 005 010 020 025 030 040 050 n 6 p 005 010 020 025 030 040 050 n 7 x 0 698 478 210 133 062 028 008 7 x x 0 774 590 328 237 168 078 031 5 x x 0 735 531 262 178 118 047 016 6 x x1 257 372 367 311 247 131 055 6 x x 1 204 328 410 396 360 259 156 4 x x1 232 354 393 356 303 187 094 5 x x2 041 124 275 311 318 261 164 5 x x 2 021 073 205 264 309 346 312 3 x x2 031 098 246 297 324 311 234 4 x x3 004 023 115 173 227 290 273 4 x x3 002 015 082 132 185 276 312 3 x x 3 001 008 051 088 132 230 312 2 x x4 0 003 029 058 097 194 273 3 x x 4 0 0 006 015 028 077 156 1 x x4 0 001 015 033 060 138 234 2 x x5 0 0 004 012 025 077 164 2 x x 5 0 0 0 001 002 010 031 0 x x5 0 0 002 004 010 037 094 1 x x6 0 0 0 001 004 017 055 1 x x6 0 0 0 0 001 004 016 0 x x7 0 0 0 0 0 002 006 0 x n 5 095 090 080 075 070 060 050 p n 6 095 090 080 075 070 060 050 p n 7 095 090 080 075 070 060 050 p p 005 010 020 025 030 040 050 n 8 p 005 010 020 025 030 040 050 n 9 p 005 010 020 025 030 040 050 n 10 x 0 599 349 107 056 028 006 001 10 x x 0 663 430 168 100 058 017 004 8x x 0 630 387 134 075 040 010 002 9x x 1 315 387 268 188 121 040 010 9 x x 1 279 383 336 267 198 090 031 7x x 1 299 387 302 225 156 060 018 8x x 2 075 194 302 282 233 121 044 8 x x 2 051 149 294 311 296 209 109 6x x 2 063 172 302 300 267 161 070 7x x 3 010 057 201 250 267 215 117 7 x x 3 005 033 147 208 254 279 219 5x x 3 008 045 176 234 267 251 164 6x x 4 0 005 046 087 136 232 273 4x x 4 001 007 066 117 172 251 246 5x x 4 001 011 068 146 200 251 205 6 x x 5 0 001 026 058 103 201 246 5 x x 5 0 0 009 023 047 124 219 3x x 5 0 001 017 039 074 167 246 4x x 6 0 0 006 016 037 111 205 4 x x 6 0 0 001 004 010 041 109 2x x 6 0 0 003 009 021 074 164 3x x 7 0 0 001 003 009 042 117 3 x x 7 0 0 0 0 001 008 031 1x x 7 0 0 0 001 004 021 070 2x x 8 0 0 0 0 0 001 004 0 x x 8 0 0 0 0 0 004 018 1x x 8 0 0 0 0 001 011 044 2 x x x 9 0 0 0 0 0 0 002 0 x x 9 0 0 0 0 0 002 010 1 x x x 10 0 0 0 0 0 02 001 0 x n 8 095 090 080 075 070 060 050 p n 9 095 090 080 075 070 060 050 p n 10 095 090 080 075 070 060 050 p p 005 010 020 025 030 040 050 n 11 p 005 010 020 025 030 040 050 n 12 p 005 010 020 025 030 040 050 n 13 x 0 569 314 086 042 020 004 0m 11 x x 0 540 282 069 032 014 002 0m 12 x x 0 513 254 055 024 010 001 0 13 x x 1 329 384 236 155 093 027 005 10 x x 1 341 377 206 127 071 017 003 11 x x 1 351 367 179 103 054 011 002 12 x x 2 087 213 295 258 200 089 027 9 x x 2 099 230 283 232 168 064 016 10 x x 2 111 245 268 206 139 045 010 11 x x 3 014 071 221 258 257 177 061 8 x x 3 017 085 236 258 240 142 054 9 x x 3 021 100 246 252 218 111 035 10 x x 4 002 021 133 194 231 213 121 8 x x 4 003 028 154 210 234 184 087 9 x x 4 001 016 111 172 220 236 161 7 x x 5 0m 004 053 103 158 227 193 7 x x 5 0m 006 069 126 180 221 157 8 x x 5 0m 002 039 060 132 221 226 6 x x 6 0m 0m 016 040 079 177 226 6 x x 6 0m 001 023 056 103 197 209 7 x x 6 0m 0m 010 027 057 147 226 5 x x 7 0m 0m 003 011 029 101 193 5 x x 7 0m 0m 006 019 044 131 209 6 x x 7 0m 0m 002 006 017 070 161 4 x x 8 0m 0m 001 002 006 042 121 4 x x 8 0m 0m 001 005 014 066 157 5 x x 9 0m 0m 0m 001 003 024 067 4 x x 8 0m 0m 0m 001 004 023 061 3 x x 9 0m 0m 0m 0m 001 012 054 3 x x 10 0m 0m 0m 0m 001 006 035 3 x x 9 0m 0m 0m 0m 001 005 027 2 x x 10 0m 0m 0m 0m 0m 002 016 2 x x 11 0m 0m 0m 0m 0m 001 010 2 x mx 10 0m 0m 0m 0m 0m 001 005 1 x x 11 0m 0m 0m 0m 0m 0m 003 1 x x 12 0m 0m 0m 0m 0m 0m 002 1 x x 11 0m 0m 0m 0m 0m 0m 0m 0 x x 12 0m 0m 0m 0m 0m 0m 0m 0 x x 13 0m 0m 0m 0m 0m 0m 0m 0 x n 11 095 090 080 075 070 060 050 p n 12 095 090 080 075 070 060 050 p n 13 095 090 080 075 070 060 050 p 2 3 4 5 6 7 8 9 10 11 12 13 8 9 10 11 12 13 2 3 4 5 6 7 cap19bTABELASP65 2192009 1555 508 T A B E L A S 509 Tabela I Distribuição Binomial continuação p 005 010 020 025 030 040 050 n 14 p 005 010 020 025 030 040 050 n 15 p 005 010 020 025 030 040 050 n 16 x 0 463 206 035 013 005 0m 0m 15 x x 0 440 185 028 010 003 0m 0m 16 x x 0 488 229 044 018 007 001 0m 14 x x 1 366 343 132 067 031 005 0m 14 x x 1 371 329 113 053 023 003 0m 15 x x 1 359 356 154 083 041 007 001 13 x x 2 135 267 231 156 092 022 003 13 x x 2 146 275 211 134 073 015 002 14 x x 2 123 267 250 180 113 032 006 12 x x 3 031 129 250 225 170 063 014 12 x x 3 036 142 246 208 146 047 009 13 x x 3 026 114 250 240 194 065 022 11 x x 4 004 035 172 220 229 155 061 10 x x 4 005 043 188 225 219 127 042 11 x x 4 006 051 200 225 204 101 028 12 x x 5 001 010 103 165 206 186 092 10 x x 5 001 014 120 180 210 162 067 11 x x 5 0m 006 066 147 196 207 122 9 x x 6 0m 002 043 092 147 207 153 9 x x 6 0m 003 055 110 165 198 122 10 x x 6 0m 001 032 073 126 207 183 8 x x 7 0m 0m 014 039 081 177 196 8 x x 7 0m 0m 020 052 101 189 175 9 x x 7 0m 0m 009 028 062 157 209 7 x x 8 0m 0m 002 008 023 092 183 6 x x 8 0m 0m 003 013 035 118 196 7 x x 8 0m 0m 006 020 049 142 196 8 x x 9 0m 0m 0m 002 007 041 122 5 x x 9 0m 0m 001 003 012 061 153 6 x x 9 0m 0m 001 006 019 084 175 7 x x 10 0m 0m 0m 001 003 024 092 5 x x 10 0m 0m 0m 001 006 039 122 6 x x 10 0m 0m 0m 0m 001 014 061 4 x x 11 0m 0m 0m 0m 001 007 042 4 x x 11 0m 0m 0m 0m 001 014 067 5 x x 11 0m 0m 0m 0m 0m 003 022 3 x x 12 0m 0m 0m 0m 0m 001 006 2 x x 12 0m 0m 0m 0m 0m 002 014 3 x x 12 0m 0m 0m 0m 0m 004 028 4 x x 13 0m 0m 0m 0m 0m v 001 1 x x 13 0m 0m 0m 0m 0m 0m 003 2 x x 13 0m 0m 0m 0m 0m 001 009 3 x x 14 0m 0m 0m 0m 0m 0m 0m 0 x x 14 0m 0m 0m 0m 0m 0m 0m 1 x x 14 0m 0m 0m 0m 0m 0m 002 2 x x 15 0m 0m 0m 0m 0m 0m 0m 0 x x 15 0m 0m 0m 0m 0m 0m 0m 1 x x 16 0m 0m 0m 0m 0m 0m 0m 0 x n 14 095 090 080 075 070 060 050 p n 15 095 090 080 075 070 060 050 p n 16 095 090 080 075 070 060 050 p p 005 010 020 025 030 040 050 n 19 p 005 010 020 025 030 040 050 n 18 p 005 010 020 025 030 040 050 n 17 x 0 377 135 014 004 001 0m 0m 19 x x1 377 285 068 027 009 001 0m 18 x x 0 397 150 018 006 002 0m 0m 18 x2 179 285 154 060 036 005 0m 17 x x 1 376 300 061 034 013 001 0m 17 x 0 418 167 023 008 002 0m 0m 17 x3 053 180 218 152 067 017 002 16 x x 2 168 284 172 096 046 007 001 16 x 1 374 315 096 043 017 002 0m 16 x4 011 080 218 202 149 047 007 15 x x 3 047 168 230 170 105 025 003 15 x 2 158 280 191 114 058 010 001 15 x 4 009 070 215 213 168 061 012 14 x 3 041 156 239 189 125 034 005 14 x 4 008 060 209 221 187 060 018 13 x5 002 027 164 202 192 093 022 14 x x6 0m 007 095 157 192 145 052 13 x x 5 001 022 151 199 202 115 033 13 x7 0m 001 044 097 153 180 096 12 x x 6 0m 005 062 144 187 166 071 12 x 5 001 017 136 191 208 138 047 12 x8 0m 0m 017 049 098 180 144 11 x x 7 0m 001 035 082 138 189 121 11 x 6 0m 004 068 128 178 184 094 11 x9 0m 0m 005 020 051 146 176 10 x x 8 0m 0m 012 038 081 173 167 10 x 7 0m 001 027 067 120 193 148 10 x 9 0m 0m 003 014 039 128 185 9x x 8 0m 0m 008 028 064 161 185 9x 10 0m 0m 001 007 022 093 178 9 x x 9 0m 0m 002 009 028 107 185 8x 11 0m 0m 0m 002 008 145 144 8 x x 10 0m 0m 001 004 015 077 167 8x 12 0m 0m 0m 0m 002 180 096 7 x x 11 0m 0m 0m 001 005 037 121 7x x 10 0m 0m 0m 002 009 067 148 7x 13 0m 0m 0m 0m 001 180 052 6 x x 12 0m 0m 0m 0m 001 015 071 6x x 11 0m 0m 0m 001 003 024 094 6x 14 0m 0m 0m 0m 0m 146 022 5 x x 13 0m 0m 0m 0m 0m 004 033 5x x 12 0m 0m 0m 0m 001 008 047 5x x 14 0m 0m 0m 0m 0m 001 012 4x x 13 0m 0m 0m 0m 0m 002 018 4x x 14 0m 0m 0m 0m 0m 0m 005 3x 15 0m 0m 0m 0m 0m 098 007 4 x 16 0m 0m 0m 0m 0m 053 002 3 x x 15 0m 0m 0m 0m 0m 0m 003 3x 17 0m 0m 0m 0m 0m 024 0m 2 x x 16 0m 0m 0m 0m 0m 0m 001 2x x 15 0m 0m 0m 0m 0m 0m 001 2x 18 0m 0m 0m 0m 0m 008 0m 1 x x 17 0m 0m 0m 0m 0m 0m 0m 1x x 16 0m 0m 0m 0m 0m 0m 0m 1x 19 0m 0m 0m 0m 0m 002 0m 0 x x 18 0m 0m 0m 0m 0m 0m 0m 0 x x 17 0m 0m 0m 0m 0m 0m 0m 0 x n 19 095 090 080 075 070 060 050 p n 18 095 090 080 075 070 060 050 p n 17 095 090 080 075 070 060 050 p 14 15 16 17 18 19 14 15 16 19 18 17 cap19bTABELASP65 2192009 1555 509 512 E S T A T Í S T I C A B Á S I C A Tabela IV Distribuição Quiquadrado Y χ2 ν Corpo da tabela dá os valores yc tais que P Y yc p Para valores ν 30 use a aproximação normal dada no texto p 99 98 975 95 90 80 70 50 30 20 10 5 4 25 2 1 02 01 1 00316 00363 0001 0004 0016 0064 0148 0455 1074 1642 2706 3841 4218 5024 5412 6635 9550 10827 1 2 0020 0040 0051 0103 0211 0446 0713 1386 2408 3219 4605 5991 6438 7378 7824 9210 12429 13815 2 3 0115 0185 0216 0352 0584 1005 1424 2366 3665 4642 6251 7815 8311 9348 9837 11345 14796 16266 3 4 0297 0429 0484 0711 1064 1649 2195 3357 4878 5989 7779 9488 10026 11143 11668 13277 16924 18467 4 5 0554 0752 0831 1145 1610 2343 3000 4351 6064 7289 9236 11070 11644 12832 13388 15086 18907 20515 5 6 0872 1134 1237 1635 2204 3070 3828 5348 7231 8558 10645 12592 13198 14449 15033 16812 20791 22457 6 7 1239 1564 1690 2167 2833 3822 4671 6346 8383 9803 12017 14067 14703 16013 16622 18475 22601 24322 7 8 1646 2032 2180 2733 3490 4594 5527 7344 9524 11030 13362 15507 16171 17534 18168 20090 24352 26125 8 9 2088 2532 2700 3325 4168 5380 6393 8343 10656 12242 14684 16919 17608 19023 19679 21666 26056 27877 9 10 2558 3059 3247 3940 4865 6179 7267 9342 11781 13442 15987 18307 19021 20483 21161 23209 27722 29588 10 11 3053 3609 3816 4575 5578 6989 8148 10341 12899 14631 17275 19675 20412 21920 22618 24725 29354 31264 11 12 3571 4178 4404 5226 6304 7807 9034 11340 14011 15812 18549 21026 21785 23337 24054 26217 30957 32909 12 13 4107 4765 5009 5892 7042 8634 9926 12340 15119 16985 19812 22362 23142 24736 25472 27688 32535 34528 13 14 4660 5368 5629 6571 7790 9467 10821 13339 16222 18151 21064 23685 24485 26119 26873 29141 34091 36123 14 15 5229 5985 6262 7261 8547 10307 11721 14339 17322 19311 22307 24996 25816 27488 28259 30578 35628 37697 15 16 5812 6614 6908 7962 9312 11152 12624 15338 18418 20465 23542 26296 27136 28845 29633 32000 37146 39252 16 17 6408 7255 7564 8672 10085 12002 13531 16338 19511 21615 24769 27587 28445 30191 30995 33409 38648 40790 17 18 7015 7906 8231 9390 10865 12857 14440 17338 20601 22760 25989 28869 29745 31526 32346 34805 40136 42312 18 19 7633 8567 8906 10117 11651 13716 15352 18338 21689 23900 27204 30144 31037 32852 33687 36191 41610 43820 19 20 8260 9237 9591 10851 12443 14578 16266 19337 22775 25038 28412 31410 32321 34170 35020 37566 43072 45315 20 21 8897 9915 10283 11591 13240 15445 17182 20337 23858 26171 29615 32671 33597 35479 36343 38932 44522 46797 21 22 9542 10600 10982 12338 14041 16314 18101 21337 24939 27301 30813 33924 34867 36781 37659 40289 45962 48268 22 23 10196 11293 11688 13091 14848 17187 19021 22337 26018 28429 32007 35172 36131 38076 38968 41638 47391 49728 23 24 10856 11992 12401 13848 15659 18062 19943 23337 27096 29553 33196 36415 37389 39364 40270 42980 48812 51179 24 25 11524 12697 13120 14611 16473 18940 20867 24337 28172 30675 34382 37652 38642 40646 41566 44314 50223 52620 25 26 12198 13409 13844 15379 17292 19820 21792 25336 29246 31795 35563 38885 39889 41923 42856 45642 51627 54052 26 27 12879 14125 14573 16151 18114 20703 22719 26336 30319 32912 36741 40113 41132 43194 44140 46963 53022 55476 27 28 13565 14847 15308 16928 18939 21588 23647 27336 31319 34027 37916 41337 42370 44461 45419 48278 54411 56893 28 29 14258 15574 16047 17708 19768 22475 24577 28336 32461 35139 39087 42557 43604 45722 46693 49588 55792 58302 29 30 14953 16306 16791 18493 20599 23364 25508 29336 33530 36250 40256 43773 44834 46979 47962 50892 57167 59703 30 p 99 98 975 95 90 80 70 50 30 20 10 5 4 25 2 1 02 01 Graus de liberdade ν Graus de liberdade ν cap19bTABELASP65 2192009 1555 512 516 E S T A T Í S T I C A B Á S I C A Tabela VII Números Aleatórios 61 09 26 29 85 11 95 77 79 04 57 00 91 29 59 83 53 87 02 02 94 47 40 99 93 82 13 22 40 33 19 72 55 69 82 16 94 21 66 39 50 40 50 55 79 00 58 17 26 30 38 11 54 89 04 13 69 17 35 48 51 01 75 76 54 43 11 28 32 75 33 09 04 78 74 91 56 79 43 39 25 45 79 30 63 56 44 70 05 04 31 81 46 02 92 32 06 71 12 48 63 94 61 14 24 60 27 00 00 95 54 31 59 00 79 94 46 32 61 90 12 95 04 73 06 72 76 88 55 62 38 79 18 68 10 31 93 58 66 92 38 06 78 00 85 42 57 29 28 34 79 91 93 58 82 97 37 07 64 67 22 69 28 18 25 08 90 93 53 17 54 12 21 03 56 30 88 53 46 82 07 95 63 14 76 53 62 10 21 57 55 74 57 68 22 38 84 55 57 49 61 41 81 16 97 55 19 65 08 62 26 38 74 32 30 44 64 64 91 80 97 15 71 92 40 28 33 35 23 32 75 36 18 98 41 10 50 93 75 95 39 81 34 84 33 83 42 77 35 00 51 42 82 63 30 47 01 98 96 73 58 35 04 52 06 81 24 32 74 53 28 82 43 35 01 73 34 47 05 76 52 85 30 59 37 00 49 88 07 43 08 04 00 48 36 23 31 88 80 88 41 92 93 01 94 13 33 63 32 35 38 91 18 89 71 67 46 73 42 47 88 51 22 59 99 51 20 74 13 55 30 41 25 99 10 26 01 33 24 13 11 12 32 28 25 67 22 97 11 73 55 24 09 23 47 12 93 44 80 47 33 02 06 80 29 39 78 49 81 21 42 00 99 80 44 56 33 83 46 16 03 67 08 29 16 04 92 31 62 03 94 53 02 60 55 72 46 68 25 93 41 54 93 90 86 52 14 58 90 34 83 00 73 38 14 50 77 58 08 94 18 84 83 61 42 96 82 86 02 30 40 16 65 55 63 20 40 24 79 80 06 15 93 11 72 17 32 31 84 89 53 66 01 99 53 75 79 92 20 61 12 74 92 15 60 93 84 37 29 62 24 96 78 93 28 34 41 69 04 51 79 13 36 81 55 51 46 66 68 85 07 73 35 42 52 61 29 21 02 34 01 78 33 32 06 16 45 94 09 18 40 14 73 03 61 80 69 79 52 95 90 73 28 21 38 57 39 36 24 33 31 99 64 86 19 61 55 50 65 14 44 10 20 96 70 32 41 46 22 97 08 22 02 47 43 57 15 87 76 59 52 47 00 27 41 43 70 17 52 44 51 26 94 73 17 72 16 51 81 77 23 03 84 44 29 43 57 05 46 59 89 00 65 01 20 27 32 66 34 56 cap19bTABELASP65 2192009 1555 516 518 E S T A T Í S T I C A B Á S I C A Tabela VIII Distribuição de MannWhitney continuação m u n 5 n 6 n 7 n 8 n 9 n 10 m u n 7 n 8 n 9 n 10 5 0 0040 0022 0013 0008 0005 0003 7 0 0003 0002 0001 0001 1 0079 0043 0025 0016 0010 0007 1 0006 0003 0002 0001 2 0159 0087 0051 0031 0020 0013 2 0012 0006 0003 0002 3 0278 0152 0088 0054 0035 0023 3 0020 0011 0006 0004 4 0476 0260 0152 0093 0060 0040 4 0035 0019 0010 0006 5 0754 0411 0240 0148 0095 0063 5 0055 0030 0017 0010 6 1111 0628 0356 0225 0145 0097 6 0087 0047 0026 0015 7 1548 0887 0530 0326 0210 0140 7 0131 0070 0039 0023 8 2103 1234 0745 0466 0300 0200 8 0189 0103 0058 0034 9 2738 1645 1010 0637 0415 0276 9 0265 0145 0082 0048 10 3452 2143 1338 0855 0559 0376 10 0364 0200 0115 0068 11 4206 2684 1717 1111 0734 0496 11 0487 0270 0156 0093 12 5000 3312 2159 1422 0949 0646 12 0641 0361 0209 0125 13 5794 3961 2652 1772 1199 0823 13 0825 0469 0274 0165 14 6548 4654 3194 2176 1489 1032 14 1043 0603 0356 0215 15 7262 5346 3775 2618 1818 1272 15 1297 0760 0454 0277 16 7897 6039 4381 3108 2188 1548 16 1588 0946 0571 0351 17 8452 6688 5000 3621 2592 1855 17 1914 1159 0708 0439 18 8889 7316 5619 4165 3032 2198 18 2279 1405 0879 0544 19 9246 7857 6225 4716 3497 2567 19 2675 1678 1052 0665 20 9524 8355 6806 5284 3986 2970 20 3100 1984 1261 0806 21 9722 8766 7348 5835 4491 3393 21 3552 2317 1496 0976 6 0 0011 0006 0003 0002 0001 22 4024 2679 1755 1148 1 0022 0012 0007 0004 0002 23 4508 3063 2039 1349 2 0043 0023 0013 0008 0005 24 5000 3472 2349 1574 3 0076 0041 0023 0014 0009 25 5492 3894 2680 1819 4 0130 0070 0040 0024 0015 26 5976 4333 3032 2087 5 0206 0111 0063 0038 0024 27 6448 4775 3403 2374 6 0325 0175 0100 0060 0037 28 6900 5225 3788 2681 7 0465 0256 0147 0088 0055 29 7325 5667 4185 3004 8 0660 0367 0213 0128 0080 30 7721 6106 4591 3345 9 0898 0507 0296 0180 0112 10 1201 0688 0406 0248 0156 11 1548 0903 0539 0332 0210 12 1970 1171 0709 0440 0280 13 2424 1474 0906 0567 0363 14 2944 1830 1142 0723 0467 15 3496 2226 1412 0905 0589 16 4091 2669 1725 1119 0736 17 4686 3141 2068 1361 0903 18 5314 3654 2454 1638 1999 19 5909 4178 2864 1942 1317 20 6504 4726 3310 2280 1566 21 7056 5274 3773 2643 1838 22 7576 5822 4259 3035 2139 23 8030 6346 4749 3445 2461 24 8452 6859 5251 3878 2811 25 8799 7331 5741 4320 3177 26 9102 7774 6227 4773 3564 27 9340 8170 6690 5227 3962 28 9535 8526 7136 5680 4374 29 9675 8829 7546 6122 4789 30 9794 9097 7932 6555 5211 cap19bTABELASP65 2192009 1555 518 T A B E L A S 519 Tabela VIII Distribuição de MannWhitney continuação m u n 8 n 9 n 10 m u n 9 n 10 m u n 10 8 0 0001 0000 0000 9 0 0000 0000 10 0 0000 1 0002 0001 0000 1 0000 0000 1 0000 2 0003 0002 0001 2 0001 0000 2 0000 3 0005 0003 0002 3 0001 0001 3 0000 4 0009 0005 0003 4 0002 0001 4 0001 5 0015 0008 0004 5 0004 0002 5 0001 6 0023 0012 0007 6 0006 0003 6 0002 7 0035 0019 0010 7 0009 0005 7 0002 8 0052 0028 0015 8 0014 0007 8 0004 9 0074 0039 0022 9 0020 0011 9 0005 10 0103 0056 0031 10 0028 0015 10 0008 11 0141 0076 0043 11 0039 0021 11 0010 12 0190 0103 0058 12 0053 0028 12 0014 13 0249 0137 0078 13 0071 0038 13 0019 14 0325 0180 0103 14 0094 0051 14 0026 15 0415 0232 0133 15 0122 0066 15 0034 16 0524 0296 0171 16 0157 0086 16 0045 17 0653 0372 0217 17 0200 0110 17 0057 18 0803 0464 0273 18 0252 0140 18 0073 19 0974 0570 0338 19 0313 0175 19 0093 20 1172 0694 0416 20 0385 0217 20 0116 21 1393 0836 0506 21 0470 0267 21 0144 22 1641 0998 0610 22 0567 0326 22 0177 23 1911 1179 0729 23 0680 0394 23 0216 24 2209 1383 0864 24 0807 0474 24 0262 25 2527 1606 1015 25 0951 0564 25 0315 26 2869 1852 1185 26 1112 0667 26 0376 27 3227 2117 1371 27 1290 0782 27 0446 28 3605 2404 1577 28 1487 0912 28 0526 29 3992 2707 1800 29 1701 1055 29 0615 30 4392 3029 2041 30 1933 1214 30 0716 31 4796 3365 2299 31 2181 1388 31 0827 32 5204 3715 2574 32 2447 1577 32 0952 33 5608 4074 2863 33 2729 1781 33 1088 34 6008 4442 3167 34 3024 2001 34 1237 35 6395 4813 3482 35 3332 2235 35 1399 36 6773 5187 3809 36 3652 2483 36 1575 37 7131 5558 4143 37 3981 2745 37 1763 38 7473 5926 4484 38 4317 3019 38 1965 39 7791 6285 4827 39 4657 3304 39 2179 40 8089 6635 5173 40 5000 3598 40 2406 cap19bTABELASP65 2192009 1555 519 520 E S T A T Í S T I C A B Á S I C A Tabela IX Distribuição de Wilcoxon T O corpo da tabela dá os valores wp tais que PT wp p w0005 w001 w0025 w005 w010 w0005 w001 w0025 w005 w010 n 4 0 0 0 0 1 n 27 84 94 108 120 135 5 0 0 0 1 3 28 92 102 117 131 146 6 0 0 1 3 4 29 101 111 127 141 158 7 0 1 3 4 6 30 110 121 138 152 170 8 1 2 4 6 9 31 119 131 148 164 182 9 2 4 6 9 11 32 129 141 160 176 195 10 4 6 9 11 15 33 139 152 171 188 208 11 6 8 11 14 18 34 149 163 183 201 222 12 8 10 14 18 22 35 160 175 196 214 236 13 10 13 18 22 27 36 172 187 209 228 251 14 13 16 22 26 32 37 184 199 222 242 266 15 16 20 26 31 37 38 196 212 236 257 282 16 20 24 30 36 43 39 208 225 250 272 298 17 24 28 35 42 49 40 221 239 265 287 314 18 28 33 41 48 56 41 235 253 280 303 331 19 33 38 47 54 63 42 248 267 295 320 349 20 38 44 53 61 70 43 263 282 311 337 366 21 44 50 59 68 78 44 277 297 328 354 385 22 49 56 67 76 87 45 292 313 344 372 403 23 55 63 74 84 95 46 308 329 362 390 423 24 62 70 82 92 105 47 324 346 379 408 442 25 69 77 90 101 114 48 340 363 397 428 463 26 76 85 99 111 125 49 357 381 416 447 483 50 374 398 435 467 504 cap19bTABELASP65 2192009 1555 520 1 1 1 1 1 a razão e razão b ordinal f nominal c razão g intervalar d intervalar 3 3 3 3 3 População urbana Número de habitantes n i fi Menos de 500000 3 01111 500001 a 1000000 2 00740 1000001 a 5000000 15 05556 5000001 a 10000000 4 01481 Mais de 10000000 3 01111 Total 27 10000 Densidade populacional Densidade habkm2 ni fi Menos de 10 9 03333 10 a 30 5 01852 30 a 50 4 01481 50 a 100 6 02222 Mais de 100 3 01111 Total 27 10000 6 6 6 6 6 a Histograma b Gráfico de dispersão unidimensional 8 8 8 8 8 Histograma Ramoefolhas Decimal point is 1 place to the right of the colon 4 6 5 0046 6 234778 7 35 8 045 9 2 10 22 11 69 12 13 06 14 15 2 16 17 18 8 19 20 1 21 1 22 5 Valores maiores 5569 9988 Gráfico de dispersão unidimensional Capítulo 2 R E S P O S T A S cap20bRESPOSTAP65 2192009 1548 522 R E S P O S T A S 525 42 42 42 42 42 dam urb 1413000 dam rural 546900 45 45 45 45 45 Dados não simétricos pontos acima da reta u v no gráfico de simetria 48 48 48 48 48 a n 120 dq 16 Δ 547 16003989613 b n 30 dq 20734 Δ 7600 n 20734004923713 c Histograma de X 38 38 38 38 38 a Z é uma nota padronizada b As notas padronizadas são 058 058 018 018 058 135 018 018 058 018 135 095 095 058 058 095 018 058 326 095 095 018 135 058 058 cz 0 dp 1 d z 326 e política 39 39 39 39 39 a x01 1084x025 1052 40 40 40 40 40 CVA 20 CVB 30 13 13 13 13 13 a b 074 15 15 15 15 15 Seção e Notas de Estatística não são correlacionadas 18 18 18 18 18 a Salário Estado Menos de entre 10 Mais de Total Civil 10 SM e 20 SM 20 SM solteiro 012 019 009 040 casado 008 031 021 060 Total 020 050 030 100 1 1 1 1 1 b 50 d 583 c 194 3 3 3 3 3 b 25 d 125 c 50 e Bastante modificada maioria das pessoas que ganham pouco têm alta rotatividade 5 5 5 5 5 Existe relação pois as probabilidades marginais não se repetem no interior da tabela 7 7 7 7 7 χ2 067 C 081 8 8 8 8 8 Problema 3 χ2 5625 C 0351 T 0375 Problema 6 χ2 1142 C 0075 T 0076 9 9 9 9 9 Não há diferenças entre as três empresas 11 11 11 11 11 b O gráfico indica dependência linear entre as variáveis c 086 d Porto Alegre e Fortaleza apresentam comporta mentos diferentes dos demais CAPÍTULO 4 Capítulo 4 cap20bRESPOSTAP65 2192009 1548 525 A Amostra aleatória simples 268270 com reposição 269 estratificada 293 por conglomerados 293 sem reposição 269 sistemática 294 tamanho de uma 287289 Análise Bidimensional 68 de aderência 402 de dados 1 de resíduos 467469 exploratória de dados 1 Aproximação normal 182 Associação de variáveis 7375 80 83 B Bayes 116121 Bonferroni 441 Bootstrap 321323 Box Plots 4750 C Coeficiente de contingência 76 79 de correlação 8485 de variação 65 Comparação de médias 439440 Confiabilidade 114 Contrastes 446 Covariância 85 214218 Curva de nível 205 231 D Dados 4 Densidade de freqüência 1819 de probabilidade 168 Desigualdade de Chebyshev 326 Desvio absoluto mediano 66 médio 3840 padrão 3940 Distribuição amostral da média 277281 amostral da mediana 283286 amostral da proporção 281283 amostral da variância 283286 Bernoulli 142143 Beta 201 binomial 145 condicional 206207 224 conjunta 68 203206 de freqüências 1113 de Pascal 162 de variáveis 129179 203 exponencial 181 F de Snedecor 192193 Gama 188189 geométrica 161 hipergeométrica 147 lognormal 200 MannWhitney 372 marginais 70 206 222 multinomial 419 normal 46 normal bidimensional 229231 Pareto 199 Í N D I C E R E M I S S I V O cap21bREMISSIVOP65 2192009 1544 537 538 E S T A T Í S T I C A B Á S I C A Poisson 148153 quiquadrado 189190 t de Student 191192 uniforme 140141 174176 Weibull 201 Wilcoxon 372 378 381 E Erro padrão 316317 quadrático médio 302303 Escalas 14 Espaço amostral 104105 Esperança condicional 227 matemática 168169 Estatísticas 271 de ordem 36 271 Estimação de parâmetros 296 Estimadores consistentes 300301 de momentos 304305 de máxima verossimilhança 308 de mínimos quadrados 305307 nãoviesados 299300 propriedades 298 Eventos aleatório 104 certo 106 impossível 106 independentes 113114 intersecção 107 reunião 107 Excel 3 F Freqüência absoluta 12 acumulada 30 relativa 12 Função característica de operação 335 de distribuição acumulada 138 170 de distribuição empírica 32 de probabilidade 131132 de variáveis aleatórias 137 185 210 de verossimilhança 308310 G Gráfico de dispersão 1618 8083 217218 de dispersão simbólico 93 de quantis 5152 99 de simetria 5152 em barras 15 em setores 16 para variáveis 1518 H Hipótese alternativa 334336 Histograma 1819 alisado 28 I Independência de eventos 111115 de variáveis 214224 Inferência Bayesiana 317 estatística 261 para duas populações 367381 para várias populações 420 Intervalo de confiança 310311 de predição 448 interquartil 47 para a média 310 313314 para a variância 310316 para proporção 310316 cap21bREMISSIVOP65 2192009 1544 538 539 Í N D I C E R E M I S S I V O L Lei dos grandes números 326 M Média aparada 65 aritmética 35 de va 135 168 Mediana amostral 35 de va 135137 Medidas de associação 76 de dispersão 37 40 de posição 3536 resistentes 45 resumo 35 Método congruencial 239 de máxima verossimilhança 308 de mínimos quadrados 305 Minitab 3 Modelos de va 141 173 lineares 449 nãolineares 475 para duas populações 425 para várias populações 435 probabilísticos 103 Monte Carlo 235 N Números aleatórios 235237 pseudoaleatórios 238 tabelas de 238 292 516 O Outliers 48 49 P Pacotes estatísticos 3 Parâmetro 265 População 262 Porcentagem 13 Probabilidade 105 condicional 111 propriedades 106 regra do produto 111 subjetiva 121 Processo de Poisson 153 estocástico 268 Proporção 12 Q Quantis empíricos 41 teóricos 154 193 Quiquadrado 77 189190 R Ramosefolhas 2021 33 Regressão análise de resíduos 467469 ANOVA 458 estimação 452 intervalo de confiança 463467 intervalo de predição 465467 linear simples 449 modelos especiais 473474 resistente 479 soma de quadrados 456457 Resumo de dados 9 S Simulação 235 Bernoulli 244 binomial 244 exponencial 245 cap21bREMISSIVOP65 2192009 1544 539 540 E S T A T Í S T I C A B Á S I C A Gama 254 quiquadrado 247 va 240 Soma de quadrados dentro 433 entre 433 regressão 425432 total 433 SPlus 3 T Tabela ANOVA 458 de contingência 69 de dupla entrada 69 Técnicas computacionais 3 Teorema do limite central 279 Transformações de BoxMüller 253 de variáveis 5253 Teste de aderência 402 de hipótese 330 de homocedasticidade 441 de homogeneidade 406 de independência 409 de KolmogorovSmirnov 416 de MannWhitney 372 de média 339 de proporção 341 de variância 351 de Wilcoxon 372 384 erros de um 331 nível de significância 338 para coeficiente de correlação 411 poder 344 347 região crítica 338 T 363389 V Valor médio amostral 3741 de va 135 167 Valorp 348351 Valores atípicos 48 discrepantes 4950 Variáveis aleatórias 128134 163166 203206 contínuas 163202 discretas 128 independência 127234 multidimensionais 203 nominais 10 ordinais 10 qualitativas 9 quantitativas 9 Variância amostral 40 de va 136 170 cap21bREMISSIVOP65 2192009 1544 540
Send your question to AI and receive an answer instantly
Recommended for you
12
Estimativa e Intervalo de Confiança para a Média Populacional
Probabilidade e Estatística 1
UFG
1
Estudo sobre Consumo de Água e Estimações Estatísticas no DF
Probabilidade e Estatística 1
UFG
1
Teste de Hipóteses: Análise de Votação e Consumo de Café
Probabilidade e Estatística 1
UFG
1
Teste de Hipoteses Estatistica - Exercicio Resolvido com P-valor
Probabilidade e Estatística 1
UFG
23
Teste de Hipóteses para Proporção: Exemplos e Análises
Probabilidade e Estatística 1
UFG
27
Aula de Inferência Estatística - Engenharia Civil
Probabilidade e Estatística 1
UFG
1
Estatística-Exercícios Resolvidos sobre Amostragem e Testes de Hipóteses
Probabilidade e Estatística 1
UFG
1
Exercícios Resolvidos - Estatística Inferencial e Teste de Hipóteses
Probabilidade e Estatística 1
UFG
Preview text
WILTON DE O BUSSAB PEDRO A MORETTIN WILTON DE O BUSSAB PEDRO A MORETTIN ESTATÍSTICA BÁSICA Livro mais vendido da área a 6ª edição de Estatística Básica confirma o grande sucesso das edições anteriores com um extenso trabalho de revisão atualização e ampliação O grande diferencial da obra é a atualização que contou com sugestões de professo res o que enriqueceu ainda mais o conteúdo por meio de discussões sobre roteiros apropriados para cursos de diferentes níveis O livro é dividido em três partes A primeira trata da análise de dados unidimensionais e bidimensionais com atenção especial para métodos gráficos A segunda parte trata dos conceitos básicos de probabilidades e variáveis aleatórias Por fim a terceira parte estuda os tópicos principais da interferência estatística além de alguns temas especiais como regressão linear simples Com um projeto gráfico moderno é o único com uma seção em todos os capítulos que ensina a aplicar a teoria por meio dos pacotes computacionais Minitab Excel e Splus No final do livro os autores apresentam vários conjuntos de dados que poderão ser utilizados pelos leitores e que estão disponíveis no site wwwsaravaunicombr Completo e didático Estatística Básica é o livro mais adequado para alunos e profissio nais de diversas áreas do conhecimento APLICAÇÃO Este livro pode ser utilizado nas seguintes disciplinas Estatística Estatística básica Estatística aplicada e Introdução à estatística PEDRO A MORETTIN Professor Titular do Instituto de Matemática e Estatística da Universidade de São Paulo Master e PhD em Estatística pela Universidade da Califórnia Berkeley Contato com o autor morettineditorasaraivacombr WILTON DE O BUSSAB Professor Adjunto da Escola de Administração de Empresas de São Paulo da Fundação Getulio Vargas Mestre em Estatística pela Universidade de São Paulo USP e PhD pela London School of Economics Contato com o autor bussabeditorasaraivacombr 0 5 25 75 95 100 arte final estat bas aprovado quintafeira 8 de outubro de 2009 191930 ESTATÍSTICA BÁSICA wwwsaraivaunicombr Pedro A Morettin Wilton de O Bussab 6a edição Revista e atualizada ESTATÍSTICA BÁSICA Rua Henrique Schaumann 270 CEP 05413010 Pinheiros TEL PABX 0XX11 36133000 Fax 0XX11 36113308 Televendas 0XX11 36133344 Fax Vendas 0XX11 32683268 São Paulo SP Endereço Internet httpwwwsaraivaunicombr Filiais AMAZONASRONDÔNIARORAIMAACRE Rua Costa Azevedo 56 Centro FoneFax 0XX92 36334227 36334782 Manaus BAHIASERGIPE Rua Agripino Dórea 23 Brotas Fone 0XX71 33815854 33815895 33810959 Salvador BAURUSÃO PAULO sala dos professores Rua Monsenhor Claro 255257 Centro Fone 0XX14 32345643 32347401 Bauru CAMPINASSÃO PAULO sala dos professores Rua Camargo Pimentel 660 Jd Guanabara Fone 0XX19 32438004 32438259 Campinas CEARÁPIAUÍMARANHÃO Av Filomeno Gomes 670 Jacarecanga Fone 0XX85 32382323 32381331 Fortaleza DISTRITO FEDERAL SIASUL Trecho 2 Lote 850 Setor de Indústria e Abastecimento Fone 0XX61 33442920 33442951 33441709 Brasília GOIÁSTOCANTINS Av Independência 5330 Setor Aeroporto Fone 0XX62 32252882 32122806 32243016 Goiânia MATO GROSSO DO SULMATO GROSSO Rua 14 de Julho 3148 Centro Fone 0XX67 33823682 33820112 Campo Grande MINAS GERAIS Rua Além Paraíba 449 Lagoinha Fone 0XX31 34298300 Belo Horizonte PARÁAMAPÁ Travessa Apinagés 186 Batista Campos Fone 0XX91 32229034 32249038 32410499 Belém PARANÁSANTA CATARINA Rua Conselheiro Laurindo 2895 Prado Velho Fone 0XX41 33324894 Curitiba PERNAMBUCOALAGOASPARAÍBAR G DO NORTE Rua Corredor do Bispo 185 Boa Vista Fone 0XX81 34214246 34214510 Recife RIBEIRÃO PRETOSÃO PAULO Av Francisco Junqueira 1255 Centro Fone 0XX16 36105843 36108284 Ribeirão Preto RIO DE JANEIROESPÍRITO SANTO Rua Visconde de Santa Isabel 113 a 119 Vila Isabel Fone 0XX21 25779494 25778867 25779565 Rio de Janeiro RIO GRANDE DO SUL Av A J Renner 231 Farrapos Fone 0XX51 3371 4001 33711467 33711567 Porto Alegre SÃO JOSÉ DO RIO PRETOSÃO PAULO sala dos professores Av Brig Faria Lima 6363 Rio Preto Shopping Center V São José Fone 0XX17 2273819 2270982 2275249 São José do Rio Preto SÃO JOSÉ DOS CAMPOSSÃO PAULO sala dos professores Rua Santa Luzia 106 Jd Santa Madalena Fone 0XX12 39210732 São José dos Campos SÃO PAULO Av Antártica 92 Barra Funda Fone PABX 0XX11 36133666 São Paulo Nenhuma parte desta publicação poderá ser reproduzida por qualquer meio ou forma sem a prévia autorização da Editora Saraiva A violação dos direitos autorais é crime estabelecido na lei nº 961098 e punido pelo artigo 184 do Código Penal M843e 6 ed Morettin Pedro Alberto Estatística BásicaPedro A Morettin Wilton O Bussab 6 ed São Paulo Saraiva 2010 Inclui Bibliografia ISBN 9788502081772 1 Econometria 2 Estatística 3 Estatística Matemática Problemas Questões Exercícios I Bussab Wilton de Oliveira 1940 II Título 090719 CDD 330028 CDU 33043 CIPBRASIL CATALOGAÇÃO NA FONTE SINDICATO NACIONAL DOS EDITORES DE LIVROS RJ ISBN 9788502081772 Direção editorial Coordenação editorial Produção editorial Marketing editorial Arte e produção Capa Atualização da 2a tiragem Flávia Alves Bravin Ana Paula Matos Gisele Folha Mós Juliana Rodrigues de Queiroz Rita de Cássia da Silva Daniela Nogueira Secondo Rosana Peroni Fazolari Nathalia Setrini ERJ Composição Editorial Weber Amendola ERJ Composição Editorial 6ª Edição 1ª tiragem 2009 2ª tiragem 2010 Copyright Wilton de O Bussab e Pedro A Morettin 2010 Editora Saraiva Todos os direitos reservados Contato com o editorial editorialuniversitarioeditorasaraivacombr A vida é complicada mas não desinteressante Jersy Neyman Para Célia e Ligia P R E F Á C I O À S E X T A E D I Ç Ã O Nesta edição atendemos à solicitação de leitores que sugeriram modificações em alguns tópicos considerados difíceis Por exemplo o tópico sobre quantis empíricos agora traz o cálculo utilizando o histograma deixando a definição mais geral para a seção de Problemas e Complementos Inúmeras correções foram feitas na edição anterior à medida que as sucessivas tiragens foram editadas Nesta sexta edição outros erros foram corrigidos mas sabemos que diversos persistirão Agradecemos aos diversos leitores que nos enviaram correções e sugestões Acrescentamos problemas a diversas seções do livro e substituímos o conjunto de dados sobre o Brasil CDBrasil com informações atualizadas da Contagem da População 2007 feita pelo IBGE Os dados também estão disponíveis na página httpwwwimeuspbrpam Os leitores que desejarem contatar os autores poderão usar os endereços eletrônicos morettineditorasarivacombr e bussabeditorasarivacombr Os Autores Esta edição é uma revisão substancial da edição anterior deste livro Cinco novos capítulos foram adicionados e os demais foram revisados e atualizados Creemos que este texto com a escolha adequada dos tópicos possa ser utilizado por alunos de diversas áreas do conhecimento O Site do Professor disponível na Internet httpwwwsaraivaunicombr fornece uma discussão mais longa sobre roteiros apropriados para cursos de diferentes níveis Com essa filosofia em mente procuramos incluir no texto uma quantidade de informação substancial em cada capítulo Obviamente caberá ao professor escolher o material apropriado para cada curso desenvolvido O livro é dividido em três partes A primeira trata da análise de dados unidimensionais e bidimensionais com atenção especial a métodos gráficos Pensamos que a leitura dessa parte é essencial para o bom entendimento dos demais Recomendamos que o aluno trabalhe com dados reais embora isso não seja uma necessidade essencial pois normalmente é um primeiro curso de estatística e dado no início do programa do aluno que não possui ainda um conhecimento sólido dos problemas de sua área A segunda parte trata dos conceitos básicos de probabilidades e variáveis aleatórias Finalmente na terceira parte estudamos os tópicos principais da inferência estatística além de alguns temas especiais como regressão linear simples Um capítulo sobre noções de simulação foi adicionado pois tais noções são hoje fundamentais em muitas áreas O uso de algum pacote computacional é fortemente recomendado para a prática dos conceitos desenvolvidos Apresentamos exemplos de aplicações utilizando alguns desses pacotes Minitab Excel e SPlus Mas evidentemente outros pacotes poderão ser usados No final do livro apresentamos vários conjuntos de dados que poderão ser utilizados pelos alunos Esses dados também estão disponíveis nas seguintes páginas da Internet httpwwwimeuspbrpam httpwwwsaraivaunicombr Finalmente agradecemos a todos aqueles que enviaram sugestões e comentários com a finalidade de melhorar a presente edição Para tanto além do correio normal os leitores poderão usar os endereços eletrônicos dos autores morettineditorasaraivacombr e bussabeditorasaraivacombr Os Autores X E S T A T Í S T I C A B Á S I C A Prefsumario ap65 2192009 1127 10 XI S U M Á R I O Capítulo 1 Preliminares 1 11 Introdução 1 12 Modelos 1 13 Técnicas Computacionais 2 14 Métodos Gráficos 3 15 Conjuntos de Dados 4 16 Plano do Livro 5 Parte I Análise Exploratória de Dados Capítulo 2 Resumo de Dados 9 21 Tipos de Variáveis 9 22 Distribuições de Freqüências 11 23 Gráficos 15 231 Gráficos para Variáveis Qualitativas 15 232 Gráficos para Variáveis Quantitativas 16 24 RamoeFolhas 20 25 Exemplos Computacionais 23 26 Problemas e Complementos 26 Capítulo 3 MedidasResumo 35 31 Medidas de Posição 35 32 Medidas de Dispersão 37 33 Quantis Empíricos 41 34 Box Plots 47 35 Gráficos de Simetria 51 36 Transformações 52 37 Exemplos Computacionais 54 38 Problemas e Complementos 56 Capítulo 4 Análise Bidimensional 68 41 Introdução 68 42 Variáveis Qualitativas 70 S U M Á R I O Prefsumario ap65 2192009 1127 11 XII E S T A T Í S T I C A B Á S I C A 43 Associação entre Variáveis Qualitativas 73 44 Medidas de Associação entre Variáveis Qualitativas 76 45 Associação entre Variáveis Quantitativas 80 46 Associação entre Variáveis Qualitativas e Quantitativas 86 47 Gráficos q x q 90 48 Exemplos Computacionais 92 49 Problemas e Complementos 94 Parte II Probabilidades Capítulo 5 Probabilidades 103 51 Introdução 103 52 Algumas Propriedades 106 53 Probabilidade Condicional e Independência 111 54 O Teorema de Bayes 116 55 Probabilidades Subjetivas 121 56 Problemas e Complementos 122 Capítulo 6 Variáveis Aleatórias Discretas 128 61 Introdução 128 62 O Conceito de Variável Aleatória Discreta 129 63 Valor Médio de uma Variável Aleatória 135 64 Algumas Propriedades do Valor Médio 137 65 Função de Distribuição Acumulada 138 66 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas 140 661 Distribuição Uniforme Discreta 140 662 Distribuição de Bernoulli 142 663 Distribuição Binomial 143 664 Distribuição Hipergeométrica 147 665 Distribuição de Poisson 148 67 O Processo de Poisson 153 68 Quantis 154 69 Exemplos Computacionais 156 610 Problemas e Complementos 157 Capítulo 7 Variáveis Aleatórias Contínuas 163 71 Introdução 163 72 Valor Médio de uma Variável Aleatória Contínua 167 73 Função de Distribuição Acumulada 170 Prefsumario ap65 2192009 1127 12 XIII S U M Á R I O 74 Alguns Modelos Probabilísticos para Variáveis Aleatórias Contínuas 173 741 O Modelo Uniforme 174 742 O Modelo Normal 176 743 O Modelo Exponencial 181 75 Aproximação Normal à Binomial 182 76 Funções de Variáveis Contínuas 185 77 Outros Modelos Importantes 188 771 A Distribuição Gama 188 772 A Distribuição QuiQuadrado 189 773 A Distribuição t de Student 191 774 A Distribuição F de Snedecor 192 78 Quantis 193 79 Exemplos Computacionais 195 710 Problemas e Complementos 196 Capítulo 8 Variáveis Aleatórias Multidimensionais 203 81 Distribuição Conjunta 203 82 Distribuições Marginais e Condicionais 206 83 Funções de Variáveis Aleatórias 209 84 Covariância entre Duas Variáveis Aleatórias 214 85 Variáveis Contínuas 220 86 Distribuições Condicionais Contínuas 224 87 Funções de Variáveis Contínuas 228 88 Distribuição Normal Bidimensional 229 89 Problemas e Complementos 231 Capítulo 9 Noções de Simulação 235 91 Introdução 235 92 Simulação de Variáveis Aleatórias 240 93 Simulação de Alguns Modelos 244 94 Exemplos Computacionais 247 95 Problemas e Complementos 252 Parte III Inferência Estatística Capítulo 10 Introdução à Inferência Estatística 261 101 Introdução 261 102 População e Amostra 261 103 Problemas de Inferência 264 Prefsumario ap65 2192009 1127 13 XIV E S T A T Í S T I C A B Á S I C A 104 Como Selecionar uma Amostra 267 105 Amostragem Aleatória Simples 268 106 Estatísticas e Parâmetros 271 107 Distribuições Amostrais 272 108 Distribuição Amostral da Média 277 109 Distribuição Amostral de uma Proporção 281 1010 Outras Distribuições Amostrais 283 1011 Determinação do Tamanho de uma Amostra 287 1012 Exemplos Computacionais 289 1013 Problemas e Complementos 290 Capítulo 11 Estimação 296 111 Primeiras Idéias 296 112 Propriedades de Estimadores 298 113 Estimadores de Momentos 304 114 Estimadores de Mínimos Quadrados 305 115 Estimadores de Máxima Verossimilhança 308 116 Intervalos de Confiança 310 117 Erro Padrão de um Estimador 316 118 Inferência Bayesiana 317 119 Exemplos Computacionais 320 1110 Problemas e Complementos 324 Capítulo 12 Testes de Hipóteses 330 121 Introdução 330 122 Um Exemplo 330 123 Procedimento Geral do Teste de Hipóteses 337 124 Passos para a Construção de um Teste de Hipóteses 339 125 Testes sobre a Média de uma População com Variância Conhecida 339 126 Teste para Proporção 341 127 Poder de um Teste 344 128 Valorp 348 129 Teste para a Variância de uma Normal 351 1210 Teste sobre a Média de uma Normal com Variância Desconhecida 355 1211 Problemas e Complementos 358 Prefsumario ap65 2192009 1127 14 XV S U M Á R I O Capítulo 13 Inferência para Duas Populações 361 131 Introdução 361 132 Comparação das Variâncias de Duas Populações Normais 365 133 Comparação de Duas Populações Amostras Independentes 367 1331 Populações Normais 368 1332 Populações NãoNormais 372 134 Comparação de Duas Populações Amostras Dependentes 382 1341 População Normal 382 1342 População NãoNormal 384 135 Comparação de Proporções em Duas Populações 387 136 Exemplo Computacional 390 137 Problemas e Complementos 394 Capítulo 14 Análise de Aderência e Associação 399 141 Introdução 399 142 Testes de Aderência 402 143 Testes de Homogeneidade 406 144 Testes de Independência 409 145 Teste para o Coeficiente de Correlação 411 146 Outro Teste de Aderência 414 147 Problemas e Complementos 417 Capítulo 15 Inferência para Várias Populações 420 151 Introdução 420 152 Modelo para Duas Subpopulações 425 1521 Suposições 425 1522 Estimação do Modelo 426 1523 Intervalos de Confiança 430 1524 Tabela de Análise de Variância 432 153 Modelo para Mais de Duas Subpopulações 435 154 Comparações entre as Médias 439 155 Teste de Homocedasticidade 441 156 Exemplo Computacional 443 157 Problemas e Complementos 444 Prefsumario ap65 2192009 1127 15 XVI E S T A T Í S T I C A B Á S I C A Capítulo 16 Regressão Linear Simples 449 161 Introdução 449 162 Estimação dos Parâmetros 452 163 Avaliação do Modelo 454 1631 Estimador de σ 2 e 454 1632 Decomposição da Soma de Quadrados 456 1633 Tabela de Análise de Variância 458 164 Propriedades dos Estimadores 460 1641 Média e Variância dos Estimadores 461 1642 Distribuições Amostrais dos Estimadores dos Parâmetros 462 1643 Intervalos de Confiança para α e β 463 1644 Intervalo de Confiança para μ z e Intervalo de Predição 465 165 Análise de Resíduos 467 166 Alguns Modelos Especiais 473 1661 Reta Passando pela Origem 473 1662 Modelos NãoLineares 475 167 Regressão Resistente 479 168 Exemplos Computacionais 481 169 Problemas e Complementos 484 Referências 495 Conjuntos de Dados 497 Tabelas 507 Respostas 522 Prefsumario ap65 2192009 1127 16 11 Introdução Em alguma fase de seu trabalho o pesquisador deparase com o problema de anali sar e entender um conjunto de dados relevante ao seu particular objeto de estudos Ele necessitará trabalhar os dados para transformálos em informações para comparálos com outros resultados ou ainda para julgar sua adequação a alguma teoria De modo bem geral podemos dizer que a essência da Ciência é a observação e que seu objetivo básico é a inferência que pode ser dedutiva na qual se argumenta das premissas às conclusões ou indutiva por meio da qual se vai do específico ao geral A inferência estatística é uma das partes da Estatística Esta é a parte da metodologia da Ciência que tem por objetivo a coleta redução análise e modelagem dos dados a partir do que finalmente fazse a inferência para uma população da qual os dados a amostra foram obtidos Um aspecto importante da modelagem dos dados é fazer previsões a partir das quais se podem tomar decisões Na primeira parte deste livro estaremos interessados na redução análise e interpretação dos dados sob consideração adotando um enfoque que chamaremos de análise exploratória de dados AED Nessa abordagem tentaremos obter dos dados a maior quantidade possível de informação que indique modelos plausíveis a serem utilizados numa fase posterior a análise confirmatória de dados ou inferência estatística Tradicionalmente uma análise descritiva de dados limitase a calcular algumas medidas de posição e variabilidade como a média e variância por exemplo Contrária a essa tendência uma corrente mais moderna liderada por Tukey 1977 utiliza prin cipalmente técnicas gráficas em oposição a resumos numéricos Isso não significa que sumários não devam ser obtidos mas uma análise exploratória de dados não deve se limitar a calcular tais medidas 12 Modelos Fundamentalmente quando se procede a uma análise de dados buscase alguma forma de regularidade ou padrão ou ainda modelo presente nas observações Capítulo 1 Preliminares cap01bP65 2192009 1129 1 C A P Í T U L O 1 P R E L I M I N A R E S 2 Exemplo 11 Imagine que estejamos estudando a relação entre rendimentos e gastos de consumo de um conjunto de indivíduos Podemos obter um gráfico como o da Figura 11 O que se espera intuitivamente é que os gastos de um indivíduo estejam diretamente relacionados com os seus rendimentos de modo que é razoável supor uma relação linear entre essas duas quantidades Os pontos da Figura 11 não estão todos evidentemente sobre uma reta essa seria o nosso padrão ou modelo A diferen ça entre os dados e o modelo constitui os resíduos Figura 11 Relação entre consumo e rendimento Podemos então escrever de modo esquemático Dados Modelo Resíduos ou ainda D M R 11 A parte M é também chamada parte suave ou regular ou ainda previsível dos dados enquanto R é a parte aleatória A parte R é tão importante quanto M e a análise dos resíduos constitui uma parte fundamental de todo trabalho estatístico Basicamen te são os resíduos que nos dizem se o modelo é adequado ou não para representar os dados De modo coloquial o que se deseja é que a parte R não contenha nenhuma suavidade caso contrário mais suavização é necessária Uma análise exploratória de dados busca essencialmente fornecer informações para estabelecer 11 13 Técnicas Computacionais O desenvolvimento rápido e constante na área de computação foi acompanhado pela introdução de novas técnicas de análise de dados notadamente de métodos gráficos e de métodos chamados de computação intensiva como o método bootstrap que será tratado brevemente neste livro cap01bP65 2192009 1129 2 1 4 M É T O D O S G R Á F I C O S 3 Para a implementação dessas técnicas foram desenvolvidos pacotes estatísticos atual mente usados em larga escala tanto no meio acadêmico como em indústrias bancos órgãos de governo etc Esses pacotes podem ser genéricos ou específicos Os pacotes genéricos como o Minitab Splus SPSS SAS etc são adequados para realizar uma gama variada de análises estatísticas Os pacotes específicos são planejados para realizar análises particu lares de uma determinada área Por outro lado os pacotes podem exigir maior ou menor experiência computacional dos usuários Alguns operam com menus e seu uso é mais simples Outros requerem maior familiaridade com o computador e são baseados em linguagens próprias Do ponto de vista de sistema operacional a maioria dos pacotes é programada para uso em microcomputadores que operam com o sistema Windows Todavia um número razoável de pacotes já tem versões para o sistema Linux Em alguns exemplos deste livro usaremos alguns pacotes e em cada caso explicitaremos qual está sendo usado Não queremos fazer recomendações sobre nenhum pacote em parti cular porque cremos que o leitor utilizará aquele com o qual estiver mais acostumado ou aqueles que estiverem à sua disposição Listamos na Tabela 11 alguns pacotes genéricos utilizados na área de Estatística Salientamos também que existem planilhas à venda no mercado que possuem op ções para certas técnicas estatísticas Dentre estas mencionamos o Excel e o Lotus Tabela 11 Alguns pacotes estatísticos genéricos Pacote Ambiente Fabricante MINITAB WIN Minitab Inc USA SAS WIN SAS Institute Inc USA SPLUS WIN LINUX Insightfull Inc SPSS WIN SPSS Inc USA STATGRAPHICS WIN Stat Graphics Inc USA Além dos pacotes estatísticos há outros pacotes de grande utilidade para realizar tarefas matemáticas Dentre estes mencionamos o Mathematica o Maple o Gauss e o Mat Lab 14 Métodos Gráficos Como dissemos na introdução os métodos gráficos têm encontrado um uso cada vez maior devido ao seu forte apelo visual Normalmente é mais fácil para qualquer pessoa entender a mensagem de um gráfico do que aquela embutida em tabelas ou sumários numéricos Os gráficos são utilizados para diversos fins Chambers et al 1983 a buscar padrões e relações b confirmar ou não certas expectativas que se tinha sobre os dados cap01bP65 2192009 1129 3 4 C A P Í T U L O 1 P R E L I M I N A R E S c descobrir novos fenômenos d confirmar ou não suposições feitas sobre os procedimentos estatísticos usados e e apresentar resultados de modo mais rápido e fácil Podemos usar métodos gráficos para plotar os dados originais ou outros dados deriva dos deles Por exemplo a investigação da relação entre as variáveis da Figura 11 pode ser feita por meio daquele diagrama de dispersão Mas podemos também ajustar uma reta aos dados calcular o desvio resíduo para cada observação e fazer um novo gráfico de consu mo contra resíduos para avaliar a qualidade do ajuste Com o progresso recente da computação gráfica e a existência de hardware e software adequados a utilização de métodos gráficos tornase rotineira na análise de dados Contudo muitos gráficos podem ser feitos sem o recurso de programas de computador Neste texto introduziremos gráficos para a visualização e resumo de dados no caso de uma ou duas variáveis principalmente Noções para o caso de três ou mais variáveis serão rapidamente abordadas Gráficos com o propósito de comparar duas distribuições também serão tratados 15 Conjuntos de Dados No final do livro aparecem alguns conjuntos de dados que serão utilizados nos exemplos ou nos exercícios propostos Aconselhamos os leitores a reproduzir os exemplos usan do esses dados bem como resolver os problemas pois somente a efetiva manipulação de dados pode levar a um bom entendimento das técnicas apresentadas Os conjuntos de dados apresentados provêm de diferentes fontes que são mencio nadas em cada conjunto e depois explicitadas nas referências Os leitores é claro poderão usar as técnicas apresentadas em seus próprios con juntos de dados Como salientamos na seção 13 usaremos alguns programas computacionais dis poníveis para análises estatísticas Decidimos pela utilização de dois pacotes o SPlus e o Minitab e de uma planilha o Excel Embora o último não possa ser considerado um aplicativo estatístico sua grande difusão entre os usuários de computadores pessoais motivou nossa escolha Alguns conjuntos de dados são parte de conjuntos maiores Todos esses dados podem ser obtidos no endereço httpwwweditorasaraivacombruni Usaremos um nome curto para identificar cada conjunto de dados Por exemplo o Conjunto de Dados 1 será designado simplesmente por CDBrasil o Conjunto de Da dos 4 por CDPoluição etc cap01bP65 2192009 1129 4 1 6 P L A N O D O L I V R O 5 16 Plano do Livro Na primeira parte do livro trataremos nos Capítulos 2 a 4 de técnicas gráficas e numéricas que nos permitirão fazer uma primeira análise dos dados disponíveis No Capítulo 2 estudaremos como resumir os dados por meio de distribuições de freqüên cias e como representálos graficamente por meio de gráficos em barras histogramas e ramoefolhas No Capítulo 3 veremos as principais medidas numéricas resumidoras de um conjunto de dados medidas de posição ou localização e medidas de dispersão ou de variabilidade A partir dessas medidas poderemos construir gráficos importantes como o gráfico de quantis e o desenho esquemático ou box plot No Capítulo 4 trataremos do caso em que temos duas variáveis Estaremos interessados em verificar se existe alguma associação entre duas variáveis e como medila O caso de três variá veis será considerado brevemente Na segunda parte introduzimos os conceitos básicos sobre probabilidades e variáveis aleatórias A idéia é que a primeira parte sirva de motivação para construir os modelos probabilísticos da segunda parte No Capítulo 5 tratamos da noção de probabilidade suas propriedades probabilidade condicional e independência Também consideramos o teorema de Bayes e destacamos sua importância em problemas de inferência As variáveis aleatórias discretas são estudadas no Capítulo 6 e as contínuas no Capítulo 7 Em particular são intro duzidos os principais modelos para variáveis aleatórias O caso de duas variáveis aleatórias é considerado no Capítulo 8 No Capítulo 9 introduzimos noções básicas de simulação Esse assunto é muito impor tante notadamente quando se quer avaliar algum modelo construído para uma situação real A terceira parte trata da inferência estatística Nesta parte todos os conceitos apreen didos nas duas partes anteriores são imprescindíveis Os dois grandes problemas de inferência estimação e teste de hipóteses são estudados nos Capítulos 11 e 12 respectiva mente após serem introduzidas no Capítulo 10 as noções básicas de amostragem e distri buições amostrais O caso de duas populações é considerado no Capítulo 13 e de várias populações no Capítulo 15 Basicamente são desenvolvidos testes para médias propor ções e variâncias O Capítulo 14 trata dos chamados testes do quiquadrado para dados que aparecem sob a forma de tabelas de contingência Finalmente no Capítulo 16 estuda mos com algum detalhe o modelo de regressão linear simples Em cada capítulo há sempre que possível uma seção com exemplos computacionais Isso significa que algum conjunto de dados é analisado utilizandose um ou alguns dos programas mencionados acima Em geral são problemas um pouco mais difíceis do que aqueles exemplificados nas demais seções ou então têm o caráter de ilustrar o uso de tais pacotes para simulações por exemplo Recomendamos que o leitor tente reproduzir esses exemplos para adquirir experiência na manipulação de dados e procura de eventuais mode los que possam representálos cap01bP65 2192009 1129 5 Parte 1 Parte 1 Capítulo 2 9 Resumo de Dados Capítulo 3 35 MedidasResumo Capítulo 4 68 Análise Bidimensional A N Á L I S E E X P L O R A T Ó R I A D E D A D O S cap02bp65 2192009 1137 7 O histograma é um gráfico de barras contíguas com as bases proporcionais aos intervalos das classes e a área de cada retângulo proporcional à respectiva frequência 21 Tipos de Variáveis Para ilustrar o que segue consideremos o seguinte exemplo Exemplo 21 Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia MB Usando informações obtidas do departamento pessoal ele elaborou a Tabela 21 De modo geral para cada elemento investigado numa pesquisa temse associado um ou mais de um resultado correspondendo à realização de uma característica ou características No exemplo em questão considerandose a característica variável estado civil para cada empregado podese associar uma das realizações solteiro ou casado note que poderia haver outras possibilidades como separado divorciado mas somente as duas mencionadas foram consideradas no estudo Podemos atribuir uma letra digamos X para representar tal variável Observamos que o pesquisador colheu informações sobre seis variáveis Variável Representação Estado civil X Grau de instrução Y Número de filhos Z Salário S Idade U Região de procedência V Algumas variáveis como sexo educação estado civil apresentam como possíveis rea lizações uma qualidade ou atributo do indivíduo pesquisado ao passo que outras como número de filhos salário idade apresentam como possíveis realizações números resultan tes de uma contagem ou mensuração As variáveis do primeiro tipo são chamadas qualitati vas e as do segundo tipo quantitativas Capítulo 2 Resumo de Dados cap02bp65 2192009 1137 9 10 C A P Í T U L O 2 R E S U M O D E D A D O S Dentre as variáveis qualitativas ainda podemos fazer uma distinção entre dois tipos variável qualitativa nominal para a qual não existe nenhuma ordenação nas possíveis realizações e variável qualitativa ordinal para a qual existe uma ordem nos seus resultados A região de procedência do Exemplo 21 é um caso de variável nominal enquanto grau de instrução é um Exemplo de variável ordinal pois ensinos fundamental médio e superior correspondem a uma ordenação baseada no número de anos de escolaridade completos A variável qualitativa classe social com as possíveis realizações alta média e baixa é outro exemplo de variável ordinal De modo análogo as variáveis quantitativas podem sofrer uma classificação dicotômi ca a variáveis quantitativas discretas cujos possíveis valores formam um conjunto finito ou enumerável de números e que resultam freqüentemente de uma contagem como por exemplo número de filhos 0 1 2 b variáveis quantitativas contínuas cujos possíveis valores pertencem a um intervalo de números reais e que resultam de uma mensuração como por exemplo estatura e peso melhor seria dizer massa de um indivíduo A Figura 21 esquematiza as classificações feitas acima Figura 21 Classificação de uma variável Para cada tipo de variável existem técnicas apropriadas para resumir as informações donde a vantagem de usar uma tipologia de identificação como a da Figura 21 Entre tanto verificaremos que técnicas usadas num caso podem ser adaptadas para outros Para finalizar cabe uma observação sobre variáveis qualitativas Em algumas situa ções podemse atribuir valores numéricos às várias qualidades ou atributos ou ain da classes de uma variável qualitativa e depois procederse à análise como se esta fosse quantitativa desde que o procedimento seja passível de interpretação Existe um tipo de variável qualitativa para a qual essa quantificação é muito útil a chamada variável dicotômica Para essa variável só podem ocorrer duas realizações usualmente chamadas sucesso e fracasso A variável estado civil no exemplo acima estaria nessa situação Esse tipo de variável aparecerá mais vezes nos próximos capítulos cap02bp65 2192009 1137 10 2 2 D I S T R I B U I Ç Õ E S D E F R E Q Ü Ê N C I A S 11 Tabela 21 Informações sobre estado civil grau de instrução número de filhos salário expresso como fração do salário mínimo idade medida em anos e meses e procedência de 36 empregados da seção de orçamentos da Companhia MB No Estado Grau de No de Salário Idade Região de civil instrução filhos sal mín anos meses procedência 1 solteiro ensino fundamental 400 26 03 interior 2 casado ensino fundamental 1 456 32 10 capital 3 casado ensino fundamental 2 525 36 05 capital 4 solteiro ensino médio 573 20 10 outra 5 solteiro ensino fundamental 626 40 07 outra 6 casado ensino fundamental 0 666 28 00 interior 7 solteiro ensino fundamental 686 41 00 interior 8 solteiro ensino fundamental 739 43 04 capital 9 casado ensino médio 1 759 34 10 capital 10 solteiro ensino médio 744 23 06 outra 11 casado ensino médio 2 812 33 06 interior 12 solteiro ensino fundamental 846 27 11 capital 13 solteiro ensino médio 874 37 05 outra 14 casado ensino fundamental 3 895 44 02 outra 15 casado ensino médio 0 913 30 05 interior 16 solteiro ensino médio 935 38 08 outra 17 casado ensino médio 1 977 31 07 capital 18 casado ensino fundamental 2 980 39 07 outra 19 solteiro superior 1053 25 08 interior 20 solteiro ensino médio 1076 37 04 interior 21 casado ensino médio 1 1106 30 09 outra 22 solteiro ensino médio 1159 34 02 capital 23 solteiro ensino fundamental 1200 41 00 outra 24 casado superior 0 1279 26 01 outra 25 casado ensino médio 2 1323 32 05 interior 26 casado ensino médio 2 1360 35 00 outra 27 solteiro ensino fundamental 1385 46 07 outra 28 casado ensino médio 0 1469 29 08 interior 29 casado ensino médio 5 1471 40 06 interior 30 casado ensino médio 2 1599 35 10 capital 31 solteiro superior 1622 31 05 outra 32 casado ensino médio 1 1661 36 04 interior 33 casado superior 3 1726 43 07 capital 34 solteiro superior 1875 33 07 capital 35 casado ensino médio 2 1940 48 11 capital 36 casado superior 3 2330 42 02 interior Fonte Dados hipotéticos 22 Distribuições de Freqüências Quando se estuda uma variável o maior interesse do pesquisador é conhecer o compor tamento dessa variável analisando a ocorrência de suas possíveis realizações Nesta seção cap02bp65 2192009 1137 11 12 C A P Í T U L O 2 R E S U M O D E D A D O S veremos uma maneira de se dispor um conjunto de realizações para se ter uma idéia global sobre elas ou seja de sua distribuição Exemplo 22 A Tabela 22 apresenta a distribuição de freqüências da variável grau de instrução usando os dados da Tabela 21 Tabela 22 Freqüências e porcentagens dos 36 emprega dos da seção de orçamentos da Companhia MB segundo o grau de instrução Grau de Freqüência Proporção Porcentagem instrução ni fi 100 fi Fundamental 12 03333 3333 Médio 18 05000 5000 Superior 6 01667 1667 Total 36 10000 10000 Fonte Tabela 21 Observando os resultados da segunda coluna vêse que dos 36 empregados da com panhia 12 têm o ensino fundamental 18 o ensino médio e 6 possuem curso superior Uma medida bastante útil na interpretação de tabelas de freqüências é a proporção de cada realização em relação ao total Assim 636 01667 dos empregados da companhia MB seção de orçamentos têm instrução superior Na última coluna da Tabela 22 são apresentadas as porcentagens para cada realização da variável grau de instrução Usaremos a notação ni para indicar a freqüência absoluta de cada classe ou categoria da variável e a notação fi nin para indicar a proporção ou freqüência relativa de cada classe sendo n o número total de observações As proporções são muito úteis quando se quer comparar resultados de duas pesquisas distintas Por exemplo suponhamos que se queira comparar a variável grau de instrução para empregados da seção de orçamentos com a mesma variável para todos os empregados da Companhia MB Digamos que a empresa tenha 2000 empre gados e que a distribuição de freqüências seja a da Tabela 23 Tabela 23 Freqüências e porcentagens dos 2000 empregados da Companhia MB segundo o grau de instrução Grau de instrução Freqüência Porcentagem ni 100 fi Fundamental 1650 3250 Médio 1020 5100 Superior 1330 1650 Total 2000 10000 Fonte Dados hipotéticos cap02bp65 2192009 1137 12 Não podemos comparar diretamente as colunas das frequências das Tabelas 22 e 23 pois os totais de empregados são diferentes nos dois casos Mas as colunas das porcentagens são comparáveis pois reduzimos as frequências a um mesmo total no caso 100 14 C A P Í T U L O 2 R E S U M O D E D A D O S 1 Escalas de medidas A seguir descrevemos outros possíveis critérios para classificar variá veis em função da escala adotada Observe a similaridade com a classificação apresen tada anteriormente Nossas observações são resultados de medidas feitas sobre os elementos de uma população Existem quatro escalas de medidas que podem ser consideradas Escala nominal Nesta escala somente podemos afirmar que uma medida é diferente ou não de outra e ela é usada para categorizar indivíduos de uma população Um exemplo é o sexo de um indivíduo Para cada categoria associamos um numeral diferente letra ou número Por exemplo no caso de sexo podemos associar as letras M masculino e F feminino ou 1 masculino e 2 feminino Não podemos realizar operações aritméticas aqui e uma medida de posição apropriada é a moda As medidas citadas nesse problema como a média mediana e moda são definidas no Capítulo 3 Escala ordinal Aqui podemos dizer que uma medida é diferente e maior do que outra Temos a situação anterior mas as categorias são ordenadas e a ordem dos numerais associados ordena as categorias Por exemplo a classe socioeconômica de um indivíduo pode ser baixa 1 ou X média 2 ou Y e alta 3 ou Z Transformações que preservam a ordem não alteram a estrutura de uma escala ordinal No exemplo acima podemos representar as categorias por 1 10 e 100 ou A L e Z Medidas de posição apropriadas são a mediana e a moda Escala intervalar Nesta escala podemos afirmar que uma medida é igual ou diferente maior e quanto maior do que outra Podemos quantificar a diferença entre as categorias da escala ordinal Necessitamos de uma origem arbitrária e de uma unidade de medida Por exemplo considere a temperatura de um indivíduo na escala Fahrenheit A origem é 0o F e a unidade é 1o F Transformações que preservam a estrutura dessa escala são do tipo y ax b a 0 Por exemplo a transformação y 59 x 32 transforma graus Fahrenheit em centígrados Para essa escala podemos fazer operações aritméticas e mé dia mediana e moda são medidas de posição apropriadas Escala razão Dadas duas medidas nessa escala podemos dizer se são iguais ou se uma é diferente maior quanto maior e quantas vezes a outra A diferença com a escala intervalar é que agora existe um zero absoluto A altura de um indivíduo é um exemplo de medida nessa escala Se ela for medida em centímetros cm 0 cm é a origem e 1 cm é a unidade de medida Um indivíduo com 190 cm é duas vezes mais alto do que um indivíduo com 95 cm e esta relação continua a valer se usarmos 1 m como unidade Ou seja a estrutura da escala razão não é alterada por transformações da forma y cx c 0 Por exemplo y x100 transforma cm em m As estatísticas apropriadas para a escala intervalar são também apropriadas para a escala razão Para cada uma das variáveis abaixo indique a escala usualmente adotada para resu mir os dados em tabelas de freqüências a Salários dos empregados de uma indústria b Opinião de consumidores sobre determinado produto c Número de respostas certas de alunos num teste com dez itens d Temperatura diária da cidade de Manaus e Porcentagem da receita de municípios aplicada em educação f Opinião dos empregados da Companhia MB sobre a realização ou não de cursos obrigatórios de treinamento g QI de um indivíduo Problemas cap02bp65 2192009 1137 14 2 3 G R Á F I C O S 15 2 Usando os dados da Tabela 21 construa a distribuição de freqüências das variáveis a Estado civil b Região de procedência c Número de filhos dos empregados casados d Idade 3 Para o Conjunto de Dados 1 CDBrasil construa a distribuição de freqüências para as variáveis população urbana e densidade populacional 23 Gráficos Como já salientamos no Capítulo 1 a representação gráfica da distribuição de uma variável tem a vantagem de rápida e concisamente informar sobre sua variabilidade Exis tem vários gráficos que podem ser utilizados e abordaremos aqui os mais simples para variáveis quantitativas No Capítulo 3 voltaremos a tratar deste assunto em conexão com medidas associadas à distribuição de uma variável 231 Gráficos para Variáveis Qualitativas Existem vários tipos de gráficos para representar variáveis qualitativas Vários são versões diferentes do mesmo princípio logo nos limitaremos a apresentar dois deles gráficos em barras e de composição em setores pizza ou retângulos Exemplo 24 Tomemos como ilustração a variável Y grau de instrução exemplificada nas Tabelas 22 e 23 O gráfico em barras consiste em construir retângulos ou barras em que uma das dimensões é proporcional à magnitude a ser representada ni ou fi sendo a outra arbitrária porém igual para todas as barras Essas barras são dispostas paralelamente umas às outras horizontal ou verticalmente Na Figura 22 temos o gráfico em barras verticais para a variável Y Figura 22 Gráfico em barras para a variável Y grau de instrução cap02bp65 2192009 1137 15 16 C A P Í T U L O 2 R E S U M O D E D A D O S Já o gráfico de composição em setores sendo em forma de pizza o mais conhecido destinase a representar a composição usualmente em porcentagem de partes de um todo Consiste num círculo de raio arbitrário representando o todo dividido em setores que correspondem às partes de maneira proporcional A Figura 23 mostra esse tipo de gráfico para a variável Y Muitas vezes é usado um retângulo no lugar do círculo para indicar o todo Figura 23 Gráfico em setores para a variável Y grau de instrução 232 Gráficos para Variáveis Quantitativas Para variáveis quantitativas podemos considerar uma variedade maior de representa ções gráficas Exemplo 25 Considere a distribuição da variável Z número de filhos dos empregados casados da seção de orçamentos da Companhia MB Tabela 21 Na Tabela 25 temos as freqüências e porcentagens Além dos gráficos usados para as variáveis qualitativas como ilustrado na Figura 24 podemos considerar um gráfico chamado gráfico de dispersão unidimensional como o da Figura 25 a em que os valores são representados por pontos ao longo da reta provida de uma escala Valores repetidos são acompanhados por um número que indica as repetições Outra possibilidade é considerar um gráfico em que os valores repetidos são empilhados um em cima do outro como na Figura 25 b Podese também apresentar o ponto mais alto da pilha como aparece na Figura 25 c Figura 24 Gráfico em barras para a variável Z número de filhos cap02bp65 2192009 1137 16 2 3 G R Á F I C O S 17 Figura 25 Gráficos de dispersão unidimensionais para a variável Z número de filhos Para variáveis quantitativas contínuas necessitase de alguma adaptação como no exemplo a seguir Tabela 25 Freqüências e porcentagens dos empregados da seção de orça mentos da Companhia MB se gundo o número de filhos No de filhos Freqüência Porcentagem zi ni 100 fi 0 4 20 1 5 25 2 7 35 3 3 15 5 1 5 Total 20 100 Fonte Tabela 21 Exemplo 26 Queremos representar graficamente a distribuição da variável S salário dos empregados da seção de orçamentos da Companhia MB A Tabela 24 fornece a distribuição de freqüências de S Para fazer uma representação similar às apresentadas anteriormente devemos usar o artifício de aproximar a variável contínua por uma variável discreta sem perder muita informação Isto pode ser feito supondose que todos os salários em determinada classe são iguais ao ponto médio desta classe Assim os dez salários pertencentes à primeira classe de quatro a oito salários serão admitidos iguais a 600 os 12 salários da segunda classe oito a doze salários serão admitidos iguais a 1000 e assim por diante Então podemos reescrever a Tabela 24 introduzindo os pon tos médios das classes Estes pontos estão na segunda coluna da Tabela 26 cap02bp65 2192009 1137 17 Com a tabela assim construída podemos representar os pares si ni ou si fi por um gráfico em barras setores ou de dispersão unidimensional Veja a Figura 26 2 3 G R Á F I C O S 19 Quando os intervalos das classes forem todos iguais a Δ a densidade de freqüência da iésima classe passa a ser fiΔ ou niΔ É claro que marcar no eixo das ordenadas os valores ni fi niΔ ou fiΔ leva a obter histogramas com a mesma forma somente as áreas é que serão diferentes O Problema 10 traz mais informações sobre a construção de histogramas Figura 27 Histograma da variável S salários Para facilitar o entendimento foi colocada acima de cada setor retângulo a res pectiva porcentagem das observações arredondada Assim por meio da figura po demos dizer que 61 dos empregados têm salário inferior a 12 salários mínimos ou 17 possuem salário superior a 16 salários mínimos Do mesmo modo que usamos um artifício para representar uma variável contínua como uma variável discreta podemos usar um artifício para construir um histograma para variáveis discretas A Figura 28 é um exemplo de como ficaria o histograma da variável Z número de filhos dos empregados casados da seção de orçamentos da Com panhia MB segundo os dados da Tabela 25 O gráfico é suficientemente autoexplicativo de modo que omitimos detalhes sobre sua construção Figura 28 Histograma da variável Z número de filhos cap02bp65 2192009 1137 19 20 C A P Í T U L O 2 R E S U M O D E D A D O S 24 RamoeFolhas Tanto o histograma como os gráficos em barras dão uma idéia da forma da distribuição da variável sob consideração Veremos no Capítulo 3 outras características da distribuição de uma variável como medidas de posição e dispersão Mas a forma da distribuição é tão importante quanto estas medidas Por exemplo saber que a renda per capita de um país é de tantos dólares pode ser um dado interessante mas saber como esta renda se distribui é mais importante Um procedimento alternativo para resumir um conjunto de valores com o objetivo de se obter uma idéia da forma de sua distribuição é o ramoefolhas Uma vantagem deste diagrama sobre o histograma é que não perdemos ou perdemos pouca informação sobre os dados em si Exemplo 28 Na Figura 29 construímos o ramoefolhas dos salários de 36 empregados da Companhia MB Tabela 21 Não existe uma regra fixa para construir o ramoefolhas mas a idéia básica é dividir cada observação em duas partes a primeira o ramo é colocada à esquerda de uma linha vertical a segunda a folha é colocada à direita Assim para os salários 400 e 456 o 4 é o ramo e 00 e 56 são as folhas Um ramo com muitas folhas significa maior incidência daquele ramo realização Figura 29 Ramoefolhas para a variável S salários 4 00 56 5 25 73 6 26 66 86 7 39 44 59 8 12 46 74 95 9 13 35 77 80 10 53 76 11 06 59 12 00 79 13 23 60 85 14 69 71 15 99 16 22 61 17 26 18 75 19 40 20 21 22 23 30 Algumas informações que se obtêm deste ramoefolhas são a Há um destaque grande para o valor 2330 b Os demais valores estão razoavelmente concentrados entre 400 e 1940 c Um valor mais ou menos típico para este conjunto de dados poderia ser por exemplo 1000 d Há uma leve assimetria em direção aos valores grandes a suposição de que estes dados possam ser considerados como amostra de uma população com distribuição simétrica em forma de sino a chamada distribuição normal pode ser questionada cap02bp65 2192009 1137 20 2 4 R A M O E F O L H A S 21 A escolha do número de linhas do ramoefolhas é equivalente à escolha do número de classes de um histograma Um número pequeno de linhas ou de classes enfatiza a parte M da relação 11 enquanto um número grande de linhas ou de classes enfatiza a parte R Exemplo 29 Os dados abaixo referemse à dureza de 30 peças de alumínio Hoaglin Mosteller e Tukey 1983 pág 13 530 702 843 695 778 875 534 825 673 541 705 714 954 511 744 557 635 858 535 643 827 785 557 691 723 595 553 730 524 507 Na Figura 210 temos o ramoefolhas correspondente Aqui optamos por truncar cada valor omitindo os décimos de modo que 691 e 695 por exemplo tornamse 69 e 69 e aparecem como 9 na linha que corresponde ao ramo 6 Figura 210 Ramoefolhas para os dados de du reza de peças de alumínio 5 0 1 2 3 3 3 4 5 5 5 9 6 3 4 7 9 9 7 0 0 1 2 3 4 7 8 8 2 2 4 5 7 9 5 Este é um exemplo em que temos muitas folhas em cada ramo Uma maneira alternativa é duplicar os ramos Criamos os ramos 5 e 5 6 e 6 etc onde coloca mos folhas de 0 a 4 na linha e folhas de 5 a 9 na linha Obtemos o ramoefolhas da Figura 211 Um ramoefolhas pode ser adornado com outras informações como o núme ro de observações em cada ramo Para outros exemplos veja o Problema 19 Figura 211 Ramoefolhas para os dados de dureza com ramos divididos 5 0 1 2 3 3 3 4 5 5 5 5 9 6 3 4 6 7 9 9 7 0 0 1 2 3 4 7 7 8 8 2 2 4 8 5 7 9 9 5 cap02bp65 2192009 1137 21 22 C A P Í T U L O 2 R E S U M O D E D A D O S 4 Contouse o número de erros de impressão da primeira página de um jornal durante 50 dias obtendose os resultados abaixo 8 11 8 12 14 13 11 14 14 15 6 10 14 19 6 12 7 5 8 8 10 16 10 12 12 8 11 6 7 12 7 10 14 5 12 7 9 12 11 9 14 8 14 8 12 10 12 22 7 15 a Represente os dados graficamente b Faça um histograma e um ramoefolhas 5 Usando os resultados do Problema 2 e da Tabela 23 a construa um histograma para a variável idade e b proponha uma representação gráfica para a variável grau de instrução 6 As taxas médias geométricas de incremento anual por 100 habitantes dos 30 maiores municípios do Brasil estão dadas abaixo 367 182 373 410 430 128 814 243 417 536 396 654 584 735 363 293 282 845 528 541 777 465 188 212 426 278 554 090 509 407 a Construa um histograma b Construa um gráfico de dispersão unidimensional 7 Você foi convidado para chefiar a seção de orçamentos ou a seção técnica da Compa nhia MB Após analisar o tipo de serviço que cada seção executa você ficou indeciso e resolveu tomar a decisão baseado em dados fornecidos para as duas seções O departa mento pessoal forneceu as dados da Tabela 21 para os funcionários da seção de orçamentos ao passo que para a seção técnica os dados vieram agrupados segundo as tabelas abaixo que apresentam as freqüências dos 50 empregados dessa seção segundo as variáveis grau de instrução e salário Baseado nesses dados qual seria a sua deci são Justifique Instrução Freqüência Fundamental 15 Médio 30 Superior 5 Total 50 Problemas cap02bp65 2192009 1137 22 Classe de Salários Frequência 24 C A P Í T U L O 2 R E S U M O D E D A D O S Figura 213 Gráfico de dispersão unidimensional para o CDNotas Minitab Figura 214 Ramoefolhas para o CDNotas Minitab 1 5 2 555 3 000055555 4 000000555555 5 00000000055555555555 6 000000000000055555555555 7 0000005555555555 8 000000555 9 005 10 000 Exemplo 211 O conjunto de dados 4 CDPoluição traz dados sobre a poluição na cidade de São Paulo Tomemos os dados de temperatura de 1o de janeiro a 30 de abril de 1991 120 dados Essas observações constituem o que se chama série temporal ou seja os da dos são observados em instantes ordenados do tempo Esperase que exista relação entre as observações em instantes de tempo diferentes o que não acontece com os dados do exemplo anterior a nota de um aluno em princípio é independente da nota de outro aluno qualquer O gráfico dessa série temporal está na Figura 215 Observase uma variação da temperatura no decorrer do tempo entre 12 e 22 C Figura 215 Dados de temperatura de São Paulo SPlus cap02bp65 2192009 1137 24 2 5 E X E M P L O S C O M P U T A C I O N A I S 25 O histograma e o gráfico de dispersão unidimensional estão nas Figuras 216 e 217 respectivamente mostrando que a distribuição dos dados não é simétrica O ramoefolhas da Figura 218 ilustra o mesmo comportamento Figura 216 Histograma dos dados de temperatura de São Paulo SPlus Figura 217 Gráfico de dispersão unidimensional para os dados de temperatura de São Paulo Minitab Figura 218 Ramoefolhas para os dados de temperatura de São Paulo Minitab 12 3 13 128 14 0012588899 15 112222225558899 16 000000013344678999 17 000000001236688888999 18 00000000001111233345566889999999 19 00000000012289 20 00011 21 0 Em cada figura está indicado o pacote computacional que foi utilizado com as devidas adaptações cap02bp65 2192009 1137 25 C A P Í T U L O 2 R E S U M O D E D A D O S 26 26 Problemas e Complementos 9 A MB Indústria e Comércio desejando melhorar o nível de seus funcionários em cargos de chefia montou um curso experimental e indicou 25 funcionários para a primeira turma Os dados referentes à seção a que pertencem notas e graus obtidos no curso estão na tabela a seguir Como havia dúvidas quanto à adoção de um único critério de avaliação cada instrutor adotou seu próprio sistema de aferição Usando dados daquela tabela responda às questões a Após observar atentamente cada variável e com o intuito de resumilas como você identificaria qualitativa ordinal ou nominal e quantitativa discreta ou contínua cada uma das 9 variáveis listadas b Compare e indique as diferenças existentes entre as distribuições das variáveis Direito Política e Estatística c Construa o histograma para as notas da variável Redação d Construa a distribuição de freqüências da variável Metodologia e faça um gráfico para indicar essa distribuição e Sorteado ao acaso um dos 25 funcionários qual a probabilidade de que ele tenha obtido grau A em Metodologia f Se em vez de um sorteássemos dois a probabilidade de que ambos tivessem tido A em Metodologia é maior ou menor do que a resposta dada em e g Como é o aproveitamento dos funcionários na disciplina Estatística segundo a seção a que eles pertencem Func Seção Administr Direito Redação Estatíst Inglês Metodologia Política Economia 1 P 80 90 86 90 B A 90 85 2 P 80 90 70 90 B C 65 8 0 3 P 80 90 80 80 D B 90 85 4 P 60 90 86 80 D C 60 85 5 P 80 90 80 90 A A 65 90 6 P 80 90 85 100 B A 65 95 7 P 80 90 82 80 D C 90 70 8 T 100 90 75 80 B C 60 85 9 T 80 90 94 90 B B 100 80 10 T 100 90 79 80 B C 90 75 11 T 80 90 86 100 C B 100 85 12 T 80 90 83 70 D B 65 80 13 T 60 90 70 70 B C 60 85 14 T 100 90 86 90 A B 100 75 15 V 80 90 86 90 C B 100 70 16 V 80 90 95 70 A A 90 75 17 V 80 90 63 80 D C 100 75 18 V 60 90 76 90 C C 60 85 19 V 60 90 68 40 D C 60 95 20 V 60 90 75 70 C B 60 85 21 V 80 90 77 70 D B 65 80 22 V 60 90 87 80 C A 60 90 23 V 80 90 73 100 C C 90 70 24 V 80 90 85 90 A A 65 90 25 V 80 90 70 90 B A 90 85 P departamento pessoal T seção técnica e V seção de vendas cap02bp65 2192009 1137 26 Número de empregados Frequência ni Amplitude Δi Densidade niΔi Proporção fi Densidade fiΔi Figura 219 Histograma dos dados do Problema 10 2 6 P R O B L E M A S E C O M P L E M E N T O S 29 Figura 220 a Histograma para a variável S salário Δ 2 Se houvesse um número suficientemente grande de observações poderseia ir diminuindo os intervalos de classe e o histograma iria ficando cada vez menos irregu lar até atingir um caso limite com uma curva bem mais suave Por exemplo o compor tamento da distribuição dos salários poderia ter a representação da Figura 220 b Esse histograma alisado é muito útil para ilustrar rapidamente qual o tipo de compor tamento que se espera para a distribuição de uma dada variável No capítulo referente a variáveis aleatórias contínuas voltaremos a estudar este histograma sob um ponto de vista mais matemático A interpretação desse gráfico é a mesma do histograma Assim nas regiões onde a curva é mais alta significa uma maior densidade de observações No exemplo aci ma conforme se aumenta o salário observase que a densidade de freqüência vai diminuindo Figura 220 b Histograma alisado para a variável S salário cap02bp65 2192009 1137 29 13 Esboce o histograma alisado para cada uma das situações descritas abaixo a Distribuição dos salários registrados em carteira de trabalho de moradores da cidade de São Paulo b Distribuição das idades de alunos de uma Faculdade de Economia e Administração c Distribuição das idades dos alunos de uma classe da Faculdade do item anterior Compare as duas distribuições d Distribuição do número de óbitos segundo a faixa etária e Distribuição do número de divórcios segundo o número de anos de casado f Distribuição do número formado pelos dois últimos algarismos do primeiro prêmio da Loteria Federal durante os últimos anos 14 Faça no mesmo gráfico um esboço das três distribuições descritas abaixo a Distribuição das alturas dos brasileiros adultos b Distribuição das alturas dos suecos adultos c Distribuição das alturas dos japoneses adultos 15 Frequências acumuladas Uma outra medida muito usada para descrever dados quantitativos é a frequência acumulada que indica quantos elementos ou que porcentagem deles estão abaixo de um certo valor Na tabela a seguir a terceira e a quinta colunas indicam respectivamente a frequência absoluta acumulada e a proporção porcentagem acumulada Assim observando a tabela podemos afirmar que 2778 dos indivíduos ganham até oito salários mínimos 6111 ganham até 12 salários mínimos 8333 ganham até 16 salários mínimos 9722 ganham até 20 salários mínimos e 100 dos funcionários ganham até 2400 salários A Figura 221 é a ilustração gráfica da porcentagem acumulada Este gráfico pode ser usado para fornecer informações adicionais Por exemplo para saber qual o salário s tal que 50 dos funcionários ganham menos do que s basta procurar o ponto s 50 na curva Observando as linhas pontilhadas no gráfico verificamos que a solução é um pouco mais do que 10 salários mínimos 16 Usando os dados da Tabela 21 a Construa a distribuição de frequências para a variável idade b Faça o gráfico da porcentagem acumulada c Usando o gráfico anterior ache os valores de s correspondentes aos pontos i 25 i 50 e i 75 17 Frequências acumuladas continuação Para um tratamento estatístico mais rigoroso das variáveis quantitativas costumase usar uma definição mais precisa para a distribuição das frequências acumuladas Em capítulos posteriores será vista a sua utilização Definição Dadas n observações de uma variável quantitativa e um número x real qualquer indicarseá por Nx o número de observações menores ou iguais a x e chamarseá de função de distribuição empírica fde a função Fnx ou Fx Fx Fnx Nx n Exemplos 212 Para a variável S salário dos 36 funcionários listados na Tabela 21 é fácil verificar que F36s 0 se s 400 136 se 400 s 456 236 se 456 s 525 1 se s 2330 O gráfico está na Figura 222 Aqueles não familiarizados com a representação gráfica de funções recomendase a leitura de Morettin Hazzan Bussab 2005 2 6 P R O B L E M A S E C O M P L E M E N T O S 33 18 Construir a fde para a variável idade referente aos dados da Tabela 21 19 Ramoefolhas continuação Os dados abaixo referemse à produção em toneladas de dado produto para 20 companhias químicas numeradas de 1 a 20 1 50 2 280 3 560 4 170 5 180 6 500 7 250 8 200 9 1050 10 240 11 180 12 1000 13 1100 14 120 15 4200 16 5100 17 480 18 90 19 870 20 360 Vemos que os valores estendemse de 50 a 5100 e usando uma representação semelhante à da Figura 29 teríamos um grande número de linhas A Figura 224 a mostra uma outra forma de ramoefolhas com ramos divididos A divisão ocorre no ramo cada vez que se muda por um fator de 10 Uma economia de 4 linhas poderia ser obtida representandose os valores 50 e 90 da Figura 224 a num ramo denominado 0 Obtemos a Figura 224 b Os pacotes computacionais trazem algumas opções adicionais ao construir um ramo efolhas Por exemplo podemos ter a contagem do número de folhas em cada ramo como mostra a Figura 225 a Aqui temos o ramoefolhas dos salários dos empregados da Tabela 21 Na Figura 225 b acrescentamos as contagens de folhas a partir de cada extremo até o ramo que contém a mediana Esse tipo de opção é chamado profundidade depth nos pacotes Figura 224 Ramoefolhas das produções de companhias químicas 5 0 6 0 5090 7 1 70 80 80 20 8 2 80 50 00 40 9 0 3 60 4 80 1 70 80 80 20 5 60 00 2 80 50 00 40 6 3 60 7 4 80 8 70 5 60 00 9 6 7 1 050 000 100 8 70 2 9 3 4 200 1 050 000 100 5 100 2 3 4 200 5 100 a b cap02bp65 2192009 1137 33 C A P Í T U L O 2 R E S U M O D E D A D O S 34 Figura 225 Ramoefolhas com a freqüências em cada ramo b profundidade 2 4 00 56 2 4 00 56 2 5 25 73 4 5 25 73 3 6 26 66 86 7 6 26 66 86 3 7 39 44 59 10 7 39 44 59 4 8 12 46 74 95 14 8 12 46 74 95 4 9 13 35 77 80 18 9 13 35 77 80 2 10 53 76 2 10 53 76 2 11 06 59 16 11 06 59 2 12 00 79 14 12 00 79 3 13 23 60 85 12 13 23 60 85 2 14 69 71 9 14 69 71 1 15 99 7 15 99 2 16 22 61 6 16 22 61 1 17 26 4 17 26 1 18 75 3 18 75 1 19 40 2 19 40 0 20 1 20 0 21 1 21 0 22 1 22 1 23 30 1 23 30 a b 20 Construa um ramoefolhas para a variável CO monóxido de carbono do conjunto de dados 4 CDPoluição cap02bp65 2192009 1137 34 31 Medidas de Posição Vimos que o resumo de dados por meio de tabelas de freqüências e ramoefolhas forne ce muito mais informações sobre o comportamento de uma variável do que a própria tabela original de dados Muitas vezes queremos resumir ainda mais estes dados apresentando um ou alguns valores que sejam representativos da série toda Quando usamos um só valor obtemos uma redução drástica dos dados Usualmente empregase uma das seguintes me didas de posição ou localização central média mediana ou moda A moda é definida como a realização mais freqüente do conjunto de valores observados Por exemplo considere a variável Z número de filhos de cada funcionário casado resumida na Tabela 25 do Capítulo 2 Vemos que a moda é 2 correspondente à realização com maior freqüência 7 Em alguns casos pode haver mais de uma moda ou seja a distribuição dos valores pode ser bimodal trimodal etc A mediana é a realização que ocupa a posição central da série de observações quando estão ordenadas em ordem crescente Assim se as cinco observações de uma variável forem 3 4 7 8 e 8 a mediana é o valor 7 correspondendo à terceira observação Quando o número de observações for par usase como mediana a média aritmética das duas observa ções centrais Acrescentandose o valor 9 à série acima a mediana será 7 82 75 Finalmente a média aritmética conceito familiar ao leitor é a soma das observações divi dida pelo número delas Assim a média aritmética de 3 4 7 8 e 8 é 3 4 7 8 85 6 Exemplo 31 Usando os dados da Tabela 25 já encontramos que a moda da variável Z é 2 Para a mediana constatamos que esta também é 2 média aritmética entre a décima e a décima primeira observações Finalmente a média aritmética será 4 0 5 1 7 2 3 3 5 1 33 165 20 20 Capítulo 3 MedidasResumo cap03ep65 2192009 1149 35 Neste exemplo as três medidas têm valores próximos e qualquer uma delas pode ser usada como representativa da série toda A média aritmética é talvez a medida mais usada Contudo ela pode conduzir a erros de interpretação Em muitas situações a mediana é uma medida mais adequada Voltaremos a este assunto mais adiante A moda mediana e média para os dados da Tabela 26 são respectivamente moS 1000 mdS 1000 x 10 600 12 1000 8 1400 5 1800 1 2200 36 1122 O resumo de um conjunto de dados por uma única medida representativa de posição central esconde toda a informação sobre a variabilidade do conjunto de observações Por exemplo suponhamos que cinco grupos de alunos submeteramse a um teste obtendose as seguintes notas grupo A variável X 3 4 5 6 7 grupo B variável Y 1 3 5 7 9 grupo C variável Z 5 5 5 5 5 grupo D variável W 3 5 5 7 grupo E variável V 3 5 5 6 6 dpX varX 2 141 varX ni1 Xi2n X2 3 3 Q U A N T I S E M P Í R I C O S 41 a Use cinco intervalos e construa um histograma b Determine uma medida de posição central e uma medida de dispersão 4 a Dê uma situação prática onde você acha que a mediana é uma medida mais apro priada do que a média b Esboce um histograma onde a média e a mediana coincidem Existe alguma classe de histogramas onde isso sempre acontece c Esboce os histogramas de três variáveis X Y e Z com a mesma média aritmética mas com as variâncias ordenadas em ordem crescente 5 Suponha que a variável de interesse tenha a distribuição como na figura abaixo Você acha que a média é uma boa medida de posição E a mediana Justifique 6 Numa pesquisa realizada com 100 famílias levantaramse as seguintes informações Número de filhos 10 11 12 13 4 5 mais que 5 Freqüência de famílias 17 20 28 19 7 4 5 a Qual a mediana do número de filhos b E a moda c Que problemas você enfrentaria para calcular a média Faça alguma suposição e encontrea 33 Quantis Empíricos Tanto a média como o desvio padrão podem não ser medidas adequadas para represen tar um conjunto de dados pois a são afetados de forma exagerada por valores extremos b apenas com estes dois valores não temos idéia da simetria ou assimetria da distribuição dos dados Para contornar esses fatos outras medidas têm de ser consideradas Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima ver fórmula 35 De modo geral podemos definir uma medida chamada quantil de ordem p ou pquantil indicada por qp onde p é uma proporção qualquer 0 p 1 tal que 100p das observações sejam menores do que qp cap03ep65 2192009 1149 41 md 800 267 1067 42 C A P Í T U L O 3 M E D I D A S R E S U M O Indicamos abaixo alguns quantis e seus nomes particulares q025 q1 1o Quartil 25o Percentil q050 q2 Mediana 2o Quartil 50o Percentil q075 q3 3o Quartil 75o Percentil q040 4o Decil q095 95o Percentil Dependendo do valor de p há dificuldades ao se calcular os quantis Isso é ilustrado no exemplo a seguir Exemplo 35 Suponha que tenhamos os seguintes valores de uma variável X 15 5 3 8 10 2 7 11 12 Ordenando os valores obtemos as estatísticas de ordem x1 2 x2 3 x9 15 ou seja teremos 2 3 5 7 8 10 11 12 15 Usando a definição de mediana dada teremos que md q05 q2 x5 8 Suponha que queiramos calcular os dois outros quartis q1 e q3 A idéia é dividir os dados em quatro partes 2 3 5 7 8 10 11 12 15 Uma possibilidade razoável é então considerar a mediana dos primeiros quatro valores para obter q1 ou seja q1 3 5 4 2 e a mediana dos últimos quatro valores para obter q3 ou seja q3 11 12 115 2 Obtemos então a sequência 2 3 4 5 7 8 10 11 115 12 15 Observe que a média dos n 9 valores é x 81 próximo à mediana Exemplo 35 continuação Acrescentemos agora o valor 67 à lista de nove valores do Exemplo 35 obtendose agora os n 10 valores ordenados 2 3 5 7 8 10 11 12 15 67 cap03ep65 2192009 1149 42 3 3 Q U A N T I S E M P Í R I C O S 43 Agora x 14 enquanto que a mediana fica q2 x5 x6 9 2 que está próxima da mediana dos nove valores originais mas ambas 8 e 9 relativa mente longes de x Dizemos que a mediana é resistente ou robusta no sentido que que ela não é muito afetada pelo valor discrepante ou atípico 67 Para calcular q1 e q3 para este novo conjunto de valores considereos assim dispostos 2 3 5 7 8 9 10 11 12 15 67 de modo que q1 5 e q3 12 Obtemos então os dados separados em 4 partes por q1 q2 e q3 2 3 5 7 8 9 10 11 12 15 67 Suponha agora que queiramos calcular q020 ou seja aquele valor que deixa 20 dos dados à sua esquerda para o conjunto original de n 9 valores de X Como 20 das observações correspondem a 18 observações qual valor devemos tomar como q0 20 O valor 3 que é a segunda observação ordenada ou 5 ou a média de 3 e 5 Se adotarmos esta última solução então q0 20 q0 25 q1 o que pode parecer não razoável Para responder a esta questão temos que definir quantil de uma sequência de valores de uma variável de modo apropriado Isto está feito no Problema 17 Se os dados estiverem agrupados em classes podemos obter os quantis usando o histograma Por exemplo para obter a mediana sabemos que ela deve corresponder ao valor da abscissa que divide a área do histograma em duas partes iguais 50 para cada lado Então usando argumentos geométricos podemos encontrar um ponto satisfazendo essa propriedade Vejamos como proceder através de um exemplo Exemplo 36 Vamos repetir abaixo a Figura 27 que é o histograma da variável S salário dos empregados da Companhia MB cap03ep65 2192009 1149 43 Devemos localizar o ponto das abscissas que divide o histograma ao meio A área do primeiro retângulo corresponde a 28 do total os dois primeiros a 61 portanto a mediana md é algum número situado entre 800 e 1200 Ou melhor a mediana irá corresponder ao valor md no segundo retângulo cuja área do retângulo de base 800 H 1200 seja 22 28 do primeiro retângulo mais 22 do segundo perfazendo os 50 Consulte a figura para melhor compreensão Pela proporcionalidade entre área e a base do retângulo temos 1200 800 33 md 800 22 ou md 800 22 33 400 logo md 800 267 1067 que é uma expressão mais precisa para a mediana do que a mediana bruta encontrada anteriormente O cálculo dos quantis pode ser feito de modo análogo ao cálculo da mediana usando argumentos geométricos no histograma Vejamos a determinação de alguns quantis usando os dados do último exemplo a q025 Verificamos que q025 deve estar na primeira classe pois a proporção no primeiro retângulo é 028 Logo q025 400 25 800 400 28 e então q025 400 2528 400 757 b q095 Analisando a soma acumulada das proporções verificamos que este quantil deve pertencer à quarta classe e que nesse retângulo devemos achar a parte correspondente a 12 pois a soma acumulada até a classe anterior é 83 faltando 12 para atingirmos os 95 Portanto q095 1600 12 2000 1600 14 logo q095 1600 12 14 4 1943 c q075 De modo análogo concluímos que o terceiro quantil deve pertencer ao intervalo 1200 H 1600 portanto q075 1200 14 1600 1200 22 e q075 1455 Uma medida de dispersão alternativa ao desvio padrão é a distância interquartil definida como a diferença entre o terceiro e primeiro quartis ou seja dq q₃ q₁ Para o Exemplo 35 temos q₁ 4 q₃ 115 de modo que dq 75 Para um cálculo mais preciso veja o Problema 17 Lá obtemos q₁ 45 q₃ 1125 logo dq 675 Os quartis q025 q₁ q05 92 e q075 93 são medidas de localização resistentes de uma distribuição 46 C A P Í T U L O 3 M E D I D A S R E S U M O A Figura 31 ilustra estes fatos para a chamada distribuição normal ou gaussiana Figura 31 Uma distribuição simétrica normal ou gaussiana Na Figura 32 temos ilustradas estas cinco medidas para os n 9 valores do Exemplo 35 Figura 32 Quantis e distâncias para o Exemplo 35 2 4 35 35 6 di 7 ds As cinco estatísticas de ordem consideradas acima podem ser representadas esquematicamente como na Figura 33 onde também incorporamos o número de ob servações n Representamos a mediana por md os quartis por q e os extremos por E Podemos ir além considerando os chamados oitavos ou seja o primeiro oitavo que corresponde a q0125 o sétimo oitavo que corresponde a q0875 etc Teríamos então sete números para representar a distribuição dos dados Em geral podemos considerar as chamadas letrasresumos descendo aos dezesseisavos trinta e dois avos etc Para detalhes ver Hoaglin Mosteller and Tukey1983 Figura 33 Esquema dos cinco números cap03ep65 2892009 0938 46 3 4 B O X P L O T S 47 Exemplo 37 Os aplicativos SPlus e Minitab assim como a planilha Excel possuem ferramentas que geram as principais medidas descritas nesse capítulo e outras Por exemplo o comando describe do Minitab usado para as populações dos municípios brasileiros produz a saída do Quadro 31 Quadro 31 Medidasresumo para o CDMunicípios Minitab MTB Describe C1 Descriptive Statistics Variable N Mean Median Tr mean StDev SE Mean C1 30 1454 843 1047 1866 341 Variable Min Max Q1 Q3 C1 463 9888 635 1397 Aqui temos N 30 dados a média é 1454 a mediana 843 o desvio padrão 1866 o menor valor 463 o maior valor 9888 o primeiro quartil 635 e o terceiro quartil 1397 Além desses valores o resumo traz a média aparada trimmed mean e o erro padrão da média a ser tratado no Capítulo 11 Esse é dado por S n 1866 30 341 O comando summary do SPlus produz a saída do Quadro 32 para os mesmos dados Note a diferença no cálculo dos quantis q025 e q075 Concluise que é necessário saber como cada programa efetua o cálculo de determinada estatística para poder reportálo Quadro 32 Medidasresumo para o CDMunicípios SPlus summary munic Min 1st Qu Median Mean 3rd Qu Max 463 6448 843 1454 1343 9888 17 Obtenha o esquema dos cinco números para os dados do Problema 3 Calcule o intervalo interquartil e as dispersões inferior e superior Baseado nessas medidas verifi que se a forma da distribuição dos dados é normal 18 Refaça o problema anterior utilizando desta vez os dados do Problema 5 do Capítulo 2 19 Obter os três quartis q01 e q090 para os dados do Problema 3 10 Para a variável população urbana do CDBrasil obtenha q010 q025 q050 q075 q080 e q095 34 Box Plots A informação contida no esquema dos cinco números da Figura 33 pode ser traduzida graficamente num diagrama ilustrado na Figura 34 que chamaremos de box plot Murteira 1993 usa o termo caixadebigodes Problemas cap03ep65 2192009 1149 47 48 C A P Í T U L O 3 M E D I D A S R E S U M O Figura 34 Box Plot Para construir este diagrama consideremos um retângulo onde estão representados a mediana e os quartis A partir do retângulo para cima segue uma linha até o ponto mais remoto que não exceda LS q3 15dq chamado limite superior De modo similar da parte inferior do retângulo para baixo segue uma linha até o ponto mais remoto que não seja menor do que LI q1 15dq chamado limite inferior Os valores compreendidos entre esses dois limites são chamados valores adjacentes As observações que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas pontos exteriores e representadas por asteriscos Essas são observações destoantes das demais e podem ou não ser o que chamamos de outliers ou valores atípicos O box plot dá uma idéia da posição dispersão assimetria caudas e dados discrepantes A posição central é dada pela mediana e a dispersão por dq As posições relativas de q1 q2 q3 dão uma noção da assimetria da distribuição Os comprimentos das caudas são dados pelas linhas que vão do retângulo aos valores remotos e pelos valores atípicos Exemplo 38 Retomemos o exemplo dos 15 maiores municípios do Brasil ordenados pelas populações Usando o procedimento do Problema 17 veja também o Problema 18 obtemos q1 1057 q2 1358 q3 2086 O diagrama para os cinco números x1 q1 q2 md q3 x15 está na Figura 35 abaixo Figura 35 Esquema dos cinco núme ros para o Exemplo 38 cap03ep65 2192009 1149 48 3 4 B O X P L O T S 49 Temos que LI q1 15dq 1057 15 1029 487 LS q3 15dq 2086 15 1029 3629 Então as cidades com populações acima de 3629000 habitantes são pontos exteriores ou seja Rio de Janeiro e São Paulo O box plot correspondente está na Figura 36 Vemos que os dados têm uma distribuição assimétrica à direita com 13 valores concentrados entre 80 e 230 e duas observações discrepantes bastante afas tadas do corpo principal dos dados Figura 36 Box plot para os quinze maiores municípios do Brasil Do ponto de vista estatístico um outlier pode ser produto de um erro de observa ção ou de arredondamento No exemplo acima as populações de São Paulo e Rio de Janeiro não são outliers neste sentido pois elas representam dois valores realmente muito diferentes dos demais Daí usarmos o nome pontos ou valores exteriores Contudo na prática estas duas denominações são freqüentemente usadas com o mes mo significado observações fora de lugar discrepantes ou atípicas A Figura 37 mostra o box plot para as populações dos trinta municípios brasilei ros feito com o Minitab cap03ep65 2192009 1149 49 50 C A P Í T U L O 3 M E D I D A S R E S U M O Figura 37 Box plot com Minitab A justificativa para usarmos os limites acima LI q1 15dq e LS q3 15dq para definir as observações atípicas é a seguinte considere uma curva normal com média zero e portanto com mediana zero É fácil verificar veja o Capítulo 7 e Tabela III que q1 06745 q2 0 q3 06745 e portanto dq 1349 Seguese que os limites são LI 2698 e LS 2698 A área entre estes dois valores embaixo da curva normal é 0993 ou seja 993 da distribuição está entre estes dois valores Isto é para dados com uma distribuição normal os pontos exteriores constituirão cerca de 07 da distri buição Veja a Figura 38 Figura 38 Área sob a curva normal entre LI e LS 11 Construa o box plot para os dados do Exemplo 23 Capítulo 2 O que você pode con cluir a respeito da distribuição 12 Refaça a questão anterior com os dados do Problema 3 deste capítulo 13 Faça um box plot para o Problema 10 Comente sobre a simetria caudas e presença de valores atípicos Problemas cap03ep65 2192009 1149 50 3 5 G R Á F I C O S D E S I M E T R I A 51 35 Gráficos de Simetria Os quantis podem ser úteis para se verificar se a distribuição dos dados é simétrica ou aproximadamente simétrica Se um conjunto de observações for perfeitamente simétrico devemos ter q05 xi xn 1 i q05 314 onde i 1 2 n2 se n for par e i 1 2 n 12 se n for ímpar Pela relação 314 vemos que se os quantis da direita estão mais afastados da mediana do que os da esquerda os dados serão assimétricos à direita Se ocorrer o contrário os dados serão assimétricos à esquerda A Figura 39 ilustra essas duas situações Figura 39 Distribuições assimétricas Para os dados do Exemplo 38 vemos que as observações são assimétricas à direita Em geral esse tipo de situação ocorre com dados positivos Podemos fazer um gráfico de simetria usando a identidade 314 Chamando de ui o primeiro membro e de vi o segundo membro fazendose um gráfico cartesiano com os uis como abscissas e os vis como ordenadas se os dados forem aproximada mente simétricos os pares ui vi estarão dispersos ao redor da reta v u Exemplo 39 Considere os dados que dispostos em ordem crescente ficam represen tados no eixo real como na Figura 310 Figura 310 Dados aproximadamente simétricos Esses dados são aproximadamente simétricos pois como q2 8 ui q2 xi vi xn 1 i q2 teremos u1 80 05 75 v1 153 80 73 u2 80 23 57 v2 135 80 55 u3 80 40 40 v3 120 80 40 u4 80 64 16 v4 98 80 18 cap03ep65 2192009 1149 51 A Figura 311 mostra o gráfico de simetria para as populações dos trinta municípios do Brasil Vemos que a maioria dos pontos estão acima da reta v μ mostrando a assimetria à direita da distribuição dos valores Nessa figura vemos destacados os pontos correspondentes a Rio de Janeiro e São Paulo 3 6 T R A N S F O R M A Ç Õ E S 53 Exemplo 310 Consideremos os dados das populações do CDMunicípios e tomemos alguns valores de p 0 14 13 12 Na Figura 312 temos os histogramas para os dados transformados e na Figura 313 os respectivos box plots Vemos que p 0 transformação logarítmica e p 13 transformação raiz cúbica fornecem distribui ções mais próximas de uma distribuição simétrica Figura 312 Histogramas para os dados transformados CDMunicípios Figura 313 Box plots para os dados transfor mados CDMunicípios SPlus cap03ep65 2192009 1149 53 54 C A P Í T U L O 3 M E D I D A S R E S U M O 37 Exemplos Computacionais Vamos retomar os exemplos estudados no Capítulo 2 e complementar as análises feitas com as técnicas aprendidas neste capítulo Exemplo 210 continuação Aqui temos as notas em Estatística de 100 alunos de Eco nomia Temos no Quadro 33 as principais medidasresumo desse conjunto de dados fornecidas pelo comando describe do Minitab Quadro 33 Medidas descritivas para o CDNotas Minitab Descriptive Statistics Variable N Mean Median Tr mean StDev SE Mean C1 100 5925 6000 5911 1812 0181 Variable Min Max Q1 Q3 C1 1500 10000 4625 7375 Vemos por exemplo que q1 4625 q2 6000 e q3 7375 e portanto dq q3 q1 275 O desvio padrão é dp 1812 Vimos que a distribuição das notas é razoavel mente simétrica não havendo valores atípicos o que é confirmado pelo box plot da Figura 314 Figura 314 Box plot para o CDNotas SPlus O gráfico de simetria está na Figura 315 mostrando também a reta u ν Note que os pontos dispõemse ao redor da reta estando vários deles sobre ela indicando a quasesimetria dos dados Deveríamos ter 50 pontos no gráfico mas há vários pares ui νi repetidos cap03ep65 2192009 1149 54 3 7 E X E M P L O S C O M P U T A C I O N A I S 55 Figura 315 Gráfico de simetria para o CDNotas Exemplo 211 continuação Os dados de temperatura diários na cidade de São Paulo no período considerado são ligeiramente assimétricos à esquerda O comando summary do SPlus fornece as medidas descritivas do Quadro 34 Note que o Minitab fornece mais informações que o SPlus por meio desses comandos Quadro 34 Medidas descritivas para temperaturas SPlus summary temp Min 1st Qu Median Mean 3rd Qu Max 123 16 177 1722 186 21 Temos por exemplo q1 16 q2 177 e q3 186 A amplitude amostral é xn x1 87 e a distância interquartil é dq 26 O box plot está na Figura 316 que mostra a assimetria Não há valores atípicos Figura 316 Box plot para as temperaturas de São Paulo CDPoluição SPlus cap03ep65 2192009 1149 55 No gráfico de simetria na Figura 317 todos os pontos estão abaixo da reta u v mostrando que ui vr para todo i 1 2 60 ou seja as distâncias da mediana aos quantis inferiores são maiores do que as distâncias dos quantis superiores à mediana indicando que a distribuição das observações é assimétrica à esquerda Vendas semanais Nº de vendedores 58 C A P Í T U L O 3 M E D I D A S R E S U M O Figura 318 Funções de distribuição empírica Fe e fde alisada Fe para o Exemplo 35 Mas vejamos que Fe pode ser a base para tal definição Considere alisar ou suavizar Fe como feito na Figura 318 de modo a obter uma curva contínua Fex que passa pelos pontos xi pi onde pi i 05 i 1 2 9 318 9 Observe que 0 p1 19 19 p2 29 etc Com esse procedimento notamos que Fex1 118 Fex5 918 05 Fex9 1718 ou seja podemos escrever Fexi i 05 i 1 2 n 319 n cap03ep65 2192009 1149 58 3 8 P R O B L E M A S E C O M P L E M E N T O S 59 sendo que no nosso caso n 9 Com essa modificação obtemos que Femd Fe8 05 e para cada p 0 p 1 podemos obter de modo unívoco o quantil qp tomando se a função inversa Fe 1p Ou seja considere uma reta horizontal passando por p no eixo das ordenadas até encontrar a curva contínua e depois baixe uma reta vertical até encontrar qp no eixo das abscissas Uma maneira equivalente de proceder nos leva à seguinte definição para calcu lar qp para qualquer p 0 p 1 Definição O pquantil é definido por xi se p pi i 05 i 1 2 n n qp 1 fixi fi xi 1 se pi p pi 1 x1 se p p1 xn se p pn onde fi p pi pi 1 pi Notamos então que se p coincidir com a proporção pi o quantil será a iésima observação xi Se pi p pi 1 o quantil estará no segmento de reta que une pi xi e pi 1 xi 1 De fato a reta passando por pi xi e p qp é qp xi xi 1 xi p pi pi 1 pi Exemplo 35 continuação Usando a definição obtemos q01 06x1 04x2 062 043 24 q02 07x2 03x3 073 035 36 q025 025x2 075x3 45 q05 x5 8 q075 075x7 025x8 07511 02512 1125 18 Considere o CDMunicípios e tome somente os 15 maiores relativamente à sua popula ção Calcule q0 1 q0 2 q1 q2 q3 cap03ep65 2192009 1149 59 como calcular o quartil O número de divórcios na cidade de acordo com a duração do casamento está representado na tabela abaixo A distribuição de frequências do salário anual dos moradores do bairro A que têm alguma forma de rendimento é apresentada na tabela abaixo Dado o histograma abaixo calcular a média a variância a moda a mediana e o 1º quartil Em uma granja foi observada a distribuição dos frangos em relação ao peso que era a seguinte Peso gramas ni 960H 980 60 980H 1000 160 1000H 1020 280 1020H 1040 260 1040H 1060 160 1060H 1080 80 a Qual a média da distribuição b Qual a variância da distribuição c Construa o histograma d Queremos dividir os frangos em quatro categorias em relação ao peso de modo que os 20 mais leves sejam da categoria D os 30 seguintes sejam da categoria C os 30 seguintes sejam da categoria B os 20 seguintes ou seja os 20 mais pesados sejam da categoria A Quais os limites de peso entre as categorias A B C e D e O granjeiro decide separar deste lote os animais com peso inferior a dois desvios padrões abaixo da média para receberem ração reforçada e também separar os animais com peso superior a um e meio desvio padrão acima da média para usálos como reprodutores Qual a porcentagem de animais que serão separados em cada caso a Baseandose nesses resultados você diria que a campanha produziu algum efeito isto é aumentou a idade média b Um outro pesquisador decidiu usar a seguinte regra se a diferença x 22 fosse maior que o valor 2δpXn então a campanha teria surtido efeito Qual a conclusão dele baseada nos dados c Faça o histograma da distribuição Para se estudar o desempenho de duas corretoras de ações selecionouse de cada uma delas amostras aleatórias das ações negociadas Para cada ação selecionada computouse a porcentagem de lucro apresentada durante um período fixado de tempo Os dados estão a seguir Corretora A Corretora B 45 60 54 57 55 58 62 55 70 50 52 59 38 48 64 59 55 56 61 52 54 59 48 57 50 55 60 55 58 54 59 51 56 Que tipo de informação revelam esses dados Sugestão use a análise proposta nas Seções 33 e 34 64 C A P Í T U L O 3 M E D I D A S R E S U M O Caso t 2 os desempenhos são semelhantes caso contrário são diferentes Qual seria a sua conclusão Aqui nA é o número de ações selecionadas da corretora A e nomencla tura análoga para nB 33 Um órgão do governo do estado está interessado em determinar padrões sobre o investi mento em educação por habitante realizado pelas prefeituras De um levantamento de dez cidades foram obtidos os valores codificados da tabela abaixo Cidade A B C D E F G H I J Investimento 20 16 14 8 19 15 14 16 19 18 Nesse caso será considerado como investimento básico a média final das observações cal culada da seguinte maneira 1 Obtémse uma média inicial 2 Eliminamse do conjunto aquelas observações que forem superiores à média inicial mais duas vezes o desvio padrão ou inferiores à média inicial menos duas vezes o desvio padrão 3 Calculase a média final com o novo conjunto de observações Qual o investimento básico que você daria como resposta Observação O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo investimento é muito diferente dos demais 34 Estudandose a distribuição das idades dos funcionários de duas repartições públicas obtiveramse algumas medidas que estão no quadro abaixo Esboce o histograma alisa do das duas distribuições indicando nele as medidas descritas no quadro Comente as principais diferenças entre os dois histogramas Repartição Mínimo 1o Quartil Mediana Média 3o Quartil Máximo dp A 18 27 33 33 39 48 15 B 18 23 32 33 42 48 10 35 Decidiuse investigar a distribuição dos profissionais com nível universitário em duas regiões A e B As informações pertinentes foram obtidas e encontramse no quadro abaixo expressas em salários mínimos Esboce a distribuição histograma alisado dos salários de cada região indicando no gráfico as medidas apresentadas no quadro Faça também uma descrição rápida das principais diferenças observadas nos gráficos Região Média dp Mediana Moda q1 q3 x1 xn A 2000 400 2032 2015 1732 2268 800 3200 B 2000 600 1800 1700 1600 2400 1400 4200 cap03ep65 2192009 1149 64 36 Construa o desenho esquemático para os dados do Problema 6 do Capítulo 2 Obtenha conclusões a respeito da distribuição a partir desse desenho 37 Usando os dados da variável qualitativa região de procedência da Tabela 21 transformea na variável quantitativa X definido da seguinte modo X 1 se a região de procedência for capital 0 se a região de procedência for interior ou outra a Calcule barx e varX b Qual a interpretação de barx c Construa um histograma para X 38 No Problema 9 do Capítulo 2 temos os resultados de 25 funcionários em vários exames a que se submeteram Sabese agora que os critérios adotados em cada exame não são comparáveis por isso decidiuse usar o desempenho relativo em cada exame Essa medida será obtida do seguinte modo I Para cada exame serão calculados a média barx e o desvio padrão phiX II A nota X de cada aluno será padronizada do seguinte modo Z fracX barxphiX a Interprete o significado de Z b Calcule as notas padronizadas dos funcionários para o exame de Estatística c Com os resultados obtidos em b calcule barz e phiZ d Se alguma das notas padronizadas estiver acima de 2dpZ ou abaixo de 2dpZ esse funcionário deve ser considerado um caso atípico Existe alguma nessa situação e O funcionário 1 obteve 90 em Direito em Estatística e em Política Em que disciplina o seu desempenho relativo foi melhor Calcule o coeficiente de variação para as regiões A e B do Problema 35 e comente o resultado 41 Desvio absoluto mediano Esta é uma medida de dispersão dos dados x₁ xₖ definida por dam med₁ i n xᵢ med₁ i n x Ou seja calculamos a mediana dos dados depois os desvios absolutos dos dados em relação à mediana e finalmente a mediana desses desvios absolutos Vamos considerar os dados abaixo extraídos de Graedel e Kleiner 1985 e que representam velocidades do vento no aeroporto de Philadelphia EUA para os primeiros 15 dias de dezembro de 1974 Vamos que há uma observação muito diferente das demais 611 mas que representa um dado real no dia 2 de dezembro houve uma tempestade forte com chuva e vento 222 611 130 278 222 74 74 204 204 204 204 111 130 74 148 Calculandose as medidas de posição e dispersão estudadas obtemos x 184 x020 158 md 148 q₁ 83 q₃ 218 dₕ 148 dam 74 dpX 135 Observemos que retirandose o valor atípico 611 a média passa a ser 153 e o desvio padrão 68 valor este mais próximo do dam 42 Calcule o desvio absoluto mediano para as populações do CDBrasil 43 Calcule as principais medidas de posição e dispersão incluindo a média aparada e o dam para a variável CO no CDPoluíção b salários de mecânicos CDSalários e c variável preço CDVeículos 44 Construa os histogramas ramoefolhas e desenhos esquemáticos para as variáveis do problema anterior 45 Faça um gráfico de quantis e um de simetria para os dados do Problema 3 Os dados são simétricos Comente 46 Para o CDTemperaturas e para a variável temperatura de Ubatuba obtenha um gráfico de quantis e um gráfico de simetria Os dados são simétricos Comente 47 O histograma dá uma ideia de como é a verdadeira densidade de frequências da população da qual os dados foram selecionados Suponha que tenhamos o histograma da figura abaixo e que a curva suave seja a verdadeira densidade populacional desconhecida Considere as distâncias entre o histograma e a densidade Suponha que queiramos determinar a amplitude de classe Δ do histograma de modo a minimizar a maior distância em valor absoluto Freedman e Diaconis 1981 mostraram que o valor de Δ é dado aproximadamente por Δ 1349S log nn13 em que S é um estimador robusto do desvio padrão populacional Por exemplo podemos tomar S dₕ1349 em que dₕ q₃ q₁ é a distância interquartil devido ao fato de numa distribuição normal dₕ 1349σ sendo σ o desvio padrão Seguese que Δ é dado por Δ dₕ log nn13 Usando esse resultado o número de classes a considerar num histograma é obtido por meio de xₙ x₁Δ Até agora vimos como organizar e resumir informações pertinentes a uma única variável ou a um conjunto de dados mas frequentemente estamos interessados em analisar o comportamento conjunto de duas ou mais variáveis aleatórias Os dados aparecem na forma de uma matriz geralmente com as colunas indicando as variáveis e as linhas os indivíduos ou elementos A Tabela 41 mostra a notação de uma matriz com p variáveis X₁ X₂ Xₚ e n indivíduos totalizando np dados A Tabela 21 com os dados hipotéticos da Companhia MB é uma ilustração numérica de uma matriz 36 7 O principal objetivo das análises nessa situação é explorar relações similaridades entre as colunas ou algumas vezes entre as linhas Como no caso de apenas uma variável que estudamos a distribuição conjunta das frequências será um instrumento poderoso para a compreensão do comportamento dos dados Neste capítulo iremos nos deter no caso de duas variáveis ou dois conjuntos de dados Na seção 48 daremos dois exemplos do caso de três variáveis Tabela 41 Tabela de dados Indivíduo Variável X₁ X₂ Xₖ Xₚ 1 x₁₁ x₁₂ x₁j x₁ₚ 2 x₂₁ x₂₂ x₂j x₂ₚ i xᵢ₁ xᵢ₂ xᵢj xᵢₚ n xₙ₁ xₙ₂ xₙj xₙₚ 4 1 I N T R O D U Ç Ã O 69 que são as temperaturas da cidade B nos mesmos meses Para efeito de análise podemos considerar que o primeiro conjunto são observações da variável X temperatura na cidade A enquanto o segundo conjunto são observações da variável Y temperatura na cidade B Este é o caso do CDTemperaturas Também poderíamos usar uma variável X para indicar a temperatura e outra variável L para indicar se a observação pertence à região A ou B Na Tabela 21 podemos estar interessados em comparar os salários dos casados e solteiros Uma reordenação dos dados poderia colocar os casados nas primeiras posições e os solteiros nas últimas e nosso objetivo passaria a ser comparar na coluna de salários variável S o compor tamento de S na parte superior com a inferior A escolha da apresentação de um ou outro modo será ditada principalmente pelo interesse e técnicas de análise à disposição do pesquisador No CDBrasil temos cinco variáveis superfície população urbana rural e total e densi dade populacional No CDPoluição temos quatro variáveis quantidade de monóxido de carbono ozônio temperatura do ar e umidade relativa do ar Quando consideramos duas variáveis ou dois conjuntos de dados podemos ter três situações a as duas variáveis são qualitativas b as duas variáveis são quantitativas e c uma variável é qualitativa e outra é quantitativa As técnicas de análise de dados nas três situações são diferentes Quando as variá veis são qualitativas os dados são resumidos em tabelas de dupla entrada ou de contingência onde aparecerão as freqüências absolutas ou contagens de indivíduos que pertencem simultaneamente a categorias de uma e outra variável Quando as duas variáveis são quantitativas as observações são provenientes de mensurações e técni cas como gráficos de dispersão ou de quantis são apropriadas Quando temos uma variável qualitativa e outra quantitativa em geral analisamos o que acontece com a variável quantitativa quando os dados são categorizados de acordo com os diversos atributos da variável qualitativa Mas podemos ter também o caso de duas variáveis quantitati vas agrupadas em classes Por exemplo podemos querer analisar a associação entre renda e consumo de certo número de famílias e para isso agrupamos as famílias em classes de rendas e classes de consumo Desse modo recaímos novamente numa tabe la de dupla entrada Contudo em todas as situações o objetivo é encontrar as possíveis relações ou associações entre as duas variáveis Essas relações podem ser detectadas por meio de métodos gráficos e medidas numéricas Para efeitos práticos e a razão ficará mais clara após o estudo de probabilidades iremos entender a existência de associação como a mudança de opinião sobre o comportamento de uma variável na presença ou não de informação sobre a segunda variável Ilustrando existe relação entre a altura de pessoas e o sexo homem ou mulher em dada comunidade Podese fazer uma primeira pergunta qual a freqüência esperada de uma pessoa dessa população ter digamos mais de 170 cm CAP04cP65 2192009 1202 69 70 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L de altura E também uma segunda qual a freqüência esperada de uma mulher ou ho mem ter mais de 170 cm de altura Se a resposta para as duas perguntas for a mesma diríamos que não há associação entre as variáveis altura e sexo Porém se as respostas forem diferentes isso significa uma provável associação e devemos incorporar esse conhecimento para melhorar o entendimento sobre os comportamentos das variáveis No exemplo em questão você acha que existe associação entre as variáveis 42 Variáveis Qualitativas Para ilustrar o tipo de análise consideremos o exemplo a seguir Exemplo 41 Suponha que queiramos analisar o comportamento conjunto das variá veis Y grau de instrução e V região de procedência cujas observações estão contidas na Tabela 21 A distribuição de freqüências é representada por uma tabela de dupla entrada e está na Tabela 42 Cada elemento do corpo da tabela dá a freqüência observada das realizações si multâneas de Y e V Assim observamos quatro indivíduos da capital com ensino funda mental sete do interior com ensino médio etc A linha dos totais fornece a distribuição da variável Y ao passo que a coluna dos totais fornece a distribuição da variável V As distribuições assim obtidas são chamadas tecnicamente de distribuições marginais enquanto a Tabela 42 constitui a distribui ção conjunta de Y e V Tabela 42 Distribuição conjunta das freqüências das variáveis grau de instrução Y e região de procedência V Y Ensino Ensino Médio Superior Total V Fundamental Capital 4 5 2 11 Interior 3 7 2 12 Outra 5 6 2 13 Total 12 18 6 36 Fonte Tabela 21 Em vez de trabalharmos com as freqüências absolutas podemos construir tabelas com as freqüências relativas proporções como foi feito no caso unidimensional Mas aqui existem três possibilidades de expressarmos a proporção de cada casela a em relação ao total geral b em relação ao total de cada linha c ou em relação ao total de cada coluna De acordo com o objetivo do problema em estudo uma delas será a mais conveniente CAP04cP65 2192009 1202 70 4 2 V A R I Á V E I S Q U A L I T A T I V A S 71 A Tabela 43 apresenta a distribuição conjunta das freqüências relativas expressas como proporções do total geral Podemos então afirmar que 11 dos empregados vêm da capital e têm o ensino fundamental Os totais nas margens fornecem as distribuições unidimensionais de cada uma das variáveis Por exemplo 31 dos indivíduos vêm da capital 33 do interior e 36 de outras regiões Observe que devido ao problema de aproximação das divisões a distribuição das proporções introduz algumas diferenças não existentes Compare por exemplo as colunas de instrução superior nas Tabelas 42 e 43 A Tabela 44 apresenta a distribuição das proporções em relação ao total das colunas Podemos dizer que entre os empregados com instrução até o ensino fundamental 33 vêm da capital ao passo que entre os empregados com ensino médio 28 vêm da capital Esse tipo de tabela serve para comparar a distribuição da procedência dos indivíduos conforme o grau de instrução Tabela 43 Distribuição conjunta das proporções em porcentagem em relação ao total geral das variáveis Y e V definidas no texto Y Fundamental Médio Superior Total V Capital 11 14 16 131 Interior 18 19 16 133 Outra 14 17 15 136 Total 33 50 17 100 Fonte Tabela 42 Tabela 44 Distribuição conjunta das proporções em porcentagem em relação aos totais de cada coluna das variáveis Y e V definidas no texto Y Fundamental Médio Superior Total V Capital 033 028 033 031 Interior 025 039 033 033 Outra 042 033 034 036 Total 100 100 100 100 Fonte Tabela 42 De modo análogo podemos construir a distribuição das proporções em relação ao total das linhas Aconselhamos o leitor a construir essa tabela A comparação entre as duas variáveis também pode ser feita utilizandose repre sentações gráficas Na Figura 41 apresentamos uma possível representação para os dados da Tabela 44 CAP04cP65 2192009 1202 71 72 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L Figura 41 Distribuição da região de procedência por grau de instrução 1 Usando os dados da Tabela 21 Capítulo 2 a Construa a distribuição de freqüência conjunta para as variáveis grau de instrução e região de procedência b Qual a porcentagem de funcionários que têm o ensino médio c Qual a porcentagem daqueles que têm o ensino médio e são do interior d Dentre os funcionários do interior quantos por cento têm o ensino médio 2 No problema anterior sorteando um funcionário ao acaso entre os 36 a Qual será provavelmente o seu grau de instrução b E sua região de procedência c Qual a probabilidade do sorteado ter nível superior d Sabendo que o sorteado é do interior qual a probabilidade de ele possuir nível superior e Sabendo que o escolhido é da capital qual a probabilidade de ele possuir nível superior 3 Numa pesquisa sobre rotatividade de mãodeobra para uma amostra de 40 pessoas foram observadas duas variáveis número de empregos nos últimos dois anos X e salário mais recente em número de salários mínimos Y Os resultados foram Problemas CAP04cP65 2192009 1202 72 4 3 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S 73 Indivíduo X Y Indivíduo X Y 1 1 6 21 2 4 2 3 2 22 3 2 3 2 4 23 4 1 4 3 1 24 1 5 5 2 4 25 2 4 6 2 1 26 3 2 7 3 3 27 4 1 8 1 5 28 1 5 9 2 2 29 4 4 10 3 2 30 3 3 11 2 5 31 2 2 12 3 2 32 1 1 13 1 6 33 4 1 14 2 6 34 2 6 15 3 2 35 4 2 16 4 2 36 3 1 17 1 5 37 1 4 18 2 5 38 3 2 19 2 1 39 2 3 20 2 1 40 2 5 a Usando a mediana classifique os indivíduos em dois níveis alto e baixo para cada uma das variáveis e construa a distribuição de freqüências conjunta das duas classificações b Qual a porcentagem das pessoas com baixa rotatividade e ganhando pouco c Qual a porcentagem das pessoas que ganham pouco d Entre as pessoas com baixa rotatividade qual a porcentagem das que ganham pouco e A informação adicional dada em d mudou muito a porcentagem observada em c O que isso significa 43 Associação entre Variáveis Qualitativas Um dos principais objetivos de se construir uma distribuição conjunta de duas variáveis qualitativas é descrever a associação entre elas isto é queremos conhecer o grau de dependência entre elas de modo que possamos prever melhor o resultado de uma delas quando conhecermos a realização da outra Por exemplo se quisermos estimar qual a renda média de uma família moradora da cidade de São Paulo a informação adicional sobre a classe social a que ela pertence nos permite estimar com maior precisão essa renda pois sabemos que existe uma dependência entre as duas variáveis renda familiar e classe social Ou ainda supo nhamos que uma pessoa seja sorteada ao acaso na população da cidade de São Paulo e devamos adivinhar o sexo dessa pessoa Como a proporção de pessoas de cada sexo CAP04cP65 2192009 1202 73 74 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L é aproximadamente a mesma o resultado desse exercício de adivinhação poderia ser qualquer um dos sexos masculino ou feminino Mas se a mesma pergunta fosse feita e também fosse dito que a pessoa sorteada trabalha na indústria siderúrgica então nossa resposta mais provável seria que a pessoa sorteada é do sexo masculino Ou seja há um grau de dependência grande entre as variáveis sexo e ramo de atividade Vejamos como podemos identificar a associação entre duas variáveis da distribui ção conjunta Exemplo 42 Queremos verificar se existe ou não associação entre o sexo e a carreira escolhida por 200 alunos de Economia e Administração Esses dados estão na Tabela 45 Tabela 45 Distribuição conjunta de alunos segundo o sexo X e o curso escolhido Y X Masculino Feminino Total Y Economia 185 35 120 Administração 155 25 180 Total 140 60 200 Fonte Dados hipotéticos Inicialmente verificamos que fica muito difícil tirar alguma conclusão devido à dife rença entre os totais marginais Devemos pois construir as proporções segundo as linhas ou as colunas para podermos fazer comparações Fixemos os totais das colunas a distribui ção está na Tabela 46 Tabela 46 Distribuição conjunta das proporções em porcentagem de alunos segundo o sexo X e o curso escolhido Y X Masculino Feminino Total Y Economia 061 058 060 Administração 039 042 040 Total 100 100 100 Fonte Tabela 45 A partir dessa tabela podemos observar que independentemente do sexo 60 das pessoas preferem Economia e 40 preferem Administração observe na coluna de total Não havendo dependência entre as variáveis esperaríamos essas mesmas proporções para cada sexo Observando a tabela vemos que as proporções do sexo masculino 61 e 39 e do sexo feminino 58 e 42 são próximas das marginais 60 e 40 Esses resultados parecem indicar não haver dependência entre as duas variáveis para o conjunto de alunos considerado Concluímos então que neste caso as variáveis sexo e escolha do curso parecem ser não associadas CAP04cP65 2192009 1202 74 4 3 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S 75 Vamos considerar agora um problema semelhante mas envolvendo alunos de Física e Ciências Sociais cuja distribuição conjunta está na Tabela 47 Tabela 47 Distribuição conjunta das freqüências e proporções em porcentagem segundo o sexo X e o curso escolhido Y Y X Masculino Feminino Total Física 100 71 20 33 120 600 Ciências Sociais 040 29 40 67 080 400 Total 140 100 60 100 200 100 Fonte Dados hipotéticos Inicialmente convém observar que para economizar espaço resumimos duas tabelas numa única indicando as proporções em relação aos totais das colunas entre parênteses Comparando agora a distribuição das proporções pelos cursos independentemente do sexo coluna de totais com as distribuições diferenciadas por sexo colunas de masculino e feminino observamos uma disparidade bem acentuada nas proporções Parece pois haver maior concentração de homens no curso de Física e de mulheres no de Ciências Sociais Portanto nesse caso as variáveis sexo e curso escolhido parecem ser associadas Quando existe associação entre variáveis sempre é interessante quantificar essa associação e isso será objeto da próxima seção Antes de passarmos a discutir esse aspecto convém observar que teríamos obtido as mesmas conclusões do Exemplo 42 se tivésse mos calculado as proporções mantendo constantes os totais das linhas Problemas 4 Usando os dados do Problema 1 responda a Qual a distribuição das proporções do grau de educação segundo cada uma das regiões de procedência b Baseado no resultado anterior e no Problema 2 você diria que existe dependência entre a região de procedência e o nível de educação do funcionário 5 Usando o Problema 3 verifique se há relações entre as variáveis rotatividade e salário 6 Uma companhia de seguros analisou a freqüência com que 2000 segurados 1000 homens e 1000 mulheres usaram o hospital Os resultados foram Homens Mulheres Usaram o hospital 100 150 Não usaram o hospital 900 850 a Calcule a proporção de homens entre os indivíduos que usaram o hospital b Calcule a proporção de homens entre os indivíduos que não usaram o hospital c O uso do hospital independe do sexo do segurado CAP04cP65 2192009 1202 75 76 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L 44 Medidas de Associação entre Variáveis Qualitativas De modo geral a quantificação do grau de associação entre duas variáveis é feita pelos chamados coeficientes de associação ou correlação Essas são medidas que descrevem por meio de um único número a associação ou dependência entre duas variáveis Para maior facilidade de compreensão esses coeficientes usualmente variam entre 0 e 1 ou entre 1 e 1 e a proximidade de zero indica falta de associação Existem muitas medidas que quantificam a associação entre variáveis qualitativas apresentaremos apenas duas delas o chamado coeficiente de contingência devido a K Pearson e uma modificação desse Exemplo 43 Queremos verificar se a criação de determinado tipo de cooperativa está associada com algum fator regional Coletados os dados relevantes obtemos a Tabela 48 Tabela 48 Cooperativas autorizadas a funcionar por tipo e estado junho de 1974 Estado Tipo de Cooperativa Total Consumidor Produtor Escola Outras São Paulo 214 33 237 37 178 12 119 18 1648 100 Paraná 151 17 102 34 126 42 122 71 1301 100 Rio G do Sul 111 18 304 51 139 23 148 81 1602 100 Total 376 24 643 42 343 22 189 12 1551 100 Fonte Sinopse Estatística da Brasil IBGE 1977 A análise da tabela mostra a existência de certa dependência entre as variáveis Caso não houvesse associação esperaríamos que em cada estado tivéssemos 24 de coope rativas de consumidores 42 de cooperativas de produtores 22 de escolas e 12 de outros tipos Então por exemplo o número esperado de cooperativas de consumido res no Estado de São Paulo seria 648 024 157 e no Paraná seria 301 024 73 ver Tabela 49 Tabela 49 Valores esperados na Tabela 48 assumindo a independência entre as duas variáveis Estado Tipo de Cooperativa Total Consumidor Produtor Escola Outras São Paulo 157 24 269 42 143 22 179 12 1648 100 Paraná 173 24 124 42 67 22 137 12 1301 100 Rio G do Sul 146 24 250 42 133 22 173 12 1602 100 Total 376 24 643 42 343 22 189 12 1551 100 Fonte Tabela 48 CAP04cP65 2192009 1202 76 4 4 M E D I D A S D E A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S 77 Tabela 410 Desvios entre observados e esperados Estado Tipo de Cooperativa Consumidor Produtor Escola Outras São Paulo 57 2069 32 381 65 2955 40 2025 Paraná 22 663 22 390 59 5196 15 608 Rio G do Sul 035 839 54 1166 006 027 25 856 Fonte Tabelas 48 e 49 Comparando as duas tabelas podemos verificar as discrepâncias existentes entre os valores observados Tabela 48 e os valores esperados Tabela 49 caso as variáveis não fossem associadas Na Tabela 410 resumimos os desvios valores observados me nos valores esperados Observando essa tabela podemos tirar algumas conclusões i A soma total dos resíduos é nula Isso pode ser verificado facilmente soman dose cada linha ii A casela EscolaSão Paulo é aquela que apresenta o maior desvio da suposição de nãoassociação 65 Nessa casela esperávamos 143 casos A casela Escola Paraná também tem um desvio alto 59 mas o valor esperado é bem menor 67 Portanto se fôssemos considerar os desvios relativos aquele correspon dente ao segundo caso seria bem maior Uma maneira de observar esse fato é construir para cada casela a medida oi ei2 41 ei no qual oi é o valor observado e ei é o valor esperado Usando 41 para a casela EscolaSão Paulo obtemos 652143 2955 e para a casela EscolaParaná obtemos 59267 5196 o que é uma indicação de que o desvio devido a essa última casela é maior do que aquele da primeira Na Tabela 410 indicamos entre parênteses esses valores para todas as caselas Uma medida do afastamento global pode ser dada pela soma de todas as medi das 41 Essa medida é denominada χ 2 quiquadrado de Pearson e no nosso exemplo teríamos χ2 2069 663 856 17176 Um valor grande de χ2 indica associação entre as variáveis o que parece ser o caso Antes de dar uma fórmula geral para essa medida de associação vamos introduzir na Tabela 411 uma notação geral para tabelas de dupla entrada CAP04dP65 9102009 1027 77 Suponha que temos duas variáveis qualitativas X e Y classificadas em r categorias A1 A2 Ar para X e s categorias B1 B2 Bs para Y Na tabela temos nij número de elementos pertencentes à iésima categoria de X e jésima categoria de Y ni sumj1s nij número de elementos da iésima categoria de X nj sumi1r nij número de elementos da jésima categoria de Y n n sumi1r sumj1s nij número total de elementos Sob a hipótese de que as variáveis X e Y não sejam associadas comumente dizemos independentes temos que fracn11n1 fracn12n2 fracnisns i 1 2 r ou ainda fracnijnj fracnin i 1 r j 1 s de onde se deduz finalmente que nij fracni njn i 1 r j 1 s Portanto sob a hipótese de independência podemos escrever 43 segue que em termos de frequências relativas podemos escrever fij fifj Chamando de frequências esperadas os valores dados pelos segundos membros de 43 e denotandoas por nij temos que o quiquadrado de Pearson pode ser escrito chi2 sumi1r sumj1s fracnij nij2nij onde nij são os valores efetivamente observados Se a hipótese de nãoassociação for verdadeira o valor calculado de 44 deve estar próximo de zero Se as variáveis forem associadas o valor de chi2 deve ser grande Podemos escrever a fórmula 44 em termos de frequências relativas como chi2 n sumi1r sumj1s fracfij fij2fij para a qual as notações são similares Pearson definiu uma medida de associação baseada em 44 chamada coeficiente de contingência dado por C sqrtfracchi2chi2 n Contudo o coeficiente acima não varia entre 0 e 1 O valor máximo de C depende de r e s Para evitar esse inconveniente costumase definir um outro coeficiente dado por T fracchi2lnr1s1 que atinge o máximo igual a 1 se r s Para o Exemplo 43 temos que C 032 e T 014 Voltaremos a falar do uso do chi2 no Capítulo 14 Problemas 7 Usando os dados do Problema 1 calcule o valor de chi2 e o coeficiente de contingência C Esses valores estão de acordo com as conclusões obtidas anteriormente 8 Qual o valor de chi2 e de C para os dados do Problema 3 E para o Problema 6 Calcule T 9 A Companhia A de dedetização afirma que o processo por ela utilizado garante um efeito mais prolongado do que aquele obtido por seus concorrentes mais diretos Uma amostra de vários ambientes dedetizados foi colhida e anotouse a duração do efeito de dedetização Os resultados estão na tabela abaixo Você acha que existe alguma evidência a favor ou contra a afirmação feita pela Companhia A Companhia Menos de 4 meses De 4 a 8 meses Mais de 8 meses A 64 120 16 B 104 175 21 C 27 48 5 80 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L 45 Associação entre Variáveis Quantitativas Quando as variáveis envolvidas são ambas do tipo quantitativo podese usar o mesmo tipo de análise apresentado nas seções anteriores e exemplificado com variáveis qualitativas De modo análogo a distribuição conjunta pode ser resumi da em tabelas de dupla entrada e por meio das distribuições marginais é possível estudar a associação das variáveis Algumas vezes para evitar um grande número de entradas agrupamos os dados marginais em intervalos de classes de modo semelhante ao resumo feito no caso unidimensional Mas além desse tipo de aná lise as variáveis quantitativas são passíveis de procedimentos analíticos e gráficos mais refinados Um dispositivo bastante útil para se verificar a associação entre duas variáveis quantitativas ou entre dois conjuntos de dados é o gráfico de dispersão que vamos introduzir por meio de exemplos Exemplo 44 Na Figura 42 temos o gráfico de dispersão das variáveis X e Y da Tabela 412 Nesse tipo de gráfico temos os possíveis pares de valores x y na ordem que aparecem Para o exemplo vemos que parece haver uma associação entre as variáveis porque no conjunto à medida que aumenta o tempo de serviço aumenta o número de clientes Tabela 412 Número de anos de serviço X por número de clientes Y de agentes de uma companhia de seguros Agente Anos de serviço Número de clientes X Y A 2 48 B 3 50 C 4 56 D 5 52 E 4 43 F 6 60 G 7 62 H 8 58 I 8 64 J 100 72 Fonte Dados hipotéticos CAP04cP65 2192009 1202 80 4 5 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A N T I T A T I V A S 81 Figura 42 Gráfico de dispersão para as variáveis X anos de serviço e Y número de clientes Exemplo 45 Consideremos os dados das variáveis X população urbana e Y população rural do CDBrasil O gráfico de dispersão está na Figura 43 Vemos que parece não haver associação entre as variáveis pois os pontos não apresentam nenhuma tendência particular Figura 43 Gráfico de dispersão para as variáveis X população urbana e Y população rural Exemplo 46 Consideremos agora as duas situações abaixo e os respectivos gráficos de dispersão Tabela 413 Renda bruta mensal X e porcentagem da renda gasta em saúde Y para um conjunto de famílias Família X Y A 12 72 B 16 74 C 18 70 D 20 65 E 28 66 F 30 67 G 40 60 H 48 56 I 50 60 J 54 55 Fonte Dados hipotéticos CAP04cP65 2192009 1202 81 82 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L a Numa pesquisa feita com dez famílias com renda bruta mensal entre 10 e 60 salá rios mínimos mediramse X renda bruta mensal expressa em número de salários mínimos Y a porcentagem da renda bruta anual gasta com assistência médica os dados estão na Tabela 413 Observando o gráfico de dispersão Figura 44 vemos que existe uma associação inversa isto é aumentando a renda bruta diminui a porcentagem sobre ela gasta em assistência médica Figura 44 Gráfico de dispersão para as variáveis X renda bruta e Y renda gasta com saúde Antes de passarmos ao exemplo seguinte convém observar que a disposição dos dados da Tabela 413 numa tabela de dupla entrada não iria melhorar a compreen são dos dados visto que devido ao pequeno número de observações teríamos caselas cheias apenas na diagonal b Oito indivíduos foram submetidos a um teste sobre conhecimento de língua es trangeira e em seguida mediuse o tempo gasto para cada um aprender a operar uma determinada máquina As variáveis medidas foram Xresultado obtido no teste máximo 100 pontos Y tempo em minutos necessário para operar a máquina satisfatoriamente Figura 45 Gráfico de dispersão para as variáveis X resultado no teste e Y tempo de operação CAP04cP65 2192009 1202 82 4 5 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A N T I T A T I V A S 83 Tabela 414 Resultado de um teste X e tempo de ope ração de máquina Y para oito indivíduos Indivíduo X Y A 45 343 B 52 368 C 61 355 D 70 334 E 74 337 F 76 381 G 80 345 H 90 375 Fonte Dados hipotéticos Os dados estão na Tabela 414 Do gráfico de dispersão Figura 45 concluímos que parece não haver associação entre as duas variáveis pois conhecer o resultado do teste não ajuda a prever o tempo gasto para aprender a operar a máquina A partir dos gráficos apresentados verificamos que a representação gráfica das variáveis quantitativas ajuda muito a compreender o comportamento conjunto das duas variáveis quanto à existência ou não de associação entre elas Contudo é muito útil quantificar esta associação Existem muitos tipos de associações possíveis e aqui iremos apresentar o tipo de relação mais simples que é a linear Isto é iremos definir uma medida que avalia o quanto a nuvem de pontos no gráfico de dispersão aproximase de uma reta Esta medida será definida de modo a variar num intervalo finito especificamente de 1 a 1 Consideremos um gráfico de dispersão como o da Figura 46 a no qual por meio de uma transformação conveniente a origem foi colocada no centro da nuvem de dispersão Aqueles dados possuem uma associação linear direta ou positiva e notamos que a grande maioria dos pontos está situada no primeiro e terceiro quadrantes Nesses quadrantes as coordenadas dos pontos têm o mesmo sinal e portanto o produto delas será sempre positivo Somandose o produto das coordenadas dos pontos o resultado será um número posi tivo pois existem mais produtos positivos do que negativos Figura 46 Tipos de associações entre duas variáveis Para a dispersão da Figura 46 b observamos uma dependência linear inversa ou negativa e procedendose como anteriormente a soma dos produtos das coorde nadas será negativa CAP04cP65 2192009 1202 83 84 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L Finalmente para a Figura 46 c a soma dos produtos das coordenadas será zero pois cada resultado positivo tem um resultado negativo simétrico anulandose na soma Nesse caso não há associação linear entre as duas variáveis Em casos semelhantes quando a distribuição dos pontos for mais ou menos circular a soma dos produtos será aproximadamente zero Baseandose nesses fatos é que iremos definir o coeficiente de correlação linear entre duas variáveis que é uma medida do grau de associação entre elas e também da proximidade dos dados a uma reta Antes cabe uma observação A soma dos produtos das coordenadas depende e muito do número de pontos Considere o caso de associação positiva a soma acima tende a aumentar com o número de pares x y e ficaria difícil comparar essa medida para dois conjuntos com números diferentes de pontos Por isso costumase usar a média da soma dos produtos das coordenadas Exemplo 47 Voltemos aos dados da Tabela 412 O primeiro problema que devemos resolver é o da mudança da origem do sistema para o centro da nuvem de dispersão Um ponto conveniente é xy ou seja as coordenadas da origem serão as médias dos valores de X e Y As novas coordenadas estão mostradas na quarta e quinta colunas da Tabela 415 Observando esses valores centrados verificamos que ainda existe um problema quanto à escala usada A variável Y tem variabilidade muito maior do que X e o produto ficaria muito mais afetado pelos resultados de Y do que pelos de X Para corrigirmos isso podemos reduzir as duas variáveis a uma mesma escala dividindose os desvios pelos respectivos desvios padrões Esses novos valores estão nas colunas 6 e 7 Observe as mudanças escalas dos eixos de variáveis realizadas acompanhando a Figura 47 Finalmente na coluna 8 indica mos os produtos das coordenadas reduzidas e sua soma 8769 que como esperávamos é positiva Para completar a definição dessa medida de associação basta calcular a média dos produtos das coordenadas reduzidas isto é correlação XY 876910 0877 Tabela 415 Cálculo do coeficiente de correlação Agente Anos Clientes x x y y x x zx y y zy zx zy x y dpx dpy A 2 48 37 85 154 105 1617 B 3 50 27 65 112 080 0846 C 4 56 17 05 071 006 0043 D 5 52 07 45 029 055 0160 E 4 43 17 135 071 166 1179 F 6 60 03 35 012 043 0052 G 7 62 13 55 054 068 0367 H 8 58 23 15 095 019 0181 I 8 64 23 75 095 092 0874 J 10 72 43 155 178 191 3400 Total 57 565 0 0 8769 x 57 dpX 241 y 565 dpY 811 CAP04cP65 2192009 1202 84 Portanto para esse exemplo o grau de associação linear está quantificado por 877 86 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L Para analisar dois conjuntos de dados podemos recorrer também aos métodos utilizados anteriormente para analisar um conjunto de dados exibindo as análises feitas separadamente para efeito de comparação Por exemplo podemos exibir os desenhos esquemáticos ou os ramosefolhas para os dois conjuntos de observações 46 Associação entre Variáveis Qualitativas e Quantitativas Como mencionado na introdução deste capítulo é comum nessas situações anali sar o que acontece com a variável quantitativa dentro de cada categoria da variável qualitativa Essa análise pode ser conduzida por meio de medidasresumo histogramas box plots ou ramoefolhas Vamos ilustrar com um exemplo Exemplo 48 Retomemos os dados da Tabela 21 para os quais desejamos analisar agora o comportamento dos salários dentro de cada categoria de grau de instrução ou seja investigar o comportamento conjunto das variáveis S e Y Tabela 416 Medidasresumo para a variável salário segundo o grau de instrução na Companhia MB Grau de n s dpS varS s1 q1 q2 q3 sn instrução Fundamental 12 1784 279 1777 1400 1601 1713 1916 1365 Médio 18 1154 362 1310 1573 1884 1091 1448 1940 Superior 6 1648 411 1689 1053 1365 1674 1838 2330 Todos 36 1112 452 2046 1400 1755 1017 1406 2330 Comecemos a análise construindo a Tabela 416 que contém medidasresumo da variável S para cada categoria de Y A seguir na Figura 48 apresentamos uma visualização gráfica por meio de box plots Figura 48 Box plots de salário segundo grau de instrução CAP04cP65 2192009 1202 86 4 6 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S E Q U A N T I T A T I V A S 87 A leitura desses resultados sugere uma dependência dos salários em relação ao grau de instrução o salário aumenta conforme aumenta o nível de educação do indivíduo O salário médio de um funcionário é 1112 salários mínimos já para um funcionário com curso superior o salário médio passa a ser 1648 enquanto funcionários com o ensino fundamental completo recebem em média 784 Na Tabela 417 e Figura 49 temos os resultados da análise dos salários em função da região de procedência V que mostram a inexistência de uma relação melhor definida entre essas duas variáveis Ou ainda os salários estão mais relacionados com o grau de instrução do que com a região de procedência Tabela 417 Medidasresumo para a variável salário segundo a região de procedência na Com panhia MB Região de n s dpS varS s1 q1 q2 q3 sn procedência Capital 11 1146 522 2727 456 749 1977 1663 1940 Interior 12 1155 507 2571 400 781 1064 1470 2330 Outra 13 1045 302 1913 573 874 1980 1279 1622 Todos 36 1112 452 2046 400 755 1017 1406 2330 Figura 49 Box plots de salário segundo região de procedência Como nos casos anteriores é conveniente poder contar com uma medida que quantifique o grau de dependência entre as variáveis Com esse intuito convém observar que as variâncias podem ser usadas como insumos para construir essa medida Sem usar a informação da variável categorizada a variância calculada para a variável quantitativa para todos os dados mede a dispersão dos dados globalmente Se a variância dentro de cada categoria for peque na e menor do que a global significa que a variável qualitativa melhora a capacidade de previsão da quantitativa e portanto existe uma relação entre as duas variáveis Observe que para as variáveis S e Y as variâncias de S dentro das três categorias são menores do que a global Já para as variáveis S e V temos duas variâncias de S maiores e uma menor do que a global o que corrobora a afirmação acima CAP04cP65 2192009 1202 87 Necessitase então de uma medidaresumo da variância entre as categorias da variável qualitativa Vamos usar a média das variâncias porém ponderada pelo número de observações em cada categoria ou seja 4 6 A S S O C I A Ç Ã O E N T R E V A R I Á V E I S Q U A L I T A T I V A S E Q U A N T I T A T I V A S 89 Problemas 10 Para cada par de variáveis abaixo esboce o diagrama de dispersão Diga se você espera uma dependência linear e nos casos afirmativos avalie o coeficiente de correlação a Peso e altura dos alunos do primeiro ano de um curso de Administração b Peso e altura dos funcionários de um escritório c Quantidade de trigo produzida e quantidade de água recebida por canteiros numa estação experimental d Notas de Cálculo e Estatística de uma classe onde as duas disciplinas são lecionadas e Acuidade visual e idade de um grupo de pessoas f Renda familiar e porcentagem dela gasta em alimentação g Número de peças montadas e resultado de um teste de inglês por operário 11 Abaixo estão os dados referentes à porcentagem da população economicamente ativa empregada no setor primário e o respectivo índice de analfabetismo para algumas regiões metropolitanas brasileiras Regiões metropolitanas Setor primário Índice de analfabetismo São Paulo 20 175 Rio de Janeiro 25 185 Belém 29 195 Belo Horizonte 33 222 Salvador 41 265 Porto Alegre 43 166 Recife 70 366 Fortaleza 1300 384 Fonte Indicadores Sociais para Áreas Urbanas IBGE 1977 a Faça o diagrama de dispersão b Você acha que existe uma dependência linear entre as duas variáveis c Calcule o coeficiente de correlação d Existe alguma região com comportamento diferente das demais Se existe elimine o valor correspondente e recalcule o coeficiente de correlação 12 Usando os dados do Problema 3 a Construa a tabela de freqüências conjuntas para as variáveis X número de empregos nos dois últimos anos e Y salário mais recente b Como poderia ser feito o gráfico de dispersão desses dados c Calcule o coeficiente de correlação Baseado nesse número você diria que existe dependência entre as duas variáveis CAP04cP65 2192009 1202 89 90 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L 13 Quer se verificar a relação entre o tempo de reação e o número de alternativas apresen tadas a indivíduos acostumados a tomadas de decisão Planejouse um experimento em que se pedia ao participante para classificar objetos segundo um critério previamente discutido Participaram do experimento 15 executivos divididos aleatoriamente em grupos de cinco Pediuse então a cada grupo para classificar dois três e quatro objetos respectivamente Os dados estão abaixo No de objetos 2 3 4 Tempo de reação 1 2 3 3 4 2 3 4 4 5 4 5 5 6 7 a Faça o gráfico de dispersão das duas variáveis b Qual o coeficiente de correlação entre elas 14 Calcule o grau de associação entre as variáveis estado civil e idade na Tabela 21 15 Usando os dados do Problema 9 do Capítulo 2 calcule o grau de associação entre seção e notas em Estatística 47 Gráficos q q Outro tipo de representação gráfica que podemos utilizar para duas variáveis é o gráfico quantis quantis que passamos a discutir Suponha que temos valores x1 xn da variável X e valores y1 ym da variável Y todos medidos pela mesma unidade Por exemplo temos temperaturas de duas cida des ou alturas de dois grupos de indivíduos etc O gráfico q q é um gráfico dos quantis de X contra os quantis de Y Pelo que vimos no Capítulo 3 se m n o gráfico q q é um gráfico dos dados ordenados de X contra os dados ordenados de Y Se as distribuições dos dois conjuntos de dados fossem idênticas os pontos estariam sobre a reta y x Enquanto um gráfico de dispersão fornece uma possível relação global entre as variá veis o gráfico q q mostra se valores pequenos de X estão relacionados com valores pequenos de Y se valores intermediários de X estão relacionados com valores intermediá rios de Y e se valores grandes de X estão relacionados com valores grandes de Y Num gráfico de dispersão podemos ter x1 x2 e y1 y2 o que não pode acontecer num gráfico q q pois os valores em ambos os eixos estão ordenados do menor para o maior Exemplo 410 Na Tabela 418 temos as notas de 20 alunos em duas provas de Estatística e na Figura 410 temos o correspondente gráfico q q Os pontos estão razoavelmente dispersos ao redor da reta x y mostrando que as notas dos alunos nas duas provas não são muito diferentes Mas podemos notar que para notas abaixo de cinco os alunos tiveram notas maiores na segunda prova ao passo que para notas de cinco a oito os alunos tiveram notas melhores na primeira prova A maioria das notas estão concentradas entre cinco e oito CAP04cP65 2192009 1202 90 4 7 G R Á F I C O S q q 91 Figura 410 Gráfico q q para as notas em duas provas de Estatística Tabela 418 Notas de 20 alunos em duas provas de Estatística Aluno Prova 1 Prova 2 Aluno Prova 1 Prova 2 1 85 80 11 74 65 2 35 28 12 56 50 3 72 65 13 63 65 4 55 62 14 30 30 5 95 90 15 81 90 6 70 75 16 38 40 7 48 52 17 68 55 8 66 72 18 100 100 9 25 40 19 45 55 10 70 68 20 59 50 Exemplo 411 Consideremos agora as variáveis temperatura de Ubatuba e temperatura de Cananéia do CDTemperaturas O gráfico q q está na Figura 411 Observamos que a maioria dos pontos está acima da reta y x mostrando que as temperaturas de Ubatuba são em geral maiores do que as de Cananéia para valores maiores do que 17 graus Quando m n é necessário modificar os valores de p para os quantis da variável com maior número de pontos Ver o Problema 33 para a solução desse caso Figura 411 Gráfico q q para os lados de tem peratura de Cananéia e Ubatuba CAP04cP65 2192009 1202 91 92 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L 16 Faça o gráfico q q para as notas em Redação e Economia dos 25 funcionários da MB Indústria e Comércio Problema 9 do Capítulo 2 17 Faça o gráfico q q para as variáveis salário de professor secundário e salário de administrador do CDSalários Comente 48 Exemplos Computacionais Vamos considerar brevemente nesta seção o caso de mais de dois conjuntos de dados Exemplos são os dados sobre o Brasil de poluição e estatísticas sobre veículos en contrados nos Conjuntos de Dados Veremos também um exemplo de cálculo do coeficiente de correlação para dados reais da Bolsa de Valores de São Paulo Vejamos um exemplo em que temos duas variáveis quantitativas e uma qualitativa Exemplo 412 Considere as variáveis salário idade e grau de instrução da Tabela 21 Separamos agora os salários e idades por classe de grau de instrução Depois podemos fazer gráficos de dispersão como na Figura 412 Figura 412 Gráficos de dispersão das variáveis salário e idade segundo a variável grau de instrução Notamos que para o ensino fundamental e grau superior os salários aumentam em geral com a idade ao passo que para o ensino médio essa relação não se verifica haven do salários baixos e altos numa faixa entre 350 e 450 meses Exemplo 413 Considere o CDMercado no qual temos os preços de fechamento diários de ações da Telebrás X e os índices IBOVESPA Y de 2 de janeiro a 24 de fevereiro de 1995 num total de n 39 observações O gráfico de dispersão está na Figura 413 que mostra que os pares de valores estão dispostos ao longo de uma reta com inclinação positiva Ou seja esse gráfico mostra que há uma forte correlação entre o preço das ações da Telebrás e o índice da Bolsa de Valores de São Paulo No gráfico está represen tada a reta de mínimos quadrados No Capítulo 16 veremos como determinála Problemas CAP04cP65 2192009 1202 92 4 8 E X E M P L O S C O M P U T A C I O N A I S 93 Figura 413 Gráfico de dispersão para ações da Telebrás e BOVESPA Utilizando 49 obtemos que corrXY 4021378 3927993628 098 3113593 39279925199968 3936282 o que mostra a forte associação linear entre X e Y Finalizamos esta seção com um tipo de gráfico que também é útil quando temos duas variáveis quantitativas e uma qualitativa Exemplo 414 Considere o CDVeículos no qual temos o preço o comprimento e a capacidade do motor de veículos vendidos no Brasil classificados em duas categorias N nacionais e I importados Podemos fazer um gráfico de dispersão simbólico de preços e comprimentos indicando por um x se o carro for N e por um se for I Veja a Figura 414 Observamos pela figura que os preços dos veículos importados são em geral maiores do que os nacionais e que o preço aumenta com o comprimento Figura 414 Gráfico de dispersão simbólico das variáveis preço e comprimento de veículos categorizadas pela variável procedência nacional x e importado o CAP04cP65 2192009 1202 93 94 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L 49 Problemas e Complementos 18 No estudo de uma certa comunidade verificouse que I A proporção de indivíduos solteiros é de 04 II A proporção de indivíduos que recebem até 10 salários mínimos é de 02 III A proporção de indivíduos que recebem até 20 salários mínimos é de 07 IV A proporção de indivíduos casados entre os que recebem mais de 20 salários míni mos é de 07 V A proporção de indivíduos que recebem até 10 salários mínimos entre os solteiros é de 03 a Construa a distribuição conjunta das variáveis estado civil e faixa salarial e as respec tivas distribuições marginais b Você diria que existe relação entre as duas variáveis consideradas 19 Uma amostra de 200 habitantes de uma cidade foi escolhida para declarar sua opinião sobre um certo projeto governamental O resultado foi o seguinte Opinião Local de residência Total Urbano Suburbano Rural A favor 30 35 35 100 Contra 60 25 15 100 Total 90 60 50 200 a Calcule as proporções em relação ao total das colunas b Você diria que a opinião independe do local de residência c Encontre uma medida de dependência entre as variações 20 Com base na tabela abaixo você concluiria que o tipo de atividade está relacionado ao fato de as embarcações serem de propriedade estatal ou particular Encontre uma medi da de dependência entre as variáveis Propriedade Atividade Total Costeira Fluvial Internacional Estatal 05 141 51 197 Particular 92 231 48 371 Total 97 372 99 568 Fonte Sinopse Estatística do Brasil IBGE 1975 21 Uma pesquisa sobre a participação em atividades esportivas de adultos moradores nas proximidades de centros esportivos construídos pelo estado de São Paulo mostrou os resultados da tabela abaixo Baseado nesses resultados você diria que a participação em atividades esportivas depende da cidade Participam Cidade São Paulo Campinas Rib Preto Santos Sim 050 065 105 120 Não 150 185 195 180 CAP04cP65 2192009 1202 94 Uma pesquisa para verificar a tendência dos alunos a prosseguir os estudos segundo a classe social do respondente mostrou o seguinte quadro Usando os dados da Tabela 21 Capítulo 2 a Construa a tabela de distribuições de frequências conjunta para as variáveis salário e idade mas divida cada uma delas num certo número de intervalos de classe b Como poderia ser calculado o coeficiente de correlação baseado nessa tabela c Você conseguiria escrever a fórmula de correlação para dados agrupados Lançamse simultaneamente uma moeda de um real e uma de um quarto de dólar Em cada tentativa anotouse o resultado cujos dados estão resumidos na tabela abaixo a Esses dados sugerem que os resultados da moeda de um real e as de um quarto de dólar estão associados b Atribua para ocorrência cara o valor 0 e para a ocorrência de coroa o valor 1 Chamando de X1 o resultado do real e de X2 o resultado do quarto de dólar calcule a correlação entre X1 e X2 Essa medida está de acordo com a resposta que você deu anteriormente 98 C A P Í T U L O 4 A N Á L I S E B I D I M E N S I O N A L d Os vendedores argumentam com o diretor que esse critério não é justo pois há zonas de venda privilegiadas A quem você daria razão e Qual das três variáveis observadas na admissão do pessoal é mais importante para julgar um futuro candidato ao emprego f Qual o grau de associabilidade entre o conceito do gerente e a zona a que o vende dor foi designado Você tem explicação para esse resultado g Qual o grau de associação entre o conceito do gerente e o resultado do teste E entre zona e vendas 31 A seção de assistência técnica da Companhia MB tem cinco funcionários A B C D e E cujos tempos de serviço na companhia são respectivamente um três cinco cinco e sete anos a Faça um gráfico representando a distribuição de freqüência dos tempos de serviço X b Calcule a média meX a variância varX e a mediana mdX Duas novas firmas a Verde e a Azul solicitaram o serviço de assistência técnica da Milsa Um mesmo funcionário pode ser designado para atender a ambos os pedidos ou dois funcionários podem fazêlo Assim o par A B significa que o funcionário A atenderá à firma Verde e o funcionário B à firma Azul c Escreva os 25 possíveis pares de funcionários para atender a ambos os pedidos d Para cada par calcule o tempo médio de serviçoX faça a distribuição de freqüência e uma representação gráfica Compare com o resultado de a e Calcule para os 25 valores deX os parâmetros meX varX e mdX Compare com os resultados obtidos em b Que tipo de conclusão você poderia tirar f Para cada par obtido em c calcule a variância do par e indiquea por S2 Faça a representação gráfica da distribuição dos valores de S2 g Calcule meS2 e varS2 h Indicando por X1 a variável que expressa o tempo de serviço do funcionário que irá atender à firma Verde e X2 o que irá atender à firma Azul faça a distribuição conjunta da variável bidimensional X1 X2 i As duas variáveis X1 e X2 são independentes j O que você pode falar sobre as distribuições marginais de X1 e X2 l Suponha agora que três firmas solicitem o serviço de assistência técnica Quantas triplas podem ser formadas m Sem calcular todas as possibilidades como você acha que ficaria o histograma deX E meX e varX n E sobre a variável S2 o A variável tridimensional X1 X2 X3 teria alguma propriedade especial para as suas distribuições marginais 32 Refaça o problema anterior admitindo agora que um mesmo funcionário não pode atender a duas firmas CAP04cP65 2192009 1202 98 Gráficos quantis quantis Na seção 45 vimos como construir um gráfico q q quando m n Suponha n m isto é temos um número maior de observações de X Então usamos as observações ordenadas y1 ym e interpolamos um conjunto correspondente de quantis para o conjunto dos x ordenados O valor ordenado yj corresponde a pi 05m Para X queremos um valor j tal que j nmi 05 05 Se j for inteiro fazemos o gráfico de yj versus xj Se j k r onde k é inteiro e 0 r 1 então qi 1 rxk r xk 1 Exemplo Se m 20 e n 40 j 4020i 05 05 2i 05 logo k 2i 1 r 05 e fazemos o gráfico de y1 versus 05x1 05x2 y2 versus 05x3 05x4 etc Parte 2 Parte 2 Capítulo 5 103 Probabilidades Capítulo 6 128 Variáveis Aleatórias Discretas Capítulo 7 163 Variáveis Aleatórias Contínuas Capítulo 8 203 Variáveis Aleatórias Multidimensionais Capítulo 9 235 Noções de Simulação P R O B A B I L I D A D E S cap05ep65 2192009 1317 101 Capítulo 5 Probabilidades 51 Introdução Na primeira parte deste livro vimos que a análise de um conjunto de dados por meio de técnicas numéricas e gráficas permite que tenhamos uma boa ideia da distribuição desse conjunto Em particular a distribuição de frequências é um instrumento importante para avaliarmos a variabilidade das observações de um fenômeno aleatório A partir dessas frequências observadas podemos calcular medidas de posição e variabilidade como média mediana desvio padrão etc Essas frequências e medidas calculadas a partir dos dados são estimativas de quantidades desconhecidas associadas em geral a populações das quais os dados foram extraídos na forma de amostras Em particular as frequências relativas são estimativas de probabilidades de ocorrências de certos eventos de interesse Com suposições adequadas e sem observarmos diretamente o fenômeno aleatório de interesse podemos criar um modelo teórico que reproduza de maneira razoável a distribuição das frequências quando o fenômeno é observado diretamente Tais modelos são chamados modelos probabilísticos e serão objeto de estudo neste capítulo e nos subsequentes Exemplo 51 Queremos estudar as frequências de ocorrências das faces de um dado Um procedimento a adotar seria lançar o dado certo número de vezes n e depois contar o número nₑ de vezes em que ocorre a face i i 1 2 6 As proporções nᵢn determinam a distribuição de frequências do experimento realizado Lançando o dado um número nn n de vezes teríamos outra distribuição de frequências mas com um padrão que esperamos ser muito próximo do anterior O modelo probabilístico pode ser construído por meio de premissas como se segue Primeiro observamos que só podem ocorrer seis faces a segunda consideração que se faz é que o dado seja perfeitamente equilibrado de modo a não favorecer alguma face em particular Com essas suposições cada face deve ocorrer o mesmo número de vezes quando o dado é lançado n vezes e portanto a proporção de ocorrência de cada face deve ser 16 Nessas condições o modelo teórico ou probabilístico para o experimento é dado na Tabela 51 104 C A P Í T U L O 5 P R O B A B I L I D A D E S Tabela 51 Modelo para lançamento de um dado Face 1 2 3 4 5 6 Total Freqüência teórica 16 16 16 16 16 16 1 Exemplo 52 De um grupo de duas mulheres M e três homens H uma pessoa será sorteada para presidir uma reunião Queremos saber as probabilidades de o presidente ser do sexo masculino ou feminino Observamos que i só existem duas possibilida des ou a pessoa sorteada é do sexo masculino H ou é do sexo feminino M ii supondo que o sorteio seja honesto e que cada pessoa tenha igual chance de ser sorteada teremos o modelo probabilístico da Tabela 52 para o experimento Tabela 52 Modelo teórico para o Exemplo 52 Sexo M H Total Freqüência teórica 25 35 1 Dos exemplos acima verificamos que todo experimento ou fenômeno que envolva um elemento casual terá seu modelo probabilístico especificado quando estabelecermos a um espaço amostral Ω que consiste no caso discreto da enumeração finita ou infinita de todos os resultados possíveis do experimento em questão Ω ω1 ω2 ωn os elementos de Ω são os pontos amostrais ou eventos elementares b uma probabilidade Pω para cada ponto amostral de tal sorte que seja possível encontrar a probabilidade PA de qualquer subconjunto A de Ω isto é a proba bilidade do que chamaremos de um evento aleatório ou simplesmente evento Para ilustrar graficamente eventos é costume utilizarse os mesmos diagramas comumente usados na teoria dos conjuntos Veja Morettin et al 2005 Na Figura 51 ilustramos por um quadrado o espaço amostral por círculos os eventos A e B e por pontos os pontos amostrais Figura 51 Espaço amostral e eventos aleatórios cap05ep65 2192009 1317 104 Exemplo 53 Lançamos uma moeda duas vezes Se C indicar cara e R indicar coroa então um espaço amostral será Ω ω₁ ω₂ ω₃ ω₄ onde ω₁ C C ω₂ C R ω₃ R C ω₄ R R É razoável supor que cada ponto ωᵢ tenha probabilidade 14 se a moeda for perfeitamente simétrica e homogênea Se designarmos por A o evento que consiste na obtenção de faces iguais nos dois lançamentos então PA Pω₁ ω₄ 14 14 12 De modo geral se A for qualquer evento de Ω então PA ᵢ Pωᵢ onde a soma é estendida a todos os pontos amostrais ωᵢ A Exemplo 54 Uma fábrica produz determinado artigo Da linha de produção são retirados três artigos e cada um é classificado como bom B ou defeituoso D Um espaço amostral do experimento é Ω BBB BBD BDB DBD DDB DBD DBD DDD Se A designar o evento que consiste em obter dois artigos defeituosos então A DDB BDB DBD BBD Exemplo 55 Considere o experimento que consiste em retirar uma lâmpada de um lote e medir seu tempo de vida antes de se queimar Um espaço amostral conveniente é Ω t ℝ t 0 isto é o conjunto de todos os números reais não negativos Se A indicar o evento o tempo de vida da lâmpada é inferior a 20 horas então A t 0 t 20 Esse é um exemplo de um espaço amostral contínuo contrastado com os anteriores que são discretos Problemas 1 Uma urna contém duas bolas brancas B e três bolas vermelhas V Retirase uma bola ao acaso da urna Se for branca lançase uma moeda se for vermelha ela é devolvida à urna e retirase outra Dê um espaço amostral para o experimento 2 Lance um dado até a face 5 aparecer pela primeira vez Enumere os possíveis resultados desse experimento 3 Três jogadores A B e C disputam um torneio de tênis Inicialmente A joga com B e o vencedor joga com C e assim por diante O torneio termina quando um jogador ganha duas vezes em seguido ou quando são disputadas ao todo quatro partidas Quais são os resultados possíveis do torneio 106 C A P Í T U L O 5 P R O B A B I L I D A D E S 4 Duas moedas são lançadas Dê dois possíveis espaços amostrais para esse experimento Represente um deles como o produto cartesiano de dois outros espaços amostrais ver Morettin et al 1999 para o conceito de produto cartesiano 5 Uma moeda e um dado são lançados Dê um espaço amostral do experimento e depois representeo como produto cartesiano dos dois espaços amostrais correspondente aos experimentos considerados individualmente 6 Defina um espaço amostral para cada um dos seguintes experimentos aleatórios a Lançamento de dois dados anotase a configuração obtida b Numa linha de produção contase o número de peças defeituosas num intervalo de uma hora c Investigamse famílias com três crianças anotandose a configuração segundo o sexo d Numa entrevista telefônica com 250 assinantes anotase se o proprietário tem ou não máquina de secar roupa e Medese a duração de lâmpadas deixandoas acesas até que se queimem f Um fichário com dez nomes contém três nomes de mulheres Selecionase ficha após ficha até o último nome de mulher ser selecionado e anotase o número de fichas selecionadas g Lançase uma moeda até aparecer cara e anotase o número de lançamentos h Um relógio mecânico pode parar a qualquer momento por falha técnica Medese o ângulo em graus que o ponteiro dos segundos forma com o eixo imaginário orien tado do centro ao número 12 i Mesmo enunciado anterior mas supondo que o relógio seja elétrico e portanto seu ponteiro dos segundos movase continuamente j De um grupo de cinco pessoas A B C D E sorteiamse duas uma após outra com reposição e anotase a configuração formada l Mesmo enunciado que j sem reposição m Mesmo enunciado que j mas as duas selecionadas simultaneamente n De cada família entrevistada numa pesquisa anotamse a classe social a que perten ce A B C D e o estado civil do chefe da família 52 Algumas Propriedades Sendo o modelo probabilístico um modelo teórico para as freqüências relativas de suas propriedades podemos obter algumas das propriedades das probabilidades que estudaremos a seguir Como a freqüência relativa é um número entre 0 e 1 temos que 0 PA 1 52 para qualquer evento A Será útil considerar o espaço todo Ω e o conjunto vazio ø como eventos O primeiro é denominado evento certo e o segundo evento impossível e temos PΩ 1 Pø 0 53 cap05ep65 2192009 1317 106 Exemplos 56 Na Tabela 53 temos dados referentes a alunos matriculados em quatro cursos de uma universidade em dado ano Tabela 53 Distribuição de alunos segundo o sexo e escolha de curso Sexo H Mulheres F Total Matemática Pura H 70 40 110 Matemática Aplicada A 15 15 30 Estatística E 10 20 30 Computação C 20 10 30 Total 115 85 200 Vamos indicar por M o evento que ocorre quando escolhendose ao acaso um aluno do conjunto desses quatro cursos ele for um estudante de Matemática Pura A E C H e F têm significados análogos Dessa maneira vemos que PE 30200 ao passo que PH 115200 Dados os eventos A e H podemos considerar dois novos eventos A H chamado a reunião de A e H quando pelo menos um dos eventos ocorrer A H chamado a interseção de A e H quando A e H ocorrerem simultaneamente É fácil ver que PA H 15200 pois o aluno escolhido terá de estar ao mesmo tempo matriculado no curso de Matemática Aplicada e ser homem Vemos que PA 30200 e PH 115200 suponha que nosso cálculo para PA H fosse PA H PA PH 30200 115200 145200 Se assumíssemos estaríamos contando duas vezes os alunos que são homens e estão matriculados no curso de Matemática Aplicada como destacado na Tabela 53 Portanto a resposta correta é PA H PA PH PA H 30200 115200 15200 130200 No entanto considerandose os eventos A e C vemos que PA 30200 PC 30200 e PA C PA PC Nesse caso os eventos A e C são disjuntos ou mutuamente exclusivos pois se A ocorre então C não ocorre e viceversa Aqui A C e PA C 0 Portanto se U e V são dois eventos quaisquer teremos a chamada regra da adição de probabilidades PU V PU PV PU V que se reduz a PU V PU PV se U e V são eventos mutuamente exclusivos Veja o Problema 58 Suponha agora que estejamos somente interessados em saber se um estudante escolhido ao acaso está matriculado como aluno de Matemática Pura Aplicada Estatística ou Computação não interessando saber se é homem ou mulher Seja B M E C Então A B Ω e A B Dizemos que A e B são complementares e PA 30200 PB 110200 30200 30200 170200 isto é PA PB 1 De modo geral vamos indicar por Ac o complementar de um evento qualquer A e teremos então PA PAc 1 56 As operações de reunião interseção e complementação entre eventos possuem propriedades análogas àquelas válidas para operações entre conjuntos Ver Morettin et al 2005 Por exemplo a A Bc Ac Bc e A Ac b A Bc Ac Bc f A Ac Ω g A A A Ω Ω h A B C A B A C Vejamos um exemplo de aplicação das propriedades das probabilidades Exemplo 57 Consideremos agora um experimento aleatório e os eventos A e B associados tais que PA 12 PB 13 e PA B 14 Então temos a PAc 1 PA 1 12 12 PBc 1 PB 1 13 23 b PA B PA PB PA B 12 13 14 712 c PAc B PA Bc 1 PA B 1 712 512 d PAc Bc PA Bc 1 PA B 1 14 34 e Calculemos PAc B isto é a probabilidade de que ocorra B e não ocorra A Podemos escrever B A B Ac B ou seja B pode ocorrer com A ou exclusivo com Ac Logo PB PA B PAc B do que decorre PAc B PB PA B 13 14 112 Consideremos agora uma situação historicamente importante a saber aquela em que temos um espaço amostral finito Ω ω₁ ωn em que todos os pontos têm a mesma probabilidade 1n Se A for um evento contendo m pontos amostrais então PA mn Nesse caso não é necessário explicitar completamente Ω e A bastando calcular m e n chamados respectivamente número de casos favoráveis e número de casos possíveis Portanto são usados os métodos clássicos de contagem da análise combinatória Um princípio fundamental de contagem nos diz que se uma tarefa pode ser executada em duas etapas a primeira podendo ser realizada de p maneiras e a segunda de q maneiras então as duas podem ser realizadas simultaneamente de pq maneiras Esse é o chamado princípio multiplicativo Exemplo 58 Suponha que num lote com 20 peças existam cinco defeituosas Escolhemos quatro peças do lote ao acaso ou seja uma amostra de quatro elementos de modo que a ordem dos elementos seja irrelevante Dessa maneira o número de amostras com quatro elementos que podemos extrair do lote é binom204 ou seja combinações de 20 elementos tomados quatro a quatro Suponha que queiramos calcular a probabilidade de se escolher duas defeituosas na amostra Pelo visto acima binom204 é o número de pontos do espaço amostral Seja A o evento que consiste em escolher duas defeituosas na amostra Seguese que m binom52 cdot binom152 pois podemos escolher na amostra de quatro elementos duas defeituosas e duas nãodefeituosas simultaneamente de binom52 cdot binom152 maneiras usando o princípio multiplicativo Logo PA fracbinom52cdot binom152binom204 0217 Exemplo 59 O jogo da Megasena consiste em escolher 6 dezenas dentre 60 dezenas 01 02 59 60 O jogador pode marcar num cartão de 6 a 15 dezenas Os custos em reais de cada jogo estão relacionados abaixo Temos ao todo binom606 50063860 possibilidades Portanto com um jogo único de R 100 seis dezenas a probabilidade de ganhar o prêmio máximo é 1binom606 ou seja aproximadamente uma chance em 50 milhões Por quê o jogo com 7 dezenas custa R 700 Porque com 7 dezenas podemos formar binom76 7 jogos de 6 dezenas Ou seja fazer um jogo com 7 dezenas ou 7 jogos com 6 dezenas são ações equivalentes em termos de probabilidade de ganhar Do mesmo modo um jogo de 15 dezenas custa R 500500 porque com 15 dezenas podemos formar 15 6 5005 jogos de 6 dezenas Portanto é mais fácil preencher um boleto com 15 dezenas do que 5005 boletos com 6 dezenas já que as probabilidades associadas são iguais 53 Probabilidade Condicional e Independência Voltamos à Tabela 53 do Exemplo 56 Dado que um estudante escolhido ao acaso esteja matriculado no curso de Estatística a probabilidade de que seja mulher é 2030 23 Isso porque do total de 30 alunos que estudam Estatística 20 são mulheres Escrevemos PmulherEstatística 23 Para dois eventos quaisquer A e B sendo PB 0 definimos a probabilidade condicional de A dado B PAB como sendo PAB PA B PB 112 C A P Í T U L O 5 P R O B A B I L I D A D E S Se A indicar o evento bola branca na segunda extração então PA PBB PVB 2 6 2 20 20 5 Tabela 54 Resultados e probabilidades para o experimento do Exemplo 510 Resultados Probabilidades BB 25 14 220 BV 25 34 620 VB 35 24 620 VV 35 24 620 Total 1 Exemplo 511 Imagine agora que as duas extrações são feitas da mesma urna do exemplo anterior mas a primeira bola é reposta na urna antes da extração da segun da Nessas condições as extrações são independentes pois o resultado de uma ex tração não tem influência no resultado da outra Obtemos a situação da Figura 53 e da Tabela 55 Figura 53 Diagrama em árvore para a extração de duas bolas de uma urna com reposição Tabela 55 Resultados e probabilidades para o experimento do Exemplo 511 Resultados Probabilidades BB 25 25 425 BV 25 35 625 VB 35 25 625 VV 35 35 925 Total 1 Observe que aqui Pbranca na 2a branca na 1a 25 Pbranca na 2a cap05ep65 2192009 1317 112 ou seja se indicarmos por A e B os eventos bola branca na segunda extração e bola branca na primeira extração respectivamente então PAB PA Nesse caso dizemos que o evento A independe do evento B e usando 58 temos PA B PA PB É fácil ver que se A independe de B então B independe de A dizemos que A e B são independentes A fórmula 59 pode ser tomada como definição de independência entre dois eventos ou seja A e B são independentes se e somente se 59 for válida De modo geral dados três eventos A B e C temos que PA B C PA PB A PC A B Essa relação pode ser estendida para um número finito qualquer de eventos Veja o Problema 60 Exemplo 513 A teoria da confiabilidade estuda sistemas e seus componentes como por exemplo sistemas mecânicos e eletrônicos um automóvel ou um computador e sistemas biológicos como o corpo humano O objetivo da teoria é estudar as relações entre o funcionamento dos componentes e do sistema A Figura 55 a ilustra um sistema composto de dois componentes ligados em série O sistema da figura funcionará se os componentes 1 e 2 funcionarem simultaneamente Se um dos componentes falhar o sistema também falhará Supondo que os componentes funcionem independentemente e seja pi para a probabilidade do componente i i 12 funcionar então a probabilidade de sistema funcionar será PF PA1 A2 PA1PA2 p1p2 onde indicamos por F o evento o sistema funciona e por Ai o evento o componente i funciona i 1 2 A probabilidade pi é a chamada confiabilidade do componente i e PF hp1 p2 p1p2 a confiabilidade do sistema Se os componentes 1 e 2 estiverem em paralelo como na Figura 55 b então o sistema funcionará se pelo menos um dos componentes funcionar Ou seja PF PA1 A2 PA1 PA2 PA1 A2 p1 p2 p1p2 e a confiabilidade do sistema é hp1 p2 p1 p2 p1p2 Vejamos agora o conceito de independência para três eventos dizemos que os eventos A B e C são independentes se e somente se PA B PA PB PA C PA PC PB C PB PC PA B C PA PB PC Se apenas as três primeiras relações de 511 estiverem satisfeitas dizemos que os eventos A B e C são mutuamente independentes É possível que três eventos sejam mutuamente independentes mas não sejam completamente independentes Veja o Problema 59 A definição pode ser estendida facilmente para um número finito qualquer de eventos Veja o Problema 61 Problemas 15 Considere uma urna contendo três bolas pretas e cinco bolas vermelhas Retire duas bolas da urna sem reposição a Obtenha os resultados possíveis e as respectivas probabilidades b Mesmo problema para extrações com reposição 16 No problema anterior calcule as probabilidades dos eventos a Bola preta na primeira e segunda extrações b Bola preta na segunda extração c Bola vermelha na primeira extração 17 A probabilidade de que A resolva um problema é de 23 e a probabilidade de que B o resolva é de 34 Se ambos tentarem independentemente qual a probabilidade de o problema ser resolvido 18 Um dado é viciado de tal forma que a probabilidade de sair um certo ponto é proporcional ao seu valor por exemplo o ponto 6 é três vezes mais provável de sair do que o ponto 2 Calcular a a probabilidade de sair 5 sabendose que o ponto que saiu é ímpar b a probabilidade de tirar um número par sabendose que saiu um número maior que 3 19 As probabilidades de que dois eventos independentes ocorreram são p e q respectivamente Qual a probabilidade a de que nenhum desses eventos ocorra b de que pelo menos um desses eventos ocorra 20 Na figura ao lado temos um sistema com três componentes funcionando independentemente com confiabilidades p1 p2 e p3 Obtenha a confiabilidade do sistema 21 Na tabela abaixo os números que aparecem são probabilidades relacionadas com a ocorrência de A B A B etc Assim PA 010 enquanto PA B 004 Verifique se A e B são independentes 22 Supondo que todos os componentes do sistema da figura ao lado tenham a mesma confiabilidade p e funcionem independentemente obtenha a confiabilidade do sistema 54 O Teorema de Bayes Uma das relações mais importantes envolvendo probabilidades condicionais é dada pelo Teorema de Bayes A versão mais simples desse teorema é dada pela fórmula 512 PAB PA B PB PA PBA PB Como salientamos na seção anterior temos a probabilidade inicial PA e dada a informação de que B ocorreu ou dada a suposição de que B venha a ocorrer obtemos a probabilidade a posteriori PAB dada por 512 Ou seja atualizamos a probabilidade inicial multiplicandoa por PBA PB Observe que PAB PA se PBA PB A forma geral do Teorema de Bayes será introduzida por um exemplo Exemplo 514 Temos cinco urnas cada uma com seis bolas Das dessas urnas tipo C1 têm 3 bolas brancas das outras tipo C2 têm 2 bolas brancas e a última urna tipo C3 tem 6 bolas brancas Escolhemos uma urna ao acaso e dela retiramos uma bola Qual a probabilidade de a urna escolhida ser do tipo C3 sabendose que a bola sorteada é branca Na Figura 56 temos esboçados o espaço amostral e os eventos de interesse Queremos encontrar PC3B sabendo que PC1 25 PBC1 12 PC2 25 PBC2 13 PC3 15 PBC3 1 Da definição de probabilidade condicional temos PCjB fracPCj cap BPB fracPCjPBCjPB A segunda igualdade é devida à fórmula 58 Precisamos encontrar o valor de PB já que o numerador é conhecido Como C2 e C3 são eventos mutuamente exclusivos e reunidos formam o espaço amostral completo podemos decompor o evento B na reunião de três outros também mutuamente exclusivos como segue ver também a Figura 56 B C1 cap B cup C2 cap B cup C3 cap B e então PB PC1 cap B PC2 cap B PC3 cap B PC1 PBC1 PC2 PBC2 PC3 PBC3 frac25 imes frac12 frac25 imes frac15 imes 1 frac15 imes 1 frac815 Substituindo esse resultado em 513 obtemos PC3B frac15 imes 1815 frac38 Podemos agora generalizar os resultados acima do seguinte modo seja C1 C2 Cn uma partição do espaço amostral Omega isto é Ci cap Cj emptyset sempre que i eq j C1 cup C2 cup cup Cn Omega Considere um evento qualquer A em Omega Supomos conhecidas as probabilidades PCi e PACi i 1 2 n Então temos o seguinte resultado ilustrado pela Figura 57 Partição de um espaço amostral Teorema 51 Bayes A probabilidade de ocorrência do evento Ci supondose a ocorrência do evento A é dada por PCiA fracPCiPACisumj1nPCjPACj para todo i 1 2 n Podemos pensar C1 Cn como um conjunto de hipóteses sendo somente uma delas verdadeira Dado que A ocorreu a probabilidade inicial de Ci PCi é modificada de modo a se obter PCiA dada por 515 Passamos da probabilidade a priori PCi para a probabilidade a posteriori PCiA multiplicando a primeira por fracPACisumj1nPCjPACj Para A fixado as probabilidades PACj em 515 são denominadas verossimilhanças das hipóteses C1 C2 Cn Vemos que PCiA PCj se 516 for maior do que um isto é se PACi PA onde PA é o denominador de 516 Observe que esse denominador é uma média ponderada das PACj e os pesos são as probabilidades PCj que têm soma unitária Como o numerador é sempre uma das parcelas do denominador PA tornase indispensável o uso de um novo índice j na decomposição deste Exemplo 515 Para selecionar seus funcionários uma empresa oferece aos candidatos um curso de treinamento durante uma semana No final do curso eles são submetidos a uma prova e 25 são classificados como bons B 50 como médios M e os restantes 25 como fracos F Para facilitar a seleção a empresa pretende substituir o treinamento por um teste contendo questões referentes a conhecimentos gerais e específicos Para isso gostaria de conhecer qual a probabilidade de um indivíduo aprovado no teste ser considerado fraco caso fizesse o curso Assim neste ano antes do início do curso os candidatos foram submetidos ao teste e receberam o conceito aprovado A ou reprovado R No final do curso obtiveramse as seguintes probabilidades condicionais PAB 080 PAM 050 PAF 020 Queremos encontrar PFA e pelo Teorema de Bayes essa probabilidade é dada por PFA fracPAFPFPABPB PAMPM PAFPF frac020025080025 050050 020025 010 5 4 O T E O R E M A D E B AY E S 119 Então apenas 10 dos aprovados é que seriam classificados como fracos durante o curso De modo análogo podemos encontrar PBA 040 e PMA 050 que pode riam fornecer subsídios para ajudar na decisão de substituir o treinamento pelo teste Um gráfico em árvore pode ajudar bastante na solução de um problema envolven do o Teorema de Bayes Desse modo para o Exemplo 515 teremos a Figura 58 e a Tabela 57 Assim o numerador de PFA está assinalado com um pequeno círculo ao passo que o denominador é a soma das três parcelas assinaladas com asterisco Figura 58 Diagrama em árvore para o Exemplo 515 Tabela 57 Resultados e probabilidades para o Exemplo 515 Resultados Probabilidades BA 025 080 020 BR 025 020 005 MA 050 050 025 MR 050 050 025 FA 025 020 005 FR 025 080 020 O Teorema de Bayes que aparentemente poderia ser encarado como mais um resulta do na teoria de probabilidades tem importância fundamental pois fornece a base para uma abordagem da inferência estatística conhecida como inferência bayesiana Esse pon to será abordado brevemente no Capítulo 11 O Teorema de Bayes fornece um mecanismo formal para atualizar probabilidades como já vimos acima Vejamos mais um exemplo para ilustrar esse ponto Exemplo 516 A administração de um fundo de investimentos em ações pretende divulgar após o encerramento do pregão a probabilidade de queda de um índice da bolsa no dia seguinte baseandose nas informações disponíveis até aquele momento Suponha que a previsão inicial seja de 010 Após encerrado o pregão nova infor mação sugere uma alta do dólar frente ao real A experiência passada indica que cap05ep65 2192009 1317 119 quando houve queda da bolsa no dia seguinte 20 das vezes foram precedidas por esse tipo de notícia enquanto nos dias em que a bolsa esteve em alta apenas em 5 das vezes houve esse tipo de notícia no dia anterior Chamando de E o evento que indica queda da bolsa sua probabilidade a priori é PE 010 enquanto a probabilidade de alta é PEc 090 Se B indicar alta do dólar então as verossimilhanças são dadas por PBE 020 PBEc 005 Logo pelo Teorema de Bayes teremos que PEB PE PBE PEPBE PEcPBEc ou seja PEB 010020 010020 090005 002 0065 4 13 031 Portanto a nova informação aumenta a probabilidade de que haja queda na bolsa de 10 para 31 Suponha agora que horas depois surja nova informação o Banco Central irá reduzir a taxa de juros vigente a partir do dia seguinte Denotandose agora por B1 o evento alta do dólar e por B2 o evento queda na taxa de juros o interesse será saber como essa nova informação B2 afetará a probabilidade calculada PEB1 Seguese que essa é agora a probabilidade a priori para E com respeito a B2 Novamente informações passadas mostram que dado que tenha havido alta do dólar e queda da bolsa 10 das vezes foram precedidas por notícias de queda de juros enquanto dado que tinha havido alta do dólar e alta da bolsa 60 das vezes foram precedidas de queda dos juros Então as verossimilhanças agora serão dadas por PB2E B1 010 PB2Ec B1 060 O Teorema de Bayes fica escrito agora na forma PEB1 B2 PEB1 PB2E B1 PEB1 PB2E B1 PEcB1 PB2Ec B1 do que segue que PEB1 B2 031010 031010 069060 0031 0445 007 Ou seja a informação B2 causa um decréscimo na probabilidade de queda da bolsa vamos testando as lâmpadas uma por uma até encontrar duas defeituosas qual é a probabilidade de que a última defeituosa seja encontrada no quarto teste 5 5 P R O B A B I L I D A D E S S U B J E T I V A S 121 23 Uma companhia produz circuitos em três fábricas I II e III A fábrica I produz 40 dos circuitos enquanto a II e a III produzem 30 cada uma As probabilidades de que um circuito integrado produzido por essas fábricas não funcione são 001 004 e 003 res pectivamente Escolhido um circuito da produção conjunta das três fábricas qual a pro babilidade de o mesmo não funcionar 24 Considere a situação do problema anterior mas suponha agora que um circuito escolhido ao acaso seja defeituoso Determine qual a probabilidade de ele ter sido fabricado por I 25 A urna I contém duas bolas pretas e três brancas ao passo que a urna II contém três bolas pretas e três brancas Escolhemos uma urna ao acaso e dela extraímos uma bola que tem cor branca Se a bola é recolocada na urna qual é a probabilidade de se retirar novamente uma bola branca da mesma urna 55 Probabilidades Subjetivas Na seção 51 vimos como associar probabilidades a eventos Utilizamos um enfoque chamado freqüentista pois se baseia na estabilidade das freqüências relativas e no fato de podermos hipoteticamente repetir um experimento várias vezes Mas é óbvio que nem sempre podemos considerar replicações Suponha que queiramos calcular a proba bilidade de chover no dia 12 de janeiro do próximo ano na cidade de São Paulo Evi dentemente se considerarmos o evento A chover em São Paulo no dia 12 de janeiro do próximo ano ele não pode ser replicado O que poderemos eventualmente considerar é em quantos dias 12 de janeiro de anos anteriores choveu e calcular uma freqüência relativa Se tivermos essa informação ela evidentemente poderá ser usada Mas suponha que uma pessoa morando em Fortaleza tenha de calcular essa probabilidade Se ela não tiver informação sobre o tempo em São Paulo poderá simplesmente dizer que essa pro babilidade é de 12 Por outro lado uma pessoa vivendo em São Paulo terá informações adicionais Por exemplo saberá que normalmente janeiro fevereiro e março são meses com muita chuva Esse morador de São Paulo poderá arriscar uma probabilidade diga mos de 23 para o evento A Vemos portanto que a associação de probabilidades a um evento depende de cada indivíduo de sua informação a respeito desse evento Esse tipo de apreciação é particularmente recomendável quando o indivíduo julga que as replicações anteriores não sejam comparáveis com a próxima Por exemplo o fenômeno El Niño pode ter ocorrido com grande intensidade em janeiro de 1999 provocando muita chuva no sudeste do Brasil e sua intensidade nos anos seguintes talvez seja menor Respostas a questões como essa envolvem o que chamamos de probabilidade sub jetiva Ou seja cada indivíduo baseado em informações anteriores e na sua opinião pessoal a respeito do evento em questão pode ter uma resposta para a probabilidade desse evento A Inferência Bayesiana de que trataremos brevemente neste livro veja o Capítulo 11 toma como uma de suas bases o fato de que todas as probabilidades são subjetivas O Teorema de Bayes tem papel importante nesse tipo de inferência pois passa a ser visto como um mecanismo de atualização de opiniões Ou seja o indivíduo aprende B e passa a ter opinião PAB sobre A Problemas cap05ep65 2192009 1317 121 Um ingrediente básico quando se associam probabilidades é a coerência Se um indivíduo julgar que um evento A é mais provável que seu complementar então ele deverá como que apostando na ocorrência de A associar uma probabilidade maior do que 12 ao evento A Por exemplo se ele julgar que uma proporção 3 1 a favor de A é razoável então ele deverá sugerir PA 34 A fórmula de Bayes fornece uma maneira coerente de atualizar opiniões As probabilidades associadas a eventos de modo subjetivo têm propriedades análogas àquelas vistas em seções anteriores e podem ser obtidas a partir do princípio da coerência Há outras maneiras de se associar probabilidades a eventos e os interessados poderão consultar OHagan 1994 por exemplo para obter mais informações sobre esse assunto e outros ligados à Inferência Bayesiana 56 Problemas e Complementos 26 Um restaurante popular apresenta apenas dois tipos de refeições salada completa ou um prato à base de carne Considere que 20 dos fregueses do sexo masculino preferem a salada 30 das mulheres escolhem carne 75 dos fregueses são homens e os seguintes eventos H freguês é homem A freguês prefere salada M freguês é mulher B freguês prefere carne Calcular a PH PAH PBM b PA H PA H c PMA 5 6 P R O B L E M A S E C O M P L E M E N T O S 123 31 Uma companhia de seguros vendeu apólices a cinco pessoas todas da mesma idade e com boa saúde De acordo com as tábuas atuariais a probabilidade de que uma pessoa daquela idade esteja viva daqui a 30 anos é de 23 Calcular a probabilidade de que daqui a 30 anos a exatamente duas pessoas estejam vivas b todas as pessoas estejam vivas e c pelo menos três pessoas estejam vivas Indique as suposições necessárias para a resolução do problema 32 Num teste com duas marcas que lhe são apresentadas em ordem aleatória um experimentador de vinhos faz três identificações corretas em três tentativas a Qual a probabilidade de isso ocorrer se na realidade ele não possuir habilidade alguma para distinguilos b E se a probabilidade de distinguir corretamente é de 90 em cada tentativa 33 Um grupo de 12 homens e 8 mulheres concorre a três prêmios através de um sorteio sem reposição de seus nomes Qual a probabilidade de a nenhum homem ser sorteado b um prêmio ser ganho por homem c dois homens serem premiados 34 Um empreiteiro apresentou orçamentos separados para a execução da parte elétrica e da parte de encanamento de um edifício Ele acha que a probabilidade de ganhar a concor rência da parte elétrica é de 12 Caso ele ganhe a parte elétrica a chance de ganhar a parte de encanamento é de 34 caso contrário essa probabilidade é de 13 Qual a proba bilidade de ele a ganhar os dois contratos b ganhar apenas um c não ganhar nada 35 Em média 5 dos produtos vendidos por uma loja são devolvidos Qual a probabilidade de que das quatro próximas unidades vendidas desse produto duas sejam devolvidas 36 Três alarmes estão dispostos de tal maneira que qualquer um deles funcionará independente mente quando qualquer coisa indesejável ocorrer Se cada alarme tem probabilidade 09 de trabalhar eficientemente qual é a probabilidade de se ouvir o alarme quando necessário 37 Em uma fábrica de parafusos as máquinas A B e C produzem 25 35 e 40 do total respectivamente Da produção de cada máquina 5 4 e 2 respectivamente são parafusos defeituosos Escolhese ao acaso um parafuso e verificase que é defeituoso Qual a probabilidade de que o parafuso venha da máquina A da B e da C 38 Um fabricante afirma que apenas 5 de todas as válvulas que produz têm duração inferior a 20 horas Uma indústria compra semanalmente um grande lote de válvulas desse fabri cante mas sob a seguinte condição ela aceita o lote se em dez válvulas escolhidas ao acaso no máximo uma tiver duração inferior a 20 horas caso contrário o lote todo é rejeitado cap05ep65 2192009 1317 123 124 C A P Í T U L O 5 P R O B A B I L I D A D E S a Se o fabricante de fato tem razão qual a probabilidade de um lote ser rejeitado b Suponha agora que o fabricante esteja mentindo isto é na verdade a proporção de válvulas com duração inferior a 20 horas é de 10 Qual a probabilidade de um lote ser aceito segundo o critério acima 39 Para estudar o comportamento do mercado automobilístico as marcas foram divididas em três categorias marca F marca W e as demais reunidas como marca X Um estudo sobre o hábito de mudança de marca mostrou o seguinte quadro de probabilidade Proprietário de Probabilidade de mudança para carro da marca W F X W 050 025 025 F 015 070 015 X 030 030 040 A compra do primeiro carro é feita segundo as seguintes probabilidades marca W com 50 marca F com 30 e marca X com 20 a Qual a probabilidade de um indivíduo comprar o terceiro carro da marca W b Se o terceiro carro é da marca W qual a probabilidade de o primeiro também ter sido W 40 A empresa M B tem 15800 empregados classificados de acordo com a tabela abaixo Sexo Homens M Mulheres F Total Idade 25 anos A 2000 800 2800 25 40 anos B 4500 2500 7000 40 anos C 1800 4200 6000 Total 8300 7500 15800 Se um empregado é selecionado ao acaso calcular a probabilidade de ser ele a um empregado com 40 anos de idade ou menos b um empregado com 40 anos de idade ou menos e mulher c um empregado com mais de 40 anos de idade e que seja homem d uma mulher dado que é um empregado com menos de 25 anos 41 Considere o Problema 40 e suponha que escolhamos dois empregados ao acaso com reposição Qual a probabilidade de que a ambos sejam do sexo masculino b o primeiro tenha menos de 25 anos e o segundo seja do sexo masculino e tenha menos de 25 anos c nenhum tenha menos de 25 anos 42 Resolva as questões a e c do Problema 41 supondo que a amostragem é feita sem reposição cap05ep65 2192009 1317 124 Numa empresa existem operadores de determinada categoria com idades iguais a a b e c anos existem pelo menos três com a mesma idade Escolhemse três ao acaso para que façam determinado curso Se indicarmos por x a idade do primeiro y a do segundo e z a do terceiro o termo x y z indica cada possível resultado Enumere a o espaço amostral e b os eventos A x y zx y z B x y zx y Os colégios A B e C têm as seguintes porcentagens de rapazes respectivamente 40 20 e 10 Um desses colégios é selecionado ao acaso e outros são escolhidos com reposição Se o resultado for RRRMMMM R para rapaz e M para moça qual é a probabilidade de ter sido selecionado o colégio C c Calcule a probabilidade do evento B x y x b ou y b onde b é um número tal que 0 b 1 d Calcule PB onde B foi definido em c 59 Há quatro bolas numa urna numeradas 000 011 101 110 Selecione uma bola ao acaso da urna Considere os eventos Ai na bola selecionada o número 1 aparece na posição i i 1 2 3 Seja A A1 A2 A3 a Calcule PAi i 1 2 3 e PA b Mostre que A1 A2 e A3 são mutuamente independentes mas não são independentes 61 Introdução No capítulo anterior introduzimos alguns modelos probabilísticos por meio de espaços amostrais bem simples Isso facilitou bastante a compreensão do conceito de probabilidade e a obtenção de algumas propriedades Mas para atender a situa ções práticas mais gerais necessitamos ampliar esses conceitos para que tenhamos modelos probabilísticos que representem todos os tipos de variáveis definidas no Capítulo 2 Muito do que foi apresentado naquele capítulo para tratamento descritivo das variáveis terá o seu correspondente no modelo teórico Para as variáveis qualitativas a descrição de probabilidades associadas a eventos construída no capítulo precedente adaptase muito bem Dada a sua simplicidade trataremos aqui de variáveis quantitativas discretas Já os modelos para variáveis contínuas necessitarão de um artifício matemático baseado em uma generalização do conceito de histograma definido na seção 23 e esse será o objetivo do próximo capítulo A extensão dos modelos para várias variáveis será tratada no Capítulo 8 Por outro lado quando estudamos a descrição de dados vimos que os recursos disponíveis para a análise das variáveis quantitativas são muito mais ricos do que para as variáveis qualitativas Isso sugere o uso de artifícios para transformar essas últimas variáveis naquelas do primeiro tipo Por exemplo considere o caso de um questionário em que uma pessoa é indagada a respeito de uma proposição e as respostas possíveis são sim ou não Podemos associar ao problema uma variável que toma dois valores 1 ou 0 por exemplo correspondentes às respostas sim ou não respectivamente Esse tipo de variável será estudado neste capítulo O conhecimento de modelos probabilísticos para variáveis quantitativas é muito importante e grande parte do restante deste livro será dedicada à construção desses modelos e inferências sobre seus parâmetros Essas variáveis para as quais iremos construir modelos probabilísticos serão chamadas de variáveis aleatórias va Capítulo 6 Variáveis Aleatórias Discretas CAP06dP65 2192009 1322 128 6 2 O C O N C E I T O D E V A R I Á V E L A L E A T Ó R I A D I S C R E T A 129 62 O Conceito de Variável Aleatória Discreta O conceito de va discreta será introduzido por meio de um exemplo Exemplo 61 Um empresário pretende estabelecer uma firma para montagem de um produto composto de uma esfera e um cilindro As partes são adquiridas em fábricas diferentes A e B e a montagem consistirá em juntar as duas partes e pintálas O produto acabado deve ter o comprimento definido pelo cilindro e a espessura defi nida pela esfera dentro de certos limites e isso só poderá ser verificado após a mon tagem Para estudar a viabilidade de seu empreendimento o empresário quer ter uma idéia da distribuição do lucro por peça montada Sabese que cada componente pode ser classificado como bom longo ou curto conforme sua medida esteja dentro da especificação maior ou menor que a especificada respectivamente Além disso foram obtidos dos fabricantes o preço de cada compo nente 500 e as probabilidades de produção de cada componente com as caracterís ticas bom longo e curto Esses valores estão na Tabela 61 Se o produto final apresentar algum componente com a característica C curto ele será irrecuperável e o conjunto será vendido como sucata ao preço de 500 Cada componente longo poderá ser recuperado a um custo adicional de 500 Se o preço de venda de cada unidade for de 2500 como seria a distribuição de freqüências da variável X lucro por conjunto montado Tabela 61 Distribuição da produção das fábricas A e B de acordo com as medidas das peças produzidas Produto Fábrica A Fábrica B Cilindro Esfera Dentro das especificações bom B 080 070 Maior que as especificações longo L 010 020 Menor que as especificações curto C 010 010 Fonte Retirada das especificações técnicas das fábricas A e B A construção dessa distribuição de freqüências vai depender de certas suposições que faremos sobre o comportamento do sistema considerado Com base nessas suposi ções estaremos trabalhando com um modelo da realidade e a distribuição que obtivermos será uma distribuição teórica tanto mais próxima da distribuição de freqüências real quanto mais fiéis à realidade forem as suposições Primeiramente vejamos a construção do espaço amostral para a montagem dos conjuntos segundo as características de cada componente e suas respectivas probabi lidades Como os componentes vêm de fábricas diferentes vamos supor que a classi ficação dos cilindros e a da esfera segundo suas características sejam eventos inde pendentes Obteremos a configuração da Figura 61 Uma representação do espaço amostral em questão está apresentada na Tabela 62 e foi obtida da Figura 61 CAP06dP65 2192009 1322 129 130 C A P Í T U L O 6 V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S Figura 61 Diagrama em árvore para o Exemplo 61 Tabela 62 Distribuição de probabilidade das possíveis composi ções das montagens Produto Probabilidade Lucro por montagem X BB 056 15 BL 016 10 BC 008 5 LB 007 10 LL 002 5 LC 001 5 CB 007 5 CL 002 5 CC 001 5 Fonte Figura 51 e informações no texto A última coluna da Tabela 62 foi construída com base nas informações sobre pre ços Por exemplo obtendo uma montagem LB cilindro longo e esfera boa do preço de venda 2500 devemos descontar 1000 dos custos dos componentes e 500 para recuperar o cilindro longo Portanto o lucro X desse conjunto será 1000 Verifique os lucros das demais montagens Com os dados da Tabela 62 vemos que X pode assumir um dos seguintes valores 15 se ocorrer o evento A1 BB 10 se ocorrer o evento A2 BL LB 5 se ocorrer o evento A3 LL 5 se ocorrer o evento A4 BC LC CB CL CC Cada um desses eventos tem uma probabilidade associada ou seja PA1 056 PA2 023 PA3 002 PA4 019 o que nos permite escrever a função x p x da Tabela 63 que é um modelo teórico para a distribuição da variável X que o empresário poderá usar para julgar a viabilida de econômica do projeto que ele pretende realizar Aqui x é o valor da va X e px é a probabilidade de X tomar o valor x Voltaremos a esse problema mais adiante CAP06dP65 2192009 1322 130 6 2 O C O N C E I T O D E V A R I Á V E L A L E A T Ó R I A D I S C R E T A 131 Tabela 63 Distribuição da va X x px 15 056 10 023 05 002 5 019 Total 100 A função x p x é chamada função de probabilidade da va X Esquematicamente teremos a situação da Figura 62 Figura 62 Função de probabilidade da va X lucro por montagem É evidente que ao mesmo espaço amostral da Tabela 62 podemos associar outras variáveis aleatórias como veremos a seguir Exemplo 62 Se considerarmos Y como sendo a variável custo de recuperação de cada conjunto produzido verificaremos que Y irá assumir os valores 0 se ocorrer o evento B1 BB BC LC CB CL CC 5 se ocorrer o evento B2 BL LB 10 se ocorrer o evento B3 LL A função de probabilidade da va Y está representada na Tabela 64 e a Figura 63 representa a situação esquematicamente Figura 63 Função de probabilidade da va Y custo de recuperação CAP06dP65 2192009 1322 131 132 C A P Í T U L O 6 V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S Tabela 64 Distribuição da va Y y py 0 075 5 023 10 002 Total 100 Deduzse do exposto que uma va X do tipo discreto estará bem caracterizada se indicarmos os possíveis valores x1 x2 xn que ela pode assumir e as respec tivas probabilidades px1 px2 pxn ou seja se conhecermos a sua função de probabilidade x px Também usaremos a notação px PX x Em algumas situações a determinação da função de probabilidade fp é bem mais simples Isso pode ser verificado pelos dois exemplos seguintes Exemplo 63 Voltemos à situação do Exemplo 510 em que consideramos duas extra ções sem reposição de uma urna contendo duas bolas brancas e três bolas vermelhas Definamos a va X número de bolas vermelhas obtidas nas duas extrações Obtemos a Tabela 65 e a Figura 64 Tabela 65 Extrações sem reposição de urna com duas bolas brancas e três bolas vermelhas Resultados Probabilidades X BB 110 0 BV 310 1 VB 310 1 VV 310 2 Fonte Figura 64 Figura 64 Diagrama em árvore para o Exemplo 63 Vemos pois que a cada resultado do experimento está associado um valor da va X a saber 0 1 ou 2 CAP06dP65 2192009 1322 132 6 2 O C O N C E I T O D E V A R I Á V E L A L E A T Ó R I A D I S C R E T A 133 Temos que X 0 com probabilidade 110 pois X 0 se e somente se ocorre o resultado BB X 1 com probabilidade 310 310 610 pois X 1 se e somente se ocorrem os resultados BV ou VB que são mutuamente exclusivos finalmente X 2 com probabilidade 310 pois X 2 se e somente se ocorre o resultado VV Resumidamente p0 PX 0 PBB 110 p1 PX 1 PBV ou VB 610 p2 PX 2 PVV 310 Na Tabela 66 apresentamos a distribuição de probabilidades da va X Tabela 66 Distribuição de probabilidades da va X número de bolas vermelhas x px 0 110 1 610 2 310 Fonte Tabela 65 Exemplo 64 Retomemos o Exemplo 53 em que consideramos o lançamento de uma moeda duas vezes Definamos a va Y número de caras obtidas nos dois lançamentos Temos então p0 PY 0 PRR 14 p1 PY 1 PCR ou RC 14 14 12 p2 PY 2 PCC 14 Na Tabela 67 e Figura 65 temos esquematizado o que ocorre e na Tabela 68 apresentamos a distribuição de probabilidades de Y Tabela 67 Lançamento de duas moedas Resultados Probabilidades Y CC 14 2 CR 14 1 RC 14 1 RR 14 0 Fonte Figura 65 Figura 65 Diagrama em árvore para o Exemplo 64 CAP06dP65 2192009 1322 133 Tabela 68 Distribuição da va Y número de caras y py 0 14 1 12 2 14 Fonte Tabela 67 Problemas 1 Considere uma urna contendo três bolas vermelhas e cinco pretas Retire três bolas sem reposição e defina a va X igual ao número de bolas pretas Obtenha a distribuição de X 2 Repita o problema anterior mas considerando extrações com reposição 3 Suponha que uma moeda perfeita é lançada até que cara apareça pela primeira vez Seja X o número de lançamentos até isso aconteça Obtenha a distribuição de X Observe que nesse problema pelo menos teoricamente X pode assumir um número infinito de valores Veja também o Problema 55 4 Uma moeda perfeita é lançada quatro vezes Seja Y o número de caras obtidas Calcule a distribuição de Y 5 Repita o problema anterior considerando agora que a moeda é viciada sendo a probabilidade de cara dada por p 0 p 1 p 12 6 Generalize o Problema 5 para n lançamentos da moeda 63 Valor Médio de uma Variável Aleatória Vamos introduzir o conceito de valor médio por meio do seguinte exemplo Exemplo 65 Uma pergunta que logo ocorreria ao empresário do Exemplo 61 é qual o lucro médio por conjunto montado que ele espera conseguir Da Tabela 63 observamos que 56 das montagens devem produzir um lucro de 15 reais 23 um lucro de dez reais e assim por diante Logo o lucro esperado por montagem será dado por lucro médio 05615 02310 0025 0195 985 Isto é caso sejam verdadeiras as suposições feitas para determinar a distribuição de va o empresário espera ter um lucro de 985 reais por conjunto montado Definição Dada a va X discreta assumindo os valores x1 xn chamamos valor médio ou esperança matemática de X ao valor EX i1n xiPXxi 61 A expressão 61 é semelhante àquela utilizada para a média introduzida no Capítulo 3 onde no lugar das probabilidades pi tínhamos as frequências relativas fi A distinção entre essas duas quantidades é que a primeira corresponde a valores de um modelo teórico pressuposto e a segunda a valores observados da variável Como pi e fi têm a mesma interpretação todas as medidas e gráficos discutidos no Capítulo 2 baseados na distribuição das fi possuem um correspondente na distribuição de uma va Além do valor médio ou simplesmente média definido acima podemos considerar também outras medidas de posição e variabilidade como a mediana e o desvio padrão Veja a seção 68 para a definição da mediana de uma va discreta Vamos considerar agora a definição de variância Definição Chamamos de variância da va X o valor VarX i1n xi EX²Pi 62 O desvio padrão de X DPX é definido como a raiz quadrada positiva da variância Exemplo 66 Deixamos a cargo do leitor verificar que no caso do problema do empresário temos i VarX 5723 ii DPX 757 iii gráfico de x px Figura 67 Observação Até agora consideramos o caso em que a va X pode assumir um número finito de valores Mas uma va discreta X pode assumir um número infinito porém enumerável de valores x1 xn com probabilidades P1 Pn tal que cada pi 0 e a soma de todos os pi seja 1 ou seja i1n pi 1 Veja o Problema 3 Nesse caso a definição de esperança deve ser modificada A soma na expressão 61 é uma soma infinita que temos de supor que seja convergente Problemas 7 Obtenha a média e a variância da va X dos Problemas 1 e 2 8 Obter a média e a variância da va Y do Problema 4 64 Algumas Propriedades do Valor Médio Retomemos o Exemplo 61 para ilustrar algumas propriedades da média de uma va Exemplo 67 Suponha que todos os preços determinados pelo empresário do Exemplo 61 estivessem errados Na realidade todos os valores deveriam ser duplicados isto é custos e preços de venda Isso corresponde à transformação Z 2X As probabilidades associadas à va X serão as mesmas da va X pois cada valor de X irá corresponder a um único valor de Z Na Tabela 69 temos a distribuição de Z O valor médio da va Z é obtido por EZ ziPzi 2xipxi 1970 Suponha agora que queremos a distribuição da va W X² Baseados na Tabela 63 obtemos a Tabela 610 Tabela 69 Distribuição da variável aleatória Z 2X x z 2x pz px z pz 15 30 056 1680 10 20 023 460 5 10 002 020 5 10 019 190 Total 100 1970 Tabela 610 Distribuição da variável aleatória W X² w pw w pw 225 056 12600 100 023 2300 25 021 525 Total 100 15425 Observe que o evento W 25 ocorre quando X 5 ou X 5 portanto PW 25 PX 5 PX 5 002 019 021 Seguese que a média de W é EW wpwi 225056 100023 25021 225056 100023 25002 25019 xi²pxi 15425 Quanto às esperanças de Z e W transformadas de X é fácil ver que elas podem ser escritas através da fp de X Fx 0 se x 5 019 se 5 x 5 021 se 5 x 10 044 se 10 x 15 1 se x 15 cujo gráfico está na Figura 68 140 C A P Í T U L O 6 V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S 13 Um vendedor de equipamento pesado pode visitar num dia um ou dois clientes com probabilidade de 13 ou 23 respectivamente De cada contato pode resultar a venda de um equipamento por 5000000 com probabilidade 110 ou nenhuma venda com pro babilidade 910 Indicando por Y o valor total de vendas diárias desse vendedor escreva a função de probabilidade de Y e calcule o valor total esperado de vendas diárias 14 Calcule a variância da va Y definida no Problema 13 15 Obter a fda para a va V do Problema 11 Faça seu gráfico 16 Calcule a fda da va Y do Problema 10 e faça seu gráfico 17 O tempo T em minutos necessário para um operário processar certa peça é uma va com a seguinte distribuição de probabilidade t 2 3 4 5 6 7 pt 01 01 03 02 02 01 a Calcule o tempo médio de processamento Para cada peça processada o operário ganha um fixo de 200 mas se ele processa a peça em menos de seis minutos ganha 050 em cada minuto poupado Por exem plo se ele processa a peça em quatro minutos recebe a quantia adicional de 100 b Encontre a distribuição a média e a variância da va G quantia em ganha por peça 18 Sabese que a va X assume os valores 1 2 e 3 e que sua fda Fx é tal que F1 F1 13 F2 F2 16 F3 F3 12 Obtenha a distribuição de X a fda Fx e os gráficos respectivos 19 Obtenha a fda Ft da va T do Problema 17 66 Alguns Modelos Probabilísticos para Variáveis Aleatórias Discretas Algumas variáveis aleatórias adaptamse muito bem a uma série de problemas práticos Portanto um estudo pormenorizado dessas variáveis é de grande importân cia para a construção de modelos probabilísticos para situações reais e a conseqüente estimação de seus parâmetros Para algumas dessas distribuições existem tabelas que facilitam o cálculo de probabilidades em função de seus parâmetros Nesta seção iremos estudar alguns desses modelos procurando enfatizar as condições em que eles aparecem suas funções de probabilidade parâmetros e como calcular probabilidades 661 Distribuição Uniforme Discreta Este é o caso mais simples de va discreta em que cada valor possível ocorre com a mesma probabilidade CAP06dP65 2192009 1322 140 Ava discreta X assumindo os valores x₁ xₖ tem distribuição uniforme se e somente se PX xᵢ pxᵢ 1k para todo i 1 2 k É fácil verificar que EX 1k i1k xᵢ 662 Distribuição de Bernoulli Muitos experimentos são tais que os resultados apresentam ou não uma determinação característica Por exemplo 1 uma moeda é lançada o resultado ou é cara ou não ocorrendo então coroa 2 um dado é lançado ou ocorre face 5 ou não ocorrendo então uma das faces 1 2 3 4 ou 6 3 uma peça é escolhida ao acaso de um lote contendo 500 peças essa peça é defeituosa ou não 4 uma pessoa escolhida ao acaso dentro 1000 é ou não do sexo masculino 5 uma pessoa é escolhida ao acaso entre os moradores de uma cidade e verificase se ela é favorável ou não a um projeto municipal Em todos esses casos estamos interessados na ocorrência de sucesso cara face 5 etc ou fracasso coroa face diferente de 5 etc Essa terminologia sucesso e fracasso será usada frequentemente Para cada experimento acima podemos definir uma va X que assume apenas dois valores 1 se ocorrer sucesso e 0 se ocorrer fracasso Indicaremos por p a probabilidade de sucesso isto é Psucesso PS p 0 p 1 Definição A variável aleatória X que assume apenas os valores 0 e 1 com função de probabilidade x px tal que p0 PX 0 1 p p1 PX 1 p é chamada variável aleatória de Bernoulli Então seguese facilmente que EX p 612 VarX p p² p1 p 613 Fx 0 se x 0 1 p se 0 x 1 1 se x 1 Na Figura 610 temos representadas as fp e fda de X Figura 610 Distribuição de Bernoulli a fp b fda Exemplo 611 Vamos supor o caso do experimento 2 Supondo o dado perfeito teremos PX 0 56 PX 1 16 EX 16 VarX 16 56 536 Observação Experimentos que resultam numa va de Bernoulli são chamados ensaios de Bernoulli Usaremos a notação X Berp para indicar uma va com distribuição de Bernoulli com parâmetro p 663 Distribuição Binomial Imagine agora que repetimos um ensaio de Bernoulli n vezes ou de maneira alternativa obtemos uma amostra de tamanho n de uma distribuição de Bernoulli Suponha ainda que as repetições sejam independentes isto é o resultado de um ensaio não tem influência nenhuma no resultado de qualquer outro ensaio Uma amostra particular será constituída de uma sequência de sucessos e fracassos ou alternativamente de uns e zeros Por exemplo repetindo um ensaio de Bernoulli cinco vezes n 5 um particular resultado pode ser FSSFS ou a quintúplica ordenada 0 1 1 0 1 Usando a notação da seção 662 com PS p a probabilidade de tal amostra será 1 ppp1 pp p³1 p² 144 C A P Í T U L O 6 V A R I Á V E I S A L E A T Ó R I A S D I S C R E T A S 3 dez peças são extraídas ao acaso com reposição de um lote contendo 500 peças qual é a probabilidade de que todas sejam defeituosas sabendose que 10 das peças do lote são defeituosas 4 cinco pessoas são escolhidas ao acaso entre 1000 qual é a probabilidade de que duas sejam do sexo masculino 5 sabese que 90 das pessoas de uma cidade são favoráveis a um projeto mu nicipal Escolhendose 100 pessoas ao acaso entre os moradores qual é a probabilidade de que pelo menos 80 sejam favoráveis ao projeto Observe que nos casos 4 e 5 o fato de estarmos extraindo indivíduos de um conjunto muito grande implica que podemos supor que as extrações sejam praticamen te independentes Exemplo 612 Consideremos a situação 1 supondo que a moeda seja honesta isto é Psucesso Pcara 12 Indiquemos o sucesso cara por S e fracasso co roa por F Então estamos interessados na probabilidade do evento A SSF SFS FSS ou em termos da notação anterior na probabilidade de A 1 1 0 1 0 1 0 1 1 É claro que PA PSSF PSFS PFSS e devido à independência dos ensaios PSSF 1 1 1 PSFS PFSS 2 2 2 e portanto PA 3 8 Se a probabilidade de sucesso for p 0 p 1 e PF 1 p q então PSSF p p q p2 q PSFS PFSS de modo que PA 3p2q Uma característica interessante dos experimentos considerados é que estamos in teressados apenas no número total de sucessos e não na ordem em que eles ocorrem Podemos construir a Tabela 612 para n 3 lançamentos da moeda com PS p PF 1 p q a partir da Figura 611 CAP06dP65 2192009 1322 144 Obtivemos agora PX k ou seja numa sequência de n ensaios de Bernoulli a probabilidade de obter k sucessos e portanto n k fracassos k 0 1 2 n com PS p PF 1 p q Uma particular sequência é SSSS SFF F onde temos k sucessos seguidos por n k fracassos A probabilidade de tal sequência é pk1 pnk pkqnk devido à independência dos ensaios Mas qualquer sequência com k sucessos e n k fracassos terá a mesma probabilidade 614 Portanto resta saber quantas sequências com a propriedade especificada podemos formar É fácil ver que existem tais sequências de modo que PX k n k pk qnk k 0 1 n 66 ALGUNS MODELOS PROBABILÍSTICOS PARA VARIÁVEIS ALEATÓRIAS DISCRETAS 145 Figura 611 Probabilidades binomiais para n 3 e PS p Tabela 612 Probabilidades binomiais para n 3 e PS p Número de sucessos Probabilidades p 12 0 q3 18 1 3pq2 38 2 3p2q 38 3 p3 18 Fonte Figura 611 Vamos designar por X o número total de sucessos em n ensaios de Bernoulli com probabilidade de sucesso p 0 p 1 Os possíveis valores de X são 0 1 2 n e os pares x px onde px PX x constituem a chamada distribuição binomial Para o exemplo 1 acima n 3 e p 12 obtemos a distribuição dada pela primeira e terceira colunas da Tabela 612 e o gráfico da Figura 612 Figura 612 Gráfico da fp px para n 3 e p 12 CAP06dP65 2192009 1322 145 por tabelas especialmente construídas para diferentes valores de n e p A Tabela I fornece essas probabilidades para valores de n 2 3 19 e alguns valores de p itens e determinamos k Somente para ilustrar suponha que num lote de N 100 peças r 10 sejam defeituosas Escolhendo n 5 peças sem reposição a probabilidade de não se obter peças defeituosas é Exemplo 616 Consideremos aproximar b2 1000 00001 usando 623 Temos que np 01 logo b2 1000 00001 e0101²2 00045 Por exemplo PN 0 0025 e PN 2 0169 Podese ver que PN 19 é muito pequena menor do que 10⁶ Seguese que λ 5 e PN 0 50⁰e⁵0 e⁵ 00067 Se considerarmos ocorrências de eventos em intervalos de tempo de comprimento t no lugar de intervalo unitário de tempo basta ajustar o parâmetro λ na fórmula 624 Vejamos um exemplo a Calcule a proporção média de machos b Calcule para cada valor de X o número de ninhadas que você deve esperar se X b5 p onde p é a proporção média de machos calculada em a 26 Se X tem distribuição binomial com parâmetros n 5 e p 12 faça os gráficos da distribuição de X e da fda Fx 27 Considere agora n 5 e p 14 Obtenha o gráfico da distribuição de X Qual a diferença entre esse gráfico e o correspondente do Problema 26 O que ocasionou a diferença 28 Refaca o Problema 26 com n 6 e p 12 67 O Processo de Poisson No Exemplo 617 acima vimos uma aplicação importante da distribuição de Poisson ao problema da desintegração radioativa Lá tratamos da emissão de partículas alfa em intervalos de 75 segundos Ou seja estamos contando o número de ocorrências de um evento ao longo do tempo Na realidade consideramos o que se chama um processo estocástico Designandose por Nt o número de partículas emitidas no intervalo 0 t obtemos o que se chama de processo de Poisson para todo t 0 Nesta seção iremos partir de algumas suposições que consideramos plausíveis sobre tal processo e mostrar que a distribuição da variável aleatória N para cada t 0 é dada pela fórmula 625 As suposições que iremos admitir como válidas são as seguintes S1 N0 0 ou seja o processo começa no instante zero com probabilidade um PN0 0 1 S2 Os números de eventos em intervalos de tempo disjuntos são va independentes Considere 0 t t s Nt como antes e Nts Nt o número de eventos no intervalo t t s Então estamos supondo que as va Nt e Nts Nt são independentes Dizemos que o processo tem incrementos independentes S3 Considere os intervalos 0 t e s s t de mesmo comprimento t e as va Nt como antes e Mt número de eventos no intervalo s s t Então para todo s 0 as va Nt e Mt têm a mesma distribuição de probabilidades Ou seja a distribuição do número de eventos ocorridos num intervalo depende somente do comprimento do intervalo e não de sua localização Dizemos que o processo tem incrementos estacionários S4 Para h suficientemente pequeno PNh 1 λh com λ 0 constante Ou seja num intervalo pequeno a probabilidade de ocorrência de um evento é proporcional ao comprimento do intervalo S5 Para h como em S4 PNh 2 0 Isso nos diz que a probabilidade de se ter dois ou mais eventos num intervalo suficientemente pequeno é desprezível Considere o intervalo 0 t e o divida em subintervalos de comprimento tn como na Figura 613 Chamemos de Y a va que dá os números de subintervalos com um evento Então Y é uma va com distribuição binomial de parâmetros n número total de subintervalos e p P um evento λtn λtn Para n grande usando a aproximação da seção anterior temos que essa variável pode ser aproximada por uma va com distribuição de Poisson com parâmetro np nλtn λt Note que aqui usamos as suposições S2 cada subintervalo contém um evento independentemente dos demais intervalos e S3 com a mesma probabilidade Pela suposição S5 a probabilidade de que cada subintervalo contenha dois ou mais eventos tende a zero quando n cresce Logo Nt é uma va com distribuição de Poisson com parâmetro λt Uma prova um pouco mais rigorosa usando derivadas pode ser dada Veja Meyer 1965 68 Quantis No Capítulo 3 estudamos os quantis associados a um conjunto de dados Esses podem ser chamados de quantis empíricos pois podemos agora considerar quantis associados à distribuição de uma va discreta os quais poderíamos denominar quantis teóricos Definição O valor Qp satisfeito PX Qp p e PX Qp 1 p 626 para 0 p 1 é chamado o pquantil de X A interpretação do pquantil é similar à que foi dada no caso de um conjunto de dados Qp é o valor tal que a soma das probabilidades dos valores menores do que ele é p Então por que não definilo por meio de FQp PX Qp p onde Fx é a fda de X A resposta será dada acompanhando os exemplos a seguir Para determinados valores de p teremos como antes denominações especiais Por exemplo Q1 Q025 primeiro quartil Q2 Q05 mediana ou segundo quartil Q3 Q075 terceiro quartil Vejamos o caso da mediana Q05 Md Por 626 devemos ter PX Md 05 e PX Md 05 Figura 615 fda da va Y 6 1 0 P R O B L E M A S E C O M P L E M E N T O S 157 Quadro 62 Probabilidades de Poisson geradas pelo Minitab MTB PDF MTB CDF SUBC Poisson 52 SUBC Poisson 52 Probability Density Function Cumulative Distribution Function Poisson with mu 520000 Poisson with mu 520000 x PX x x PX x x PX x x PX x 0 00055 9 00423 0 00055 9 09603 1 00287 10 00220 1 00342 10 09823 2 00746 11 00104 2 01088 11 09927 3 01293 12 00045 3 02381 12 09972 4 01681 13 00018 4 04061 13 09990 5 01748 14 00007 5 05809 14 09997 6 01515 15 00002 6 07324 15 09999 7 01125 16 00001 7 08449 16 10000 8 00731 17 00000 8 09181 Na planilha Excel podem ser usadas funções específicas dentro da categoria Estatís tica Por exemplo para cálculos com a distribuição binomial usar a função DISTRBINOM para a distribuição de Poisson usar a função POISSON 610 Problemas e Complementos 29 Um florista faz estoque de uma flor de curta duração que lhe custa 050 e que ele vende a 150 no primeiro dia em que a flor está na loja Toda flor que não é vendida nesse primeiro dia não serve mais e é jogada fora Seja X a variável aleatória que denota o número de flores que os fregueses compram em um dia casualmente escolhido O florista descobriu que a função de probabilidade de X é dada pela tabela abaixo x 0 1 2 3 px 01 04 03 02 Quantas flores deveria o florista ter em estoque a fim de maximizar a média valor esperado do seu lucro 30 As cinco primeiras repetições de um experimento custam 1000 cada Todas as repetições subseqüentes custam 500 cada Suponha que o experimento seja repetido até que o primeiro sucesso ocorra Se a probabilidade de sucesso de uma repetição é igual a 09 e se as repetições são independentes qual é o custo esperado da operação 31 Na manufatura de certo artigo é sabido que um entre dez dos artigos é defeituoso Qual a probabilidade de que uma amostra casual de tamanho quatro contenha a nenhum defeituoso b exatamente um defeituoso c exatamente dois defeituosos d não mais do que dois defeituosos CAP06dP65 2192009 1322 157 69 Exemplos Computacionais 6 1 0 P R O B L E M A S E C O M P L E M E N T O S 159 No de acidentes por hora No de horas 0 200 1 152 2 60 3 30 4 13 5 9 6 7 7 5 8 4 a Calcule o número médio de acidentes por hora nessa amostra b Se o número de acidentes por hora seguisse uma distribuição de Poisson com média igual à que você calculou qual seria o número esperado de dias com 0 1 2 etc acidentes c Os dados revelam que a suspeita dos operários é verdadeira 37 Determinado tipo de parafuso é vendido em caixas com 1000 peças É uma característica da fabricação produzir 10 com defeito Normalmente cada caixa é vendida por 1350 Um comprador faz a seguinte proposta de cada caixa ele escolhe uma amostra de 20 peças se a caixa não tiver parafusos defeituosos ele paga 2000 um ou dois defeituo sos ele paga 1000 três ou mais defeituosos ele paga 800 Qual alternativa é a mais vantajosa para o fabricante Justifique 38 Uma certa região florestal foi dividida em 109 quadrados para estudar a distribuição de Primula Simenses Selvagem A priori supomos que esse tipo distribuase aleatoriamente na região O quadro abaixo indica o número de quadrados com X Primula Simenses o número médio de plantas por quadrado foi de 22 X plantas No de quadrados por quadrado com X plantas 0 26 1 21 2 23 3 14 4 11 5 4 6 5 7 4 8 1 acima de 8 0 a Se as plantas realmente se distribuem aleatoriamente na região qual a probabilidade de encontrarmos pelo menos duas Primulas b Dê as freqüências esperadas para os valores de X 0 X 1 e X 2 c Apenas comparando os resultados de b com as freqüências observadas qual a conclusão a que você chegaria d Quais as causas que você daria para a conclusão CAP06dP65 2192009 1322 159 Usando programas e planilhas computacionais é possível gerar probabilidades e probabilidades acumuladas para os modelos mais importantes discutidos neste capítulo No sistema abaixo cada componente tem probabilidade p de funcionar Supondo independência de funcionamento dos componentes qual a probabilidade de a o sistema funcionar b o sistema não funcionar c exatamente dois componentes funcionarem d pelo menos cinco componentes funcionarem Prove que bk 1 n p n kp k 11 p bk n p 71 Introdução Neste capítulo iremos estudar modelos probabilísticos para variáveis aleatórias con tínuas ou seja variáveis para as quais os possíveis valores pertencem a um intervalo de números reais A definição dada no capítulo anterior para va discreta deve ser modificada como segue Definição Uma função X definida sobre o espaço amostral Ω e assumindo valores num intervalo de números reais é dita uma variável aleatória contínua No Capítulo 2 vimos alguns exemplos de variáveis contínuas como o salário de indivíduos alturas etc A característica principal de uma va contínua é que sendo resultado de uma mensuração o seu valor pode ser pensado como pertencendo a um intervalo ao redor do valor efetivamente observado Por exemplo quando dizemos que a altura de uma pessoa é 175 cm estamos medindo sua altura usando cm como unidade de medida e portanto o valor observado é na realidade um valor entre 1745 cm e 1755 cm Vejamos um exemplo para motivar a discussão que se segue Exemplo 71 O ponteiro dos segundos de um relógio mecânico pode parar a qualquer instante devido a algum defeito técnico ou término da bateria e vamos indicar por X o ângulo que esse ponteiro forma com o eixo imaginário passando pelo centro do mostrador e pelo número XII conforme mostra a Figura 71 Tabela 71 Distribuição uniforme discreta x 0 6 12 18 348 354 px 160 160 160 160 160 160 Capítulo 7 Variáveis Aleatórias Contínuas cap07bp65 2192009 1330 163 Use o problema anterior para verificar as relações entre a EeX e eEX b Elog X e logEX para X 0 c E1X e 1EX para X 0 pois essa probabilidade sempre será igual a zero Entretanto podemos determinar a probabilidade de que X esteja compreendido entre dois valores quaisquer Podemos construir modelos teóricos para variáveis aleatórias contínuas escolhendo adequadamente as funções densidade de probabilidade Teoricamente qualquer função f que seja não negativa e cuja área total sob a curva seja igual à unidade caracterizará uma va contínua 1 Dada a função fx 2e2x x 0 0 x 0 a Mostre que esta é uma fdp b Calcule a probabilidade de X 10 da variável pertencer ao intervalo limitado pelos dois valores Usando o conceito de integral podemos escrever Pa X b b a fxdx EYn ni1 xi pi ni1 xi fxh que será uma aproximação da esperança EX Para determinar EX com maior precisão podemos aumentar o número de intervalos diminuindo sua amplitude h No limite quando h 0 teremos o valor de EX Definamos pois EX limn EYn limn ni1 xi fxh EX b a x fxdx Exemplo 76 Retomemos o Exemplo 72 Temos Fx 0 se x 0 0x 2dt x2 se 0 x 1 0 2dt 1 se x 1 O gráfico de Fx está na Figura 77 De 79 vemos que 0 Fx 1 para todo x real além disso Fx é nãodecrescente e possui as duas seguintes propriedades i limx Fx 0 ii limx Fx 1 No Exemplo 76 temos efetivamente Fx 0 para x 0 e Fx 1 para x 1 Para va contínuas o seguinte resultado é importante Proposição 71 Para todos os valores de x para os quais Fx é derivável temos Fx dFxdx fx Vamos usar esse resultado no exemplo a seguir Exemplo 77 Suponha que Fx 0 se x 0 1 ex se x 0 seja a fda de uma va X Então fx 0 se x 0 ex se x 0 Na Figura 78 temos os gráficos dessas duas funções Veremos que fx é um caso especial da densidade exponencial a ser estudada na seção 743 Se a e b forem dois números reais quaisquer Pa X b Fb Fa Esse resultado não será afetado se incluirmos ou não os extremos a e b na desigualdade entre parênteses Problemas 5 Calcule a esperança a variância e a fda da va X do Problema 2 6 Determine a esperança e a variância da va cuja fdp é fx sen x 0 x π2 0 caso contrário 7 Calcule a média da va X do Problema 4 8 A va contínua X tem fdp fx 3x² 1 x 0 0 caso contrário 9 Certa liga é formada pela mistura fundida de dois metais A liga resultante contém certa porcentagem de chumbo X que pode ser considerada uma va com fdp fx 35 105 x100 x 0 x 100 Suponha que L o lucro líquido obtido da venda dessa liga por unidade de peso seja dado por L C₁ C₂X Calcule EL o lucro esperado por unidade 10 A demanda diária de arroz num supermercado em centenas de quilos é uma va com fdp fx 2x3 se 0 x 1 33 1 se 1 x 3 0 se x 0 ou x 3 11 Suponha que X tenha fdp fx do Problema 1 Calcule EX e VarX 12 Seja X com densidade fx c1 x² se 1 x 1 0 caso contrário Calcule a média e a variância de X 74 Alguns Modelos Probabilísticos para Variáveis Aleatórias Contínuas 741 O Modelo Uniforme O modelo uniforme é uma generalização do modelo estudado no Exemplo 71 e é o modelo mais simples para va contínuas a Definição A va X tem distribuição uniforme no intervalo α β se sua fdp é dada por fx α β 1 β α se α x β 0 caso contrário 712 b Gráfico A Figura 79 representa a função dada por 712 c Momentos Podese mostrar veja o Problema 29 que EX α β 2 VarX β α² 12 d Fda A função de distribuição acumulada da uniforme é fácil de ser encontrada veja o Problema 29 Fx PX x fxdx 0 se x α x α β α se α x β 1 se x β 715 cujo gráfico está na Figura 710 Assim para dois valores quaisquer c e d c d teremos Pc X d Fd Fc que é obtida facilmente de 715 Usaremos a notação X Uα β para indicar que a va X tem distribuição uniforme no intervalo α β Exemplo 78 Um caso particular bastante interessante é aquele em que α 12 e β 12 Indicando essa va por U temos fu 1 se 12 u 12 0 caso contrário Nessa situação temos que EU 0 VarU 112 e a fda é dada por Fuu 0 se u 12 u 12 se 12 u 12 1 se u 12 Por exemplo P14 U 14 Fu14 Fu14 12 Se quiséssemos facilitar o nosso trabalho poderíamos tabelar os valores da fda para essa variável U Devido à simetria da área em relação a x 0 poderíamos construir uma tabela indicando a função Gu tal que Gu P0 U u para alguns valores de u veja o Problema 30 Dada uma va uniforme X qualquer com parâmetros α e β podemos definir a va U como U X β α 2 β α 716 Seguese que a transformação 716 leva uma uniforme no intervalo α β numa uniforme no intervalo 12 12 e para dois números quaisquer c e d com c d Para simplificar a notação denotaremos a densidade da normal simplesmente por fx e escreveremos simbolicamente X Nµ σ² Quando µ 0 e σ² 1 temos uma distribuição padrão ou reduzida ou brevemente N01 Para essa a função densidade reduzse a φz 12π ez²2 z O gráfico da normal padrão está na Figura 712 Se X Nµ σ² então a va definida por Z X µσ terá média zero e variância 1 prove esses fatos O que não é tão fácil mostrar é que Z também tem distribuição normal Isso não será feito aqui A transformação 722 é fundamental para calcularmos probabilidades relativas a uma distribuição normal qualquer d Fda A Fy de uma va normal X com média µ e variância σ² é obtida integrandose 717 de até y ou seja Fy y fx µ σ²dx y ℝ 723 A integral 723 corresponde à área sob fx desde até y como ilustra a Figura 713 No caso específico da normal padrão utilizamos a seguinte notação que é universal Φy φzdz 12π ez²2 dz 724 O gráfico de Φz é ilustrado na Figura 714 Suponha então que X Nµ σ² e que queiramos calcular Pa X b a fxdx onde fx é dada por 717 Ver Figura 715 A integral 725 não pode ser calculada analiticamente e portanto a probabilidade indicada só poderá ser obtida aproximadamente por meio de integração numérica No entanto para cada valor de µ e cada valor de σ teríamos de obter Pa X b para diversos valores de a e b Essa tarefa é facilitada através do uso de 722 de sorte que somente é necessário construir uma tabela para a distribuição normal padrão Vejamos então como obter probabilidades a partir da Tabela III Essa tabela dá as probabilidades sob uma curva normal padrão que nada mais são do que as correspondentes áreas sob a curva A Figura 716 ilustra a probabilidade fornecida pela tabela a saber P0 Z zc onde Z N01 Calculemos mais algumas probabilidades Figura 717 a P173 Z 0 P0 Z 173 04582 devido à simetria da curva b PZ 173 05 P0 Z 173 05 04582 00418 pois PZ 0 05 PZ 0 c PZ 173 PZ 173 00418 d P047 Z 173 P0 Z 173 P0 Z 047 04582 01808 02774 Figura 717 Ilustração do cálculo de probabilidades para a N01 Suponha agora que X seja uma va Nµ σ² com µ 3 e σ² 16 e queiramos calcular P2 X 5 Utilizando 722 temos P2 X 5 P2 µ σ Z 5 µ σ P2 34 Z 5 34 P14 Z 12 Portanto a probabilidade de que X esteja entre 2 e 5 é igual à probabilidade de que Z esteja entre 025 e 05 Figura 718 Utilizando a Tabela III vemos que P025 Z 05 00987 01915 02902 ou seja P2 X 5 02902 Exemplo 79 Os depósitos efetuados no Banco da Ribeira durante o mês de janeiro são distribuídos normalmente com média de 1000000 e desvio padrão de 150000 Um depósito é selecionado ao acaso dentre todos os referentes ao mês em questão Encontrar a probabilidade de que o depósito seja a 1000000 ou menos b pelo menos 1000000 c um valor entre 1200000 e 1500000 d maior do que 2000000 Temos que µ 10000 e σ 1500 Seja X depósito a PX 10000 PZ 10000 10000 1500 PZ 0 05 b PX 10000 PZ 0 05 c P12000 X 15000 P12000 10000 1500 Z 15000 10000 1500 P43 Z 103 P133 Z 333 009133 d PX 20000 PZ 20000 10000 1500 PZ 667 0 743 O Modelo Exponencial Outra distribuição importante e que tem aplicações em confiabilidade de sistemas assunto de que já tratamos brevemente no Capítulo 5 é a exponencial a Definição A va T tem distribuição exponencial com parâmetro β 0 se sua fdp tem a forma ft β 1 β etβ se t 0 0 se t 0 726 Escreveremos brevemente T Expβ b Gráfico O gráfico de ft β ft está ilustrado na Figura 78 b com β 1 c Momentos Usando integração por partes podese demonstrar que veja o Problema 41 ET β VarT β² Exemplo 710 O tempo de vida em horas de um transistor pode ser considerado uma va com distribuição exponencial com β 500 Seguese que a vida média do transistor é ET 500 horas e a probabilidade de que ele dure mais do que a média é PT 500 500 ftdt 1500 500 et500 dt 1500 500et500500 e1 03678 d Fda Usando a definição 710 obtemos Ft 0 se t 0 1 etβ se t 0 729 O gráfico de Ft está na Figura 78 a com β 1 75 Aproximação Normal à Binomial Suponha que a va Y tenha uma distribuição binomial com parâmetros n 10 e p 12 e queiramos calcular PY 7 Embora seja uma va discreta vimos no Capítulo 2 que é possível representála por meio de um histograma como na Figura 719 Vemos que PY 7 é igual à área do retângulo de base unitária e altura igual a PY 7 semelhantemente para PY 8 etc Logo PY 7 é igual à soma das áreas dos retângulos hachurados na Figura 719 Figura 720 Aproximação de PY 7 pela área sob a N5 25 Figura 721 Aproximação de P3 Y 6 Figura 722 Função de uma va Denotando a densidade de Y por gy e como fx 0 para 0 x 1 gy 0 para 4 y 7 Notemos que se podem obter probabilidades relativas a Y a partir da densidade de X Por exemplo PY 1 P3X 4 1 PX 1 1 Vejamos como se pode obter gy Denotemos por Gy a função de distribuição acumulada de Y Da seção 73 sabemos que Gy gy para todo valor de y para o qual G for derivável Então temos Gy PY y P3X 4 y PX y 43 Fy 43 onde estamos denotando por F a função de distribuição acumulada de X Usando a regra da cadeia para derivadas temos Gy Fy 43 13 13 fy 43 do que decorre gy 2y 49 se 4 y 7 0 caso contrário Exemplo 712 Suponha agora que X tenha densidade fx 3x²2 1 x 1 e que Y ex Seguese que hx ex é uma função decrescente e x lny Figura 723 b Então Gy PY y PeX y PX lny 1 PX lny 1 Flny 81 Distribuição Conjunta Em muitas situações ao descrevermos os resultados de um experimento atribuímos a um mesmo ponto amostral os valores de duas ou mais variáveis aleatórias Neste capí tulo iremos nos concentrar no estudo de um par de variáveis aleatórias indicando que os conceitos e resultados apresentados estendemse facilmente a um conjunto finito de variáveis aleatórias Um tratamento mais completo é dado ao caso de variáveis discretas nas seções 81 a 84 Exemplo 81 Suponha que estamos interessados em estudar a composição de famílias com três crianças quanto ao sexo Definamos X número de meninos 1 se o primeiro filho for homem Y 0 se o primeiro filho for mulher Z número de vezes em que houve variação do sexo entre um nascimento e outro dentro da mesma família Com essas informações e supondo que as possíveis composições tenham a mes ma probabilidade obtemos a Tabela 81 onde por exemplo o evento HMH indica que o primeiro filho é homem o segundo mulher e o terceiro homem As distribuições de probabilidades das va X Y e Z podem ser obtidas dessa tabela e são dadas na Tabela 82 Capítulo 8 Variáveis Aleatórias Multidimensionais cap08cP65 2192009 1338 203 8 1 D I S T R I B U I Ç Ã O C O N J U N T A 205 Aqui px y z PX x Y y Z z Vamos nos fixar nas distribuições bidimensionais isto é nas distribuições conjuntas de duas variáveis Nesse caso uma maneira mais cômoda de representar a distribuição conjunta é por meio de tabelas de duplas entradas como na Tabela 85 onde temos representada a mesma distribuição de X e Y dada antes na Tabela 83 Tabela 85 Distribuição conjunta de X e Y como uma tabela de dupla entrada Y X 0 1 2 3 py 0 18 28 18 0 12 1 0 18 28 18 12 px 18 38 38 18 1 A representação gráfica de variáveis aleatórias bidimensionais X Y exige gráfi cos com três eixos um para a va X outro para a va Y e um terceiro eixo z para a probabilidade conjunta px y A Figura 81 representa a distribuição conjunta resumida na Tabela 85 A dificuldade em desenhar e interpretar tais gráficos nos leva muitas vezes a evitar o uso desse recurso tão valioso Figura 81 Representação gráfica da va X Y da Tabela 85 z px y 0375 0250 0125 1 y 1 0 2 3 x Uma tentativa de representar distribuições de probabilidades discretas em duas dimensões é o gráfico de curvas de níveis Esse é o mesmo recurso utilizado em mapas geográficos sobre relevos indicandose por meio de linhas as cotas alturas de mes ma intensidade em uma região Curvas de níveis podem ser usadas também em mapas meteorológicos de marés etc Embora tais mapas sejam usados principalmente para variáveis contínuas vamos exemplificar abaixo sua construção para os dados da Tabela 85 Notamos que existem valores apenas para as probabilidades 0 18 28 e 38 e cada um deles define um conjunto de pontos Por exemplo correspondendo à probabilidade 18 temos o conjunto de pontos 0 0 1 1 2 0 e 3 1 Na Figura 82 b representamos esses pontos que corresponderiam à curva de nível para a cota 18 De modo análogo traçaríamos as demais curvas de níveis A Figura 82 e reunindo todos os resultados seria equivalente à Figura 81 Assim os cap08cP65 2192009 1338 205 206 CAPÍTULO 8 VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS pontos representados por formariam a curva de nível da cota 18 os pontos representados por formariam a curva de nível com cota probabilidade 28 e assim por diante Esse recurso é mais bem visualizado para variáveis contínuas como na Figura 817 Figura 82 Curvas de níveis para a Tabela 85 a px y 0 b px y 18 c px y 28 d todas as cotas 82 Distribuições Marginais e Condicionais Da Tabela 85 podemos obter facilmente as distribuições de X e Y A primeira e última colunas da tabela dão a distribuição de Y y py enquanto a primeira e última linhas da tabela dão a distribuição de X x px Essas distribuições são chamadas distribuições marginais Observamos por exemplo que PX 1 PX 1 Y 0 PX 1 Y 1 28 18 38 e PY 0 PX 0 Y 0 PX 1 Y 0 PX 2 Y 0 PX 3 Y 0 18 28 18 0 12 Portanto para obter as probabilidades marginais basta somar linhas e colunas Quando estudamos os aspectos descritivos das distribuições com mais de uma variá vel vimos que às vezes é conveniente calcular proporções em relação a uma linha ou coluna e não em relação ao total Isso é equivalente aqui ao conceito de distribuição condicional Por exemplo qual seria a distribuição do número de meninos sabendose que o primeiro filho é do sexo masculino Ou seja queremos calcular a probabilidade PX xY 1 Da definição de probabilidade condicional obtemos PX xY 1 PX x Y 1 pxY 1 81 PY 1 para x 0 1 2 3 Pela Tabela 85 obtemos por exemplo cap08cP65 2192009 1338 206 8 3 F U N Ç Õ E S D E V A R I Á V E I S A L E A T Ó R I A S 213 4 No Problema 2 obtenha as distribuições de X Y e de XY Calcule EX Y EXY VarX Y VarXY 5 a No Problema 3 calcule EX Y e VarX Y b Se Z aX bY calcule a e b de modo que EZ 10 e VarZ 600 6 Dois tetraedros dados com quatro faces com as faces numeradas de um a quatro são lançados e os números das faces voltadas para baixo são anotados Sejam as va X maior dos números observados Y menor dos números observados Z X Y a Construa a tabela da distribuição conjunta de X e Y b Determine as médias e as variâncias de X Y e Z 7 Numa urna têmse cinco tiras de papel numeradas 1 3 5 5 7 Uma tira é sorteada e recolocada na urna então uma segunda tira é sorteada Sejam X1 e X2 o primeiro e o segundo números sorteados a Determine a distribuição conjunta de X1 e X2 b Obtenha as distribuições marginais de X1 e X2 Elas são independentes c Encontre a média e a variância de X1 X2 e X X1 X22 d Como seriam as respostas anteriores se a primeira tira de papel não fosse devolvida à urna antes da segunda extração 8 Numa urna têmse cinco bolas marcadas com os seguintes números 1 0 0 0 1 Retiramse três bolas simultaneamente X indica a soma dos números extraídos e Y o maior valor da trinca Calcule a Função de probabilidade de X Y b EX e VarX c VarX Y 9 Dada a distribuição conjunta de X e Y abaixo determine a média e a variância de a X Y b X Y Y X 1 2 3 1 527 127 327 2 427 327 427 3 227 327 227 10 Suponha que X e Y tenham a seguinte distribuição conjunta Y X 1 2 3 1 01 01 00 2 01 02 03 3 01 01 00 Problemas cap08cP65 2192009 1338 213 8 4 C O V A R I Â N C I A E N T R E D U A S V A R I Á V E I S A L E A T Ó R I A S 215 Tabela 812 Distribuição conjunta para o Exemplo 87 Y X 0 1 2 py 1 320 320 220 820 2 120 120 220 420 3 420 120 320 820 px 820 520 720 100 Temos que EX 0 8 1 5 2 7 095 20 20 20 EY 1 8 2 4 3 8 200 20 20 20 EXY 0 3 1 3 2 2 0 1 2 1 20 20 20 20 20 4 2 0 4 3 1 6 3 190 20 20 20 20 do que obtemos CovX Y 190 0 95200 0 Portanto as va X e Y desse exemplo são nãocorrelacionadas Exemplo 88 Retomemos o Exemplo 83 para o qual vimos que Y e Z são indepen dentes É fácil ver que EZ 1 e EY 12 Da Tabela 88 obtemos que EYZ 12 do que decorre que a covariância entre Y e Z é zero De modo geral se X e Y forem independentes então 89 é válida logo por 814 temos que CovX Y 0 Vamos destacar esse fato por meio da Proposição 81 Se X e Y são duas variáveis aleatórias independentes então CovX Y 0 Em outras palavras se X e Y forem independentes então elas serão não correlacionadas A recíproca não é verdadeira isto é se tivermos CovX Y 0 isso não implica que X e Y sejam independentes De fato para as va do Exemplo 87 a covariância entre X e Y é zero mas X e Y não são independentes como podemos facilmente verificar Podemos agora demonstrar o Teorema 83 a Para duas va X e Y quaisquer temos VarX Y VarX VarY 2CovX Y 815 cap08cP65 2192009 1338 215 218 CAPÍTULO 8 VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS Na Figura 83a ao lado dos pontos 1 0 e 2 1 colocamos o número 2 para mostrar que esses pares têm probabilidades 28 ao passo que os demais têm probabilidades 18 Exemplo 812 O diagrama de dispersão das va Y e Z do Exemplo 82 está ilustrado na Figura 84 Lembremos que nesse caso Y e Z são independentes Figura 84 Diagrama de dispersão para as va Y e Z do Exemplo 82 Exemplo 813 Na Figura 85 temos o diagrama de dispersão das variáveis X e W do Exemplo 810 Observe que nesse caso existe uma relação linear perfeita entre as duas variáveis Figura 85 Diagrama de dispersão para as va X e W do Exemplo 810 11 Para as va X e Y do Problema 2 e usando os resultados do Problema 4 calcule CovX Y e ρX Y 12 Considere a situação do Problema 10 do Capítulo 6 a Obtenha as distribuições de X Y e X Y b Calcule EXY EXY e EX Y c Verifique se X e Y são independentes Problemas cap08cP65 2192009 1338 218 8 4 C O V A R I Â N C I A E N T R E D U A S V A R I Á V E I S A L E A T Ó R I A S 219 d Verifique se EXY EX EY O que você pode concluir e Verifique se EXY EXEY f Calcule VarX Y É verdade que VarX Y VarX VarY 13 Sejam X e Y com a distribuição conjunta da tabela abaixo Mostre que CovX Y 0 mas X e Y não são independentes Y X 1 0 1 1 0 14 0 0 14 0 14 1 0 14 0 14 Lançamse dois dados perfeitos X indica o número obtido no primeiro dado e Y o maior ou o número comum nos dois dados a Escreva por meio de uma tabela de dupla entrada a distribuição conjunta de X e Y b As duas variáveis são independentes Por quê c Calcule as esperanças e variâncias de X e Y d Calcule a covariância entre X e Y e Calcule EX Y f Calcule VarX Y 15 Uma moeda perfeita é lançada três vezes Sejam X número de caras nos dois primeiros lançamentos Y número de caras no terceiro lançamento e S número total de caras a Usando a distribuição conjunta de X Y verifique se X e Y são independentes Qual é a covariância entre elas b Calcule a média e a variância das três variáveis definidas c Existe alguma relação entre os parâmetros encontrados em b Por quê 16 Depois de um tratamento seis operários submeteramse a um teste e mais tarde mediuse a produtividade de cada um deles A partir dos resultados apresentados na tabela ao lado calcule o coeficiente de correlação entre a nota do teste e a produtividade Operário Teste Produtividade 1 9 22 2 17 34 3 20 29 4 19 33 5 20 42 6 23 32 17 O exemplo a seguir ilustra que ρ 0 não implica independência Suponha que X Y tenha distribuição conjunta dada pela tabela abaixo a Mostre que EXY EX EY donde ρ 0 b Justifique por que X e Y não são independentes cap08cP65 2192009 1338 219 9 1 I N T R O D U Ç Ã O 235 91 Introdução Nos capítulos anteriores aprendemos a construir alguns modelos probabilísticos simples que são úteis para representar situações reais ou então para descrever um experimento aleató rio Notamos também que se especificarmos um espaço amostral e probabilidades asso ciadas aos pontos desse espaço o modelo probabilístico ficará completamente determinado e poderemos então calcular a probabilidade de qualquer evento aleatório de interesse Muitas vezes mesmo construindo um modelo probabilístico certas questões não podem ser resolvidas analiticamente e teremos de recorrer a estudos de simulação para obter aproxi mações de quantidades de interesse De modo bastante amplo estudos de simulação tentam reproduzir num ambiente controlado o que se passa com um problema real Para nossos propósitos a solução de um problema real consistirá na simulação de variáveis aleatórias A simulação de variáveis aleatórias deu origem aos chamados métodos Monte Carlo MMC que por sua vez supõem que o pesquisador disponha de um gerador de números aleatórios equiprováveis Um número aleatório NA representa o valor de uma variável aleatória uni formemente distribuída no intervalo 0 1 Originalmente esses números aleatórios eram gerados manualmente ou mecanicamente usando dados roletas etc Modernamente usa mos computadores para gerar números que na realidade são pseudoaleatórios Para nossos propósitos uma simulação pode ser entendida como uma particular realização do modelo binomial normal etc Nesse sentido os valores simulados po dem ser considerados como uma amostra como veremos nos capítulos seguintes Esse entendimento será útil para estudar as distribuições de estimadores e suas propriedades O nome Monte Carlo está relacionado com a cidade de mesmo nome no Principado de Mônaco principalmente devido à roleta que é um mecanismo simples para gerar números aleatórios Os MMC apareceram durante a Segunda Guerra Mundial em pesquisas relacio nadas à difusão aleatória de neutrons num material radioativo Os trabalhos pioneiros de vemse a Ulam Metropolis Fermi e von Neumann por volta de 19481949 Alguns traba lhos que podem ser consultados são os artigos de Metropolis e Ulam 1949 e von Neumann 1951 e os livros de Sóbol 1976 Hammersley e Handscomb 1964 e Ross 1997 Capítulo 9 Noções de Simulação cap09cp65 2192009 1343 235 236 C A P Í T U L O 9 N O Ç Õ E S D E S I M U L A Ç Ã O Para ilustrar suponha que se queira calcular a área da figura F contida no quadrado Q de lado unitário Figura 91 Suponha que sejamos capazes de gerar pontos aleatórios em Q de modo homogêneo isto é de modo a cobrir toda a área do quadrado ou ainda que esses pontos sejam uniformemente distribuídos sobre Q Se gerarmos N pontos suponha que N desses caiam em F Então poderemos aproximar a área de F por NN No caso da figura uma estimativa da área é 24200 pois geramos 200 pontos em Q e 24 estão dentro de F Quanto mais pontos gerarmos melhor será a aproximação Note que o problema em si não tem nenhuma componente aleatória queremos calcular a área de uma figura plana Mas para resolver o problema uma possível maneira foi considerar um mecanismo aleatório Esse procedimento pode ser utilizado em muitas situações Vejamos algumas maneiras de obter um número aleatório Figura 91 Área de uma figura por simulação Exemplo 91 Lance uma moeda três vezes e atribua o valor 1 se ocorrer cara e o valor 0 se ocorrer coroa Os resultados possíveis são as seqüências ou números binários abaixo 000 001 010 011 100 101 110 111 Cada um desses números binários corresponde a um número decimal Por exem plo 1112 710 pois 1112 1 22 1 21 1 20 o índice indica a base em que o número está sendo expresso Veja Morettin et alli 2005 Considere a representação decimal de cada seqüência acima e divida o resultado por 23 1 7 Obteremos os números aleatórios 0 17 27 1 Observe que você poderá eventualmente consi derar a seqüência 111 menos aleatória do que 010 digamos Mas qualquer uma das oito seqüências anteriores tem a mesma probabilidade a saber 123 18 Suponha agora que você lance a moeda dez vezes Teremos números binários com dez dígitos e cada um terá probabilidade 1210 11024 Assim a seqüência 1 1 1 1 1 1 1 1 1 1 cap09cp65 2192009 1343 236 9 1 I N T R O D U Ç Ã O 237 formada por dez uns parece menos aleatória do que a seqüência 1 0 1 0 1 0 1 0 1 0 formada por cinco pares de dez que por sua vez parece menos aleatória do que a seqüência 0 1 1 0 1 1 1 0 0 1 que requer uma descrição mais elaborada No entanto todas elas têm a mesma proba bilidade de ocorrer no experimento acima Intuitivamente a aleatoriedade de uma seqüência está ligada à dificuldade de descrevêla em palavras como fizemos acima Para esse caso de dez lançamentos procederíamos como no caso de três lança mentos dividindo os 1024 números decimais obtidos por 210 1 1023 para obter 1024 NA entre 0 e 1 De modo geral lançandose a moeda n vezes teremos 2n possi bilidades e os NA finais são obtidos por meio de divisão por 2n 1 Exemplo 92 Números aleatórios também podem ser gerados usandose uma roleta como a da Figura 92 com dez setores numerados 0 1 2 9 Gire a roleta dez vezes e anote os números obtidos numa coluna Faça a mesma coisa mais duas vezes de modo a obter algo como Figura 92 Roleta com dez setores 6 1 0 9 4 4 5 0 4 5 1 0 2 5 4 6 3 9 1 2 9 3 8 0 2 2 6 0 7 9 Agora divida cada número em cada linha por 1000 para obter os NA 0610 0944 0504 0510 0254 0639 0129 0380 0226 0079 Para obter NA com quatro casas decimais basta girar a roleta quatro vezes Na realidade os números acima foram obtidos de uma tabela de números aleatórios como aquela da Tabela VII No exemplo iniciamos no canto superior esquerdo e tomamos as três primeiras colunas com dez dígitos cada Tabelas de números ale atórios são construídas por meio de mecanismos como o que descrevemos O pro blema que enfrentamos muitas vezes é o de gerar uma quantidade muito grande de números aleatórios da ordem de 1000 ou 10000 O procedimento de simulação manual usando uma tabela de números aleatórios pode se tornar muito trabalhoso ou mesmo impraticável cap09cp65 2192009 1343 237 238 C A P Í T U L O 9 N O Ç Õ E S D E S I M U L A Ç Ã O A solução alternativa é substituir a simulação manual por simulação por meio de computadores utilizando números pseudoaleatórios em vez de números aleatórios Os números pseudoaleatórios NPA são obtidos por meio de técnicas que usam relações matemáticas recursivas determinísticas Logo um NPA gerado numa iteração dependerá do número gerado na iteração anterior e portanto não será realmente aleató rio originando o nome pseudoaleatório Há vários métodos para gerar NPA Um dos primeiros formulado pelo matemático John von Neumann é chamado o método de quadrados centrais veja o Problema 18 Um método bastante utilizado em pacotes computacionais é o método congruencial discutido nos Problemas 1 e 2 Os diversos pacotes aplicativos estatísticos ou não utilizam métodos como o congruencial para implementar subrotinas de geração de NPA Como exemplos de pa cotes citamos o NAG Numerical Algorithm Group atualmente incorporado ao pacote MATLAB e o IMSL O pacote estatístico Minitab usa os comandos Random e Uniform para gerar NPA Exemplo 93 Temos no Quadro 91 um exemplo de geração de dez NA O comando Random 10 C1 seguido de Uniform 01 pede para gerar dez NA e guardálos na coluna C1 Quadro 91 Geração de números aleatórios Minitab MTB RANDOM 10 C1 SUBC UNIFORM 0 1 C1 1 0590042 2 0859332 3 0021023 4 0340748 5 0673675 6 0558276 7 0911412 8 0775391 9 0867138 10 0865328 O pacote SPlus usa o comando runifn min max onde n é o número de valores a gerar e min max é o intervalo no qual se quer gerar os NPA No nosso caso min 0 e max 1 Exemplo 94 O comando u runif1001 pede para gerar dez NA e guardálos no vetor u O comando u imprime os dez valores Veja o Quadro 92 cap09cp65 2192009 1343 238 9 1 I N T R O D U Ç Ã O 239 Quadro 92 Geração de números aleatórios SPlus u runif 10 0 1 u 1 06931500 08586156 01494293 02947197 03474523 07571899 03016043 03051952 9 09135144 07996542 A planilha Excel usa a função ALEATÓRIO para gerar NA ou então Geração de números aleatórios escolhendo a opção Análise de Dados do menu Ferramentas Exemplo 95 O Quadro 93 mostra na coluna A o resultado de gerar 20 NA usando o Excel Foi utilizada a opção Uniforme 01 Quadro 93 Geração de números aleatórios Excel A B C D E F G 1 0382 0 5 1 077423 1 2 2 0100681 1 4 1 091015 2 9 3 0596484 1 3 0 012675 3 10 4 0899106 1 4 4 143943 4 6 5 088461 1 6 0 1192723 5 7 6 0958464 1 5 1 089864 6 7 0014496 0 6 1 064207 7 8 0407422 1 6 0 116122 8 9 0863247 0 3 0 047886 9 10 0138585 1 5 3 0832001 10 11 0245033 1 1 1001472 12 0045473 0 0 061513 13 003238 0 2 1896733 14 0164129 1 3 125248 15 0219611 0 1 1308572 16 001709 2 128498 17 0285043 1 0357816 18 0343089 0 01679 19 0553636 2 1580393 20 0357372 1 0994548 1 Vejamos o significado da expressão x mod m na qual x e m são inteiros nãonegativos O resultado de tal operação é o resto da divisão de x por m Ou seja se x mq r então x mod m z r Por exemplo 13 mod 4 1 Encontre 18 mod 5 e 360 mod 100 2 O método congruencial No chamado método congruencial multiplicativo de gerar NPA come çamos com um valor inicial n0 chamado semente e geramos sucessivos valores n1 n2 por meio da relação Problemas cap09cp65 2192009 1343 239 9 4 E X E M P L O S C O M P U T A C I O N A I S 249 Figura 98 Histogramas de distribuições simuladas no Exemplo 914 SPlus Tabela 92 Opções de Distribuições Contínuas Distribuição Excel Par Minitab Par SPlus Par Normal Normal 0 1 Normal μ σ norm μ σ Exponencial Exponential β exp β t Student T ν t ν F Snedecor F ν1 ν2 f ν1 ν2 Gama Gamma α β gamma α β QuiQuadrado Chisquare ν chisq ν beta Betaα β beta α β Vejamos agora alguns exemplos para vas contínuas Exemplo 915 Usando o pacote Minitab geramos a 10 valores de uma N0 1 b 20 valores de uma Exp2 c 15 valores de uma χ25 Os comandos e respectivos valores simulados estão mostrados no Quadro 97 cap09cp65 2192009 1343 249 9 4 E X E M P L O S C O M P U T A C I O N A I S 251 Figura 99 Histogramas de algumas distribuições geradas no Exemplo 916 Na planilha Excel a normal pode ser gerada por meio da opção normal no menu Ferramentas Análise de Dados Geração de números aleatórios ou pela função ALEATÓRIO e a fórmula INV NORM ALEATÓRIO μ σ Exemplo 917 A coluna E do Quadro 93 traz 20 valores gerados de uma N0 1 usando a ferramenta GNA cap09cp65 2192009 1343 251 9 5 P R O B L E M A S E C O M P L E M E N T O S 257 33 A altura X das pessoas segue aproximadamente uma curva normal com média μ e variância σ 2 a Proponha dois valores realísticos para μ e σ e gere 10 alturas de uma população de homens Calcule a média e o desvio padrão desta população b Com os mesmos parâmetros gere uma outra amostra de 10 alturas Olhando e ana lisando as duas amostras elas parecem vir de populações distintas c Gere uma amostra de 10 alturas de uma população feminina Compare com a amostra obtida em a e diga se é possível afirmar que as duas amostras vêm de populações distintas d Como você acha que os parâmetros influenciam para diferenciar bem as amostras Dê exemplos cap09cp65 2192009 1343 257 Parte 3 Parte 3 Capítulo 10 261 Introdução à Inferência Estatística Capítulo 11 296 Estimação Capítulo 12 330 Testes de Hipóteses Capítulo 13 361 Inferência para Duas Populações Capítulo 14 399 Análise de Aderência e Associação Capítulo 15 420 Inferência para Várias Populações Capítulo 16 449 Regressão Linear Simples I N F E R Ê N C I A E S T A T Í S T I C A cap10dp65 2192009 1349 259 101 Introdução Vimos na Parte 1 como resumir descritivamente variáveis associadas a um ou mais conjuntos de dados Na Parte 2 construímos modelos teóricos probabilísticos identifica dos por parâmetros capazes de representar adequadamente o comportamento de algumas variáveis Nesta terceira parte apresentaremos os argumentos estatísticos para fazer afirma ções sobre as características de uma população com base em informações dadas por amostras O uso de informações de uma amostra para concluir sobre o todo faz parte da atividade diária da maioria das pessoas Basta observar como uma cozinheira verifica se o prato que ela está preparando tem ou não a quantidade adequada de sal Ou ainda quando um comprador após experimentar um pedaço de laranja numa banca de feira decide se vai comprar ou não as laranjas Essas são decisões baseadas em procedimentos amostrais Nosso objetivo nos capítulos seguintes é procurar dar a conceituação formal a esses princípios intuitivos do diaadia para que possam ser utilizados cientificamente em situações mais complexas 102 População e Amostra Nos capítulos anteriores tomamos conhecimento de alguns modelos probabilísticos que procuram medir a variabilidade de fenômenos casuais de acordo com suas ocor rências as distribuições de probabilidades de variáveis aleatórias qualitativas ou quan titativas Na prática freqüentemente o pesquisador tem alguma idéia sobre a forma da distribuição mas não dos valores exatos dos parâmetros que a especificam Por exemplo parece razoável supor que a distribuição das alturas dos brasileiros adul tos possa ser representada por um modelo normal embora as alturas não possam assumir valores negativos Mas essa afirmação não é suficiente para determinar qual a distribuição normal correspondente precisaríamos conhecer os parâmetros média e variância des sa normal para que ela ficasse completamente especificada O propósito do pesquisador seria então descobrir estimar os parâmetros da distribuição para sua posterior utilização Capítulo 10 Introdução à Inferência Estatística cap10dp65 2192009 1349 261 1 0 2 P O P U L A Ç Ã O E A M O S T R A 263 salários na amostra e esperamos que esta reflita a distribuição de todos os salários desde que a amostra tenha sido escolhida com cuidado Exemplo 102 Queremos estudar a proporção de indivíduos na cidade A que são favoráveis a certo projeto governamental Uma amostra de 200 pessoas é sorteada e a opinião de cada uma é registrada como sendo a favor ou contra o projeto A população consiste de todos os moradores da cidade e a amostra é formada pelas 200 pessoas selecionadas Podemos como foi visto no Capítulo 5 definir a variável X que toma o valor 1 se a resposta de um morador for favorável e o valor 0 se a resposta for contrária ao projeto Assim nossa população pode ser reduzida à distribuição de X e a amostra será constituída de uma seqüência de 200 zeros e uns Exemplo 103 O interesse é investigar a duração de vida de um novo tipo de lâmpada pois acreditamos que ela tenha uma duração maior do que as fabricadas atualmente Então 100 lâmpadas do novo tipo são deixadas acesas até queimarem A duração em horas de cada lâmpada é registrada Aqui a variável é a duração em horas de cada lâmpada A população é formada por todas as lâmpadas fabricadas ou que venham a ser fabricadas por essa empresa com o mesmo processo A amostra é formada pelas 100 lâmpadas selecionadas Notese que nesse caso não podemos observar a população ou seja a distribuição da duração de vida das lâmpadas na população pois isso corresponderia a queimar todas as lâmpadas Assim em alguns casos não podemos observar a popula ção toda pois isso significaria danificar ou destruir todos os elementos da população Esse problema geralmente é contornado atribuindose um modelo teórico para a distri buição da variável populacional Exemplo 104 Em alguns casos fazemos suposições mais precisas sobre a população ou sobre a variável definida para os elementos da população Digamos que X represen te o peso real de pacotes de café enchidos automaticamente por uma máquina Sabese que a distribuição de X pode ser representada por uma normal com parâmetros μ e σ 2 desconhecidos Sorteamos 100 pacotes e medimos seus pesos A população será o con junto de todos os pacotes enchidos ou que virão a ser enchidos pela máquina e que pode ser suposta como normal A amostra será formada pelas 100 medidas obtidas dos pacotes selecionados que pode ser pensada como constituída de 100 observações feitas de uma distribuição normal Veremos mais adiante como tal amostra pode ser obtida Exemplo 105 Para investigar a honestidade de uma moeda nós a lançamos 50 vezes e contamos o número de caras observadas A população como no caso do Exemplo 102 pode ser considerada como tendo a distribuição da variável X assumindo o valor 1 com probabilidade p se ocorrer cara e assumindo o valor 0 com probabilidade 1 p se ocorrer coroa Ou seja a população pode ser considerada como tendo distribuição de Bernoulli com parâmetro p A variável ficará completamente especificada quando co nhecermos p A amostra será uma seqüência de 50 números zeros ou uns cap10dp65 2192009 1349 263 1 0 4 C O M O S E L E C I O N A R U M A A M O S T R A 267 104 Como Selecionar uma Amostra As observações contidas em uma amostra são tanto mais informativas sobre a popula ção quanto mais conhecimento explícito ou implícito tivermos dessa mesma população Por exemplo a análise da quantidade de glóbulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente dará uma idéia geral da quantidade dos glóbulos brancos no corpo todo pois sabese que a distribuição dos glóbulos brancos é homogê nea e de qualquer lugar que se tivesse retirado a amostra ela seria representativa Mas nem sempre a escolha de uma amostra adequada é imediata Por exemplo voltando ao Exemplo 102 para o qual queríamos obter uma amostra de habitantes para saber a opi nião sobre um projeto governamental escolhendo intencionalmente uma amostra de 200 indivíduos moradores de certa região beneficiada pelo projeto saberemos de antemão que o resultado conterá um viés de seleção Isto é na amostra a proporção de pessoas favoráveis ao projeto deverá ser maior do que no todo donde a importância da adoção de procedimentos científicos que permitam fazer inferências adequadas sobre a população A maneira de se obter a amostra é tão importante e existem tantos modos de fazêlo que esses procedimentos constituem especialidades dentro da Estatística sendo Amostragem e Planejamento de Experimentos as duas mais conhecidas Poderíamos dividir os procedi mentos científicos de obtenção de dados amostrais em três grandes grupos a Levantamentos Amostrais nos quais a amostra é obtida de uma população bem definida por meio de processos bem protocolados e controlados pelo pesquisador Podemos ainda subdividilos em dois subgrupos levantamentos probabilísticos e nãoprobabilísticos O primeiro reúne todas aquelas técnicas que usam mecanismos aleatórios de seleção dos elementos de uma amostra atribuindo a cada um deles uma probabilidade conhecida a priori de pertencer à amostra No segundo grupo estão os demais procedimentos tais como amostras intencionais nas quais os elementos são selecionados com o auxílio de especialistas e amostras de voluntários como ocorre em alguns testes sobre novos medi camentos e vacinas Ambos os procedimentos têm suas vantagens e desvantagens A grande vantagem das amostras probabilísticas é medir a precisão da amostra obtida baseandose no resultado contido na própria amostra Tais medidas já são bem mais difíceis para os procedimentos do segundo grupo Estão nessa situação os Exemplos 101 conhecer os salários da Cia MB 102 identificar a proporção de indivíduos favoráveis ao projeto 104 pesos dos pacotes de café etc bPlanejamento de Experimentos cujo principal objetivo é o de analisar o efeito de uma variável sobre outra Requer portanto interferências do pesquisador sobre o ambiente em estudo população bem como o controle de fatores externos com o intuito de medir o efeito desejado Podemos citar como exemplos aquele já citado sobre a altura de um produto na gôndola de um supermercado afetar as vendas e o Exemplo 106 Em ensaios clínicos em medicina esse tipo de estudo é bastante usado como por exemplo para testar se um novo medicamento é eficaz ou não para curar certa doença c Levantamentos Observacionais aqui os dados são coletados sem que o pesquisador tenha controle sobre as informações obtidas exceto eventualmente sobre possíveis cap10dp65 2192009 1349 267 268 CAPÍTULO 10 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA erros grosseiros As séries de dados temporais são exemplos típicos desses levanta mentos Por exemplo queremos prever as vendas de uma empresa em função de ven das passadas O pesquisador não pode selecionar dados esses são as vendas efetiva mente ocorridas Nesses casos a especificação de um modelo desempenha um papel crucial na ligação entre dados e população No caso de uma série temporal o modelo subjacente é o de processo estocástico pode mos pensar que a série efetivamente observada é uma das infinitas possíveis realizações desse processo A população hipotética aqui seria o conjunto de todas essas realizações e a série observada seria a amostra Veja Morettin e Toloi 2006 para mais informações Neste livro iremos nos concentrar principalmente em levantamentos amostrais e mais ainda num caso simples de amostragem probabilística a amostragem aleatória simples com reposição a ser designada por AAS O leitor poderá consultar Bussab e Bolfarine 2005 para obter mais detalhes sobre outros procedimentos amostrais Um breve resumo sobre alguns planos é dado no Problema 37 Noções sobre planejamento de experimentos podem ser vistas em Peres e Saldiva 1982 1 Dê sua opinião sobre os tipos de problemas que surgiriam nos seguintes planos amostrais a Para investigar a proporção dos operários de uma fábrica favoráveis à mudança do início das atividades das 7h para as 7h30 decidiuse entrevistar os 30 primeiros ope rários que chegassem à fábrica na quartafeira b Mesmo procedimento só que o objetivo é estimar a altura média dos operários c Para estimar a porcentagem média da receita municipal investida em lazer enviaram se questionários a todas as prefeituras e a amostra foi formada pelas prefeituras que enviaram as respostas d Para verificar o fato de oferecer brindes nas vendas de sabão em pó tomaramse quatro supermercados na zona sul e quatro na zona norte de uma cidade Nas quatro lojas da zona sul o produto era vendido com brinde enquanto nas outras quatro era vendido sem brinde No fim do mês compararamse as vendas da zona sul com as da zona norte 2 Refazer o Problema 7 do Capítulo 8 105 Amostragem Aleatória Simples A amostragem aleatória simples é a maneira mais fácil para selecionarmos uma amos tra probabilística de uma população Além disso o conhecimento adquirido com esse procedimento servirá de base para o aprendizado e desenvolvimento de outros procedi mentos amostrais planejamento de experimentos estudos observacionais etc Comece mos introduzindo o conceito de AAS de uma população finita para a qual temos uma listagem de todas as N unidades elementares Podemos obter uma amostra nessas condi ções escrevendo cada elemento da população num cartão misturandoos numa urna e sorteando tantos cartões quantos desejarmos na amostra Esse procedimento tornase inviável quando a população é muito grande Nesse caso usase um processo alternativo Problemas cap10dp65 2192009 1349 268 1 0 5 A M O S T R A G E M A L E A T Ó R I A S I M P L E S 269 no qual os elementos são numerados e em seguida sorteados por meio de uma tabela de números aleatórios veja a sua utilização em Problemas e Complementos ou por meio do uso de computadores que podem gerar números aleatórios veja o Capítulo 9 Utilizandose um procedimento aleatório sorteiase um elemento da população sendo que todos os elementos têm a mesma probabilidade de ser selecionados Repe tese o procedimento até que sejam sorteadas as n unidades da amostra Podemos ter uma AAS com reposição se for permitido que uma unidade possa ser sorteada mais de uma vez e sem reposição se a unidade sorteada for removida da população Do ponto de vista da quantidade de informação contida na amostra amostrar sem reposição é mais adequado Contudo a amostragem com reposição conduz a um tra tamento teórico mais simples pois ela implica que tenhamos independência entre as unidades selecionadas Essa independência facilita o desenvolvimento das proprieda des dos estimadores que serão considerados Portanto para o restante do livro o plano amostral considerado será o de amostragem aleatória simples com reposição que denotaremos simplesmente por AAS Vejamos com algum detalhe o significado mais preciso de uma amostra Exemplo 107 Considere o Problema 2 acima em que colhemos todas as amostras possí veis de tamanho 2 com reposição da população 1 3 5 5 7 Defina a variável X valor assumido pelo elemento na população Então a distribuição de X é dada pela Tabela 101 Tabela 101 Distribuição da va X para o Problema 2 x 1 3 5 7 PX x 15 15 25 15 Indicando por X1 o número selecionado na primeira extração e por X2 o número selecionado na segunda extração vimos que era possível escrever a distribuição con junta do par X1 X2 Veja também a Tabela 102 Além disso as distribuições margi nais de X1 e X2 são independentes e iguais à distribuição de X Desse modo cada uma das 25 possíveis amostras de tamanho 2 que podemos extrair dessa população corresponde a observar uma particular realização da va X1 X2 com X1 e X2 indepen dentes e PX1 x PX2 x PX x para todo x Essa é a caracterização de amostra casual simples que iremos usar neste livro Definição Uma amostra aleatória simples de tamanho n de uma variável aleatória X com dada distribuição é o conjunto de n variáveis aleatórias independentes X1 X2 Xn cada uma com a mesma distribuição de X Ou seja a amostra será a nupla ordenada X1 X2 Xn onde Xi indica a observação do iésimo elemento sorteado cap10dp65 2192009 1349 269 274 CAPÍTULO 10 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Vejamos alguns exemplos simples para aclarar um pouco mais o conceito de distri buição amostral de uma estatística Nosso principal objetivo é identificar um modelo que explique bem a distribuição amostral de T É evidente que a distribuição de T irá depender da distribuição de X e do plano amostral em nosso caso reduzido a AAS Exemplo 109 Voltemos ao Exemplo 107 no qual selecionamos todas as amostras de tamanho 2 com reposição da população 1 3 5 5 7 A distribuição conjunta da variável bidimensional X1 X2 é dada na Tabela 102 Vejamos qual é a distribuição da estatística X X1 X2 101 2 Essa distribuição é obtida por meio da Tabela 102 Por exemplo quando a amos tra selecionada é o par 1 1 a média será 1 então temos que PX 1 125 Obte remos a média igual a 3 quando ocorrer o evento A 1 53 35 1 logo PX 3 PA 2 1 2 5 1 25 25 25 25 5 Tabela 102 Distribuição das probabilidades das possíveis amostras de tamanho 2 que podem ser selecionadas com reposição da população 1 3 5 5 7 X2 X1 1 3 5 7 Total 1 125 125 225 125 15 3 125 125 225 125 15 5 225 225 425 225 25 7 125 125 225 125 15 Total 15 15 25 15 1 Procedendo de maneira análoga para os demais valores queX pode assumir obtemos a Tabela 103 que dá a distribuição da vaX Na Figura 102 temos as distribuições de X e deX Tabela 103 Distribuição amostral da estatísticaX x 1 2 3 4 5 6 7 Total PX x 125 225 525 625 625 425 125 100 cap10dp65 2192009 1349 274 278 CAPÍTULO 10 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Teorema 101 Seja X uma va com média μ e variância σ 2 e seja X1 Xn uma AAS de X Então EX μ e VarX σ 2 n Prova Pelas propriedades vistas no Capítulo 8 temos EX 1n EX1 EXn 1n μ μ μ nμn μ De modo análogo e pelo fato de X1 Xn serem independentes temos VarX 1n2 VarX1 VarXn 1n2 σ 2 σ 2 nσ 2n2 σ 2n Determinamos então a média e a variância da distribuição amostral deX Veja mos agora como obter informação sobre a forma da distribuição dessa estatística Exemplo 1010 continuação Para a população 1 3 5 5 7 vamos construir os histogramas das distribuições deX para n 1 2 e 3 i Para n 1 vemos que a distribuição deX coincide com a distribuição de X com EX EX 42 e VarX VarX 416 Figura 104a Figura 104 Distribuição deX para amostras de 1 3 5 5 7 cap10dp65 2192009 1349 278 valor esperado de x barra variavel de x barra a quantidade da população dividido pelo tamanho da amostra n a medida que n vai aumentando a variancia diminui 1 0 8 D I S T R I B U I Ç Ã O A M O S T R A L D A M É D I A 279 ii Para n 2 baseados na Tabela 103 temos a distribuição deX dada na Figura 104b com EX 42 e VarX 208 iii Finalmente para n 3 com os dados da Tabela 106 temos a distribuição deX na Figura 104 c com EX 42 e VarX 139 Observe que conforme n vai aumentando o histograma tende a se concentrar cada vez mais em torno de EX EX 42 já que a variância vai diminuindo Os casos extremos passam a ter pequena probabilidade de ocorrência Quando n for suficiente mente grande o histograma alisado aproximase de uma distribuição normal Essa apro ximação pode ser verificada analisandose os gráficos da Figura 105 que mostram o comportamento do histograma deX para várias formas da distribuição da população e vários valores do tamanho da amostra n Esses exemplos sugerem que quando o tamanho da amostra aumenta indepen dentemente da forma da distribuição da população a distribuição amostral deX apro ximase cada vez mais de uma distribuição normal Esse resultado fundamental na teoria da Inferência Estatística é conhecido como Teorema Limite Central TLC Figura 105 Histogramas correspondentes às distribuições amostrais deX para amostras extraídas de algumas populações Teorema 102 TLC Para amostras aleatórias simples X1 Xn retiradas de uma população com média μ e variância σ 2 finita a distribuição amostral da médiaX apro ximase para n grande de uma distribuição normal com média μ e variância σ 2n cap10dp65 2192009 1349 279 284 CAPÍTULO 10 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA que difere de S2 apenas no denominador e que foi estudado no Capítulo 3 Desta tabela obtemos as distribuições amostrais apresentadas nas Tabelas 107 108 e 109 Tabela 106 Distribuição amostral de algumas estatísticas obtidas de amostra de tamanho n 3 retiradas da população 1 3 5 5 7 μ 42 σ 2 416 e Md 5 Tipo de Freqüência Soma Soma dos Média Mediana Variância amostra prob 125 quadrados x md s2 σ2 111 1 3 3 100 1 0 0 113 3 5 11 167 1 43 89 115 6 7 27 233 1 163 329 117 3 9 51 300 1 12 8 133 3 7 19 233 3 43 89 135 12 9 35 300 3 4 83 137 6 11 59 367 3 283 569 155 12 11 51 367 5 163 329 157 12 13 75 433 5 283 569 177 3 15 99 500 7 12 8 333 1 9 27 300 3 0 0 335 6 11 43 367 3 43 89 337 3 13 67 433 3 163 329 355 12 13 59 433 5 43 89 357 12 15 83 500 5 4 83 377 3 17 107 567 7 163 329 555 8 15 75 500 5 0 0 557 12 17 99 567 5 43 89 577 6 19 123 633 7 43 89 777 1 21 147 700 7 0 0 Total 125 Tabela 107 Distribuição amostral da variância S 2 para amostras de tamanho 3 retiradas da população 1 3 5 5 7 s2 000 133 400 533 933 1200 PS 2 s2 11125 42125 24125 24125 18125 6125 ES2 416 VarS2 1128 Tabela 108 Distribuição amostral da mediana da amostra md para amos tras de tamanho 3 retiradas da população 1 3 5 5 7 md 1 3 5 7 Prob 13125 31125 68125 13125 Emd 430 Varmd 254 cap10dp65 2192009 1349 284 1 0 1 0 O U T R A S D I S T R I B U I Ç Õ E S A M O S T R A I S 285 Tabela 109 Distribuição amostral da variância σ 2 para amostras de tamanho 3 retiradas da população 1 3 5 5 7 σ 2 000 089 267 356 622 800 Prob 11125 42125 24125 24125 18125 6125 Eσ 2 277 Varσ 2 504 Os gráficos das funções de probabilidade estão nas Figuras 106 107 e 108 A obtenção das propriedades dessas estatísticas de modo geral não é uma tarefa fácil e os modelos de probabilidade resultantes correspondem a distribuições mais complexas Figura 106 Distribuição amostral de S2 para amostras de tamanho n 3 extraídas de 1 3 5 5 7 Figura 107 Distribuição amostral de md para amostras de tamanho n 3 de 1 3 5 5 7 cap10dp65 2192009 1349 285 290 CAPÍTULO 10 INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Exemplo 1016 O SPlus usa o comando samplexn para gerar uma amostra sem reposição de tamanho n do conjunto x e o comando samplexnreplaceT para gerar uma amostra com reposição O Quadro 101 mostra como obter amostras de tamanho n 7 do conjunto x 1 2 3 15 sem e com reposição Quadro 101 Geração de amostras SPlus xc 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 sample x 7 1 6 7 4 2 3 10 5 sample x 7 replaceT 1 12 14 11 10 15 4 11 Exemplo 1017 O Minitab usa os comandos Sample e Replace para obter amostras Temos no Quadro 102 amostras de tamanho n 5 obtidas do conjunto 1 2 10 na coluna C1 Na coluna C2 temos uma amostra sem reposição e na coluna C3 uma amostra com reposição Quadro 102 Geração de amostras Minitab C1 C2 C3 1 1 10 8 2 2 1 3 3 3 8 8 MTB Sample 5 C1 C2 4 4 2 6 MTB 5 5 7 4 MTB Sample 5 C1 C3 6 6 SUBC Replace 7 7 MTB 8 8 9 9 10 10 1013 Problemas e Complementos 21 Uma va X tem distribuição normal com média 10 e desvio padrão 4 Aos participantes de um jogo é permitido observar uma amostra de qualquer tamanho e calcular a média amostral Ganha um prêmio aquele cuja média amostral for maior que 12 a Se um participante escolher uma amostra de tamanho 16 qual é a probabilidade de ele ganhar um prêmio b Escolha um tamanho de amostra diferente de 16 para participar do jogo Qual é a probabilidade de você ganhar um prêmio c Baseado nos resultados acima qual o melhor tamanho de amostra para participar do jogo cap10dp65 2192009 1349 290 C A P Í T U L O 1 1 E S T I M A Ç Ã O 296 111 Primeiras Idéias Vimos que a Inferência Estatística tem por objetivo fazer generalizações sobre uma população com base nos dados de uma amostra Salientamos que dois proble mas básicos nesse processo são a estimação de parâmetros e b teste de hipóteses sobre parâmetros Lembremos que parâmetros são funções de valores populacionais enquanto esta tísticas são funções de valores amostrais O problema do teste de hipóteses sobre parâmetros de uma população será tratado no Capítulo 12 Neste capítulo iremos discutir as idéias básicas sobre estimação Para ilustrar consideremos o exemplo seguinte Exemplo 111 Uma amostra de n 500 pessoas de uma cidade é escolhida e a cada pessoa da amostra é feita uma pergunta a respeito de um problema municipal para o qual foi apresentada uma solução pela prefeitura A resposta à pergunta poderá ser SIM favorável à solução ou NÃO contrária à solução Desejase estimar a propor ção de pessoas na cidade favoráveis à solução apresentada Se 300 pessoas responderam SIM à pergunta então uma estimativa natural para essa proporção seria 300500 ou 60 Nossa resposta é baseada na suposição de que a amos tra é representativa da população Sabemos também que outra amostra poderia levar a outra estimativa Conhecer as propriedades desses estimadores é um dos propósitos mais importantes da Inferência Estatística Vejamos o que pode ser feito nesse caso particular Definamos as va X1 Xn tais que 1 se a iésima pessoa na amostra responder SIM Xi 0 se a iésima pessoa na amostra responder NÃO e seja p P sucesso onde aqui sucesso significa resposta SIM à questão formulada Capítulo 11 Estimação cap11cp65 2192009 1405 296 C A P Í T U L O 1 1 E S T I M A Ç Ã O 298 Figura 111 Resultados de 15 tiros dados por 4 rifles Desse modo podemos descrever cada arma da seguinte maneira Arma A nãoviesada pouco acurada e baixa precisão Arma B viesada pouco acurada e baixa precisão Arma C nãoviesada muito acurada e boa precisão Arma D viesada pouco acurada e alta precisão Do exposto acima notamos a importância de se definir propriedades desejáveis para estimadores Trataremos desse assunto na próxima seção Outro problema que aparece em inferência é como obter um estimador de determinado parâmetro Nem sempre temos uma sugestão para um estimador como no caso da proporção no Exem plo 111 Nas seções 113 114 e 115 trataremos de três desses métodos 112 Propriedades de Estimadores Inicialmente vejamos a questão da estimação de um modo mais geral Considere mos uma amostra X1 X2 Xn de uma va que descreve uma característica de inte resse de uma população Seja θ um parâmetro que desejamos estimar como por exem plo a média μ EX ou a variância σ 2 VarX Definição Um estimador T do parâmetro θ é qualquer função das observações da amostra ou seja T gX1 Xn Notemos que segundo essa definição um estimador é o que chamamos antes de estatística porém associandoo a um parâmetro populacional cap11dp65 2592009 1605 298 C A P Í T U L O 1 1 E S T I M A Ç Ã O 312 Escolhida uma amostra e encontrada sua médiax0 e admitindose σ x conhecido podemos construir o intervalo x0 196σ x x0 196σ x 1134 Esse intervalo pode ou não conter o parâmetro μ mas pelo exposto acima temos 95 de confiança de que contenha Para ilustrar o que foi dito acima consideremos o seguinte experimento de simula ção Geramos 20 amostras de tamanho n 25 de uma distribuição normal de média μ 5 e desvio padrão σ 3 Para cada amostra construímos o intervalo de confiança para μ com coeficiente de confiança γ 095 que é da formaX 1176 usando 1134 Na Figura 114 temos esses intervalos representados e notamos que três deles amostras de números 5 14 e 15 não contêm a média μ 5 Figura 114 Intervalos de confiança para a média de uma N5 9 para 20 amostras de tamanho n 25 Exemplo 1113 Uma máquina enche pacotes de café com uma variância igual a 100 g2 Ela estava regulada para encher os pacotes com 500 g em média Agora ela se desregulou e queremos saber qual a nova média μ Uma amostra de 25 pacotes apre sentou uma média igual a 485 g Vamos construir um intervalo de confiança com 95 de confiança para μ De 1134 teremos ICμ 095 485 196 2 ou seja ICμ 095 481 489 pois σ x σn 105 2g Se T for um estimador do parâmetro θ e conhecida a distribuição amostral de T sempre será possível achar dois valores t1 e t2 tais que Pt1 θ t2 γ 1135 cap11cp65 2192009 1405 312 1 1 6 I N T E R V A L O S D E C O N F I A N Ç A 315 Observe que o primeiro intervalo tem amplitude menor que o segundo Outra observação importante é que por 1140 e um γ fixo os intervalos que podemos obter para amostras diferentes mas de mesmo tamanho n terão a mesma amplitude dada por 2zγ4n Por outro lado usando 1141 a amplitude do intervalo será 2zγ p q que é variável de n amostra para amostra pois p e conseqüentemente q variará de amostra para amostra 14 Calcule o intervalo de confiança para a média de uma Nμ σ 2 em cada um dos casos abaixo Média Tamanho Desvio Padrão Coeficiente de Amostral da Amostra da População Confiança 170 cm 100 15 cm 95 165 cm 184 30 cm 85 180 cm 225 30 cm 70 15 De 50000 válvulas fabricadas por uma companhia retirase uma amostra de 400 válvu las e obtémse a vida média de 800 horas e o desvio padrão de 100 horas a Qual o intervalo de confiança de 99 para a vida média da população b Com que confiança dirseia que a vida média é 800 098 c Que tamanho deve ter a amostra para que seja de 95 a confiança na estimativa 800 784 Que suposições você fez para responder às questões acima 16 Qual deve ser o tamanho de uma amostra cujo desvio padrão é 10 para que a diferença da média amostral para a média da população em valor absoluto seja menor que 1 com coeficiente de confiança igual a a 95 b 99 17 Uma população tem desvio padrão igual a 10 a Que tamanho deve ter uma amostra para que com probabilidade 8 o erro em estimar a média seja superior a uma unidade b Supondose colhida a amostra no caso anterior qual o intervalo de confiança se x 50 18 Uma amostra aleatória de 625 donas de casa revela que 70 delas preferem a marca A de detergente Construir um intervalo de confiança para p proporção das donas de casa que preferem A com cc γ 90 19 Encontre os intervalos de confiança para p se kn 03 com cc γ 095 Utilize os dois enfoques apontados na seção 116 com n 400 20 Antes de uma eleição um determinado partido está interessado em estimar a proporção p de eleitores favoráveis ao seu candidato Uma amostra piloto de tamanho 100 revelou que 60 dos eleitores eram favoráveis ao candidato em questão Problemas cap11cp65 2192009 1405 315 C A P Í T U L O 1 1 E S T I M A Ç Ã O 316 a Determine o tamanho da amostra necessário para que o erro cometido na estimação seja de no máximo 001 com probabilidade de 80 b Se na amostra final com tamanho igual ao obtido em a observouse que 55 dos eleitores eram favoráveis ao candidato em questão construa um intervalo de confiança para a proporção p Utilize γ 095 21 Suponha que estejamos interessados em estimar a proporção de consumidores de um certo produto Se a amostra de tamanho 300 forneceu 100 indivíduos que consomem o dado produto determine a o intervalo de confiança para p com coeficiente de confiança de 95 interprete o resultado b o tamanho da amostra para que o erro da estimativa não exceda a 002 unidades com probabilidade de 95 interprete o resultado 117 Erro Padrão de um Estimador Vimos que obtida a distribuição amostral de um estimador podíamos calcular a sua variância Se não pudermos obter a distribuição exata usamos uma aproximação se essa estiver disponível como no caso deX e a variância do estimador será a variância dessa aproximação Por exemplo para a média amostralX obtida de uma amostra de tamanho n temos que VarX σ 2 n na qual σ 2 é a variância da va X definida sobre a população À raiz quadrada dessa variância chamaremos de erro padrão deX e o denotaremos por EPX σ 1142 n Definição Se T for um estimador do parâmetro θ chamaremos de erro padrão de T a quantidade EPT VarT 1143 A variância de T dependerá dos parâmetros da distribuição de X o mesmo aconte cendo com o erro padrão Por exemplo em 1142 EPX depende de σ que em geral é desconhecida Podemos então obter o erro padrão estimado deX dado por epX E P X Sn 1144 na qual S2 é a variância amostral Genericamente o erro padrão estimado de T é dado por E PT VarT 1145 Muitas vezes a quantidade 1145 é chamada de erro amostral Mas preferimos chamar de erro amostral à diferença e T θ cap11cp65 2192009 1405 316 1 1 8 I N F E R Ê N C I A B AY E S I A N A 317 Exemplo 1117 Para o Exemplo 1115 p 06 e o erro padrão de p será dado por EPp p1 p 1146 n Como não conhecemos p usamos no seu lugar o estimador p obtendose E Pp 0604400 0025 Observe que o intervalo de confiança 1141 pode ser escrito p zγ E Pp ao passo que o intervalo para μ dado por 1137 pode ser escrito X 196EPX 118 Inferência Bayesiana O estabelecimento de uma ponte entre os valores observados na amostra e os mo delos postulados para a população objeto da inferência estatística exige a adoção de princípios teóricos muito bem especificados Neste livro usaremos a chamada teoria freqüentista às vezes também chamada de clássica Seus fundamentos encontramse em trabalhos de J Neyman E Pearson R Fisher e outros Consideremos um exemplo para ilustrar esse enfoque Suponha que tenhamos uma amostra observada x1 xn de uma população normal Nμ σ 2 e queremos fazer inferências sobre os valores de μ e σ 2 baseados nas n observações Por meio de algum procedimento estudado neste capítulo selecionamos estimadores μ x e σ 2x que sejam funções do vetor de observações x x1 xn Considere dados hipotéticos x1 x2 todos amostras de tamanho n que poderiam ter sido gerados da população em questão Obtemos então as distribuições amostrais de μ x e σ 2x como na seção 107 Podemos também obter intervalos de confiança para os parâmetros des conhecidos μ e σ 2 bem como testar hipóteses sobre esses parâmetros assunto a ser discutido no Capítulo 12 Para construir intervalos de confiança e testar hipóteses será necessário conhecer a distribuição amostral dos estimadores Como só temos um conjunto de dados e não dados hipotéticos estas distribuições amostrais terão de ser obtidas de outra maneira e não como no Exemplo 107 Usualmente isso é feito usando teoremas como o Teorema Limite Central discutido na seção 108 obtendose uma distribuição aproximada para os estimadores que vale para tamanhos de amostras grandes A crítica que se faz à teoria freqüentista é a possibilidade de replicar dados bem como o recurso à teoria assintótica Uma teoria que não faz uso de tais argumentos é a inferência bayesiana cujos fundamentos foram estabelecidos por T Bayes em 1763 Outros expoentes dessa corrente foram Bernoulli 1713 Laplace 1812 e Jeffreys 1939 Aqui o Teorema de Bayes estudado no Capítulo 5 tem papel fundamental A noção de probabilidade prevalente aqui é a subjetiva discutida brevemente no mesmo capítulo cap11cp65 2192009 1405 317 C A P Í T U L O 1 1 E S T I M A Ç Ã O 320 Do mesmo modo Py 0 Pθ1Py 0θ1 Pθ2Py 0θ2 715 e teremos a tabela a seguir y py y 0 815 y 0 715 Vemos que essa é a mesma distribuição marginal de y dada na tabela que mostra a distribuição conjunta de y e θ Então por 1148 Pθ θ1y 0 Pθ1Py 0θ1 35 23 34 Py 0 815 Pθ θ2y 0 Pθ2Py 0θ2 14 Py 0 De modo análogo obtemos Pθ θ1y 0 37 Pθ θ2y 0 47 Temos então as probabilidades condicionais de alta e baixa dada a informação de que o retorno é positivo ou negativo θ pθy y θ1 θ2 y 0 34 14 y 0 37 47 Podemos por exemplo estimar θ alta ou baixa por θ1 mercado em alta se y 0 já que Pθ θ1y 0 34 e estimar θ por θ2 mercado em baixa se y 0 pois Pθ θ2y 0 47 Ou seja tomamos o valor máximo da probabilidade a posteriori dada a informação sobre o rendimento Esse é um exemplo do que se chama de modelo estático Poderíamos considerar um modelo dinâmico supondose que esse muda de período para período de dia para dia ou de mês para mês etc 119 Exemplos Computacionais Simulando Erros Padrões Na seção 117 definimos o que seja o erro padrão de um estimador T de um parâmetro θ baseado numa AAS de uma população rotulada pela va X Vimos em particular que o erro padrão da média amostralX é dado por 1142 e esse pode ser estimado por 1144 ou seja EPX S n cap11cp65 2192009 1405 320 1 1 1 0 P R O B L E M A S E C O M P L E M E N T O S 325 26 Suponha que as vendas de um produto satisfaçam ao modelo Vt α βt at onde at é a variável aleatória satisfazendo as suposições da seção 114 e o tempo é dado em meses Suponha que os valores das vendas nos 10 primeiros meses do ano 1 sejam dados pelos valores da tabela abaixo Obtenha as previsões para os meses de novembro e dezembro do ano 1 e para julho e agosto do ano 2 t 1 2 3 4 5 6 7 8 9 10 yt 50 67 60 87 62 86 110 119 106 108 27 Numa pesquisa de mercado para estudar a preferência da população de uma cidade em relação a um determinado produto colheuse uma amostra aleatória de 300 indivíduos dos quais 180 preferiam esse produto a Determine um intervalo de confiança para a proporção da população que prefere o produto em estudo tome γ 090 b Determine a probabilidade de que a estimativa pontual dessa proporção não difira do verdadeiro valor em mais de 0001 c É possível obter uma estimativa pontual dessa proporção que não difira do valor verdadeiro em mais de 00005 com probabilidade 095 Caso contrário determine o que deve ser feito 28 Uma amostra de 10000 itens de um lote de produção foi inspecionada e o número de defeitos por item foi registrado na tabela abaixo No de defeitos 0 1 2 3 4 Quantidade de peças 6000 3200 600 150 50 a Determine os limites de confiança para a proporção de itens defeituosos na popula ção com coeficiente de confiança de 98 Use 1140 b Mesmo problema usando 1141 29 Antes de uma eleição em que existiam dois candidatos A e B foi feita uma pesquisa com 400 eleitores escolhidos ao acaso e verificouse que 208 deles pretendiam votar no candidato A Construa um intervalo de confiança com cc γ 095 para a porcentagem de eleitores favoráveis ao candidato A na época das eleições 30 Encontre o cc de um intervalo de confiança para p se n 100 p 06 e a amplitude do intervalo deve ser igual a 0090 31 Usando os resultados do Problema 32 do Capítulo 10 mostre que o intervalo de confiança para a diferença das médias populacionais com variâncias conhecidas é dado por ICμ1 μ2 γ X Y zγ σ 2 1n1 σ 2 2n2 32 Estão sendo estudados dois processos para conservar alimentos cuja principal variável de interesse é o tempo de duração destes No processo A o tempo X de duração segue a distribuição NμA 100 e no processo B o tempo Y obedece à distribuição NμB 100 Sorteiamse duas amostras independentes a de A com 16 latas apresentou tempo médio de duração igual a 50 e a de B com 25 latas duração média igual a 60 cap11cp65 2192009 1405 325 121 Introdução Vimos no Capítulo 10 que um dos problemas a serem resolvidos pela Inferência Estatística é o de testar uma hipótese Isto é feita determinada afirmação sobre uma população usualmente sobre um parâmetro dessa desejamos saber se os resultados experimentais provenientes de uma amostra contrariam ou não tal afirmação Muitas vezes essa afirmação sobre a população é derivada de teorias desenvolvidas no cam po substantivo do conhecimento A adequação ou não dessa teoria ao universo real pode ser verificada ou refutada pela amostra O objetivo do teste estatístico de hipóte ses é então fornecer uma metodologia que nos permita verificar se os dados amostrais trazem evidências que apóiem ou não uma hipótese estatística formulada Neste capítulo iremos introduzir o procedimento básico de teste de hipótese sobre um parâmetro de uma população A idéia central desse procedimento é a de supor verdadeira a hipótese em questão e verificar se a amostra observada é verossímil nessas condições No capítulo seguinte daremos alguns testes para comparação de parâmetros de duas populações 122 Um Exemplo Vamos introduzir a idéia de teste de uma hipótese por meio de um exemplo hipo tético que partindo de uma situação simples será gradualmente ampliado para aten der à situação geral do teste de hipóteses Exemplo 121 Uma indústria usa como um dos componentes das máquinas que pro duz um parafuso importado que deve satisfazer a algumas exigências Uma dessas é a resistência à tração Esses parafusos são fabricados por alguns países e as especificações técnicas variam de país para país Por exemplo o catálogo do país A afirma que a resistência média à tração de seus parafusos é de 145 kg com desvio padrão de 12 kg Já para o país B a média é de 155 kg e desvio padrão 20 kg Um lote desses parafusos de origem desconhecida será leiloado a um preço muito convidativo Para que a indústria saiba se faz ou não uma oferta ela necessita saber qual Capítulo 12 Testes de Hipóteses cap12cp65 2192009 1425 330 131 Introdução Neste capítulo abordaremos o tópico importante de comparar duas populações Pl e P2 baseados em dados fornecidos por amostras dessas populações Como vimos uma grande parte das técnicas usadas em Estatística supõe que as variáveis aleatórias envolvidas tenham distribuição normal Alguns testes que trataremos envolverão a normal Contudo se essa suposição de normalidade for violada procedimentos mais robustos têm de ser utilizados e veremos exemplos de tal situação Uma pergunta que aparece freqüentemente em Ciência é a seguinte o método A é melhor do que o B Em termos estatísticos ela equivale a comparar dois conjuntos de informações resultantes das medidas obtidas da aplicação dos dois métodos a dois conjuntos de objetos ou indivíduos Uma das dificuldades que enfrentamos é a de caracterizar adequadamente a igual dade ou equivalência de duas populações Por exemplo suponha que estamos interessados em saber se alunos de duas regiões A e B tiveram desempenhos iguais em um mesmo teste nacional Mais ainda suponha que tenhamos os resultados do teste para todos os alunos das duas regiões isto é conhecemos as duas populações Suponha que cálculos posteriores revelem que as médias e desvios padrões das duas populações sejam iguais isto é μA μB e σA σB Será que isso equivale a dizer que os desempenhos nas duas regiões são equivalentes Se uma análise mais cuidadosa não for feita poderemos ser levados a responder afirmativamente a essa questão Entretan to observando a Figura 131 vemos que é possível ter duas distribuições com os mesmos parâmetros acima mas formas bastante distintas Figura 131 Distribuições das populações A e B com μA μB 4 σA σB 116 Capítulo 13 Inferência para Duas Populações cap13dP65 2192009 1438 361 C A P Í T U L O 1 3 I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 362 Esse fato nos remete à necessidade de também mencionarmos a forma da distri buição Especificada a forma a igualdade dos parâmetros que identificam a curva implica a igualdade ou coincidência das duas populações É bem pouco provável que um mesmo fenômeno obedeça a formas de distribuições distintas como no exemplo da Figura 131 Seguir uma mesma distribuição porém com parâmetros distintos é mais verossímil Como a normal é um modelo importante e seguido por muitas variáveis de interesse prático estaremos admitindo essa forma a não ser quando uma análise dos dados nos diga o contrário Neste capítulo trataremos de várias situações que passamos a descrever 1 Inferências para duas médias amostras independentes Aqui temos dados na forma de duas amostras extraídas independentemente de cada população É muito comum em experimentos do tipo controle versus tratamento nos quais o interesse principal é verificar o efeito desse último O caso típico é aquele de comparar uma nova droga com uma padrão usadas para o tratamento de uma doença Exemplo 131 a Um curso de Estatística é ministrado pela televisão para um grupo de alunos e ao vivo para outro grupo Queremos testar a hipótese de que o curso ao vivo é mais eficaz que o curso por meio da televisão b Queremos comparar o efeito de duas rações A e B sobre o crescimento de porcos Dois grupos de porcos em crescimento foram alimentados com as duas rações e após cinco semanas verificamse quais foram os ganhos de peso dos porcos dos dois grupos c 20 canteiros foram plantados com uma variedade de milho Em dez deles um novo tipo de fertilizante é aplicado e nos outros um fertilizante padrão Exami nandose as produções dos dois canteiros queremos saber se há diferenças sig nificativas entre as produções Na maioria das vezes fica claro o que chamamos de controle e tratamento No exemplo c acima os canteiros tratados com o novo fertilizante seriam o grupo de tratamento enquanto os demais tratados com o fertilizante usual constituiriam o gru po de controle Mas nos exemplos a e b essa distinção é apenas convencional Formalmente o modelo para o problema das duas amostras é o seguinte as va X1 Xm representam as respostas do grupo de controle e são consideradas va inde pendentes com a mesma distribuição P1 Y1 Yn representam as respostas do grupo de tratamento e são v a independentes com a mesma distribuição P2 Além disso X1 Xm Y1 Yn são independentes entre si A hipótese a ser testada é H0 P1 P2 131 ou seja queremos testar a homogeneidade das populações de onde as amostras foram extraídas H0 é chamada hipótese de homogeneidade cap13dP65 2192009 1438 362 C A P Í T U L O 1 3 I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 364 ordinal A análise fica mais fácil quando a P1 e P2 são atribuídas distribuições de variá veis contínuas Discutiremos a razão desta suposição adicional Outro caso de interesse é aquele em que queremos testar se as duas médias são iguais mas as variâncias são diferentes Na Figura 131 as duas curvas teriam disper sões diferentes ao redor de suas médias Então um teste preliminar de igualdade de variâncias seria necessário O teste t de Student para o caso de populações normais será apresentado neste capítulo A hipótese 131 ou 132 nos diz que não há efeito do tratamento A alternativa usual para H0 é que o efeito do tratamento é o de aumentar as respostas Isto é P2 gera valores maiores que P1 com maior freqüência Mas pode ocorrer o contrário diminuir as respostas Por exemplo o tratamento visa a diminuir o tempo para executar deter minada tarefa 2 Inferências para duas médias amostras dependentes Quando se comparam as médias de duas populações pode ocorrer uma diferença significativa por causa de fatores externos nãocontrolados Por exemplo no caso do Exemplo 134 abaixo poderia ocorrer que um dos grupos tivesse vendedores mais experientes e habilidosos do que o outro Logo a diferença seria devido a esses fatos e não ao mérito real da técnica de vendas Um modo de contornar esse problema é coletar as observações em pares de modo que os dois elementos de cada par sejam homogêneos em todos os sentidos exceto no que diz respeito ao fator que queremos comparar Por exemplo no caso do Exemplo 131 a para testar os dois métodos de ensino poderíamos usar n pares de gêmeos sendo que um elemento de cada par recebe aulas pela TV e outro ao vivo Esse procedimento pretende controlar o maior número possí vel de fatores externos que possam afetar o aprendizado Se houver diferença no apren dizado essa deverseá realmente ao método Esse procedimento também é usado quando observações das duas amostras são feitas no mesmo indivíduo por exemplo medindo uma característica do indivíduo antes e depois de ele ser submetido a um tratamento O teste t de Student para observações pareadas ou emparelhadas supondo nor malidade é apropriado para essas situações 3 Inferências para duas variâncias amostras independentes Como vimos no item 1 podemos testar se duas amostras independentes pro vêm de duas populações com variâncias iguais desconhecidas Se essas variâncias forem diferentes o teste tem de ser modificado Esse teste sob a suposição de normalidade das duas populações usa uma estatística que tem uma distribuição especial chamada F de Snedecor Finalizando esta seção ressaltamos que poderemos ter mais do que duas amostras e técnicas semelhantes podem ser desenvolvidas Veja o Capítulo 15 cap13dP65 2192009 1438 364 C A P Í T U L O 1 3 I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 372 foram 62 e 71 respectivamente Sabese que o desvio padrão em ambos os casos deve ser da ordem de 20 unidades É possível afirmar que o gasto médio nas duas filiais seja o mesmo Caso contrário dê um intervalo de confiança para a diferença 7 Uma fábrica de embalagens para produtos químicos está estudando dois processos para combater a corrosão de suas latas especiais Para verificar o efeito dos tratamentos foram usadas amostras cujos resultados estão no quadro abaixo em porcentagem de corrosão eliminada Qual seria a conclusão sobre os dois tratamentos Método Amostra Média Desvio Padrão A 15 48 10 B 12 52 15 8 No Problema 4 teste a hipótese de que as médias dos comprimentos do produto produzido pelas duas fábricas são iguais 9 Para investigar a influência da opção profissional sobre o salário inicial de recémforma dos investigaramse dois grupos de profissionais um de liberais em geral e outro de formados em Administração de Empresas Com os resultados abaixo expressos em salários mínimos quais seriam suas conclusões Liberais 66 103 108 129 92 123 70 Administradores 81 98 87 100 102 82 87 101 1332 Populações NãoNormais Passamos agora a descrever um teste que não faz suposições a respeito da forma das distribuições P1 e P2 a não ser que as variáveis envolvidas tenham uma escala de medida pelo menos ordinal Ou seja podemos abordar o caso de variáveis qualitativas ordinais e variáveis quantitativas Esse teste chamado de Wilcoxon ou de MannWhitney pertence a uma categoria de procedimentos chamados não paramétricos ou livres de distribuição Teremos para análise amostras independentes das duas populações e queremos testar a hipótese 131 contra a alternativa de que as distribuições diferem em locali zação estaremos interessados em saber se uma população tende a ter valores maiores do que a outra ou se elas têm a mesma mediana ou média O teste de Wilcoxon é baseado nos postos dos valores obtidos combinandose as duas amostras Isso é feito ordenandose esses valores do menor para o maior inde pendentemente do fato de qual população cada valor provém A estatística do teste é a soma dos postos associados aos valores amostrados de uma população P1 por exemplo Se essa soma for grande isso é uma indicação de que os valores dessa população tendem a ser maiores do que os valores de P2 e então rejeitamos 131 No caso de termos uma va qualitativa ordinal comumente associamos números às diversas categorias ou classes ou atributos segundo as quais a variável é classi cap13dP65 2192009 1438 372 1 3 3 C O M P A R A Ç Ã O D E D U A S P O P U L A Ç Õ E S A M O S T R A S I N D E P E N D E N T E S 379 Figura 134 Resistência à remoção em kg para o modelo C Figura 135 Resistência à remoção em kg para o modelo T Vemos que há assimetrias nos histogramas sugerindo que a aplicação do teste t de Student não é adequada nessa situação A Tabela 136 mostra as médias das 5 leituras para cada corpo de prova para o modelo T e para o modelo C em ordem crescente Admitamos que o grupo de controle seja aquele em que os grampos sejam do tipo T e grampos do tipo C constituam o tratamento Ordenando as médias da Tabela 136 e atribuindo postos obtemos a Tabela 137 Tabela 136 Valores de resistência à remoção para os dois modelos T C T C 060 052 119 119 063 077 120 120 083 079 126 134 085 079 128 136 091 081 130 138 095 081 137 143 101 089 145 164 103 098 154 171 103 101 168 216 116 118 220 225 cap13dP65 2192009 1438 379 1 3 5 C O M P A R A Ç Ã O D E P R O P O R Ç Õ E S E M D U A S P O P U L A Ç Õ E S 387 H0 Se α 005 então wα 1 e o valor observado estará na fronteira da região crítica e teremos dúvidas em aceitar ou rejeitar H0 Como salientamos antes a decisão nesse caso dependerá de uma análise cuidadosa dos resultados dado o pequeno valor de n 135 Comparação de Proporções em Duas Populações Nosso objetivo agora é a comparação das proporções de duas populações P1 e P2 Sendo mais explícitos queremos comparar as proporções populacionais p1 e p2 por meio dos estimadores ˆp1 e ˆp 2 obtidos de amostras independentes de tamanhos n1 e n2 respectiva mente Das seções 109 e 126 temos ˆ p1 1 1 1 1 1 N p p p n p N p p p n 2 2 1 2 2 1 ˆ Comparando com o resultado da seção 1331 e também do Problema 1032 obtemos p p N p p p p n p p n 1 2 1 2 1 1 1 2 2 2 1 1 ˆ ˆ e portanto a estatística de decisão tanto para a construção de intervalos de confiança como para testes de hipóteses será z p p p p p p n p p n N ˆ ˆ 1 2 1 2 1 1 1 2 2 2 1 1 0 1 Mas como os valores dos parâmetros são desconhecidos substituemse as variâncias pelas seus estimadores obtendose como visto em 1331b uma distribuição aproxima damente t de Student Entretanto estudos envolvendo proporções utilizam amostras gran des e os valores da distribuição t aproximamse de valores da normal padronizada Desse modo para comparação de duas proporções recomendase sempre o uso da estatística 1 1 z p p p p p p n p p n N ˆ ˆ ˆ ˆ ˆ ˆ 1 2 1 2 1 1 1 2 2 2 0 1 1335 Exemplo 1312 Para lançamento da nova embalagem do sabonete SEBO a divisão de criação estuda duas propostas A amarela com letras vermelhas ou B preta com letras douradas cap13dP65 2192009 1438 387 1 3 5 C O M P A R A Ç Ã O D E P R O P O R Ç Õ E S E M D U A S P O P U L A Ç Õ E S 389 Da tabela obtemos ˆpc 3481000 0348 substituindo em 1336 obtemos Z 0 42 0 30 0 348 0 652 1 400 1 600 3 90 Consultando a Tabela III encontramos valorp próximo de zero o que leva a rejei ção de H0 Como esse resultado mostra que as variâncias também são diferentes a construção do Intervalo de Confiança é obtida do mesmo modo acima 16 Para investigar a lealdade de consumidores a um determinado produto sorteouse uma amostra de 200 homens e 200 mulheres Foram classificados como tendo alto grau de fidelidade 100 homens e 120 mulheres Os dados trazem evidências de diferença de grau de fidelidade entre os sexos Em caso afirmativo construa um intervalo de confiança para a diferença 17 Em uma amostra de 500 famílias da cidade A constatouse que 298 haviam comprado durante os últimos 30 dias o refrigerante MecaMela em sua nova versão incolor Na cidade B esse número foi de 147 em 300 famílias entrevistadas Na cidade A foi feita uma campanha publicitária através da rádio local e não na cidade B Os resultados trazem evidências de que as campanhas locais aumentam as vendas 18 Um partido afirma que a porcentagem de votos masculinos a seu favor será 10 a mais que a de votos femininos Em uma pesquisa feita entre 400 homens 170 votariam no partido enquanto que entre 625 mulheres 194 lhe seriam favoráveis A afirmação do partido é verdadeira ou não Caso rejeite a igualdade dê um IC para a diferença 19 Para investigar os resultados do segundo turno de uma eleição estadual tomaramse duas amostras de 600 eleitores cada uma da capital e outra do interior Da primeira 276 disse ram que votariam no candidato A enquanto que 312 eleitores do interior também o fariam a Estime a proporção de eleitores da capital que votariam em A Dê um IC b Existe diferença nas proporções entre capital e interior c Que tamanho igual deveriam ter ambas as amostras para que a diferença entre as proporções fosse estimada com erro inferior a 2 d Qual a proporção esperada de votos que irá receber o candidato A no estado e De uma amostra de 120 indivíduos da classe A e B 69 são favoráveis a eleição em dois turnos enquanto que em uma amostra de 100 indíviduos da classe C 48 é que são favoráveis Existe evidência e diferenças de opiniões em relação à classe social 20 Para verificar a importância de um cartaz nas compras de certo produto procedeuse do seguinte modo a formaramse sete pares de lojas b os pares foram formados de modo que tivessem as mesmas características quanto à localização ao tamanho e ao volume de vendas c num dos elementos do par colocouse o cartaz no outro não d as vendas semanais foram registradas e os resultados estão a seguir Qual seria a sua conclusão sobre a eficiência do cartaz Use o teste t fazendo as supo sições necessárias Problemas cap13dP65 2192009 1438 389 1 3 6 E X E M P L O C O M P U T A C I O N A L 391 Na Tabela 1312 temos os dados e as diferenças di xi yi i 1 2 26 Na Figura 136 temos os box plots dos dois conjuntos de dados que sugerem distribui ções bem diferentes Tabela 1312 Índices de placa bacteriana Sujeito Antes xi Depois yi di xi yi Postos de di 1 218 043 175 18 2 205 008 197 20 3 105 018 087 7 4 195 078 117 13 5 028 003 025 2 6 263 023 240 235 7 150 020 130 16 8 045 000 045 3 9 070 005 065 5 10 130 030 100 10 11 125 033 092 8 12 018 000 018 1 13 330 090 240 235 14 140 024 116 12 15 090 015 075 6 16 058 010 048 4 17 250 033 217 21 18 225 033 192 19 19 153 053 100 10 20 143 043 100 10 21 348 065 283 26 22 180 020 160 17 23 150 025 125 145 24 255 015 240 235 25 130 005 125 145 26 265 025 240 235 Total 3552 3510 Figura 136 Box plot para xi antes e yi depois SPlus cap13dP65 2192009 1438 391 1 3 6 E X E M P L O C O M P U T A C I O N A L 393 Quadro 131 Test t pareado Minitab MTB Paired c1 c2 SUBC Confidence 950 SUBC Test 00 SUBC Alternative 1 SUBC GDotplot SUBC GBoxplot Paired TTest and Confidence Interval Paired T for C1 C2 N Mean StDev SE Mean C1 26 1642 0883 0173 C2 26 0276 0232 0046 Difference 26 1366 0750 0147 95 CI for mean difference 1063 1669 TTest of mean difference 0 vs not 0 TValue 929 PValue 0000 Figura 137 Dotplot das diferenças di com o intervalo de confiança para μD também mostrados H0 μD 0 ed 1366 cap13dP65 2192009 1438 393 1 3 7 P R O B L E M A S E C O M P L E M E N T O S 395 conclusões você obteria se uma amostra de 25 torneiros apresentasse salário médio igual a 422 salários mínimos e desvio padrão igual a 125 salário mínimo 27 Os dados abaixo representam a porcentagem do orçamento gasto com pessoal para 50 pequenos municípios de uma certa região 695 716 730 689 689 700 726 662 681 724 676 732 676 697 710 694 715 738 696 696 682 699 714 707 697 710 660 703 717 692 698 684 695 682 721 708 722 692 717 656 696 701 699 705 680 702 690 663 694 671 a Analise estatisticamente os dados b Com base na sua análise e sabendo que na região considerada existem ao todo 200 municípios em quantos deles você acha que o gasto com pessoal é maior que 70 do orçamento c Em outra região sabese que o gasto médio com pessoal é de 65 e o desvio padrão é de 20 Qual das duas regiões é mais homogênea em relação a essa variável Por quê 28 Uma amostra de 100 trabalhadores de uma fábrica grande demora em média 12 minutos para completar uma tarefa com um desvio padrão de dois minutos Uma amostra de 50 trabalhadores de uma outra fábrica demora em média 11 minutos para completar a mesma tarefa com desvio padrão igual a três minutos a Construa um IC de 95 para a diferença entre as duas médias populacionais b Deixe bem claro quais as suposições feitas para a solução apresentada 29 Desejase testar se dois tipos de ensino profissional são igualmente eficazes Para isso sortearamse duas amostras de operários a cada uma deuse um dos tipos de treina mento e no final submeteramse os dois grupos a um mesmo teste Que tipo de conclu são você poderia tirar baseandose nos resultados abaixo Amostra No de elementos Média Desvio padrão Tipo I 12 75 5 Tipo II 10 74 10 30 Numa discussão sobre reajuste salarial entre empresários e o sindicato dos empregados chegouse a um impasse Os empresários dizem que o salário médio da categoria é 76 salários mínimos SM e os empregados dizem que é 65 SM Para eliminar dúvidas cada um dos grupos resolveu colher uma amostra independente Os empresários com uma amostra de 90 operários observaram um salário médio de 70 SM com um desvio padrão igual a 29 SM Já a amostra do sindicato com 60 operários apresentou média igual a 710 SM e desvio padrão de 24 SM a As amostras colhidas servem para justificar as respectivas afirmações dos dois grupos b De posse dos dois resultados qual é o seu parecer cap13dP65 2192009 1438 395 C A P Í T U L O 1 3 I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 396 31 A Torrefação Guarany está querendo comprar uma nova ensacadora de café Após con sultar o mercado ficou indecisa entre comprar a de marca A ou a de marca B Quanto ao custo facilidade de pagamento tamanho etc elas são equivalentes O fator que decidirá a compra será a precisão em encher os pacotes medido pela variância Desejase na realidade testar hipótese σ 2 A σ 2 B através da estatística F S 2 AS 2 B Podemse construir regiões críticas bilaterais unilaterais à direita ou à esquerda dependendo do objetivo Indique qual seria a região crítica mais favorável às seguintes pessoas Justifique a proprietário da torrefação b fabricante de A e c fabricante de B 32 Um médico deseja saber se uma certa droga reduz a pressão arterial média Para isso mediu a pressão arterial em cinco voluntários antes e depois da ingestão da droga obtendo os dados do quadro abaixo Você acha que existe evidência estatística de que a droga realmente reduz a pressão arterial média Que suposições você fez para resol ver o problema Voluntário A B C D E Antes 68 80 90 72 80 Depois 60 71 88 74 76 33 Uma amostra de 100 lâmpadas elétricas produzidas pela fábrica A indica uma vida média de 1190 horas com desvio padrão de 90 horas Uma amostra de 75 lâmpadas produzidas pela fábrica B indica uma vida média de 1230 horas com desvio padrão de 120 horas Admitindo que as variâncias populacionais sejam diferentes você acha que existe diferença entre as vidas médias populacionais das lâmpadas produzidas pelas fábricas A e B 34 Queremos comparar dois métodos de ensino A e B Dispomos de 40 crianças Podemos proceder de duas maneiras i Sorteamos 20 crianças para compor uma classe e as restantes formam outra classe Aplicamos um método a cada classe e depois fazemos uma avaliação para todas as crianças a respeito do assunto ensinado ii Aplicamos inicialmente um teste de inteligência às 40 crianças Numeramos as crian ças de 1 a 40 segundo o resultado do teste Consideramos os 20 pares 1 2 3 4 39 40 e de cada par sorteamos uma criança para cada classe Obtemos assim duas classes de 20 crianças homogêneas quanto à inteligência Apli camos um método a cada classe e depois avaliamos todas as crianças a Qual a variável de observação em cada procedimento b Quais as hipóteses estatísticas adequadas c Qual o teste estatístico de decisão em cada caso d Qual dos dois procedimentos você preferiria Por quê 35 De 400 moradores sorteados de uma grande cidade industrial 300 são favoráveis a um projeto governamental e de uma amostra de 160 moradores de uma cidade cuja princi pal atividade é o turismo 120 são contra a Você diria que a diferença de opiniões nas duas cidades é estatisticamente significante cap13dP65 2192009 1438 396 C A P Í T U L O 1 3 I N F E R Ê N C I A P A R A D U A S P O P U L A Ç Õ E S 398 44 Para o CDTemperaturas teste se a temperatura média de Cananéia é igual à temperatura média de Ubatuba suponha que as observações para cada cidade sejam independentes embora saibamos que elas não são pois temos dados de séries temporais 45 Numa pesquisa sobre a opinião dos moradores de duas cidades A e B com relação a um determinado projeto obtevese Cidade A B No de entrevistados 400 600 No de favoráveis 180 350 Construa um IC para a diferença de proporções de opiniões nas duas cidades 46 Duas máquinas A e B são usadas para empacotar pó de café A experiência passada garante que o desvio padrão para ambas é de 10 g Porém suspeitase que elas têm médias diferentes Para verificar sortearamse duas amostras uma com 25 pacotes da máquina A e outra com 16 pacotes da máquina B As médias foram respectivamente xA 50274 g e xB 49660 g Com esses números e com o nível de 5 qual seria a conclusão do teste H0 μA μB 47 Na região sul da cidade 60 entre 400 pessoas preferem a bebida MecaMela entre as demais similares Na região norte a proporção é de 40 entre 225 entrevistados Baseado no resultado dessa amostra você diria que a proporção de todos os moradores nas duas regiões é a mesma Use α 005 48 Uma pesquisa mercadológica sobre fidedignidade a um produto doi realizada em dois anos consecutivos com duas amostras independentes de 400 donas de casa em cada uma delas A preferência pela marca em questão foi de 33 e 29 respectivamente Os resultados trazem alguma evidência de mudança de preferência cap13dP65 2192009 1438 398 C A P Í T U L O 1 4 A N Á L I S E D E A D E R Ê N C I A E A S S O C I A Ç Ã O 400 Aqui o teste comparará o número de casos ocorridos em caselas especificadas com o número esperado de casos nelas quando a hipótese H0 for verdadeira O procedimento consiste em considerar classes segundo as quais a variável X característica da população pode ser classificada A variável X pode ser qualitativa ou quantitativa Neste capítulo estudaremos um teste no qual as probabilidades da va X pertencer a cada uma das classes são especificadas A estatística usada será 141 Exemplo 141 Um dado é lançado 300 vezes com os resultados dados na Tabela 141 Por enquanto considere somente a linha correspondente às freqüências observadas Com os resultados observados queremos saber se o dado é honesto isto é se a proba bilidade de ocorrência de qualquer face é 16 Ou seja queremos testar a hipótese H0 p1 p2 p6 16 onde pi P face i i 1 2 6 Isso equivale a dizer que P0 segue uma distribuição uniforme discreta Tabela 141 Resultados do lançamento de um dado 300 vezes Ocorrência i 1 2 3 4 5 6 Total Freq Observada ni 43 49 56 45 66 41 300 Freq Esperada n i 50 50 50 50 50 50 300 2 Testes de Homogeneidade Considere o seguinte exemplo Exemplo 142 Uma prova básica de Estatística foi aplicada a 100 alunos de Ciências Humanas e a 100 alunos de Ciências Biológicas As notas são classificadas segundo os graus A B C D e E onde D significa que o aluno não recebe créditos e E indica que o aluno foi reprovado Os resultados estão na Tabela 142 Tabela 142 Resultados da aplicação de uma prova de Estatística a 100 alunos de Ciências Humanas e 100 alunos de Biologia Aluno Grau de A B C D E Total C Humanas 15 20 30 20 15 100 C Biológicas 8 23 18 34 17 100 Total 23 43 48 54 32 200 Queremos testar se as distribuições das notas para as diversas classes são as mesmas para os dois grupos de alunos Esse teste pode ser estendido para o caso de três ou mais populações cap14cp65 2192009 1446 400 1 4 1 I N T R O D U Ç Ã O 401 Testes desse tipo já foram vistos no Capítulo 13 onde queríamos testar a hipótese 131 Estudamos lá dois testes o t de Student e o de Wilcoxon Para esses testes supomos ou que as populações sejam normais ou então preferencialmente que tenham distribui ções contínuas não necessariamente normais Mas de qualquer modo testávamos sepa radamente se as duas populações diferiam em localização ou escala No caso presente iremos apresentar um teste baseado na estatística 141 que contempla alternativas gerais por exemplo as populações podem diferirse em localização e escala Novamente para efetuar o teste consideramos amostras das duas populações P1 e P2 e classificamos os seus elementos de acordo com certo número de categorias para as duas variáveis características de P1 e P2 3 Testes de Independência Vimos no Capítulo 4 a importância de quantificar o grau de associação entre duas variáveis usando a estatística 141 Porém essa quantificação só tem sentido se as variáveis não forem independentes O teste que apresentaremos aqui supõe a existência de duas vas X e Y e os valores de amostras delas são classificados segundo categorias obtendose uma tabela de dupla entrada Queremos testar a hipótese que X e Y são independentes Exemplo 143 Uma companhia de seguros analisou a freqüência com que 2000 segurados 1000 homens e 1000 mulheres usaram hospitais Os resultados estão na Tabela 143 A hipótese a testar é que o uso de hospital independe do sexo do segurado veja o Problema 6 do Capítulo 4 Tabela 143 Freqüências com que 2000 segurados usaram hospital Homens Mulheres Usaram hospital 100 150 Não usaram hospital 900 850 4 Teste para o Coeficiente de Correlação Quando se investiga associação entre duas variáveis quantitativas o artifício de agrupar os dados em intervalos classes reduz a variável quantitativa a um caso parti cular de variável qualitativa assim poderíamos usar as mesmas técnicas da análise desse último tipo de variável Mas esse procedimento pode não ser o melhor possível e o uso do coeficiente de correlação como medida de associação entre variáveis quan titativas é o caminho mais apropriado Na seção 145 voltaremos a tratar desse tema agora sob o ponto de vista da inferência Para finalizar esta seção notamos que os testes descritos nos itens 13 são todos baseados na distribuição quiquadrado e são parte dos chamados testes nãoparamétricos Para essa classe de testes não se supõe que a população ou populações siga algum modelo particular como fizemos para alguns dos testes dos Capítulos 12 e 13 Na seção 146 cap14cp65 2192009 1446 401 C A P Í T U L O 1 4 A N Á L I S E D E A D E R Ê N C I A E A S S O C I A Ç Ã O 406 1 Calcule o valorp para o Exemplo 141 2 Calcule os valoresp para os Exemplos 145 e 146 3 Um modelo genético especifica que animais de certa população devam estar classificados em quatro categorias com probabilidades p1 0656 p2 0093 p3 0093 p4 0158 Dentre 197 animais obtivemos as seguintes freqüências observadas O1 125 O2 18 O3 20 O4 34 Teste se esses dados estão de acordo com o modelo genético postulado 4 Teste se os dados abaixo são observações de uma distribuição normal com média 30 e desvio padrão 10 159 169 183 185 190 195 218 230 238 245 261 269 323 350 361 365 372 385 409 442 5 Um dado foi lançado 1000 vezes com os seguintes resultados Ocorrência 1 2 3 4 5 6 Freqüência 158 186 179 161 141 175 Teste a hipótese que o dado é balanceado 143 Testes de Homogeneidade Vimos no capítulo anterior como testar a hipótese 131 de que as duas popula ções P1 e P2 tinham a mesma distribuição Os testes utilizados foram baseados na distribuição t de Student que assume normalidade das populações ou o teste não paramétrico de Wilcoxon MannWhitney que não faz essa suposição mas fica bem mais fácil se as distribuições forem contínuas O teste que apresentaremos agora pode ser usado para dados discretos ou contínu os e serve para testar H0 dada por 131 contra alternativas gerais e não somente para testar diferenças de localização Exemplo 142 continuação Considerando P1 como a população de alunos de Ciências Humanas e P2 a dos alunos de Ciências Biológicas nosso objetivo é testar a hipótese H0 P1 P2 usando os resultados amostrais da Tabela 142 Para isso precisamos encontrar os valores esperados n ij para aplicar a fórmula 141 Inicialmente observemos que se H0 for verdadeira a distribuição de probabilidades nas duas linhas deveria ser a mesma e equivaleria a ter uma única população P A última linha de totais da Tabela 142 representaria uma amostra de 200 alunos dessa única Problemas cap14cp65 2192009 1446 406 1 4 3 T E S T E S D E H O M O G E N E I D A D E 407 população A Tabela 147 apresenta as estimativas das proporções em cada grau para P1 P2 e P Sendo H0 verdadeira deveríamos esperar para P1 e P2 as mesmas proporções observadas para P ou valores aproximadamente iguais Ou ainda todas as linhas dessa tabela deveriam ser iguais entre si e iguais à linha de totais o que aparentemente não ocorre A partir dessas porcentagens podemos obter as freqüências absolutas correspon dentes ou valores esperados se H0 for verdadeira Obtemos então a Tabela 148 Tabela 147 Porcentagens estimadas das classes para cada população Aluno Grau de A B C D E Total C Humanas 15 20 30 20 15 100 C Biológicas 8 23 18 34 17 100 Total 115 215 24 27 16 100 Tabela 148 Freqüências absolutas sob H0 n ij Aluno Grau de A B C D E Total C Humanas 115 215 24 27 16 100 C Biológicas 115 215 24 27 16 100 Total 23 43 48 54 32 200 Desse modo encontramos os valores esperados n ij que podem ser substituídos em 141 obtendose χ2 obs 15 1152 15 162 8 1152 17 162 909 115 16 115 16 Novamente para consultar a tabela precisamos determinar os graus de liberdade e va mos usar o mesmo argumento anterior Quantas caselas poderíamos preencher livremente em uma simulação sendo que os totais marginais são conhecidos Observando a Tabela 149 concluímos que basta preencher apenas quatro caselas as seis restantes são encontradas por diferenças Como exemplo preenchemos quatro caselas com círculos as demais sinais de mais podem ser obtidas por diferenças a partir dos totais de linhas ou colunas Tabela 149 Determinação do número de graus de liberdade Aluno Grau de A B C D E Total C Humanas o o 100 C Biológicas o o 100 Total 23 43 48 54 32 200 cap14cp65 2192009 1446 407 C A P Í T U L O 1 4 A N Á L I S E D E A D E R Ê N C I A E A S S O C I A Ç Ã O 408 Da Tabela IV com α 005 e 4 graus de liberdade encontramos χ2 c 9488 o que leva à nãorejeição de H0 ou seja a distribuição das notas é a mesma para as duas populações Observe que os valores esperados na Tabela 148 podem ser obtidos de n ij ni njn Exemplo 147 Consideremos novamente o Exemplo 139 e verifiquemos quantos elementos de cada amostra caem nas seguintes classes de resistência à remoção 04 10 10 16 16 22 22 28 Obtemos a Tabela 1410 com os valores espera dos entre parênteses Tabela 1410 Valores observados para amostras do Exemplo 1312 Populações 04 10 10 16 16 22 22 28 Total P1T 29 33 60 52 9 11 2 4 100 P2C 37 33 44 52 13 11 6 4 100 Total 66 104 22 8 200 Utilizando 141 obtemos χ2 obs 61585 Como temos s 4 rejeitaremos H0 se 61585 c onde c é o valor de uma va com distribuição χ23 tal que Pχ 23 c α Com α 005 obtemos c 7815 da Tabela IV logo não rejeitamos H0 no nível α Esse teste pode ser estendido para o caso de termos r populações P1 Pr e que rermos testar a hipótese H0 P1 P2 Pr 146 contra a alternativa em que pelo menos duas são distintas Obteremos uma tabela de dupla entrada r s Designandose os tamanhos das amostras dessas populações por n1 nr com n1 nr N e por nij o número de elementos da amostra de Pi classificados na categoria j teremos a situação da Tabela 411 A hipótese a ser testada aqui é H0 p11 p21 pr1 p1s p2s prs Nesse caso a estatística 141 tem distribuição χ 2v onde o número de graus de liberdade v é dado por v r 1s 1 O argumento para obter esse número é o mesmo usado para o Exemplo 142 6 Suponha que tenhamos razões para crer que as notas obtidas por estudantes de escolas públicas sejam menores que as notas obtidas por estudantes de escolas particulares ao tomarem o exame vestibular para uma Universidade Para testar essa hipótese foram selecionadas duas amostras de estudantes que prestaram o vestibular suas médias gerais foram anotadas e obtevese a tabela a seguir Problemas cap14cp65 2192009 1446 408 1 4 7 P R O B L E M A S E C O M P L E M E N T O S 417 Podemos comparar os quantis empíricos dos dados com os quantis da normal por meio de um gráfico q q com o objetivo de verificar que os pontos se distribuem ao redor de uma reta como na Figura 144 Figura 144 Quantis da normal padrão contra quantis dos dados 147 Problemas e Complementos 17 Teste a independência entre o tipo de atividade e o tipo de propriedade de embarcações para o Problema 20 do Capítulo 4 18 Supõese que uma moeda favoreça cara na proporção de duas caras para três coroas Para testar tal hipótese lançase uma moeda quatro vezes contandose o número de caras Repetese esse experimento 625 vezes Os resultados estão na tabela abaixo Esses dados confirmam ou não a suposição No de caras 0 1 2 3 4 Total Freqüências 72 204 228 101 20 625 19 Num laboratório foi realizada uma pesquisa de mercado em que se estudou a preferência com relação a dois adoçantes artificiais A e B obtendose os resultados seguintes Sexo Preferem A Preferem B Indecisos Feminino 50 110 40 Masculino 150 42 8 A distribuição de preferências pelos dois sexos é a mesma Calcule o valorp cap14cp65 2192009 1446 417 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 420 151 Introdução Como vimos no Capítulo 1 uma das preocupações de um estatístico ao analisar um conjunto de dados é criar modelos que explicitem estruturas do fenómeno sob observação as quais frequentemente estão misturadas com variações acidentais ou aleatórias A identificação dessas estruturas permite conhecer melhor o fenómeno bem como fazer afirmações sobre possíveis comportamentos Portanto uma estratégia conveniente de análise é supor que cada observação seja formada por duas partes como vimos em 11 do Capítulo 1 observação previsível aleatório 151 Aqui a primeira componente incorpora o conhecimento que o pesquisador tem sobre o fenômeno e é usualmente expressa por uma função matemática com parâmetros desconhecidos A segunda parte a aleatória ou não previsível representa aquilo que o pesquisador não pode controlar e para a qual são impostas algumas suposições como por exemplo que ela obedeça a algum modelo probabilístico específico que por sua vez também contém parâmetros desconhecidos Dentro desse cenário o trabalho do estatístico passa a ser o de estimar os parâmetros desconhecidos das duas partes do modelo baseado em amostras observadas Neste capítulo iremos investigar um modelo simples chamado de análise de variância com um fator No capítulo seguinte iremos estudar o modelo de regressão linear simples As técnicas de análise de variância foram desenvolvidas principalmen te pelo estatístico inglês Ronald A Fisher a partir de 1918 O leitor interessado pode consultar os trabalhos pioneiros de Fisher 1935 1954 ou Peres e Saldiva 1982 para mais informações sobre esse assunto A situação geral pode ser descrita como segue Temos uma população P de unidades experimentais indivíduos animais empresas etc para a qual temos uma va Y de interesse Capítulo 15 Inferência para Várias Populações cap15dp65 2192009 1456 420 1 5 1 I N T R O D U Ç Ã O 421 Suponha agora que possamos classificar as unidades dessa população segundo níveis de um fator Por exemplo o fator pode ser o sexo com dois níveis arbitrariamente denotados por l sexo masculino e 2 sexo feminino A va Y pode ser a altura de cada indivíduo Genericamente podemos ter I níveis para esse fator A população fica então divi dida em I subpopulações ou estratos P1 PI cada uma representada por um nível i do fator i 1 2 I No exemplo citado teríamos duas subpopulações a dos indiví duos do sexo masculino e a dos indivíduos do sexo feminino Na Figura 151 mostramos graficamente as suposições adotadas para o comporta mento da população neste modelo A Figura 151 a mostra um comportamento mais amplo com distribuições distintas para cada subpopulação Na Figura 151 b aparece a suposição mais comum em que a parte aleatória segue uma distribuição normal com a mesma variância σ 2 para todas as subpopulações Pi i 1 2 I Figura 151 Formas da distribuição de y para os diversos níveis do fator Fator a fyx Y P2 P1 μ2 μ3 μ4 μ1 P3 P4 Fator b fyx Y P1 P2 μ2 μ3 μ4 μ1 P3 P4 Fator c fyx Y P1 P2 μ2 μ3 μ4 μ1 μ P3 P4 cap15dp65 2192009 1456 421 1 5 1 I N T R O D U Ç Ã O 423 Logo além de estimar μ1 μI temos que estimar também σ 2 e Se 154 e 155 valerem teremos I subpopulações normais Nμi σ 2 e i 1 2 I que têm médias diferentes e mesma variância A Figura 151 b ilustra essa situação com I 4 O modelo 154 é chamado modelo com efeitos fixos no sentido de que as subpopulações determinadas pelos níveis do fator são aquelas de interesse do pesquisador Se o experimento fosse repetido amostras aleatórias das mesmas subpopulações seriam extraídas e analisadas Podese considerar também modelos com efeitos aleatórios mas esse caso não será tratado neste livro Exemplo 15 l Um psicólogo está investigando a relação entre o tempo que um indi víduo leva para reagir a um estímulo visual Y e alguns fatores como sexo W idade X e acuidade visual Z medida em porcentagem Na Tabela 151 temos os tempos para n 20 indivíduos valores da va Y O fator sexo tem dois níveis i 1 sexo masculino H e i 2 sexo feminino M com n1 n2 10 O fator idade tem cinco níveis i 1 indivíduos com 20 anos de idade i 2 indivíduos com 25 anos etc i 5 indivíduos com 40 anos Aqui n1 n5 4 A acuidade visual como porcentagem Tabela 151 Tempos de reação a um estímulo Y e acuidade visual Z de 20 indivíduos segundo o sexo W e a idade X Indivíduo Y W X Z 1 96 H 20 90 2 92 M 20 100 3 106 H 20 80 4 100 M 20 90 5 98 M 25 100 6 104 H 25 90 7 110 H 25 80 8 101 M 25 90 9 116 M 30 70 10 106 H 30 90 11 109 H 30 90 12 100 M 30 80 13 112 M 35 90 14 105 M 35 80 15 118 H 35 70 16 108 H 35 90 17 113 M 40 90 18 112 M 40 90 19 127 H 40 60 20 117 H 40 80 cap15dp65 2192009 1456 423 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 424 da visão completa também gera cinco níveis i 1 indivíduos com 100 de visão i 2 indivíduos com 90 de visão e assim por diante Não foi possível controlar essa variável a priori como as outras duas já que ela exige exames oftalmológicos para sua mensuração Daí o desbalanceamento dos tamanhos observados n1 2 n2 10 n3 5 n4 2 e n5 1 Fatores desse tipo são chamados de cofatores Assim para o fator sexo teremos o modelo 154 com i 1 2 j 1 2 3 10 e para o fator idade o mesmo modelo com i 1 2 5 j 1 2 3 4 Exemplo 152 Uma escola analisa seu curso por meio de um questionário com 50 ques tões sobre diversos aspectos de interesse Cada pergunta tem uma resposta numa escala de 1 a 5 va Y onde a maior nota significa melhor desempenho Na última avaliação usouse uma amostra de alunos de cada período e os resultados estão na Tabela 152 Aqui o fator é período com três níveis i 1 manhã i 2 tarde e i 3 noite temos n1 7 n2 6 e n3 8 Tabela 152 Avaliação de um curso segundo o período Período Manhã Tarde Noite 42 27 46 40 24 39 31 24 38 27 22 37 23 19 36 33 18 35 41 34 28 Exemplo 153 Num experimento sobre a eficácia de regimes para emagrecer ho mens todos pesando cerca de 100 kg e de biotipos semelhantes são submetidos a três regimes Após um mês verificase a perda de peso de cada indivíduo obtendose os valores da Tabela 153 Tabela 153 Perdas de peso de indivíduos submetidos a três regimes Regime 1 2 3 118 74 105 105 97 112 125 82 118 123 72 131 155 86 140 114 71 98 cap15dp65 2192009 1456 424 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 426 iii Ee1j e2k 0 para todo j e k indicando independência entre observações das duas subpopulações Com essas suposições temos duas amostras aleatórias simples independentes entre si retiradas das duas subpopulações Nμ1 σe 2 e Nμ2 σe 2 Queremos testar a hipótese H0 μ1 μ2 contra a alternativa H1 μ1 μ2 Como já salientamos acima esse teste pode ser conduzido com os métodos do Capí tulo 13 mas o objetivo aqui é introduzir a metodologia da análise de variância com um caso simples A extensão para mais de dois níveis será estudada na seção 153 Note que estamos supondo que as variâncias residuais dos níveis l e 2 são iguais ou seja Vare1j Vare2j σe 2 para todo j 1 ni 157 Essa é a propriedade conhecida como homoscedasticidade isto é estamos admi tindo que a variabilidade residual é a mesma para os dois níveis ou que P1 e P2 têm a mesma variabilidade segundo a va Y Note também que Eyij μi Varyij Vareij σ2e 158 1522 Estimação do Modelo Nosso objetivo é estimar μ1 μ2 e σe 2 no modelo 156 para podermos testar H0 Usaremos estimadores de mínimos quadrados Poderíamos usar também estimadores de máxima verossimilhança pois sabemos que nossas observações têm distribuição normal Temos que de 156 os resíduos são dados por eij yij μi 159 e a soma dos quadrados dos resíduos é dada por SQ e y ij j n i ij j n i i i i μ μ μ 1 2 2 1 1 2 1 1 2 2 y y j j n j j n 1 1 1 2 2 1 2 2 1 2 μ μ ou seja SQ e e j j n j j n μ μ 1 2 1 2 1 2 2 1 1 2 1510 cap15dp65 2192009 1456 426 1 5 2 M O D E L O P A R A D U A S S U B P O P U L A Ç Õ E S 427 Observe que essa soma de quadrados é uma função de μ1 e μ2 Se as variâncias residuais das duas subpopulações não fossem iguais essa soma seria mais afetada por aquele nível que tivesse maior variância e isso deveria influenciar a escolha dos estimadores Nesse caso uma sugestão seria então minimizarmos a expressão 1510 com eij 2 substituída por eijσi2 com Vareij σi 2 o que conduz a estimadores de mínimos quadrados ponderados Derivando 1510 em relação a μ1 e μ2 obtemos SQ y i i ij j n i i μ μ μ μ 1 2 1 2 0 1 2 do que segue que os estimadores são dados por ˆ μ1 1 1 1 1 1 1 n y y j j n 1511 ˆ μ2 2 2 1 2 2 1 n y y j j n 1512 que são as médias das observações dos níveis l e 2 respectivamente Logo SQ y y y y j j n j j n μ μ 1 2 1 1 1 2 2 1 2 2 1 2 ˆ ˆ 1513 Podemos pensar em 1513 como a quantidade total de informação quadrática perdida pela adoção do modelo 156 Essa soma é também denominada soma dos quadrados dos resíduos Vejamos outra maneira de escrever essa soma Dentro do grupo dos homens a variância da subpopulação P1 pode ser estimada por S n y y j j n 1 2 1 1 1 1 2 1 1 1 1514 e a variância da subpopulação P2 das mulheres é estimada por S n y y j j n 2 2 2 2 1 2 2 1 1 2 1515 Seguese que SQ n S n S μ μ 1 2 1 1 2 2 2 2 1 1 ˆ ˆ 1516 cap15dp65 2192009 1456 427 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 428 Temos acima dois estimadores nãoviesados do mesmo parâmetro σe 2 e portanto podemos definir uma variância amostral ponderada S n S n S n n e 2 1 1 2 2 2 2 1 2 1 1 2 1517 e usando 1516 podemos escrever S SQ n e 2 1 2 2 μ μ ˆ ˆ 1518 se n n1 n2 Vemos que S2 e é a quantidade média de informação quadrática perdida e é um estimador nãoviesado de σ 2 e Observe que esse é o mesmo estimador definido em 1310 Temos portanto um primeiro enfoque para estimar a variância desconhecida σe 2 por meio da variância devida ao erro ou variância dentro de amostras dada por Se 2 que é baseada nas variâncias amostrais dadas por 1514 e 1515 A soma de quadrados 1516 é também chamada de soma de quadradros dentro dos grupos Um outro enfoque será visto mais adiante e que consiste em estimar σe 2 através de uma variância entre amostras baseada na variabilidade entre as médias amostrais também chamada variação devida ao fator Exemplo 151 continuação Para os dados da Tabela 151 temos Grupo dos Homens nível l y y y j j 1 1 1 10 1 2 1 2 110 1 670 9 74 54 S Grupo das Mulheres nível 2 y y y j j 2 2 1 10 2 2 2 2 104 9 566 9 62 99 S Seguese que S S e e 2 670 9 566 9 18 1 237 8 18 68 77 8 29 Note que a soma dos quadrados dos resíduos é SQ y y μ μ 1 2 1 2 1 237 8 SQ ˆ ˆ Observe também que y1 e y2 denotam os tempos médios estimados de reação ao estímulo dos homens e mulheres respectivamente Uma questão de interesse é a seguinte será que o conhecimento do sexo de um indivíduo ajuda a melhorar a previsão do tempo de reação dele ao estímulo Para responder a essa questão devemos ter algum modelo alternativo para poder comparar os ganhos O modelo usualmente adotado é o mais simples de todos ou seja aquele cap15dp65 2192009 1456 428 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 430 Tabela 154 Resíduos para vários modelos ajustados aos dados do Exemplo 151 Variáveis Resíduos dos Modelos e 1 e 2 e 3 Indivíduo Tempo de Sexo Idade y y i y y ij i y y ij i Reaçâo 1 96 H 20 1150 141 250 2 92 M 20 1550 129 650 3 106 H 20 150 41 750 4 100 M 20 750 49 150 5 98 M 25 950 69 525 6 104 H 25 350 61 075 7 110 H 25 250 01 675 8 101 M 25 650 39 225 9 116 M 30 850 111 825 10 106 H 30 150 41 175 11 109 H 30 150 11 125 12 100 M 30 750 49 775 13 112 M 35 450 71 125 14 105 M 35 250 01 575 15 118 H 35 1050 79 725 16 108 H 35 050 21 275 17 113 M 40 550 81 425 18 112 M 40 450 71 525 19 127 H 40 1950 169 975 20 117 H 40 950 69 025 dp 850 829 608 2dp 1700 1658 1216 Nota Nesta tabela estão expressos os resíduos de diversos modelos ajustados aos dados e colocados juntos para comparar os lucros na adoçõo de cada modelo No texto aparece o significado de cada coluna dos resíduos 1523 Intervalos de Confiança Com as suposições feitas sobre os erros podemos escrever y N n y N n e e 1 1 2 1 2 2 2 2 μ σ μ σ 1523 o que permite construir intervalos de confiança separados para os dois parâmetros μ1 e μ2 como já vimos anteriormente Esses têm a forma y t S n i i e i γ 1 2 1524 cap15dp65 2192009 1456 430 1 5 2 M O D E L O P A R A D U A S S U B P O P U L A Ç Õ E S 431 onde tγ é o valor crítico da distribuição t de Student com v n 2 graus de liberdade tal que P t t n t γ γ γ 2 0 γ 1 Observe que o número de graus de liberda de é n 2 e não ni l porque Z y n N i i i i e μ σ 0 1 W n S n e e 2 2 2 2 2 σ χ e portanto Z W n n y S i i i i e 2 μ tem distribuição tn 2 pelo Teorema 71 Daqui obtemos 1524 Exemplo 151 continuação Para o Exemplo 151 temos IC μ1 0 95 110 10 2 101 8 29 10 104 59 115 61 IC μ2 0 95 104 90 2 101 8 29 10 99 39 110 41 com t095 2101 encontrado na Tabela V com v 18 graus de liberdade Ainda com as suposições feitas podemos concluir que y y N n n e e 1 2 1 2 2 1 2 2 μ μ σ σ 1525 de modo que a estatística T y y S n n e 1 2 1 2 1 2 1 1 μ μ 1526 tem distribuição t de Student com v n1 n2 2 n 2 graus de liberdade e um intervalo de confiança para a diferença μ1 μ2 pode ser construído Exemplo 151 continuação Para o exemplo IC μ μ 1 2 1 2 1 2 0 95 1 1 y y t S n n y e 110 1 104 9 2 101 8 29 1 10 1 10 2 59 12 99 Este resultado implica que a hipótese H0 1 2 μ μ 1527 cap15dp65 2192009 1456 431 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 432 não pode ser rejeitada no nível α 005 já que o zero pertence ao intervalo Isso está de acordo com o resultado já apontado de que o conhecimento do sexo de um indiví duo não irá ajudar a prever o tempo de reação ao estímulo O teste da hipótese para 1527 com as suposições adotadas é feito usando a esta tística 1526 com n1 n2 2 gl obtendose o valor observado t0 140 que compa rado com o valor crítico de 2101α 5 e l8 gl leva à nãorejeição da hipótese como foi visto acima 1524 Tabela de Análise de Variância As operações processadas anteriormente podem ser resumidas num quadro para facilitar a análise Se 1527 for válida o modelo adotado será yij μ eij e a quantidade de informação perdida devida aos resíduos será dada por SQ y y ij j n i i μ 1 1 2 2 ˆ 1528 que iremos chamar de soma de quadrados total abreviadamente SQTot Analogamente adotado o modelo 154 a quantidade de informação perdida é dada por 1513 ou 1516 e que chamamos de soma de quadrados dos resíduos abreviadamente SQRes ou soma de quadrados dentro dos dois grupos abreviadamente SQDen A economia obtida ao passarmos de um modelo para outro será SQTot SQDen SQEnt 1529 que chamaremos de soma de quadrados entre grupos Não é difícil provar que veja o problema 18 SQEnt n y y i i i 1 2 2 1530 Observando essa expressão vemos que ela representa a variabilidade entre as médi as amostrais ou seja uma distância entre a média de cada grupo e a média global Donde o nome soma de quadrados entre grupos Quanto mais diferentes forem as médias yi i 1 2 maior será SQEnt e conseqüentemente menor será SQDen As quantidades QMTot SQTot n 1 1531 cap15dp65 2192009 1456 432 1 5 2 M O D E L O P A R A D U A S S U B P O P U L A Ç Õ E S 433 e QMDen SQDen n 2 1532 são chamadas quadrado médio total e quadrado médio dentro ou residual respec tivamente Todas essas informações são agrupadas numa única tabela conhecida pelo nome de ANOVA abreviação de ANalysis Of VAriance descrita na Tabela 155 Tabela 155 Tabela de Análise de Variância ANOVA FV gl SQ QM F Entre 1 SQEnt QMEnt QMEntS2 Dentro n 2 SQDen QMDen ou Se 2 Total n 1 SQTot QMTot ou S2 Na primeira coluna temos as descrições das diferentes somas de quadrados tec nicamente indicadas por fontes de variação FV Os graus de liberdade gl da segunda coluna estão associados às respectivas somas de quadrados sendo que o número de gl da SQE é obtido por subtração Falaremos abaixo sobre QMEnt e a razão F QMEntQMDen Exemplo 151 continuação Com os dados obtidos anteriormente para o Exemplo 151 podemos construir a tabela ANOVA para o modelo 154 O resultado está na Tabela 156 Tabela 156 Tabela ANOVA para o Exemplo 151 FV gl SQ QM F Entre 1 13520 13520 197 Dentro 18 123780 6877 Total 19 137300 7226 Da ANOVA encontramos os desvios padrões residuais Se 68 77 8 29 do mo delo completo 154 e S 72 26 8 50 do modelo reduzido 1519 A econo mia propiciada ao passar de um modelo para outro em termos de soma de quadrados é 13520 e em termos de quadrados médios comparando 7226 e 6877 Proporcio nalmente economizamos 135 20 1 373 00 0 0985 9 85 cap15dp65 2192009 1456 433 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 434 ou seja aproximadamente 10 na SQ de resíduos Podemos dizer que essa é a pro porção da variação explicada pelo modelo 159 Essa medida é chamada coeficiente de explicação do modelo denotada por R2 SQEnt SQTot 1533 Essa medida já foi usada na seção 46 Veja o problema 27 A conveniência ou não do modelo 154 está associada ao teste 1527 já que aceitar essa hipótese implica a adoção do modelo 1519 Com as suposições feitas a estatística para o teste é 1526 que sob H0 fica T y y S n n e 1 2 1 2 1 1 1534 que tem distribuição tn1 n2 2 Também sabemos que o quadrado de T tem distri buição F1 n1 n2 2 ver seção 133 Contudo QMEnt SQEnt n y y n y y 1 1 2 2 2 2 e como y n y n y n n 1 1 2 2 1 2 podemos escrever QMEnt n n n n y y y y n n 1 2 1 2 1 2 2 1 2 2 1 2 1 1 1535 Logo concluímos que T y y S n n S F e e 2 1 2 2 2 1 2 2 1 1 QMEnt 1536 Essa é a estatística que aparece na última coluna da tabela ANOVA Portanto po demos usar F com 1 n 2 graus de liberdade para testar a hipótese 1527 Rejeita remos H0 se F c c determinado pelo nível de significância do teste Exemplo 154 Da ANOVA da Tabela 156 vemos que o valor da estatística F é 197 Consultando a Tabela VI com 118 gl e α 005 encontramos o valor crítico 441 Logo não rejeitamos H0 μ1 μ2 Isso significa que não há vantagem em usar o modelo 154 no lugar de 1519 cap15dp65 2192009 1457 434 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 436 para i 1 2 3 4 5 níveis de idade e j 1 2 3 4 quatro indivíduos para cada nível de idade Na Figura 152 temos os box plots da variável resposta tempo de reação estímulo para cada nível do fator idade Vemos claramente que o tempo aumenta com a idade Figura 152 Box plots para a variável Y estímulo para cada nível de idade 130 120 110 100 90 20 25 30 35 40 Idade Estímulo Agora queremos minimizar SQ μ μ μ 1 5 2 1 4 1 5 yij i j i 1538 com as hipóteses Eeij 0 para todo i j e Vareij σe 2 para todo i j É fácil verificar que os estimadores das médias μi são ˆ μi i ij j i n y y i 1 1 2 5 1 4 1539 e que SQDen SQRes SQ μ μ 1 5 2 1 4 1 5 y y ij i j i ˆ ˆ ou seja SQDen n S i i i 1 2 1 5 cap15dp65 2192009 1457 436 1 5 3 M O D E L O P A R A M A I S D E D U A S S U B P O P U L A Ç Õ E S 437 onde S2 é variância amostrals do iésimo nível grupo de idade Todas essas variâncias amostrais são estimadores nãoviesados de σe 2 logo podese novamente considerar o estimador ponderado S n S n n e i i i 2 2 1 5 1 5 5 SQDen 1540 Para nossos dados obtemos 1 i l 20 anos y1 98 5 y y S j j 1 1 4 1 2 1 2 107 0 35 67 2 i 2 25 anos y2 103 25 y y S j j 2 1 4 2 2 2 2 78 75 26 25 3 i 3 30 anos y3 107 75 y y S j j 3 1 4 3 2 3 2 132 75 44 25 4 i 4 35 anos y3 110 75 y y S j j 4 1 4 4 2 4 2 94 75 31 58 5 i 5 40 anos y3 117 25 y y S j j 5 1 4 5 2 5 2 140 75 46 92 Seguese que Se 2 55415 3693 Se 608 A tabela ANOVA para o fator idade está na Tabela 157 Tabela 157 Tabela ANOVA para o Exemplo 151 com fator idade FV gl SQ QM F Entre 4 81900 20475 554 Dentro 15 55400 3693 Total 19 137300 7226 Da tabela concluímos que houve uma redução substancial na soma de quadrados 819 unidades quadradas ou seja R2 819 1 373 59 65 cap15dp65 2192009 1457 437 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 438 isto é aproximadamente 60 da variação total é explicada pelo fator idade reduzindo o erro quadrático médio de 850 para 608 Como antes podemos construir os intervalos de confiança para os parâmetros μi Por exemplo para o grupo de idade de 25 anos IC μ2 0 95 103 25 2 131 6 08 2 96 77 109 73 Os resíduos desse modelo encontramse na Tabela 154 coluna e3 e verifi camos que eles diminuíram bastante indicando a boa capacidade de previsão do modelo A análise dos resíduos na Figura 153 não sugere violação de nenhuma das suposições feitas Figura 153 Resíduos do modelo yij μi eij para o fator idade 1216 2se se se 2se 608 608 1216 20 anos 25 anos 30 anos 35 anos 40 anos 000 Todas as idades y y y y y y A hipótese H0 1 5 μ μ 1541 pode ser testada usandose o valor 554 da estatística F Da Tabela VI encontramos que o valor crítico de F415 com α 005 é 306 logo rejeitamos H0 Ou seja há evidências de que os tempos médios de reação para os diversos grupos de idade não sejam todos iguais cap15dp65 2192009 1457 438 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 440 Um modo de investigar a causa da rejeição é comparar os grupos dois a dois Como já foi visto na seção 152 isso pode ser feito por meio da construção de intervalos de confiança para a diferença obtendose por exemplo IC μ μ γ γ 1 2 1 2 1 2 1 1 y y t S n n e 1542 com tγ obtido de uma distribuição t de Student com n I graus de liberdade Podería mos então construir os intervalos para todos os possíveis pares e observandose aqueles que não contêm o valor zero obter conclusões sobre a razão da rejeição Exemplo 155 Investigando o efeito da idade vimos que a hipótese H0 foi rejeitada O intervalo de confiança para a diferença de duas médias quaisquer seria dado por IC μ μ i j i j y y 0 95 2 131 6 08 1 4 1 4 y y i j 9 16 Seguese que grupos de idade cuja diferença de médias seja superior a 916 seriam diferentes Na Tabela 158 observase que se aceita a igualdade apenas para grupos vizinhos indicando uma relação mais forte entre as variáveis fato que será explorado no próximo capítulo Tabela 158 Médias e diferenças de médias para os diversos grupos de idades para o Exemplo 151 Grupo 20 anos 25 anos 30 anos 35 anos 40 anos Média 9850 10325 10775 11075 11725 Diferença 475 450 300 650 No entanto com esse procedimento não se pode controlar as probabilidades do erro de tipo I ou seja a probabilidade de rejeitar uma hipótese verdadeira Por exemplo suponhamos que todas as médias sejam iguais No problema acima com cinco grupos e sob a hipótese nula teríamos então 5 2 10 possíveis comparações duas a duas cada uma testada no nível de 5 e a probabilidade de que pelo menos uma das comparações exceda 916 é bem maior do que 5 na realidade pode ser mostrado que essa probabilidade está em torno de 29 Essa probabilidade cresce com o número de comparações Para controlar melhor essa probabilidade global do erro de tipo I pode ser usada uma correção baseada na desigualdade de Bonferroni ver problema 19 Usase então o intervalo IC μ μ γ γ i j i j e i j y y t S n n 1 1 1543 onde o único valor que muda é o de tγ que tem o mesmo número de graus de liberdade mas o nível de significância agora é α αm onde m é o número de comparações duas a duas que desejamos fazer cap15dp65 2192009 1458 440 1 5 5 T E S T E D E H O M O S C E D A S T I C I D A D E 441 Exemplo 156 No Exemplo 155 α 00510 0005 Da Tabela V com 15 graus de liberdade encontramos t 3438 obtido por interpolação linear e então IC μ μ i j y y 0 95 3 438 6 08 1 2 1 2 y y 1 2 14 78 Rejeitaremos H0 para diferenças maiores do que 1478 e vemos que apenas existe diferença entre os grupos de 20 e 40 anos Os intervalos de Bonferroni são conservadores pois o nível α real será menor do que aquele nominal e essa diferença aumenta com m Portanto recomendase que o seu uso seja restrito a um número pequeno de comparações 11 Queremos verificar o efeito do tipo de impermeabilização em lajes de concreto As quan tidades de água que passaram pela laje em cada tipo foram medidas durante um mês obtendose os valores da tabela abaixo Que conclusão pode obter l II III IV 56 64 45 42 55 61 46 39 62 50 45 45 59 55 39 43 60 56 43 41 12 Os dados abaixo vêm de um experimento completamente aleatorizado onde 5 processos de estocagem foram usados com um produto perecível por absorção de água 25 exemplares desse produto foram divididos em cinco grupos de cinco elementos e após uma semana mediuse a quantidade de água absorvida Os resultados codificados estão no quadro abai xo Existem evidências de que os processos de estocagem produzem resultados diferentes Sexo A B C D E 8 4 1 4 10 6 2 2 6 8 7 0 0 5 7 5 2 1 5 4 8 3 3 4 9 155 Teste de Homoscedasticidade Uma das suposições básicas para a aplicação da técnica de ANOVA é a de homoscedasticidade ou seja que a variância seja a mesma em todos os níveis Muitas Problemas cap15dp65 2192009 1458 441 1 5 6 E X E M P L O C O M P U T A C I O N A L 443 Consultando a Tabela IV com 4 gl e α 005 encontramos χc 2 111 e portanto não rejeitamos a hipótese H0 de igualdade de variâncias 156 Exemplo Computacional Vamos utilizar o Minitab para ilustrar o uso de um pacote para resolver um problema de análise de variância Retomemos o Exemplo 151 como fator idade O Quadro 151 mostra a saída do Minitab usando a opção ANOVA do menu Observe que os valores encontrados coincidem com aqueles já obtidos na seção 153 Tabela 157 O valorp do teste de igualdade de médias é indicado por P 0006 A saída mostra também as estimativas das médias dos grupos os desvios padrões e o desvio padrão ponderado Se 608 Os intervalos de confiança individuais estão mostrados de forma pictórica com uma escala anexa notandose intersecções que levam à rejeição da hipótese de igualdade de médias Quadro 151 ANOVA para o Exemplo 151 Minitab Oneway Analysis of Variance Analysis of Variance for C1 Source DF SS MS F P C2 4 8190 2048 554 0006 Error 15 5540 369 Total 19 13730 Individual 95 CIs For Mean Based on Pooled StDev Level N Mean StDev 20 4 9850 597 25 4 10325 512 30 4 10775 665 35 4 11075 562 40 4 11725 685 Pooled StDev 608 100 110 120 Na Figura 153 temos os resíduos para cada nível do fator idade bem como os resíduos para todas as idades Na Figura 154 vemos os box plots desses resíduos por nível e na Figura 155 o box plot dos resíduos para todas as idades cap15dp65 2192009 1459 443 C A P Í T U L O 1 5 I N F E R Ê N C I A P A R A V Á R I A S P O P U L A Ç Õ E S 444 Figura 154 Box plots para os resíduos por nível do fator idade 10 20 25 30 35 40 Idade Resíduos 10 10 Figura 155 Boxplot para os resíduos de todas as idades 10 Resíduos 10 10 157 Problemas e Complementos 13 A seção de treinamento de uma empresa quer saber qual de três métodos de ensino é mais eficaz O encarregado de responder a essa pergunto pode dispor de 24 pessoas para verificar a hipótese Ele as dividiu em três grupos de oito pessoas de modo aleatório e submeteu cada grupo a um dos métodos Após o treinamento os 24 participantes foram submetidos a um mesmo teste cujos resultados estão na tabela abaixo quanto maior a nota melhor o resultado Quais seriam as conclusões sobre os métodos de treinamento Método 1 Método 2 Método 3 3 8 4 7 6 7 5 4 4 4 7 9 2 3 3 2 8 10 4 9 8 5 6 9 Σxi 38 37 62 Σxi 2 224 199 496 14 Querse testar o efeito do tipo de embalagem sobre as vendas do sabonete Sebo As embalagens são as seguintes A a tradicional embalagem preta B cartolina vermelha C papel alumínio rosa Escolheramse três territórios de venda com potenciais de vendas supostamente idênticos cap15dp65 2192009 1459 444 1 5 7 P R O B L E M A S E C O M P L E M E N T O S 445 Cada tipo de embalagem foi designado aleatoriamente a uma região e as vendas obser vadas durante 4 semanas obtendose os resultados da tabela abaixo Quais seriam suas conclusões e críticas a esse experimento Réplicas Embalagens Semanas A B C 1 15 21 9 2 20 23 13 3 9 19 20 4 12 25 18 Total 56 88 60 15 Um produtor de gelatina em pó está testando um novo lançamento e quer verificar em que condições de preparo o produto seria mais bem aceito Vinte e quatro donasdecasa atribuíram notas 0 a 10 para o prato que produziram com o produto Junto com o produto foram fornecidos quatro tipos de receitas duas para doces A e D e duas para salgados B e C Feita a análise estatística quais recomendações você faria ao produtor Discuta a validade das suposições feitas para resolver o problema Receita A B C D 2 4 3 3 5 7 5 6 1 3 1 2 7 9 9 8 2 4 6 1 6 8 8 4 16 Num curso de extensão universitária entre outras informações obtevese informação sobre salário e área de formação académica com os seguintes resultados Formação ni x s Humanas 65 2875 354 Exatas 12 3521 546 Biológicas 8 4390 493 Aqui ni indica a frequência x o salário médio e s o desvio padrão amostral Teste a hipótese de que os salários médios nessas três áreas é o mesmo 17 Suspeitase que quatro livros escritos sob pseudónimo são de um único autor Uma pequena investigação iniciai selecionou amostras de páginas de cada um dos livros contandose o número de vezes que determinada construção sintática foi usada Com os resultados abaixo quais seriam as suas conclusões cap15dp65 2192009 1459 445 161 Introdução No Capítulo 8 introduzimos o conceito de regressão para duas va quantitativas X e Y Vimos que a esperança condicional de Y dado que X x por exemplo denotada por EYx é uma função de x ou seja EYx μx 161 Em 827 definimos precisamente essa função Uma definição similar vale para EXy que será uma função de y Estamos considerando aqui o caso em que X e Y são definidas sobre uma mesma população P Por exemplo X pode ser a idade e Y o tempo de reação ao estímulo no Exemplo 151 Nesse exemplo a análise sugeriu a existên cia de uma relação mais forte entre as duas variáveis e a modelamos por yij μi eij i 1 5 j 1 4 162 onde μi é a média do grupo de idade i Podemos pensar que o fator idade determina cinco subpopulações ou estratos em P e de lá escolhemos cinco amostras aleatórias de tamanhos ni 4 i 1 5 Em 161 μx pode ser qualquer função de x veja o Exemplo 821 Um caso simples de interesse é aquele em que X e Y têm distribuição conjunta normal bidimensional Nesse caso μx e μy são de fato funções lineares Veja a seção 88 Continuando com o Exemplo 151 tanto X idade como Y tempo de resposta ao estímulo são va contínuas e podemos pensar em introduzir um modelo alternativo para yij dada a relação entre X e Y Observando as médias de Y segundo os grupos de idades ou seja EYx percebemos que estas aumentam conforme as pessoas enve lhecem A Figura 161 mostra os dados observados onde notamos uma tendência crescente bem como os valores repetidos de Y para cada nível de idade x Um modelo razoável para EYx pode ser EYx μx α βx 163 ou seja o tempo médio de reação é uma função linear da idade Capítulo 16 Regressão Linear Simples cap16cp65 2192009 1511 449 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 450 Figura 161 Gráfico de dispersão de idade e rea ção ao estímulo com reta ajustada A forma da função μx deve ser definida pelo pesquisador em função do grau de conhecimento teórico que ele tem do fenômeno sob estudo Um modelo alternativo a 162 seria então yij μxi eij 164 com EYxi μxi α βxi i 1 2 5 Entretanto a forma usual de escrever o modelo é yi μxi ei 165 onde yi indica o tempo de reação do iésimo indivíduo com xi anos de idade i 1 2 n e n é o número total de observações Teremos então com essa notação valores repetidos para X por exemplo x1 x4 20 Convém reforçar a idéia que estamos propondo um modelo de comportamento para as médias das subpopulações logo teremos de estimar os parâmetros envolvidos na função μx baseados numa amostra de n 20 observações no exemplo No caso de 163 o modelo pode ser escrito como yi EYxi ei α βxi ei i 1 2 n 166 devendose encontrar os valores mais prováveis para α e β segundo algum critério a partir de n observações de pares de valores de X Y Antes de prosseguirmos seria conveniente interpretar os parâmetros envolvidos no mo delo 165 Sabemos que α o intercepto representa o ponto onde a reta corta o eixo das ordenadas e β o coeficiente angular representa o quanto varia a média de Y para um aumento de uma unidade da variável X Esses parâmetros estão representados na Figura 162 Figura 162 Representação do modelo EYx α βx cap16cp65 2192009 1511 450 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 454 1 Usando os dados do Exemplo 151 a Encontre a reta de mínimos quadrados zi α βxi onde z mede a acuidade visual e x a idade b Interprete o significado de α e β nesse problema c Para cada indivíduo encontre o desvio ei zi zi existe algum com valor muito exagerado 2 A tabela abaixo indica o valor y do aluguel e a idade x de cinco casas a Encontre a reta de MQ supondo a relação Eyx α βx b Faça o gráfico dos pontos e da reta ajustada Você acha que o modelo adotado é razoável c Qual o significado do coeficiente angular nesse caso d E do coeficiente linear x 10 13 5 7 20 y 4 3 6 5 2 3 Um laboratório está interessado em medir o efeito da temperatura sobre a potência de um antibiótico Dez amostras de 50 gramas cada foram guardadas a diferentes temperaturas e após 15 dias mediuse a potência Os resultados estão no quadro abaixo a Faça a representação gráfica dos dados b Ajuste a reta de MQ da potência como função da temperatura c O que você acha desse modelo d A que temperatura a potência média seria nula Temperatura 30 50 70 90 Potência 38 43 32 26 33 19 27 23 14 21 4 Ainda usando os dados do exemplo numérico 151 investigue o ajuste da reta de MQ na variável tempo de reação como função da acuidade visual 163 Avaliação do Modelo Nesta seção e nas seguintes estudaremos várias formas de avaliar se o modelo linear postulado é adequado ou não dadas as suposições que fizemos sobre ele 1631 Estimador de σσσσσ 2 e Como no capítulo anterior para julgar a vantagem da adoção de um modelo mais complexo linear ou outro qualquer vamos usar a estratégia de comparálo com o modelo mais simples que é aquele discutido na seção 152 ou seja yi μ ei 1619 A vantagem será sempre medida por meio da diminuição dos erros de previsão ou ainda da variância residual S2 e Para o modelo ajustado 1616 cada resíduo é dado por ei yi y i yi α β xi 1620 Problemas cap16cp65 2192009 1511 454 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 458 1633 Tabela de Análise de Variância Do mesmo modo como foi feito na seção 152 podemos resumir as informações anteriores numa única tabela ANOVA ilustrada na Tabela 162 Tabela 162 Tabela ANOVA para modelo de regressão FV gl SQ QM F Regressão 1 SQReg SQReg QMReg QMRegS 2 e Resíduo n 2 SQRes SQResn 2 S 2 e Total n 1 SQTot SQTotn 1 S 2 Também podemos medir o lucro relativo que se ganha ao introduzir o modelo usando a estatística R2 SQReg 1634 SQTot definida anteriormente A estatística F será discutida na seção 164 Exemplo 163 Dos cálculos que nos levaram ao modelo 1618 podemos construir a Tabela 163 Temos que R 2 810 59 1373 Tabela 163 Tabela ANOVA para o modelo 1618 FV gl SQ QM F Regressão 1 810 810 2590 Resíduo 18 563 3128 Total 19 1373 7226 O modelo proposto diminui a variância residual em mais da metade e explica 59 da variabilidade total Verificamos então que é vantajosa a adoção do modelo linear 1618 para explicar o tempo médio de reação ao estímulo em função da idade A estratégia adotada para verificar se compensa ou não utilizar o modelo y α βx e é observar a redução no resíduo quando comparado com o modelo y μ e Se a redução for muito pequena os dois modelos serão praticamente equivalentes e isso ocorre quando a inclinação β for zero ou muito pequena não compensando usar um modelo mais complexo Estaremos pois interessados em testar a hipótese H0 β 0 1635 o que irá exigir que se coloque uma estrutura de probabilidades sobre os erros Esse assunto será objeto da próxima seção A Figura 164 ilustra as duas situações que podem ocorrer cap16cp65 2192009 1511 458 1 6 3 A V A L I A Ç Ã O D O M O D E L O 459 Na Figura 164 a temos o caso em que claramente a variável auxiliar ajuda a prever a variável resposta Na situação da Figura 164 b teremos dúvidas se vale a pena ou não introduzir um modelo mais complexo ganhando muito pouco em termos de explicação Figura 164 Retas ajustadas a dois conjuntos de dados a x explica y b x não explica y Para a avaliação final do modelo devemos investigar com mais cuidado o compor tamento dos resíduos o que será feito na seção 165 5 Usando os resultados do Problema 1 construa a tabela ANOVA para o modelo z α β x encontrado naquele problema a Qual a estimativa S 2 E S 2 e b Você acha que a redução nos resíduos foi grande c Qual o valor de R 2 Interprete esse número 6 Um estudo sobre duração de certas operações está investigando o tempo requerido em segundos para acondicionar objetos e o volume em dm3 que eles ocupam Uma amostra foi observada e obtiveramse os seguintes resultados Tempo 108 144 196 180 84 152 110 133 231 Volume 2039 2492 3484 3172 1359 3087 1784 2322 3965 a Faça o diagrama de dispersão dos dados b Estime a reta de regressão do tempo de operação em função do volume c Construa a tabela ANOVA para o modelo d Qual o valor de S2 É pequeno quando comparado com S 2 e e Você acha que conhecer o volume do pacote ajuda a prever o tempo de empacotamento 7 Construa a tabela ANOVA para o Problema 2 e interprete os resultados 8 Construa a tabela ANOVA com os dados do Problema 3 9 Idem para o Problema 4 Problemas cap16cp65 2192009 1511 459 1 6 5 A N Á L I S E D E R E S Í D U O S 467 ICμ28 095 1057 2101559 1 28 302 20 1000 1057 27 1030 1084 Se quiséssemos saber dentro de que intervalo 95 das futuras observações iriam estar construiríamos o Intervalo de Predição IPYf 095 1057 2101559 1 1 28 302 20 1000 1057 121 936 1178 10 Usando a tabela ANOVA construída no Problema 5 a Construa o ICβ 95 b Construa o ICα 90 c Use a estatística F para testar a hipótese H0 β 0 d Construa o IC para a acuidade visual média do grupo etário de 28 anos e E qual seria o Intervalo de Predição da acuidade visual das pessoas de 28 anos 11 Com as informações do Exemplo 151 e a ANOVA construída no Problema 9 você diria que a acuidade visual ajuda a prever o tempo de reação dos indivíduos Que estatística você usou para justificar seu argumento e por quê 12 Investigando a relação entre a quantidade de fertilizante usado x e a produção de soja y numa estação experimental com 20 canteiros obtevese a equação de MQ y 1500 283x 322 165 Com esses resultados você diria que a quantidade de fertilizante influi na produção Por quê 165 Análise de Resíduos Para verificar se um modelo é adequado temos que investigar se as suposições feitas para o desenvolvimento do modelo estão satisfeitas Para tanto estudamos o compor tamento do modelo usando o conjunto de dados observados notadamente as discrepâncias entre os valores observados e os valores ajustados pelo modelo ou seja fazemos uma análise dos resíduos O iésimo resíduo é dado por e i yi y i i 1 2 n 1660 Lembremos que já utilizamos estes resíduos para obter medidas da qualidade e dos estimadores dos parâmetros do modelo Agora iremos estudar o comportamento indi vidual e conjunto destes resíduos comparando com as suposições feitas sobre os verdadeiros erros ei Existem várias técnicas formais para conduzir essa análise mas aqui iremos ressaltar basicamente métodos gráficos Para mais detalhes ver Draper e Smith 1998 Problemas cap16cp65 2192009 1511 467 1 6 5 A N Á L I S E D E R E S Í D U O S 469 Obtido o gráfico dos resíduos precisamos saber como identificar possíveis inade quações Apresentamos na Figura 167 alguns tipos usuais de gráficos de resíduos A Figura 167 a é a situação ideal para os resíduos distribuídos aleatoriamente em torno do zero sem nenhuma observação muito discrepante Figura 167 Gráficos de resíduos a situação ideal b c modelo nãolinear d elemento atípico e f g heterocedasticidade h nãonormalidade Nas situações b e c temos possíveis inadequações do modelo adotado e as curvaturas sugerem que devemos procurar outras funções matemáticas que expliquem melhor o fenômeno A Figura 167 d mostra a existência de um elemento discrepante e deve ser investigada a razão desse desvio tão marcante Pode ser um erro de medida ou a discrepância pode ser real Em situações como essa em que há observações muito diferentes das demais métodos chamados robustos têm de ser utilizados Os casos e f e g indicam claramente que a suposição de homoscedasticidade mesma variância não está satisfeita Em h parece haver maior incidência de obser vações nos extremos mostrando que a suposição de normalidade não está satisfeita Analisados os resíduos e diagnosticada uma possível transgressão das suposições devemos propor alterações que tornem o modelo mais adequado aos dados e às supo sições feitas A verificação da hipótese de normalidade pode ser realizada fazendose um histograma dos resíduos ou um gráfico de q q como explicado no Capítulo 3 Exemplo 167 continuação A análise dos resíduos do modelo 1618 mostra que esses não violam as suposições de média zero e variância comum A Figura 168 mostra cap16cp65 2192009 1511 469 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 470 o histograma dos resíduos e a Figura 169 mostra um gráfico q q Esse gráfico feito com o SPlus coloca nos eixos das ordenadas os valores crescentes dos e i e no eixo das abscissas os quantis de uma normal padrão Se os valores fossem de uma normal eles deveriam se dispor ao longo de uma reta Notamos que tanto o histograma quanto o gráfico de quantis mostram que os resíduos não são normalmente distribuídos Figura 168 Histograma dos resíduos do modelo 1618 Figura 169 Gráfico q q normalidade para os resíduos do modelo 1618 Quando a suposição de variância comum não estiver satisfeita usualmente fazse uma transformação da variável resposta y ou da preditora x ou de ambas Para detalhes ver Bussab 1986 e a seção 166 Exemplo 168 Num processo industrial além de outras variáveis foram medidas X temperatura média F e Y quantidade de vapor Os dados estão na Tabela 165 Draper Smith 1998 Appendix A cap16cp65 2192009 1511 470 1 6 5 A N Á L I S E D E R E S Í D U O S 471 Tabela 165 Temperatura e quantidade de vapor de um processo industrial No xi yi e i 1 353 1098 0174 2 297 1113 0123 3 308 1251 1345 4 588 840 0531 5 614 927 0547 6 713 873 0797 7 744 636 1326 8 767 850 0998 9 707 782 0161 10 575 914 0106 11 464 824 1680 12 289 1219 0873 13 281 1188 0499 14 391 957 0933 15 468 1094 1052 16 485 958 0173 17 593 1009 1199 18 700 811 0073 19 700 683 1207 20 745 888 1202 21 721 768 0189 22 581 847 0517 23 446 886 1204 24 334 1036 0598 25 286 1108 0261 Fonte Draper e Smith 1998 O gráfico de dispersão e a reta de MQ estão na Figura 1610 a A reta estimada de MQ é dada por y i 9424 00798xi 526 1663 ou ainda y i 13623 00798xi 1664 de modo que α 13623 e β 00798 Os resíduos e i yi y i estão na quarta coluna da Tabela 165 e seu gráfico contra xi na Figura 1610 b O gráfico q q para verifi car a suposição de normalidade está na Figura 1610 c Observamos que há vários pontos afastados da reta cap16cp65 2192009 1511 471 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 472 Figura 1610 a gráfico de dispersão com reta ajustada b resíduos vs temperatura c gráfico q q normalidade 13 Com o modelo linear já obtido para a acuidade visual como função da idade construa os tipos de resíduos apresentados no Exemplo 166 Representeos graficamente Você observa alguma transgressão das suposições básicas Problemas cap16cp65 2192009 1511 472 1 6 6 A L G U N S M O D E L O S E S P E C I A I S 473 14 Para cada gráfico de resíduo abaixo indique qual a possível transgressão observada 15 Abaixo estão os valores da variável preditora x os resíduos observados depois do ajuste do modelo e a ordem em que os dados foram obtidos Preditor 11 20 14 22 12 25 15 Resíduo 1 2 3 3 1 5 0 Ordem 9 6 13 1 7 14 8 Preditor 14 19 21 18 22 16 21 Resíduo 0 3 2 2 5 0 1 Ordem 3 12 4 11 2 10 5 a Verifique se existe alguma possível transgressão das suposições analisando o gráfico xi e i b Faça o gráfico do resíduo contra a ordem do experimento Você observa alguma inconveniência 166 Alguns Modelos Especiais Nesta seção introduziremos alguns modelos particulares simples e que são de interesse prático Iniciamos com o modelo que teoricamente passa pela origem Depois consideramos modelos nãolineares mas que podem ser linearizados por meio de alguma transformação 1661 Reta Passando pela Origem Em algumas situações temos razões teóricas ou ditadas pelas peculiaridades do problema a analisar para supor que o modelo deva ser do tipo yi βxi ei i 1 n 1665 cap16cp65 2192009 1511 473 1 6 6 A L G U N S M O D E L O S E S P E C I A I S 475 Figura 1611 Dados e reta ajustada para o Exemplo 168 1662 Modelos NãoLineares Quando usamos modelos de regressão ou qualquer outro tipo de modelo a situação ideal é aquela em que o pesquisador por razões teóricas inerentes ao problema real sob estudo pode sugerir a forma funcional da relação entre duas ou mais variáveis Na prática isso nem sempre acontece Muitas vezes o pesquisador está interessado em usar técnicas de regressão para explorar modelos convenientes sugeridos pelos dados observados Como vimos o primeiro passo para investigar o tipo de modelo a ser adotado é a representação gráfica dos dados a qual pode sugerir a forma da curva relacionando as variáveis além de fornecer outras informações veja o final da seção 161 Por exemplo com os dados da Tabela 166 obtemos o diagrama de dispersão da Figura 1612 Nota mos claramente a inadequação da reta como modelo sendo que provavelmente uma relação exponencial do tipo fx α eβx 1667 seja mais adequada Um modelo que pode então ser sugerido é yi α eβxi εi i 1 n 1668 Tabela 166 Taxa de Inflação no Brasil de 1961 a 1979 Ano t Inflação Y Y log Y 1961 9 9 22 1963 7 24 32 1965 5 72 43 1967 3 128 48 1969 1 192 52 1971 1 277 56 1973 3 373 59 1975 5 613 64 1977 7 1236 71 1979 9 2639 79 cap16cp65 2192009 1511 475 1 6 6 A L G U N S M O D E L O S E S P E C I A I S 477 εi podem ser negativos positivos ou nulos Portanto para o modelo linear 1673 podemos fazer as suposições usuais das seções anteriores Exemplo 1610 Utilizando os dados da Tabela 166 devemos inicialmente calcular os logaritmos naturais da variável Y Note que nesse exemplo a variável explicativa é o tempo convenientemente codificado Na Figura 1613 temos o diagrama de dispersão dos dados transformados e da reta ajustada a saber yi 527 028t t 9 9 1674 A análise de tal modelo pode ser conduzida como antes Veja o Problema 35 Observe que o modelo original ajustado é y i 19442 e028t i 1 10 1675 pois α e527 Essa curva está representada na Figura 1612 Os resíduos do modelo 1674 transformado e do modelo 1675 original são dados na Tabela 167 e nas Figuras 1614 e 1615 respectivamente Note que em ambos os casos os resíduos não parecem ser aleatórios havendo curvaturas sugerindo a possibilidade de um modelo com termos quadráticos ou cúbicos por exemplo Figura 1613 Diagrama de dispersão para o loga ritmo da inflação com reta ajustada Tabela 167 Resíduos para os modelos linear e exponencial Resíduos Resíduos t Reta Exponencial 9 055 6643 7 011 3386 5 043 24057 3 037 44067 1 021 45061 1 005 19757 3 021 77348 5 027 175412 7 013 145251 9 011 222632 cap16cp65 2192009 1511 477 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 478 Figura 1614 Resíduos da reta ajustada ao logaritmo da inflação versus ano Figura 1615 Resíduos do modelo exponencial ajus tado aos dados originais versus ano Os histogramas e gráficos q q para normalidade dos resíduos estão nas Figuras 1616 e 1617 Notamos que o histograma é assimétrico mostrando claramente o valor correspondente a t 9 Como há poucos pontos a análise de resíduos fica prejudicada o gráfico q q mostra os pontos não muito próximos de retas Figura 1616 Histogramas a resíduos reta ajustada ao log inflação b resíduos modelo exponencial cap16cp65 2192009 1511 478 1 6 7 R E G R E S S Ã O R E S I S T E N T E 479 Figura 1617 Gráficos q q dos resíduos a reta b exponencial 167 Regressão Resistente Nesta seção vamos considerar apenas o caso de regressão linear simples Ou seja temos os valores observados xi yi i 1 n e queremos ajustar o modelo 166 Notamos que os estimadores α e β em 1614 são baseados emxy e desvios em relação a essas médias A regressão resistente baseiase em medianas em vez de médias Inicialmente dividi mos o conjunto dos n pontos em três grupos de tamanhos aproximadamente iguais basea dos principalmente na ordenação da variável x e no gráfico de dispersão Chamemos esses grupos de E de esquerda C de centro e D de direita Se n 3k cada grupo terá k pontos Se n 3k 1 colocamos k pontos nos grupos E e D e k 1 pontos no grupo C Final mente se n 3k 2 colocamos k 1 pontos nos grupos E e D e k pontos no grupo C Para cada grupo obtemos um ponto resumo formado pela mediana dos xi e a mediana dos yi naquele grupo Denominemos esses pontos por xE yE xC yC xD yD Na Figura 1618 temos um exemplo com três grupos com k 3 em cada grupo Figura 1618 Reta resistente com três grupos cap16cp65 2192009 1511 479 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 480 Os estimadores de β e α são dados respectivamente por b0 yD yE 1676 xD xE a0 1 yE b0xE yC b0xC yD b0xD 1677 3 A reta resistente ajustada é yi a0 b0xi i 1 n 1678 Os modelos robustos necessitam muitas vezes recorrer a processos interativos para obter estimadores mais eficientes Isso deve ser feito quando os resíduos não forem bem comportados Não abordaremos esse tópico neste livro Veja Hoaglin et al 1983 para mais informação Exemplo 1611 Voltemos aos dados do exemplo 161 Como n 20 3 6 2 os grupos E C e D serão formados com 7 6 e 7 pontos respectivamente Observando a Figura 161 consideramos os grupos como seguem Grupo E i 2 1 4 3 5 8 6 Idade 20 20 20 20 25 25 25 Y 92 96 100 106 98 101 104 Grupo C i 7 12 10 11 9 14 Idade 25 30 30 30 30 35 Y 110 100 106 109 116 105 Grupo D i 16 13 15 18 17 20 19 Idade 35 35 35 40 40 40 40 Y 108 112 118 112 113 117 127 Os pontos resumidores são xE yE 20 100 xC yC 30 107 5 xD yD 40 112 logo as estimativas dos coeficientes serão cap16cp65 2192009 1511 480 1 6 8 E X E M P L O S C O M P U T A C I O N A I S 481 b0 112 100 06 20 a0 1 100 0620 1075 0630 112 0640 883 3 de modo que a reta resistente ajustada será yi 883 06xi que está representada na Figura 1619 justamente com a reta de MQ dada em 1618 Figura 1619 Reta de MQ e reta resistente para o Exemplo 1611 Na próxima seção daremos um exemplo em que as duas retas a de MQ e a resistente são bastante diferentes 168 Exemplos Computacionais Nesta seção vamos considerar dois exemplos um sobre a aplicação a dados reais do mer cado de ações e outro aplicando regressão resistente a um conjunto de dados com um outlier Exemplo 1612 Retomemos o Exemplo 413 no qual consideramos as variáveis Y preço de ação da Telebrás e X índice da Bolsa de Valores de São Paulo cada uma com n 39 observações O gráfico de dispersão das duas variáveis está na Figura 1620 juntamente com a reta de mínimos quadrados O modelo ajustado é y i 557 093xi e no Quadro 161 temos a saída do programa Minitab Nesta encontramos a Estimativas dos coeficientes α e β juntamente com as estimativas dos desvios padrões respectivos 1085 e 00297 b Valores da estatística t para testar as hipóteses nulas de que os coeficientes são nulos denotadas por T juntamente com o valorp P 0000 mostrando que devemos rejeitar essas hipóteses nulas cap16cp65 2192009 1511 481 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 482 c Uma tabela de análise de variância com o valor F 96944 com 1 e 37 gl e o valorp P 0000 d O valor de R2 963 que nos diz que o modelo ajustado explica a maior parte da variabilidade dos dados Figura 1620 Gráfico de dispersão das variáveis X e Y para o Exemplo 1612 e reta ajustada Quadro 161 Análise do Exemplo 1612 Minitab Regression Analysis The regression equation is Tel 557 0925 Ibv Predictor Coef StDev T P Constant 5570 1085 513 0000 Ibv 092491 002971 3114 0000 S 07614 R Sq 963 R Sq adj 962 Analysis of Variance Source DF SS MS F P Regression 1 56199 56199 96944 0000 Residual Error 37 2145 058 Total 38 58344 Na Figura 1621 temos gráficos que nos auxiliam a fazer um diagnóstico do modelo ajustado Na Figura 1621a temos o gráfico q x q dos quantis dos resíduos contra os quantis da normal padrão para avaliar a normalidade dos resíduos Na Figura 1621b temos o gráfico dos resíduos contra a ordem das observações e na Figura 1621d o gráfico dos resíduos contra os valores ajustados Finalmente na Figura 1621c temos o histograma dos resíduos O que você pode dizer desses gráficos cap16cp65 2192009 1511 482 1 6 8 E X E M P L O S C O M P U T A C I O N A I S 483 Figura 1621 Gráficos após o ajuste do modelo análise de resíduos Exemplo 1611 Minitab Exemplo 1613 Considere os dados da Tabela 168 provenientes da mensuração da velocidade do vento no aeroporto de Philadelphia EUA sempre a uma hora da manhã para os primeiros 15 dias de dezembro de 1974 Graedel e Kleiner 1985 Tabela 168 Velocidade do vento no aeroporto de Philadelphia t vt t vt 1 222 9 204 2 611 10 204 3 130 11 204 4 278 12 111 5 222 13 130 6 74 14 74 7 74 15 148 8 74 Observamos no diagrama de dispersão da Figura 1622 o valor atípico 611 desta cado dos demais pontos A reta de MQ ajustada aos dados é vt 30034 1454t t 1 2 15 1679 e é puxada por esse ponto Essa reta está representada por uma linha cheia na figura cap16cp65 2192009 1511 483 1 6 9 P R O B L E M A S E C O M P L E M E N T O S 485 c Represente a reta de regressão no gráfico feito anteriormente d Qual a posição do ponto xy em relação à reta de regressão e Qual o número esperado de erros para um digitador com 5 meses de experiência 19 Os dados abaixo correspondem às variáveis renda familiar e gasto com alimentação numa amostra de dez famílias representadas em salários mínimos Renda familiar x Gasto com alimentação y 3 15 5 20 10 60 20 100 30 150 50 200 70 250 100 400 150 600 200 800 Obtenha a equação de regressão y α β x a Qual a previsão do gasto com alimentação para uma família com renda de 170 reais b Qual a previsão do gasto para famílias com excepcional renda por exemplo 1000 reais Você acha esse valor razoável Por quê c Se você respondeu que o valor obtido em b não é razoável encontre uma explica ção para o ocorrido Sugestão interprete a natureza das variáveis X e Y e o compor tamento de Y para grandes valores de X 20 A análise do lucro anual de uma ação como função linear da sua cotação média anual forneceu os resultados abaixo com alguns campos em branco Preencha as lacunas e interprete os resultados ANOVA Fonte gl SQ QM F Regressão 1209 Resíduo Total 11 1766 Modelo Descrição Coef EP t valorp LI 95 LS 95 Intercepto 4900 2200 0055 134 Cotação 030 007 0003 045 21 Um jornal quer verificar a eficácia de seus anúncios na venda de carros usados A tabela abaixo mostra o número de anúncios publicados e o correspondente número de cap16cp65 2192009 1511 485 C A P Í T U L O 1 6 R E G R E S S Ã O L I N E A R S I M P L E S 486 carros vendidos por seis companhias que usaram apenas esse jornal como veículo de propaganda Companhia A B C D E G Anúncios 74 45 48 36 27 16 Carros vendidos 139 108 98 76 62 57 Ajustandose a reta de regressão obtevese y 1516x 27844 e F 7017 Como você argumentaria com a companhia G para que ela aumentasse o número de anúncios aumentando a venda de carros 22 O custo de manutenção de tratores parece aumentar com a idade do trator Os seguin tes dados foram obtidos X representa idade em anos e Y o custo por seis meses a Ajuste o modelo y β 0 β 1x e teste a hipótese de interesse para o nível α 010 b Devemos procurar um modelo mais adequado c Determine uma previsão para o custo de manutenção para tratores com 5 anos de idade e obtenha um intervalo de confiança com γ 090 d Teste as hipóteses H0 β0 300 H1 β0 300 para o nível α 005 X Y 05 163 05 182 10 978 10 466 10 549 40 495 40 723 40 681 45 619 45 1049 45 1033 50 890 50 1522 50 1194 55 987 60 764 60 1373 23 Origem do Termo Regressão O uso do termo regressão devese a Francis Galton por volta de 1885 quando investigava relações entre características antropométricas de sucessivas gerações Uma de suas constatações era de que cada peculiaridade de um homem é transmitida aos seus descendentes mas em média numa intensidade menor Por exemplo embora pais com baixa estatura tendam a ter filhos também com baixa estatura estes têm altura média maior do que a altura média de seus pais O mesmo ocorre mas em direção contrária com pais com estatura alta Essa afirmação pode ser mais bem compreendida observandose os dados usados por Galton e representados parcialmente na Figura 1623 Se as características permanecessem as mesmas de cap16cp65 2192009 1511 486 1 6 9 P R O B L E M A S E C O M P L E M E N T O S 487 geração para geração esperarseia que a reta de regressão tivesse seu coeficiente angular próximo de 1 Em sua análise Galton encontrou o valor 0516 mostrando que a reta tende para aquela paralela ao eixo x e passando pela média y y A esse fenômeno de a altura dos filhos moverse em direção à altura média de todos os ho mens ele chamou de regressão e às vezes de reversão tendo aparecido num artigo de 1885 no Journal of the Anthropological Institute com o título Regression Towards Mediocrity in Hereditary Stature Regressão para a Mediocridade em Estaturas Hereditárias mediocridade aqui referindose a média Figura 1623 Média da altura de filhos contra altura com posta dos pais baseada no estudo de Galton Os dados abaixo referemse a outro experimento de Galton dentro da mesma investiga ção procurando estudar a relação entre o diâmetro em centésimos de polegada de ervilhaspais x e ervilhasfilhas y Analise a reta de regressão para os dados e interprete os coeficientes Diâmetros em 001 de polegadas de sementes de ervilhas Pais x 150 160 170 180 190 200 210 Filhos y 154 157 160 163 166 170 173 24 Um pesquisador deseja verificar se um instrumento para medir concentração de ácido lático no sangue está bem calibrado Para isso ele tomou 20 amostras de concentrações conhecidas e determinou a respectiva concentração através do instrumento Como uma análise de regressão poderia auxiliar o pesquisador Modele o problema acima espe cificando as variáveis independente e dependente e as hipóteses de interesse 25 Os dados abaixo correspondem a duas variáveis X e Y onde X concentração conhecida de ácido lático e Y concentração de ácido lático registrada pelo instrumento cap16cp65 2192009 1511 487 Livros Básicos BLACKWELL D Estatística básica São Paulo Editora McGrawHill do Brasil Ltda 1973 BUSSAB W O Análise de variância e de regressão São Paulo Atual 1986 FELLER W An introduction to probability theory and its applications Volume I 2a edição Nova York Wiley 1964 HAMMERSLEY J M e HANDSCOMB D C Monte Carlo methods Nova York Wiley 1964 MORETTIN P A HAZZAN S e BUSSAB W O Cálculo funções de uma e várias variáveis São Paulo Editora Saraiva 2005 HELENE O A M e VANIN V R Tratamento estatístico de dados São Paulo Edito ra Edgard Blücher Ltda 1981 MEYER P L Introductory probability and statistical applications Reading Addison Wesley 1965 MORETTIN P A Introdução à estatística para ciências exatas São Paulo Atual 1981 MURTEIRA B J Análise exploratória de dados Lisboa McGrawHill 1993 SOBOL I M Método de Monte Carlo Moscow Editorial MIR 1976 STUART A The ideas of sampling Nova York MacMillan Publishing Company 1984 TUKEY J W Exploratory data analysis Reading AddisonWesley 1977 Livros Mais Avançados BUSSAB W O e BOLFARINE H Elementos de amostragem São Paulo Editora E Blücher 2005 CHAMBERS J M CLEVELAND W S KLEINER B e TUKEY P A Graphical methods for data analysis Nova York Chapman and Hall 1983 CONOVER W J Pratical nonparameric statistics Nova York Wiley 1971 DAVISON A C e HINKLEY D V Bootstrap methods and their application Cambridge University Press 1997 DIXON W J e MASSEY F J Introduction to statistical analysis 2a edição Nova York McGrawHill 1957 DRAPER N R e SMITH H Applied regression analysis 3a edição Nova York Wiley 1998 EFROM B e TIBSHIRANI R J An introduction to the bootstrap Nova York Chapman and Hall 1993 FISHER R A The design of experiments Edimburgo Oliver and Boyd 1935 Statistical methods for research workers 12th edition New York Hafner 1954 HOAGLIN D C MOSTELLER F e TUKEY J W Understanding robust and exploratory data analysis Nova York Wiley 1983 KLEIJNEN J e VAN GROENENDAAL W Simulation a statistical perspective Chichester John Wiley and Sons 1994 R E F E R Ê N C I A S cap17bReferenciasp65 2192009 1517 495 496 E S T A T Í S T I C A B Á S I C A LEHMANN E L Nonparametrics statistical methods based on ranks São Francisco HoldenDay 1975 MORETTIN P A e TOLOI C M C Análise de séries temporais Segunda Edição São Paulo Editora Edgard Blücher 2006 OHAGAN A Bayesian inference London Edward Arnold 1994 PERES C A e SALDIVA C D Planejamento de experimentos São Paulo 5o SINAPE 1982 ROSS C A Simulation 2a edição Nova York Academic Press 1997 Artigos de Interesse BOX G E P e MÜLLER M E A note on the generation of random normal deviates Annals of Statistics 29 pp 610611 1958 EFRON B Bootstrap methods another look at the jackknife Annals of Statistics 7 pp 126 1979 EFRON B e GOUS A Bayesian and frequentist model selection TR n 193 Division of Biostatistics Stanford University 1997 FREEDMAN D e DIACONIS P On the maximum deviation between the histogram and the underling density Zeitschrift für wahrscheinlichkeits theorie und Verwandte Gebiete 58 pp139167 GRAEDEL T E e KLEINER B Exploratory analysis of atmospheric data Probability Statistics and Decision Making in the Atmospheric Sciences A H Murphy and R W Katz Editors pp 143 Boulder Westview Press 1985 METROPOLIS N e ULAM S The Monte Carlo method Journal of The American Statistical Association 44 pp 335341 1949 NEYMAN J Probabilidade e Estatística Freqüentista Rio de Janeiro IMPACNPq 1978 SALDIVA P H N LICHTENFELS A J F C PAIVA P S O BARONE I A MARTINS M A MASSAD E PEREIRA J C R XAVIER V P SINGER J M e BÖHM G M Association between air pollution and mortality due to respiratory diseases in children in São Paulo a preliminary report Environmental Research 65 pp 218226 1994 SINGER J M e ANDRADE D F Regression models for the analysis of pretest data Biometrics 53 pp 729735 1997 VON NEUMANN J Various techniques used in connection with random digits Monte Carlo Method U S National Bureau of Standards Applied Mathematical Series 12 pp 36 38 1951 Tabelas HARTER H L e OWEN D B Selected tables in mathematical statistics Volume 1 Chi cago Markham 1970 MILLER L H Table of percentage points of Kolmogorov statistics Journal of the American Statistical Association 51 pp 11121 1956 PEREIRA J S C e BUSSAB W O Tábuas de estatística e matemática São Paulo Brasiliense 1974 cap17bReferenciasp65 2192009 1517 496 Regiões UF Superfície População Densidade Norte RO 237576167 1453756 612 AC 164165250 653385 399 AM 1559161810 3221940 207 RR 224298980 395725 176 PA 1247689515 7065573 566 AP 142814585 587311 411 TO 277620914 1243627 448 Subtot 3853327 14623317 379 Nordeste MA 331983293 6118995 1843 PI 251529186 3032435 1206 CE 148825602 8185250 550 RN 52796791 3013740 5708 PB 56439838 3641397 6452 PE 98311616 8486638 8632 AL 27767661 3037231 10838 SE 21910348 1939426 8852 BA 564692669 14080670 2494 Subtot 1554257 51535782 3316 A seguir apresentamos vários conjuntos de dados que serão referenciados no texto pela sigla CD acompanhada de um nome identificador CDBrasil Dados sobre o Brasil CDMunicípios Populações de Municípios do Brasil CDNotas Notas em Estatística CDPoluição Dados de Poluição de São Paulo CDTemperaturas Temperaturas Médias Mensais CDSalários Salários para Quatro Profissões CDVeículos Estatísticas sobre Veículos CDPIB Produto Interno Bruto do Brasil CDMercado Preços de Ações da Telebrás e IBOVESPA CDPlaca Índices de Placa Bacteriana 1 Dados sobre o Brasil Dados de superfície em km2 população estimada e densidade habkm2 das unidades federativas UF do Brasil por região Fonte IBGE Contagem da População 2007 C O N J U N T O S D E D A D O S cap18bCONJDADOSP65 2192009 1518 497 E S T A T Í S T I C A B Á S I C A 498 1 Dados sobre o Brasil cont 2 Populações de Municípios do Brasil Populações em 10000 habitantes dos 30 municípios mais populosos do Brasil Fonte IBGE Contagem da População 1996 Regiões UF Superfície População Densidade Sudeste MG 586528293 19273533 3286 ES 46077519 3351669 7274 RJ 43696054 15420450 35290 SP 248209426 39827690 16046 Subtot 924511 77873342 8423 Sul PR 199314850 10284503 516 SC 95346181 5866487 6153 RS 281748583 10582287 3756 Subtot 576410 26733877 4638 Centro MS 357124962 2265813 634 Oeste MT 903357908 2854642 316 GO 340086698 5647035 166 DF 5801937 2455903 42329 Subtot 1606372 13223393 823 Brasil Total 8514876599 183989711 2161 No Município População No Município População 1 São Paulo SP 9888 16 Nova Iguaçu RJ 839 2 Rio de Janeiro RJ 5569 17 São Luís MA 802 3 Salvador BA 2246 18 Maceió AL 747 4 Belo Horizonte MG 2109 19 Duque de Caxias RJ 727 5 Fortaleza CE 2015 20 São Bernardo do Campo SP 684 6 Brasília DF 1877 21 Natal RN 668 7 Curitiba PR 1516 22 Teresina PI 668 8 Recife PE 1358 23 Osasco SP 637 9 Porto Alegre RS 1298 24 Santo André SP 628 10 Manaus AM 1194 25 Campo Grande MS 619 11 Belém PA 1160 26 João Pessoa PB 562 12 Goiânia GO 1023 27 Jaboatão PE 541 13 Guarulhos SP 1018 28 Contagem MG 503 14 Campinas SP 924 29 São José dos Campos SP 497 15 São Gonçalo RJ 847 30 Ribeirão Preto SP 463 cap18bCONJDADOSP65 2192009 1518 498 C O N J U N T O S D E D A D O S 499 3 Notas em Estatística Notas de 100 alunos do curso de Economia da FEAUSP em prova da disciplina Introdução à Probabilidade e à Estatística 1999 Fonte Autores 35 40 55 60 50 55 50 55 40 100 65 95 40 70 75 30 45 50 25 60 50 65 35 45 85 40 80 70 60 75 85 60 90 60 65 75 55 65 80 85 45 75 80 30 40 80 45 55 60 60 75 35 30 70 15 45 100 55 25 100 40 65 75 55 70 75 60 65 65 55 65 50 55 75 80 65 50 70 60 55 30 50 35 60 65 60 80 55 75 60 25 75 90 60 65 35 45 70 50 50 4 Dados de Poluição de São Paulo Dados de poluentes na cidade de São Paulo 1o jan a 30 abr 1991 CO monóxido de carbono ppm O3 ozônio ppb Temp temperatura C Umid umidade relativa do ar ao meiodia Fonte Saldiva et al 1994 Data CO O3 Temp Umid Data CO O3 Temp Umid Jan 1 66 1136 152 56 21 62 1343 170 57 2 62 1152 155 55 22 61 821 200 61 3 79 1304 168 62 23 73 2332 201 61 4 86 1104 164 96 24 66 720 189 68 5 88 1072 152 62 25 62 968 188 70 6 64 864 160 64 26 51 616 159 94 7 69 1200 163 63 27 61 328 152 97 8 79 1504 178 68 28 57 352 170 63 9 82 1490 181 71 29 67 872 186 61 10 87 1173 183 64 30 65 856 200 63 11 63 597 192 69 31 57 347 199 88 12 63 272 172 76 13 63 1192 151 62 14 64 1208 189 78 15 77 267 192 90 16 79 501 183 73 17 79 352 160 94 18 77 400 155 78 19 69 960 160 62 20 62 1420 180 66 cap18bCONJDADOSP65 2192009 1518 499 E S T A T Í S T I C A B Á S I C A 500 4 Dados de Poluição de São Paulo cont Data CO O3 Temp Umid Data CO O3 Temp Umid Fev 1 58 229 189 78 15 62 1727 190 70 2 62 839 178 73 16 67 652 190 80 3 55 2042 170 75 17 61 1492 180 63 4 67 1925 179 66 18 67 1000 167 76 5 79 997 180 65 19 74 1284 158 65 6 64 1823 178 63 20 59 1357 160 58 7 69 1410 182 72 21 55 1212 170 99 8 64 872 180 85 22 61 852 176 57 9 52 344 185 96 23 72 484 169 86 10 57 400 189 81 24 56 816 152 61 11 47 608 200 67 25 72 728 152 71 12 73 820 179 68 26 69 1649 170 63 13 62 989 180 67 27 69 1371 170 58 14 67 2000 170 60 28 77 824 173 62 Data CO O3 Temp Umid Data CO O3 Temp Umid Mar 1 63 388 189 60 17 66 928 158 59 2 77 304 188 76 18 77 971 169 55 3 64 267 181 90 19 103 320 189 97 4 64 336 183 69 20 75 560 181 65 5 79 240 181 89 21 114 917 190 74 6 62 123 180 75 22 95 389 178 88 7 68 123 180 99 23 78 331 171 75 8 80 1292 210 69 24 74 347 180 78 9 83 1056 190 65 25 89 1408 186 77 10 78 1168 190 64 26 95 277 160 92 11 69 853 190 59 27 101 188 142 94 12 75 560 190 61 28 125 240 140 96 13 84 619 201 62 29 62 331 148 83 14 81 507 180 77 30 79 288 163 91 15 66 405 169 64 31 76 187 170 81 16 71 485 152 53 Data CO O3 Temp Umid Data CO O3 Temp Umid Abr 1 91 272 178 56 16 78 299 185 69 2 70 427 164 69 17 116 203 180 59 3 72 624 160 62 18 69 197 190 64 4 78 683 160 64 19 78 133 161 83 5 91 165 148 80 20 69 347 131 70 6 97 1221 123 57 21 47 400 138 62 7 63 1040 149 66 22 79 1502 148 58 8 108 352 176 65 23 74 1207 132 60 9 120 1503 179 70 24 85 288 149 50 10 89 488 166 60 25 85 91 155 97 11 76 384 189 52 26 90 27 159 82 12 94 597 190 56 27 89 112 141 75 13 119 396 198 82 28 103 331 145 58 14 103 635 191 57 29 61 344 140 64 15 83 920 184 60 30 70 536 151 73 cap18bCONJDADOSP65 2192009 1518 500 C O N J U N T O S D E D A D O S 501 5 Temperaturas Médias Mensais Temperaturas médias mensais em graus centígrados de janeiro de 1976 a dezem bro de 1985 em Cananéia e Ubatuba São Paulo Fonte Boletim Climatológico no 6 1989 IOUSP Ano Cananéia Ubatuba Ano Cananéia Ubatuba 1976 252 271 1980 244 261 243 253 250 266 242 258 264 277 214 237 236 244 198 216 217 230 170 200 182 205 172 193 176 201 176 202 178 203 202 202 173 197 216 213 202 215 225 237 222 226 240 255 246 256 1977 253 264 1981 250 259 264 274 262 270 249 263 243 247 218 238 223 229 210 223 219 223 193 208 182 199 208 226 171 190 196 216 180 202 202 216 195 214 216 225 194 207 225 233 232 234 240 241 236 238 1978 248 259 1982 238 243 252 258 250 259 243 255 239 237 216 229 216 221 192 215 199 201 174 198 203 203 189 214 188 203 175 208 187 208 197 218 197 208 216 223 206 215 229 237 224 243 239 247 238 238 1979 229 240 1983 259 264 245 253 259 266 232 242 241 235 218 232 226 189 193 223 209 180 166 196 169 153 165 192 172 147 188 217 179 144 181 205 171 162 220 225 204 199 217 225 235 226 241 245 245 233 cap18bCONJDADOSP65 2192009 1518 501 E S T A T Í S T I C A B Á S I C A 502 5 Temperaturas Médias Mensais cont Ano Cananéia Ubatuba Ano Cananéia Ubatuba 1984 262 256 1985 240 238 266 256 255 262 247 233 253 251 222 191 238 245 218 194 201 216 195 201 180 198 183 190 180 198 162 190 191 201 183 183 192 202 214 220 216 222 223 225 226 229 230 231 240 239 6 Salários Salários em 1979 em francos suíços para quatro profissões em 30 cidades de diferentes países Fonte Prices and Salaries Around The World 19791980 União dos Bancos Suíços Zurique Cidade Prof Sec Mecânico Administrador Eng Eletr Amsterdã 34125 26542 59280 47730 Atenas 11025 12456 31980 18870 Bogotá 4725 3806 14040 14430 Bruxelas 28350 25528 59280 33855 Buenos Aires 5775 6574 21060 36075 Caracas 11550 20068 45240 42180 Chicago 33600 39790 60060 48285 Cid México 6825 8304 28860 22200 Dublin 18375 13840 23400 25530 Estocolmo 28875 25950 54600 33855 Genebra 56700 37022 71760 53835 HongKong 11550 5822 20280 17205 Istambul 4725 6228 13260 12210 Londres 20745 17646 31200 21090 Los Angeles 32550 36330 59280 46065 Madri 14700 12110 32760 31635 Manila 2100 1730 20280 4440 Milão 12600 13494 17160 31080 Montreal 29400 23528 51480 34410 Nova Iorque 27300 32870 67080 53280 Paris 24150 15916 40560 43845 Rio de Janeiro 7350 8650 53040 42735 San Francisco 32025 39946 65520 46065 São Paulo 9450 11072 74470 29970 Singapura 8925 5190 24960 8325 Sydney 28350 20068 34320 31080 Tel Aviv 7875 9688 14040 14430 Tóquio 30450 16954 63180 34410 Toronto 29925 25950 44460 39960 Zurique 52500 34600 78000 55500 cap18bCONJDADOSP65 2192009 1518 502 C O N J U N T O S D E D A D O S 503 7 Estatísticas sobre Veículos Dados sobre 30 veículos novos nacionais N e importados I em março de 1999 Preço em dólares comprimento em metros e motor em CV Fonte Folha de S Paulo 1431999 Veículo Preço Comprimento Motor NI Asia Towner 9440 336 40 I Audi A3 38850 415 125 I Chevrolet Astra 10532 411 110 N Chevrolet Blazer 16346 460 106 N Chevrolet Corsa 6176 373 60 N Chevrolet Tigra 12890 392 100 I Chevrolet Vectra 13140 447 110 N Chrysler Neon 31640 436 115 I Dodge Dakota 11630 498 121 N Fiat Fiorino 6700 416 76 N Fiat Marea 12923 439 127 N Fiat Uno Mille 5257 364 57 N Fiat Palio 6260 373 61 N Fiat Siena 7780 410 61 I Ford Escort 10767 420 115 I Ford Fiesta 6316 383 52 N Ford Ka 5680 362 54 N Ford Mondeo 33718 456 130 I Honda Civic 14460 445 106 N Hyundai Accent 21500 412 91 I Peugeot 106 13840 368 50 I Renault Clio 13700 370 74 I Toyota Corolla 15520 439 116 N Toyota Perua 24632 440 96 N VW Gol 6340 381 54 N VW Golf 22200 415 100 I VW Parati 9300 408 69 N VW Polo 12018 414 99 I VW Santana 11386 457 101 N VW Saveiro 7742 438 88 N 8 Produto Interno Bruto do Brasil Dados anuais do PIB de 1861 a 1986 índices relativos a 1949 Ano PIB Ano PIB Ano PIB Ano PIB 1861 457 1893 938 1925 4364 1957 15571 1862 504 1894 914 1926 4483 1958 16770 1863 518 1895 880 1927 4751 1959 17709 1864 535 1896 812 1928 5428 1960 19427 1865 571 1897 733 1929 5251 1961 21428 1866 565 1898 689 1930 4799 1962 22563 1867 514 1899 698 1931 3945 1963 22902 1868 505 1900 808 1932 3940 1964 23566 1869 561 1901 914 1933 4244 1965 24202 1870 648 1902 1017 1934 5118 1966 25437 cap18bCONJDADOSP65 2192009 1518 503 E S T A T Í S T I C A B Á S I C A 504 8 Produto Interno Bruto do Brasil cont Ano PIB Ano PIB Ano PIB Ano PIB 1871 656 1903 1048 1935 5804 1967 26658 1872 655 1904 1134 1936 6379 1968 29137 1873 672 1905 1247 1937 6635 1969 31759 1874 771 1906 1376 1938 6854 1970 34777 1875 788 1907 1445 1939 6743 1971 38699 1876 798 1908 1601 1940 6753 1972 43362 1877 730 1909 1781 1941 6507 1973 49429 1878 732 1910 2056 1942 6603 1974 53896 1879 738 1911 2429 1943 6630 1975 56705 1880 788 1912 2675 1944 6824 1976 62437 1881 762 1913 2600 1945 7501 1977 65271 1882 686 1914 2291 1946 8448 1978 68346 1883 665 1915 2084 1947 8730 1979 74982 1884 654 1916 2107 1948 9376 1980 79961 1885 702 1917 2196 1949 10000 1981 77285 1886 807 1918 2460 1950 10644 1982 77994 1887 894 1919 2847 1951 11283 1983 76020 1888 925 1920 3039 1952 11570 1984 80353 1889 959 1921 3123 1953 11859 1985 86990 1890 964 1922 3376 1954 13057 1986 94126 1891 935 1923 3911 1955 13959 1892 915 1924 4360 1956 14405 9 Mercado Preços de fechamento de ações da Telebrás multiplicados por 1000 e índice diário da Bolsa de Valores de São Paulo dividido por 100 de 1o de janeiro de 1995 a 29 de junho de 1995 Fonte Bolsa de Valores de São Paulo Mês Dia Telebrás Índice Jan 2 3499 4319 3 3331 4098 4 3209 3968 5 3256 4037 6 3031 3827 9 2891 3628 10 2610 3270 11 2825 3499 12 3041 3841 13 3200 4104 16 3125 4056 17 3237 4210 18 3087 4079 19 2863 3809 20 2956 3862 23 2844 3758 24 2928 3840 26 2984 3927 27 2835 3784 30 2732 3581 31 3041 3885 Mês Dia Telebrás Índice Fev 1 3134 3990 2 3078 3898 3 3144 3944 6 3059 3830 7 2863 3637 8 2760 3556 9 2638 3401 10 2526 3308 13 2498 3295 14 2456 3192 15 2302 3069 16 2096 2864 17 2245 3023 20 2161 2962 21 1974 2793 22 2049 2872 23 2302 3217 24 2348 3271 Mês Dia Telebrás Índice Mar 2 2096 2989 3 2142 2988 6 2040 2867 7 1843 2616 8 1684 2363 9 1506 2138 10 2105 2686 13 2077 2671 14 2330 3017 15 2199 2939 16 2375 3142 17 2208 2981 20 2114 2870 21 2245 3006 22 2236 3004 23 2367 3146 24 2563 3361 27 2573 3372 28 2461 3256 29 2451 3198 30 2414 3126 31 2264 2979 cap18bCONJDADOSP65 2192009 1518 504 C O N J U N T O S D E D A D O S 505 Mês Dia Telebrás Índice Abr 3 2208 2894 4 2433 3125 5 2498 3180 6 2554 3254 7 2535 3192 10 2479 3114 11 2423 3018 12 2395 3021 17 2489 3113 18 2582 3194 19 2723 3331 20 2779 3384 24 2900 3513 25 3013 3699 26 3069 3826 27 3106 3851 28 3086 3814 Mês Dia Telebrás Índice Maio 2 3123 3862 3 3199 3976 4 3241 4044 5 3171 4008 8 3086 3914 9 3223 4065 10 3190 4050 11 3062 3951 12 3095 3998 15 2991 3894 16 2963 3835 17 3114 3964 18 3123 4008 19 3081 3950 22 3199 4034 23 3256 4088 24 3331 4100 25 3237 4019 26 3027 3905 29 3091 3896 30 2871 3707 31 2898 3721 Mês Dia Telebrás Índice Jun 1 2953 3774 2 3091 3966 5 3150 4063 6 3036 3933 7 2907 3808 8 2901 3818 9 2751 3671 12 2816 3705 13 2942 3789 14 2788 3665 16 2848 3718 19 2857 3696 20 2715 3577 21 2788 3632 22 2770 3599 23 2774 3586 26 2765 3537 27 2880 3661 28 2921 3715 29 2862 3678 10 Índices de Placa Bacteriana Medidas de um índice de placa bacteriana obtidas de 26 crianças em idade préesco lar antes e depois do uso de uma escova experimental e de uma escova convencional Fonte Singer e Andrade 1997 Tipo de Escova Hugger Convencional Sujeito Sexo Antes da Depois da Antes da Depois da Escovação Escovação Escovação Escovação 1 F 218 043 120 075 2 F 205 008 143 055 3 F 105 018 068 008 4 F 195 078 145 075 5 F 028 003 050 005 6 F 263 023 275 160 7 F 150 020 125 065 8 F 045 000 040 013 9 F 070 005 118 083 10 F 130 030 143 058 11 F 125 033 045 038 12 F 018 000 160 063 13 F 330 090 025 025 9 Mercado cont cap18bCONJDADOSP65 2192009 1518 505 E S T A T Í S T I C A B Á S I C A 506 10 Índices de Placa Bacteriana cont Tipo de Escova Hugger Convencional Sujeito Sexo Antes da Depois da Antes da Depois da Escovação Escovação Escovação Escovação 14 F 140 024 298 103 15 M 090 015 335 158 16 M 058 010 150 020 17 M 250 033 408 188 18 M 225 033 315 200 19 M 153 053 090 025 20 M 143 043 178 018 21 M 348 065 350 085 22 M 180 020 250 115 23 M 150 025 218 093 24 M 255 015 268 105 25 M 130 005 273 085 26 M 265 025 343 088 cap18bCONJDADOSP65 2192009 1518 506 As tabelas a seguir são em geral autoexplicativas mas o uso de cada uma está explica do no texto O Manual Explicativo de Pereira e Bussab 1974 pode ser consultado para mais explicações 1 As tabelas I a VII são reproduzidas de Pereira e Bussab 1974 com permissão da Editora e autores 2 A tabela VIII foi elaborada usando o SPlus e baseada em Lehmann 1975 3 As tabelas IX e X são adaptadas de Pereira e Bussab 1974 com permissão da Editora e autores T A B E L A S cap19bTABELASP65 2192009 1555 507 508 E S T A T Í S T I C A B Á S I C A Tabela I Distribuição Binomial X bn p Corpo da tabela dá as probabilidades PX j j 0 1 n p 005 010 020 025 030 040 050 n 2p 005 010 020 025 030 040 050 n 3 p 005 010 020 025 030 040 050 n 4 x 0 902 810 640 562 490 360 250 2 x x 0 857 729 512 422 343 216 125 3 x x 0 815 656 410 316 240 130 062 4 4 x 1 095 180 320 375 420 480 500 1 x n 1 135 243 384 422 441 432 375 2 x x 1 171 292 410 422 412 346 250 3 4 x 2 002 010 040 062 090 160 250 0 x n 2 007 027 096 141 189 288 375 1 x x 2 014 049 154 211 265 346 375 2 4 n 3 00 001 008 016 027 064 125 0 x n 2 095 090 080 075 070 060 050 p x 3 0004 026 047 076 154 250 1 4 n 3 095 090 080 075 070 060 050 p x 4 00 002 004 008 026 062 0 x n 4 095 090 080 075 070 060 050 p p 005 010 020 025 030 040 050 n 5 p 005 010 020 025 030 040 050 n 6 p 005 010 020 025 030 040 050 n 7 x 0 698 478 210 133 062 028 008 7 x x 0 774 590 328 237 168 078 031 5 x x 0 735 531 262 178 118 047 016 6 x x1 257 372 367 311 247 131 055 6 x x 1 204 328 410 396 360 259 156 4 x x1 232 354 393 356 303 187 094 5 x x2 041 124 275 311 318 261 164 5 x x 2 021 073 205 264 309 346 312 3 x x2 031 098 246 297 324 311 234 4 x x3 004 023 115 173 227 290 273 4 x x3 002 015 082 132 185 276 312 3 x x 3 001 008 051 088 132 230 312 2 x x4 0 003 029 058 097 194 273 3 x x 4 0 0 006 015 028 077 156 1 x x4 0 001 015 033 060 138 234 2 x x5 0 0 004 012 025 077 164 2 x x 5 0 0 0 001 002 010 031 0 x x5 0 0 002 004 010 037 094 1 x x6 0 0 0 001 004 017 055 1 x x6 0 0 0 0 001 004 016 0 x x7 0 0 0 0 0 002 006 0 x n 5 095 090 080 075 070 060 050 p n 6 095 090 080 075 070 060 050 p n 7 095 090 080 075 070 060 050 p p 005 010 020 025 030 040 050 n 8 p 005 010 020 025 030 040 050 n 9 p 005 010 020 025 030 040 050 n 10 x 0 599 349 107 056 028 006 001 10 x x 0 663 430 168 100 058 017 004 8x x 0 630 387 134 075 040 010 002 9x x 1 315 387 268 188 121 040 010 9 x x 1 279 383 336 267 198 090 031 7x x 1 299 387 302 225 156 060 018 8x x 2 075 194 302 282 233 121 044 8 x x 2 051 149 294 311 296 209 109 6x x 2 063 172 302 300 267 161 070 7x x 3 010 057 201 250 267 215 117 7 x x 3 005 033 147 208 254 279 219 5x x 3 008 045 176 234 267 251 164 6x x 4 0 005 046 087 136 232 273 4x x 4 001 007 066 117 172 251 246 5x x 4 001 011 068 146 200 251 205 6 x x 5 0 001 026 058 103 201 246 5 x x 5 0 0 009 023 047 124 219 3x x 5 0 001 017 039 074 167 246 4x x 6 0 0 006 016 037 111 205 4 x x 6 0 0 001 004 010 041 109 2x x 6 0 0 003 009 021 074 164 3x x 7 0 0 001 003 009 042 117 3 x x 7 0 0 0 0 001 008 031 1x x 7 0 0 0 001 004 021 070 2x x 8 0 0 0 0 0 001 004 0 x x 8 0 0 0 0 0 004 018 1x x 8 0 0 0 0 001 011 044 2 x x x 9 0 0 0 0 0 0 002 0 x x 9 0 0 0 0 0 002 010 1 x x x 10 0 0 0 0 0 02 001 0 x n 8 095 090 080 075 070 060 050 p n 9 095 090 080 075 070 060 050 p n 10 095 090 080 075 070 060 050 p p 005 010 020 025 030 040 050 n 11 p 005 010 020 025 030 040 050 n 12 p 005 010 020 025 030 040 050 n 13 x 0 569 314 086 042 020 004 0m 11 x x 0 540 282 069 032 014 002 0m 12 x x 0 513 254 055 024 010 001 0 13 x x 1 329 384 236 155 093 027 005 10 x x 1 341 377 206 127 071 017 003 11 x x 1 351 367 179 103 054 011 002 12 x x 2 087 213 295 258 200 089 027 9 x x 2 099 230 283 232 168 064 016 10 x x 2 111 245 268 206 139 045 010 11 x x 3 014 071 221 258 257 177 061 8 x x 3 017 085 236 258 240 142 054 9 x x 3 021 100 246 252 218 111 035 10 x x 4 002 021 133 194 231 213 121 8 x x 4 003 028 154 210 234 184 087 9 x x 4 001 016 111 172 220 236 161 7 x x 5 0m 004 053 103 158 227 193 7 x x 5 0m 006 069 126 180 221 157 8 x x 5 0m 002 039 060 132 221 226 6 x x 6 0m 0m 016 040 079 177 226 6 x x 6 0m 001 023 056 103 197 209 7 x x 6 0m 0m 010 027 057 147 226 5 x x 7 0m 0m 003 011 029 101 193 5 x x 7 0m 0m 006 019 044 131 209 6 x x 7 0m 0m 002 006 017 070 161 4 x x 8 0m 0m 001 002 006 042 121 4 x x 8 0m 0m 001 005 014 066 157 5 x x 9 0m 0m 0m 001 003 024 067 4 x x 8 0m 0m 0m 001 004 023 061 3 x x 9 0m 0m 0m 0m 001 012 054 3 x x 10 0m 0m 0m 0m 001 006 035 3 x x 9 0m 0m 0m 0m 001 005 027 2 x x 10 0m 0m 0m 0m 0m 002 016 2 x x 11 0m 0m 0m 0m 0m 001 010 2 x mx 10 0m 0m 0m 0m 0m 001 005 1 x x 11 0m 0m 0m 0m 0m 0m 003 1 x x 12 0m 0m 0m 0m 0m 0m 002 1 x x 11 0m 0m 0m 0m 0m 0m 0m 0 x x 12 0m 0m 0m 0m 0m 0m 0m 0 x x 13 0m 0m 0m 0m 0m 0m 0m 0 x n 11 095 090 080 075 070 060 050 p n 12 095 090 080 075 070 060 050 p n 13 095 090 080 075 070 060 050 p 2 3 4 5 6 7 8 9 10 11 12 13 8 9 10 11 12 13 2 3 4 5 6 7 cap19bTABELASP65 2192009 1555 508 T A B E L A S 509 Tabela I Distribuição Binomial continuação p 005 010 020 025 030 040 050 n 14 p 005 010 020 025 030 040 050 n 15 p 005 010 020 025 030 040 050 n 16 x 0 463 206 035 013 005 0m 0m 15 x x 0 440 185 028 010 003 0m 0m 16 x x 0 488 229 044 018 007 001 0m 14 x x 1 366 343 132 067 031 005 0m 14 x x 1 371 329 113 053 023 003 0m 15 x x 1 359 356 154 083 041 007 001 13 x x 2 135 267 231 156 092 022 003 13 x x 2 146 275 211 134 073 015 002 14 x x 2 123 267 250 180 113 032 006 12 x x 3 031 129 250 225 170 063 014 12 x x 3 036 142 246 208 146 047 009 13 x x 3 026 114 250 240 194 065 022 11 x x 4 004 035 172 220 229 155 061 10 x x 4 005 043 188 225 219 127 042 11 x x 4 006 051 200 225 204 101 028 12 x x 5 001 010 103 165 206 186 092 10 x x 5 001 014 120 180 210 162 067 11 x x 5 0m 006 066 147 196 207 122 9 x x 6 0m 002 043 092 147 207 153 9 x x 6 0m 003 055 110 165 198 122 10 x x 6 0m 001 032 073 126 207 183 8 x x 7 0m 0m 014 039 081 177 196 8 x x 7 0m 0m 020 052 101 189 175 9 x x 7 0m 0m 009 028 062 157 209 7 x x 8 0m 0m 002 008 023 092 183 6 x x 8 0m 0m 003 013 035 118 196 7 x x 8 0m 0m 006 020 049 142 196 8 x x 9 0m 0m 0m 002 007 041 122 5 x x 9 0m 0m 001 003 012 061 153 6 x x 9 0m 0m 001 006 019 084 175 7 x x 10 0m 0m 0m 001 003 024 092 5 x x 10 0m 0m 0m 001 006 039 122 6 x x 10 0m 0m 0m 0m 001 014 061 4 x x 11 0m 0m 0m 0m 001 007 042 4 x x 11 0m 0m 0m 0m 001 014 067 5 x x 11 0m 0m 0m 0m 0m 003 022 3 x x 12 0m 0m 0m 0m 0m 001 006 2 x x 12 0m 0m 0m 0m 0m 002 014 3 x x 12 0m 0m 0m 0m 0m 004 028 4 x x 13 0m 0m 0m 0m 0m v 001 1 x x 13 0m 0m 0m 0m 0m 0m 003 2 x x 13 0m 0m 0m 0m 0m 001 009 3 x x 14 0m 0m 0m 0m 0m 0m 0m 0 x x 14 0m 0m 0m 0m 0m 0m 0m 1 x x 14 0m 0m 0m 0m 0m 0m 002 2 x x 15 0m 0m 0m 0m 0m 0m 0m 0 x x 15 0m 0m 0m 0m 0m 0m 0m 1 x x 16 0m 0m 0m 0m 0m 0m 0m 0 x n 14 095 090 080 075 070 060 050 p n 15 095 090 080 075 070 060 050 p n 16 095 090 080 075 070 060 050 p p 005 010 020 025 030 040 050 n 19 p 005 010 020 025 030 040 050 n 18 p 005 010 020 025 030 040 050 n 17 x 0 377 135 014 004 001 0m 0m 19 x x1 377 285 068 027 009 001 0m 18 x x 0 397 150 018 006 002 0m 0m 18 x2 179 285 154 060 036 005 0m 17 x x 1 376 300 061 034 013 001 0m 17 x 0 418 167 023 008 002 0m 0m 17 x3 053 180 218 152 067 017 002 16 x x 2 168 284 172 096 046 007 001 16 x 1 374 315 096 043 017 002 0m 16 x4 011 080 218 202 149 047 007 15 x x 3 047 168 230 170 105 025 003 15 x 2 158 280 191 114 058 010 001 15 x 4 009 070 215 213 168 061 012 14 x 3 041 156 239 189 125 034 005 14 x 4 008 060 209 221 187 060 018 13 x5 002 027 164 202 192 093 022 14 x x6 0m 007 095 157 192 145 052 13 x x 5 001 022 151 199 202 115 033 13 x7 0m 001 044 097 153 180 096 12 x x 6 0m 005 062 144 187 166 071 12 x 5 001 017 136 191 208 138 047 12 x8 0m 0m 017 049 098 180 144 11 x x 7 0m 001 035 082 138 189 121 11 x 6 0m 004 068 128 178 184 094 11 x9 0m 0m 005 020 051 146 176 10 x x 8 0m 0m 012 038 081 173 167 10 x 7 0m 001 027 067 120 193 148 10 x 9 0m 0m 003 014 039 128 185 9x x 8 0m 0m 008 028 064 161 185 9x 10 0m 0m 001 007 022 093 178 9 x x 9 0m 0m 002 009 028 107 185 8x 11 0m 0m 0m 002 008 145 144 8 x x 10 0m 0m 001 004 015 077 167 8x 12 0m 0m 0m 0m 002 180 096 7 x x 11 0m 0m 0m 001 005 037 121 7x x 10 0m 0m 0m 002 009 067 148 7x 13 0m 0m 0m 0m 001 180 052 6 x x 12 0m 0m 0m 0m 001 015 071 6x x 11 0m 0m 0m 001 003 024 094 6x 14 0m 0m 0m 0m 0m 146 022 5 x x 13 0m 0m 0m 0m 0m 004 033 5x x 12 0m 0m 0m 0m 001 008 047 5x x 14 0m 0m 0m 0m 0m 001 012 4x x 13 0m 0m 0m 0m 0m 002 018 4x x 14 0m 0m 0m 0m 0m 0m 005 3x 15 0m 0m 0m 0m 0m 098 007 4 x 16 0m 0m 0m 0m 0m 053 002 3 x x 15 0m 0m 0m 0m 0m 0m 003 3x 17 0m 0m 0m 0m 0m 024 0m 2 x x 16 0m 0m 0m 0m 0m 0m 001 2x x 15 0m 0m 0m 0m 0m 0m 001 2x 18 0m 0m 0m 0m 0m 008 0m 1 x x 17 0m 0m 0m 0m 0m 0m 0m 1x x 16 0m 0m 0m 0m 0m 0m 0m 1x 19 0m 0m 0m 0m 0m 002 0m 0 x x 18 0m 0m 0m 0m 0m 0m 0m 0 x x 17 0m 0m 0m 0m 0m 0m 0m 0 x n 19 095 090 080 075 070 060 050 p n 18 095 090 080 075 070 060 050 p n 17 095 090 080 075 070 060 050 p 14 15 16 17 18 19 14 15 16 19 18 17 cap19bTABELASP65 2192009 1555 509 512 E S T A T Í S T I C A B Á S I C A Tabela IV Distribuição Quiquadrado Y χ2 ν Corpo da tabela dá os valores yc tais que P Y yc p Para valores ν 30 use a aproximação normal dada no texto p 99 98 975 95 90 80 70 50 30 20 10 5 4 25 2 1 02 01 1 00316 00363 0001 0004 0016 0064 0148 0455 1074 1642 2706 3841 4218 5024 5412 6635 9550 10827 1 2 0020 0040 0051 0103 0211 0446 0713 1386 2408 3219 4605 5991 6438 7378 7824 9210 12429 13815 2 3 0115 0185 0216 0352 0584 1005 1424 2366 3665 4642 6251 7815 8311 9348 9837 11345 14796 16266 3 4 0297 0429 0484 0711 1064 1649 2195 3357 4878 5989 7779 9488 10026 11143 11668 13277 16924 18467 4 5 0554 0752 0831 1145 1610 2343 3000 4351 6064 7289 9236 11070 11644 12832 13388 15086 18907 20515 5 6 0872 1134 1237 1635 2204 3070 3828 5348 7231 8558 10645 12592 13198 14449 15033 16812 20791 22457 6 7 1239 1564 1690 2167 2833 3822 4671 6346 8383 9803 12017 14067 14703 16013 16622 18475 22601 24322 7 8 1646 2032 2180 2733 3490 4594 5527 7344 9524 11030 13362 15507 16171 17534 18168 20090 24352 26125 8 9 2088 2532 2700 3325 4168 5380 6393 8343 10656 12242 14684 16919 17608 19023 19679 21666 26056 27877 9 10 2558 3059 3247 3940 4865 6179 7267 9342 11781 13442 15987 18307 19021 20483 21161 23209 27722 29588 10 11 3053 3609 3816 4575 5578 6989 8148 10341 12899 14631 17275 19675 20412 21920 22618 24725 29354 31264 11 12 3571 4178 4404 5226 6304 7807 9034 11340 14011 15812 18549 21026 21785 23337 24054 26217 30957 32909 12 13 4107 4765 5009 5892 7042 8634 9926 12340 15119 16985 19812 22362 23142 24736 25472 27688 32535 34528 13 14 4660 5368 5629 6571 7790 9467 10821 13339 16222 18151 21064 23685 24485 26119 26873 29141 34091 36123 14 15 5229 5985 6262 7261 8547 10307 11721 14339 17322 19311 22307 24996 25816 27488 28259 30578 35628 37697 15 16 5812 6614 6908 7962 9312 11152 12624 15338 18418 20465 23542 26296 27136 28845 29633 32000 37146 39252 16 17 6408 7255 7564 8672 10085 12002 13531 16338 19511 21615 24769 27587 28445 30191 30995 33409 38648 40790 17 18 7015 7906 8231 9390 10865 12857 14440 17338 20601 22760 25989 28869 29745 31526 32346 34805 40136 42312 18 19 7633 8567 8906 10117 11651 13716 15352 18338 21689 23900 27204 30144 31037 32852 33687 36191 41610 43820 19 20 8260 9237 9591 10851 12443 14578 16266 19337 22775 25038 28412 31410 32321 34170 35020 37566 43072 45315 20 21 8897 9915 10283 11591 13240 15445 17182 20337 23858 26171 29615 32671 33597 35479 36343 38932 44522 46797 21 22 9542 10600 10982 12338 14041 16314 18101 21337 24939 27301 30813 33924 34867 36781 37659 40289 45962 48268 22 23 10196 11293 11688 13091 14848 17187 19021 22337 26018 28429 32007 35172 36131 38076 38968 41638 47391 49728 23 24 10856 11992 12401 13848 15659 18062 19943 23337 27096 29553 33196 36415 37389 39364 40270 42980 48812 51179 24 25 11524 12697 13120 14611 16473 18940 20867 24337 28172 30675 34382 37652 38642 40646 41566 44314 50223 52620 25 26 12198 13409 13844 15379 17292 19820 21792 25336 29246 31795 35563 38885 39889 41923 42856 45642 51627 54052 26 27 12879 14125 14573 16151 18114 20703 22719 26336 30319 32912 36741 40113 41132 43194 44140 46963 53022 55476 27 28 13565 14847 15308 16928 18939 21588 23647 27336 31319 34027 37916 41337 42370 44461 45419 48278 54411 56893 28 29 14258 15574 16047 17708 19768 22475 24577 28336 32461 35139 39087 42557 43604 45722 46693 49588 55792 58302 29 30 14953 16306 16791 18493 20599 23364 25508 29336 33530 36250 40256 43773 44834 46979 47962 50892 57167 59703 30 p 99 98 975 95 90 80 70 50 30 20 10 5 4 25 2 1 02 01 Graus de liberdade ν Graus de liberdade ν cap19bTABELASP65 2192009 1555 512 516 E S T A T Í S T I C A B Á S I C A Tabela VII Números Aleatórios 61 09 26 29 85 11 95 77 79 04 57 00 91 29 59 83 53 87 02 02 94 47 40 99 93 82 13 22 40 33 19 72 55 69 82 16 94 21 66 39 50 40 50 55 79 00 58 17 26 30 38 11 54 89 04 13 69 17 35 48 51 01 75 76 54 43 11 28 32 75 33 09 04 78 74 91 56 79 43 39 25 45 79 30 63 56 44 70 05 04 31 81 46 02 92 32 06 71 12 48 63 94 61 14 24 60 27 00 00 95 54 31 59 00 79 94 46 32 61 90 12 95 04 73 06 72 76 88 55 62 38 79 18 68 10 31 93 58 66 92 38 06 78 00 85 42 57 29 28 34 79 91 93 58 82 97 37 07 64 67 22 69 28 18 25 08 90 93 53 17 54 12 21 03 56 30 88 53 46 82 07 95 63 14 76 53 62 10 21 57 55 74 57 68 22 38 84 55 57 49 61 41 81 16 97 55 19 65 08 62 26 38 74 32 30 44 64 64 91 80 97 15 71 92 40 28 33 35 23 32 75 36 18 98 41 10 50 93 75 95 39 81 34 84 33 83 42 77 35 00 51 42 82 63 30 47 01 98 96 73 58 35 04 52 06 81 24 32 74 53 28 82 43 35 01 73 34 47 05 76 52 85 30 59 37 00 49 88 07 43 08 04 00 48 36 23 31 88 80 88 41 92 93 01 94 13 33 63 32 35 38 91 18 89 71 67 46 73 42 47 88 51 22 59 99 51 20 74 13 55 30 41 25 99 10 26 01 33 24 13 11 12 32 28 25 67 22 97 11 73 55 24 09 23 47 12 93 44 80 47 33 02 06 80 29 39 78 49 81 21 42 00 99 80 44 56 33 83 46 16 03 67 08 29 16 04 92 31 62 03 94 53 02 60 55 72 46 68 25 93 41 54 93 90 86 52 14 58 90 34 83 00 73 38 14 50 77 58 08 94 18 84 83 61 42 96 82 86 02 30 40 16 65 55 63 20 40 24 79 80 06 15 93 11 72 17 32 31 84 89 53 66 01 99 53 75 79 92 20 61 12 74 92 15 60 93 84 37 29 62 24 96 78 93 28 34 41 69 04 51 79 13 36 81 55 51 46 66 68 85 07 73 35 42 52 61 29 21 02 34 01 78 33 32 06 16 45 94 09 18 40 14 73 03 61 80 69 79 52 95 90 73 28 21 38 57 39 36 24 33 31 99 64 86 19 61 55 50 65 14 44 10 20 96 70 32 41 46 22 97 08 22 02 47 43 57 15 87 76 59 52 47 00 27 41 43 70 17 52 44 51 26 94 73 17 72 16 51 81 77 23 03 84 44 29 43 57 05 46 59 89 00 65 01 20 27 32 66 34 56 cap19bTABELASP65 2192009 1555 516 518 E S T A T Í S T I C A B Á S I C A Tabela VIII Distribuição de MannWhitney continuação m u n 5 n 6 n 7 n 8 n 9 n 10 m u n 7 n 8 n 9 n 10 5 0 0040 0022 0013 0008 0005 0003 7 0 0003 0002 0001 0001 1 0079 0043 0025 0016 0010 0007 1 0006 0003 0002 0001 2 0159 0087 0051 0031 0020 0013 2 0012 0006 0003 0002 3 0278 0152 0088 0054 0035 0023 3 0020 0011 0006 0004 4 0476 0260 0152 0093 0060 0040 4 0035 0019 0010 0006 5 0754 0411 0240 0148 0095 0063 5 0055 0030 0017 0010 6 1111 0628 0356 0225 0145 0097 6 0087 0047 0026 0015 7 1548 0887 0530 0326 0210 0140 7 0131 0070 0039 0023 8 2103 1234 0745 0466 0300 0200 8 0189 0103 0058 0034 9 2738 1645 1010 0637 0415 0276 9 0265 0145 0082 0048 10 3452 2143 1338 0855 0559 0376 10 0364 0200 0115 0068 11 4206 2684 1717 1111 0734 0496 11 0487 0270 0156 0093 12 5000 3312 2159 1422 0949 0646 12 0641 0361 0209 0125 13 5794 3961 2652 1772 1199 0823 13 0825 0469 0274 0165 14 6548 4654 3194 2176 1489 1032 14 1043 0603 0356 0215 15 7262 5346 3775 2618 1818 1272 15 1297 0760 0454 0277 16 7897 6039 4381 3108 2188 1548 16 1588 0946 0571 0351 17 8452 6688 5000 3621 2592 1855 17 1914 1159 0708 0439 18 8889 7316 5619 4165 3032 2198 18 2279 1405 0879 0544 19 9246 7857 6225 4716 3497 2567 19 2675 1678 1052 0665 20 9524 8355 6806 5284 3986 2970 20 3100 1984 1261 0806 21 9722 8766 7348 5835 4491 3393 21 3552 2317 1496 0976 6 0 0011 0006 0003 0002 0001 22 4024 2679 1755 1148 1 0022 0012 0007 0004 0002 23 4508 3063 2039 1349 2 0043 0023 0013 0008 0005 24 5000 3472 2349 1574 3 0076 0041 0023 0014 0009 25 5492 3894 2680 1819 4 0130 0070 0040 0024 0015 26 5976 4333 3032 2087 5 0206 0111 0063 0038 0024 27 6448 4775 3403 2374 6 0325 0175 0100 0060 0037 28 6900 5225 3788 2681 7 0465 0256 0147 0088 0055 29 7325 5667 4185 3004 8 0660 0367 0213 0128 0080 30 7721 6106 4591 3345 9 0898 0507 0296 0180 0112 10 1201 0688 0406 0248 0156 11 1548 0903 0539 0332 0210 12 1970 1171 0709 0440 0280 13 2424 1474 0906 0567 0363 14 2944 1830 1142 0723 0467 15 3496 2226 1412 0905 0589 16 4091 2669 1725 1119 0736 17 4686 3141 2068 1361 0903 18 5314 3654 2454 1638 1999 19 5909 4178 2864 1942 1317 20 6504 4726 3310 2280 1566 21 7056 5274 3773 2643 1838 22 7576 5822 4259 3035 2139 23 8030 6346 4749 3445 2461 24 8452 6859 5251 3878 2811 25 8799 7331 5741 4320 3177 26 9102 7774 6227 4773 3564 27 9340 8170 6690 5227 3962 28 9535 8526 7136 5680 4374 29 9675 8829 7546 6122 4789 30 9794 9097 7932 6555 5211 cap19bTABELASP65 2192009 1555 518 T A B E L A S 519 Tabela VIII Distribuição de MannWhitney continuação m u n 8 n 9 n 10 m u n 9 n 10 m u n 10 8 0 0001 0000 0000 9 0 0000 0000 10 0 0000 1 0002 0001 0000 1 0000 0000 1 0000 2 0003 0002 0001 2 0001 0000 2 0000 3 0005 0003 0002 3 0001 0001 3 0000 4 0009 0005 0003 4 0002 0001 4 0001 5 0015 0008 0004 5 0004 0002 5 0001 6 0023 0012 0007 6 0006 0003 6 0002 7 0035 0019 0010 7 0009 0005 7 0002 8 0052 0028 0015 8 0014 0007 8 0004 9 0074 0039 0022 9 0020 0011 9 0005 10 0103 0056 0031 10 0028 0015 10 0008 11 0141 0076 0043 11 0039 0021 11 0010 12 0190 0103 0058 12 0053 0028 12 0014 13 0249 0137 0078 13 0071 0038 13 0019 14 0325 0180 0103 14 0094 0051 14 0026 15 0415 0232 0133 15 0122 0066 15 0034 16 0524 0296 0171 16 0157 0086 16 0045 17 0653 0372 0217 17 0200 0110 17 0057 18 0803 0464 0273 18 0252 0140 18 0073 19 0974 0570 0338 19 0313 0175 19 0093 20 1172 0694 0416 20 0385 0217 20 0116 21 1393 0836 0506 21 0470 0267 21 0144 22 1641 0998 0610 22 0567 0326 22 0177 23 1911 1179 0729 23 0680 0394 23 0216 24 2209 1383 0864 24 0807 0474 24 0262 25 2527 1606 1015 25 0951 0564 25 0315 26 2869 1852 1185 26 1112 0667 26 0376 27 3227 2117 1371 27 1290 0782 27 0446 28 3605 2404 1577 28 1487 0912 28 0526 29 3992 2707 1800 29 1701 1055 29 0615 30 4392 3029 2041 30 1933 1214 30 0716 31 4796 3365 2299 31 2181 1388 31 0827 32 5204 3715 2574 32 2447 1577 32 0952 33 5608 4074 2863 33 2729 1781 33 1088 34 6008 4442 3167 34 3024 2001 34 1237 35 6395 4813 3482 35 3332 2235 35 1399 36 6773 5187 3809 36 3652 2483 36 1575 37 7131 5558 4143 37 3981 2745 37 1763 38 7473 5926 4484 38 4317 3019 38 1965 39 7791 6285 4827 39 4657 3304 39 2179 40 8089 6635 5173 40 5000 3598 40 2406 cap19bTABELASP65 2192009 1555 519 520 E S T A T Í S T I C A B Á S I C A Tabela IX Distribuição de Wilcoxon T O corpo da tabela dá os valores wp tais que PT wp p w0005 w001 w0025 w005 w010 w0005 w001 w0025 w005 w010 n 4 0 0 0 0 1 n 27 84 94 108 120 135 5 0 0 0 1 3 28 92 102 117 131 146 6 0 0 1 3 4 29 101 111 127 141 158 7 0 1 3 4 6 30 110 121 138 152 170 8 1 2 4 6 9 31 119 131 148 164 182 9 2 4 6 9 11 32 129 141 160 176 195 10 4 6 9 11 15 33 139 152 171 188 208 11 6 8 11 14 18 34 149 163 183 201 222 12 8 10 14 18 22 35 160 175 196 214 236 13 10 13 18 22 27 36 172 187 209 228 251 14 13 16 22 26 32 37 184 199 222 242 266 15 16 20 26 31 37 38 196 212 236 257 282 16 20 24 30 36 43 39 208 225 250 272 298 17 24 28 35 42 49 40 221 239 265 287 314 18 28 33 41 48 56 41 235 253 280 303 331 19 33 38 47 54 63 42 248 267 295 320 349 20 38 44 53 61 70 43 263 282 311 337 366 21 44 50 59 68 78 44 277 297 328 354 385 22 49 56 67 76 87 45 292 313 344 372 403 23 55 63 74 84 95 46 308 329 362 390 423 24 62 70 82 92 105 47 324 346 379 408 442 25 69 77 90 101 114 48 340 363 397 428 463 26 76 85 99 111 125 49 357 381 416 447 483 50 374 398 435 467 504 cap19bTABELASP65 2192009 1555 520 1 1 1 1 1 a razão e razão b ordinal f nominal c razão g intervalar d intervalar 3 3 3 3 3 População urbana Número de habitantes n i fi Menos de 500000 3 01111 500001 a 1000000 2 00740 1000001 a 5000000 15 05556 5000001 a 10000000 4 01481 Mais de 10000000 3 01111 Total 27 10000 Densidade populacional Densidade habkm2 ni fi Menos de 10 9 03333 10 a 30 5 01852 30 a 50 4 01481 50 a 100 6 02222 Mais de 100 3 01111 Total 27 10000 6 6 6 6 6 a Histograma b Gráfico de dispersão unidimensional 8 8 8 8 8 Histograma Ramoefolhas Decimal point is 1 place to the right of the colon 4 6 5 0046 6 234778 7 35 8 045 9 2 10 22 11 69 12 13 06 14 15 2 16 17 18 8 19 20 1 21 1 22 5 Valores maiores 5569 9988 Gráfico de dispersão unidimensional Capítulo 2 R E S P O S T A S cap20bRESPOSTAP65 2192009 1548 522 R E S P O S T A S 525 42 42 42 42 42 dam urb 1413000 dam rural 546900 45 45 45 45 45 Dados não simétricos pontos acima da reta u v no gráfico de simetria 48 48 48 48 48 a n 120 dq 16 Δ 547 16003989613 b n 30 dq 20734 Δ 7600 n 20734004923713 c Histograma de X 38 38 38 38 38 a Z é uma nota padronizada b As notas padronizadas são 058 058 018 018 058 135 018 018 058 018 135 095 095 058 058 095 018 058 326 095 095 018 135 058 058 cz 0 dp 1 d z 326 e política 39 39 39 39 39 a x01 1084x025 1052 40 40 40 40 40 CVA 20 CVB 30 13 13 13 13 13 a b 074 15 15 15 15 15 Seção e Notas de Estatística não são correlacionadas 18 18 18 18 18 a Salário Estado Menos de entre 10 Mais de Total Civil 10 SM e 20 SM 20 SM solteiro 012 019 009 040 casado 008 031 021 060 Total 020 050 030 100 1 1 1 1 1 b 50 d 583 c 194 3 3 3 3 3 b 25 d 125 c 50 e Bastante modificada maioria das pessoas que ganham pouco têm alta rotatividade 5 5 5 5 5 Existe relação pois as probabilidades marginais não se repetem no interior da tabela 7 7 7 7 7 χ2 067 C 081 8 8 8 8 8 Problema 3 χ2 5625 C 0351 T 0375 Problema 6 χ2 1142 C 0075 T 0076 9 9 9 9 9 Não há diferenças entre as três empresas 11 11 11 11 11 b O gráfico indica dependência linear entre as variáveis c 086 d Porto Alegre e Fortaleza apresentam comporta mentos diferentes dos demais CAPÍTULO 4 Capítulo 4 cap20bRESPOSTAP65 2192009 1548 525 A Amostra aleatória simples 268270 com reposição 269 estratificada 293 por conglomerados 293 sem reposição 269 sistemática 294 tamanho de uma 287289 Análise Bidimensional 68 de aderência 402 de dados 1 de resíduos 467469 exploratória de dados 1 Aproximação normal 182 Associação de variáveis 7375 80 83 B Bayes 116121 Bonferroni 441 Bootstrap 321323 Box Plots 4750 C Coeficiente de contingência 76 79 de correlação 8485 de variação 65 Comparação de médias 439440 Confiabilidade 114 Contrastes 446 Covariância 85 214218 Curva de nível 205 231 D Dados 4 Densidade de freqüência 1819 de probabilidade 168 Desigualdade de Chebyshev 326 Desvio absoluto mediano 66 médio 3840 padrão 3940 Distribuição amostral da média 277281 amostral da mediana 283286 amostral da proporção 281283 amostral da variância 283286 Bernoulli 142143 Beta 201 binomial 145 condicional 206207 224 conjunta 68 203206 de freqüências 1113 de Pascal 162 de variáveis 129179 203 exponencial 181 F de Snedecor 192193 Gama 188189 geométrica 161 hipergeométrica 147 lognormal 200 MannWhitney 372 marginais 70 206 222 multinomial 419 normal 46 normal bidimensional 229231 Pareto 199 Í N D I C E R E M I S S I V O cap21bREMISSIVOP65 2192009 1544 537 538 E S T A T Í S T I C A B Á S I C A Poisson 148153 quiquadrado 189190 t de Student 191192 uniforme 140141 174176 Weibull 201 Wilcoxon 372 378 381 E Erro padrão 316317 quadrático médio 302303 Escalas 14 Espaço amostral 104105 Esperança condicional 227 matemática 168169 Estatísticas 271 de ordem 36 271 Estimação de parâmetros 296 Estimadores consistentes 300301 de momentos 304305 de máxima verossimilhança 308 de mínimos quadrados 305307 nãoviesados 299300 propriedades 298 Eventos aleatório 104 certo 106 impossível 106 independentes 113114 intersecção 107 reunião 107 Excel 3 F Freqüência absoluta 12 acumulada 30 relativa 12 Função característica de operação 335 de distribuição acumulada 138 170 de distribuição empírica 32 de probabilidade 131132 de variáveis aleatórias 137 185 210 de verossimilhança 308310 G Gráfico de dispersão 1618 8083 217218 de dispersão simbólico 93 de quantis 5152 99 de simetria 5152 em barras 15 em setores 16 para variáveis 1518 H Hipótese alternativa 334336 Histograma 1819 alisado 28 I Independência de eventos 111115 de variáveis 214224 Inferência Bayesiana 317 estatística 261 para duas populações 367381 para várias populações 420 Intervalo de confiança 310311 de predição 448 interquartil 47 para a média 310 313314 para a variância 310316 para proporção 310316 cap21bREMISSIVOP65 2192009 1544 538 539 Í N D I C E R E M I S S I V O L Lei dos grandes números 326 M Média aparada 65 aritmética 35 de va 135 168 Mediana amostral 35 de va 135137 Medidas de associação 76 de dispersão 37 40 de posição 3536 resistentes 45 resumo 35 Método congruencial 239 de máxima verossimilhança 308 de mínimos quadrados 305 Minitab 3 Modelos de va 141 173 lineares 449 nãolineares 475 para duas populações 425 para várias populações 435 probabilísticos 103 Monte Carlo 235 N Números aleatórios 235237 pseudoaleatórios 238 tabelas de 238 292 516 O Outliers 48 49 P Pacotes estatísticos 3 Parâmetro 265 População 262 Porcentagem 13 Probabilidade 105 condicional 111 propriedades 106 regra do produto 111 subjetiva 121 Processo de Poisson 153 estocástico 268 Proporção 12 Q Quantis empíricos 41 teóricos 154 193 Quiquadrado 77 189190 R Ramosefolhas 2021 33 Regressão análise de resíduos 467469 ANOVA 458 estimação 452 intervalo de confiança 463467 intervalo de predição 465467 linear simples 449 modelos especiais 473474 resistente 479 soma de quadrados 456457 Resumo de dados 9 S Simulação 235 Bernoulli 244 binomial 244 exponencial 245 cap21bREMISSIVOP65 2192009 1544 539 540 E S T A T Í S T I C A B Á S I C A Gama 254 quiquadrado 247 va 240 Soma de quadrados dentro 433 entre 433 regressão 425432 total 433 SPlus 3 T Tabela ANOVA 458 de contingência 69 de dupla entrada 69 Técnicas computacionais 3 Teorema do limite central 279 Transformações de BoxMüller 253 de variáveis 5253 Teste de aderência 402 de hipótese 330 de homocedasticidade 441 de homogeneidade 406 de independência 409 de KolmogorovSmirnov 416 de MannWhitney 372 de média 339 de proporção 341 de variância 351 de Wilcoxon 372 384 erros de um 331 nível de significância 338 para coeficiente de correlação 411 poder 344 347 região crítica 338 T 363389 V Valor médio amostral 3741 de va 135 167 Valorp 348351 Valores atípicos 48 discrepantes 4950 Variáveis aleatórias 128134 163166 203206 contínuas 163202 discretas 128 independência 127234 multidimensionais 203 nominais 10 ordinais 10 qualitativas 9 quantitativas 9 Variância amostral 40 de va 136 170 cap21bREMISSIVOP65 2192009 1544 540