·
Engenharia de Produção ·
Probabilidade e Estatística 2
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
2
Tabela de Distribuição Normal Padrão
Probabilidade e Estatística 2
UDESC
404
Plano de Ensino de Probabilidade e Estatística
Probabilidade e Estatística 2
UFPI
57
Variável Aleatória e Distribuições de Probabilidade Discretas
Probabilidade e Estatística 2
UEMA
5
Análise de Variáveis Aleatórias Contínuas
Probabilidade e Estatística 2
PUC
13
Resolução da Lista 8: Distribuições Contínuas de Probabilidade
Probabilidade e Estatística 2
PUC
Texto de pré-visualização
1 Estatística Aplicada à Administração II Marcelo Menezes Reis 2 Copyright 2015 Todos os direitos desta edição reservados ao Departamento de Ciências da Administração CADCSEUFSC Nenhuma parte deste material poderá ser reproduzida transmitida e gravada por qualquer meio eletrônico por fotocópia e outros sem a prévia autorização por escrito do autor Catalogação na publicação por Onélia Silva Guimarães CRB14071 3 Sumário Apresentação UNIDADE 1 Variáveis aleatórias 11 Definição de variável aleatória discreta e contínua 12 Distribuições de probabilidades para variáveis aleatórias discretas 13 Distribuições de probabilidades para variáveis aleatórias contínuas 14 Valor esperado e variância UNIDADE 2 Modelos probabilísticos mais comuns 21 Modelos Probabilísticos para Variáveis Aleatórias Discretas 211 Modelo binomial 212 Modelo de Poisson 22 Modelos probabilísticos para Variáveis Aleatórias Contínuas 221 Modelo uniforme 222 Modelo normal 223 Modelo normal como aproximação do binomial 224 Modelo distribuição t de Student 225 Modelo quiquadrado 23 Modelos probabilísticos em Planilha Eletrônica UNIDADE 3 Técnicas de Amostragem 31 O que é amostragem 32 Condições e recomendações para uso 321 Aspectos necessários para o sucesso da amostragem 322 Plano de Amostragem 33 Amostragem probabilística ou aleatória conceito subtipos 331 Amostragem aleatória casual simples 332 Amostragem sistemática 333 Amostragem estratificada 334 Amostragem por conglomerados 34 Amostragem não probabilística 341 Amostragem a esmo 4 342 Amostragem por julgamento intencional 343 Amostragem por cotas 344 Amostragem bola de neve 35 Cálculo do tamanho de uma amostra probabilística aleatória para estimar proporção UNIDADE 4 Inferência estatística e distribuição amostral 41 Conceito de inferência estatística 42 Parâmetros e Estatísticas 43 Distribuição amostral 431 Distribuição amostral da média 432 Distribuição amostral da proporção UNIDADE 5 Estimação de parâmetros 51 Estimação por Ponto 511 Estimação por ponto dos principais parâmetros 52 Estimação por Intervalo de Parâmetros 521 Estimação por Intervalo da Média Populacional 522 Estimação por Intervalo da Proporção Populacional 53 Tamanho mínimo de amostra para Estimação por Intervalo 531 Tamanho mínimo de amostra para Estimação por Intervalo da Média Populacional 532 Tamanho mínimo de amostra para Estimação por Intervalo da Proporção Populacional 54 Empate técnico UNIDADE 6 Testes de Hipóteses 61 Tipos de Hipóteses 62 Tipos de Testes Paramétricos 63 Testes de Hipóteses sobre a Média de uma Variável em uma População 64 Testes de Hipóteses sobre a Proporção de uma Variável em uma População 65 Teste de associação de quiquadrado 66 Uso de planilha eletrônica para testes de hipóteses 5 Apresentação Caro estudante Você já cursou com aproveitamento a disciplina de Estatística Aplicada à Administração I Todos os conceitos lá estudados serão importantes para Estatística Aplicada à Administração II especialmente os da Unidade 6 Probabilidade Conforme mencionado anteriormente os métodos estatísticos são ferramentas primordiais para o administrador de qualquer organização pois possibilitam obter informações confiáveis sem as quais a tomada de decisões seria mais difícil ou mesmo impossível E não se esqueça a essência de administrar é tomar decisões Por este motivo esta disciplina faz parte do currículo do curso de Administração Nesta disciplina você aprenderá como a partir de dados confiáveis conceitos de planejamento de pesquisa estatística e amostragem resumidos e organizados pelas técnicas de análise exploratória de dados vistas na primeira disciplinaaplicar técnicas apropriadas probabilidade aplicada e inferência estatística para generalizar os resultados encontrados que por sua vez serão usados para tomar decisões Procurei apresentar exemplos concretos de aplicação usando ferramentas computacionais simples como as planilhas eletrônicas com as quais você teve um primeiro contato na disciplina de Informática Básica O domínio dos métodos estatísticos dará a você um grande diferencial pois permitirá tomar melhores decisões o que em essência é o objetivo primordial de qualquer organização Sucesso em sua caminhada Prof Marcelo Menezes Reis 6 Unidade 1 Variáveis aleatórias 7 Objetivo Nesta Unidade você vai compreender o conceito de variável aleatória e seu relacionamento com os modelos probabilísticos Vai aprender também que os modelos probabilísticos podem ser construídos para as variáveis aleatórias 8 11 Definição de variável aleatória discreta e contínua Caro estudante Uma pergunta que é normalmente feita a todos que trabalham com ciências exatas por que a obsessão em reduzir tudo a números Vimos em Análise Exploratória de Dados que uma variável quantitativa geralmente porque nem tudo pode ser reduzido a números como a inteligência e criatividade apresenta mais informação que uma variável qualitativa pode ser resumida não somente através de tabelas e gráficos mas também através de medidas de síntese Nos exemplos sobre probabilidade apresentados na Unidade 5 os eventos foram geralmente definidos de forma verbal bolas da mesma cor 2 bolas vermelhas soma das faces menor ou igual a 5 etc Não haveria problema em definir os eventos através de números Bastaria associar aos resultados do Espaço Amostral números através de uma função Esta função é chamada de Variável Aleatória Os modelos probabilísticos podem então ser construídos para as variáveis aleatórias O administrador precisa conhecer estes conceitos porque eles proporcionam maior objetividade na obtenção das probabilidades o que torna o processo de tomada de decisões mais seguro Vamos conhecer esses conceitos nesta Unidade Uma definição inicial de Variável Aleatória poderia ser tratase de uma variável quantitativa cujo resultado valor depende de fatores aleatórios Formalmente Variável Aleatória é uma função matemática que associa números reais contradomínio da função aos resultados de um Espaço AmostralGLOSSÁRIO Espaço Amostral é o conjunto de todos os resultados possíveis de um experimento aleatório Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIOdomínio da função por sua vez vinculado a um Experimento Aleatório Se o Espaço Amostral for finito ou infinito 9 numerável a variável aleatória é dita discreta Se o Espaço Amostral for infinito a variável aleatória é dita contínua Figura 1 Variável aleatória Fonte elaborada pelo autor Por exemplo imaginemos o Experimento AleatórioGLOSSÁRIO Experimento Aleatório é um processo de obtenção de um resultado ou medida que apresenta as seguintes características não se pode afirmar antes de realizar o experimento qual será o resultado de uma realização mas é possível determinar o conjunto de resultados possíveis quando é realizado um grande número de vezes replicado apresentará uma regularidade que permitirá construir um modelo probabilístico para analisar o experimento Fonte adaptado pelo autor de Lopes 1999 Fim GLOSSÁRIOjogar uma moeda honesta duas vezes e observar a face voltada para cima O Espaço Amostral seria finito CaraCara CaraCoroa CoroaCara CoroaCoroa Se houvesse interesse no número de caras obtidas poderia ser definida uma variável aleatória discreta X onde X Número de caras em dois lançamentos Os valores possíveis de X seriam X 0 1 2 O valor 0 é associado ao evento CoroaCoroa o valor 1 é associado aos eventos CaraCoroa e CoroaCara e o valor 2 é associado ao evento CaraCara 10 Quando o Espaço Amostral é infinito muitas vezes já está definido de forma numérica pela própria natureza quantitativa do fenômeno analisado facilitando a definição da variável aleatória Os Modelos Probabilísticos podem ser construídos para as variáveis aleatórias assim haverá Modelos Probabilísticos Discretos e Modelos Probabilísticos Contínuos Para construir um modelo probabilístico para uma variável aleatória é necessário definir os seus possíveis valores contradomínio e como a probabilidade total do Espaço Amostral que vale 1 distribuise entre eles é preciso então definir a distribuição de probabilidades GLOSSÁRIO Distribuição de probabilidades função que relaciona os valores possíveis que uma variável aleatória pode assumir com as respectivas probabilidades em suma é o próprio modelo probabilístico da variável aleatória Fonte Barbetta Reis e Bornia 2010 GLOSSÁRIO Veja que dependendo do tipo de variável aleatória haverá diferenças na construção da distribuição 12 Distribuições de probabilidades para variáveis aleatórias discretas Podemos ver alguns exemplos de variáveis aleatórias discretas a número de coroas obtido no lançamento de 2 moedas b número de itens defeituosos em uma amostra retirada aleatoriamente de um lote c número de defeitos em um azulejo numa fábrica de revestimentos cerâmicos d número de pessoas que visitam um determinado site num certo período de tempo Quando uma variável aleatória X é discreta a obtenção da distribuição de probabilidades consiste em definir o conjunto de pares xi pxi onde xi é o iésimo valor da variável X e pxi é a probabilidade de ocorrência de xi como no Quadro 1 X xi pX xi x1 px1 x2 px2 11 xn pxn Quadro 1Distribuição de Probabilidades para uma Variável Aleatória Discreta Fonte elaborado pelo autor Onde pxi 0 n é o número de valores que X pode assumir e n 1 i 01 px i Ao obter a distribuição de probabilidades para uma variável aleatória discreta se você quiser conferir os resultados some as probabilidades se elas não somarem 1 há algo errado Vamos ao primeiro exemplo Exemplo 1 O jogador Ruinzinho está treinando cobranças de pênaltis Dados históricos mostram que a probabilidade de ele acertar uma cobrança supondo que ele acertou a anterior é de 60 Mas se ele tiver errado a anterior a probabilidade de ele acertar uma cobrança cai para 30 Construa a distribuição de probabilidades do número de acertos em 3 tentativas de cobrança A variável aleatória X número de acertos em três tentativas é uma variável aleatória discreta o seu contradomínio é finito o jogador pode acertar 0 1 2 ou 3 vezes Mas para calcular as probabilidades associadas a esses valores é preciso estabelecer todos os eventos possíveis pois mais de um evento contribui para as probabilidades de 1 e 2 acertos Observando a árvore de eventos abaixo onde A é acertar a cobrança e E significa errar 12 Figura 2 Árvore de eventos Fonte elaborada pelo autor Observe que todos os eventos são mutuamente exclusivos o jogador não pode na mesma seqüência de 3 cobranças errar e acertar a primeira É preciso explicitar os valores da variável e os eventos em termos de teoria dos conjuntos Valores possíveis 0 1 2 3 acertos A equivalência entre os valores da variável e os eventos é estabelecida abaixo X 0 E1 E2 E3 X 1 A1 E2 E3 E1 A2 E3 E1 E2 A3 X 2 A1 A2 E3 E1 A2 A3 A1 E2 A3 X 3 A1 A2 A3 Então PX0 PE1 E2 E3 PX1 PA1 E2 E3 E1 A2 E3 E1 E2 A3 PX2 PA1 A2 E3 E1 A2 A3 A1 E2 A3 PX3 PA1 A2 A3 Assumese que na primeira tentativa o jogador tem 50 de chance de acertarLINK E1 errar a primeira cobrança é o evento complementar de A1 acertar a primeira cobrança LINK 13 então PA1 05 e PE1 05 Além disso estabeleceuse que quando o jogador acertou a cobrança na tentativa anterior a probabilidade de acertar a próxima é de 06 e caso tenha errado na anterior a probabilidade de acertar na próxima é de apenas 03 Tratamse de duas probabilidades condicionais estabelecidas em função de eventos já ocorridos Se o jogador acertou na tentativa i qualqueruma as probabilidades de acertar e errar na próxima tentativa serão PAi1Ai 06 Pelo complementar obtémse PEi1Ai 04 Se o jogador errou na tentativa i as probabilidades de acertar e errar na próxima tentativa serão PAi1Ei 03 Pelo complementar obtémse PEi1Ei 07 Com estas probabilidades estabelecidas lembrando da regra do produto e considerando o fato de que os eventos são mutuamente exclusivos é possível calcular as probabilidades de ocorrência de cada valor da variável aleatória X PX0 PE1 E2 E3 PE1 PE2 E1 PE3 E1 E2 Como os resultados em uma tentativa só dependem daqueles obtidos na imediatamente anterior o terceiro termo da expressão acima pode ser simplificado para PE3 E2 e a probabilidade será PX0 PE1 x PE2 E1 x PE3 E2 05 07 07 0245 245 Estendendo o procedimento acima para os outros valores PX1 PA1 E2 E3 E1 A2 E3 E1 E2 A3 PX2 PA1 A2 E3 E1 A2 A3 A1 E2 A3 PX3 PA1 A2 A3 Como os eventos são mutuamente exclusivos PX1 PA1 E2 E3 PE1 A2 E3 PE1 E2 A3 14 PX1 PA1PE2A1PE3E2PE1PA2E1PE3A2PE1PE2E1PA3E2 PX1 0504 07 05 03 04 05 07 03 0305 PX2 PA1 A2 E3 PE1 A2 A3 PA1 E2 A3 PX2 PA1PA2A1PE3A2PE1PA2E1PA3A2PA1PE2A1PA3E2 PX 2 05 06 04 05 03 06 05 04 03 027 27 PX3 PA1 A2 A3 PA1 PA2A1 PA3A2 05 06 06 018 18 Com os valores calculados acima é possível construir o Quadro 2com os pares valoresprobabilidades X pX xi 0 0245 1 0305 2 0270 3 0180 Total 10 Quadro 2 Distribuição de probabilidades número de acertos em 3 cobranças Fonte elaborado pelo autor Ao longo dos séculos matemáticos e estatísticos deduziram modelos matemáticos para tornar mais simples a obtenção de distribuição de probabilidades para uma variável aleatória discreta Alguns destes modelos serão vistos na Unidade 2 Vamos agora passar para a análise das variáveis aleatórias contínuas 13 Distribuições de probabilidades para variáveis aleatórias contínuas Podemos ver alguns exemplos de variáveis aleatórias contínuas 15 o volume de água perdido em um sistema de abastecimento o renda familiar em salários mínimos de pessoas selecionadas por amostragem aleatória para responder uma pesquisa o a demanda por um produto em um mês o tempo de vida de uma lâmpada incandescente Uma variável aleatória contínua está associada a um Espaço Amostral infinito Assim a probabilidade de que a variável assuma exatamente um valor xi é zero não havendo mais sentido em representar a distribuição pelos pares xi pxi Igualment sem sentido fica a distinção entre e existente nas variáveis aleatórias discretas Utilizase então uma função não negativa a função densidade de probabilidades definida para todos os valores possíveis da variável aleatória Uma função densidade de probabilidades poderia ser apresentada graficamente da seguinte forma Figura 3 Função densidade de probabilidades Fonte elaborada pelo autor Para calcular a probabilidade de uma variável aleatória contínua assumir valores entre a e b dois valores quaisquer basta calcular a área abaixo da curva entre a e b Se a área for calculada entre l e m limites da função tem que dar 1 que é a probabilidade total Usualmente isso é feito calculando a integral da função no intervalo de interesse Em muitas situações de nosso interesse tais probabilidades podem ser calculadas através de fórmulas matemáticas relativamente simples ou foram dispostas em tabelas que são encontradas em praticamente todos os livros de estatística e que serão vistas na Unidade 7 16 Agora vamos ver alguns conceitos muito importantes como valor esperado e variância de uma variável aleatória 14 Valor Esperado e Variância Todos os modelos probabilísticos apresentam duas medidas dois momentos que permitem caracterizar a variável aleatória para a qual eles foram construídos o Valor Esperado e a Variância da variável aleatória O Valor Esperado simbolizado por EX nada mais é do que a média aritmética simples vista em Análise Exploratória de Dados Unidade 3 de Estatística Aplicada à Administração I utilizando probabilidades ao invés de frequências no cálculo Analogamente a Variância simbolizada por VX é a variância vista anteriormente utilizando probabilidades Da mesma forma que em Análise Exploratória de Dados é também comum trabalhar com o Desvio Padrão raiz quadrada positiva da Variância que aqui será simbolizado por X sigma de X A interpretação dos resultados obtidos pode ser feita de forma semelhante à Análise Exploratória de Dados apenas recordando que se trata de uma variável aleatória e estão sendo usadas probabilidades e não frequências Para uma variável aleatória discreta o valor esperado e a variância podem ser calculados da seguinte forma n 1 i px i xi EX n 1 i px i xi2 EX 2 onde E X2 E X2 VX Para uma variável aleatória contínua a obtenção do valor esperado e da variância exige o cálculo de integrais das funções de densidade de probabilidades Para as distribuições mais importantes as equações encontramse disponíveis nos livros de estatística em função dos parâmetros da distribuição e algumas serão vistas na Unidade 2 Uma das principais utilidades do valor esperado é na comparação de propostas Suponha que os valores de uma variável aleatória sejam lucros ou prejuízos advindos de 17 decisões tomadas por exemplo decidir por uma proposta de compra do cliente A ou do cliente B Associados aos valores há probabilidades como decidir qual é a mais vantajosa O cálculo do valor esperado possibilita uma comparação objetiva decidiríamos pela que apresentasse o lucro esperado mais elevado Há um campo de conhecimento que se ocupa especificamente de fornecer as ferramentas necessárias para tais tomadas de decisão a teoria estatística da decisão ou análise estatística da decisão O valor esperado média e a variância apresentam algumas propriedades tanto para variáveis aleatórias discretas quanto contínuas O seu conhecimento facilitará muito a obtenção das medidas em problemas mais sofisticados Para o valor esperado EX sendo k uma constante a Ek k A média de uma constante é a própria constante b Ek X k EX A média de uma constante somada a uma variável aleatória é a própria constante somada à média da variável aleatória c EkX k EX A média de uma constante multiplicada por uma variável aleatória é a própria constante multiplicada pela média da variável aleatória d EX Y EX EY A média da soma de duas variáveis aleatórias é igual à soma das médias das duas variáveis aleatórias e Sejam X e Y duas variáveis aleatórias independentes EXY EX EY A média do produto de duas variáveis aleatórias independentes é igual ao produto das médias das duas variáveis aleatórias Para a variância VX sendo k uma constante a Vk 0 Uma constante não varia portanto sua variância é igual a zero b Vk X VX A variância de uma constante somada a uma variável aleatória é igual apenas à variância da variável aleatória c Vk X k2 VX A variância de uma constante multiplicada a uma variável aleatória é igual ao quadrado da constante multiplicada pela variância da variável aleatória 18 d Sejam X e Y duas variáveis aleatórias independentes VX Y VX VY A variância da soma ou subtração de duas variáveis aleatórias independentes será igual à soma das variâncias das duas variáveis aleatórias Agora vamos ver um exemplo Exemplo 2 Calcular o valor esperado e a variância da distribuição do Exemplo 1 Para uma variável aleatória discreta é aconselhável acrescentar mais uma coluna ao Quadro 2 com os valores e probabilidades para poder calcular o valor de EX2 X pX xi xi pX xi xi 2 pX xi 0 0245 0 0 1 0305 0305 0305 2 0270 0540 108 3 0180 0540 162 Total 10 1385 3005 Quadro 3 Distribuição de probabilidades do Exemplo 1 com coluna xi 2 pX xi Fonte elaborado pelo autor Substituindo nas expressões de valor esperado e variância 385 1 n 1 i px i xi EX acertos 1087 13852 005 3 2 n 1 i px i i x n 1 i px i xi2 VX acertos2 1042 1087 VX X acertos 19 Observe que o valor esperado 1385 acertos é um valor que a variável aleatória não pode assumir Não é o valor mais provável é o ponto de equilíbrio do conjunto Repare que a unidade da variância dificulta sua comparação com o valor esperado mas ao se utilizar o desvio padrão é possível verificar que a dispersão dos resultados é quase do valor da média valor esperado Tô afim de saber o Sobre Variáveis Aleatórias BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulos 5 e 6 o Sobre as propriedades de valor esperado e variância BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulos 5 e 6 o Também sobre variáveis aleatórias STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulos 5 e 6 o Sobre teoria estatística da decisão BEKMAN O R COSTA NETO P O Análise Estatística da Decisão São Paulo Edgard Blücher 1980 4ª reimpressão 2006 Atividades de aprendizagem 1 Três alunos estão tentando independentemente resolver um problema A probabilidade de que o aluno A resolva o problema é de 45 de B resolver é de 23 e de C resolver é de 37 Seja X o número de soluções corretas apresentadas para este problema a Construa a distribuição de probabilidades de X R 0038 0257 0476 0228 b Calcule EX e VX R 1893 0630 2 Um prédio possui 3 vigias dispostos em vários pontos de onde têm visão do portão de entrada Se alguém não autorizado entrar o vigia que o vê faz soar um alarme Suponha que os vigias trabalham independentemente entre si e que a probabilidade de que cada um deles veja uma pessoa entrar é 08 Seja X o número de alarmes que soam ao entrar uma 20 pessoa não autorizada Encontre a distribuição de probabilidades de X R 0008 0096 0384 0512 3 Uma companhia petrolífera obteve a concessão de explorar uma certa região Estudos anteriores estimam que a probabilidade de existir petróleo nessa região é 02 A companhia pode optar por um novo teste que custa 50 sendo que se realmente existe petróleo esse teste dirá com probabilidade 08 que existe e se realmente não existe petróleo dirá com probabilidade 07 que não existe Considerando que o custo de perfuração será de 300 e se for encontrado petróleo a companhia lucrará 1500 lucro bruto qual o valor esperado do lucro da companhia se essa tomar as melhores decisões perfurar quando o teste indicar que há petróleo e não perfurar quando o teste não indicar R 70 Resumo O resumo desta Unidade está demonstrado na Figura4 21 Figura 4 Resumo da Unidade 1 Fonte elaborado pelo autor NÃO SIM Experimento aleatório Espaço amostral infinito Associar números aos resultados Associar uma equação aos intervalos de resultados Variável aleatória discreta Variável aleatória contínua Distribuição de probabilidades Função densidade de probabilidades Valor esperado Variância Propriedades de valor esperado Propriedades de Variância Pares X e pX Não negativa Média centro de massa 22 Chegamos ao final de mais uma Unidade Veremos mais sobre os temas abordados na Unidade 2 quando estudaremos várias distribuições de probabilidade modelos probabilísticos que são extremamente úteis para modelar muitas situações práticas auxiliando na tomada de decisões Estes conhecimentos serão depois aplicados nas Unidades 4 e 5 23 Unidade 2 Modelos probabilísticos mais comuns 24 Objetivo Nesta Unidade você vai conhecer os modelos probabilísticos mais importantes para variáveis aleatórias discretas e contínuas Você aprenderá a identificar as situações reais em que podem ser usados para o cálculo de probabilidades e a importância disso para o administrador 25 21 Modelos Probabilísticos para Variáveis Aleatórias Discretas Na Unidade 6 de Estatística Aplicada à Administração I e na Unidade 1 deste livro vimos os conceitos gerais de Probabilidade e Variáveis Aleatórias podemos construir um modelo probabilístico do zero para um problema de administração a partir de dados históricos ou experimentais Embora plenamente possível o processo de construção de um modelo probabilístico do zero pode ser bastante longo é preciso coletar os dados fazer a análise exploratória deles obter as probabilidades e validar o modelo Mesmo tomando todos os cuidados muitas vezes iremos reinventar a roda e correndo o risco de ela sair quadrada Por que não usar os conhecimentos prévios desenvolvidos ao longo de centenas de anos de pesquisa e experimentação Vamos procurar dentre os vários modelos probabilísticos existentes aquele mais apropriado para o fenômeno que estamos estudando que é materializado através de variáveis aleatórias Através da análise exploratória de dados podemos avaliar qual modelo é mais apropriado para os nossos dados Contudo para fazer isso precisamos conhecer tais modelos Nesta Unidade vamos estudar os modelos mais usados para variáveis aleatórias discretas binomial e Poisson e para variáveis aleatórias contínuas uniforme normal t e quiquadrado Aqui é importante avaliar com cuidado a variável aleatória discretaGLOSSÁRIO Variável aleatória é uma função matemática que associa números reais aos resultados de um Espaço Amostral por sua vez vinculado a um Experimento Aleatório Fonte Barbetta Reis e Bornia 2010 FimGLOSSÁRIO 26 É preciso identificar se o Espaço Amostral é finito ou infinito numerávelGLOSSÁRIO Espaço Amostral finito é aquele formado por um número limitado de resultados possíveisFonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIO Espaço Amostral infinito numerável é aquele formado por um número infinito de resultados mas que podem ser listados Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIOalguns modelos são apropriados para um caso e não para o outro Vamos ver os dois modelos mais importantes para variáveis aleatórias discretas binomial e Poisson 211 Modelo binomial Seja um Experimento AleatórioGLOSSÁRIO Experimento Aleatório é um processo de obtenção de um resultado ou medida que apresenta as seguintes características não se pode afirmar antes de realizar o experimento qual será o resultado de uma realização mas é possível determinar o conjunto de resultados possíveis quando é realizado um grande número de vezes replicado apresentará uma regularidade que permitirá construir um modelo probabilístico para analisar o experimento Fonte adpatado pelo autor de Lopes 1999 Fim GLOSSÁRIOqualquer que apresenta as seguintes características o consiste na realização de um número finito e conhecido n de ensaios ou repetições o cada um dos ensaios tem apenas dois resultados possíveis sucesso ou fracasso estão entre aspas porque a definição de sucesso não quer necessariamente algo positivo e também porque poderá incluir significar um grupo de resultados e o os ensaios são independentes entre si apresentando probabilidades de sucesso p e de fracasso 1p constantes Neste caso estamos interessados no número de sucessos obtidos nos n ensaios como o Espaço Amostral é finito vai de 0 a n uma variável aleatória associada seria discreta Este tipo de experimento é chamado de Binomial 27 Então a variável aleatória discretaGLOSSÁRIO Variável aleatória discreta o Espaço Amostral ao qual ela está associada é finito ou infinito numerável Fonte Barbetta Reis e Bornia 2010 FimGLOSSÁRIO X número de sucessos nos n ensaios apresenta uma distribuição modelo binomial com os seguintes parâmetros n número de ensaios p probabilidade de sucesso Com esses dois parâmetros é possível calcular as probabilidades de um determinado número de sucessos bem como obter o Valor Esperado e a Variância da variável X p 1 p n p VX n EX Exemplo 1 Experimentos binomiais a Observar o número de caras em 3 lançamentos imparciais de uma moeda honesta n3 p05 b Observar o número de meninos nascidos em 3 partos de uma família n3 p x c Observar o número de componentes defeituosos em uma amostra de 10 componentes de um grande número de peças que apresentaram anteriormente 10 de defeituosos n 10 p 01 Vamos ver com maiores detalhes o caso do número de meninos e meninas nascidos em uma família Chamando menino de evento H será o sucesso e menina de evento M e sabendo pela história da família que PH 052 e PM 048 então p 052 e 1 p 048 quais serão as probabilidades obtidas para a variável aleatória número de meninos em 3 nascimentos Vamos obter a distribuição de probabilidades Resolvendo usando os conceitos gerais de probabilidade é preciso primeiramente determinar o Espaço Amostral como poderão ser os sexos das 3 crianças HHH HHM HMH MHH HMM MHM MMH MMM Supondo que os nascimentos sejam independentes podemos calcular as probabilidades de cada intersecção simplesmente multiplicando as probabilidades individuais de seus componentes 28 PHHH PH PH PH p p p p3 PHHM PH PH PM p p 1 p p2 1 p PHMH PH PM PH p 1 p p p2 1 p PMHH PM PH PH 1 p p p p2 1 p PHMM PH PM PM p 1 p 1 p p 1 p 2 PMHM PM PH PM 1 p p 1 p p 1 p 2 PMMH PM PM PH 1 p 1 p p p 1 p 2 PMMM PM PM PM 1 p 1 p 1 p 1 p 3 Observe que PHHM PHMH PMHH p2 1 p Probabilidade de 2 sucessos PHMM PMHM PMMH p 1 p 2 Probabilidade de 1 sucesso Importa apenas a natureza dos sucessos não a ordem em que ocorrem com a utilização de combinaçõesLINK em qualquer livro de matemática do ensino médio é possível encontrar a definição e exemplos de combinações Fim LINK é possível obter o número de resultados iguais para cada número de sucessos Supondo que o número de ensaios n é o número de objetos disponíveis e que o número de sucessos em que estamos interessados doravante chamado k é o número de espaços onde colocar os objetos um objeto por espaço o número de resultados iguais será k n k n C nk Para o caso acima em que há 3 ensaios n 3 para 2 sucessos k 2 3 2 3 2 3 C 3 2 o mesmo resultado obtido por enumeração para 1 sucesso k 1 3 3 1 1 3 C 13 o mesmo resultado obtido por enumeração 29 O procedimento acima poderia ser feito para quaisquer valores de n e k desde que n k permitindo obter uma expressão geral para calcular a probabilidade associada a um resultado qualquer A probabilidade de uma variável aleatória discreta X número de sucessos em n ensaios com distribuição binomial de parâmetros n e p assumir um certo valor k 0 kn será n k k nk p 1 p C k PX onde k n k n C nk É importante lembrar que a probabilidade de ocorrer k sucessos é igual à probabilidade de ocorrern k fracassos e que todos os axiomas e propriedades de probabilidade continuam válidos Exemplo 2 Admitamos que a probabilidade de que companhia não entregue seus produtos no prazo é igual a 18 Quais são as probabilidades de que em 3 entregas 1 2 ou todas as 3 entregas sejam feitas no prazo Calcular também valor esperado variância e desvio padrão do número de entregas no prazo Para cada entrega ensaio há apenas dois resultados no prazo ou não Há um número limitado de realizações n 3 Definindo sucesso como no prazo e supondo as operações independentes a variável aleatória X número de entregas no prazo em 3 terá distribuição binomial com parâmetros n 3 e p 082 e1 p 018 Então 0 006 018 0 82 0 3 0 3 018 0 82 C 0 PX 3 0 3 0 3 0 0 080 018 0 82 3 1 1 3 018 0 82 C 1 PX 2 1 2 1 13 0 363 018 0 82 2 3 2 3 018 0 82 C 2 PX 1 2 1 2 3 2 0 551 018 0 82 3 3 3 3 018 0 82 C 3 PX 0 3 0 3 33 30 Somando todas as probabilidades o resultado é igual a 1 como teria que ser LINK Lembrese que a soma das probabilidades de todos os eventos que compõem o Espaço Amostral é igual a 1 E que 0 1 e que um número diferente de 0 elevado a zero é igual a 1 LINK O Valor Esperado Variância e o Desvio Padrão serão 2 46 entregas 0 82 3 p n EX 0 4428 entregas 018 0 82 3 p 1 n p VX 2 0 665 entregas 0 4428 VX X A média é quase igual ao número de operações devido à alta probabilidade de sucesso Mas e se o Espaço Amostral fosse infinito numerável Teríamos que usar o modelo de Poisson Você conhece este modelo Sabe como tirar proveito de suas facilidades Vamos estudar juntos para aprender ou para relembrar 212 Modelo de Poisson Vamos supor um experimento binomial com apenas dois resultados possíveis mas com a seguinte característica apesar da probabilidade p ser constante o valor de n teoricamente é infinito Na situação acima o modelo binomial não poderá ser utilizado Nestes casos deve ser utilizado o modelo de Poisson Como seria a solução para o caso acima Como n é infinito devese fazer a análise das ocorrências em um período contínuo de tempo de espaço entre outros subdividido em um certo número de subintervalos número tal que a probabilidade de existir mais de uma ocorrência em uma subdivisão é desprezível e supondo ainda que as ocorrências em subdivisões diferentes são independentes novamente é preciso trabalhar com uma quantidade constante que será chamada de m também t m 31 onde é uma taxa de ocorrência do evento em um período contínuo igual ou diferente do período sob análise e t é justamente o período contínuo sob análiseLINK Apesar do símbolo t o período contínuo não é necessariamente um intervalo de tempo LINK Como obter a taxa Há duas opções realizar um número suficiente de testes de laboratório para obter a taxa de ocorrência do evento a partir dos resultados ou observar dados históricos e calcular a taxa Se uma variável aleatória discreta X número de ocorrências de um evento segue a distribuição de Poisson a probabilidade de X assumir um valor k será k m e k X P k m Onde e é uma constante e 271 E p n m ou t m Uma particularidade interessante da distribuição de Poisson é que o Valor Esperado e a Variância de uma variável aleatória que siga tal distribuição serão iguais t m EX t m VX O modelo de Poisson é muito utilizado para modelar fenômenos envolvendo filas filas de banco filas de mensagens em um servidor filas de automóveis em um cruzamento Exemplo 3 Alguns experimentos e fenômenos que seguem a distribuição de Poisson a Número mensal de acidentes de tráfego em um cruzamento Observe que é uma variável aleatória discreta pode assumir apenas valores inteiros 0 1 2 3 Cada realização do experimento acidente pode ter apenas 2 resultados ocorre o acidente ou não ocorre o acidente Mas o número máximo de realizações é desconhecido Assim a distribuição binomial não pode ser usada e a análise do número de acidentes precisa ser feita em um período contínuo no caso período de tempo 1 mês exigindo o uso da distribuição de Poisson b Número de itens defeituosos produzidos por hora em uma indústria 32 Novamente uma variável aleatória discreta valores inteiros 01 2 3 cada realização só pode ter dois resultados possíveis peça sem defeito ou peça defeituosa Se o número máximo de realizações for conhecido provavelmente a probabilidade de uma peça ser defeituosa será reduzida e apesar de ser possível a utilização da distribuição binomial o uso da distribuição de Poisson obterá resultados muitos próximos Se o número máximo de realizações for desconhecido a distribuição binomial não pode ser usada e a análise do número de acidentes precisa ser feita em um período contínuo no caso período de tempo 1 hora exigindo o uso da distribuição dePoisson c Desintegração dos núcleos de substâncias radioativas contagem do número de pulsações radioativas a intervalos de tempo fixos Situação semelhante a dos acidentes em um cruzamento só que o grau de aleatoriedade deste experimento é muito maior O número máximo de pulsações também é desconhecido obrigando a realizar a análise em um período contínuo utilizando a distribuição dePoisson Exemplo 4 Uma telefonista recebe cerca de 020 chamadas por minuto valor obtido de medições anteriores a Qual é a probabilidade de receber exatamente 5 chamadas nos primeiros 10 minutos b Qual é a probabilidade de receber até 2 chamadas nos primeiros 12 minutos c Qual é o desvio padrão do número de chamadas em meia hora Há interesse no número de chamadas ocorridas em um período contínuo de tempo no caso Para cada ensaio há apenas dois resultados possíveis a chamada ocorre ou não Observe que não há um limite para o número de chamadas no período sabese apenas que o número mínimo pode ser 0 por esse motivo a utilização da binomial é inviável Contudo há uma taxa de ocorrência 020 chamadasminuto e isso permite utilizar a distribuição de Poisson a Neste caso o período t será igual a 10 minutos t 10 min PX 5 2 chamadas 0 20 10 t m 0 0361 5 2 e 5 PX k m e k X P 5 2 k m 33 Então a probabilidade de que a telefonista receba exatamente 5 chamadas em 10 minutos é igual a 00361 361 b Neste caso o período t será igual a 12 minutos t 12 minutos O evento de interesse é até 2 chamadas em 12 minutos X 2 chamadas 42 0 20 12 t m PX 2 PX 0 PX 1 PX 2 0 0907 0 42 e 0 X P 0 4 2 0 2177 1 42 e 1 X P 1 4 2 0 2613 2 42 e 2 X P 2 4 2 PX 2 PX 0 PX 1 PX 2 00907 02177 02613 05697 Então a probabilidade de que a telefonista receba até 2 chamadas em 12 minutos é igual a 05697 5697 c Neste caso o período t será igual a 30 minutos t 30 minutos Primeiro calculase a variância 6 chamadas2 30 20 t m VX O Desvio Padrão é a raiz quadrada positiva da variância 2 45 chamadas 6 VX X Há vários outros modelos para variáveis aleatórias discretas hipergeométrico geométrico binomial negativo Na próxima seção vamos ver os principais modelos variáveis aleatórias contínuas 22 Modelos probabilísticos para Variáveis Aleatórias Contínuas Nesta seção estudaremos os modelos uniforme normal t e quiquadrado 34 221 Modelo uniforme Quando o Espaço Amostral associado a um Experimento Aleatório é infinito torna se necessário o uso de uma Variável Aleatória Contínuapara associar números reais aos resultados Os modelos probabilísticos vistos anteriormente não podem ser empregados a probabilidade de que uma variável aleatória contínua assuma exatamente um determinado valor é zero Para entender melhor a declaração acima vamos relembrar a definição clássica de probabilidade a probabilidade de ocorrência de um evento será igual ao quociente entre o número de resultados associados ao evento pelo número total de resultados possíveis Ora se o número total de resultados é infinito ou tende ao infinito para ser mais exato a probabilidade de ocorrência de um valor específico é igual a zero Por esse motivo quando se lida com Variáveis Aleatórias Contínuas calculase a probabilidade de ocorrência de eventos formados por intervalos de valores através de uma função densidade de probabilidades ver Unidade 1 Outra conseqüência disso é que os símbolos e e também são equivalentes para variáveis aleatórias contínuas O modelo mais simples para variáveis aleatórias contínuas é o modelo uniforme Seja uma variável aleatória contínua qualquer X que possa assumir valores entre A e B Todos os valores entre A e B têm a mesma probabilidade de ocorrer resultando no gráfico apresentado na Figura 5 Figura 5 Modelo uniforme Fonte elaborada pelo autor 35 Para que a área entre a e b seja igual a 1 o valor da ordenada precisa ser igual a 1b a constante portanto para todo o intervalo A área escura representa a probabilidade da variável X assumir valores no intervalo c d Tratase do modelo uniforme Dois intervalos de valores da variável aleatória contínua que tenham o mesmo tamanho têm a mesma probabilidade de ocorrer desde que dentro da faixa de valores para os quais a função de densidade de probabilidades não é nula Formalmente uma variável aleatória contínua X tem distribuição uniforme com parâmetros a e b reais sendo a menor do que b se sua função densidade de probabilidades for tal como a da Figuras49 A probabilidade de que a variável assuma valores entre c e d sendo a c d b é a área compreendida entre c e d a b 1 c d d X P c Seu valor esperado e variância são 2 b a EX 12 a b X V 2 Intuitivamente podemos supor que muitas variáveis aleatórias contínuas terão um comportamento diferente do caso acima em algumas delas haverá maior probabilidade de ocorrências de valores próximos ao limite inferior ou superior para cada caso deverá ser ajustado um modelo probabilístico contínuo adequado O modelo uniforme é bastante usado para gerar números pseudoaleatórios em processos de amostragem probabilística LINK No ambiente virtual temos um exemplo resolvido de modelo uniforme adaptado de BUSSAB WO MORETTIN P A Estatística Básica 4ª ed São Paulo Atual 1987 LINK Agora vamos passar ao modelo mais importante para variáveis aleatórias contínuas 222 Modelo normal 36 Há casos em que há maior probabilidade de ocorrência de valores situados em intervalos centrais da função densidade de probabilidades da variável aleatória contínua e esta probabilidade diminui a medida que os valores se afastam deste centro para valores menores ou maiores o modelo probabilístico contínuo mais adequado seja o modelo Normal ou gaussiano LINK O matemático alemão Gauss utilizou amplamente este modelo no tratamento de erros experimentais embora não tenha sido o seu descobridor LINK Isso é especialmente encontrado em variáveis biométricas resultantes de medidas corpóreas em seres vivos O Modelo Normal é adequado para medidas numéricas em geral descrevendo vários fenômenos e permitindo fazer aproximações de modelos discretos É extremamente importante também para a Estatística Indutiva O gráfico da função densidade de probabilidades de uma variável aleatória contínua que siga o modelo Normal distribuição Normal será como a Figura 6 Figura 6 Distribuição normal Fonte elaborada pelo autor a partir de Statgraphics Características a curva apresenta forma de sino há maior probabilidade da variável assumir valores próximos do centro os valores de média µ e de mediana Md são iguais significando que a curva é simétrica em relação à média teoricamente a curva prolongase de a menos infinito a mais infinito então a área total sob a curva é igual a 1 100 37 qualquer distribuição normal é perfeitamente especificada por seus parâmetros média µ e variância 2 X N µ 2 LINK É comum a utilização de letras do alfabeto grego para representar algumas medidas Não se esqueça que o desvio padrão é a raiz quadrada positiva da variância LINK significa que a variável X tem distribuição normal com média µ e variância 2 a área escura na Figura6 é a probabilidade de uma variável que siga a distribuição normal assumir valores entre a e b esta área é calculada através da integral da função normal de a ab cada combinação µ 2 resulta em uma distribuição Normal diferente portanto há uma família infinita de distribuições a função normal citada acima tem a seguinte e aterradora fórmula para sua função densidade de probabilidade x e 2 1 x f 2 x 2 1 2 Saiba que não existe solução analítica para uma integral da expressão acima qualquer integral precisa ser resolvida usando métodos numéricos de integração que são extremamente trabalhosos quando implementados manualmente somente viáveis se usarem meios computacionais De Moivre Laplace e Gauss desenvolveram seus trabalhos entre a metade do século XVIII e início do século XIX e os computadores começaram a se popularizar a partir da década de 1960 do século XX LINK Gauss e todas as outras pessoas que usavam a distribuição Normal para calcular probabilidades até recentemente resolviam as integrais usando métodos numéricos manualmente LINK Todas as distribuições normais apresentam algumas características em comum porém independentemente de seus valores de média e de variância 68 dos dados estão situados entre a média menos um desvio padrão µ e a média mais um desvio padrão µ 955 dos dados estão situados entre a média menos dois desvios padrões µ 2 e a média mais dois desvios padrões µ 2 38 997 dos dados estão situados entre a média menos três desvios padrões µ 3 e a média mais três desvios padrões µ 3 Figura 7 Percentuais de dados e número de desvios padrões Fonte elaborada pelo autor a partir de Statgraphics Por causa dessas características alguém teve a idéia de criar um modelo normal padrão uma variável Z com distribuição normal de média igual a zero e desvio padrão igual a 1 Z N0 1 As probabilidades foram calculadas para esta distribuição padrão e registradas em uma tabela Através de uma transformação de variáveis chamada padronização é possível converter os valores de qualquer distribuição Normal em valores da distribuição Normal padrão e assim obter suas probabilidades calcular o número de desvios padrões a contar da média a que está um valor da variável através da seguinte expressão Z x Z número de desvios padrões a partir da média x valor de interesse µ média da distribuição normal de interesse desvio padrão da distribuição normal Z é um valor relativo será negativo para valores de x menores do que a média e será positivo para valores de x maiores do que a média Pela transformação uma 39 distribuição Normal qualquer X N µ 2 passa a ser equivalente à distribuição Normal padrão Z N0 1 um valor de interesse x pode ser convertido em um valor z As probabilidades de uma variável com distribuição normal podem ser representadas por áreas sob a curva da distribuição normal padrão No ambiente virtual apresentamos a Tabela que relaciona valores positivos de z com áreas sob a cauda superior da curva Os valores de z são apresentados com duas decimais A primeira decimal fica na coluna da esquerda e a segunda decimal na linha do topo da tabela A Figura 8 mostra como podemos usar essa Tabela para encontrar por exemplo a área sob a cauda superior da curva além de z 021 Figura 8 Ilustração do uso da tabela da distribuição normal padrão Tabela III do apêndice para encontrar a área na cauda superior relativa ao valor de z 021 Fonte Barbetta Reis Bornia2010 Exemplo 5 Suponha uma variável aleatória contínua X que tenha uma distribuição normal com média 50 e desvio padrão 10 Há interesse em calcular as probabilidades dos seguintes eventos a X 55 b X 50 c X 35 d 48 X 56 a Primeiramente calculamos o valor de Z correspondente a 55 Z 55 50 10 05Pelas Figuras9 e 10podese ver a correspondência entre as duas distribuições 40 Figura 9PX55 Figura 10PZ 05 Fonte elaboradas pelo autor a partir de Stagraphics O evento P X55 é equivalente ao evento P Z 05 Este valor pode ser obtido na tabela da distribuição normal padrão ver ambiente virtual Os valores de Z são apresentados com dois decimais o primeiro na coluna da extrema esquerda e o segundo na linha do topo da tabela Observe pelas Figurass que estão no alto da tabela que as probabilidades são para eventos do tipo do da Figuras acima PZ z1 Assim poderíamos procurar a probabilidade do evento Z 05 fazendo o cruzamento do valor 05 na coluna com o valor 000 na linha do topo encontramos o valor 03085 3085 Portanto PX55 é igual a 03085 Observe a coerência entre o valor encontrado e as áreas na Figuras a área é menor do que a metade da Figuras metade da Figuras significaria 50 e a probabilidade encontrada vale 3085 b Precisamos calcular o valor de Z correspondente a 40 Z 40 50 10 100Pelas Figuras11 e 12 podemos ver a correspondência entre as duas distribuições Figura 11PX40 Figura 12PZ 100 Fonte elaboradas pelo autor a partir de Statgraphics O evento P X40 é equivalente ao evento P Z 100 Repare porém que queremos encontrar P Z 100 e a tabela nos apresenta valores apenas para P Z 100 41 Contudo se rebatermos a Figura 12da distribuição normal padrão com Z 100 para a direita teremos o seguinte resultado Figura 13 Figura 13P Z 100 rebatimento de PZ 100 Fonte elaborada pelo autor a partir de Stagraphics Ou seja a área PZ 1 PZ 1 Esta probabilidade nós podemos encontrar diretamente pela tabela fazendo o cruzamento do valor 10 na coluna com o valor 000 na linha do topo encontramos o valor 01587 1587 Portanto PX40 PZ1 PZ1 que é igual a 01587 c Agora há interesse em calcular a probabilidade de que X seja maior do que 35 É preciso calcular o valor de Z correspondente a 35 Z 35 50 10 150Pelas Figuras14 e 15 se pode ver a correspondência entre as duas distribuições Figura 14PX 35 Figura 15PZ 150 Fonte elaboradas pelo autor a partir de Statgraphics Não podemos obter a probabilidade PZ150 diretamente pois a tabela do ambiente virtual apresenta apenas resultados para valores positivos de Z Sabemos que a 42 probabilidade total vale 10 podemos então considerar que PZ 150 1 PZ 150 Usando o raciocínio descrito na letra b rebatendo a Figura 15 para a direita vamos obter PZ150 PZ150 Esta última probabilidade pode ser facilmente encontrada na tabela da distribuição normal padrão PZ150 PZ150 00668 Basta substituir na expressão PZ 150 1 PZ 150 1 00668 09332 9332 Observe novamente a coerência entre as áreas da Figuras acima e o valor da probabilidade a área na Figuras compreende mais do que 50 da probabilidade total aproximandose do extremo inferior da distribuição perto de 100 e a probabilidade encontrada realmente é próxima de 100 d Agora há interesse em calcular a probabilidade de que X assuma valores entre 48 e 56 Calcular P 48 X 56 veja a Figura49 abaixo Figura 16P48 X 56 Fonte elaborada pelo autor a partir de Statgraphics Novamente precisamos calcular os valores de Z correspondentes a 48 e a 56 Z1 48 50 10 020 Z2 56 50 10 060 Então P 48 X 56 P 020Z060 Repare que a área entre 48 e 56 é igual à área de 48 até MENOS a área de 56 até P48 X 56 PX 48 PX 56 P020 Z 060 PZ 020 PZ 060 E os valores acima podem ser obtidos na tabela da distribuição normal padrão PZ 060 02743 PZ 020 1 PZ 020 1 04207 05793 43 P48 X 56 P020 Z 060 PZ 020 PZ 060 05793 02743 03050 Então a probabilidade da variável X assumir valores entre 48 e 56 é igual a 0305 305 A distribuição Normal também pode ser utilizada para encontrar valores da variável de interesse correspondentes a uma probabilidade fixada Exemplo 6 Supondo a mesma variável aleatória X com média 50 e desvio padrão 10 Encontre os valores de X situados à mesma distância abaixo e acima da média que contém 95 dos valores da variável Como a distribuição Normal é simétrica em relação à média e como neste problema os valores de interesse estão situados à mesma distância da média sobram 5 dos valores 25 na cauda inferior e 25 na superior como na Figura17 Figura 17Px1 X x2 095 Fonte elaborada pelo autor a partir de Statgraphics É preciso encontrar os valores de Z na tabela da distribuição Normal padrão correspondentes às probabilidades da Figura acima e a partir daí obter os valores de x1 e x2 Passando para a distribuição Normal padrão x1 corresponderá a um valor z1 e x2 a um valor z2 como na Figura18 44 Figura 18Pz2 Z z2 095 Fonte elaborada pelo autor a partir de Statgraphics Repare que a média da distribuição Normal padrão é igual a zero fazendo com que z1 e z2 sejam iguais em módulo Podemos encontrar z2 já que PZ z2 0025 É necessário encontrar o valor da probabilidade na tabela da distribuição Normal padrão ou o valor mais próximo e obter o valor de Z associadoPara o caso de z2 ao procurar pela probabilidade 0025 encontramos o valor exato 0025 e por conseguinte o valor de z2 que é igual a 196 P Z 196 0025 Como z1 z2 encontramos facilmente o valor de z1 z1 196 P Z 196 0025Observe que os valores são iguais em módulo mas corresponderão a valores diferentes da variável X A expressão usada para obter o valor de Z em função do valor da variável X pode ser usada para o inverso Z x x Z E assim obteremos os valores de x1 e x2LINK É muito importante que se preste atenção no sinal do valor de z ao obter o valor de x LINK Observe se o resultado obtido faz sentido que correspondem a z1 e z2 respectivamente x1 µ z1 50 196 x 10 304 x2 µ z2 50 196 x 10 696 45 Observe que os resultados obtidos são coerentes 304 está abaixo da média 196 desvios padrões e 696 acima também 196 desvios padrões O intervalo definido por estes dois valores compreende 95 dos resultados da variável X Todo este trabalho poderia ter sido poupado se houvesse um programa computacional que fizesse esses cálculos Há vários softwares disponíveis no mercado alguns deles de domínio público que calculam as probabilidades associadas a determinados eventos como também os valores associados a determinadas probabilidades Uma das características mais importantes do modelo normal é a sua capacidade de aproximar outros modelos permitindo muitas vezes simplificar os cálculos de probabilidade Na próxima seção vamos ver como o modelo normal pode ser usado para aproximar o binomial GLOSSÁRIO Modelo binomial modelo probabilístico para variáveis aleatórias discretas que descreve o número de sucessos em n experimentos independentes sendo n finito e conhecido sendo que os experimentos podem ter apenas dois resultados possíveis e a probabilidade de sucesso permanece constante durante os n experimentos Fonte Barbetta Reis e Bornia 2010 Lopes 1999 FimGLOSSÁRIO 223 Modelo normal como aproximação do binomial O modelo Binomial discreto pode ser aproximado pelo modelo Normal contínuo se certas condições forem satisfeitas o quando o valor de n número de ensaios for tal que os cálculos binomiais trabalhosos demais LINK Para os que pensam que o advento dos computadores eliminou este problema um alerta em alguns casos os números envolvidos são tão grandes que sobrepujam suas capacidades LINK o quando o produto n p o valor esperado do modelo Binomial e o produto n 1 p forem ambos maiores ou iguais a 5 Se isso ocorrer uma binomial de parâmetros n e p pode ser aproximada por uma normal com 46 média µ n p valor esperado do modelo Binomial variância 2 n p 1 p variância do modelo Binomial Usando o modelo Normal contínuo para aproximar o Binomial discreto é necessário fazer uma correção de continuidade associar um intervalo ao valor discreto para que o valor da probabilidade calculada pelo modelo contínuo seja mensurável Este intervalo deve ser centrado no valor discreto e deve ter uma amplitude igual à diferença entre dois valores consecutivos da variável discreta se por exemplo a diferença for igual a 1 a variável somente pode assumir valores inteiros o intervalo deve ter amplitude igual a 1 05 abaixo do valor e 05 acima Esta correção de continuidade precisa ser feita para garantir a coerência da aproximação Seja uma variável aleatória X com distribuição Binomial 1 Há interesse em calcular a probabilidade de X assumir um valor k genérico PX k ao fazer a aproximação pela Normal será Pk 05 X k 05 Figura 18 Correção de continuidade da aproximação do modelo Binomial pelo Normal 1º caso Fonte elaborada pelo autor 2 Há interesse em calcular a probabilidade de X assumir valores menores ou iguais a um valor k genérico PX k ao fazer a aproximação pela Normal será PX k 05 todo o intervalo referente a k será incluído 47 Figura 19 Correção de continuidade da aproximação do modelo Binomial pelo Normal 2º caso Fonte elaborada pelo autor 3 Há interesse em calcular a probabilidade de X assumir valores maiores ou iguais a um valor k genérico PX k ao fazer a aproximação pela Normal será PX k 05 todo o intervalo referente a k será incluído Figura 20 Correção de continuidade da aproximação do modelo Binomial pelo Normal 3º caso Fonte elaborada pelo autor 4 Há interesse em calcular a probabilidade de X assumir valores menores do que um valor k genérico PX k ao fazer a aproximação pela Normal será PX k 05 todo o intervalo referente a k será excluído Figura 21 Correção de continuidade da aproximação do modelo Binomial pelo Normal 4º caso Fonte elaborada pelo autor 48 5 Há interesse em calcular a probabilidade de X assumir valores maiores do que um valor k genérico PX k ao fazer a aproximação pela Normal será PX k 05 todo o intervalo referente a k será excluído Figura 22 Correção de continuidade da aproximação do modelo Binomial pelo Normal 5º caso Fonte elaborada pelo autor Exemplo 7 Um município tem 40000 eleitores Para uma pesquisa de opinião eleitoral uma amostra aleatória de 1500 pessoas foi selecionadaQual é a probabilidade de que pelo menos 500 dos eleitores seja menor de 25 anos se 35 dos 40000 são menores do que 25 anos Este problema poderia ser resolvido usando o modelo Binomial Há apenas dois resultados possíveis para cada eleitor menor de 25 anos sucesso e maior ou igual a 25 anos fracasso Existe um limite superior de realizações no caso os 1500 eleitores da amostra e há independência entre as retiradas pois a amostra foi retirada de forma aleatória e a amostra representa menos de 5 dos 40000 eleitores Então sucesso menor de 25 anos p 035 1 p 065 n 1500 A variável aleatória discreta X número de eleitores menores de 25 anos em 1500 terá distribuição binomial com parâmetros n 1500 e p 035 O evento pelo menos 500 menores de 25 anos seria definido como 500 ou mais eleitores P X 500 PX 500 PX 501 PX 1500 Há cerca de 1000 expressões binomiais 49 Vamos ver se é possível aproximar pelo modelo Normal O valor de n é grandenp 1500 035 525 5e n1 p 1500 065 975 5 Como as condições foram satisfeitas é possível aproximar por um modelo Normal média µ n p 1500 x 035 525 desvio padrão 1847 0 65 0 35 1500 p 1 n p Pelo modelo Binomial P X 500 Pelo modelo Normal será P X 4995 PX 4995 PZ z1z1 4995 5251847 138 PZ 138 1 PZ 138 Procurando na tabela da distribuição Normal padrão P Z 138 00838 Então P X 500 PX 4995 P Z 138 1 PZ 138 1 00838 09162 A probabilidade de que pelo menos 500 dos eleitores da amostra sejam menores de 25 anos é igual a 09162 9162 Nas próximas duas seções vamos ver modelos probabilísticos derivados do modelo normal usados predominantemente em processos de inferência estatística Vamos introduzilos agora para facilitar nosso trabalho quando chegarmos às Unidades 5 e 6 224 Modelo distribuição t de Student Havia um matemático inglês William Gosset que trabalhava para a cervejaria Guiness em Dublin Irlanda no início do século XX Ele atuava no controle da qualidade do cultivo de ingredientes para a fabricação de cerveja Nesta época alguns estatísticos usavam a distribuição normal no estabelecimento de intervalos de confiança para a média a partir de pequenas amostras veremos isso na Unidade 5 Calculavam média aritmética simples e variância da amostra e generalizavam os resultados através do modelo normal como fizemos no Exemplo 7 50 Gosset descobriu que o modelo normal não funcionava direito para pequenas amostras e desenvolveu um novo modelo probabilístico derivado do normal introduzindo uma correção para levar em conta justamente o tamanho de amostra Ele aplicou suas descobertas em seu trabalho e quis publicálas mas a Guiness apenas permitiu após ele adotar o pseudônimo Student Por isso o seu modelo é conhecido como t de Student para n 1 graus de liberdade O valor n 1 tamanho da amostra menos 1 é chamado de número de graus de liberdade da estatística Quando a variância amostral é calculada supõese que a média já seja conhecida assim apenas um determinado número de elementos da amostra poderá ter seus valores variando livremente este número será igual a n 1 porque um dos valores não poderá variar livremente pois terá que ter um valor tal que a média permaneça a mesma calculada anteriormente Assim a estatística terá n 1 graus de liberdade Tratase de uma distribuição de probabilidades que apresenta média igual a zero como a normal padrão é simétrica em relação à média mas apresenta uma variância igual a n n 2 ou seja seus valores dependem do tamanho da amostra apresentando maior variância para menores valores de amostra LINK Esta é a correção propriamente dita pois ao usar pequenas amostras o risco de que a variância amostral da variável seja diferente da variância populacional é maior podendo levar a intervalos de confiança que não correspondem à realidade A não utilização desta correção foi a fonte de muitos erros no passado e infelizmente de ainda alguns erros no presente LINK Quanto maior o tamanho da amostra mais a variância de t aproximase de 100 variância da normal padrão LINK Para tamanhos de amostra maiores do que 30 supõese que a variância de t é igual a 1 por isso a aproximação do item b1 LINK A distribuição t de Student está na Figura23 para vários graus de liberdade 51 Figura 23 Distribuição t de Student para vários graus de liberdade Fonte Barbetta Reis Bornia 2010 Observe que tal como a distribuição normal padrão a distribuição t de Student é simétrica em relação à média que é igual a zero A tabela da distribuição t de Student encontrase no ambiente virtual para vários graus de liberdade e valores de probabilidade Exemplo 8 Imagine a situação do Exemplo 7 obter os valores de t simétricos em relação à média que contêm 95 dos dados supondo uma amostra de 10 elementos Temos que encontrar os valores t1 e t2 simétricos em relação à média que definem o intervalo que contém 95 dos dados Como supomos uma amostra de 10 elementos a distribuição t de Student terá 10 1 9 graus de liberdade Repare que a média da distribuição t de Student é igual a zero fazendo com que t1 e t2 sejam iguais em módulo Podemos encontrar t2 já que Pt t2 0025 Veja a Figura24 52 Figura 24 Uso da tabela da distribuição t de Student Ilustração com gl 9 e área na cauda superior de 25 Fonte Barbetta Reis Bornia 2010 Vamos utilizar bastante a distribuição t de Student nas Unidades 5 e 6 225 Modelo quiquadrado Tratase de mais um modelo derivado da distribuição normal embora não vamos discutir como se dá esta derivação aqui Na Unidade 2 de Estatística Aplicada à Administração I estudamos como descrever os relacionamentos entre duas variáveis qualitativas geralmente expresso através de uma tabela de contingências No Quadro 4daquela Unidade analisamos o relacionamento entre modelo e opinião geral sobre os veículos da Toyord Havíamos concluído que havia relacionamento pois os modelos mais baratos apresentavam maiores percentuais de insatisfeitos do que os mais caros Na Unidade 6 vamos aprender a calcular uma estatística que relacionará as frequências observadas de cada cruzamento entre os valores de duas variáveis qualitativas expressas em uma tabela de contingências com as frequências esperadas desses mesmos cruzamentos se as duas variáveis não tivessem qualquer relacionamento entre si Esta estatística é chamada de quiquadrado χ2 e caso a hipótese de que as variáveis não se relacionem ela seguirá o modelo quiquadrado com um certo número de graus de liberdade 53 O número de graus de liberdade dependerá das condições da tabela para o caso que será visto na Unidade 10 será o produto do número de linhas da tabela 1 pelo número de colunas da tabela 1 É uma distribuição assimétrica sempre positiva que tem valores diferentes dependendo do seu número de graus de liberdade Sua média é igual ao número de graus de liberdade e a variância é igual a duas vezes o número de graus de liberdade Figura 25 Modelo quiquadrado com 2 5 10 20 e 30graus de liberdade Fonte adaptada pelo autor de Stagraphics A Figura 25 mostra as curvas do modelo distribuição quiquadrado para 2 5 10 20 e 30 graus de liberdade Observe como variam de forma dependendo do número de graus de liberdade da estatística A tabela da distribuição quiquadradoencontrase no Ambiente Virtual de Ensino Aprendizagem para vários graus de liberdade e valores de probabilidade Vamos ver um exemplo Exemplo 9 Imagine que queremos encontrar o valor da estatística quiquadrado para 3 graus de liberdade deixando uma área na cauda superior de 5 54 O valor da estatística quiquadrado que define uma área na cauda superior de 5 pode ser encontrado através da Tabela cruzando a linha de 3 graus de liberdade com a coluna de área na cauda superior igual a 005 Veja a Figura 26 a seguir Figura 26 Uso da tabela da distribuição quiquadrado Ilustração com gl 3 e área na cauda superior de 5 Fonte adaptado pelo autor de Barbetta Reis Bornia 2010 23 Modelos probabilísticosem planilhas eletrônicas Atualmente todas as planilhas eletrônicas têm os principais modelos probabilísticos disponíveis permitindo realizar cálculos de probabilidades ou obtenção de escores com facilidade e praticamente eliminando a necessidade de aproximações ou tabelas Para os modelos binomial Poisson normal t de Student e quiquadrado a planilha eletrônica Microsoft Excel dispõe de várias funções que permitem realizar os cálculos apresentados nos exemplos desta unidade A seguir serão apresentadas as principais funções com os argumentos necessários para realizar os cálculos Elas podem ser usadas mesmo nas versões mais antigas do Excel embora nas mais recentes haja outras com uma sintaxe um pouco diferente 55 Para uma variável aleatória X que siga um modelo binomial de parâmetros n e p supondo um valor xi qualquer1 PX xi DISTRBINOMxinpFALSO A função acima permitirá calcular a probabilidade de X ser exatamente igual a xi Se quisermos a probabilidade acumulada até xi basta fazer uma pequena modificação PX xi DISTRBINOMxinpVERDADEIRO Exemplo 10 Estudos anteriores mostraram que há 73 de chance de consumidoras apresentarem uma reação positiva a anúncios publicitários com crianças Uma agência apresentou um novo anúncio para 5 consumidoras Qual é a probabilidade de que pelo menos 3 das 5 consumidoras apresentem reação positiva Para cada consumidora ensaio há apenas 2 resultados reação positiva ou não Há um número finito de realizações n 5 Definindo sucesso como reação positiva e considerando as consumidoras independentes a variável aleatória X número de consumidoras com reação positiva em 5 que assistiram o novo anúncio terá distribuição binomial com parâmetros n 5 e p 073 e 1 p 027 Evento de interesse X 3 PX3 PX3 PX4 PX5 Pela fórmula binomial 𝑃𝑋 3 𝐶53 0733 0272 5 3 5 3 0733 0272 0284 𝑃𝑋 4 𝐶54 0734 0271 5 4 5 4 0734 0271 0383 𝑃𝑋 5 𝐶55 0735 0270 5 5 5 5 0735 0270 0207 1 Para inserir qualquer fórmula no Excel é preciso selecionar uma célula e digitar seguido da fórmulafunção desejada Maiores detalhes em httpswwwyoutubecomwatchvgVH1VxpZ5iQ 56 PX 3 PX 3 PX 4 PX 5 0284 0383 0207 0874 Pelo Excel lembrando da propriedade do evento complementar PX 3 1 PX 3 1 PX 2 Então PX 3 1 DISTRBINOM25073VERDADEIRO 1 0126 0874 Para uma variável aleatória X que siga um modelo de Poisson com parâmetro m λt supondo um valor xi qualquer PX xi POISSONximFALSO A função acima permitirá calcular a probabilidade de X ser exatamente igual a xi Se quisermos a probabilidade acumulada até xi basta novamente fazer uma pequena modificação PX xi POISSONximVERDADEIRO Exemplo 11 Em um porto estudos históricos mostram que chegam em média 2 navios por dia de acordo com a distribuição de Poisson Sabendo que o porto pode atender apenas 2 navios por dia calcule a probabilidade de navios que chegarem em um determinado dia não serem atendidos A variável discreta número de navios que chegam em um dia ao porto segue uma distribuição de Poisson com λ 2 naviosdia O período de análise para cálculo de probabilidade é um dia determinado dia t é igual a 1 Então m λ t 2 1 2 Se mais de 2 navios chegarem em um dia eles não serão atendidos porque o porto pode atender apenas 2 Então procurase PX 2 PX 3 PX 4 não há limite superior Tal como está o problema não pode ser resolvido temos que usar a propriedade do evento complementar PX 2 1 PX 2 1 PX 0 PX 1 PX 2 57 Pela formula de Poisson 𝑃 𝑋 0 𝑒21 20 0 01353 𝑃 𝑋 1 𝑒21 21 1 02707 𝑃 𝑋 2 𝑒21 22 2 02707 𝑃𝑋21 01353 02707 02707 03233 Pelo Excel lembrando da propriedade do evento complementar PX 2 1 POISSON22VERDADEIRO 03233 Para uma variável aleatória X que siga um modelo normal com média e desvio padrão e para dois valores quaisquer x1 e x2 sendo x2 x1 PX x1 DISTNORMx1 VERDADEIRO PX x2 DISTNORMx2 VERDADEIRO Px1Xx2DISTNORMx2VERDADEIRO DISTNORMx1VERDADEIRO Lembrando do Exemplo 5 item d em que se procurava P48 X 56 Pelo Excel basta obter a probabilidade acumulada até 56 e subtrair a acumulada até 48 P48X56 DISTNORM565010VERDADEIRO DISTNORM485010VERDADEIRO 03050 Para uma variável aleatória X que siga um modelo normal com média e desvio padrão se quisermos encontrar o valor de xi correspondente a uma determinada probabilidade acumulada α xi INVNORMα 58 Lembrando do Exemplo 6 em que supondo a mesma variável aleatória X com média 50 e desvio padrão 10 Encontre os valores de X x1 e x2 situados à mesma distância abaixo e acima da média que contém 95 dos valores da variável Se entre os valores há 95 e estão á mesma distância da média então abaixo do primeiro valor há 25 100 952 e abaixo do segundo também há 25 95 totalizando 975 Px1Xx2095 PXx1 0025 PXx2 0975 Através do Excel x1 INVNORM00255010 304 x2 INVNORM09755010 696 Para uma variável aleatória X que siga um modelo t de Student com gl graus de liberdade se quisermos encontrar a probabilidade de X ser maior do que xi PX xi DISTTxiglcaudas Caso haja interesse apenas uma das caudas da distribuição t usar 1 em caudas Caso haja interesse nas duas caudas usar 2 em caudas Para uma variável aleatória X que siga um modelo t de Student com gl graus de liberdade se quisermos encontrar o valor de t que corresponde à soma das probabilidades das caudas mesma probabilidade para cada lado t INVTprobabilidadegl Lembrando do Exemplo 8 obter os valores de t simétricos em relação à média que contêm 95 dos dados supondo uma amostra de 10 elementos Como a amostra tem 10 elementos a distribuição t terá 10 1 9 graus de liberdadeSe há 95 dentro do intervalo há 5 fora Através do Excel t INVT0059 2262 59 Para uma variável aleatória X que siga um modelo quiquadrado com gl graus de 2liberdade se quisermos encontrar a probabilidade de que X ser menor do que xi PX xi DISTQUIQUAxigl Para uma variável aleatória X que siga um modelo quiquadrado com gl graus de liberdade se quisermos encontrar o valor de quiquadrado que corresponde a uma probabilidade na cauda superior 2 INVQUIprobabilidadegl Lembrando do Exemplo 9 queremos encontrar o valor da estatística quiquadrado para 3 graus de liberdade deixando uma área na cauda superior de 5 Pelo Excel 2 INVQUI0053 7815 Com este tópico terminamos a Unidade 2 Na Unidade 3 você estudará os conceitos e técnicas de amostragem e na Unidade 4 você verá o importante conceito de distribuição amostralAmbas são indispensáveis para o processo de generalização inferência estatística que será estudado nas Unidades 5 e 6 Tô afim de saber Sobre modelos probabilísticos para variáveis aleatórias discretas BARBETTAP A Estatística Aplicada às Ciências Sociais 7ª ed Florianópolis Ed da UFSC 2007 capítulo 7 BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 5 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo 4 Sobre modelos probabilísticos para variáveis aleatórias contínuas 60 BARBETTAP A Estatística Aplicada às Ciências Sociais 7ª ed Florianópolis Ed da UFSC 2007 capítulo 8 BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 2ª ed São Paulo Atlas 2010 capítulo 6 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo 5 Sobre a utilização do Microsoft Excel para cálculo de probabilidades para os principais modelos probabilísticos veja LEVINE D M STEPHAN D KREHBIEL T C BERENSON M L Estatística Teoria e Aplicações Usando Microsoft Excel em Português 5ª ed Rio de Janeiro LTC 200 capítulos 4 e 5 Sobre o uso do Microsoft Excel para cálculo de probabilidades para o modelo binomial assistir httpswwwyoutubecomwatchvwddGzOrwup8 Sobre o uso do Microsoft Excel para cálculo de probabilidades para o modelo normal assistir httpswwwyoutubecomwatchvpR8Yd0ZAXOA Resumo O resumo desta Unidade está mostrado na Figura27 61 Figura 27 Resumo da Unidade 2 Fonte elaborado pelo autor 62 Atividades de aprendizagem 1 Em um sistema de transmissão de dados existe uma probabilidade igual a 005 de um dado ser transmitido erroneamente Ao se realizar um teste para analisar a confiabilidade do sistema foram transmitidos 20 dados a Qual é o modelo teórico mais adequado para este caso Por quê b Qual é a probabilidade de que tenha havido erro na transmissão R 06415 c Você acha a probabilidade encontrada no item b um valor aceitável JUSTIFIQUE d Qual é o número esperado de erros no teste realizado R 1 erro 2 Suponha que você vai fazer uma prova de TGA com 10 questões do tipo verdadeiro falso Você nada sabe sobre o assunto e vai responder as questões por adivinhação a Qual é o modelo probabilístico mais adequado para calcular as probabilidades de acertar um número X de questões dentre as 10 Por quê b Qual é a probabilidade de acertar pelo menos 8 questões R 005468 Adaptado de DOWNING D e CLARK J Estatística Aplicada São Paulo Saraiva 2000 3 Um revendedor de automóveis novos constatou que 80 dos carros vendidos são devolvidos ao departamento mecânico para corrigir defeitos de fabricação nos primeiros 25 dias após a venda De 11 carros vendidos há interesse em calcular as probabilidades de que o número de automóveis que retornam para reparo seja 0 1 2 etc a Qual é o modelo teórico mais adequado para este caso Por quê b Qual é a probabilidade de que todos voltem dentro de 25 dias para reparo R 0085899 c Qual é a probabilidade de que nenhum volte R 00000002 d Uma organização de consumidores pretende processar o revendedor e a fábrica dos automóveis se a probabilidade de que a maioria deles dentre os 11 vendidos retornar para reparo seja superior a 75 O revendedor e fábrica devem se preocupar com o processo JUSTIFIQUE R 098834 Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 63 4 Em um determinado processo de fabricação 10 das peças são defeituosas As peças são acondicionadas em caixas com 5 unidades cada uma As caixas só serão aceitas se apresentarem no máximo uma peça defeituosa Perguntase a Qual é o modelo teórico mais adequado para este caso Por quê b Qual é a probabilidade de uma caixa ser aceita R 09185 c Você considera a probabilidade obtida no item b um valor apropriado JUSTIFIQUE d Qual é a probabilidade de que em um lote de 10 caixas pelo menos 8 sejam aceitas R 09579 5 Em uma fábrica 3 dos artigos produzidos são defeituosos O fabricante pretende vender 4000 peças recebendo 2 propostas Proposta 1 o comprador A examina uma amostra de 80 peças e pagará 60 por peça se houver 3 ou menos defeituosas caso contrário pagará 30 por peça apenas Proposta 2 o comprador examina 40 peças e está disposto a pagar 65 por peça se todas forem perfeitas porém pagará 20 por peça se houver alguma peça defeituosa Qual é a melhor proposta JUSTIFIQUE R proposta 1 6 Uma comissão responsável pelo recebimento de equipamentos em uma empresa faz testes em equipamentos selecionados aleatoriamente dentre os que chegam Para avaliar uma determinada marca de transformadores de pequeno porte a comissão selecionou aleatoriamente 18 dentre os que chegaram e classificará a marca como satisfatória se não existir nenhum defeituoso nesta amostra Sabese que a produção destes equipamentos apresenta um percentual de 6 de defeituosos a Qual é a probabilidade de que a marca venha a ser considerada satisfatória R 0328 b Você considera a probabilidade encontrada no item a apropriada JUSTIFIQUE 7 Em um estudo de reconhecimento de marca 95 dos consumidores reconheceram o refrigerante Guaranazinho Mas dentre 15 consumidores selecionados ao acaso apenas 10 reconheceram a marca a Determine a probabilidade de obter no máximo 10 consumidores que reconheceram Guaranazinho dentre os 15 selecionados R 00006146 64 b Você acha que o resultado possa ser conseqüência de mero acaso JUSTIFIQUE c Suponha que será realizada uma nova pesquisa com 1200 pessoas Determine a média e o desvio padrão do número de consumidores que reconhecem Guaranazinho R 1140 755 Adaptado de TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 8 Certo pequeno município de SC relata que em média nascem 225 crianças por dia Argumentam que tal taxa justificaria a instalação de um hospital com maternidade no local O governo do estado com problemas de caixa declara que somente se a probabilidade de nascerem mais de 2 crianças por dia for superior a 50 o hospital será instalado Calcule as probabilidades apropriadas e responda se o hospital deve ser instalado JUSTIFIQUE R PX 2 0390660733 Adaptado de TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 página 109 9 O sistema de atendimento utilizado por uma central telefônica possui telefonistas para atender às chamadas dos usuários Certa telefonista recebe em média 175 chamadas por minuto durante um turno de trabalho de 6 horas consecutivas Qual é a probabilidade de que esta telefonista a A telefonista queixouse ao sindicato que está trabalhando demais e que precisaria de uma auxiliar O sindicato concordou em ajudar desde que a probabilidade de ela receber mais de 600 chamadas no turno fosse maior do que 50 O sindicato deve ajudar a telefonista JUSTIFIQUE b Qual é a média de chamadas em uma hora e em um turno completo R 105 chamadas 630 chamadas 10 Uma operadora de pedágios está preocupada com o dimensionamento de uma de suas praças Muitos motoristas estão reclamando das filas pois há apenas duas gôndolas operando todo o tempo Estudos mostraram que em média 4 carros chegam na praça de pedágio a cada 15 minutos a Qual é a probabilidade de que mais de 2 carros cheguem à praça em 30 minutos R 09862 65 b Você recomenda que a empresa aumente o número de gôndolas Por quê 11 Trace uma curva normal e sombreie a área desejada obtendo então as probabilidades a PZ 10 R 01587 b PZ 10 R08413 c PZ 034 R 06331 d P0 Z 15 R 04332 e P288 Z 0 R 0498 f P056 Z 020 R 0133 g P049 Z 049 R 03758 h P25 Z 28 R 00036 i PZ 02 R 04207 j PZ 02 R05793 k P02 Z 0 R 00793 l P02 Z 04 R 02347 12 Determine os valores de z1 que correspondem às seguintes probabilidades a PZ z1 00505 R 164 b PZ z1 00228 R 2 c PZ z1 00228 R 2 d P0 Z z1 04772 R 2 e Pz1 Z z1 095 R 196 f PZ z1 00110 R 229 g PZ z1 00505 R 164 h PZ z1 05 R 0 i Pz1 Z z1 06825 R 10 j Pz1 Z z1 09544 R 20 Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 13 Suponha que o escore dos estudantes no vestibular seja uma variável aleatória com distribuição normal com média 550 e variância 900 Se a admissão em certo curso exige um escore mínimo de 575 qual é a probabilidade de um estudante ser admitido E se o escore mínimo for 540 R 02033 06293 Adaptado de DOWNING D e CLARK J Estatística Aplicada São Paulo Saraiva 2000 página 172 14 Você pode escolher entre 2 empregos Em uma indústria seus ganhos mensais terão distribuição normal com média de 4000 e desvio padrão de 500 Como vendedor de uma firma seus ganhos mensais terão distribuição normal com média de 3200 e desvio padrão de 2600 66 a Você ganha atualmente salário fixo 3500 Qual é a probabilidade de ganhar mais nos dois possíveis empregos R 08413 04562 b Com base no resultado do item a qual dos dois empregos você escolheria JUSTIFIQUE Adaptado de DOWNING D e CLARK J Estatística Aplicada São Paulo Saraiva 2000 15 Existe um processo para fabricação de eixos que apresenta comportamento praticamente normal com média de 3062 mm e variância de 00001 mm2 a Qual é o percentual de eixos produzidos com diâmetro superior a 305 mm R 08849 b Se o diâmetro deverá ter no mínimo 304 mm e no máximo 308 mm e se o custo por eixo é de 12 e é vendido por 5 e que eixos produzidos ou muito largos ou muito estreitos são perdidos qual é o lucro esperado numa produção de 100 eixos R 3551 16 Sabese que a precipitação anual de chuva em certa localidade cuja altura é medida em cm é uma variável aleatória normalmente distribuída com altura média igual a 295 cm e desvio padrão de 25 cm de chuva Se em mais de 45 das vezes a altura de chuva ultrapassar 32 cm tornase viável a instalação de um sistema para coleta e armazenamento de água da chuva como complemento à atual malha de abastecimento É viável instalar o sistema na localidade JUSTIFIQUE 17 Um professor aplica um teste e obtém resultados distribuídos normalmente com média 50 e desvio padrão 10 Se as notas são atribuídas segundo o esquema a seguir determine os limites numéricos para cada conceito A 10 superiores R 628 B notas acima dos 70 inferiores e abaixo dos 10 superiores R 552 C notas acima dos 30 inferiores e abaixo dos 30 superiores R 448 D notas acima dos 10 inferiores e abaixo dos 70 superiores R 372 E 10 inferiores Sugestão faça um desenho da distribuição normal com os percentuais áreas Adaptado de TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 67 18 O tempo de vida de um determinado componente eletrônico distribuise normalmente com média de 250 horas e variância de 49 horas2 Você adquire um destes componentes a Qual é a probabilidade de que seu tempo de vida ultrapasse as 260 horas R 00778 b Qual deveria ser o prazo de garantia para estes componentes para que o serviço de reposição atendesse a somente 5 dos componentes adquiridos R 23845 horas 19 Imagine que a UFSC tivesse antecipado os resultados abaixo referentes aos candidatos não eliminados antes de divulgar a relação com as notas de todos os candidatos Economia Administração Média 5092 5511 Desvio padrão 909 822 VagasCandidatos 0370 0412 Pontuação Final Vestibular UFSC 2002 Admitindo que as notas são normalmente distribuídas a O que você responderia para candidatos aos cursos de Economia e Administração que estimassem ter conseguido respectivamente 55 e 58 pontos R Ambos aprovados b Imagine que você tenha que responder a dezenas de vestibulandos para poupar trabalho estime a nota mínima para classificação em cada curso R economia 54 administração 57 20 Para os casos abaixo encontre a probabilidade pela distribuição binomial e pela aproximação pela normal Identifique se o resultado da aproximação foi bom ou não e explique por quê a Com n 14 e p 050 determine PX 8 R 01833 01817 b Com n 10 e p 040 determine PX 7 R 00425 00143 c Com n 15 e p 080 determine PX 8 R 09957 09981 d Com n 14 e p 060 determine PX 9 R 05141 05199 e Com n 20 e p 020 determine PX 2 R 02061 02005 f Com n 20 e p 035 determine P15 X 18 R 0517 0516 21 Em um teste de múltipla escolha temos 200 questões cada uma com 4 possíveis respostas das quais apenas 1 é correta Qual é a probabilidade de que um estudante acerte entre 25 e 30 questões de 80 dentre as 200 das quais ele não sabe nada R 01196 68 Caro estudante Chegamos ao final da Unidade 2do nosso livro Nela estudamos os modelos probabilísticos mais comuns Essa Unidade foi repleta de Figuras Quadros representações e exemplos de utilização das técnicas e das diferentes formas de utilização destes modelos Releia caso necessário todos os exemplos leia as indicações do Saiba Mais e discuta com seus colegas Responda a atividade de aprendizagem e visite o Ambiente Virtual de Ensino Aprendizagem Conte sempre com o acompanhamento da tutoria e das explicações do professor Ótimos estudos 69 Unidade 3 Técnicas de Amostragem 70 Objetivo Nesta Unidade você vai compreender em detalhes o que é amostragem quando deve usála as suas principais técnicas a definição do plano de amostragem e aprenderá a utilizar uma fórmula simplificada para cálculo do tamanho mínimo de amostra 71 Caro estudante Conforme vimos na Unidade 1 de Estatística Aplicada à Administração I a amostragem é uma das formas de coleta de dados e observamos também que se trata de uma das subdivisões da Estatística cujo conhecimento é indispensável para o administradorTenha em mente que estamos interessados em obter dados confiáveis para a tomada de decisões e muitas vezes precisaremos realizar pesquisas para coletar tais dados Convidamos você a conhecer um pouco mais sobre esta técnica de pesquisa e seus diferentes métodos de aplicação Há vários argumentos para justificar a utilização da amostragem mas há casos em que seu uso pode não ser a melhor opção O administrador precisa conhecer tais argumentos para que confrontando com os recursos disponíveis e os objetivos da pesquisa possa tomar a melhor decisão sobre a forma de coleta dos dados Se o administrador decidir por amostragem é preciso delinear o plano de amostragem indicando como ela será implementada e qual será o seu tamanho item crucial e que irá influenciar muito nos custos da pesquisa Vamos ver isso em detalhes nesta Unidade 31 O que é amostragem Amostragem é a subdivisão da Estatística que reúne os métodos necessários para coletar adequadamente amostras representativas e suficientes para que os resultados obtidos possam ser generalizados para a população de interesse A pressuposição básica é que todas as etapas prévias do planejamento da pesquisa veja na Unidade 1 de Estatística Aplicada À Administração I já foram cumpridas e que o administrador agora precisa decidir se coletará os dados por censoGlossário Censo forma de coleta de dados em que a pesquisa é realizada com todos os elementos da população Fonte Barbetta Reis e Bornia 2010FimGlossário ou por amostragemGlossário Amostragem forma de coleta de dados em que apenas uma pequena parte considerada representativa da população é pesquisada 72 Os resultados podem ser então generalizados usualmente através de métodos estatísticos apropriados para toda a população Fonte Barbetta 2007 Fim Glossário O censo consiste simplesmente em estudar todos os elementos da populaçãoGlossário População é o conjunto de medidas das características de interesse em todos os elementos que as apresentam Fonte Andrade e Ogliari 2007 Fim Glossárioe a amostragem pesquisa apenas uma pequena parte dela suposta representativa do todo Para realizar um estudo por amostragem de maneira que seus resultados sejam válidos e possam generalizados para a população algumas técnicas precisam ser empregadas A essência deste processo é mostrada na Figura 28a seguir Figura 28 Processo de Amostragem e Generalização Fonte elaborada pelo autor É importante saber avaliar os argumentos a favor de cada forma de coleta 32 Condições e recomendações para uso Podemos enumerar basicamente três motivos para usar amostragem em uma pesquisa economia rapidez de processamento e quando há a necessidade de testes destrutivosGlossário Testes destrutivos são ensaios realizados para avaliar a durabilidade resistência ou conformidade com as especificações de determinados produtos que causam a sua inutilização impedindo a sua comercialização Muitos testes 73 destrutivos são previstos em legislação específica das mais diversas áreas Fonte elaborado pelo autor Fonte elaborado pelo autor Fim Glossário Economia é muito mais barato levantar as características de uma pequena parcela da população do que de todos os seus integrantes especialmente para grandes populações O custo do censo demográfico do IBGE é tão colossal que somente pode ser feito a cada dez anos Rapidez de processamentocomo a quantidade de dados coletada é muito menor do que a produzida em um censo especialmente para grandes populações o seu processamento é mais rápido Os resultados ficam disponíveis em pouco tempo permitindo tomar decisões em seguida Tal característica é especialmente importante em pesquisas de opinião eleitoral cujo resultado precisa ser conhecido rapidamente para que candidatos e partidos possam reavaliar suas estratégias Testes destrutivos se para realizar a pesquisa precisamos realizar testes destrutivos de resistência tempo de vida útil entre outros o censo tornase impraticável exigindo a utilização de amostragem Em muitos casos como no caso de produtos alimentícios e farmacêuticos há normas legais que precisam ser cumpridas rigorosamente quando da realização dos ensaios A Figura 29 sintetiza os motivos Economia Rapidez de processamento Testes destrutivos Figura 29 Motivos para usar amostragem Fonte adaptado pelo autor de Microsoft Após reconhecer os motivos de se utilizar a amostragem pense em algumas situações em que seria recomendável utilizar esta técnica 74 Existem situações em que a utilização de amostragem pode não ser a melhor opção Neste caso podemos enumerar basicamente quatro motivos população pequena característica de fácil mensuração necessidades políticas e necessidade de alta precisão População pequenaquando é utilizada uma amostra probabilística aleatória e a população é pequena digamos menos de 100 elementos o tamanho mínimo de amostra para obter bons resultados será quase igual ao próprio tamanho da população veremos isso mais adiante ainda nesta Unidade Vale a pena então realizar um censo Característica de fácil mensuração a característica pode não precisar de mecanismos sofisticados de mensuração simplesmente resumese em uma opinião direta a favor ou contra uma proposta Neste caso a coleta dos dados seria bastante simples possibilitando avaliar todos os elementos da população Outro caso freqüente na indústria são os sistemas automatizados de medição por exemplo em uma fábrica de cubos de rodas de bicicletas situada na zona franca de Manaus os diâmetros de todos os cubos produzidos são medidos automaticamente por um sistema de telemetria a laser dispensando a coleta por amostragem e um inspetor humano para realizar a medição Necessidades políticas muitas vezes uma proposta irá afetar dramaticamente todos os elementos da população como a adoção de um regime ou forma de governo por exemplo o que pode ensejar a realização de um censo para que todos manifestem sua opinião Necessidade de alta precisãopor que o IBGE conduz um censo a cada dez anos Porque as informações demográficas têm que ser precisas para orientar políticas governamentais e somente dessa maneira esse objetivo pode ser atingido A Figura30sintetiza os motivos 75 População pequenaFácil mensuração Necessidades políticas Alta precisão Figura 30 Motivos para não usar amostragem Fonte adaptado pelo autor de Microsoft Exercite a mente Pense em algumas situações onde seja aconselhável usar um censo Você deve se lembrar da pesquisa que esboçamos na Unidade 1 de Estatística Aplicada à Administração I o CRA de Santa Catarina está interessado em conhecer a opinião dos seus registrados sobre o curso em que se graduaram desde que tal curso esteja situado em Santa Catarina Além disso vimos que o número de registrados no CRA com graduação em Santa Catarina foi suposto igual a 9000 Além disso há uma listagem com os registrados para fins de cobrança de anuidade inclusive que contém informações sobre endereço curso em que se graduou entre outras Para conhecer a opinião das pessoas precisamos entrevistálas via correio Internet telefone ou pessoalmente Com base no que foi dito até agora você sabe responder se a pesquisa deve ser conduzida por censo ou por amostragem Vamos ver juntos então 321 Aspectos necessários para o sucesso da amostragem Há três aspectos necessários para que uma pesquisa realizada por amostragem gere resultados confiáveis representatividade suficiência e aleatoriedade da amostra A representatividade é o mais óbvioGlossário Amostra representativa é aquela que representa na sua composição todas as subdivisões da população procurando retratar da melhor maneira possível a sua variabilidade Fonte elaborado pelo autor Fim GlossárioA amostra precisa retratar a variabilidade existente na população ela precisa ser uma cópia reduzida da população Sendo assim todas as subdivisões da população 76 precisam ter representantes na amostra A chave é avaliar se as subdivisões da população por sexo classe econômica cidade atividade profissional podem influenciar nos resultados da pesquisa Imagine uma pesquisa eleitoral para governador devemos entrevistar eleitores em todas as regiões do Estado assumese que haja diferenças de opinião de região para região pois se escolhermos apenas uma delas e ela for a base política de um candidato o resultado será distorcido A suficiência também é um aspecto relativamente óbvio Glossário Amostra suficiente é aquela que tem um tamanho tal que permite representar adequadamente a variabilidade da população por exemplo além de ter representantes de cada subdivisão da população a amostra precisa ter uma quantidade suficiente de elementos para retratar a variabilidade dentro de cada subdivisão Fonte elaborado pelo autor Fim GlossárioÉ necessário que a amostra tenha um tamanho suficiente para representar a variabilidade existente na população Quanto mais homogênea for a população menor variabilidade menor poderá ser o tamanho da amostra e quanto mais heterogênea maior variabilidade maior terá que ser o tamanho da amostra para representála LINK Vamos aprender ainda nesta Unidade uma fórmula simplificada para o cálculo do tamanho de amostra e na Unidade 9 veremos uma expressão mais completa Em ambos os casos porém veremos que o tamanho de amostra também dependerá da precisão que queremos para o nosso resultado LINK A aleatoriedade da amostra é o aspecto menos intuitivo mas extremamente importante Glossário Amostra aleatória casual ou probabilística é a amostra retirada por meio de um sorteio não viciado que garante que cada elemento da população terá uma probabilidade maior do que zero de pertencer à amostra Fonte Barbetta Reis e Bornia 2010 Fim GlossárioSignifica que os elementos da amostra serão selecionados da população por meio de sorteio não viciado todos os elementos da população têm chance de pertencer à amostra É necessária uma listagem com os elementos da população permitindo a atribuição de números a cada um deles e fazse o sorteio Idealmente nós escreveríamos os números dos elementos da população em pequenos papéis depositaríamos em uma urna misturaríamos os papéis e de olhos vendados escolheríamos os números selecionando a 77 amostra Para grandes populações esse procedimento é inviável e com a disponibilidade de recursos computacionais contraproducente O sorteio pode ser realizado através de tabelas de números aleatórios ou algoritmos de geração de números pseudoaleatórios Glossário Algoritmos de geração de números pseudoaleatórios são programas computacionais que geram números aleatórios pseudoaleatórios pois têm uma regra de formação procurando simular os sorteios manuais de números de 0 a 9 procurando garantir que todo número com a mesma quantidade de algarismos tenha a mesma probabilidade de ocorrência Fonte elaborado pelo autor Fim Glossário As tabelas de números aleatórios são instrumentos usados para auxiliar na seleção de amostras aleatórias São formadas por sucessivos sorteios de algarismos do conjunto 0 1 2 3 4 5 6 7 8 9 fazendo com que todo número com a mesma quantidade de algarismos tenha a mesma probabilidade de ocorrência Quando o sorteio é realizado manualmente a tabela é realmente chamada de tabela de números aleatórios LINK Muitos estatísticos realizaram tais sorteios registraram os resultados e os publicaram em livros e periódicos para uso geral LINK Se porém os números são obtidos mediante simulação computacional passamos a ter uma tabela de números pseudoaleatórios pois os números são provenientes da execução de um algoritmo matemático que tem uma lógica e uma lei de formação dos resultados LINK Neste caso há sempre o risco dos números se repetirem se a série for muito longa descaracterizando a aleatoriedade LINK Não obstante tal problema caso o algoritmo seja bom somente ocorre após milhões ou bilhões de sorteios quantidade muitíssimo superior àquela usada nas nossas pesquisas Alguns estatísticos construíram tabelas de números pseudoaleatórios e as deixaram disponíveis para o público em geral Nos dias de hoje com todas as facilidades da informática é cada vez mais comum bases de dados armazenadas em meio digital desde uma simples planilha do Microsoft Excel ou do BrOffice Calc até grandes bancos de dados 78 Então perguntase por que não realizar também o processo de amostragem em meio digital com os algoritmos citados no parágrafo anterior os algoritmos de geração de números pseudoaleatórios Tratase de programas computacionais que procuram simular os sorteios reais de números A grande vantagem do seu uso é a possibilidade de adaptar facilmente o sorteio ao tamanho da população envolvida e obviamente a velocidade de processamento Veja um exemplo de números aleatórios de 4 dígitos de 0001 a 9000 gerados pelo BrOffice Calc LINK Na seção Para saber mais vamos disponibilizar um link que explica como gerar números pseudoaleatórios com este aplicativo LINK 3439 907 5369 8092 7962 8626 131 3667 7769 1248 2206 410 292 1478 1977 155 2566 3088 4983 3217 3347 3201 8193 4195 3836 2736 8781 7260 8921 2307 No caso da nossa pesquisa para o CRA de Santa Catarina em que temos 9000 registrados graduados em Santa Catarina e há uma listagem da população pense como seria o sorteio No caso mais simples de amostragem aleatória o registrado de número 3439 seria sorteado seguido pelo 907 e pelo 5369 e assim por diante até completar o tamanho de amostra Usualmente criase automaticamente uma nova base de dados com os elementos sorteados Toda a teoria de inferência estatísticaLINK Veremos sobre a teoria da inferência estatística nas Unidades 4 5 e 6 LINKpressupõe que a amostra a partir da qual será feita a generalização veja a Figura 28 foi retirada de forma aleatória Agora que já conhecemos os aspectos principais para o sucesso da amostragem podemos detalhar o plano de amostragem 79 322 Plano de Amostragem Uma vez tendo decidido realizar a pesquisa selecionando uma amostra da população é preciso elaborar o plano de amostragem que consiste em definir as unidades amostrais o modo como a amostra será retirada o tipo de amostragem e o próprio tamanho da amostra As unidades amostrais são as unidades selecionadas para se chegar aos elementos da própria população Podem ser os próprios elementos da população quando há acesso direto a eles ou qualquer outra unidade que possibilite chegar até eles selecionar os domicílios como unidades de amostragem para chegar até as famílias que são os elementos da população selecionar as turmas como unidades de amostragem para chegar até os alunos que são os elementos da população No caso da pesquisa do CRA de Santa Catarina as unidades amostrais são os próprios elementos da população uma vez que temos a sua listagem No caso da Pesquisa Nacional por Amostragem de Domicílios do IBGE as unidades amostrais são os domicílios através dos quais chegase às famílias O modo como a amostra será retirada é outra decisão importante que precisa constar do plano de amostragem Na Figura 31a seguir vemos o resumo dos diversos tipos de amostragem Figura 31 Tipos de Amostragem Fonte elaborada pelo autor 80 33 Amostragem probabilística ou aleatória conceito subtipos Amostragem probabilística aleatória ou casual é aquela que garante que cada elemento da população tenha probabilidade de pertencer à amostra Para que isso ocorra é necessário que a amostra seja selecionada por sorteio não viciado ou seja exigese aleatoriedade A sua importância decorre do fato de que apenas os resultados provenientes de uma amostra probabilística podem ser generalizados estatisticamente para a população da pesquisa Você deve estar se perguntando mas afinal o que significa estatisticamente Significa que podemos associar aos resultados uma probabilidade de que estejam corretos ou seja uma medida da confiabilidade das conclusões obtidas Se a amostra não for probabilística não há como saber se há 95 ou 0 de probabilidade de que os resultados sejam corretos e as técnicas de inferência estatística porventura utilizadas terão validade questionável A condição primordial para uso da amostragem probabilística é que todos os elementos da população tenham uma probabilidade maior do que zero de pertencerem à amostra Tal condição é materializada se 1 Há acesso a toda a população Ou seja não há teoricamente problema em selecionar nenhum dos elementos todos poderiam ser pesquisados Concretamente há uma lista da população como no caso da pesquisa do CRA que dispõe de uma lista com os 9000 registrados que se graduaram em Santa Catarina 2 Os elementos da amostra são selecionados através de alguma forma de sorteio não viciado tabelas de números aleatórios números pseudoaleatórios gerados por computador Com a utilização de sorteio eliminase a ingerência do pesquisador na obtenção da amostra e garantese que todos os integrantes da população têm probabilidade de pertencer à amostra Agora vamos lhe apresentar os tipos de amostragem probabilística 81 331 Amostragem aleatória casual simples A amostragem aleatória simples Glossário Amostragem aleatória simples é o processo de amostragem em que todos os elementos da população têm a mesma probabilidade de pertencer à amostra e cada elemento é sorteado Fonte Barbetta Reis e Bornia 2010 Fim Glossário é o tipo de amostragem probabilística recomendável somente se a população for homogênea em relação aos objetivos da pesquisa por exemplo quando admitese que todos os elementos da população têm características semelhantes em relação aos objetivos da pesquisa Há uma listagem dos elementos da população atribuemse números a eles e através de alguma espécie de sorteio não viciado por meio de tabelas de números aleatóriosGlossário Tabelas de números aleatóriossão instrumentos usados para auxiliar na seleção de amostras aleatórias formadas por sucessivos sorteios de algarismos do conjunto 0 1 2 3 4 5 6 7 8 9 fazendo com que todo número com a mesma quantidade de algarismos tenha a mesma probabilidade de ocorrência Fonte Barbetta 2007 Fim Glossárioou números pseudoaleatórios gerados por computador os integrantes da amostra são selecionados Neste tipo de amostragem probabilística todos os elementos da população têm a mesma probabilidade de pertencer à amostra Foi exatamente o que fizemos no final do tema Aspectos necessários para o sucesso da amostragem para a nossa pesquisa do CRA 332 Amostragem sistemática Quando a lista de respondentes for muito grande a utilização de amostragem aleatória simples pode ser um processo moroso ou se o tamanho de amostra for substancial teremos que realizar um grande número de sorteios caso estejamos utilizando números pseudoaleatórios aumenta o risco de repetição dos números Utilizase então uma variação a amostragem sistemáticaGlossário Amostragem sistemática é a variação da amostragem aleatória simples em que os elementos da população são retirados a intervalos regulares até compor o total da amostra sendo o sorteio realizado apenas no ponto de partida Fonte Barbetta 2007 Glossárioque também supõe que a população é homogênea em relação à variável de interesse mas que consiste em retirar elementos da população a 82 intervalos regulares até compor o total da amostra A amostragem sistemática somente pode ser retirada se a ordenação da lista não tiver relação com a variável de interesse Imagine que queremos obter uma amostra de idades de uma listagem justamente ordenada desta forma neste caso a amostragem sistemática não seria apropriada a não ser que reordenássemos a lista Veja a seguir o procedimento para a amostragem sistemática obtémse o tamanho da população N calculase o tamanho da amostra n veremos isso mais adiante encontrase o intervalo de retirada k Nn se k for fracionário devese aumentar n até tornar o resultado inteiro se N for um número primo excluemse por sorteio alguns elementos da população para tornar k inteiro sorteiase o ponto de partida um dos k números do primeiro intervalo usando uma tabela de números aleatórios ou qualquer outro dispositivo isso precisa ser feito para garantir que todos os elementos da população tenham chance de pertencer à amostra a cada k elementos da população retirase um para fazer parte da amostra até completar o valor de n O resumo deste processo é retratado na Figura 32 veja Figura 32 Processo de amostragem sistemática Fonte elaborada pelo autor 1k N k k k 1 n População Amostra 83 O exemplo a seguir ajudará você a entender melhor sobre o processo de amostragem sistemática Leia com atenção Exemplo 1 Uma operadora telefônica pretende saber a opinião de seus assinantes comerciais sobre seus serviços na cidade de Florianópolis Supondo que há 25037 assinantes comerciais e a amostra precisa ter no mínimo 800 elementos mostre como seria organizada uma amostragem sistemática para selecionar os respondentes A operadora dispõe de uma lista ordenada alfabeticamente com todos os seus assinantes o intervalo de retirada serák Nn 25037800 312965 Como o valor de k é fracionário algo precisa ser feito Aumentar o tamanho da amostra não resolverá o problema porque 25037 é um número primo Como não podemos reduzir o tamanho de amostra devendo permanecer igual a 800 se excluirmos por sorteio 237 elementos da população e refizermos a lista teremosk Nn 24800800 31 A cada 31 assinantes um é retirado para fazer parte da amostra Devemos sortear o ponto de partida um número de 1 a 31 do 1o ao 31o assinante Imagine que o sorteio resultasse em 5 então a amostra seria número de assinantes5 36 67 98 24774 333 Amostragem estratificada É bastante comum que a população de uma pesquisa seja heterogênea em relação aos objetivos da pesquisa No caso de uma pesquisa eleitoral para governador por exemplo podemos esperar que a opinião deva ser diferente dependendo da região onde o eleitor mora classe social e mesmo profissão dos entrevistados Contudo podemos supor que haja certa homogeneidade de opinião dentro de cada grupo Então supõese que haja heterogeneidade entre os estratos mas homogeneidade dentro dos estratos e que eles sejam mutuamente exclusivos cada elemento da população pode pertencer a apenas um estrato Para garantir que a amostra seja representativa da população Glossário Amostra 84 representativa aquela que representa na sua composição todas as subdivisões da população procurando retratar da melhor maneira possível a sua variabilidade Fonte elaborado pelo autor Fim Glossárioprecisamos garantir que os diferentes estratos sejam nela representados deve usar a amostragem estratificada Glossário Amostragem estratificada é a amostragem probabilística usada quando a população for heterogênea em relação aos objetivos da pesquisa as opiniões tendem a variar muito de subgrupo para subgrupo e amostra precisa conter elementos de cada subgrupo da população para representála adequadamente Fonte Barbetta 2007 Fim Glossário como representa a Figura 33 Figura 33 Amostragem estratificada Fonte elaborada pelo autor Veja que a seleção dos elementos de cada estrato pode ser feita usando amostragem aleatória simples ou sistemática A amostragem estratificada pode ser proporcional quando o número de elementos selecionados de cada estrato é proporcional ao seu tamanho na população por exemplo se o estrato representa 15 da população 15 da amostra deverá ser retirada dele e uniforme quando os mesmos números de elementos são selecionados de cada estrato A amostragem estratificadaproporcional possibilita resultados melhores mas exige um grande conhecimento da população para saber quantos são e quais são os tamanhos dos estratos A amostragem estratificada uniforme é mais utilizada em estudos comparativos Sorteio não viciado 85 No caso da pesquisa do CRA você acredita que a população é heterogênea em relação aos objetivos da pesquisa Será que a região do Estado o fato de ter estudado em faculdade pública ou particular pode influenciar as opiniões dos registrados sobre os cursos onde se graduaram 334 Amostragem por conglomerados Teoricamente a amostragem estratificada proporcional apresenta os melhores resultados possíveis Sua grande dificuldade de uso devese ao grau de conhecimento necessário sobre a população que geralmente não existe ou é impraticável de obter Uma alternativa consiste no uso de conglomeradosGlossário Amostragem por conglomerados é a amostragem probabilística em que a população é subdividida em grupos definidos por conveniência usualmente geográfica e alguns destes grupos são selecionados por sorteio e elementos dos grupos sorteados podem também ser sorteados para compor a amostra Fonte Barbetta 2007 Fim Glossário Os conglomerados também são grupos mutuamente exclusivos de elementos da população mas são definidos de forma mais arbitrária do que os estratos é bastante comum definir os conglomerados geograficamente Por exemplo os bairros de uma cidade que constituiriam conglomerados de domicílios O procedimento para a amostragem por conglomerados ocorre da seguinte forma dividese a população em conglomerados sorteiamse os conglomerados usando tabela de números aleatórios ou qualquer outro método não viciado pesquisamse todos os elementos dos conglomerados sorteados ou sorteiamse elementos deles A utilização de amostragem por conglomerados permite uma redução substancial nos custos de obtenção da amostra sem comprometer demasiadamente a precisão sendo 86 que em alguns casos é a única alternativa possível Veja a Figura34e entenda como ocorre essa amostragem Figura 34 Amostragem por conglomerados Fonte elaborada pelo autor A Pesquisa Nacional por Amostra de Domicílios PNAD do IBGE coleta informações demográficas e sócioeconômicas sobre a população brasileira Utiliza amostragem por conglomerados em três estágios LINK Mais informações em httpwwwibgegovbrhomeestatisticapopulacaotrabalhoerendimentopnad98saudemet odologiashtm LINK Primeiro estágio amostras de municípios conglomerados para cada uma das regiões geográficas do Brasil Segundo estágio setores censitários sorteados em cada município conglomerado sorteado e Terceiro estágio domicílios sorteados em cada setor censitário Você deve estar se perguntando e quando não for possível garantir a probabilidade de todo elemento da população pertencer à amostra Então este é o momento de partirmos para a amostragem não probabilística 34 Amostragem não probabilística A obtenção de uma amostra probabilística exige uma listagem com os elementos da população Em suma exige acesso a todos os elementos da população Nem sempre é possível obter tal listagem na prática o que teoricamente inviabilizaria a retirada de uma amostra probabilística Então podese recorrer à amostragem não probabilística Glossário Observar todos os elementos dos conglomerados sorteados Sortear alguns elementos dos conglomerados sorteados Sorteio de conglomerados 87 Amostragem não probabilística é o processo de amostragem em que nem todos os elementos da população têm chance de pertencer à amostra pois a seleção não é feita por sorteio não viciado Fonte Barbetta 2007 Fim Glossário Ao usar a amostragem não probabilística o pesquisador não sabe qual é a probabilidade de que um elemento da população tem de pertencer à amostra Portanto os resultados da amostra não podem ser estatisticamente generalizados para a população porque não se pode estimar o erro amostral Glossário Erro amostral é o valor máximo que o pesquisador admite errar na estimativa de uma característica da população a partir de uma amostra aleatória desta mesma população Fonte Barbetta 2007 Fim Glossário Alguns dos usos habituais da amostragem não probabilística são os seguintes o a etapa preliminar em projetos de pesquisa o em projetos de pesquisa qualitativa e o em casos onde a população de trabalho não pode ser enumerada Veja que existem ainda vários tipos de amostragem não probabilística e que serão descritos na seqüência 341 Amostragem a esmo Na Amostragem a esmo o pesquisador procura ser o mais aleatório possível mas sem fazer um sorteio formal Imagine um lote de 10000 parafusos do qual queremos tirar uma amostra de 100 se fôssemos realizar uma amostragem aleatória simples o processo talvez fosse trabalhoso demais Então simplesmente retiramos os elementos a esmo Este tipo de amostragem também pode ser utilizado quando a população for formada por material contínuo gases líquidos minérios bastando homogeneizar o material e retirar a amostra 88 342 Amostragem por julgamento intencional Na amostragem por julgamento o pesquisador deliberadamente escolhe alguns elementos para fazer parte da amostra com base no seu julgamento de aqueles seriam representativos da população Este tipo de amostragem é bastante usado em estudos qualitativos Obviamente o risco de obter uma amostra viciada é grande pois se baseia totalmente nas preferências do pesquisador que pode se enganar involuntária ou voluntariamente 343 Amostragem por cotas A Amostragem por cotas parece semelhante a uma amostragem estratificada proporcional da qual se diferencia por não empregar sorteio na seleção dos elementos A população é dividida em vários subgrupos na realidade é comum dividir em um grande número para compensar a falta de aleatoriedade e selecionase uma cota de cada subgrupo proporcional ao seu tamanho Em uma pesquisa de opinião eleitoral por exemplo poderíamos dividir a população de eleitores por sexo nível de instrução faixas de renda entre outros aspectos e obter cotas proporcionais ao tamanho dos grupos que poderia ser obtido através das informações do IBGE Na amostragem por cotas os elementos da amostra são escolhidos pelos entrevistadores de acordo com os critérios geralmente em pontos de grande movimento o que sempre acarreta certa subjetividade e impede que qualquer um que não esteja passando pelo local no exato momento da pesquisa possa ser selecionado Na prática muitas pesquisas são realizadas utilizando amostragem por cotas incluindo as polêmicas pesquisas eleitorais LINK Leia um texto muito interessante sobre o tema que encontrase disponível em httpwwwimeunicampbrdiasfalaciaPesquisaEleitoralpdf LINK 89 No exemplo apresentado no Quadro 4 imagine que queremos saber a opinião dos eleitores do bairro Goiaba sobre o governo municipal Supõese que as principais variáveis que condicionariam as respostas seriam sexo idade e classe social O bairro apresenta a seguinte composição demográfica para as variáveis Sexo Idade faixa etária Classe social populacional Masculino 18 35 A 1 Masculino 18 35 B 4 Masculino 18 35 C 10 Feminino 18 35 A 1 Feminino 18 35 B 2 Feminino 18 35 C 9 Masculino 35 60 A 5 Masculino 35 60 B 8 Masculino 35 60 C 12 Feminino 35 60 A 4 Feminino 35 60 B 8 Feminino 35 60 C 10 Masculino Mais de 60 A 1 Masculino Mais de 60 B 9 Masculino Mais de 60 C 3 Feminino Mais de 60 A 3 Feminino Mais de 60 B 7 Feminino Mais de 60 C 3 Quadro 4 Esquema de amostragem por cotas Fonte adaptado pelo autor de Marconi e Lakatos 2003 Se por exemplo o tamanho de nossa amostra fosse igual a 200 200 pessoas serão entrevistadas o número de pessoas deveria ser dividido de forma proporcional 1 do sexo masculino com idade entre 18 e 25 anos da classe A totalizando 2 pessoas 4 do sexo masculino com idade entre 18 e 25 anos da classe B totalizando 8 pessoas e assim por diante Os entrevistadores receberiam suas cotas e deveriam escolher pessoas em pontos de movimento do referido bairro que se aproximem dos critérios e entrevistálas recolhendo suas opiniões sobre o governo municipal Usualmente os resultados são generalizados estatisticamente para a população empregando as técnicas que serão vistas na Unidade 5 deste livrotexto mas rigorosamente os resultados da amostragem por cotas 90 não têm validade estatística visto que não contemplam o princípio de aleatoriedade na seleção da amostra 344 Amostragem bola de neve A Amostragem bola de neve é particularmente importante quando é difícil identificar respondentes em potencial A cada novo respondente que é identificado e entrevistado pedese que identifique outros que possam ser qualificados como respondentes Pode levar a amostras compostas apenas por amigos dos primeiros entrevistados o que pode causar viesamentos nos resultados finais Agora que você já conhece sobre o importante e interessante tema do cálculo do tamanho de amostra passaremos para uma amostra probabilística 35 Cálculo do tamanho de uma amostra probabilística aleatória para estimar proporção A determinação do tamanho de amostra é um dos aspectos mais controversos da técnica de amostragem e envolve uma série de conceitos probabilidade inferência estatística e a própria teoria da amostragem Nesta seção apresentaremos uma visão simplificada para obter o tamanho mínimo de uma amostra aleatória simples que atenda aos seguintes requisitos o interesse na proporção de ocorrência de um dos valores de uma variável qualitativa na população a confiabilidade dos resultados da amostra deve ser aproximadamente igual a 95 ou seja há 95 de probabilidade de que a proporção populacional do valor da variável qualitativa esteja no intervalo definido pelos resultados da amostra estamos fazendo uma estimativa exagerada do tamanho de amostra não vamos nos preocupar com aspectos financeiros relacionados ao tamanho da amostra embora obviamente seja uma consideração importante 91 O primeiro passo para calcular o tamanho da amostra é definir o erro amostral tolerável que será chamado de E0 Este erro é o valor máximo que o pesquisador admite errar na estimativa de uma característica da população Lembrese das pesquisas de opinião eleitoral o candidato Fulano está com 18 de intenção de voto a margem de erro da pesquisa é de 2 para mais ou para menos O 2 é o valor do erro amostral tolerável então o percentual de pessoas declarando o voto no candidato Fulano é igual a 18 2 Além disso há uma probabilidade de que este intervalo não contenha o valor real do parâmetro ou seja o percentual de eleitores que declaram o voto no candidato pelo fato de que estamos usando uma amostra embora isso raramente seja dito na mídia especialmente na televisão É razoável imaginar que quanto menor o erro amostral tolerável escolhido maior será o tamanho da amostra necessário para obtêlo Isso fica mais claro ao ver a fórmula para obtenção da primeira estimativa do tamanho de amostra 2 0 0 1 E n Onde E0 é o erro amostral tolerável e n0 é a primeira estimativa do tamanho de amostra Se o tamanho da população N for conhecido podemos corrigir a primeira estimativa 0 0 n N n N n Exemplo 2 Calcule o tamanho mínimo de uma amostra aleatória simples para estimar uma proporção admitindo com alto grau de confiança um erro amostral máximo de 2 supondo que a população tenha a 200 elementos b 200000 elementos Observe a diferença entre os tamanhos das duas populações a da letra b é mil vezes maior do que a da letra a Como a primeira estimativa n0 não depende do tamanho da 92 população e o erro amostral é 2 para ambas podemos calculálo apenas uma vez Devemos dividir o 2 por 100 antes de substituir na fórmula 2500 02 0 1 1 2 2 0 0 E n Então nossa primeira estimativa para um erro amostral de 2 é retirar uma amostra de 2500 elementos a Obviamente precisamos corrigir a primeira estimativa pois a população conta com apenas 200 elementos Então 185 185 2500 200 2500 200 0 0 n N N n n Precisamos arredondar sempre para cima o tamanho mínimo da amostra Então a amostra deverá ter pelo menos 186 elementos para garantir um erro amostral de 2 Observe que a amostra representa 93 da população Será que um censo não seria mais aconselhável neste caso b Corrigindo a primeira estimativa com o tamanho da população 2469 136 2500 200000 2500 200000 0 0 n N n N n Arredondando a amostra deverá ter no mínimo 2470 elementos para garantir um erro amostral de 2 Observe que a amostra representa 1235 da população Claríssimo caso em que a amostragem é a melhor opção de coleta Poderíamos ter usado diretamente a primeira estimativa 2500 elementos pois a correção não causou grande mudança Este exemplo prova que não precisamos de grandes amostras para obter uma boa precisão nos resultados A Figura 35 mostra um gráfico relacionando tamanhos de amostra para diferentes tamanhos de população considerando um erro amostral tolerável igual a 2 93 Figura 35 Tamanho de amostra x tamanho da população e0 2 Fonte elaborado pelo autor a partir de Microsoft Observe que a partir de um determinado tamanho de população para o mesmo erro amostral o ritmo de crescimento do tamanho da amostra vai diminuindo para 70000 elementos ou mais praticamente não há mais aumento Isso mostra que não há necessidade de retirar por exemplo 50 da população para ter uma boa amostra É importante alertar que ao calcular o tamanho de amostra para amostragem estratificada devese fazêlo para cada estrato e o tamanho total será a soma dos valores Se isso não for feito não podemos garantir o erro amostral dentro de cada estrato se calcularmos um valor geral e dividirmos o tamanho da amostra por estrato mesmo proporcionalmente a margem de erro dentro de cada estrato será maior do que a prevista Tô afim de saber Sobre amostragem consulte BARBETTAP A Estatística Aplicada às Ciências Sociais 7ª ed Florianópolis Ed da UFSC 2008 Capítulo 3 Sobre características de fácil mensuração consulte em LAGO NETO JC O Efeito da Autocorrelação em Gráficos de Controle para Variável Contínua Um Estudo de Caso Florianópolis 1999 Dissertação Mestrado em Engenharia de Produção Programa de PósGraduação em Engenharia de Produção UFSC Tamanhos mínimos de amostra erro amostral de 2 0 500 1000 1500 2000 2500 3000 20000 1760000 3500000 5240000 6980000 8720000 10460000 Tamanho da População Tamanho de amostra 94 Sobre pesquisas eleitorais consulte SOUZA J Pesquisas Eleitorais Críticas e Técnicas Brasília Centro Gráfico do Senado Federal 1990 Sobre como gerar números pseudoaleatórios ou obter amostras aleatórias simples no BrOffice Calc leia o texto Como gerar uma amostra aleatória simples com o BrOffice Calc no Ambiente Virtual de EnsinoAprendizagem Sobre Amostragem a esmo leia COSTA NETO PL da O Estatística 2ª ed São Paulo Edgard Blücher 2002 Atividades de Aprendizagem O que você acha de testar seus conhecimentos com relação ao estudo da Unidade 3 Para tanto faça as atividades propostas a seguir e encaminheas para seu tutor através do Ambiente Virtual de EnsinoAprendizagem Não hesite em buscar o auxílio do seu tutor se encontrar dificuldades 1 Analise os planos de amostragens apresentados abaixo Você concorda com a maneira como foram elaborados Justifique Apresente as soluções que você julgar necessárias a Para ser conhecida a opinião dos estudantes da UFSC sobre o Jornal Universitário foram colhidas as opiniões de 40 estudantes da última fase do curso de Jornalismo daquela instituição b Há interesse em medir o índice de luminosidade das salas de aula da UFSC A coleta de dados será feita em todos os centros da UFSC durante os períodos diurno e noturno nas salas que estiveram desocupadas no momento da pesquisa Cada centro será visitado apenas uma vez c As constantes reclamações dos usuários motivaram a direção da Biblioteca Central da UFSC a realizar uma pesquisa sobre o nível de ruído em suas dependências O ruído será medido em todas as seções da Biblioteca na primeira e na penúltima semanas do semestre de segunda a sábado durante todo o horário de funcionamento d No controle de qualidade de uma fábrica de peças que trabalha 24 horas por dia sete 95 dias por semana um item produzido é retirado de cada máquina a cada meia hora para avaliação O procedimento é feito durante todo o dia ao longo da semana e O Comando de um Batalhão da Polícia Militar de Santa Catarina quer conhecer a opinião das pessoas que residem em sua área de atuação no intuito de formular novas escalas de policiamento ostensivo Para tanto serão feitas entrevistas com as pessoas que se passarem a pé pela frente do Batalhão de segunda à sexta das 830 às 1200 horas e das 1400 às 1730 horas durante duas semanas f Com a finalidade de estudar o perfil dos consumidores de um supermercado observaram se os consumidores que compareceram ao supermercado no primeiro sábado do mês g Com a finalidade de estudar o perfil dos consumidores de um supermercado fezse a coleta de dados durante um mês tomando a cada dia um consumidor de cada fila de cada caixa variandose sistematicamente o horário de coleta dos dados h Para avaliar a qualidade dos itens que saem de uma linha de produção observaramse todos os itens das 14 às 14 horas e trinta minutos i Para avaliar a qualidade dos itens que saem de uma linha de produção observouse um item a cada meia hora durante todo o dia j Para estimar a porcentagem de empresas que investiram em novas tecnologias no último ano enviouse um questionário a todas as empresas de um estado A amostra foi formada pelas empresas que responderam o questionário 2 Uma determinada faculdade do interior de Santa Catarina possui 6 cursos estando os alunos matriculados de acordo com a tabela abaixo Curso Direito Administração Economia Agronomia Veterinária Computação Alunos 250 200 150 150 150 100 A diretoria pretende selecionar por amostragem alguns alunos para uma atividade extracurricular a Os cursos direito administração e economia formam um estrato sócioeconômicos agronomia e veterinária formam outro agrários e computação outro estrato tecnológicos extraia uma amostra estratificada proporcional de 20 alunos use o Microsoft Excel ou o BrOffice Calc b Através de uma amostragem de conglomerados de 2 estágios extraia uma amostra 96 aleatória de 21 alunos Selecione 3 cursos e depois 7 alunos por curso use o Microsoft Excel ou o BrOffice Calc c Qual das duas amostras você acredita que tem resultados mais confiáveis JUSTIFIQUE 3 Será feito um levantamento por amostragem de uma população de 2000 famílias para a realização de uma pesquisa a Calcule o tamanho mínimo de uma amostra para que se tenha um erro amostral máximo de 5 b Supondo a população dividida em 2 estratos iguais qual o tamanho mínimo de amostra para se ter um erro amostral máximo de 5 em cada estrato c Qual seria o erro amostral em cada estrato do item b se o tamanho da amostra em cada estrato fosse simplesmente o valor definido no item a dividido por 2 Resumo O resumo desta Unidade está esquematizado na Figura 36 Veja 97 Figura 36 Resumo da Unidade 3 Fonte elaborada pelo autor NÃO SIM Amostragem x Censo Quando usar amostragem Economia Rapidez Testes destrutivos Quando não usar amostragem População pequena Fácil mensuração Necessidades políticas Necessidade de alta precisão Aspectos necessários para a amostragem Representatividade Suficiência Aleatoriedade Tabelas de números aleatórios ou pseudoaleatórios Algoritmos de geração de números pseudoaleatórios Plano de amostragem Unidades amostrais Tamanho de amostra Tipo de amostragem Probabilística Escolha dos elementos Sorteio dos elementos A esmo por julgamento Por cotas bola de neve Aleatória simples Sistemática Estratificada Por conglomerados Estimação de proporção Erro amostral 98 Caro estudante Chegamos ao final da Unidade3 Nela estudamos sobre amostragem e censo e suas formas de utilização habilidades necessárias para um bom administrador Essa Unidade foi repleta de Figuras quadros representações e exemplos de utilização das técnicas e das diferentes formas de utilização na íntegra de suas especificidades e deu sustentação para as discussões das próximas unidades Releia caso necessário todos os exemplos leia as indicações do Saiba mais e discuta com seus colegas Na realização da atividade de aprendizagem você colocará em prática os ensinamentos repassados Conte sempre com o acompanhamento da tutoria e das explicações do professor Lembrese que não estás sozinho Conte com a gente 99 Unidade 4 Inferência estatística e distribuição amostral 100 Objetivo Nesta Unidade você vai aprender os conceitos de inferência estatística e de distribuição amostral que são a base para o processo de generalização usado pelos administradores em várias tomadas de decisão 101 41 Conceito de Inferência Estatística Caro estudante vamos relembrar um pouco nossa trajetória ao longo das duasdisciplinas de Estatística Aplicada à Administração Na Unidade 1 de Estatística I vimos que através da Inferência Estatística usando os conceitos de Probabilidade e variáveis aleatórias Unidade 6 de Estatística I e Unidade 1 de Estatística II podemos generalizar os resultados de uma pesquisa por amostragem Unidade 3 de Estatística II para a população da qual a amostra foi retirada Lembrese estamos supondo que a amostra foi retirada por meio de amostragem probabilística ou aleatória temos então um experimento aleatório não sabemos quem fará parte da amostra antes do sorteio Unidade 3 de Estatística II Uma vez retirada a amostra fazemos análise exploratória dos dados Unidades 2 e 3 de Estatística I por exemplo calculamos média de uma variável quantitativa Esta média e todas as demais estatísticas serão variáveis aleatórias pois estão associadas ao Espaço Amostral de um experimento aleatório e poderemos tentar identificar o modelo probabilístico mais apropriado para elas Unidades 1 e 2 de Estatística II Mas neste caso o modelo probabilístico de uma estatística da amostra é chamado de Distribuição Amostral Conhecer a Distribuição Amostral das principais estatísticas vai nos ser muito útil quando estudarmos os tipos particulares de Inferência Estatística Estimação de Parâmetros Unidade 5 e Testes de Hipóteses Unidade 6 neste livro de Estatística Aplicada à Administração II Vamos continuar aprendendo É muito bom ter você conosco 102 Estatística é a ciência que se ocupa de organizar descrever analisar e interpretar dados para que seja possível a tomada de decisões eou a validação científica de uma conclusão Os dados são coletados para estudar uma ou mais características de uma População conjunto das medidas das características de interesse em todos os elementos que as apresentam Uma população pode ser representada através de um modelo este apresenta condições para uso forma para a distribuição e parâmetros Os dados necessários para a obtenção do modelo podem ser obtidos através de um censo pesquisa de toda a população ou através de uma amostra subconjunto finito da populaçãoLINK Na Unidade 3 enumeramos as principais razões para usar amostragemLINK A amostra deve ser representativa da população suficiente para que o resultado tenha confiabilidade e aleatória retirada por sorteio não viciado DESTAQUE A Inferência Estatística consiste em fazer afirmações probabilísticas sobre as características do modelo probabilístico que se supõe representar uma população a partir dos dados de uma amostra aleatória probabilística GLOSSÁRIO Amostra aleatória casual ou probabilística amostra retirada por meio de um sorteio não viciado que garante que cada elemento da população terá uma probabilidade maior do que zero de pertencer à amostra GLOSSÁRIO desta mesma população DESTAQUE Fazer uma afirmação probabilística sobre uma característica qualquer é associar à declaração feita uma probabilidade de que tal declaração esteja correta e portanto a probabilidade complementar de que esteja errada Quando se usa uma amostra da população sempre haverá uma probabilidade de estar cometendo um erro justamente por ser usada uma amostra a diferença entre os métodos estatísticos e os outros reside no fato de que os métodos estatísticos permitem calcular essa probabilidade de erro E para que isso seja possível a amostra da população precisa ser aleatória 103 As afirmações probabilísticas sobre o modelo da população podem ser basicamente estimar quais são os possíveis valores dos parâmetros GLOSSÁRIO Parâmetros alguma medida descritiva média variância proporção dos valores x1 x2 x3 associados à populaçãoFonte Barbetta Reis e Bornia 2010Fim GLOSSÁRIOEstimação de ParâmetrosGLOSSÁRIO Estimação de Parâmetros forma de inferência estatística que busca estimar os parâmetros do modelo probabilístico da variável de interesse na população a partir de dados de uma amostra probabilística desta mesma população Fonte Barbetta Reis e Bornia 2010FimGLOSSÁRIO qual é o valor da média de uma variável que segue uma distribuição normal qual é o valor da proporção de um dos 2 resultados possíveis de uma variável que segue uma distribuição binomial testar hipóteses sobre as características do modelo parâmetros forma da distribuição de probabilidades entre outros Testes de HipótesesGLOSSÁRIO Testes de hipóteses forma de inferência estatística que busca testar hipóteses sobre características parâmetros forma do modelo do modelo probabilístico da variável de interesse na população a partir de dados de uma amostra probabilística desta mesma população Fonte Barbetta Reis e Bornia 2010FimGLOSSÁRIO o valor da média de uma variável que segue uma distribuição é maior do que um certo valor o modelo probabilístico da população é uma distribuição normal o valor da média de uma variável que segue uma distribuição normal em uma população é diferente da mesma média em outra população Estudaremos Estimação de Parâmetros na Unidade 5 e Testes de Hipóteses na Unidade 6 104 42 Parâmetros e Estatísticas Vamos imaginar uma pesquisa como a da Unidade 1 de Estatística Aplicada à Administração 2 opinião dos registrados no CRASC sobre os cursos em que se graduaram desde que tenham se graduado em Santa Catarina Naquela Unidade e depois na Unidade 2 de Estatística Aplicada à Administração II declaramos que era possível realizar uma amostragem probabilística e vimos um exemplo de como fazer isso Independente da pesquisa uma vez que tenha sido realizada por amostragem probabilística os dados podem ser estatisticamente generalizados para a população Uma vez tendo coletado os dados é preciso resumilos e organizálos de maneira a permitir uma primeira análise e posterior uso das informações As técnicas estatísticas que se ocupam desses aspectos constituem a Análise Exploratória de Dados que estudamos detalhadamente nas Unidades 2 e 3 de Estatística Aplicada à Administração I O conjunto de dados pode ser resumido e apresentado através das distribuições de frequências que relacionam os valores que a variável pode assumir com a frequência contagem com que foram encontrados naquele conjunto Esta distribuição pode ser apresentada na forma de uma tabela ou através de um gráfico estes dois métodos podem ser usados tanto para variáveis qualitativas quanto para variáveis qualitativas Há uma terceira forma de resumir o conjunto de dados quando a variável sob análise é quantitativa as medidas de síntese ou estatísticas GLOSSÁRIO Estatísticas medidas de síntese da variável calculadas com base nos resultados de uma amostra da população Se a amostra for probabilística aleatória as estatísticas podem ser consideradas variáveis aleatórias Fonte Barbetta Reis e Bornia 2010FimGLOSSÁRIO As principais 105 estatísticas são a média o desvio padrão a variância e a proporção LINK Esta última está relacionada aos percentuais de ocorrência dos valores em uma distribuição de frequências de uma variável qualitativa LINK DESTAQUE Atenção vamos relembrar o que cada uma dessas significa o Média média aritmética simples ver Unidade 3 de Estatística Aplicada à Administração I tratase de uma estatística que caracteriza o centro de massa do conjunto de dados Valor Esperado ver Unidade 1 seção 14 Quando é a média populacional recebe o símbolo µ quando é a média amostral recebe o símbolo x o Variância tratase de uma estatística ver Unidade 3 de Estatística Aplicada à Administração I que mede a dispersão em torno da média do conjunto em torno do valor esperado Ver Unidade 1 seção 14 possuindo uma unidade que é o quadrado da unidade da média e dos valores do conjunto Quando é a variância populacional recebe o símbolo 2 quando é a variância amostral recebe o símbolo s2 o Desvio padrão é a raiz quadrada positiva da variância tendo portanto uma unidade que é igual à unidade da média sendo muitas vezes preferida para efeito de mensuração da dispersão Quando é o valor populacional recebe o símbolo σ e quando é o amostral recebe o símbolo s o Proporção consiste em calcular a razão entre o número de ocorrências do valor de interesse de uma variável qualitativa e o número total de ocorrências registradas no conjunto de todos os valores que a variável pode assumir quando é uma proporção populacional recebe o símbolo π quando é uma proporção amostral recebe o símbolo p DESTAQUE Os valores das medidas de síntese além de resumirem o conjunto de dados constituem uma indicação dos prováveis valores dos parâmetros Assim em estudos baseados em amostras é comum utilizar tais medidas de síntese como estatísticas que serão utilizadas para estimar os parâmetros do modelo probabilístico que descreve a população 106 O Quadro5 resume os parâmetros e as estatísticas Medidas de síntese Parâmetros População Estatísticas Amostra Média N x N 1 i i n X x n 1 i i Variância N x N 1 i 2 i 2 1 n x x s n 1 i 2 i 2 Proporção N fa n f p a Quadro 5 Parâmetros e Estatísticas mais comuns Fonte elaborado pelo autor Onde N é o número de elementos da população n é o número de elementos da amostra e fa é a frequência de ocorrência de um dos valores de uma variável qualitativa na população ou na amostra As Estatísticas são variáveis aleatórias pois seus valores podem variar dependendo do resultado da amostra Se forem variáveis aleatórias podem ser caracterizadas através de algum modelo probabilístico Este modelo recebe o nome de distribuição amostral 43 Distribuição Amostral Seja uma população qualquer com um parâmetro de interesse correspondendo a uma estatística T em uma amostra Amostras aleatórias são retiradas da população e para cada amostra calculase o valor t da estatística T 107 Os valores de tLINK NÃO confundir com o t da distribuição t de Student seção 224 Unidade 2 LINK formam uma nova população que segue uma distribuição de probabilidades que é chamada de distribuição amostral de T Exemplo 1 Seja a população abaixo constituída pelos pesos em kg de oito pessoas adultas Figura 37 Distribuição Amostral Exemplo 1 Fonte elaborada pelo autor Observe que foram retiradas três amostras Para cada amostra foi calculada a média visando estimar a média populacional que vale 6562 kg Observe que há uma variação na estatística média pois o processo de amostragem é aleatório é um experimento aleatório Esta variação precisa ser considerada quando são realizadas as inferências sobre os parâmetros Assim sendo o conhecimento das distribuições amostrais das principais estatísticas é necessário para fazer inferências sobre os parâmetros do modelo probabilístico da população Por hora basta conhecer as distribuições amostrais das estatísticas média de uma variável quantitativa qualquer e proporção de um dos dois únicos resultados de uma variável qualitativa 431 Distribuição amostral da média 108 Vamos observar as particularidades da distribuição amostral da média Exemplo 2 Suponha uma variável quantitativa cujos valores constituem uma população com os seguintes valores 2 3 4 5 Para esta população que tem uma distribuição uniforme podemos observar que os parâmetros são 35 2 125 usouse n no denominador por ser uma população Se retirarmos todas as amostras aleatórias de 2 elementos com reposição possíveis desta população n 2 teremos os seguintes resultadosLINK Há 16 amostras possíveis LINK 2 2 2 3 2 4 2 5 3 2 3 3 3 4 3 5 42 4 3 4 4 4 5 5 2 5 3 5 4 5 5 O cálculo das médias de todas as amostras acima resultará na matriz abaixo 05 54 04 53 54 04 53 03 04 53 03 52 53 03 52 02 X Se estas médias forem plotadas em um histograma Figura 38 Figura 38 Histograma de médias amostrais Fonte adaptada pelo autor de Statsoft 109 Se forem calculados a média e a variância das médias de todas as amostras o resultado será 53 5616 X n 2 1 25 0 625 x V 2 Observe como a distribuição das médias amostrais da variável pode ser aproximada por um modelo normal não obstante a distribuição da variável na população não ser normal e que o valor esperado das médias amostrais média das médias é igual ao valor da média populacional da variável e a variância das médias amostrais é igual ao valor da variância populacional da variável dividida pelo tamanho da amostra Quanto maior o tamanho da amostra quanto maior n mais o histograma acima vai se aproximar de um modelo normal independentemente do formato da distribuição da variável na população Podemos então enunciar os teoremas Teorema das Combinações Lineares Se a variável de interesse segue uma distribuição normal na população a distribuição amostral das médias de amostras aleatórias retiradas desta população também será normal independentemente do tamanho destas amostras Teorema Central do Limite Se a variável de interesse não segue uma distribuição normal na população ou não se sabe qual é a sua distribuição a distribuição amostral das médias de amostras aleatórias retiradas desta população será normal se o tamanho destas amostras for suficientemente grande LINK Este suficientemente grande varia de distribuição para distribuição como foi visto uma distribuição uniforme precisa de uma amostra pequena n 2 no caso para que a aproximação seja possível outras distribuições precisam de amostras maiores Alguns autores costumam chamar de grandes amostras aquelas que possuem mais de 30 elementos a partir deste tamanho a aproximação poderia ser feita sem maiores 110 preocupações LINK com uma média igual à média populacional e uma variância igual à variância populacional dividida pelo tamanho da amostra Para o caso da Proporção podemos chegar a uma conclusão semelhante 432 Distribuição amostral da proporção Vamos estudar as particularidades da distribuição amostral da proporção através de um exemplo Exemplo 3Seja uma variável qualitativa que pode assumir apenas dois valores e que constitui a seguinte população Vamos supor que há interesse no valor este valor seria o nosso sucesso A proporção deste valor na população o valor do parâmetro será 15 Se retirarmos todas as amostras aleatórias de 2 elementos com reposição possíveis desta população n 2 teremos os seguintes resultadosLINK Há 25 amostras possíveis LINK Figura 39 Amostras de tamanho 2 para proporção Fonte elaborada pelo autor Observe que se definirmos a variável como o número de sucessos número de esta seguirá um modelo binomial há apenas dois resultados possíveis para cada realização 111 há um número limitado de realizações n 2 no caso e cada realização independe da outra porque a amostra é aleatória com reposição Calculando a proporção de em cada uma das amostras e chamando esta proporção amostral de p teremos os seguintes resultados 1 1 2 1 2 1 2 2 1 1 2 0 0 0 0 1 2 0 0 0 0 1 2 0 0 0 0 1 2 0 0 0 0 p Calculando a média valor esperado e a variância das proporções acima teremos 5 1 Ep X n 1 2 5 1 1 5 1 0 08 s2 Observe que o valor esperado média das proporções amostrais é igual ao valor da proporção populacional de e que a variância das proporções amostrais é igual ao produto da proporção populacional de por seu complementar dividido pelo tamanho da amostraLINK Voltaremos a analisar o significado deste resultado quando estudarmos Estimação por Ponto LINK Lembrese de que um modelo binomial pode ser aproximado por um modelo normal se algumas condições forem satisfeitas se o produto do número de realizações pela probabilidade de sucesso n p E o produto do número de realizações pela probabilidade de fracasso n 1 p forem ambos maiores ou iguais a 5 LINK Isto também é decorrência do Teorema Central do Limite LINK E esta distribuição normal teria média igual a n p e variância igual a n p 1 p Se estivermos interessados apenas na proporção probabilidade de sucesso e não no número de sucessos as expressões anteriores podem ser divididas por n o tamanho da amostra média p e variância p 1 p n 112 Por causa do Teorema Central do Limite é que o modelo normal é tão importante É claro que ele representa muito bem uma grande variedade de fenômenos mas é devido à sua utilização em Inferência Estatística que o seu estudo é imprescindível Ressaltese porém que a sua aplicação costuma resumirse ao que se chama de Inferência Paramétrica inferências sobre os parâmetros dos modelos probabilísticos que descrevem as variáveis na população Para fazer inferências sobre outros aspectos que não os parâmetros ou quando as amostras utilizadas não forem suficientemente grandes para se assumir a validade do Teorema Central do Limite é preciso usar técnicas de Inferência Não Paramétrica que nós não veremos nesta disciplina Tô afim de saber Sobre distribuição amostral BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 2ª ed São Paulo Atlas 2008 capítulo 7 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo 7 ANDERSON DR SWEENEY DJ WILLIAMS TA Estatística Aplicada à Administração e Economia 2ª ed São Paulo Thomson Learning 2007 capítulo 7 Sobre a utilização do Microsoft Excel para estudar distribuições amostrais veja LEVINE D M STEPHAN D KREHBIEL T C BERENSON M L Estatística Teoria e Aplicações Usando Microsoft Excel em Português 5ª ed Rio de Janeiro LTC 200 capítulo 5 Resumo O resumo desta Unidade está mostrado na Figura40 113 Figura 40 Resumo da Unidade 4 Fonte elaborado pelo autor Pesquisa por amostragem Amostragem probabilística Inferência Estatística generalizar para a população Modelo probabilístico da população Estimação de Parâmetros Testes de Hipóteses Estatísticas x Parâmetros Distribuição amostral amostra probabilística estatísticas são variáveis aleatórias Média Proporção Média das médias amostrais média populacional Variância das médias amostrais variância populacionaln Médias amostrais seguem modelo normal para n suficientemente grande Média das proporções amostrais proporção populacional Variância das proporções amostrais x 1 n Proporções amostrais seguem modelo normal para n suficientemente grande é a proporção populacional Teorema das combinações lineares Teorema Central do Limite n é o tamanho de amostra 114 Atividades de aprendizagem 1 Uma variável tem média 200 e desvio padrão 12 na população com uma distribuição bastante assimétrica a Imagine que serão retiradas amostras aleatórias de 2 elementos desta população a1 Encontre a média das médias amostrais R 200 a2 Encontre o desvio padrão das médias amostrais R 8485 a3 A distribuição das médias amostrais será aproximadamente normal JUSTIFIQUE b Imagine que serão retiradas amostras aleatórias de 225 elementos desta população b1 Encontre a média das médias amostrais R 200 b2 Encontre o desvio padrão das médias amostrais R 08 b3 A distribuição das médias amostrais será aproximadamente normal JUSTIFIQUE 2 O censo indicou que 60 dos homens de um município são casados Se fossem retiradas amostras aleatórias de 200 elementos da população de homens a Qual é a média da proporção amostral de casados R 060 b Qual é o desvio padrão da proporção amostral de casados R 00346 c A distribuição das proporções amostrais será aproximadamente normal JUSTIFIQUE d Supondo que a distribuição das proporções amostrais possa ser considerada normal qual é a probabilidade de uma proporção de uma das amostras aleatórias diferir em mais de 5 para mais ou para menos da proporção populacional R aproximadamente 01484 3 Sabese que 50 dos edifícios construídos em uma grande cidade apresentam problemas estéticos relevantes em menos de 5 anos após a entrega da obra Considerando a seleção de uma amostra aleatória simples com 200 edifícios com 5 anos qual é a probabilidade de menos de 90 deles apresentarem problemas estéticos relevantes considerar que não tenha havido obras de reparo nos edifícios selecionados R aproximadamente 00783 115 Caro estudante Esta Unidade foi muito importante para o seu aprendizado pois lhe dará base para chegar à Inferência Estatística propriamente dita assunto que será tema de discussão nas Unidades 5 e 6 Vimos até agora sobre a inferência estatística e distribuição amostral seu modelo probabilístico e testes de hipóteses Chegamos ao final desta Unidade e a continuidade da aprendizagem proposta desde o início deste material Interaja com seus colegas responda a atividade de aprendizagem e visite o Ambiente Virtual de EnsinoAprendizagem espaço este que contemplará suas possíveis dúvidasProcure seu tutor e solicite todas as informações necessárias para o seu aprendizado Bons estudos 116 Unidade 5 Estimação de parâmetros 117 Objetivo Nesta Unidade você vai conhecer e aplicar os conceitos de Estimação de Parâmetros por Ponto e por Intervalo de Média e Proporção e aprenderá como calcular o tamanho mínimo de amostra necessário para a Estimação por Intervalo 118 Prezado estudante Na Unidade 4 você viu o conceito de Distribuição Amostral e observou a importância do modelo normal Nesta Unidade você vai aprender como aplicar estes conceitos no primeiro tipo particular de Inferência Estatística a Estimação de Parâmetros por ponto e por intervalo Parâmetros são medidas de síntese de variáveis quantitativas na População que estamos pesquisando Por ser inviável ou inconveniente pesquisar toda a População coletamos uma amostra para estudála Os resultados da amostra podem ser então usados para fazer afirmações probabilísticas sobre o parâmetro de interesse definir um intervalo possível para os valores do parâmetro e calcular a probabilidade de que o valor real do parâmetro esteja dentro dele esta é a Estimação por Intervalo Vamos aprender como estimar os parâmetros média de uma variável quantitativa e proporção de um dos valores de uma variável qualitativa Além disso você vai ver como é possível definir de forma mais acurada o tamanho mínimo de uma amostra aleatória para estimar média e proporção para esta última apresentamos uma primeira expressão de cálculo Unidade 3 51 Estimação por Ponto Uma vez tendo decidido que modelo probabilístico é mais adequado para representar a variável de interesse na População resta obter os seus parâmetros Nos estudos feitos com base em amostras é preciso escolher qual das estatísticas da amostra será o melhor estimador para cada parâmetro do modelo A Estimação por PontoGLOSSÁRIO Estimação por ponto tipo de estimação de parâmetros que procura identificar qual é o melhor estimador para um parâmetro populacional a partir das várias estatística amostrais disponíveis seguindo alguns 119 critériosFonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIOconsiste em determinar qual será o melhor estimador para o parâmetro de interesse Como os parâmetros serão estimados através das estatísticas estimadoresde uma amostra aleatória e como para cada amostra aleatória as estatísticas apresentarão diferentes valores os estimadores também terão valores aleatórios Em outras palavras um Estimador é uma variável aleatória que pode ter um modelo probabilístico para descrevêla Naturalmente haverá várias estatísticas T que poderão ser usadas como estimadores de um parâmetro qualquer Como escolher qual das estatísticas será o melhor estimador para o parâmetro Há basicamente três critérios para a escolha de um estimador o estimador precisa ser justo consistente e eficiente 1 Um Estimador T é um estimador justo não tendencioso de um parâmetro quando o valor esperado de T é igual ao valor do parâmetro a ser estimado ET 2 Um Estimador T é um estimador consistente de um parâmetro quando além ser um estimador justo a sua variância tende a zero à medida que o tamanho da amostra aleatória aumenta 0 VT lim n 3 Se há dois Estimadores justos de um parâmetro o mais eficiente é aquele que apresentar a menor variância Conforme foi dito na introdução desta Unidade estamos interessados em estimar dois parâmetros média e proporção populacional Vamos então buscar os estimadores mais apropriados para ambos 120 511 Estimação por ponto dos principais parâmetros Os principais parâmetros que vamos avaliar aqui são média de uma variável que segue um modelo normal ou qualquer modelo se a amostra for suficientemente grande em uma população média populacional µ e proporção de ocorrência de um dos valores de uma variável que segue um modelo Binomial em uma população proporção populacional π Em suma escolher quais estatísticas amostrais são mais adequadas para estimar estes parâmetros usando os critérios definidos acima Lembrandose dos Exemplos 2 e 3 da Unidade 4 algumas constatações que lá foram feitas passarão a fazer sentido agora Vamos supor que houvesse a intenção de estimar a média populacional da variável do Exemplo 2 Qual das estatísticas disponíveis seria o melhor estimador Lembremse de que após retirar todas as amostras aleatórias possíveis daquela população calculamos a média de cada amostra e posteriormente a média dessas médias Constatouse que o valor esperado das médias amostrais média das médias é igual ao valor da média populacional da variável e a variância das médias amostrais é igual ao valor da variância populacional da variável dividida pelo tamanho da amostra Ex n x V 2 O melhor estimador da média populacional µ é a média amostral x pois se trata de um estimador justo e consistente Justo porque o valor esperado da média amostral será a média populacional Consistente porque se o tamanho da amostra n tender ao infinito a variância da média amostral do Estimador tenderá a zero Agora vamos supor que houvesse a intenção de estimar a proporção populacional do valor da variável do Exemplo 3 Qual das estatísticas disponíveis seria o melhor estimador 121 Lembremse de que após retirar todas as amostras aleatórias possíveis daquela população calculamos a proporção de em cada amostra e posteriormente a média dessas proporções Constatouse que o valor esperado das proporções amostrais média das proporções é igual ao valor da proporção populacional do valor da variável e a variância das proporções amostrais é igual ao valor do produto da proporção populacional do valor da variável pela sua complementar dividida pelo tamanho da amostra Ep n 1 Vp O melhor estimador da proporção populacional é a proporção amostral p pois se trata de um estimador justo e consistente Justo porque o valor esperado da proporção amostral será a proporção populacional Consistente porque se o tamanho da amostra n tender ao infinito a variância da proporção amostral do Estimador tenderá a zero Poderíamos fazer um procedimento semelhante para estimar outros parâmetros como por exemplo a variância populacional de uma variável Este procedimento não será demonstrado mas o melhor estimador da variância populacional será a variância amostral se for usado n 1no denominador da expressão de cálculo Somente assim a variância amostral será um estimador justo não viciado da variância populacional Como o desvio padrão é a raiz quadrada da variância é comum estimar o desvio padrão populacional extraindo a raiz quadrada da variância amostral O problema da Estimação por Ponto é que geralmente só dispomos de uma amostra aleatória Intuitivamente qual será a probabilidade de que a média ou proporção amostral de uma amostra aleatória coincida exatamente com o valor do parâmetro É como pescar usando uma lança de bambu É preciso muita habilidade para pegar o peixe Mas se você puder usar uma rede ficará bem mais fácil Esta rede é a Estimação por Intervalo 122 52 Estimação por Intervalo de Parâmetros Geralmente uma inferência estatística é feita com base em uma única amostra na maior parte dos casos é totalmente inviável retirar todas as amostras possíveis de uma determinada população Intuitivamente percebemos que as estatísticas calculadas nessa única amostra mesmo sendo os melhores estimadores para os parâmetros de interesse terão uma probabilidade infinitesimal de coincidir exatamente com os valores reais dos parâmetros Então a Estimação por Ponto dos parâmetros é insuficiente e as estimativas assim obtidas servirão apenas como referência para a Estimação por Intervalo A Estimação por Intervalo consiste em colocar um Intervalo de Confiança IC em torno da estimativa obtida através da Estimação por Ponto O Intervalo de Confiança GLOSSÁRIO Intervalo de confiança faixa de valores da estatística usada como estimador dentro da qual há uma probabilidade conhecida de que o verdadeiro valor do parâmetro esteja Sinônimo de estimação por intervalo Fonte Barbetta Reis e Bornia 2010 FimGLOSSÁRIOterá uma certa probabilidade chamada de Nível de confiança que costuma ser simbolizado como 1 α de conter o valor real do parâmetro LINK fazer uma Estimação por Intervalo de um parâmetro é efetuar uma afirmação probabilística sobre este parâmetro indicando uma faixa de possíveis valores LINK e a probabilidade de que esta faixa realmente contenha o valor real do parâmetro A probabilidade de que o Intervalo de Confiança não contenha o valor real do parâmetro é chamada de Nível de Significância α e o valor desta probabilidade será o complementar do Nível de ConfiançaGLOSSÁRIO Nível de confiança probabilidade de que o intervalo de confiança contenha o valor real do parâmetro a estimar esperase que seja um valor alto de no mínimo 90 Fonte Moore McCabe Duckworth e Sclove 2006 Fim GLOSSÁRIO É comum definir o Nível de Significância como uma probabilidade máxima de erro um risco máximo admissível 123 A determinação do Intervalo de Confiança para um determinado parâmetro resume se basicamente a definir o Limite Inferior e o Limite Superior do intervalo supondo um determinado Nível de Confiança ou SignificânciaGLOSSÁRIO Nível de Significância complementar do nível de confiança a probabilidade de que o intervalo de confiança não contenha o valor real do parâmetro Probabilidade de erro esperase que seja um valor baixo de no máximo 10 Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIO A definição dos limites dependerá também da distribuição amostral da estatística usada como referência para o intervalo e do tamanho da amostra utilizada Para os dois parâmetros em que temos maior interesse média populacional µ e proporção populacional π a distribuição amostral dos estimadores média amostral x e proporção amostral p respectivamente pode ser aproximada por uma distribuição normal o Intervalo de Confiança será então simétrico em relação ao valor calculado da estimativa média ou proporção amostral com base na amostra aleatória coletada Figura 66 Figura 41 Intervalo de Confiança para um modelo normal Fonte elaborada pelo autor Onde Li é o limite inferior e Ls é o limite superior do Intervalo de Confiança 1 α é o Nível de Confiança estabelecido observando que o valor do Nível de Significância α é dividido igualmente entre os valores abaixo de Li e acima de Ls Para obter os limites em função do Nível de Confiança devemos utilizar a distribuição normal padrão variável Z com média zero e variância um fixar um certo valor de probabilidade obter o valor de Z correspondente e substituir o valor em Z x 124 média desvio padrão LINK Foram colocados entre aspas porque os valores dependerão dos parâmetros sob análise e de outros fatores LINK para obter o valor x valor correspondente ao valor de Z para a probabilidade fixada Observe a Figura 42 Figura 42 Intervalo de Confiança para a distribuição normal padrão Fonte elaborada pelo autor O limite Li inferior corresponde a Z1 e o limite Ls superior corresponde a Z2 O ponto central 0 zero corresponde ao valor calculado da Estimativa Como a variável Z tem distribuição normal com média igual a zero lembrando que a distribuição normal é simétrica em relação à média os valores de Z1 e Z2 serão iguais em módulo Z1 será negativo e Z2 positivo Z1 será um valor de Z tal que 2 Z PZ 1 e Z2 será um valor tal que 2 1 Z PZ 2 Então obteremos os valores dos limites através das expressões Z1 Li média desvio padrão Li média Z1 desvio padrão Z2 Ls média desvio padrão Ls média Z2 desvio padrão Como Z1 Z2 podemos substituir Li média Z2 desvio padrão Ls média Z2 desvio padrão E este valor Z2 costuma ser chamado de Zcrítico porque corresponde aos limites do intervalo Li média Zcrítico desvio padrão Ls média Zcrítico desvio padrão 125 Reparem que o mesmo valor é somado e subtraído da média Este valor é chamado de semiintervalo ou precisão do intervalo ou margem de erro e0 e0 Zcrítico desvio padrão Resta agora definir corretamente o valor da média e do desvio padrão para cada um dos parâmetros em que estamos interessados média e proporção populacional Com base nas conclusões obtidas na Estimação por Ponto isso será simples Contudo há alguns outros aspectos que precisarão ser esmiuçados 521 Estimação por Intervalo da Média Populacional Lembrando das expressões anteriores Li média Zcrítico desvio padrão média e0 Ls média Zcrítico desvio padrão média e0 Neste caso a média será a média amostral x ou mais precisamente o seu valor P x e x e 0 0 1 O valor de e0 dependerá de outros aspectos a Se a variância populacional 2 da variável cuja média populacional queremos estimar for conhecida Neste caso a variância amostral da média poderá ser calculada através da expressão n x V 2 e por conseguinte o desvio padrão será n desvio padrao E e0 será n Z e critico 0 Bastará então fixar o Nível de Confiança ou de Significância para obter Zcrítico através da Tabela disponível no Ambiente Virtual e calcular e0 126 b Se a variância populacional 2 da variável for desconhecida Naturalmente este é o caso mais encontrado na prática Como se deve proceder Dependerá do tamanho da amostra b1 Grandes amostras mais de 30 elementos Nestes casos procedese como no item anterior apenas fazendo com que s ou seja considerando que o desvio padrão da variável na população é igual ao desvio padrão da variável na amostra suposição razoável para grandes amostras b2 Pequenas amostras até 30 elementos Nestes casos a aproximação do item b1 não será viável Terá que ser feita uma correção na distribuição normal padrão Z através da distribuição t de Student que estudamos na Unidade 2 Quando a variância populacional da variável é desconhecida e a amostra tem até 30 elementos substituise por s e Z por tn1 em todas as expressões para determinação dos limites do intervalo de confiança obtendo Li média tn1crítico desvio padrão média e0 Ls média tn1crítico desvio padrão média e0 E e0 será n s t e 1 critico n 0 Os valores de tn1crítico podem ser obtidos de forma semelhante aos de Zcrítico definindo o Nível de Confiança ou de Significância mas precisam também da definição do número de graus de liberdade n 1 tendo estes valores basta procurar o valor da Tabela 2 do Ambiente Virtual ou em um programa computacional 127 Se o tamanho da amostra n for superior a 5 do tamanho da população N os valores de e0 precisam ser corrigidos Caso contrário os limites dos intervalos não serão acusados A correção é mostrada na equação a seguir 1 N n N e e 0 0corrigido Exemplo 1 Retirouse uma amostra aleatória de 4 elementos de uma produção de cortes bovinos no intuito de estimar a média do peso do corte Obtevese média de 82 kg e desvio padrão de 04 kg Supondo população normalDeterminar um intervalo de confiança para a média populacional com 1 de significância O parâmetro de interesse é a média populacional µ do peso do corte Adotouse um nível de significância de 1 então α 001e 1 α 099LINK Este valor pode ser arbitrado pelo usuário ou pode ser uma exigência do problema sob análise ou até mesmo uma exigência legal Os níveis de significância mais comuns são de 1 5 ou mesmo 10 LINK As estatísticas disponíveis são média amostral 82 kg s 04 kg n 4 elementos Definição da variável de teste como a variância populacional é DESCONHECIDA e o tamanho da amostra é menor do que 30 elementos não obstante a população ter distribuição normal a distribuição amostral da média será t de Student e a variável de teste será tn1 Encontrar o valor de tn1crítico como o Intervalo de Confiança para a média é bilateral teremos uma situação semelhante à da Figura 43 128 Figura 43 Distribuição t de Student para 99 de confiança Fonte elaborada pelo autor a partir de Statgraphics Para encontrar o valor crítico devemos procurar na tabela da distribuição de Student na linha correspondente a n1 graus de liberdade ou seja em 4 1 3 graus de liberdade O valor da probabilidade pode ser visto na Figura acima os valores críticos serão t30005e t30995os quais serão iguais em módulo E o valor de tn1críticoserá igual a 584 em módulo Determinamse os limites do intervalo através da expressão abaixo cujo resultado será somado e subtraído da média amostral para determinar os limites do intervalo 168kg 1 4 40 84 5 n s t e 1 crítico n 0 7 032kg 1168 28 e x L 0 I 9 368kg 1168 28 e x L 0 S Então o intervalo de 99 de confiança para a média populacional da dimensão é 70329368 kg Interpretação há 99 de probabilidade de que a verdadeira média populacional do peso de corte esteja entre 7032 e 9368 kg 522 Estimação por Intervalo da Proporção Populacional Anteriormente declaramos que o melhor estimador para a proporção populacional π é a proporção amostral p E que esta proporção amostral teria média igual a π e variância igual a π x 1 πn onde n é o tamanho da amostra aleatória A distribuição da 129 proporção amostral p é binomial e sabese que a distribuição binomial pode ser aproximada por uma normal se algumas condições forem satisfeitas Se nπ 5E n 1 π 5 Ora se fosse conhecido não estaríamos aqui nos preocupando com a sua Estimação por Intervalo assim vamos verificar se é possível aproximar a distribuição binomial de p por uma normal se np 5E n 1 p 5 ou seja usando o próprio valor da proporção amostral observada tratase de uma aproximação razoável Se e somente se estas duas condições forem satisfeitas poderemos usar as expressões abaixo lembrando das expressões anteriores Li média Zcrítico desvio padrão média e0 Ls média Zcrítico desvio padrão média e0 Neste caso a média será a proporção amostral ou mais precisamente o seu valor 1 e p e Pp 0 0 E o valor do desvio padrão será igual a n 1 Novamente como π é desconhecido usaremos a proporção amostral p como aproximação Então e0 será n p 1 p Z e critico 0 Bastará então fixar o Nível de Confiança ou de Significância Zcrítico e calcular e0 Novamente precisamos corrigir o valor de e0 para o caso de população finita 1 N n N e e 0 0corrigido 130 Em suma a Estimação por Intervalo da média e da proporção populacional consiste basicamente em calcular a amplitude do semiintervalo o e0 de acordo com as condições do problema sob análise Para a média observar se é viável considerar que a distribuição da variável na população é normal ou que a amostra seja suficientemente grande para que a distribuição das médias amostrais possa ser considerada normal Se isso for verificado identificar se a variância populacional da variável é conhecida caso seja deverá ser usada a variável Z da distribuição normal padrão para qualquer tamanho de amostra Se variância populacional da variável é desconhecida há duas possibilidades para amostras com mais de 30 elementos usar a variável Z e fazer a variância populacional igual à variância amostral da variável se a amostra tem até 30 elementos usar a variável tn1 da distribuição de Student Para a proporção observar se é possível fazer a aproximação pela distribuição normal Exemplo 2 Retirouse uma amostra aleatória de 1000 peças de um lote Verificouse que 35 eram defeituosasDeterminar um intervalo de confiança de 95 para a proporção peças defeituosas no lote O parâmetro de interesse é a proporção populacional π de peças defeituosas Adotouse um nível de significância de 5 então α 005e 1 α 095 As estatísticas são proporção amostral de peças defeituosas p 351000n 1000 elementos Definição da variável de teste precisamos verificar se é possível fazer a aproximação pela normal entãon x p 1000 x 0035 35 5 e n x 1 p 1000 x 0965 965 5 Como ambos os produtos satisfazem as condições para a aproximação podemos usar a variável Z da distribuição normal padrão 131 Encontrar o valor de Zcrítico como o Intervalo de Confiança para a média é bilateral teremos uma situação semelhante à da Figura Figura 44 Distribuição normal padrão para 95 de confiança Fonte elaborada pelo autor Para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0975 0950025 O valor da probabilidade pode ser visto na Figura 84acima os valores críticos serão Z0025e Z0975os quais serão iguais em módulo E o valor de Zcríticoserá igual a 196 em módulo Passase agora a determinação dos limites do intervalo através da expressão abaixo cujo resultado será somado e subtraído da proporção amostral de peças defeituosas para determinar os limites do intervalo 0 0114 1000 0 965 0 035 196 n p 1 p Z e critico 0 0 0236 0 0114 0 035 e p L 0 I 0 0464 0 0114 0 035 e p L 0 S Então o intervalo de 95 de confiança para a proporção populacional de peças defeituosas é 236464 Interpretação há 95 de probabilidade de que a verdadeira proporção populacional de plantas atacadas pelo fungo esteja entre 236 e 464 132 53 Tamanho mínimo de amostra para Estimação por Intervalo Como foi observado nos itens anteriores a determinação dos limites de um Intervalo de Confiançadeterminação do e0 depende do tamanho da amostra aleatória coletada além do Nível de Confiança e da distribuição amostral do estimador utilizado Nada podemos fazer quanto à distribuição amostral do estimador o Nível de Confiança nós podemos controlar seria interessante definir então uma precisão um valor para e0 para o Intervalo de Confiança é muito comum querermos estabelecer previamente qual será a faixa de variação de um determinado parâmetro com uma certa confiabilidade Contudo para um mesmo tamanho de amostra se aumentarmos o Nível de Confiança reduzirmos o Nível de Significância teremos um valor crítico maior o que aumentará o valor de e0 resultando em um Intervalo de Confiança mais largo com menor precisão se resolvermos aumentar a precisão menor valor de e0 obter um Intervalo de Confiança mais estreito teremos uma queda no Nível de Confiança A solução para o dilema acima é obter um tamanho mínimo de amostra capaz de atender simultaneamente ao Nível de Confiança ou de Significância e à precisão e0 especificados Como as expressões de e0 são em função do tamanho de amostra n seria razoável pensar em reordenálas de forma a fazer com que o tamanho de amostra seja função do Nível de Confiança e da precisão e0 531 Tamanho mínimo de amostra para Estimação por Intervalo da Média Populacional a Variância populacional conhecida n Z e critico 0 isolandon 2 0 critico e Z n 133 Neste caso basta especificar o valor de e0 na mesma unidade do desvio padrão populacional e o Nível de Confiança que será usado para encontrar o Zcrítico e calcular o tamanho mínimo de amostra b Variância populacional desconhecida n s t e 1 critico n 0 isolandon 2 0 1 critico n e s t n O procedimento neste caso seria semelhante exceto por um pequeno problema se estamos calculando o tamanho da amostra como podemos conhecer n 1 e o desvio padrão amostral s Quando a variância populacional da variável é desconhecida o usual é retirar uma amostra pilotoGLOSSÁRIO Amostra piloto amostra teste de tamanho arbitrado pelo pesquisador a partir da qual são calculadas estatísticas necessárias para a determinação do tamanho mínimo de amostra Fonte Costa Neto 2002 Fim GLOSSÁRIOcom um tamanho n arbitrário A partir dos resultados desta amostra são calculadas as estatísticas entre elas o desvio padrão amostral s que são substituídas na expressão acima Se nn então a amostra piloto é suficiente para o Nível de Confiança e a precisão exigidos Se nn então a amostra piloto é insuficiente para o Nível de Confiança e a precisão exigidas sendo então necessário retornar à população e retirar os elementos necessários para completar o tamanho mínimo de amostra O processo continua até que a amostra seja considerada suficiente Conforme visto na Unidade 3 se o tamanho da população for conhecido é recomendável corrigir o tamanho da amostra obtida seja para o intervalo de confiança de média ou proporção através da seguinte fórmula 134 n N n N n corrigido onde N é o tamanho da população Assim procedendo evitamos o inconveniente de obter um tamanho de amostra superior ao tamanho da população o que pode ocorrer se N não for muito grande Exemplo 3 Considere os dados do Exemplo 1 Para estimar a média com 1 de significância e precisão de 02 kg esta amostra é suficiente Como a variância populacional é desconhecida e o tamanho da amostra é menor do que 30 elementos não obstante a população ter distribuição normal a distribuição amostral da média será t de Student e a variável de teste será tn1 Assim será usada a seguinte expressão para calcular o tamanho mínimo de amostra para a estimação por intervalo da média populacional 2 0 1 critico n e s t n O nível de significância é o mesmo do item a Sendo assim o valor crítico continuará sendo o mesmo tn1crítico 584 O desvio padrão amostral vale 04 kg e o valor de e0 a precisão foi fixado em 02 kg Basta então substituir os valores na expressão 137 13642 20 40 84 5 e s t n 2 2 0 n 1 critico elementos Concluise que a amostra retirada é insuficiente pois é menor do que o valor calculado acima 532 Tamanho mínimo de amostra para Estimação por Intervalo da Proporção Populacional Para a proporção populacional teremos n p 1 p Z e critico 0 isolando n p 1 p e Z n 2 0 critico 135 É necessário especificar o Nível de Confiança ou de Significância que será usado para encontrar o Zcrítico e o valor de e0 tomando o cuidado de que tanto e0 quanto p e 1 p estejam todos como proporções adimensionais ou como percentuais para que seja possível calcular o valor do tamanho mínimo de amostra Da mesma forma que no caso da Estimação da média quando a variância populacional é desconhecida teremos que recorrer à uma amostra piloto No cálculo do tamanho mínimo de amostra para a Estimação por Intervalo da proporção populacional há porém uma solução alternativa utilizase uma estimativa exageradaLINK Esta solução somente é usada quando a natureza da pesquisa é tal que não é possível retirar uma amostra piloto a retirada de uma amostra piloto e a eventual retirada de novos elementos da população poderiam prejudicar muito o resultado da pesquisa Pagase então o preço de ter uma amostra substancialmente maior do que talvez fosse necessário LINK da amostra supondo o máximo valor possível para o produto p 1 p que ocorrerá quando ambas as proporções forem iguais a 05 50 Conforme visto na Unidade 3 se o tamanho da população for conhecido é recomendável corrigir o tamanho da amostra obtida seja para o intervalo de confiança de média ou proporção através da seguinte fórmula n N n N n corrigido onde N é o tamanho da população Assim procedendo evitamos o inconveniente de obter um tamanho de amostra superior ao tamanho da população o que pode ocorrer se N não for muito grande Exemplo 4 Considere o caso do Exemplo 2 Supondo 99 de confiança e precisão de 1 esta amostra é suficiente para estimar a proporção populacional De acordo com o Exemplo 2 é possível utilizar a aproximação pela distribuição normal A expressão para o cálculo do tamanho mínimo de amostra para a proporção populacional será 136 p 1 p e Z n 2 0 critico Os valores de p e 1 p já são conhecidos p 0035 1 p 0965 O nível de confiança exigido é de 99 para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0995 0990005 os valores críticos serão Z0005e Z0995os quais serão iguais em módulo E o valor de Zcríticoserá igual a 258 em módulo A precisão foi fixada em 1 001 Substituindo os valores na expressão acima 2249 224814 0 965 0 035 0 01 2 58 p 1 p e Z n 2 2 0 critico Observe que o tamanho mínimo de amostra necessário para atender a 99 de confiança e precisão de 1 deveria ser de 2249 elementos Como a amostra coletada possui apenas 1000 elementos ela é insuficiente para a confiança e precisão exigidas Recomenda se o retorno à população para a retirada aleatória de mais 1249 peças Visto tudo o que estudamos agora você já pode acompanhar atentamente os resultados das pesquisas de opinião veiculadas na mídia Apenas mais um pequeno adendo 54 Empate técnico Estamos acostumados a ouvir declarações do tipo os candidatos A e B estão tecnicamente empatados na preferência eleitoral O que significa isso Geralmente as pesquisas de opinião eleitoral consistem em obter as proporções de entrevistados que declara votar neste ou naquele candidato naquele momento Posteriormente as proporções são generalizadas estatisticamente para a população através do cálculo de intervalos de confiança para as proporções de cada candidato Se os intervalos de confiança das proporções de dois ou mais candidatos apresentam grandes superposições declarase que há 137 um empate técnico as diferenças entre eles devemse provavelmente ao acaso e para todos os fins estão em condições virtualmente iguais naquele momento Exemplo 3 Imagine que uma pesquisa de opinião eleitoral apresentasse os seguintes resultados intervalos de confiança para a proporção que declara votar no candidato sobre a prefeitura do município de Tapioca Quais candidatos estão tecnicamente empatados Quadro 5 Opinião Limite inferior Limite superior Godofredo Astrogildo 31 37 Filismino Arquibaldo 14 20 Urraca Hermengarda 13 19 Salustiano Quintanilha 22 28 Indecisos 11 17 Quadro 5 Resultados de uma pesquisa eleitoral municipal Fonte fictícia elaborado pelo autor Filismino e Urraca estão tecnicamente empatados pois seus intervalos de confiança apresentam grande sobreposição Godofredo está muito na frente pois o limite inferior de seu intervalo é maior do que o limite superior de Salustiano que está em segundo lugar É importante ressaltar que o número de indecisos é razoável variando de 11 a 17 quando eles se decidirem poderão mudar completamente o quadro da eleição ou garantir a vitória folgada de Godofredo Tô afim de saber Sobre propriedades e características desejáveis de um estimador BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 7 Sobre estimadores e intervalos de confiança para variância TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 capítulo 6 138 Para entender melhor o conceito de distribuição amostral e sua relação com estimação de parâmetros veja o arquivo Estimaxls e suas instruções no ambiente virtual Sobre a utilização do Microsoft Excel para realizar estimação por intervalo LEVINE D M STEPHAN D KREHBIEL T C BERENSON M L Estatística Teoria e Aplicações Usando Microsoft Excel em Português 5ª ed Rio de Janeiro LTC 200 capítulo 6 Atividades de aprendizagem 1 O tempo médio de atendimento em uma agência lotérica está sendo analisado por técnicos Uma amostra de 40 clientes foi sistematicamente monitorada em relação ao tempo que levavam para serem atendidos obtendose as seguintes estatísticas tempo médio de atendimento de 195 segundos e desvio padrão de 15 segundos Considerando que o tempo de utilização segue uma distribuição normal a Faça uma estimação por intervalo para o tempo médio de utilização para toda a população de clientes da agência lotérica utilizando um nível de confiança de 95 R 19035 a 19965 segundos b Se a legislação estabelecesse que em média o tempo seja de 180 segundos para atendimento a lotérica está atendendo ao padrão JUSTIFIQUE b A amostra utilizada seria suficiente para uma precisão de 1 minuto R Sim n 1 2 O tempo de montagem de determinados conectores utiliza um processo já há algum tempo que dura em média 35 segundos Está sendo analisada a possibilidade de troca deste processo para um outro que se afirma possuir um tempo de montagem menor Para esta análise foram observados os tempos de montagem de conectores por um operário padrão utilizando o novo processo e foram anotados os seguintes valores em segundos25 25 26 30 32 35 37 37 21 24 27 28 31 31 36 36 25 29 28 38 Considerando a situação exposta acima e utilizando um nível de confiança de 95 aEstime o tempo médio de montagem dos conectores utilizando o novo processo R 2767 a 3243 s 139 b Considerando que o tempo médio aceitável seja de 3 minutos o novo processo atende ao padrão JUSTIFIQUE c Calcule o tamanho mínimo da amostra que seria necessária para estimar a média com 95 de confiança e precisão de 05 segundos R n 5 3 Buscando melhorar a qualidade do serviço uma empresa estuda o tempo de atraso na entrega dos pedidos recebidos Supondo que o tempo de atraso se encontra normalmente distribuído e conhecendo o tempo de atraso dos últimos 20 pedidos descritos abaixo em dias determine 5 1 0 3 6 10 2 3 4 1 5 3 1 6 6 9 0 0 1 0 a Estime o atraso médio na entrega dos pedidos com confiança de 90 R 2136 a 4464 dias b Um dos clientes da empresa propôs romper o contrato pois reclama que os atrasos são muito grandes ele aceitaria em média 2 dias Com base nosresultados do item a a empresa deve se preocupar com a possibilidade de rompimento do contrato JUSTIFIQUE c Para a situação do item ao tamanho da amostra é suficiente se é necessária uma precisão de 05 dias para o mesmo nível de confiança R Não n 109 4 A satisfação da população de um estado em relação a determinado governo foi pesquisada através de uma amostra com a opinião de 1000 habitantes do estado Destes 585 se declararam insatisfeitas com a administração estadual Admitindose um nível de significância de 5 solucione os itens abaixo aEstime o percentual da população que está insatisfeita com a administração estadual R 5545 a 6155 b Com base no resultado do item a você considera a população do estado satisfeita com o governo JUSTIFIQUE cQual o tamanho da amostra necessária para a estimação se a empresa responsável pela pesquisa estipulou uma folga máxima de 25 R n 1493 140 5 Uma fábrica está convertendo as máquinas que aluga para uma versão mais moderna Até agora foram convertidas 40 máquinas O tempo médio de conversão foi de 24 horas com desvio padrão de 3 horas a Determine um intervalo de 98 de confiança para o tempo médio de conversão R 22895 h a 25105 h b A direção da fábrica esperava uma média de 20 h para a conversão A equipe responsável atingiu este padrão JUSITIFIQUE Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 6 Um banco possui 800 terminais de autoatendimento instalados no estado de SC Avaliando 48 terminais 6 apresentaram defeitos a Estime a proporção de terminais com defeitos R 3144 a 2186 b Você considera o intervalo de confiança obtido na letra a preciso para estimar a proporção de terminais com defeitos JUSTIFIQUE Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 7 Em uma pesquisa de mercado acerca da preferência pelo produto X 300 consumidores foram entrevistados sendo que 100 declararam consumir o produto a O fabricante quer que você determine um intervalo de 95 para a proporção populacional de pessoas que consomem o produto R 28 a 3867 b Um dos diretores do fabricante exige que o intervalo de confiança para a proporção populacional tenha 99 de confiança com um erro máximo de 25 Qual seria o tamanho de amostra necessário para atingir tais critériosR 2358 Adaptado de BUSSAB WO MORETTIN P A Estatística Básica 8a ed São Paulo Saraiva2013 141 8 A Polícia Rodoviária Estadual fez recentemente uma pesquisa secreta sobre as velocidades desenvolvidas na SC 401 das 23h às 2h No período de observação 100 carros passaram por um aparelho de radar a uma velocidade média de 112 kmh com desvio padrão de 22 kmh a Construa um intervalo de 95 de confiança para a média da população R 10769 kmh a 11631 kmh b O comando da Polícia divulgaria os resultados do item a apenas se a margem de erro fosse inferior a 10 kmh Na sua opinião os resultados podem ser divulgados JUSTIFIQUE Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 9 Uma máquina produz peças classificadas como boas ou defeituosas Retirouse uma amostra de 1000 peças da produção verificandose que 35 eram defeituosas O controle de qualidade para a linha de produção para rearranjo dos equipamentos envolvidos quando o percentual de defeituosos é superior a 3 a Determinar um intervalo de 95 de confiança para a proporção de peças defeituosas R 2361 a 4639 b Com base nos resultados do item a o controle de qualidade deve parar a produção JUSTIFIQUE C Se há interesse em obter um intervalo de 95 de confiança com precisão de 15 para a proporção de peças defeituosas qual deve ser o tamanho mínimo de amostraR 577 10 Os índices dos alunos dos cursos de Economia e de Administração estão sendo avaliados no sentido de definirem se há diferença entre os cursos Para tanto foram analisados os índices de 10 alunos de cada curso escolhidos aleatoriamente dentre os regularmente matriculados e anotados seus valores onde se obteve Economia média 73 desvio padrão 26 Administração média71 desvio padrão 31 a Estime os valores médios dos índices de cada curso com 95 de confiança R Economia 544 a 916 Administração 488 a 932 142 b Com base nos resultados do item a há diferenças significativas entre as médias dos índices dos dois cursos JUSTIFIQUE c Para o mesmo nível de confiança de a Será que 10 alunos é uma amostra suficiente em ambos os cursos para estimar seus índices médios com uma precisão igual a 1 Quais seriam os tamanhos de amostra necessários R Economia insuficiente n 35 Administração insuficiente n 50 11 O CRA de SC está conduzindo uma pesquisa sobre a opinião dos acadêmicos de administração sobre seus cursos Suspeitase que haja diferença entre as proporções de satisfeitos de instituições públicas e privadas os acadêmicos das públicas seriam mais satisfeitos Para avaliar esta suposição foi conduzida uma pesquisa por amostragem entrevistando alunos de duas instituições públicas SHUFSC e GASE e de três privadas PATÁPIO de SÁ UNIMALI e UNILUS Os resultados estão na tabela a seguir Medidas UNIVERSIDADES SHUFSC GASE PATÁPIO UNIMALI UNILUS n 120 165 185 194 189 p 055 048 032 049 025 N população 890 900 1500 1200 1800 Usando 1 de significância responda os itens a seguir a Estime a proporção populacional de satisfeitos com o seu curso em cada universidade R SHUFSC 4411 a 6589 GASE 3894 a 5706 PATÁPIO 2373 a 4027 UNIMALI 4053 a 5747 UNILUS 1732 a 3268 b De acordo com os resultados do item a a suposição do CRA é confirmada JUSTIFIQUE c Para uma margem de erro de 2 qual deveria ser o tamanho de amostra para estimar a proporção de satisfeitos em cada universidade R SHUFSC 732 GASE 740 PATÁPIO 1060 UNIMALI 931 UNILUS 1141 Resumo O resumo desta Unidade está mostrado na Figura45 143 Figura 45 Resumo da Unidade 5 Fonte elaborado pelo autor Estimação de Parâmetros Obter estimativas para os parãmetros do modelo populacional Estimação por ponto Escolher melhor estimador dentre as várias estatísticas Principais parâmetros Média Proporção Variância Melhor estimador média amostral Melhor estimador proporção amostral Melhor estimador variância amostral Estimação por Intervalo Intervalo de confiança em torno da estimação por ponto Cálculo da precisão e0 e limites do intervalo Média e proporção Tamanho mínimo de amostra para estimação por intervalo Média e proporção Critérios justo consistente eficiente Com n1 no denominador Nível de confiança Distribuição amostral do estimador Tamanho da amostra Corrigir se nN 005 Para determinada confiança e precisão Usar amostra piloto se necessário Corrigir com o tamanho da população N Modelo normal ou t de Student A partir de uma amostra aleatória 144 Vimos nessa Unidade sobre os conceitos de Estimação de Parâmetros Aprendemos a estimar os parâmetros média de uma variável quantitativa e proporção de um dos valores de uma variável qualitativa Além de definir o tamanho mínimo de uma amostra aleatória para estimar média e proporção Veremos mais sobre este assunto na última Unidade deste livro Estamos próximos do final do nosso material e é de suma importância a continuidade da interação comseus colegas e professor Não deixe de ver as tabelas indicadas no livro e disponíveis no Ambiente Virtual de EnsinoAprendizagem e de realizar a atividade de aprendizagem 145 Unidade 6 Testes de Hipóteses 146 Objetivo Nesta Unidade você vai conhecer e aplicar os conceitos de Testes de Hipóteses especialmente para média de uma variável quantitativa proporção de um dos valores de uma variável quantitativa e associação entre duas variáveis qualitativas Você aprenderá também qual é a importância de tais conceitos para o dia a dia do administrador 147 Caro estudante você viu anteriormente que uma determinada população pode ser descrita através de um modelo que apresenta características e parâmetros Muitas vezes estes parâmetros são desconhecidos e há interesse em estimálos para obter um melhor conhecimento sobre a população retirase então uma amostra aleatória da população e através das técnicas de Estimação de Parâmetros Unidade 5 procurase obter uma estimativa de algum parâmetro de interesse e associamos uma probabilidade de que a estimativa esteja correta Nesta última e importantíssima Unidade veremos que a Estimação de Parâmetros é uma subdivisão da Inferência Estatística que consiste em fazer afirmações probabilísticas sobre o modelo da população a partir de uma amostra aleatória desta população a outra grande subdivisão constitui os Testes de Hipóteses Vamos saber mais Contrariamente à Estimação de Parâmetros os Testes de Hipóteses permitem fazer inferências sobre outras características do modelo da população além dos parâmetros como por exemplo a forma do modelo da população Quando os Testes são feitos sobre os parâmetros da população são chamados de Testes ParamétricosGLOSSÁRIO Testes paramétricos testes de hipóteses sobre parâmetros do modelo da variável sob análise Fonte elaborado pelo autor Fim GLOSSÁRIO e quando são feitos sobre outras características são chamados de Testes Não ParamétricosGLOSSÁRIO Testes paramétricos testes de hipóteses sobre outros aspectos do modelo da variável sob análise ou alternativas aos testes paramétricos quando as condições para uso destes não forem satisfeitas Fonte elaborado pelo autor Fim GLOSSÁRIO TO AFIM DE SABER Na realidade a denominação correta deveria ser Testes dependentes de distribuição de referência porque para fazer inferências sobre os parâmetros devemos supor que o modelo probabilístico populacional é normal por exemplo ou que a distribuição amostral do parâmetro pode ser aproximada por uma normal e Testes livres de distribuição porque os Testes Não Paramétricos não exigem que os dados tenham uma aderência a certo modelo FIM Não obstante vamos nos restringir aos Testes Paramétricos de uma média de uma variável quantitativa e de uma proporção de um dos valores de uma variável qualitativa 148 Vimos que uma determinada população pode ser descrita através de um modelo probabilístico que apresenta características e parâmetros Muitas vezes estes parâmetros são desconhecidos e há interesse em estimálos para obter um melhor conhecimento sobre a população retirase então uma amostra aleatória da população e através das técnicas de Estimação de Parâmetros Unidade 5 procurase obter uma estimativa de algum parâmetro de interesse e associamos uma probabilidade de que a estimativa esteja correta A Estimação de Parâmetros é uma subdivisão da Inferência Estatística que consiste em fazer afirmações probabilísticas sobre o modelo probabilístico da população a partir de uma amostra aleatória desta população a outra grande subdivisão constitui os Testes de Hipóteses Contrariamente à Estimação de Parâmetros os Testes de Hipóteses permitem fazer inferências sobre outras características do modelo probabilístico da população além dos parâmetros como por exemplo a forma do modelo probabilístico da população Quando os Testes são feitos sobre os parâmetros da população são chamados de Testes Paramétricos e quando são feitos sobre outras características são chamados de Testes Não Paramétricos Não obstante vamos nos restringir aos Testes Paramétricos LINK A você estudante interessado em Testes Não Paramétricos recomendo a referência SIEGEL S Estatística Não Paramétrica para as Ciências do Comportamento McGrawHill São Paulo 1975 É uma boa referência no assunto em português LINK Imaginese que um determinado pesquisador está interessado em alguma característica de uma população Devido a estudos prévios ou simplesmente por bom senso melhor ponto de partida para o estudo ele estabelece que a característica terá um determinado comportamento Formula então uma hipótese estatística sobre a característica da população e esta hipótese é aceita como válida até prova estatística em contrário Para testar a hipótese é coletada uma amostra aleatória representativa da população sendo calculadas as estatísticas necessárias para o teste Naturalmente devido ao fato de ser utilizada uma amostra aleatória haverá diferenças entre o que se esperava sob a condição da hipótese verdadeira e o que realmente foi obtido na amostra A questão a ser respondida 149 é as diferenças são significativas o bastante para que a hipótese estatística estabelecida seja rejeitada Esta não é uma pergunta simples de responder dependerá do que está sob teste que parâmetro por exemplo da confiabilidade desejada para o resultado entre outros Basicamente porém será necessário comparar as diferenças com uma referência a distribuição amostral de um parâmetro por exemplo que supõe que a hipótese sob teste é verdadeira a comparação costuma ser feita através de uma estatística de teste que envolve os valores da amostra e os valores sob teste A tomada de decisão é feita da seguinte forma se a diferença entre o que foi observado na amostra e o que era esperado sob a condição da hipótese verdadeira não for significativa a hipótese será aceita se a diferença entre o que foi observado na amostra e o que era esperado sob a condição da hipótese verdadeira for significativa a hipótese será rejeitada O valor a partir do qual a diferença será considerada significativa será determinado pelo Nível de SignificânciaGLOSSÁRIO Nível de Significância probabilidade arbitrada pelo pesquisador valor máximo de erro admissível para rejeitar a hipótese nula sendo ela verdadeira esperase que seja um valor baixo de no máximo 10 FonteBarbetta Reis e Bornia 2010 Moore McCabe Duckworth e Sclove 2006 Fim GLOSSÁRIOdo teste O Nível de Significância geralmente é fixado pelo pesquisador muitas vezes de forma arbitrária e também será a probabilidade de erro do Teste de Hipóteses a probabilidade de cometer um erro no teste rejeitando uma hipótese válida Como a decisão do teste é tomada a partir dos dados de uma amostra aleatória da população há sempre a probabilidade de estar cometendo um erro mas com a utilização de métodos estatísticos é possível calcular o valor desta probabilidade LINK Usando outros métodos empíricos não há como ter idéia da chance de erro pode ser um erro de 0 ou de 5000 LINK O Nível de Significância é uma probabilidade portanto é um número real que varia de 0 a 1 0 a 100 e como é a probabilidade de se cometer um erro no teste é interessante que seja o mais próximo possível de zero valores típicos são 5 10 1 e até menores dependendo do problema sob análise Contudo não é possível usar um Nível de 150 Significância igual a zero porque devido ao uso de uma amostra aleatória sempre haverá chance de erro a não ser que a amostra fosse do tamanho da população O complementar do Nível de Significância é chamado de Nível de Confiança pois ele indica a confiabilidade do resultado obtido a probabilidade de que a decisão tomada esteja correta Você deve estar lembrado destes dois conceitos de Estimação de Parâmetros Nível de Confiança era a probabilidade de que o Intervalo de Confiança contivesse o valor real do parâmetro e Nível de Significância complementar daquele era a probabilidade de que o Intervalo não contivesse o parâmetro em suma a probabilidade da Estimação estar correta ou não respectivamente 61 Tipos de Hipóteses Para realizar um Teste de Hipóteses é necessário definir enunciar duas Hipóteses Estatísticas complementares que abrangem todos os resultados possíveis a chamada Hipótese Nula denotada por H0 e a Hipótese Alternativa denotada por H1 ou Ha Enunciar as hipóteses é o primeiro e possivelmente mais importante passo de um Teste de Hipóteses pois todo o procedimento dependerá dele A Hipótese Nula H0 é a hipótese estatística aceita como verdadeira até prova estatística em contrário pode ser o ponto de partida mais adequado para o estudo ou exatamente o contrário do que o pesquisador quer provar ou o contrário daquilo que o preocupa A Hipótese Alternativa H1 que será uma hipótese complementar de H0 fornecerá uma alternativa à hipótese nula muitas vezes é justamente o que o pesquisador quer provar ou o que o preocupa Quando as hipóteses são formuladas sobre os parâmetros do modelo probabilístico da população o Teste de Hipóteses é chamado de Paramétrico Quando as hipóteses são formuladas sobre outras características do modelo o Teste é chamado de Não Paramétrico 151 A decisão do teste consiste em aceitar ou rejeitar a Hipótese Nula H0 vaise aceitar ou não a hipótese até então considerada verdadeira É importante ter a noção exata do que significa aceitar ou rejeitar a Hipótese Nula H0 A decisão é tomada sobre esta hipótese e não sobre a Hipótese Alternativa porque é a Hipótese Nula é que considerada verdadeira até prova em contrário Quando se aceita a Hipótese Nula significa que não há provas suficientes para rejeitála Já quando a decisão é por rejeitar a Hipótese Nula há evidências suficientes de que as diferenças obtidas entre o que era esperado e o que foi observado na amostra não ocorreram por acaso Usando uma analogia com o direito dos EUA aceitar H0 seria comparável a um veredito de não culpado not guilty ou seja não há provas suficientes para condenar o réu Por outro lado rejeitar H0 seria comparável a um veredito de culpado guilty ou seja as provas reunidas são suficientes para condenar o réu O Nível de Significância será a probabilidade assumida de Rejeitar H0 sendo H0 verdadeira 62 Tipos de Testes Paramétricos A formulação das hipóteses é o ponto inicial do problema e deve depender única e exclusivamente das conclusões que se pretende obter com o teste A formulação da hipótese alternativa determinará o tipo de teste se UnilateralGLOSSÁRIO Teste unilateral teste no qual a região de rejeição da hipótese nula está concentrada em apenas um dos lados da distribuição amostral da variável de teste Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIOou BilateralGLOSSÁRIO Teste bilateral teste no qual a região de rejeição da hipótese nula está dividida em duas partes em cada um dos lados da distribuição amostral da variável de teste Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIO Se a formulação da hipótese alternativa indicar que o parâmetro é maior ou menor do que o valor de teste valor considerado verdadeiro até prova em contrário o teste será Unilateral somente há interesse se as diferenças entre os dados da amostra e o valor de teste forem em uma determinada direção Se a formulação da hipótese alternativa indicar 152 que o parâmetro é diferente do valor de teste o teste será Bilateral há interesse nas diferenças em qualquer direção As hipóteses então seriam Testes Unilaterais H0 parâmetro valor de teste H1 parâmetro valor de teste H0 parâmetro valor de teste H1 parâmetro valor de teste Testes Bilaterais H0 parâmetro valor de teste H1 parâmetro valor de teste A escolha do tipo de teste dependerá das condições do problema sob estudo sejam as três situações abaixo a Um novo protocolo de atendimento foi implementado no Banco RMG visando reduzir o tempo que as pessoas passam na fila do caixa O protocolo será considerado satisfatório se a média do tempo de fila for menor do que 30 minutos Um teste Unilateral seria o adequado b Cerca de 2000 formulários de pedidos de compra estão sendo analisados Os clientes podem ficar insatisfeitos se houver erros nos formulários Neste caso admitese que a proporção máxima de formulários com erros seja de 5 Ou seja um valor maior do que 5 causaria problemas Um teste Unilateral seria o adequado c Uma peça automotiva precisa ter 100 mm de diâmetro exatamente Neste caso a dimensão não pode ser maior ou menor do que 100 mm em outras palavras não pode ser diferente de 100 mm pois isso indicará que a peça não está de acordo com as especificações Um teste Bilateral seria o adequado Após definir as hipóteses é coletada uma amostra aleatória da população para seu teste 153 DESTAQUE É importante ressaltar que a montagem das hipóteses deve depender apenas das conclusões que se pretende obter e jamais de uma eventual evidência amostral disponível DESTAQUE A decisão de aceitar ou rejeitar H0 dependerá das regiões de aceitação e rejeição de H0 que por sua vez dependem dos seguintes fatores do parâmetro sob teste e da estatística ou variável de teste usada para testálo do tipo de teste se Unilateral à esquerda ou à direita ou Bilateral do valor de teste valor do parâmetro considerado verdadeiro até prova em contrário do Nível de Significância α ou Nível de Confiança 1 α adotado de um valor crítico da estatística ou variável de teste a partir do qual a hipótese será rejeitada e este valor dependerá por sua vez do Nível de Significância do tipo de teste e da Distribuição Amostral do parâmetro A Região de Aceitação de H0 será a faixa de valores da estatística ou da variável de teste associada ao parâmetro em que as diferenças entre o que foi observado na amostra e o que era esperado não são significativasA Região de Rejeição de H0 será a faixa de valores da estatística ou da variável de teste associada ao parâmetro em que as diferenças entre o que foi observado na amostra e o que era esperado são significativas Esta abordagem é chamada de abordagem clássica dos testes de hipóteses Há também a do valorp muito usada por programas computacionais a probabilidade de significância ou valor p é definida como a probabilidade da estatística do teste acusar um resultado tão ou mais distante do esperado como o resultado ocorrido na particular amostra observada supondo H0 como a hipótese verdadeira Barbetta Reis Bornia 2010 O valorp obtido é comparado com o nível de significância se for MENOR do que o nível de significância rejeitase H0 se for maior ou igual aceitase H0 Para entender melhor os conceitos acima observe a situação a seguir 154 Há interesse em realizar um teste de hipóteses sobre o comprimento médio de uma das dimensões de uma peça mecânica O valor nominal da média aceito como verdadeiro até prova em contrário é igual a b valor genérico H0 µ b Supondo que a distribuição amostral do estimador do parâmetro distribuição de x seja normal e será centrada em b é possível fazer a conversão para a distribuição normal padrão média zero e desvio padrão 1 variável Z Figuras 46 e 47 H0 µ b H0 µ 0 Figura 46 Hipótese nula média populacional b Figura 47 Hipótese nula média 0 Fonte elaboradas pelo autor O valor de b média da dimensão e média de x corresponde a zero média da variável Z Dependendo da formulação da Hipótese Alternativa haveria diferentes Regiões de Rejeição de H0 Se a Hipótese Alternativa fosse H1 µ b H1 µ 0 ou seja se o teste fosse Unilateral à esquerda a Região de Rejeição de H0 seria Figura 48 155 Figura 48 H1 µ b µ 0 Fonte elaboradas pelo autor Observe que há um valor crítico de 𝑥 se a média amostral estiver abaixo dele a Hipótese Nula será rejeitada acima será aceita A determinação do valor é feita com base no Nível de Significância a área abaixo da curva normal até o valor crítico de x Geralmente obtémse o valor crítico da variável de teste Z neste caso através de uma tabela ou pacote computacional que corresponde ao valor crítico de 𝑥 fazse a transformação de variáveis 𝑍 𝑥 𝜇0 𝜎 e obtémse o valor crítico de 𝑥 µ0 é o valor sob teste b no exemplo e é um desvio padrão cujo valorserá explicitado posteriormente Pela abordagem clássica a decisão será tomada comparando valor da média amostral x com o valor crítico desta mesma média se for menor do que o valor crítico𝑥 𝑐𝑟𝑖𝑡𝑖𝑐𝑜 ou seja está na região de RejeiçãodeH0 então se rejeita a Hipótese Nula É muito comum também tomar a decisão comparando o valor da variável de teste Z neste caso obtido com base nos dados da amostra com o valor crítico 𝑍𝑐𝑟𝑖𝑡𝑖𝑐 𝑜 desta mesma variável obtido de uma tabela ou programa computacional se for menor do que o valor crítico rejeitase a Hipótese Nula Observe que o valor do Nível de Significância α é colocado na curva referente à Hipótese Nula porque é esta que é aceita como válida até prova em contrário Observe também que a faixa de valores da região de Rejeição pertence à curva da Hipótese Nula assim o valor α é a probabilidade de Rejeitar H0 sendo Z 0 Zcrítico x valorp 156 H0verdadeira LINK Probabilidade de tomar uma decisão errada fixada pelo pesquisadorLINK Neste ponto é importante ressaltar um ponto que costuma passar despercebido Se a decisão for tomada com base na variável de teste Z por exemplo é interessante notar que como o teste é Unilateral à esquerda o valor 𝑍𝑐𝑟𝑖𝑡𝑖 𝑐𝑜 será NEGATIVO uma vez que a região de Rejeição de H0 está à ESQUERDA de 0 menor do que zero No teste Unilateral à direita que veremos a seguir o valor de 𝑍𝑐𝑟𝑖𝑡𝑖𝑐𝑜 será positivo pois a região de Rejeição de H0 estará à DIREITA de 0 maior do que zero Se por exemplo o Nível de Significância fosse de 5 005 o valor de 𝑍𝑐𝑟𝑖𝑡𝑖𝑐𝑜 para o teste Unilateral à esquerda seria 1645 Se houvesse interesse em obter o valor de 𝑥 𝑐𝑟𝑖𝑡𝑖𝑐𝑜 correspondente bastaria usar a expressão 𝑍 𝑥 𝜇0𝜎 substituindo Z por 1645 LINK O sinal correto é importante para que o valor de coerente com a posição da região de Rejeição de H0 LINK Pela abordagem do valorpcalculase a probabilidade de que 𝑥 assuma valores menores que aquele obtido na amostra Veja na figura 48 uma posição hipotética de 𝑥 o valorp é a probabilidade de que ela seja menor porque o teste é unilateral à esquerda do que aquele valor Se o valorp for MENOR do que 005 nível de significância α rejeitase H0 Se a Hipótese Alternativa fosse H1 µ b H1 µ 0 ou seja se o teste fosse Unilateral à direita a Região de Rejeição de H0 seria Figura 49 Z 0 Zcrítico x valorp 157 Figura 49 H1 µ b µ 0 Fonte elaboradas pelo autor Neste caso o valor crítico está à direita se a média amostral x ou a variável de teste Z tiverem valores superiores aos respectivos valores críticos a Hipótese Nula será rejeitada pois os valores caíram na região de Rejeição de H0 Como foi notado anteriormente o valor de 𝑍𝑐𝑟𝑖𝑡𝑖𝑐𝑜 será positivo pois é maior do que zero usando o mesmo Nível de Significância de 5 o valor de 𝑍𝑐𝑟𝑖𝑡𝑖𝑐𝑜 seria 1645 igual em módulo ao anterior uma vez que a distribuição normal padrão é simétrica em relação à sua média que é igual a zero Pela abordagem do valorp é preciso calcular a probabilidade de que 𝑥 assuma valores maiores que aquele obtido na amostra Veja na figura 49 uma posição hipotética de 𝑥 o valorp é a probabilidade de que ela seja maior porque o teste é unilateral à direita do que aquele valor Se o valorp for MENOR do que 005 nível de significância α rejeitase H0 Se a Hipótese Alternativa fosse H1 µ b H1 µ 0 ou seja o teste fosse Bilaterala Região de Rejeição de H0 seria Figura 50 Figura 50 H1 µ b µ 0 Fonte elaboradas pelo autor Z 0 Zcrítico Zcrítico x valorp2 158 Neste caso a região de Rejeição se divide em duas iguais probabilidades iguais à metade do Nível de Significância α semelhante ao que acontece na Estimação por Intervalo Existirão dois valores críticos um abaixo do valor de teste e outro acima se a média amostral 𝑥 ou a variável de teste Z tiverem valores acima do valor crítico superior ou abaixo do valor crítico inferior a Hipótese Nula será rejeitada pois os valores caíram em uma das 2 regiões de Rejeição Se for usada a variável de teste Z os valores críticos serão iguais em módulo pois estão à mesma distância do valor sob teste zero Pela abordagem do valorp é preciso calcular a probabilidade de que 𝑥 assuma valores maiores que aquele obtido na amostra e depois multiplicar esta probabilidade por 2 Veja na figura 50 uma posição hipotética de 𝑥 o valorp é a probabilidade de que ela seja maior do que aquele valormultiplicada por 2 porque o teste é bilateral Se o valorp for MENOR do que 005 nível de significância α rejeitase H0 Recordando as três situações que foram abordadas anteriormente seria interessante definir completamente as Hipóteses Estatísticas Nos dois primeiros casos optouse por um Teste Unilateral e no terceiro por um Teste Bilateral a Um novo protocolo de atendimento foi implementado no Banco RMG visando reduzir o tempo que as pessoas passam na fila do caixa O protocolo será considerado satisfatório se a média do tempo de fila for menor do que 30 minutos Um teste Unilateral seria o adequado Mas Unilateral à Esquerda ou à Direita Como está grifado na frase anterior haverá problema se a média do tempo fosse menor do que 30 resultando Teste unilateral à esquerda H0 µ 30 onde µ0 30 valor de teste H1 µ 30 Teste Unilateral à Esquerda b Cerca de 2000 formulários de pedidos de compra estão sendo analisados Os clientes podem ficar insatisfeitos se houver erros nos formulários Neste caso admitese que a proporção máxima de formulários com erros seja de 5 Ou seja um valor maior do que 5 causaria problemas Um teste Unilateral seria o adequado Neste caso um teste de proporção o problema será um valor maior do que 5 resultando 159 Teste unilateral à direita H0 π 5 onde π0 5 valor de teste H1 π 5 c Uma peça automotiva precisa ter 100 mm de diâmetro exatamente Neste caso a dimensão não pode ser maior ou menor do que 100 mm em outras palavras não pode ser diferente de 100 mm pois isso indicará que a peça não está de acordo com as especificações Um teste Bilateral seria o adequado resultando Teste Bilateral H0 µ 100 mm onde µ0 100 mm valor de teste H1 µ 100 mm Para a definição apropriada das hipóteses é imprescindível a correta identificação do valor de teste pois se trata de um dos aspectos mais importantes o resultado da amostra será comparado ao valor de teste Lembrando novamente que a tomada de decisão depende da correta determinação da região de Rejeição e por conseguinte de Aceitação da Hipótese Nula ou do cálculo do valorp e isso por sua vez depende diretamente da formulação das Hipóteses Estatísticas 63 Testes de Hipóteses sobre a Média de uma Variável em uma População Neste caso há interesse em testar a hipótese de que o parâmetro média populacional µ de uma certa variável quantitativa seja maior menor ou diferente de um certo valor Para a realização deste teste é necessário que uma das duas condições seja satisfeita sabese ou é razoável supor que a variável de interesse segue um modelo normal na população isso significa que a distribuição amostral da média também será normal permitindo realizar a inferência estatística paramétrica a distribuição da variável na população é desconhecida mas a amostra retirada desta população é considerada suficientemente grande LINK Há muita controvérsia a 160 respeito do que seria uma amostra suficientemente grande mas geralmente uma amostra com pelo menos 30 elementos costuma ser considerada grande o bastante para que a distribuição amostral da média possa ser aproximada por uma normal LINKo que de acordo com o Teorema Central do Limite permite concluir que a distribuição amostral da média é normal supõese também que a amostra é representativa da população e foi retirada de forma aleatória Tal como na Estimação de Parâmetros por Intervalo existirão diferenças nos testes dependendo do conhecimento ou não da variância populacional da variável a Se a variância populacional 2 da variável cuja média populacional queremos testar for conhecida Neste caso a variância amostral da média poderá ser calculada através da expressão n x V 2 e por conseguinte o desvio padrão LINK O desvio padrão é a raiz quadrada positiva da variância LINK será n desvio padrão A variável de teste será a variável Z da distribuição normal padrão lembrando que 𝑍 𝑣𝑎𝑙𝑜𝑟 𝑚é𝑑𝑖𝑎 𝑑𝑒𝑠𝑣𝑖𝑜𝑝𝑎𝑑𝑟ã𝑜 A média será o valor de teste suposto verdadeiro até prova em contrário denotado por µ0 O valor obtido pela amostra será a média amostral que é o melhor estimador da média populacional denotada por 𝑥 e o desvio padrão será o valor obtido anteriormente Sendo assim a expressão da variável de teste Zassumirá um determinado valor que chamaremos de Zcalculado 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝜎 𝑛 161 Pela abordagem clássica comparase o valor da variável de teste com o valor crítico Zcrítico que depende do Nível de Significância adotado de acordo com o tipo de teste as expressões abaixo também estão no apêndice Se H1µµ0 Rejeitar H0 se ZcalculadoZcrítico 𝒙 𝒙 crítico Se H1µµ0 Rejeitar H0 se ZcalculadoZcrítico LINK Neste caso Zcrítico será negativo já que a região de Rejeição de H0 está à esquerda de zero LINK𝒙 𝒙 crítico Se H1 µµ0 Rejeitar H0 se Zcalculado Zcrítico Pela abordagem do valorp calculase a probabilidade associada ao valor da variável de teste Se H1 µ µ0 Rejeitar H0 se PZ Zcalculado α Se H1 µ µ0 Rejeitar H0 se PZ Zcalculado α LINK Neste caso calculase a probabilidade de Z ser MENOR do que o Zcalculado pois o teste é unilateral à esquerda LINK Se H1 µ µ0 Rejeitar H0 se 2 PZ Zcalculado α LINK Neste caso multiplicase por 2 a probabilidade de Z ser MAIOR do que o valor em módulo de Zcalculado pois o teste é bilateral LINK b Se a variância populacional 2 da variável for desconhecida Naturalmente este é o caso mais encontrado na prática Como se deve proceder Dependerá do tamanho da amostra b1 Grandes amostras mais de 30 elementos Nestes casos procedese como no item anterior apenas fazendo com que s ou seja considerando que o desvio padrão da variável na população é igual ao desvio padrão da variável na amostra suposição razoável para grandes amostras b2 Pequenas amostras até 30 elementos Nestes casos a aproximação do item b1 não será viável Terá que ser feita uma correção na distribuição normal padrão Z através da distribuição t de Student Esta distribuição já é conhecida ver Unidades 2 e 5 Tratase de uma distribuição de 162 probabilidades que possui média zero como a distribuição normal padrão variável Z mas sua variância é igual a nn2 ou seja a variância depende do tamanho da amostra Quanto maior for o tamanho da amostra mais o quociente acima se aproxima de 1 a variância da distribuição normal padrão e mais a distribuição t de Student aproximase da distribuição normal padrão A partir de n 30 já é possível considerar a variância da distribuição t de Student aproximadamente igual a 1 LINK E talvez este seja o motivo de se considerar mais de 30 elementos como sendo uma amostra suficientemente grande LINK A variável de teste será então tn1 t com n 1 graus de liberdade e assumirá um valor que chamaremos de tn1calculado 𝑡𝑛1𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝑠 𝑛 onde s é o desvio padrão amostral e os outros valores têm o mesmo significado da expressão anterior Pela abordagem clássica comparase o valor da variável de teste com o valor crítico tn1crítico que depende do Nível de Significância adotado de acordo com o tipo de teste as expressões abaixo também estão no apêndice Se H1 µ µ0 Rejeitar H0 se tn1calculado tn1crítico 𝒙 𝒙 crítico Se H1 µ µ0 Rejeitar H0 se tn1calculado tn1crítico LINK Neste caso tn1crítico será negativo já que a região de Rejeição de H0 está à esquerda de zero LINK𝒙 𝒙 crítico Se H1 µ µ0 Rejeitar H0 se tn1calculado tn1crítico Pela abordagem do valorp calculase a probabilidade associada ao valor da variável de teste Se H1 µ µ0 Rejeitar H0 se Ptn1 tn1calculado α Se H1 µ µ0 Rejeitar H0 se Ptn1 tn1calculado α LINK Neste caso calculase a probabilidade de Z ser MENOR do que o tn1calculado pois o teste é unilateral à esquerda LINK Se H1 µ µ0 Rejeitar H0 se 2 Ptn1 tn1calculado α LINK Neste caso multiplicase por 2 a probabilidade de tn1 ser MAIOR do que o valor em módulo de tn1calculado pois o teste é bilateral LINK 163 Exemplo 1 Uma peça automotiva precisa ter 100 mm de diâmetro exatamente Foram medidas 15 peças aleatoriamente escolhidas Obtevese média de 1007 mm e variância de 001 mm2 Supõese que a dimensão segue distribuição normal na população A peça está dentro das especificações Usar 1 de significância Enunciar as hipótesesConforme visto na seção 62 o teste mais adequado para este caso é um Teste Bilateral H0 µ 100 mm onde µ0 100 mm valor de teste H1 µ 100 mm Nível de significânciaO problema declara que é necessário usar 1 de significância se não fosse especificado outro valor poderia ser usado Variável de testeUma vez que a variância populacional da variável é DESCONHECIDA o valor fornecido é a variância amostral e a amostra retirada apresenta apenas 15 elementos portanto menos de 30 a variável de teste será tn1 da distribuição t de Student Através dos valores da amostra avaliar o valor da variável Neste ponto é preciso encontrar o valor da variável de teste 𝑡𝑛1𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝑠 𝑛 O valor de teste µ0 é igual a 100 mm a média amostral x vale 1007 mm o tamanho de amostra n é igual a 15 e o desvio padrão amostral s é a raiz quadrada de 001 mm2 Substituindo na equação acima 𝑡𝑛1𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝑠 𝑛 𝑡151𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑡14𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 1007100 001 15 2711 então t14calculado 2711 Pela abordagem clássica é preciso definir a região de aceitação de H0Figura 51 164 Figura 51 Regiões de rejeição e aceitação da hipótese nula Teste bilateral de média Fonte elaborada pelo autor Observe que por ser um teste Bilateral o Nível de Significância α foi dividido em dois metade para cada região de rejeição de H0 Para encontrar o valor crítico devemos procurar na tabela da distribuição de Student ou em um pacote computacional na linha correspondente a n1 graus de liberdade ou seja em 15 1 14 graus de liberdade O valor da probabilidade pode ser visto na figura ao lado os valores críticos serão t140005e t140995os quais serão iguais em módulo E o valor de tn1críticoserá igual a 2977 em módulo Pela abordagem do valorp é preciso calcular a probabilidade de que tn1 seja maior do que tn1calculado em outras palavras Pt14 2711 Se procurarmos na tabela t de Student para 14 graus de liberdade disponível no ambiente virtual veremos que o maior valor encontrado é 4140 correspondente a uma probabilidade 00005 Como 2711 é bem maior do que 4140 mais de 6 vezes a probabilidade associada deve ser praticamente igual a zero mesmo multiplicandoa por 2 por ser o teste bilateral o valorp poderá ser considerado praticamente igual a zero usando o Microsoft Excel chegamos a 168 1013 um número muito pequeno Decidir pela aceitação ou rejeição de H0Como se trata de um teste bilateral Pela abordagem clássica 165 Rejeitar H0 setn1 calculado tn1crítico Como t14 2711 tn1crítico t140995 2977 Rejeitar H0 a 1 de Significância há 1 de chance de erro Pela abordagem do valorp Rejeitar H0 se2 Ptn1 tn1calculado α Como valorp 0 α 001 Rejeitar H0 a 1 de Significância há 1 de chance de erro Interpretar a decisão no contexto do problema Há provas estatísticas suficientes de que a dimensão da peça não está dentro das especificações LINK Cuidado com os casos de FRONTEIRA em que o valor da variável de teste é muito próximo do valor crítico abordagem clássica ou o valorp muito próximo de α abordagem do valorp Nesses casos a rejeição ou aceitação de H0 pode ocorrer por acaso Sempre que apresentar o resultado recomende que uma nova amostra seja retirada para avaliar novamente o problema Mas neste caso rejeitase H0 com folga LINK Exemplo 2 Um novo protocolo de atendimento foi implementado no Banco RMG visando reduzir o tempo que as pessoas passam na fila do caixa O protocolo será considerado satisfatório se a média do tempo de fila for menor do que 30 minutos Suponha que o tempo que 35 clientes selecionados aleatoriamente passaram na fila foi monitorado resultando em uma média de 29 minutos e desvio padrão de 5 minutos O protocolo pode ser considerado satisfatório a 5 de significância Enunciar as hipóteses Conforme visto na seção 62 o teste mais adequado para este caso é um Teste Unilateral à Esquerda H0 µ 30 onde µ0 30 valor de teste H1 µ 30 Nível de significância O problema declara que é necessário usar 5 166 Variável de teste Uma vez que a variância populacional da variável é DESCONHECIDA o valor fornecido é o desvio padrão AMOSTRAL mas a amostra retirada apresenta 35 elementos portanto mais de 30 a variável de teste será Z da distribuição normal Através dos valores da amostra avaliar o valor da variável Neste ponto é preciso encontrar o valor da variável de teste 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝑠 𝑛 O valor de teste µ0 é igual a 30 a média amostral x vale 29 o tamanho de amostra n é igual a 35 e o desvio padrão amostral s é 5 Substituindo na equação acima 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝑠 𝑛 29 30 5 35 1183 Pela abordagem clássica é preciso definir a região de aceitação de H0 Figura 52 Figura 52 Regiões de aceitação e de rejeição Teste unilateral à esquerda Fonte elaborada pelo autor Observe que por ser um teste Unilateral à Esquerda o Nível de Significância α está todo concentrado em um dos lados da distribuição definindo a região de rejeição de H0 Para encontrar o valor crítico devemos procurar na tabela da distribuição normal ou em um pacote computacional pela probabilidade acumulada 095 Ou procurar a probabilidade 167 complementar 005 e mudar o sinal do valor encontrado pois o Zcrítico aqui é menor do que zero O valor crítico será igual a 1645 Pela abordagem do valorp é preciso calcular a probabilidade de que Z seja menor do que Zcalculado em outras palavras PZ 1183 Lembrando da simetria da distribuição normal padrão que tem média zero sabemos que PZ 1183 é igual a PZ 1183 Se procurarmos na tabela da normal padrão disponível no ambiente virtualveremos que a probabilidade vale 01190 usando o Microsoft Excel chegamos a 01184 Decidir pela aceitação ou rejeição de H0 Como se trata de um teste Unilateral à esquerda Pela abordagem clássica Rejeitar H0 seZcalculadoZcrítico Como Zcalculado 1185 Zcrítico 1645 Aceitar H0 a 5 de Significância há 5 de chance de erro Pela abordagem do valorp Rejeitar H0 sePZ Zcalculado α Como valorp 01190 α 005 Aceitar H0 a 5 de Significância há 5 de chance de erro Interpretar a decisão no contexto do problema Não há provas estatísticas suficientes para concluir que o protocolo tem um desempenho satisfatório 64 Testes de Hipóteses sobre a Proporção de uma Variável em uma População Neste caso há interesse em testar a hipótese de que o parâmetro proporção populacional π de um dos valores de uma certa variável seja maior menor ou diferente de um certo valor Para a realização deste teste tal como será descrito é necessário que duas condições sejam satisfeitas que o produto n x π0 seja maior ou igual a 5 que o produto n x 1 π0 seja maior ou igual a 5 168 Onde n é o tamanho da amostra e π0 é a proporção sob teste de um dos valores da variável Se ambas as condições forem satisfeitas a distribuição amostral da proporção que é binomial uma Bernoulli repetida n vezes pode ser aproximada por uma normal Obviamente supõese que a amostra é representativa da população e foi retirada de forma aleatória e que a variável pode assumir apenas dois valores aquele no qual há interesse e o seu complementar Se as condições acima forem satisfeitas a distribuição amostral da proporção poderá ser aproximada por uma normal com Média µ0 Desvio Padrão n 1 0 0 Lembrandose da expressão da variável Z desvio padrão valor média Z O valor será a proporção amostral que é o melhor estimador da proporção populacional do valor da variável denotada por p A média e o desvio padrão são os valores definidos acima então a expressão de Zassumirá um valor que chamaremos de Zcalculado 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑝 𝜋0 𝜋01𝜋0 𝑛 Pela abordagem clássica comparase o valor da variável de teste com o valor crítico Zcrítico que depende do Nível de Significância adotado de acordo com o tipo de teste as expressões abaixo também estão no apêndice Se H1 0 Rejeitar H0 se ZcalculadoZcrítico 𝒑𝒑crítico Se H1 0 Rejeitar H0 se ZcalculadoZcrítico 169 LINK Neste caso Zcrítico será negativo já que a região de Rejeição de H0 está à esquerda de zero LINK𝒑𝒑crítico Se H10 Rejeitar H0 se Zcalculado Zcrítico Pela abordagem do valorp calculase a probabilidade associada ao valor da variável de teste Se H1 0 Rejeitar H0 se PZ Zcalculado α Se H1 0 Rejeitar H0 se PZ Zcalculado α LINK Neste caso calculase a probabilidade de Z ser MENOR do que o Zcalculado pois o teste é unilateral à esquerda LINK Se H10 Rejeitar H0 se 2 PZ Zcalculado α LINK Neste caso multiplicase por 2 a probabilidade de Z ser MAIOR do que o valor em módulo de Zcalculado pois o teste é bilateral LINK Exemplo 3 Cerca de 2000 formulários de pedidos de compra estão sendo analisados Os clientes podem ficar insatisfeitos se houver erros nos formulários Neste caso admitese que a proporção máxima de formulários com erros seja de 5 Suponha que dentre os 2000 formulários 7 apresentavam erros A proporção máxima foi ultrapassada a 1 de significância Enunciar as hipóteses Conforme visto na seção 62 o teste mais adequado para este caso é um Teste Unilateral à Direita H0 π 5 onde π0 5 valor de teste H1 π 5 Nível de significância O problema declara que é necessário usar 1 de significância se não fosse especificado outro valor poderia ser usado Variável de teste Como se trata de um teste de proporção é necessário verificar o valor dos produtos 170 n x π0 2000 x 005 100 e n x 1 π0 2000 x 095 1900 Como ambos são maiores do que 5 é possível aproximar pela normal e a variável de teste será Z Através dos valores da amostra avaliar o valor da variável Neste ponto é preciso encontrar o valor da variável de teste 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑝 𝜋0 𝜋01𝜋0 𝑛 O valor de teste π0 é igual a 005 5 a proporção amostral p vale 007 7 e o tamanho de amostra n é igual a 2000 Substituindo na equação acima 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑝 𝜋0 𝜋01𝜋0 𝑛 007 005 005095 2000 4104 Pela abordagem clássica é preciso definir a região de aceitação de H0 Figura 53 Figura 53 Regiões de aceitação e de rejeição Teste unilateral à direita Fonte elaborada pelo autor Observe que por ser um teste Unilateral à Direita o Nível de Significância α está todo concentrado em um dos lados da distribuição definindo a região de rejeição de H0 Para encontrar o valor crítico devemos procurar na tabela da distribuição normal pela probabilidade acumulada 001 o Zcrítico aqui é maior do que zero O valor crítico será aproximadamente igual a 233 171 Pela abordagem do valorp é preciso calcular a probabilidade de que Z seja maior do que Zcalculado em outras palavras PZ 4104 Se procurarmos na tabela da normal padrão disponível no ambiente virtual veremos o valor de Z mais próximo é 40 e que a probabilidade de Z ser maior do que 40 vale 00000317 usando o Microsoft Excel chegamos a 0000020303 Decidir pela aceitação ou rejeição de H0 Como se trata de um teste Unilateral à direita Pela abordagem clássica Rejeitar H0 seZcalculadoZcrítico Como Zcalculado 4104 Zcrítico 233 Rejeitar H0 a 1 de Significância há 1 de chance de erro Pela abordagem do valorp Rejeitar H0 sePZ Zcalculado α Como valorp 00000317 α 001 Rejeitar H0 a 1 de Significância há 1 de chance de erro Interpretar a decisão no contexto do problema Há provas estatísticas suficientes de que a proporção está acima do máximo admitido LINK Este não é um caso de fronteira LINK Provavelmente os vendedorescompradores precisarão passar por novo treinamento Agora vamos ver um tipo de teste estatístico muito utilizado pelos administradores para avaliar o relacionamento entre duas variáveis qualitativas o teste de associação independência de quiquadrado 65 Teste de associação de quiquadrado O teste do quiquadradoGLOSSÁRIO Teste de associação independência de quiquadrado teste que permite avaliar se duas variáveis qualitativas cujas frequências estão dispostas em uma tabela de contingências apresentam associação significativa ou 172 não Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIO também chamado de teste de independência de quiquadrado está vinculado à análise de duas variáveis qualitativas Vamos ver alguns conceitos antes de apresentar o teste de associação de quiquadrado 651 Variáveis qualitativas e tabelas de contingência É comum haver interesse em saber se duas variáveis quaisquer estão relacionadas e o quanto estão relacionadas seja na vida prática seja em trabalhos de pesquisa por exemplo se a satisfação com um produto está relacionada à faixa etária do consumidor se a função exercida por uma pessoa em uma organização está associada a seu gênero Na Unidade 2 de Estatística Aplicada à Administração I apresentamos técnicas para tentar responder as perguntas do parágrafo anterior Variáveis Qualitativas são as variáveis cujas realizações são atributos categorias Unidades 1 e 2 de Estatística Aplicada à Administração I Como exemplo de variáveis qualitativas temse sexo de uma pessoa duas categorias masculino e feminino grau de instrução analfabeto primeiro grau incompleto etc opinião sobre um assunto favorável desfavorável indiferente Em estudos sobre variáveis qualitativas é extremamente comum registrar as frequências de ocorrência de cada valor que as variáveis podem assumir e quando há duas variáveis envolvidas é comum registrarse a frequência de ocorrência dos cruzamentos entre valores por exemplo quantas pessoas do sexo masculino são favoráveis a uma certa proposta de lei quantas são desfavoráveis quantas pessoas do sexo feminino são favoráveis E para facilitar a análise dos resultados estes resultados costumam ser dispostos em uma Tabela de Contingências A Tabela de Contingências relaciona os possíveis valores de uma variável qualitativa com os possíveis valores da outra registrando quantas ocorrências foram verificadas de cada cruzamento 173 Exemplo 4 O Quadro 6 mostra uma tabela de contingências relacionando as funções exercidas e o sexo de 474 funcionários de uma organização Função Sexo Escritório Serviços gerais Gerência Total Masculino 157 27 74 258 Feminino 206 0 10 216 Total 363 27 84 474 Quadro 6 Tabela de contingências de Função por Sexo Fonte elaborado pelo autor Podemos apresentar os percentuais calculados em relação aos totais das colunas no Quadro 7 Função Sexo Escritório Serviços gerais Gerência Total Masculino 4325 100 8810 54 Feminino 5675 0 1190 46 Total 100 100 100 100 Quadro 7 Tabela de contingências de Função por Sexo percentuais por colunas Fonte elaborado pelo autor Seria interessante saber se as duas variáveis são estatisticamente dependentes e o quão forte é esta associação Repare que os percentuais de homens e mulheres em cada função são diferentes dos percentuais marginais de homens e mulheres no total de funcionários sendo que em duas funções Serviços gerais e Gerência as diferenças são bem grandes 174 O teste de associação de quiquadrado é uma das ferramentas estatísticas mais utilizadas quando se deseja estudar o relacionamento entre duas variáveis qualitativas Permite verificar se duas variáveis qualitativas são independentes se as proporções de ocorrência dos valores das variáveis observadas estão de acordo com o que era esperado etc Neste texto haverá interesse em usar o teste para avaliar se duas variáveis qualitativas são independentes Como todo teste de hipóteses o teste de associação de quiquadrado consiste em comparar os valores observados em uma amostra com os valores de uma referência referência esta que supõe que a hipótese nula seja válida As frequências observadas da variável são representadas em uma tabela de contingências e a Hipótese Nula H0 do teste será que as duas variáveis não diferem em relação às frequências com que ocorre uma característica particular ou seja as variáveis são independentes que será testada contra a Hipótese Alternativa H1 de que as variáveis não são independentes O teste pode ser realizado porque o grau de dependência pode ser quantificado descritivamente através de uma estatística que se chama justamente quiquadrado 2 na população mas na amostra é chamada de q2 cuja expressão é 𝑞2 𝑂𝑖𝑗 𝐸𝑖𝑗 2 𝐸𝑖𝑗 𝐶 𝑗1 𝐿 𝑖1 Sendo 𝐸𝑖𝑗 total da linha i total da coluna j total geral Onde Eij é a frequência esperada sob a condição de independência entre as variáveis em uma célula qualquer da tabela de contingências Todas as frequências esperadas precisam ser maiores ou iguais a 5 para que o resultado do teste seja válido LINK Se isso não ocorrer 175 recomendase agrupar as categorias de uma ou outra variável ou de ambas até obter todas as frequências pelo menos iguais a 5LINK Oij é a frequência observada em uma célula qualquer da tabela de contingências L é o número total de linhas da tabela de contingências número de valores que uma das variáveis pode assumir C é o número total de colunas da tabela número de valores que a outra variável pode assumir Então para cada célula da tabela de contingências calculase a diferença entre a frequência observada e a esperada Para evitar que as diferenças positivas anulem as negativas elas são elevadas ao quadrado E para evitar que uma diferença grande em termos absolutos mas pequena em termos relativos inflacione a estatística ou que uma diferença pequena em termos absolutos mas grande em termos relativos tenha sua influência reduzida dividese o quadrado da diferença pela frequência esperada Somamse os valores de todas as células da tabela e obtêmse o valor da estatística total que chamaremos de q2 calculado quanto maior q2 calculado mais o Observado se afasta do Esperado portanto maior a dependência Sob a hipótese de independência entre as duas variáveis H0 a estatística q2 seguirá o modelo quiquadrado com L1 C 1 graus de liberdade que estudamos na Unidade 2 prometendo usála aqui na Unidade 6 O número de graus de liberdade assume este valor porque para calcular as frequências esperadas não é necessário calcular os valores de todas as células as últimas podem ser calculadas por diferença já que os totais são fixos Por exemplo para duas variáveis que somente podem assumir 2 valores cada o número de graus de liberdade seria igual a 1 2121 bastaria calcular a frequência esperada de uma célula e obter as outras por diferença em relação ao total Da mesma forma que nos testes de hipóteses anteriores podemos usar a abordagem clássica ou a do valorp para tomar a decisão de rejeitar ou aceitar H0 com base na evidência amostral mas teremos um processo mais simples o teste de associação do quiquadrado para avaliar se duas variáveis são independentes será sempreunilateral 176 Pela abordagem clássica definido o nível de significância α é possível encontrar o q2 críticopara determinado grau de liberdade Por exemplo para o caso em que há 3 graus de liberdade e o Nível de Significância fosse de 5 a região de Rejeição de H0 ficarásempre À DIREITA o valor crítico seria lembrese da Unidade 2 Figura 54 Figura 54 Uso da tabela da distribuição quiquadrado Ilustração com gl 3 e área na cauda superior de 5 Fonte adaptado pelo autor de Barbetta Reis e Bornia 2010 A Hipótese Nula será rejeitada se q2 calculado q2 crítico para L 1 C 1 graus de liberdade Pela abordagem do valorp é preciso encontrar a probabilidade do valor associado à variável de teste com L 1 C 1 graus de liberdade rejeitase se H0 se Pq2 q2 calculado α nível se significância Exemplo 4 Para os dados mostrados no Quadro 6 supondo que os resultados são provenientes de uma amostra aleatória aplique um teste estatístico apropriado para avaliar se as variáveis são independentes a 1 de significância Terá que ser usado o teste de associação de quiquadrado pois os dados estão em uma tabela de contingências relacionando duas variáveis qualitativas Enunciar as Hipóteses 177 H0 as variáveis sexo e função são independentes H1 as variáveis sexo e função não são independentes Nível de significância determinado pelo problema igual a 1 001 Retirar as amostras aleatórias e montar a tabela de contingências isso já foi feito repetida a tabela de contingências no Quadro 6 Função Sexo Escritório Serviços gerais Gerência Total Masculino 157 27 74 258 Feminino 206 0 10 216 Total 363 27 84 474 Quadro 8 Tabela de contingências de Função por Sexo Fonte elaborado pelo autor Na tabela acima se encontram os totais marginais e o total geral L1 total Masculino 258 L2 total Feminino 216 C1 total Escritório 157 C2 total SGerais 27 C3 total gerência 84 N total geral 474 Repare que somando os totais das linhas o resultado é o total geral e que somando os totais das colunas o resultado é o total geral também Calcular as frequências esperadas Calculando as frequências esperadas de acordo com a fórmula vista anteriormente Masculino Escritório E 258 363 474 19758 Masculino Serviços Gerais E 258 27 474 1470 Masculino Gerência E 258 84 474 4572 Feminino Escritório E 216 363 474 16542 Feminino Serviços Gerais E 216 27 474 1230 Feminino Gerência E 216 84 474 3828 178 Calculando a estatística q2para cada célula Agora podemos calcular as diferenças entre as frequências e as demais operações que serão mostradas nos Quadros 9 10 e 11 O E Função Sexo Escritório Serviços gerais Gerência Masculino 157 19758 27 1470 74 4572 Feminino 206 16542 0 1230 10 3828 Quadro 9 Diferença entre frequências observadas e esperadas de Função por Sexo Fonte elaborado pelo autor OE2 Função Sexo Escritório Serviços gerais Gerência Masculino 1646921 151383 799672 Feminino 1646921 151383 799672 Quadro 10 Diferença entre frequências observadas e esperadas de Função por Sexo elevadas ao quadrado Fonte elaborado pelo autor Finalmente OE2E Função Sexo Escritório Serviços gerais Gerência Masculino 8336 10301 17490 Feminino 9956 12304 20891 Quadro 11 Estatísticas q2 de Função por Sexo Fonte elaborado pelo autor Agora podemos somar os valores q2 calculado 8336 10301 17490 9956 12304 20891 79227 Os graus de liberdade número de linhas 1 número de colunas 1 2 131 2 179 Então q2calculado 79227 para 2 graus de liberdade Abordagem clássica O q2 crítico será procurando na Tabela 3 do ambiente ou em um pacote computacional para 2 graus de liberdade e 99 de confiança 1 de significância q2 crítico 921 ver Figura 55 Figura 55 Valor crítico de q2 para 2 graus de liberdade e 1 de significância Fonte adaptada pelo autor de PQRS Como q2 calculado é maior do que q2 críticopara 2 graus de liberdade rejeitaseH0 a 1 de significância Abordagem do valorp O q2 calculado vale 79227 Procurando na tabela da distribuição quiquadrado que está no ambiente virtual para 2 graus o maior valor encontrado é 1382 que corresponde a uma probabilidade igual a 0001 Como 79227 é muito maior do que 1382 a probabilidade de q2 ser maior do que 79227 deve ser bem menor do que 0001 através do Microsoft Excel a probabilidade é praticamente igual a zero Então o valorp deve ser praticamente igual a zero Como o valor p 0 α 001 rejeitase H0 a 1 de significância HÁ evidência estatística suficiente que indicam que as variáveis função e sexo não são independentes Isso confirma nossas suspeitas iniciais devido às grandes diferenças nas frequências da tabela 180 No tópico Tô afim de saber você terá indicações de vários outros tipos de hipóteses que não foram mencionados nesta Unidade As referências lá citadas serão extremamente valiosas se você tiver que aplicar testes para avaliar se há diferenças entre médias de duas ou mais populações aplicar testes para avaliar se há diferenças entre proporções de duas populações aplicar testes não paramétricos por exemplo testes de aderência dos dados a um determinado modelo probabilístico Com este tópico terminamos nossa jornada Agora é com vocês Boa sorte Tô afim de saber Sobre tipos de erro poder em testes de hipóteses BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 8 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo10 Sobre testes de uma variância BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 8 TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 capítulo 7 Sobre testes de comparação de duas médias BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 9 Sobre testes de comparação de duas proporções MOORE DS McCABE GP DUCKWORTH WM SCLOVE S L A prática da estatística empresarial como usar dados para tomar decisões Rio de Janeiro LTC 2006 capítulo 8 Sobre Análise de Variância comparação de várias médias BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 9 181 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo 11 MOORE DS McCABE GP DUCKWORTH WM SCLOVE S L A prática da estatística empresarial como usar dados para tomar decisões Rio de Janeiro LTC 2006 capítulos 14 e 15 TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 capítulo 11 Sobre testes não paramétricos BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 10 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo 13 SIEGEL S Estatística Não Paramétrica para as Ciências do Comportamento São Paulo McGrawHill 1975 Sobre a utilização do Microsoft Excel para realizar testes de hipóteses LEVINE D M STEPHAN D KREHBIEL T C BERENSON M L Estatística Teoria e Aplicações Usando Microsoft Excel em Português 5ª ed Rio de Janeiro LTC 200 capítulo 6 Atividades de aprendizagem 1 O tempo médio de atendimento em uma agência lotérica está sendo analisado por técnicos Uma amostra de 40 clientes foi sistematicamente monitorada em relação ao tempo que levavam para serem atendidos obtendose as seguintes estatísticas tempo médio de atendimento de 195 segundos e desvio padrão de 15 segundosConsiderando que o tempo de utilização segue uma distribuição normal O dono da agência garante que o tempo médio de atendimento é de 3 minutos se for maior ele se compromete a contratar mais um atendente Aplicando o teste estatístico apropriado com base nos dados da amostra a afirmação do dono é verdadeira ou ele deve contratar um novo atendente Use um nível de significância de 1 R Sim Z 632 182 2 O tempo de montagem de determinados conectores utiliza um processo já há algum tempo que dura em média 35 segundos Está sendo analisada a possibilidade de troca deste processo para um outro que se afirma possuir um tempo de montagem menor Para esta análise foram observados os tempos de montagem de conectores por um operário padrão utilizando o novo processo e foram anotados os seguintes valores em segundos25 25 26 30 32 35 37 37 21 24 27 28 31 31 36 36 25 29 28 38 Aplicando o teste estatístico apropriado considerando a situação exposta acima com um nível de confiança de 95 a empresa deve mudar para o novo processo ou manter o atual R Deve mudar t 436 3 Buscando melhorar a qualidade do serviço uma empresa estuda o tempo de atraso na entrega dos pedidos recebidos Supondo que o tempo de atraso se encontra normalmente distribuído e conhecendo o tempo de atraso dos últimos 20 pedidos descritos abaixo em dias determine 5 1 0 3 6 10 2 3 4 1 5 3 1 6 6 9 0 0 1 0 Um cliente enfurecido quer testar estatisticamente a hipótese declarada pela empresa de que o atraso médio será de no máximo 1 dia Ele argumenta que deve ser maior e quer uma confiança de 99 para um teste estatístico apropriado Com base nos dados da amostra o cliente tem razão na sua reclamação R Sim t 342 4 A satisfação da população em relação a determinado governo foi pesquisada através de uma amostra com a opinião de 1000 habitantes do estado Destes 585 se declararam insatisfeitas com a administração estadual Admitindose um nível de significância de 5 solucione os itens abaixo A atual administração decidiu que se o percentual de descontentamento fosse superior a 50 deveria ser redirecionado o plano governamental Aplicando o teste estatístico apropriado utilizando a informação amostral o que você conclui R Redirecionar o plano Z 5375 183 5 Uma firma está convertendo as máquinas que aluga para uma versão mais moderna Até agora foram convertidas 40 máquinas O tempo médio de conversão foi de 24 horas com desvio padrão de 3 horasO fabricante das novas máquinas afirma que a conversão em média dura no máximo 25 horas Aplicando o teste estatístico apropriado com base nas conversões feitas até o momento a 1 de significância a afirmação do fabricante é verdadeira R Sim Z 21082 Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 6 Em uma pesquisa de mercado acerca da preferência pelo produto X 300 consumidores foram entrevistados sendo que 100 declararam consumir o produto O fabricante do produto X afirma que é a marca líder no mercado que mais de 40 dos consumidores a preferem Aplique o teste estatístico apropriado e com base nos dados verifique se a afirmação é válida Usar 1 de significânciaR Não Z 235 Adaptado de BUSSAB WO MORETTIN P A Estatística Básica 8a ed São Paulo Saraiva2013 7 Uma máquina produz peças classificadas como boas ou defeituosas Retirouse uma amostra de 1000 peças da produção verificandose que 35 eram defeituosas O controle de qualidade pára a linha de produção para rearranjo dos equipamentos envolvidos quando o percentual de defeituosos é superior a 3 Aplique o teste estatístico apropriado e baseado nos dados amostrais verifique se a linha de produção deve ser parada R Não Z 09268 8 Em 600 lançamentos de um dado obtevese a face 6 em 123 lançamentos a Aplique o teste estatístico apropriado e verifique se a 5 de significância há razão para desconfiar que o dado é viciado quanto a face 6 R Sim Z 2519 b E a 1 de significância R Não 9 Uma amostra aleatória entre homens e mulheres foi analisada com o objetivo de pesquisarse o comportamento de fumar cigarros Verificouse que de 27 homens 15 eram fumantes e que de 33 mulheres 12 tinham o hábito de fumar 184 Teste a hipótese de que o sexo influencia o comportamento de fumar a um nível de 5 de significância R Não associada q2 2210 10 Dentre os alunos de uma sala alguns não frequentavam as aulas apenas comparecendo às provas Na tabela abaixo estão apresentados seus resultados Aprovados Reprovados Total frequentadores 22 8 30 ausentes 10 18 28 Total 32 26 58 Utilizando 1 99 Aplique o teste apropriado para verificar se a presença nas aulas está associada aos resultados finais dos alunos R Associada 2 8287 11 Queremos saber se há associação entre três meios de comunicação em termos de lembrança do consumidor da propaganda veiculada O resultado de um estudo sobre propaganda mostrou Capacidade de lembrança Meio de comunicação Revista TV Rádio Total Lembram da propaganda 25 93 7 125 Não lembram da propaganda 73 10 108 191 Total 98 103 115 316 a Usando 1 de significância e o teste estatístico apropriado é possível concluir que há associação entre a capacidade de lembrança e o meio de comunicação usado R Sim 2 1728536 b Observando os resultados acima qual meio de comunicação você recomendaria para veicular uma propaganda para maximizar a capacidade de lembrança do público alvo Por quê Adaptado de LEVINE DM BERENSON ML STEPHAN D Estatística Teoria e Aplicações usando Microsoft Excel em Português Rio de Janeiro LTC 2000 185 Resumo O resumo desta Unidade está demonstrado na Figura 59 Figura 59 Resumo da Unidade 6 Fonte elaborado pelo autor SIM NÃO SIM NÃO Testes de hipóteses Testar hipóteses estatísticas sobre características da população Testes paramétricos x não paramétricos Tipos de hipóteses Hipótese Nula aceita como verdadeira até prova em contrário Hipótese alternativa Nível de significância Testes unilaterais x bilaterais Decisão aceitar ou rejeitar H0 1 variável apenas Avaliar nível de mensuração Vamos nos limitar a apenas 2 Quantitativa Testes de 1 média Testes de 1 proporção Qualitativas relacionamento expresso em tabela de contingências Teste de associação de quiquadrado A partir de uma amostra aleatória Nível de confiança Regiões de rejeição e aceitação de H0 186 Chegamos ao final da disciplina de Estatística Aplicada a Administração IIEstudamos nessa última Unidade os testes de hipóteses tipos de hipóteses e suas variáveis A Unidade foi explorada com Figuras exemplos e Quadros para melhor representar o conteúdo oferecido Além do material produzido pelo professor você tem em mãos uma riquíssima fonte de referencias para saber mais sobre o assunto Explore os conhecimentos propostos Não tenha esta Unidade como fim mas sim o começo de uma nova trajetória em sua vida acadêmica Bons estudos e boa sorte Referências ANDERSON DR SWEENEY DJ WILLIAMS TA Estatística Aplicada à Administração e Economia 2ª ed São Paulo Thomson Learning 2007 BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 2ª ed São Paulo Atlas 2008 BARBETTAP A Estatística Aplicada às Ciências Sociais 7ª ed Florianópolis Ed da UFSC 2007 COSTA NETO PL da O Estatística 2ª ed São Paulo Edgard Blücher 2002 LOPES P A Probabilidades e Estatística Rio de Janeiro Reichmann e Affonso Editores 1999 MARCONI Marina de Andrade LAKATOS Eva Maria Técnicas de Pesquisa 5a ed São Paulo Atlas 2003 187 MONTGOMERY D C Introdução ao Controle Estatístico da Qualidade 4ed Rio de Janeiro LTC 2004 MOORE DS McCABE GP DUCKWORTH WM SCLOVE S L A prática da estatística empresarial como usar dados para tomar decisões Rio de Janeiro LTC 2006 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 VIRGILITTO S B Estatística Aplicada Técnicas básicas e avançadas para todas as áreas do conhecimento São Paulo AlfaOmega 2003 Minicurrículo e foto do autor Minicurrículo MARCELO MENEZES REIS é formado em Engenharia Elétrica pela Universidade Federal de Santa Catarina UFSC bacharel em Administração de Empresas pela Universidade para o Desenvolvimento de Santa Catarina UDESC registro no CRASC 4049 Especialização em Seis Sigma Beyond Six Sigma Certification Program na University of South Florida USF EUA mestre em Engenharia Elétrica pela Universidade Federal de Santa Catarina e doutor em Engenharia de Produção pela Universidade Federal de Santa Catarina Professor Adjunto lotado no Departamento de Informática e Estatística da Universidade Federal de Santa Catarina desde 1995 Tem ministrado disciplinas de estatística em vários cursos de graduação e pósgraduação da Universidade incluindo os de Administração Foto 188
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
2
Tabela de Distribuição Normal Padrão
Probabilidade e Estatística 2
UDESC
404
Plano de Ensino de Probabilidade e Estatística
Probabilidade e Estatística 2
UFPI
57
Variável Aleatória e Distribuições de Probabilidade Discretas
Probabilidade e Estatística 2
UEMA
5
Análise de Variáveis Aleatórias Contínuas
Probabilidade e Estatística 2
PUC
13
Resolução da Lista 8: Distribuições Contínuas de Probabilidade
Probabilidade e Estatística 2
PUC
Texto de pré-visualização
1 Estatística Aplicada à Administração II Marcelo Menezes Reis 2 Copyright 2015 Todos os direitos desta edição reservados ao Departamento de Ciências da Administração CADCSEUFSC Nenhuma parte deste material poderá ser reproduzida transmitida e gravada por qualquer meio eletrônico por fotocópia e outros sem a prévia autorização por escrito do autor Catalogação na publicação por Onélia Silva Guimarães CRB14071 3 Sumário Apresentação UNIDADE 1 Variáveis aleatórias 11 Definição de variável aleatória discreta e contínua 12 Distribuições de probabilidades para variáveis aleatórias discretas 13 Distribuições de probabilidades para variáveis aleatórias contínuas 14 Valor esperado e variância UNIDADE 2 Modelos probabilísticos mais comuns 21 Modelos Probabilísticos para Variáveis Aleatórias Discretas 211 Modelo binomial 212 Modelo de Poisson 22 Modelos probabilísticos para Variáveis Aleatórias Contínuas 221 Modelo uniforme 222 Modelo normal 223 Modelo normal como aproximação do binomial 224 Modelo distribuição t de Student 225 Modelo quiquadrado 23 Modelos probabilísticos em Planilha Eletrônica UNIDADE 3 Técnicas de Amostragem 31 O que é amostragem 32 Condições e recomendações para uso 321 Aspectos necessários para o sucesso da amostragem 322 Plano de Amostragem 33 Amostragem probabilística ou aleatória conceito subtipos 331 Amostragem aleatória casual simples 332 Amostragem sistemática 333 Amostragem estratificada 334 Amostragem por conglomerados 34 Amostragem não probabilística 341 Amostragem a esmo 4 342 Amostragem por julgamento intencional 343 Amostragem por cotas 344 Amostragem bola de neve 35 Cálculo do tamanho de uma amostra probabilística aleatória para estimar proporção UNIDADE 4 Inferência estatística e distribuição amostral 41 Conceito de inferência estatística 42 Parâmetros e Estatísticas 43 Distribuição amostral 431 Distribuição amostral da média 432 Distribuição amostral da proporção UNIDADE 5 Estimação de parâmetros 51 Estimação por Ponto 511 Estimação por ponto dos principais parâmetros 52 Estimação por Intervalo de Parâmetros 521 Estimação por Intervalo da Média Populacional 522 Estimação por Intervalo da Proporção Populacional 53 Tamanho mínimo de amostra para Estimação por Intervalo 531 Tamanho mínimo de amostra para Estimação por Intervalo da Média Populacional 532 Tamanho mínimo de amostra para Estimação por Intervalo da Proporção Populacional 54 Empate técnico UNIDADE 6 Testes de Hipóteses 61 Tipos de Hipóteses 62 Tipos de Testes Paramétricos 63 Testes de Hipóteses sobre a Média de uma Variável em uma População 64 Testes de Hipóteses sobre a Proporção de uma Variável em uma População 65 Teste de associação de quiquadrado 66 Uso de planilha eletrônica para testes de hipóteses 5 Apresentação Caro estudante Você já cursou com aproveitamento a disciplina de Estatística Aplicada à Administração I Todos os conceitos lá estudados serão importantes para Estatística Aplicada à Administração II especialmente os da Unidade 6 Probabilidade Conforme mencionado anteriormente os métodos estatísticos são ferramentas primordiais para o administrador de qualquer organização pois possibilitam obter informações confiáveis sem as quais a tomada de decisões seria mais difícil ou mesmo impossível E não se esqueça a essência de administrar é tomar decisões Por este motivo esta disciplina faz parte do currículo do curso de Administração Nesta disciplina você aprenderá como a partir de dados confiáveis conceitos de planejamento de pesquisa estatística e amostragem resumidos e organizados pelas técnicas de análise exploratória de dados vistas na primeira disciplinaaplicar técnicas apropriadas probabilidade aplicada e inferência estatística para generalizar os resultados encontrados que por sua vez serão usados para tomar decisões Procurei apresentar exemplos concretos de aplicação usando ferramentas computacionais simples como as planilhas eletrônicas com as quais você teve um primeiro contato na disciplina de Informática Básica O domínio dos métodos estatísticos dará a você um grande diferencial pois permitirá tomar melhores decisões o que em essência é o objetivo primordial de qualquer organização Sucesso em sua caminhada Prof Marcelo Menezes Reis 6 Unidade 1 Variáveis aleatórias 7 Objetivo Nesta Unidade você vai compreender o conceito de variável aleatória e seu relacionamento com os modelos probabilísticos Vai aprender também que os modelos probabilísticos podem ser construídos para as variáveis aleatórias 8 11 Definição de variável aleatória discreta e contínua Caro estudante Uma pergunta que é normalmente feita a todos que trabalham com ciências exatas por que a obsessão em reduzir tudo a números Vimos em Análise Exploratória de Dados que uma variável quantitativa geralmente porque nem tudo pode ser reduzido a números como a inteligência e criatividade apresenta mais informação que uma variável qualitativa pode ser resumida não somente através de tabelas e gráficos mas também através de medidas de síntese Nos exemplos sobre probabilidade apresentados na Unidade 5 os eventos foram geralmente definidos de forma verbal bolas da mesma cor 2 bolas vermelhas soma das faces menor ou igual a 5 etc Não haveria problema em definir os eventos através de números Bastaria associar aos resultados do Espaço Amostral números através de uma função Esta função é chamada de Variável Aleatória Os modelos probabilísticos podem então ser construídos para as variáveis aleatórias O administrador precisa conhecer estes conceitos porque eles proporcionam maior objetividade na obtenção das probabilidades o que torna o processo de tomada de decisões mais seguro Vamos conhecer esses conceitos nesta Unidade Uma definição inicial de Variável Aleatória poderia ser tratase de uma variável quantitativa cujo resultado valor depende de fatores aleatórios Formalmente Variável Aleatória é uma função matemática que associa números reais contradomínio da função aos resultados de um Espaço AmostralGLOSSÁRIO Espaço Amostral é o conjunto de todos os resultados possíveis de um experimento aleatório Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIOdomínio da função por sua vez vinculado a um Experimento Aleatório Se o Espaço Amostral for finito ou infinito 9 numerável a variável aleatória é dita discreta Se o Espaço Amostral for infinito a variável aleatória é dita contínua Figura 1 Variável aleatória Fonte elaborada pelo autor Por exemplo imaginemos o Experimento AleatórioGLOSSÁRIO Experimento Aleatório é um processo de obtenção de um resultado ou medida que apresenta as seguintes características não se pode afirmar antes de realizar o experimento qual será o resultado de uma realização mas é possível determinar o conjunto de resultados possíveis quando é realizado um grande número de vezes replicado apresentará uma regularidade que permitirá construir um modelo probabilístico para analisar o experimento Fonte adaptado pelo autor de Lopes 1999 Fim GLOSSÁRIOjogar uma moeda honesta duas vezes e observar a face voltada para cima O Espaço Amostral seria finito CaraCara CaraCoroa CoroaCara CoroaCoroa Se houvesse interesse no número de caras obtidas poderia ser definida uma variável aleatória discreta X onde X Número de caras em dois lançamentos Os valores possíveis de X seriam X 0 1 2 O valor 0 é associado ao evento CoroaCoroa o valor 1 é associado aos eventos CaraCoroa e CoroaCara e o valor 2 é associado ao evento CaraCara 10 Quando o Espaço Amostral é infinito muitas vezes já está definido de forma numérica pela própria natureza quantitativa do fenômeno analisado facilitando a definição da variável aleatória Os Modelos Probabilísticos podem ser construídos para as variáveis aleatórias assim haverá Modelos Probabilísticos Discretos e Modelos Probabilísticos Contínuos Para construir um modelo probabilístico para uma variável aleatória é necessário definir os seus possíveis valores contradomínio e como a probabilidade total do Espaço Amostral que vale 1 distribuise entre eles é preciso então definir a distribuição de probabilidades GLOSSÁRIO Distribuição de probabilidades função que relaciona os valores possíveis que uma variável aleatória pode assumir com as respectivas probabilidades em suma é o próprio modelo probabilístico da variável aleatória Fonte Barbetta Reis e Bornia 2010 GLOSSÁRIO Veja que dependendo do tipo de variável aleatória haverá diferenças na construção da distribuição 12 Distribuições de probabilidades para variáveis aleatórias discretas Podemos ver alguns exemplos de variáveis aleatórias discretas a número de coroas obtido no lançamento de 2 moedas b número de itens defeituosos em uma amostra retirada aleatoriamente de um lote c número de defeitos em um azulejo numa fábrica de revestimentos cerâmicos d número de pessoas que visitam um determinado site num certo período de tempo Quando uma variável aleatória X é discreta a obtenção da distribuição de probabilidades consiste em definir o conjunto de pares xi pxi onde xi é o iésimo valor da variável X e pxi é a probabilidade de ocorrência de xi como no Quadro 1 X xi pX xi x1 px1 x2 px2 11 xn pxn Quadro 1Distribuição de Probabilidades para uma Variável Aleatória Discreta Fonte elaborado pelo autor Onde pxi 0 n é o número de valores que X pode assumir e n 1 i 01 px i Ao obter a distribuição de probabilidades para uma variável aleatória discreta se você quiser conferir os resultados some as probabilidades se elas não somarem 1 há algo errado Vamos ao primeiro exemplo Exemplo 1 O jogador Ruinzinho está treinando cobranças de pênaltis Dados históricos mostram que a probabilidade de ele acertar uma cobrança supondo que ele acertou a anterior é de 60 Mas se ele tiver errado a anterior a probabilidade de ele acertar uma cobrança cai para 30 Construa a distribuição de probabilidades do número de acertos em 3 tentativas de cobrança A variável aleatória X número de acertos em três tentativas é uma variável aleatória discreta o seu contradomínio é finito o jogador pode acertar 0 1 2 ou 3 vezes Mas para calcular as probabilidades associadas a esses valores é preciso estabelecer todos os eventos possíveis pois mais de um evento contribui para as probabilidades de 1 e 2 acertos Observando a árvore de eventos abaixo onde A é acertar a cobrança e E significa errar 12 Figura 2 Árvore de eventos Fonte elaborada pelo autor Observe que todos os eventos são mutuamente exclusivos o jogador não pode na mesma seqüência de 3 cobranças errar e acertar a primeira É preciso explicitar os valores da variável e os eventos em termos de teoria dos conjuntos Valores possíveis 0 1 2 3 acertos A equivalência entre os valores da variável e os eventos é estabelecida abaixo X 0 E1 E2 E3 X 1 A1 E2 E3 E1 A2 E3 E1 E2 A3 X 2 A1 A2 E3 E1 A2 A3 A1 E2 A3 X 3 A1 A2 A3 Então PX0 PE1 E2 E3 PX1 PA1 E2 E3 E1 A2 E3 E1 E2 A3 PX2 PA1 A2 E3 E1 A2 A3 A1 E2 A3 PX3 PA1 A2 A3 Assumese que na primeira tentativa o jogador tem 50 de chance de acertarLINK E1 errar a primeira cobrança é o evento complementar de A1 acertar a primeira cobrança LINK 13 então PA1 05 e PE1 05 Além disso estabeleceuse que quando o jogador acertou a cobrança na tentativa anterior a probabilidade de acertar a próxima é de 06 e caso tenha errado na anterior a probabilidade de acertar na próxima é de apenas 03 Tratamse de duas probabilidades condicionais estabelecidas em função de eventos já ocorridos Se o jogador acertou na tentativa i qualqueruma as probabilidades de acertar e errar na próxima tentativa serão PAi1Ai 06 Pelo complementar obtémse PEi1Ai 04 Se o jogador errou na tentativa i as probabilidades de acertar e errar na próxima tentativa serão PAi1Ei 03 Pelo complementar obtémse PEi1Ei 07 Com estas probabilidades estabelecidas lembrando da regra do produto e considerando o fato de que os eventos são mutuamente exclusivos é possível calcular as probabilidades de ocorrência de cada valor da variável aleatória X PX0 PE1 E2 E3 PE1 PE2 E1 PE3 E1 E2 Como os resultados em uma tentativa só dependem daqueles obtidos na imediatamente anterior o terceiro termo da expressão acima pode ser simplificado para PE3 E2 e a probabilidade será PX0 PE1 x PE2 E1 x PE3 E2 05 07 07 0245 245 Estendendo o procedimento acima para os outros valores PX1 PA1 E2 E3 E1 A2 E3 E1 E2 A3 PX2 PA1 A2 E3 E1 A2 A3 A1 E2 A3 PX3 PA1 A2 A3 Como os eventos são mutuamente exclusivos PX1 PA1 E2 E3 PE1 A2 E3 PE1 E2 A3 14 PX1 PA1PE2A1PE3E2PE1PA2E1PE3A2PE1PE2E1PA3E2 PX1 0504 07 05 03 04 05 07 03 0305 PX2 PA1 A2 E3 PE1 A2 A3 PA1 E2 A3 PX2 PA1PA2A1PE3A2PE1PA2E1PA3A2PA1PE2A1PA3E2 PX 2 05 06 04 05 03 06 05 04 03 027 27 PX3 PA1 A2 A3 PA1 PA2A1 PA3A2 05 06 06 018 18 Com os valores calculados acima é possível construir o Quadro 2com os pares valoresprobabilidades X pX xi 0 0245 1 0305 2 0270 3 0180 Total 10 Quadro 2 Distribuição de probabilidades número de acertos em 3 cobranças Fonte elaborado pelo autor Ao longo dos séculos matemáticos e estatísticos deduziram modelos matemáticos para tornar mais simples a obtenção de distribuição de probabilidades para uma variável aleatória discreta Alguns destes modelos serão vistos na Unidade 2 Vamos agora passar para a análise das variáveis aleatórias contínuas 13 Distribuições de probabilidades para variáveis aleatórias contínuas Podemos ver alguns exemplos de variáveis aleatórias contínuas 15 o volume de água perdido em um sistema de abastecimento o renda familiar em salários mínimos de pessoas selecionadas por amostragem aleatória para responder uma pesquisa o a demanda por um produto em um mês o tempo de vida de uma lâmpada incandescente Uma variável aleatória contínua está associada a um Espaço Amostral infinito Assim a probabilidade de que a variável assuma exatamente um valor xi é zero não havendo mais sentido em representar a distribuição pelos pares xi pxi Igualment sem sentido fica a distinção entre e existente nas variáveis aleatórias discretas Utilizase então uma função não negativa a função densidade de probabilidades definida para todos os valores possíveis da variável aleatória Uma função densidade de probabilidades poderia ser apresentada graficamente da seguinte forma Figura 3 Função densidade de probabilidades Fonte elaborada pelo autor Para calcular a probabilidade de uma variável aleatória contínua assumir valores entre a e b dois valores quaisquer basta calcular a área abaixo da curva entre a e b Se a área for calculada entre l e m limites da função tem que dar 1 que é a probabilidade total Usualmente isso é feito calculando a integral da função no intervalo de interesse Em muitas situações de nosso interesse tais probabilidades podem ser calculadas através de fórmulas matemáticas relativamente simples ou foram dispostas em tabelas que são encontradas em praticamente todos os livros de estatística e que serão vistas na Unidade 7 16 Agora vamos ver alguns conceitos muito importantes como valor esperado e variância de uma variável aleatória 14 Valor Esperado e Variância Todos os modelos probabilísticos apresentam duas medidas dois momentos que permitem caracterizar a variável aleatória para a qual eles foram construídos o Valor Esperado e a Variância da variável aleatória O Valor Esperado simbolizado por EX nada mais é do que a média aritmética simples vista em Análise Exploratória de Dados Unidade 3 de Estatística Aplicada à Administração I utilizando probabilidades ao invés de frequências no cálculo Analogamente a Variância simbolizada por VX é a variância vista anteriormente utilizando probabilidades Da mesma forma que em Análise Exploratória de Dados é também comum trabalhar com o Desvio Padrão raiz quadrada positiva da Variância que aqui será simbolizado por X sigma de X A interpretação dos resultados obtidos pode ser feita de forma semelhante à Análise Exploratória de Dados apenas recordando que se trata de uma variável aleatória e estão sendo usadas probabilidades e não frequências Para uma variável aleatória discreta o valor esperado e a variância podem ser calculados da seguinte forma n 1 i px i xi EX n 1 i px i xi2 EX 2 onde E X2 E X2 VX Para uma variável aleatória contínua a obtenção do valor esperado e da variância exige o cálculo de integrais das funções de densidade de probabilidades Para as distribuições mais importantes as equações encontramse disponíveis nos livros de estatística em função dos parâmetros da distribuição e algumas serão vistas na Unidade 2 Uma das principais utilidades do valor esperado é na comparação de propostas Suponha que os valores de uma variável aleatória sejam lucros ou prejuízos advindos de 17 decisões tomadas por exemplo decidir por uma proposta de compra do cliente A ou do cliente B Associados aos valores há probabilidades como decidir qual é a mais vantajosa O cálculo do valor esperado possibilita uma comparação objetiva decidiríamos pela que apresentasse o lucro esperado mais elevado Há um campo de conhecimento que se ocupa especificamente de fornecer as ferramentas necessárias para tais tomadas de decisão a teoria estatística da decisão ou análise estatística da decisão O valor esperado média e a variância apresentam algumas propriedades tanto para variáveis aleatórias discretas quanto contínuas O seu conhecimento facilitará muito a obtenção das medidas em problemas mais sofisticados Para o valor esperado EX sendo k uma constante a Ek k A média de uma constante é a própria constante b Ek X k EX A média de uma constante somada a uma variável aleatória é a própria constante somada à média da variável aleatória c EkX k EX A média de uma constante multiplicada por uma variável aleatória é a própria constante multiplicada pela média da variável aleatória d EX Y EX EY A média da soma de duas variáveis aleatórias é igual à soma das médias das duas variáveis aleatórias e Sejam X e Y duas variáveis aleatórias independentes EXY EX EY A média do produto de duas variáveis aleatórias independentes é igual ao produto das médias das duas variáveis aleatórias Para a variância VX sendo k uma constante a Vk 0 Uma constante não varia portanto sua variância é igual a zero b Vk X VX A variância de uma constante somada a uma variável aleatória é igual apenas à variância da variável aleatória c Vk X k2 VX A variância de uma constante multiplicada a uma variável aleatória é igual ao quadrado da constante multiplicada pela variância da variável aleatória 18 d Sejam X e Y duas variáveis aleatórias independentes VX Y VX VY A variância da soma ou subtração de duas variáveis aleatórias independentes será igual à soma das variâncias das duas variáveis aleatórias Agora vamos ver um exemplo Exemplo 2 Calcular o valor esperado e a variância da distribuição do Exemplo 1 Para uma variável aleatória discreta é aconselhável acrescentar mais uma coluna ao Quadro 2 com os valores e probabilidades para poder calcular o valor de EX2 X pX xi xi pX xi xi 2 pX xi 0 0245 0 0 1 0305 0305 0305 2 0270 0540 108 3 0180 0540 162 Total 10 1385 3005 Quadro 3 Distribuição de probabilidades do Exemplo 1 com coluna xi 2 pX xi Fonte elaborado pelo autor Substituindo nas expressões de valor esperado e variância 385 1 n 1 i px i xi EX acertos 1087 13852 005 3 2 n 1 i px i i x n 1 i px i xi2 VX acertos2 1042 1087 VX X acertos 19 Observe que o valor esperado 1385 acertos é um valor que a variável aleatória não pode assumir Não é o valor mais provável é o ponto de equilíbrio do conjunto Repare que a unidade da variância dificulta sua comparação com o valor esperado mas ao se utilizar o desvio padrão é possível verificar que a dispersão dos resultados é quase do valor da média valor esperado Tô afim de saber o Sobre Variáveis Aleatórias BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulos 5 e 6 o Sobre as propriedades de valor esperado e variância BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulos 5 e 6 o Também sobre variáveis aleatórias STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulos 5 e 6 o Sobre teoria estatística da decisão BEKMAN O R COSTA NETO P O Análise Estatística da Decisão São Paulo Edgard Blücher 1980 4ª reimpressão 2006 Atividades de aprendizagem 1 Três alunos estão tentando independentemente resolver um problema A probabilidade de que o aluno A resolva o problema é de 45 de B resolver é de 23 e de C resolver é de 37 Seja X o número de soluções corretas apresentadas para este problema a Construa a distribuição de probabilidades de X R 0038 0257 0476 0228 b Calcule EX e VX R 1893 0630 2 Um prédio possui 3 vigias dispostos em vários pontos de onde têm visão do portão de entrada Se alguém não autorizado entrar o vigia que o vê faz soar um alarme Suponha que os vigias trabalham independentemente entre si e que a probabilidade de que cada um deles veja uma pessoa entrar é 08 Seja X o número de alarmes que soam ao entrar uma 20 pessoa não autorizada Encontre a distribuição de probabilidades de X R 0008 0096 0384 0512 3 Uma companhia petrolífera obteve a concessão de explorar uma certa região Estudos anteriores estimam que a probabilidade de existir petróleo nessa região é 02 A companhia pode optar por um novo teste que custa 50 sendo que se realmente existe petróleo esse teste dirá com probabilidade 08 que existe e se realmente não existe petróleo dirá com probabilidade 07 que não existe Considerando que o custo de perfuração será de 300 e se for encontrado petróleo a companhia lucrará 1500 lucro bruto qual o valor esperado do lucro da companhia se essa tomar as melhores decisões perfurar quando o teste indicar que há petróleo e não perfurar quando o teste não indicar R 70 Resumo O resumo desta Unidade está demonstrado na Figura4 21 Figura 4 Resumo da Unidade 1 Fonte elaborado pelo autor NÃO SIM Experimento aleatório Espaço amostral infinito Associar números aos resultados Associar uma equação aos intervalos de resultados Variável aleatória discreta Variável aleatória contínua Distribuição de probabilidades Função densidade de probabilidades Valor esperado Variância Propriedades de valor esperado Propriedades de Variância Pares X e pX Não negativa Média centro de massa 22 Chegamos ao final de mais uma Unidade Veremos mais sobre os temas abordados na Unidade 2 quando estudaremos várias distribuições de probabilidade modelos probabilísticos que são extremamente úteis para modelar muitas situações práticas auxiliando na tomada de decisões Estes conhecimentos serão depois aplicados nas Unidades 4 e 5 23 Unidade 2 Modelos probabilísticos mais comuns 24 Objetivo Nesta Unidade você vai conhecer os modelos probabilísticos mais importantes para variáveis aleatórias discretas e contínuas Você aprenderá a identificar as situações reais em que podem ser usados para o cálculo de probabilidades e a importância disso para o administrador 25 21 Modelos Probabilísticos para Variáveis Aleatórias Discretas Na Unidade 6 de Estatística Aplicada à Administração I e na Unidade 1 deste livro vimos os conceitos gerais de Probabilidade e Variáveis Aleatórias podemos construir um modelo probabilístico do zero para um problema de administração a partir de dados históricos ou experimentais Embora plenamente possível o processo de construção de um modelo probabilístico do zero pode ser bastante longo é preciso coletar os dados fazer a análise exploratória deles obter as probabilidades e validar o modelo Mesmo tomando todos os cuidados muitas vezes iremos reinventar a roda e correndo o risco de ela sair quadrada Por que não usar os conhecimentos prévios desenvolvidos ao longo de centenas de anos de pesquisa e experimentação Vamos procurar dentre os vários modelos probabilísticos existentes aquele mais apropriado para o fenômeno que estamos estudando que é materializado através de variáveis aleatórias Através da análise exploratória de dados podemos avaliar qual modelo é mais apropriado para os nossos dados Contudo para fazer isso precisamos conhecer tais modelos Nesta Unidade vamos estudar os modelos mais usados para variáveis aleatórias discretas binomial e Poisson e para variáveis aleatórias contínuas uniforme normal t e quiquadrado Aqui é importante avaliar com cuidado a variável aleatória discretaGLOSSÁRIO Variável aleatória é uma função matemática que associa números reais aos resultados de um Espaço Amostral por sua vez vinculado a um Experimento Aleatório Fonte Barbetta Reis e Bornia 2010 FimGLOSSÁRIO 26 É preciso identificar se o Espaço Amostral é finito ou infinito numerávelGLOSSÁRIO Espaço Amostral finito é aquele formado por um número limitado de resultados possíveisFonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIO Espaço Amostral infinito numerável é aquele formado por um número infinito de resultados mas que podem ser listados Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIOalguns modelos são apropriados para um caso e não para o outro Vamos ver os dois modelos mais importantes para variáveis aleatórias discretas binomial e Poisson 211 Modelo binomial Seja um Experimento AleatórioGLOSSÁRIO Experimento Aleatório é um processo de obtenção de um resultado ou medida que apresenta as seguintes características não se pode afirmar antes de realizar o experimento qual será o resultado de uma realização mas é possível determinar o conjunto de resultados possíveis quando é realizado um grande número de vezes replicado apresentará uma regularidade que permitirá construir um modelo probabilístico para analisar o experimento Fonte adpatado pelo autor de Lopes 1999 Fim GLOSSÁRIOqualquer que apresenta as seguintes características o consiste na realização de um número finito e conhecido n de ensaios ou repetições o cada um dos ensaios tem apenas dois resultados possíveis sucesso ou fracasso estão entre aspas porque a definição de sucesso não quer necessariamente algo positivo e também porque poderá incluir significar um grupo de resultados e o os ensaios são independentes entre si apresentando probabilidades de sucesso p e de fracasso 1p constantes Neste caso estamos interessados no número de sucessos obtidos nos n ensaios como o Espaço Amostral é finito vai de 0 a n uma variável aleatória associada seria discreta Este tipo de experimento é chamado de Binomial 27 Então a variável aleatória discretaGLOSSÁRIO Variável aleatória discreta o Espaço Amostral ao qual ela está associada é finito ou infinito numerável Fonte Barbetta Reis e Bornia 2010 FimGLOSSÁRIO X número de sucessos nos n ensaios apresenta uma distribuição modelo binomial com os seguintes parâmetros n número de ensaios p probabilidade de sucesso Com esses dois parâmetros é possível calcular as probabilidades de um determinado número de sucessos bem como obter o Valor Esperado e a Variância da variável X p 1 p n p VX n EX Exemplo 1 Experimentos binomiais a Observar o número de caras em 3 lançamentos imparciais de uma moeda honesta n3 p05 b Observar o número de meninos nascidos em 3 partos de uma família n3 p x c Observar o número de componentes defeituosos em uma amostra de 10 componentes de um grande número de peças que apresentaram anteriormente 10 de defeituosos n 10 p 01 Vamos ver com maiores detalhes o caso do número de meninos e meninas nascidos em uma família Chamando menino de evento H será o sucesso e menina de evento M e sabendo pela história da família que PH 052 e PM 048 então p 052 e 1 p 048 quais serão as probabilidades obtidas para a variável aleatória número de meninos em 3 nascimentos Vamos obter a distribuição de probabilidades Resolvendo usando os conceitos gerais de probabilidade é preciso primeiramente determinar o Espaço Amostral como poderão ser os sexos das 3 crianças HHH HHM HMH MHH HMM MHM MMH MMM Supondo que os nascimentos sejam independentes podemos calcular as probabilidades de cada intersecção simplesmente multiplicando as probabilidades individuais de seus componentes 28 PHHH PH PH PH p p p p3 PHHM PH PH PM p p 1 p p2 1 p PHMH PH PM PH p 1 p p p2 1 p PMHH PM PH PH 1 p p p p2 1 p PHMM PH PM PM p 1 p 1 p p 1 p 2 PMHM PM PH PM 1 p p 1 p p 1 p 2 PMMH PM PM PH 1 p 1 p p p 1 p 2 PMMM PM PM PM 1 p 1 p 1 p 1 p 3 Observe que PHHM PHMH PMHH p2 1 p Probabilidade de 2 sucessos PHMM PMHM PMMH p 1 p 2 Probabilidade de 1 sucesso Importa apenas a natureza dos sucessos não a ordem em que ocorrem com a utilização de combinaçõesLINK em qualquer livro de matemática do ensino médio é possível encontrar a definição e exemplos de combinações Fim LINK é possível obter o número de resultados iguais para cada número de sucessos Supondo que o número de ensaios n é o número de objetos disponíveis e que o número de sucessos em que estamos interessados doravante chamado k é o número de espaços onde colocar os objetos um objeto por espaço o número de resultados iguais será k n k n C nk Para o caso acima em que há 3 ensaios n 3 para 2 sucessos k 2 3 2 3 2 3 C 3 2 o mesmo resultado obtido por enumeração para 1 sucesso k 1 3 3 1 1 3 C 13 o mesmo resultado obtido por enumeração 29 O procedimento acima poderia ser feito para quaisquer valores de n e k desde que n k permitindo obter uma expressão geral para calcular a probabilidade associada a um resultado qualquer A probabilidade de uma variável aleatória discreta X número de sucessos em n ensaios com distribuição binomial de parâmetros n e p assumir um certo valor k 0 kn será n k k nk p 1 p C k PX onde k n k n C nk É importante lembrar que a probabilidade de ocorrer k sucessos é igual à probabilidade de ocorrern k fracassos e que todos os axiomas e propriedades de probabilidade continuam válidos Exemplo 2 Admitamos que a probabilidade de que companhia não entregue seus produtos no prazo é igual a 18 Quais são as probabilidades de que em 3 entregas 1 2 ou todas as 3 entregas sejam feitas no prazo Calcular também valor esperado variância e desvio padrão do número de entregas no prazo Para cada entrega ensaio há apenas dois resultados no prazo ou não Há um número limitado de realizações n 3 Definindo sucesso como no prazo e supondo as operações independentes a variável aleatória X número de entregas no prazo em 3 terá distribuição binomial com parâmetros n 3 e p 082 e1 p 018 Então 0 006 018 0 82 0 3 0 3 018 0 82 C 0 PX 3 0 3 0 3 0 0 080 018 0 82 3 1 1 3 018 0 82 C 1 PX 2 1 2 1 13 0 363 018 0 82 2 3 2 3 018 0 82 C 2 PX 1 2 1 2 3 2 0 551 018 0 82 3 3 3 3 018 0 82 C 3 PX 0 3 0 3 33 30 Somando todas as probabilidades o resultado é igual a 1 como teria que ser LINK Lembrese que a soma das probabilidades de todos os eventos que compõem o Espaço Amostral é igual a 1 E que 0 1 e que um número diferente de 0 elevado a zero é igual a 1 LINK O Valor Esperado Variância e o Desvio Padrão serão 2 46 entregas 0 82 3 p n EX 0 4428 entregas 018 0 82 3 p 1 n p VX 2 0 665 entregas 0 4428 VX X A média é quase igual ao número de operações devido à alta probabilidade de sucesso Mas e se o Espaço Amostral fosse infinito numerável Teríamos que usar o modelo de Poisson Você conhece este modelo Sabe como tirar proveito de suas facilidades Vamos estudar juntos para aprender ou para relembrar 212 Modelo de Poisson Vamos supor um experimento binomial com apenas dois resultados possíveis mas com a seguinte característica apesar da probabilidade p ser constante o valor de n teoricamente é infinito Na situação acima o modelo binomial não poderá ser utilizado Nestes casos deve ser utilizado o modelo de Poisson Como seria a solução para o caso acima Como n é infinito devese fazer a análise das ocorrências em um período contínuo de tempo de espaço entre outros subdividido em um certo número de subintervalos número tal que a probabilidade de existir mais de uma ocorrência em uma subdivisão é desprezível e supondo ainda que as ocorrências em subdivisões diferentes são independentes novamente é preciso trabalhar com uma quantidade constante que será chamada de m também t m 31 onde é uma taxa de ocorrência do evento em um período contínuo igual ou diferente do período sob análise e t é justamente o período contínuo sob análiseLINK Apesar do símbolo t o período contínuo não é necessariamente um intervalo de tempo LINK Como obter a taxa Há duas opções realizar um número suficiente de testes de laboratório para obter a taxa de ocorrência do evento a partir dos resultados ou observar dados históricos e calcular a taxa Se uma variável aleatória discreta X número de ocorrências de um evento segue a distribuição de Poisson a probabilidade de X assumir um valor k será k m e k X P k m Onde e é uma constante e 271 E p n m ou t m Uma particularidade interessante da distribuição de Poisson é que o Valor Esperado e a Variância de uma variável aleatória que siga tal distribuição serão iguais t m EX t m VX O modelo de Poisson é muito utilizado para modelar fenômenos envolvendo filas filas de banco filas de mensagens em um servidor filas de automóveis em um cruzamento Exemplo 3 Alguns experimentos e fenômenos que seguem a distribuição de Poisson a Número mensal de acidentes de tráfego em um cruzamento Observe que é uma variável aleatória discreta pode assumir apenas valores inteiros 0 1 2 3 Cada realização do experimento acidente pode ter apenas 2 resultados ocorre o acidente ou não ocorre o acidente Mas o número máximo de realizações é desconhecido Assim a distribuição binomial não pode ser usada e a análise do número de acidentes precisa ser feita em um período contínuo no caso período de tempo 1 mês exigindo o uso da distribuição de Poisson b Número de itens defeituosos produzidos por hora em uma indústria 32 Novamente uma variável aleatória discreta valores inteiros 01 2 3 cada realização só pode ter dois resultados possíveis peça sem defeito ou peça defeituosa Se o número máximo de realizações for conhecido provavelmente a probabilidade de uma peça ser defeituosa será reduzida e apesar de ser possível a utilização da distribuição binomial o uso da distribuição de Poisson obterá resultados muitos próximos Se o número máximo de realizações for desconhecido a distribuição binomial não pode ser usada e a análise do número de acidentes precisa ser feita em um período contínuo no caso período de tempo 1 hora exigindo o uso da distribuição dePoisson c Desintegração dos núcleos de substâncias radioativas contagem do número de pulsações radioativas a intervalos de tempo fixos Situação semelhante a dos acidentes em um cruzamento só que o grau de aleatoriedade deste experimento é muito maior O número máximo de pulsações também é desconhecido obrigando a realizar a análise em um período contínuo utilizando a distribuição dePoisson Exemplo 4 Uma telefonista recebe cerca de 020 chamadas por minuto valor obtido de medições anteriores a Qual é a probabilidade de receber exatamente 5 chamadas nos primeiros 10 minutos b Qual é a probabilidade de receber até 2 chamadas nos primeiros 12 minutos c Qual é o desvio padrão do número de chamadas em meia hora Há interesse no número de chamadas ocorridas em um período contínuo de tempo no caso Para cada ensaio há apenas dois resultados possíveis a chamada ocorre ou não Observe que não há um limite para o número de chamadas no período sabese apenas que o número mínimo pode ser 0 por esse motivo a utilização da binomial é inviável Contudo há uma taxa de ocorrência 020 chamadasminuto e isso permite utilizar a distribuição de Poisson a Neste caso o período t será igual a 10 minutos t 10 min PX 5 2 chamadas 0 20 10 t m 0 0361 5 2 e 5 PX k m e k X P 5 2 k m 33 Então a probabilidade de que a telefonista receba exatamente 5 chamadas em 10 minutos é igual a 00361 361 b Neste caso o período t será igual a 12 minutos t 12 minutos O evento de interesse é até 2 chamadas em 12 minutos X 2 chamadas 42 0 20 12 t m PX 2 PX 0 PX 1 PX 2 0 0907 0 42 e 0 X P 0 4 2 0 2177 1 42 e 1 X P 1 4 2 0 2613 2 42 e 2 X P 2 4 2 PX 2 PX 0 PX 1 PX 2 00907 02177 02613 05697 Então a probabilidade de que a telefonista receba até 2 chamadas em 12 minutos é igual a 05697 5697 c Neste caso o período t será igual a 30 minutos t 30 minutos Primeiro calculase a variância 6 chamadas2 30 20 t m VX O Desvio Padrão é a raiz quadrada positiva da variância 2 45 chamadas 6 VX X Há vários outros modelos para variáveis aleatórias discretas hipergeométrico geométrico binomial negativo Na próxima seção vamos ver os principais modelos variáveis aleatórias contínuas 22 Modelos probabilísticos para Variáveis Aleatórias Contínuas Nesta seção estudaremos os modelos uniforme normal t e quiquadrado 34 221 Modelo uniforme Quando o Espaço Amostral associado a um Experimento Aleatório é infinito torna se necessário o uso de uma Variável Aleatória Contínuapara associar números reais aos resultados Os modelos probabilísticos vistos anteriormente não podem ser empregados a probabilidade de que uma variável aleatória contínua assuma exatamente um determinado valor é zero Para entender melhor a declaração acima vamos relembrar a definição clássica de probabilidade a probabilidade de ocorrência de um evento será igual ao quociente entre o número de resultados associados ao evento pelo número total de resultados possíveis Ora se o número total de resultados é infinito ou tende ao infinito para ser mais exato a probabilidade de ocorrência de um valor específico é igual a zero Por esse motivo quando se lida com Variáveis Aleatórias Contínuas calculase a probabilidade de ocorrência de eventos formados por intervalos de valores através de uma função densidade de probabilidades ver Unidade 1 Outra conseqüência disso é que os símbolos e e também são equivalentes para variáveis aleatórias contínuas O modelo mais simples para variáveis aleatórias contínuas é o modelo uniforme Seja uma variável aleatória contínua qualquer X que possa assumir valores entre A e B Todos os valores entre A e B têm a mesma probabilidade de ocorrer resultando no gráfico apresentado na Figura 5 Figura 5 Modelo uniforme Fonte elaborada pelo autor 35 Para que a área entre a e b seja igual a 1 o valor da ordenada precisa ser igual a 1b a constante portanto para todo o intervalo A área escura representa a probabilidade da variável X assumir valores no intervalo c d Tratase do modelo uniforme Dois intervalos de valores da variável aleatória contínua que tenham o mesmo tamanho têm a mesma probabilidade de ocorrer desde que dentro da faixa de valores para os quais a função de densidade de probabilidades não é nula Formalmente uma variável aleatória contínua X tem distribuição uniforme com parâmetros a e b reais sendo a menor do que b se sua função densidade de probabilidades for tal como a da Figuras49 A probabilidade de que a variável assuma valores entre c e d sendo a c d b é a área compreendida entre c e d a b 1 c d d X P c Seu valor esperado e variância são 2 b a EX 12 a b X V 2 Intuitivamente podemos supor que muitas variáveis aleatórias contínuas terão um comportamento diferente do caso acima em algumas delas haverá maior probabilidade de ocorrências de valores próximos ao limite inferior ou superior para cada caso deverá ser ajustado um modelo probabilístico contínuo adequado O modelo uniforme é bastante usado para gerar números pseudoaleatórios em processos de amostragem probabilística LINK No ambiente virtual temos um exemplo resolvido de modelo uniforme adaptado de BUSSAB WO MORETTIN P A Estatística Básica 4ª ed São Paulo Atual 1987 LINK Agora vamos passar ao modelo mais importante para variáveis aleatórias contínuas 222 Modelo normal 36 Há casos em que há maior probabilidade de ocorrência de valores situados em intervalos centrais da função densidade de probabilidades da variável aleatória contínua e esta probabilidade diminui a medida que os valores se afastam deste centro para valores menores ou maiores o modelo probabilístico contínuo mais adequado seja o modelo Normal ou gaussiano LINK O matemático alemão Gauss utilizou amplamente este modelo no tratamento de erros experimentais embora não tenha sido o seu descobridor LINK Isso é especialmente encontrado em variáveis biométricas resultantes de medidas corpóreas em seres vivos O Modelo Normal é adequado para medidas numéricas em geral descrevendo vários fenômenos e permitindo fazer aproximações de modelos discretos É extremamente importante também para a Estatística Indutiva O gráfico da função densidade de probabilidades de uma variável aleatória contínua que siga o modelo Normal distribuição Normal será como a Figura 6 Figura 6 Distribuição normal Fonte elaborada pelo autor a partir de Statgraphics Características a curva apresenta forma de sino há maior probabilidade da variável assumir valores próximos do centro os valores de média µ e de mediana Md são iguais significando que a curva é simétrica em relação à média teoricamente a curva prolongase de a menos infinito a mais infinito então a área total sob a curva é igual a 1 100 37 qualquer distribuição normal é perfeitamente especificada por seus parâmetros média µ e variância 2 X N µ 2 LINK É comum a utilização de letras do alfabeto grego para representar algumas medidas Não se esqueça que o desvio padrão é a raiz quadrada positiva da variância LINK significa que a variável X tem distribuição normal com média µ e variância 2 a área escura na Figura6 é a probabilidade de uma variável que siga a distribuição normal assumir valores entre a e b esta área é calculada através da integral da função normal de a ab cada combinação µ 2 resulta em uma distribuição Normal diferente portanto há uma família infinita de distribuições a função normal citada acima tem a seguinte e aterradora fórmula para sua função densidade de probabilidade x e 2 1 x f 2 x 2 1 2 Saiba que não existe solução analítica para uma integral da expressão acima qualquer integral precisa ser resolvida usando métodos numéricos de integração que são extremamente trabalhosos quando implementados manualmente somente viáveis se usarem meios computacionais De Moivre Laplace e Gauss desenvolveram seus trabalhos entre a metade do século XVIII e início do século XIX e os computadores começaram a se popularizar a partir da década de 1960 do século XX LINK Gauss e todas as outras pessoas que usavam a distribuição Normal para calcular probabilidades até recentemente resolviam as integrais usando métodos numéricos manualmente LINK Todas as distribuições normais apresentam algumas características em comum porém independentemente de seus valores de média e de variância 68 dos dados estão situados entre a média menos um desvio padrão µ e a média mais um desvio padrão µ 955 dos dados estão situados entre a média menos dois desvios padrões µ 2 e a média mais dois desvios padrões µ 2 38 997 dos dados estão situados entre a média menos três desvios padrões µ 3 e a média mais três desvios padrões µ 3 Figura 7 Percentuais de dados e número de desvios padrões Fonte elaborada pelo autor a partir de Statgraphics Por causa dessas características alguém teve a idéia de criar um modelo normal padrão uma variável Z com distribuição normal de média igual a zero e desvio padrão igual a 1 Z N0 1 As probabilidades foram calculadas para esta distribuição padrão e registradas em uma tabela Através de uma transformação de variáveis chamada padronização é possível converter os valores de qualquer distribuição Normal em valores da distribuição Normal padrão e assim obter suas probabilidades calcular o número de desvios padrões a contar da média a que está um valor da variável através da seguinte expressão Z x Z número de desvios padrões a partir da média x valor de interesse µ média da distribuição normal de interesse desvio padrão da distribuição normal Z é um valor relativo será negativo para valores de x menores do que a média e será positivo para valores de x maiores do que a média Pela transformação uma 39 distribuição Normal qualquer X N µ 2 passa a ser equivalente à distribuição Normal padrão Z N0 1 um valor de interesse x pode ser convertido em um valor z As probabilidades de uma variável com distribuição normal podem ser representadas por áreas sob a curva da distribuição normal padrão No ambiente virtual apresentamos a Tabela que relaciona valores positivos de z com áreas sob a cauda superior da curva Os valores de z são apresentados com duas decimais A primeira decimal fica na coluna da esquerda e a segunda decimal na linha do topo da tabela A Figura 8 mostra como podemos usar essa Tabela para encontrar por exemplo a área sob a cauda superior da curva além de z 021 Figura 8 Ilustração do uso da tabela da distribuição normal padrão Tabela III do apêndice para encontrar a área na cauda superior relativa ao valor de z 021 Fonte Barbetta Reis Bornia2010 Exemplo 5 Suponha uma variável aleatória contínua X que tenha uma distribuição normal com média 50 e desvio padrão 10 Há interesse em calcular as probabilidades dos seguintes eventos a X 55 b X 50 c X 35 d 48 X 56 a Primeiramente calculamos o valor de Z correspondente a 55 Z 55 50 10 05Pelas Figuras9 e 10podese ver a correspondência entre as duas distribuições 40 Figura 9PX55 Figura 10PZ 05 Fonte elaboradas pelo autor a partir de Stagraphics O evento P X55 é equivalente ao evento P Z 05 Este valor pode ser obtido na tabela da distribuição normal padrão ver ambiente virtual Os valores de Z são apresentados com dois decimais o primeiro na coluna da extrema esquerda e o segundo na linha do topo da tabela Observe pelas Figurass que estão no alto da tabela que as probabilidades são para eventos do tipo do da Figuras acima PZ z1 Assim poderíamos procurar a probabilidade do evento Z 05 fazendo o cruzamento do valor 05 na coluna com o valor 000 na linha do topo encontramos o valor 03085 3085 Portanto PX55 é igual a 03085 Observe a coerência entre o valor encontrado e as áreas na Figuras a área é menor do que a metade da Figuras metade da Figuras significaria 50 e a probabilidade encontrada vale 3085 b Precisamos calcular o valor de Z correspondente a 40 Z 40 50 10 100Pelas Figuras11 e 12 podemos ver a correspondência entre as duas distribuições Figura 11PX40 Figura 12PZ 100 Fonte elaboradas pelo autor a partir de Statgraphics O evento P X40 é equivalente ao evento P Z 100 Repare porém que queremos encontrar P Z 100 e a tabela nos apresenta valores apenas para P Z 100 41 Contudo se rebatermos a Figura 12da distribuição normal padrão com Z 100 para a direita teremos o seguinte resultado Figura 13 Figura 13P Z 100 rebatimento de PZ 100 Fonte elaborada pelo autor a partir de Stagraphics Ou seja a área PZ 1 PZ 1 Esta probabilidade nós podemos encontrar diretamente pela tabela fazendo o cruzamento do valor 10 na coluna com o valor 000 na linha do topo encontramos o valor 01587 1587 Portanto PX40 PZ1 PZ1 que é igual a 01587 c Agora há interesse em calcular a probabilidade de que X seja maior do que 35 É preciso calcular o valor de Z correspondente a 35 Z 35 50 10 150Pelas Figuras14 e 15 se pode ver a correspondência entre as duas distribuições Figura 14PX 35 Figura 15PZ 150 Fonte elaboradas pelo autor a partir de Statgraphics Não podemos obter a probabilidade PZ150 diretamente pois a tabela do ambiente virtual apresenta apenas resultados para valores positivos de Z Sabemos que a 42 probabilidade total vale 10 podemos então considerar que PZ 150 1 PZ 150 Usando o raciocínio descrito na letra b rebatendo a Figura 15 para a direita vamos obter PZ150 PZ150 Esta última probabilidade pode ser facilmente encontrada na tabela da distribuição normal padrão PZ150 PZ150 00668 Basta substituir na expressão PZ 150 1 PZ 150 1 00668 09332 9332 Observe novamente a coerência entre as áreas da Figuras acima e o valor da probabilidade a área na Figuras compreende mais do que 50 da probabilidade total aproximandose do extremo inferior da distribuição perto de 100 e a probabilidade encontrada realmente é próxima de 100 d Agora há interesse em calcular a probabilidade de que X assuma valores entre 48 e 56 Calcular P 48 X 56 veja a Figura49 abaixo Figura 16P48 X 56 Fonte elaborada pelo autor a partir de Statgraphics Novamente precisamos calcular os valores de Z correspondentes a 48 e a 56 Z1 48 50 10 020 Z2 56 50 10 060 Então P 48 X 56 P 020Z060 Repare que a área entre 48 e 56 é igual à área de 48 até MENOS a área de 56 até P48 X 56 PX 48 PX 56 P020 Z 060 PZ 020 PZ 060 E os valores acima podem ser obtidos na tabela da distribuição normal padrão PZ 060 02743 PZ 020 1 PZ 020 1 04207 05793 43 P48 X 56 P020 Z 060 PZ 020 PZ 060 05793 02743 03050 Então a probabilidade da variável X assumir valores entre 48 e 56 é igual a 0305 305 A distribuição Normal também pode ser utilizada para encontrar valores da variável de interesse correspondentes a uma probabilidade fixada Exemplo 6 Supondo a mesma variável aleatória X com média 50 e desvio padrão 10 Encontre os valores de X situados à mesma distância abaixo e acima da média que contém 95 dos valores da variável Como a distribuição Normal é simétrica em relação à média e como neste problema os valores de interesse estão situados à mesma distância da média sobram 5 dos valores 25 na cauda inferior e 25 na superior como na Figura17 Figura 17Px1 X x2 095 Fonte elaborada pelo autor a partir de Statgraphics É preciso encontrar os valores de Z na tabela da distribuição Normal padrão correspondentes às probabilidades da Figura acima e a partir daí obter os valores de x1 e x2 Passando para a distribuição Normal padrão x1 corresponderá a um valor z1 e x2 a um valor z2 como na Figura18 44 Figura 18Pz2 Z z2 095 Fonte elaborada pelo autor a partir de Statgraphics Repare que a média da distribuição Normal padrão é igual a zero fazendo com que z1 e z2 sejam iguais em módulo Podemos encontrar z2 já que PZ z2 0025 É necessário encontrar o valor da probabilidade na tabela da distribuição Normal padrão ou o valor mais próximo e obter o valor de Z associadoPara o caso de z2 ao procurar pela probabilidade 0025 encontramos o valor exato 0025 e por conseguinte o valor de z2 que é igual a 196 P Z 196 0025 Como z1 z2 encontramos facilmente o valor de z1 z1 196 P Z 196 0025Observe que os valores são iguais em módulo mas corresponderão a valores diferentes da variável X A expressão usada para obter o valor de Z em função do valor da variável X pode ser usada para o inverso Z x x Z E assim obteremos os valores de x1 e x2LINK É muito importante que se preste atenção no sinal do valor de z ao obter o valor de x LINK Observe se o resultado obtido faz sentido que correspondem a z1 e z2 respectivamente x1 µ z1 50 196 x 10 304 x2 µ z2 50 196 x 10 696 45 Observe que os resultados obtidos são coerentes 304 está abaixo da média 196 desvios padrões e 696 acima também 196 desvios padrões O intervalo definido por estes dois valores compreende 95 dos resultados da variável X Todo este trabalho poderia ter sido poupado se houvesse um programa computacional que fizesse esses cálculos Há vários softwares disponíveis no mercado alguns deles de domínio público que calculam as probabilidades associadas a determinados eventos como também os valores associados a determinadas probabilidades Uma das características mais importantes do modelo normal é a sua capacidade de aproximar outros modelos permitindo muitas vezes simplificar os cálculos de probabilidade Na próxima seção vamos ver como o modelo normal pode ser usado para aproximar o binomial GLOSSÁRIO Modelo binomial modelo probabilístico para variáveis aleatórias discretas que descreve o número de sucessos em n experimentos independentes sendo n finito e conhecido sendo que os experimentos podem ter apenas dois resultados possíveis e a probabilidade de sucesso permanece constante durante os n experimentos Fonte Barbetta Reis e Bornia 2010 Lopes 1999 FimGLOSSÁRIO 223 Modelo normal como aproximação do binomial O modelo Binomial discreto pode ser aproximado pelo modelo Normal contínuo se certas condições forem satisfeitas o quando o valor de n número de ensaios for tal que os cálculos binomiais trabalhosos demais LINK Para os que pensam que o advento dos computadores eliminou este problema um alerta em alguns casos os números envolvidos são tão grandes que sobrepujam suas capacidades LINK o quando o produto n p o valor esperado do modelo Binomial e o produto n 1 p forem ambos maiores ou iguais a 5 Se isso ocorrer uma binomial de parâmetros n e p pode ser aproximada por uma normal com 46 média µ n p valor esperado do modelo Binomial variância 2 n p 1 p variância do modelo Binomial Usando o modelo Normal contínuo para aproximar o Binomial discreto é necessário fazer uma correção de continuidade associar um intervalo ao valor discreto para que o valor da probabilidade calculada pelo modelo contínuo seja mensurável Este intervalo deve ser centrado no valor discreto e deve ter uma amplitude igual à diferença entre dois valores consecutivos da variável discreta se por exemplo a diferença for igual a 1 a variável somente pode assumir valores inteiros o intervalo deve ter amplitude igual a 1 05 abaixo do valor e 05 acima Esta correção de continuidade precisa ser feita para garantir a coerência da aproximação Seja uma variável aleatória X com distribuição Binomial 1 Há interesse em calcular a probabilidade de X assumir um valor k genérico PX k ao fazer a aproximação pela Normal será Pk 05 X k 05 Figura 18 Correção de continuidade da aproximação do modelo Binomial pelo Normal 1º caso Fonte elaborada pelo autor 2 Há interesse em calcular a probabilidade de X assumir valores menores ou iguais a um valor k genérico PX k ao fazer a aproximação pela Normal será PX k 05 todo o intervalo referente a k será incluído 47 Figura 19 Correção de continuidade da aproximação do modelo Binomial pelo Normal 2º caso Fonte elaborada pelo autor 3 Há interesse em calcular a probabilidade de X assumir valores maiores ou iguais a um valor k genérico PX k ao fazer a aproximação pela Normal será PX k 05 todo o intervalo referente a k será incluído Figura 20 Correção de continuidade da aproximação do modelo Binomial pelo Normal 3º caso Fonte elaborada pelo autor 4 Há interesse em calcular a probabilidade de X assumir valores menores do que um valor k genérico PX k ao fazer a aproximação pela Normal será PX k 05 todo o intervalo referente a k será excluído Figura 21 Correção de continuidade da aproximação do modelo Binomial pelo Normal 4º caso Fonte elaborada pelo autor 48 5 Há interesse em calcular a probabilidade de X assumir valores maiores do que um valor k genérico PX k ao fazer a aproximação pela Normal será PX k 05 todo o intervalo referente a k será excluído Figura 22 Correção de continuidade da aproximação do modelo Binomial pelo Normal 5º caso Fonte elaborada pelo autor Exemplo 7 Um município tem 40000 eleitores Para uma pesquisa de opinião eleitoral uma amostra aleatória de 1500 pessoas foi selecionadaQual é a probabilidade de que pelo menos 500 dos eleitores seja menor de 25 anos se 35 dos 40000 são menores do que 25 anos Este problema poderia ser resolvido usando o modelo Binomial Há apenas dois resultados possíveis para cada eleitor menor de 25 anos sucesso e maior ou igual a 25 anos fracasso Existe um limite superior de realizações no caso os 1500 eleitores da amostra e há independência entre as retiradas pois a amostra foi retirada de forma aleatória e a amostra representa menos de 5 dos 40000 eleitores Então sucesso menor de 25 anos p 035 1 p 065 n 1500 A variável aleatória discreta X número de eleitores menores de 25 anos em 1500 terá distribuição binomial com parâmetros n 1500 e p 035 O evento pelo menos 500 menores de 25 anos seria definido como 500 ou mais eleitores P X 500 PX 500 PX 501 PX 1500 Há cerca de 1000 expressões binomiais 49 Vamos ver se é possível aproximar pelo modelo Normal O valor de n é grandenp 1500 035 525 5e n1 p 1500 065 975 5 Como as condições foram satisfeitas é possível aproximar por um modelo Normal média µ n p 1500 x 035 525 desvio padrão 1847 0 65 0 35 1500 p 1 n p Pelo modelo Binomial P X 500 Pelo modelo Normal será P X 4995 PX 4995 PZ z1z1 4995 5251847 138 PZ 138 1 PZ 138 Procurando na tabela da distribuição Normal padrão P Z 138 00838 Então P X 500 PX 4995 P Z 138 1 PZ 138 1 00838 09162 A probabilidade de que pelo menos 500 dos eleitores da amostra sejam menores de 25 anos é igual a 09162 9162 Nas próximas duas seções vamos ver modelos probabilísticos derivados do modelo normal usados predominantemente em processos de inferência estatística Vamos introduzilos agora para facilitar nosso trabalho quando chegarmos às Unidades 5 e 6 224 Modelo distribuição t de Student Havia um matemático inglês William Gosset que trabalhava para a cervejaria Guiness em Dublin Irlanda no início do século XX Ele atuava no controle da qualidade do cultivo de ingredientes para a fabricação de cerveja Nesta época alguns estatísticos usavam a distribuição normal no estabelecimento de intervalos de confiança para a média a partir de pequenas amostras veremos isso na Unidade 5 Calculavam média aritmética simples e variância da amostra e generalizavam os resultados através do modelo normal como fizemos no Exemplo 7 50 Gosset descobriu que o modelo normal não funcionava direito para pequenas amostras e desenvolveu um novo modelo probabilístico derivado do normal introduzindo uma correção para levar em conta justamente o tamanho de amostra Ele aplicou suas descobertas em seu trabalho e quis publicálas mas a Guiness apenas permitiu após ele adotar o pseudônimo Student Por isso o seu modelo é conhecido como t de Student para n 1 graus de liberdade O valor n 1 tamanho da amostra menos 1 é chamado de número de graus de liberdade da estatística Quando a variância amostral é calculada supõese que a média já seja conhecida assim apenas um determinado número de elementos da amostra poderá ter seus valores variando livremente este número será igual a n 1 porque um dos valores não poderá variar livremente pois terá que ter um valor tal que a média permaneça a mesma calculada anteriormente Assim a estatística terá n 1 graus de liberdade Tratase de uma distribuição de probabilidades que apresenta média igual a zero como a normal padrão é simétrica em relação à média mas apresenta uma variância igual a n n 2 ou seja seus valores dependem do tamanho da amostra apresentando maior variância para menores valores de amostra LINK Esta é a correção propriamente dita pois ao usar pequenas amostras o risco de que a variância amostral da variável seja diferente da variância populacional é maior podendo levar a intervalos de confiança que não correspondem à realidade A não utilização desta correção foi a fonte de muitos erros no passado e infelizmente de ainda alguns erros no presente LINK Quanto maior o tamanho da amostra mais a variância de t aproximase de 100 variância da normal padrão LINK Para tamanhos de amostra maiores do que 30 supõese que a variância de t é igual a 1 por isso a aproximação do item b1 LINK A distribuição t de Student está na Figura23 para vários graus de liberdade 51 Figura 23 Distribuição t de Student para vários graus de liberdade Fonte Barbetta Reis Bornia 2010 Observe que tal como a distribuição normal padrão a distribuição t de Student é simétrica em relação à média que é igual a zero A tabela da distribuição t de Student encontrase no ambiente virtual para vários graus de liberdade e valores de probabilidade Exemplo 8 Imagine a situação do Exemplo 7 obter os valores de t simétricos em relação à média que contêm 95 dos dados supondo uma amostra de 10 elementos Temos que encontrar os valores t1 e t2 simétricos em relação à média que definem o intervalo que contém 95 dos dados Como supomos uma amostra de 10 elementos a distribuição t de Student terá 10 1 9 graus de liberdade Repare que a média da distribuição t de Student é igual a zero fazendo com que t1 e t2 sejam iguais em módulo Podemos encontrar t2 já que Pt t2 0025 Veja a Figura24 52 Figura 24 Uso da tabela da distribuição t de Student Ilustração com gl 9 e área na cauda superior de 25 Fonte Barbetta Reis Bornia 2010 Vamos utilizar bastante a distribuição t de Student nas Unidades 5 e 6 225 Modelo quiquadrado Tratase de mais um modelo derivado da distribuição normal embora não vamos discutir como se dá esta derivação aqui Na Unidade 2 de Estatística Aplicada à Administração I estudamos como descrever os relacionamentos entre duas variáveis qualitativas geralmente expresso através de uma tabela de contingências No Quadro 4daquela Unidade analisamos o relacionamento entre modelo e opinião geral sobre os veículos da Toyord Havíamos concluído que havia relacionamento pois os modelos mais baratos apresentavam maiores percentuais de insatisfeitos do que os mais caros Na Unidade 6 vamos aprender a calcular uma estatística que relacionará as frequências observadas de cada cruzamento entre os valores de duas variáveis qualitativas expressas em uma tabela de contingências com as frequências esperadas desses mesmos cruzamentos se as duas variáveis não tivessem qualquer relacionamento entre si Esta estatística é chamada de quiquadrado χ2 e caso a hipótese de que as variáveis não se relacionem ela seguirá o modelo quiquadrado com um certo número de graus de liberdade 53 O número de graus de liberdade dependerá das condições da tabela para o caso que será visto na Unidade 10 será o produto do número de linhas da tabela 1 pelo número de colunas da tabela 1 É uma distribuição assimétrica sempre positiva que tem valores diferentes dependendo do seu número de graus de liberdade Sua média é igual ao número de graus de liberdade e a variância é igual a duas vezes o número de graus de liberdade Figura 25 Modelo quiquadrado com 2 5 10 20 e 30graus de liberdade Fonte adaptada pelo autor de Stagraphics A Figura 25 mostra as curvas do modelo distribuição quiquadrado para 2 5 10 20 e 30 graus de liberdade Observe como variam de forma dependendo do número de graus de liberdade da estatística A tabela da distribuição quiquadradoencontrase no Ambiente Virtual de Ensino Aprendizagem para vários graus de liberdade e valores de probabilidade Vamos ver um exemplo Exemplo 9 Imagine que queremos encontrar o valor da estatística quiquadrado para 3 graus de liberdade deixando uma área na cauda superior de 5 54 O valor da estatística quiquadrado que define uma área na cauda superior de 5 pode ser encontrado através da Tabela cruzando a linha de 3 graus de liberdade com a coluna de área na cauda superior igual a 005 Veja a Figura 26 a seguir Figura 26 Uso da tabela da distribuição quiquadrado Ilustração com gl 3 e área na cauda superior de 5 Fonte adaptado pelo autor de Barbetta Reis Bornia 2010 23 Modelos probabilísticosem planilhas eletrônicas Atualmente todas as planilhas eletrônicas têm os principais modelos probabilísticos disponíveis permitindo realizar cálculos de probabilidades ou obtenção de escores com facilidade e praticamente eliminando a necessidade de aproximações ou tabelas Para os modelos binomial Poisson normal t de Student e quiquadrado a planilha eletrônica Microsoft Excel dispõe de várias funções que permitem realizar os cálculos apresentados nos exemplos desta unidade A seguir serão apresentadas as principais funções com os argumentos necessários para realizar os cálculos Elas podem ser usadas mesmo nas versões mais antigas do Excel embora nas mais recentes haja outras com uma sintaxe um pouco diferente 55 Para uma variável aleatória X que siga um modelo binomial de parâmetros n e p supondo um valor xi qualquer1 PX xi DISTRBINOMxinpFALSO A função acima permitirá calcular a probabilidade de X ser exatamente igual a xi Se quisermos a probabilidade acumulada até xi basta fazer uma pequena modificação PX xi DISTRBINOMxinpVERDADEIRO Exemplo 10 Estudos anteriores mostraram que há 73 de chance de consumidoras apresentarem uma reação positiva a anúncios publicitários com crianças Uma agência apresentou um novo anúncio para 5 consumidoras Qual é a probabilidade de que pelo menos 3 das 5 consumidoras apresentem reação positiva Para cada consumidora ensaio há apenas 2 resultados reação positiva ou não Há um número finito de realizações n 5 Definindo sucesso como reação positiva e considerando as consumidoras independentes a variável aleatória X número de consumidoras com reação positiva em 5 que assistiram o novo anúncio terá distribuição binomial com parâmetros n 5 e p 073 e 1 p 027 Evento de interesse X 3 PX3 PX3 PX4 PX5 Pela fórmula binomial 𝑃𝑋 3 𝐶53 0733 0272 5 3 5 3 0733 0272 0284 𝑃𝑋 4 𝐶54 0734 0271 5 4 5 4 0734 0271 0383 𝑃𝑋 5 𝐶55 0735 0270 5 5 5 5 0735 0270 0207 1 Para inserir qualquer fórmula no Excel é preciso selecionar uma célula e digitar seguido da fórmulafunção desejada Maiores detalhes em httpswwwyoutubecomwatchvgVH1VxpZ5iQ 56 PX 3 PX 3 PX 4 PX 5 0284 0383 0207 0874 Pelo Excel lembrando da propriedade do evento complementar PX 3 1 PX 3 1 PX 2 Então PX 3 1 DISTRBINOM25073VERDADEIRO 1 0126 0874 Para uma variável aleatória X que siga um modelo de Poisson com parâmetro m λt supondo um valor xi qualquer PX xi POISSONximFALSO A função acima permitirá calcular a probabilidade de X ser exatamente igual a xi Se quisermos a probabilidade acumulada até xi basta novamente fazer uma pequena modificação PX xi POISSONximVERDADEIRO Exemplo 11 Em um porto estudos históricos mostram que chegam em média 2 navios por dia de acordo com a distribuição de Poisson Sabendo que o porto pode atender apenas 2 navios por dia calcule a probabilidade de navios que chegarem em um determinado dia não serem atendidos A variável discreta número de navios que chegam em um dia ao porto segue uma distribuição de Poisson com λ 2 naviosdia O período de análise para cálculo de probabilidade é um dia determinado dia t é igual a 1 Então m λ t 2 1 2 Se mais de 2 navios chegarem em um dia eles não serão atendidos porque o porto pode atender apenas 2 Então procurase PX 2 PX 3 PX 4 não há limite superior Tal como está o problema não pode ser resolvido temos que usar a propriedade do evento complementar PX 2 1 PX 2 1 PX 0 PX 1 PX 2 57 Pela formula de Poisson 𝑃 𝑋 0 𝑒21 20 0 01353 𝑃 𝑋 1 𝑒21 21 1 02707 𝑃 𝑋 2 𝑒21 22 2 02707 𝑃𝑋21 01353 02707 02707 03233 Pelo Excel lembrando da propriedade do evento complementar PX 2 1 POISSON22VERDADEIRO 03233 Para uma variável aleatória X que siga um modelo normal com média e desvio padrão e para dois valores quaisquer x1 e x2 sendo x2 x1 PX x1 DISTNORMx1 VERDADEIRO PX x2 DISTNORMx2 VERDADEIRO Px1Xx2DISTNORMx2VERDADEIRO DISTNORMx1VERDADEIRO Lembrando do Exemplo 5 item d em que se procurava P48 X 56 Pelo Excel basta obter a probabilidade acumulada até 56 e subtrair a acumulada até 48 P48X56 DISTNORM565010VERDADEIRO DISTNORM485010VERDADEIRO 03050 Para uma variável aleatória X que siga um modelo normal com média e desvio padrão se quisermos encontrar o valor de xi correspondente a uma determinada probabilidade acumulada α xi INVNORMα 58 Lembrando do Exemplo 6 em que supondo a mesma variável aleatória X com média 50 e desvio padrão 10 Encontre os valores de X x1 e x2 situados à mesma distância abaixo e acima da média que contém 95 dos valores da variável Se entre os valores há 95 e estão á mesma distância da média então abaixo do primeiro valor há 25 100 952 e abaixo do segundo também há 25 95 totalizando 975 Px1Xx2095 PXx1 0025 PXx2 0975 Através do Excel x1 INVNORM00255010 304 x2 INVNORM09755010 696 Para uma variável aleatória X que siga um modelo t de Student com gl graus de liberdade se quisermos encontrar a probabilidade de X ser maior do que xi PX xi DISTTxiglcaudas Caso haja interesse apenas uma das caudas da distribuição t usar 1 em caudas Caso haja interesse nas duas caudas usar 2 em caudas Para uma variável aleatória X que siga um modelo t de Student com gl graus de liberdade se quisermos encontrar o valor de t que corresponde à soma das probabilidades das caudas mesma probabilidade para cada lado t INVTprobabilidadegl Lembrando do Exemplo 8 obter os valores de t simétricos em relação à média que contêm 95 dos dados supondo uma amostra de 10 elementos Como a amostra tem 10 elementos a distribuição t terá 10 1 9 graus de liberdadeSe há 95 dentro do intervalo há 5 fora Através do Excel t INVT0059 2262 59 Para uma variável aleatória X que siga um modelo quiquadrado com gl graus de 2liberdade se quisermos encontrar a probabilidade de que X ser menor do que xi PX xi DISTQUIQUAxigl Para uma variável aleatória X que siga um modelo quiquadrado com gl graus de liberdade se quisermos encontrar o valor de quiquadrado que corresponde a uma probabilidade na cauda superior 2 INVQUIprobabilidadegl Lembrando do Exemplo 9 queremos encontrar o valor da estatística quiquadrado para 3 graus de liberdade deixando uma área na cauda superior de 5 Pelo Excel 2 INVQUI0053 7815 Com este tópico terminamos a Unidade 2 Na Unidade 3 você estudará os conceitos e técnicas de amostragem e na Unidade 4 você verá o importante conceito de distribuição amostralAmbas são indispensáveis para o processo de generalização inferência estatística que será estudado nas Unidades 5 e 6 Tô afim de saber Sobre modelos probabilísticos para variáveis aleatórias discretas BARBETTAP A Estatística Aplicada às Ciências Sociais 7ª ed Florianópolis Ed da UFSC 2007 capítulo 7 BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 5 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo 4 Sobre modelos probabilísticos para variáveis aleatórias contínuas 60 BARBETTAP A Estatística Aplicada às Ciências Sociais 7ª ed Florianópolis Ed da UFSC 2007 capítulo 8 BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 2ª ed São Paulo Atlas 2010 capítulo 6 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo 5 Sobre a utilização do Microsoft Excel para cálculo de probabilidades para os principais modelos probabilísticos veja LEVINE D M STEPHAN D KREHBIEL T C BERENSON M L Estatística Teoria e Aplicações Usando Microsoft Excel em Português 5ª ed Rio de Janeiro LTC 200 capítulos 4 e 5 Sobre o uso do Microsoft Excel para cálculo de probabilidades para o modelo binomial assistir httpswwwyoutubecomwatchvwddGzOrwup8 Sobre o uso do Microsoft Excel para cálculo de probabilidades para o modelo normal assistir httpswwwyoutubecomwatchvpR8Yd0ZAXOA Resumo O resumo desta Unidade está mostrado na Figura27 61 Figura 27 Resumo da Unidade 2 Fonte elaborado pelo autor 62 Atividades de aprendizagem 1 Em um sistema de transmissão de dados existe uma probabilidade igual a 005 de um dado ser transmitido erroneamente Ao se realizar um teste para analisar a confiabilidade do sistema foram transmitidos 20 dados a Qual é o modelo teórico mais adequado para este caso Por quê b Qual é a probabilidade de que tenha havido erro na transmissão R 06415 c Você acha a probabilidade encontrada no item b um valor aceitável JUSTIFIQUE d Qual é o número esperado de erros no teste realizado R 1 erro 2 Suponha que você vai fazer uma prova de TGA com 10 questões do tipo verdadeiro falso Você nada sabe sobre o assunto e vai responder as questões por adivinhação a Qual é o modelo probabilístico mais adequado para calcular as probabilidades de acertar um número X de questões dentre as 10 Por quê b Qual é a probabilidade de acertar pelo menos 8 questões R 005468 Adaptado de DOWNING D e CLARK J Estatística Aplicada São Paulo Saraiva 2000 3 Um revendedor de automóveis novos constatou que 80 dos carros vendidos são devolvidos ao departamento mecânico para corrigir defeitos de fabricação nos primeiros 25 dias após a venda De 11 carros vendidos há interesse em calcular as probabilidades de que o número de automóveis que retornam para reparo seja 0 1 2 etc a Qual é o modelo teórico mais adequado para este caso Por quê b Qual é a probabilidade de que todos voltem dentro de 25 dias para reparo R 0085899 c Qual é a probabilidade de que nenhum volte R 00000002 d Uma organização de consumidores pretende processar o revendedor e a fábrica dos automóveis se a probabilidade de que a maioria deles dentre os 11 vendidos retornar para reparo seja superior a 75 O revendedor e fábrica devem se preocupar com o processo JUSTIFIQUE R 098834 Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 63 4 Em um determinado processo de fabricação 10 das peças são defeituosas As peças são acondicionadas em caixas com 5 unidades cada uma As caixas só serão aceitas se apresentarem no máximo uma peça defeituosa Perguntase a Qual é o modelo teórico mais adequado para este caso Por quê b Qual é a probabilidade de uma caixa ser aceita R 09185 c Você considera a probabilidade obtida no item b um valor apropriado JUSTIFIQUE d Qual é a probabilidade de que em um lote de 10 caixas pelo menos 8 sejam aceitas R 09579 5 Em uma fábrica 3 dos artigos produzidos são defeituosos O fabricante pretende vender 4000 peças recebendo 2 propostas Proposta 1 o comprador A examina uma amostra de 80 peças e pagará 60 por peça se houver 3 ou menos defeituosas caso contrário pagará 30 por peça apenas Proposta 2 o comprador examina 40 peças e está disposto a pagar 65 por peça se todas forem perfeitas porém pagará 20 por peça se houver alguma peça defeituosa Qual é a melhor proposta JUSTIFIQUE R proposta 1 6 Uma comissão responsável pelo recebimento de equipamentos em uma empresa faz testes em equipamentos selecionados aleatoriamente dentre os que chegam Para avaliar uma determinada marca de transformadores de pequeno porte a comissão selecionou aleatoriamente 18 dentre os que chegaram e classificará a marca como satisfatória se não existir nenhum defeituoso nesta amostra Sabese que a produção destes equipamentos apresenta um percentual de 6 de defeituosos a Qual é a probabilidade de que a marca venha a ser considerada satisfatória R 0328 b Você considera a probabilidade encontrada no item a apropriada JUSTIFIQUE 7 Em um estudo de reconhecimento de marca 95 dos consumidores reconheceram o refrigerante Guaranazinho Mas dentre 15 consumidores selecionados ao acaso apenas 10 reconheceram a marca a Determine a probabilidade de obter no máximo 10 consumidores que reconheceram Guaranazinho dentre os 15 selecionados R 00006146 64 b Você acha que o resultado possa ser conseqüência de mero acaso JUSTIFIQUE c Suponha que será realizada uma nova pesquisa com 1200 pessoas Determine a média e o desvio padrão do número de consumidores que reconhecem Guaranazinho R 1140 755 Adaptado de TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 8 Certo pequeno município de SC relata que em média nascem 225 crianças por dia Argumentam que tal taxa justificaria a instalação de um hospital com maternidade no local O governo do estado com problemas de caixa declara que somente se a probabilidade de nascerem mais de 2 crianças por dia for superior a 50 o hospital será instalado Calcule as probabilidades apropriadas e responda se o hospital deve ser instalado JUSTIFIQUE R PX 2 0390660733 Adaptado de TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 página 109 9 O sistema de atendimento utilizado por uma central telefônica possui telefonistas para atender às chamadas dos usuários Certa telefonista recebe em média 175 chamadas por minuto durante um turno de trabalho de 6 horas consecutivas Qual é a probabilidade de que esta telefonista a A telefonista queixouse ao sindicato que está trabalhando demais e que precisaria de uma auxiliar O sindicato concordou em ajudar desde que a probabilidade de ela receber mais de 600 chamadas no turno fosse maior do que 50 O sindicato deve ajudar a telefonista JUSTIFIQUE b Qual é a média de chamadas em uma hora e em um turno completo R 105 chamadas 630 chamadas 10 Uma operadora de pedágios está preocupada com o dimensionamento de uma de suas praças Muitos motoristas estão reclamando das filas pois há apenas duas gôndolas operando todo o tempo Estudos mostraram que em média 4 carros chegam na praça de pedágio a cada 15 minutos a Qual é a probabilidade de que mais de 2 carros cheguem à praça em 30 minutos R 09862 65 b Você recomenda que a empresa aumente o número de gôndolas Por quê 11 Trace uma curva normal e sombreie a área desejada obtendo então as probabilidades a PZ 10 R 01587 b PZ 10 R08413 c PZ 034 R 06331 d P0 Z 15 R 04332 e P288 Z 0 R 0498 f P056 Z 020 R 0133 g P049 Z 049 R 03758 h P25 Z 28 R 00036 i PZ 02 R 04207 j PZ 02 R05793 k P02 Z 0 R 00793 l P02 Z 04 R 02347 12 Determine os valores de z1 que correspondem às seguintes probabilidades a PZ z1 00505 R 164 b PZ z1 00228 R 2 c PZ z1 00228 R 2 d P0 Z z1 04772 R 2 e Pz1 Z z1 095 R 196 f PZ z1 00110 R 229 g PZ z1 00505 R 164 h PZ z1 05 R 0 i Pz1 Z z1 06825 R 10 j Pz1 Z z1 09544 R 20 Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 13 Suponha que o escore dos estudantes no vestibular seja uma variável aleatória com distribuição normal com média 550 e variância 900 Se a admissão em certo curso exige um escore mínimo de 575 qual é a probabilidade de um estudante ser admitido E se o escore mínimo for 540 R 02033 06293 Adaptado de DOWNING D e CLARK J Estatística Aplicada São Paulo Saraiva 2000 página 172 14 Você pode escolher entre 2 empregos Em uma indústria seus ganhos mensais terão distribuição normal com média de 4000 e desvio padrão de 500 Como vendedor de uma firma seus ganhos mensais terão distribuição normal com média de 3200 e desvio padrão de 2600 66 a Você ganha atualmente salário fixo 3500 Qual é a probabilidade de ganhar mais nos dois possíveis empregos R 08413 04562 b Com base no resultado do item a qual dos dois empregos você escolheria JUSTIFIQUE Adaptado de DOWNING D e CLARK J Estatística Aplicada São Paulo Saraiva 2000 15 Existe um processo para fabricação de eixos que apresenta comportamento praticamente normal com média de 3062 mm e variância de 00001 mm2 a Qual é o percentual de eixos produzidos com diâmetro superior a 305 mm R 08849 b Se o diâmetro deverá ter no mínimo 304 mm e no máximo 308 mm e se o custo por eixo é de 12 e é vendido por 5 e que eixos produzidos ou muito largos ou muito estreitos são perdidos qual é o lucro esperado numa produção de 100 eixos R 3551 16 Sabese que a precipitação anual de chuva em certa localidade cuja altura é medida em cm é uma variável aleatória normalmente distribuída com altura média igual a 295 cm e desvio padrão de 25 cm de chuva Se em mais de 45 das vezes a altura de chuva ultrapassar 32 cm tornase viável a instalação de um sistema para coleta e armazenamento de água da chuva como complemento à atual malha de abastecimento É viável instalar o sistema na localidade JUSTIFIQUE 17 Um professor aplica um teste e obtém resultados distribuídos normalmente com média 50 e desvio padrão 10 Se as notas são atribuídas segundo o esquema a seguir determine os limites numéricos para cada conceito A 10 superiores R 628 B notas acima dos 70 inferiores e abaixo dos 10 superiores R 552 C notas acima dos 30 inferiores e abaixo dos 30 superiores R 448 D notas acima dos 10 inferiores e abaixo dos 70 superiores R 372 E 10 inferiores Sugestão faça um desenho da distribuição normal com os percentuais áreas Adaptado de TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 67 18 O tempo de vida de um determinado componente eletrônico distribuise normalmente com média de 250 horas e variância de 49 horas2 Você adquire um destes componentes a Qual é a probabilidade de que seu tempo de vida ultrapasse as 260 horas R 00778 b Qual deveria ser o prazo de garantia para estes componentes para que o serviço de reposição atendesse a somente 5 dos componentes adquiridos R 23845 horas 19 Imagine que a UFSC tivesse antecipado os resultados abaixo referentes aos candidatos não eliminados antes de divulgar a relação com as notas de todos os candidatos Economia Administração Média 5092 5511 Desvio padrão 909 822 VagasCandidatos 0370 0412 Pontuação Final Vestibular UFSC 2002 Admitindo que as notas são normalmente distribuídas a O que você responderia para candidatos aos cursos de Economia e Administração que estimassem ter conseguido respectivamente 55 e 58 pontos R Ambos aprovados b Imagine que você tenha que responder a dezenas de vestibulandos para poupar trabalho estime a nota mínima para classificação em cada curso R economia 54 administração 57 20 Para os casos abaixo encontre a probabilidade pela distribuição binomial e pela aproximação pela normal Identifique se o resultado da aproximação foi bom ou não e explique por quê a Com n 14 e p 050 determine PX 8 R 01833 01817 b Com n 10 e p 040 determine PX 7 R 00425 00143 c Com n 15 e p 080 determine PX 8 R 09957 09981 d Com n 14 e p 060 determine PX 9 R 05141 05199 e Com n 20 e p 020 determine PX 2 R 02061 02005 f Com n 20 e p 035 determine P15 X 18 R 0517 0516 21 Em um teste de múltipla escolha temos 200 questões cada uma com 4 possíveis respostas das quais apenas 1 é correta Qual é a probabilidade de que um estudante acerte entre 25 e 30 questões de 80 dentre as 200 das quais ele não sabe nada R 01196 68 Caro estudante Chegamos ao final da Unidade 2do nosso livro Nela estudamos os modelos probabilísticos mais comuns Essa Unidade foi repleta de Figuras Quadros representações e exemplos de utilização das técnicas e das diferentes formas de utilização destes modelos Releia caso necessário todos os exemplos leia as indicações do Saiba Mais e discuta com seus colegas Responda a atividade de aprendizagem e visite o Ambiente Virtual de Ensino Aprendizagem Conte sempre com o acompanhamento da tutoria e das explicações do professor Ótimos estudos 69 Unidade 3 Técnicas de Amostragem 70 Objetivo Nesta Unidade você vai compreender em detalhes o que é amostragem quando deve usála as suas principais técnicas a definição do plano de amostragem e aprenderá a utilizar uma fórmula simplificada para cálculo do tamanho mínimo de amostra 71 Caro estudante Conforme vimos na Unidade 1 de Estatística Aplicada à Administração I a amostragem é uma das formas de coleta de dados e observamos também que se trata de uma das subdivisões da Estatística cujo conhecimento é indispensável para o administradorTenha em mente que estamos interessados em obter dados confiáveis para a tomada de decisões e muitas vezes precisaremos realizar pesquisas para coletar tais dados Convidamos você a conhecer um pouco mais sobre esta técnica de pesquisa e seus diferentes métodos de aplicação Há vários argumentos para justificar a utilização da amostragem mas há casos em que seu uso pode não ser a melhor opção O administrador precisa conhecer tais argumentos para que confrontando com os recursos disponíveis e os objetivos da pesquisa possa tomar a melhor decisão sobre a forma de coleta dos dados Se o administrador decidir por amostragem é preciso delinear o plano de amostragem indicando como ela será implementada e qual será o seu tamanho item crucial e que irá influenciar muito nos custos da pesquisa Vamos ver isso em detalhes nesta Unidade 31 O que é amostragem Amostragem é a subdivisão da Estatística que reúne os métodos necessários para coletar adequadamente amostras representativas e suficientes para que os resultados obtidos possam ser generalizados para a população de interesse A pressuposição básica é que todas as etapas prévias do planejamento da pesquisa veja na Unidade 1 de Estatística Aplicada À Administração I já foram cumpridas e que o administrador agora precisa decidir se coletará os dados por censoGlossário Censo forma de coleta de dados em que a pesquisa é realizada com todos os elementos da população Fonte Barbetta Reis e Bornia 2010FimGlossário ou por amostragemGlossário Amostragem forma de coleta de dados em que apenas uma pequena parte considerada representativa da população é pesquisada 72 Os resultados podem ser então generalizados usualmente através de métodos estatísticos apropriados para toda a população Fonte Barbetta 2007 Fim Glossário O censo consiste simplesmente em estudar todos os elementos da populaçãoGlossário População é o conjunto de medidas das características de interesse em todos os elementos que as apresentam Fonte Andrade e Ogliari 2007 Fim Glossárioe a amostragem pesquisa apenas uma pequena parte dela suposta representativa do todo Para realizar um estudo por amostragem de maneira que seus resultados sejam válidos e possam generalizados para a população algumas técnicas precisam ser empregadas A essência deste processo é mostrada na Figura 28a seguir Figura 28 Processo de Amostragem e Generalização Fonte elaborada pelo autor É importante saber avaliar os argumentos a favor de cada forma de coleta 32 Condições e recomendações para uso Podemos enumerar basicamente três motivos para usar amostragem em uma pesquisa economia rapidez de processamento e quando há a necessidade de testes destrutivosGlossário Testes destrutivos são ensaios realizados para avaliar a durabilidade resistência ou conformidade com as especificações de determinados produtos que causam a sua inutilização impedindo a sua comercialização Muitos testes 73 destrutivos são previstos em legislação específica das mais diversas áreas Fonte elaborado pelo autor Fonte elaborado pelo autor Fim Glossário Economia é muito mais barato levantar as características de uma pequena parcela da população do que de todos os seus integrantes especialmente para grandes populações O custo do censo demográfico do IBGE é tão colossal que somente pode ser feito a cada dez anos Rapidez de processamentocomo a quantidade de dados coletada é muito menor do que a produzida em um censo especialmente para grandes populações o seu processamento é mais rápido Os resultados ficam disponíveis em pouco tempo permitindo tomar decisões em seguida Tal característica é especialmente importante em pesquisas de opinião eleitoral cujo resultado precisa ser conhecido rapidamente para que candidatos e partidos possam reavaliar suas estratégias Testes destrutivos se para realizar a pesquisa precisamos realizar testes destrutivos de resistência tempo de vida útil entre outros o censo tornase impraticável exigindo a utilização de amostragem Em muitos casos como no caso de produtos alimentícios e farmacêuticos há normas legais que precisam ser cumpridas rigorosamente quando da realização dos ensaios A Figura 29 sintetiza os motivos Economia Rapidez de processamento Testes destrutivos Figura 29 Motivos para usar amostragem Fonte adaptado pelo autor de Microsoft Após reconhecer os motivos de se utilizar a amostragem pense em algumas situações em que seria recomendável utilizar esta técnica 74 Existem situações em que a utilização de amostragem pode não ser a melhor opção Neste caso podemos enumerar basicamente quatro motivos população pequena característica de fácil mensuração necessidades políticas e necessidade de alta precisão População pequenaquando é utilizada uma amostra probabilística aleatória e a população é pequena digamos menos de 100 elementos o tamanho mínimo de amostra para obter bons resultados será quase igual ao próprio tamanho da população veremos isso mais adiante ainda nesta Unidade Vale a pena então realizar um censo Característica de fácil mensuração a característica pode não precisar de mecanismos sofisticados de mensuração simplesmente resumese em uma opinião direta a favor ou contra uma proposta Neste caso a coleta dos dados seria bastante simples possibilitando avaliar todos os elementos da população Outro caso freqüente na indústria são os sistemas automatizados de medição por exemplo em uma fábrica de cubos de rodas de bicicletas situada na zona franca de Manaus os diâmetros de todos os cubos produzidos são medidos automaticamente por um sistema de telemetria a laser dispensando a coleta por amostragem e um inspetor humano para realizar a medição Necessidades políticas muitas vezes uma proposta irá afetar dramaticamente todos os elementos da população como a adoção de um regime ou forma de governo por exemplo o que pode ensejar a realização de um censo para que todos manifestem sua opinião Necessidade de alta precisãopor que o IBGE conduz um censo a cada dez anos Porque as informações demográficas têm que ser precisas para orientar políticas governamentais e somente dessa maneira esse objetivo pode ser atingido A Figura30sintetiza os motivos 75 População pequenaFácil mensuração Necessidades políticas Alta precisão Figura 30 Motivos para não usar amostragem Fonte adaptado pelo autor de Microsoft Exercite a mente Pense em algumas situações onde seja aconselhável usar um censo Você deve se lembrar da pesquisa que esboçamos na Unidade 1 de Estatística Aplicada à Administração I o CRA de Santa Catarina está interessado em conhecer a opinião dos seus registrados sobre o curso em que se graduaram desde que tal curso esteja situado em Santa Catarina Além disso vimos que o número de registrados no CRA com graduação em Santa Catarina foi suposto igual a 9000 Além disso há uma listagem com os registrados para fins de cobrança de anuidade inclusive que contém informações sobre endereço curso em que se graduou entre outras Para conhecer a opinião das pessoas precisamos entrevistálas via correio Internet telefone ou pessoalmente Com base no que foi dito até agora você sabe responder se a pesquisa deve ser conduzida por censo ou por amostragem Vamos ver juntos então 321 Aspectos necessários para o sucesso da amostragem Há três aspectos necessários para que uma pesquisa realizada por amostragem gere resultados confiáveis representatividade suficiência e aleatoriedade da amostra A representatividade é o mais óbvioGlossário Amostra representativa é aquela que representa na sua composição todas as subdivisões da população procurando retratar da melhor maneira possível a sua variabilidade Fonte elaborado pelo autor Fim GlossárioA amostra precisa retratar a variabilidade existente na população ela precisa ser uma cópia reduzida da população Sendo assim todas as subdivisões da população 76 precisam ter representantes na amostra A chave é avaliar se as subdivisões da população por sexo classe econômica cidade atividade profissional podem influenciar nos resultados da pesquisa Imagine uma pesquisa eleitoral para governador devemos entrevistar eleitores em todas as regiões do Estado assumese que haja diferenças de opinião de região para região pois se escolhermos apenas uma delas e ela for a base política de um candidato o resultado será distorcido A suficiência também é um aspecto relativamente óbvio Glossário Amostra suficiente é aquela que tem um tamanho tal que permite representar adequadamente a variabilidade da população por exemplo além de ter representantes de cada subdivisão da população a amostra precisa ter uma quantidade suficiente de elementos para retratar a variabilidade dentro de cada subdivisão Fonte elaborado pelo autor Fim GlossárioÉ necessário que a amostra tenha um tamanho suficiente para representar a variabilidade existente na população Quanto mais homogênea for a população menor variabilidade menor poderá ser o tamanho da amostra e quanto mais heterogênea maior variabilidade maior terá que ser o tamanho da amostra para representála LINK Vamos aprender ainda nesta Unidade uma fórmula simplificada para o cálculo do tamanho de amostra e na Unidade 9 veremos uma expressão mais completa Em ambos os casos porém veremos que o tamanho de amostra também dependerá da precisão que queremos para o nosso resultado LINK A aleatoriedade da amostra é o aspecto menos intuitivo mas extremamente importante Glossário Amostra aleatória casual ou probabilística é a amostra retirada por meio de um sorteio não viciado que garante que cada elemento da população terá uma probabilidade maior do que zero de pertencer à amostra Fonte Barbetta Reis e Bornia 2010 Fim GlossárioSignifica que os elementos da amostra serão selecionados da população por meio de sorteio não viciado todos os elementos da população têm chance de pertencer à amostra É necessária uma listagem com os elementos da população permitindo a atribuição de números a cada um deles e fazse o sorteio Idealmente nós escreveríamos os números dos elementos da população em pequenos papéis depositaríamos em uma urna misturaríamos os papéis e de olhos vendados escolheríamos os números selecionando a 77 amostra Para grandes populações esse procedimento é inviável e com a disponibilidade de recursos computacionais contraproducente O sorteio pode ser realizado através de tabelas de números aleatórios ou algoritmos de geração de números pseudoaleatórios Glossário Algoritmos de geração de números pseudoaleatórios são programas computacionais que geram números aleatórios pseudoaleatórios pois têm uma regra de formação procurando simular os sorteios manuais de números de 0 a 9 procurando garantir que todo número com a mesma quantidade de algarismos tenha a mesma probabilidade de ocorrência Fonte elaborado pelo autor Fim Glossário As tabelas de números aleatórios são instrumentos usados para auxiliar na seleção de amostras aleatórias São formadas por sucessivos sorteios de algarismos do conjunto 0 1 2 3 4 5 6 7 8 9 fazendo com que todo número com a mesma quantidade de algarismos tenha a mesma probabilidade de ocorrência Quando o sorteio é realizado manualmente a tabela é realmente chamada de tabela de números aleatórios LINK Muitos estatísticos realizaram tais sorteios registraram os resultados e os publicaram em livros e periódicos para uso geral LINK Se porém os números são obtidos mediante simulação computacional passamos a ter uma tabela de números pseudoaleatórios pois os números são provenientes da execução de um algoritmo matemático que tem uma lógica e uma lei de formação dos resultados LINK Neste caso há sempre o risco dos números se repetirem se a série for muito longa descaracterizando a aleatoriedade LINK Não obstante tal problema caso o algoritmo seja bom somente ocorre após milhões ou bilhões de sorteios quantidade muitíssimo superior àquela usada nas nossas pesquisas Alguns estatísticos construíram tabelas de números pseudoaleatórios e as deixaram disponíveis para o público em geral Nos dias de hoje com todas as facilidades da informática é cada vez mais comum bases de dados armazenadas em meio digital desde uma simples planilha do Microsoft Excel ou do BrOffice Calc até grandes bancos de dados 78 Então perguntase por que não realizar também o processo de amostragem em meio digital com os algoritmos citados no parágrafo anterior os algoritmos de geração de números pseudoaleatórios Tratase de programas computacionais que procuram simular os sorteios reais de números A grande vantagem do seu uso é a possibilidade de adaptar facilmente o sorteio ao tamanho da população envolvida e obviamente a velocidade de processamento Veja um exemplo de números aleatórios de 4 dígitos de 0001 a 9000 gerados pelo BrOffice Calc LINK Na seção Para saber mais vamos disponibilizar um link que explica como gerar números pseudoaleatórios com este aplicativo LINK 3439 907 5369 8092 7962 8626 131 3667 7769 1248 2206 410 292 1478 1977 155 2566 3088 4983 3217 3347 3201 8193 4195 3836 2736 8781 7260 8921 2307 No caso da nossa pesquisa para o CRA de Santa Catarina em que temos 9000 registrados graduados em Santa Catarina e há uma listagem da população pense como seria o sorteio No caso mais simples de amostragem aleatória o registrado de número 3439 seria sorteado seguido pelo 907 e pelo 5369 e assim por diante até completar o tamanho de amostra Usualmente criase automaticamente uma nova base de dados com os elementos sorteados Toda a teoria de inferência estatísticaLINK Veremos sobre a teoria da inferência estatística nas Unidades 4 5 e 6 LINKpressupõe que a amostra a partir da qual será feita a generalização veja a Figura 28 foi retirada de forma aleatória Agora que já conhecemos os aspectos principais para o sucesso da amostragem podemos detalhar o plano de amostragem 79 322 Plano de Amostragem Uma vez tendo decidido realizar a pesquisa selecionando uma amostra da população é preciso elaborar o plano de amostragem que consiste em definir as unidades amostrais o modo como a amostra será retirada o tipo de amostragem e o próprio tamanho da amostra As unidades amostrais são as unidades selecionadas para se chegar aos elementos da própria população Podem ser os próprios elementos da população quando há acesso direto a eles ou qualquer outra unidade que possibilite chegar até eles selecionar os domicílios como unidades de amostragem para chegar até as famílias que são os elementos da população selecionar as turmas como unidades de amostragem para chegar até os alunos que são os elementos da população No caso da pesquisa do CRA de Santa Catarina as unidades amostrais são os próprios elementos da população uma vez que temos a sua listagem No caso da Pesquisa Nacional por Amostragem de Domicílios do IBGE as unidades amostrais são os domicílios através dos quais chegase às famílias O modo como a amostra será retirada é outra decisão importante que precisa constar do plano de amostragem Na Figura 31a seguir vemos o resumo dos diversos tipos de amostragem Figura 31 Tipos de Amostragem Fonte elaborada pelo autor 80 33 Amostragem probabilística ou aleatória conceito subtipos Amostragem probabilística aleatória ou casual é aquela que garante que cada elemento da população tenha probabilidade de pertencer à amostra Para que isso ocorra é necessário que a amostra seja selecionada por sorteio não viciado ou seja exigese aleatoriedade A sua importância decorre do fato de que apenas os resultados provenientes de uma amostra probabilística podem ser generalizados estatisticamente para a população da pesquisa Você deve estar se perguntando mas afinal o que significa estatisticamente Significa que podemos associar aos resultados uma probabilidade de que estejam corretos ou seja uma medida da confiabilidade das conclusões obtidas Se a amostra não for probabilística não há como saber se há 95 ou 0 de probabilidade de que os resultados sejam corretos e as técnicas de inferência estatística porventura utilizadas terão validade questionável A condição primordial para uso da amostragem probabilística é que todos os elementos da população tenham uma probabilidade maior do que zero de pertencerem à amostra Tal condição é materializada se 1 Há acesso a toda a população Ou seja não há teoricamente problema em selecionar nenhum dos elementos todos poderiam ser pesquisados Concretamente há uma lista da população como no caso da pesquisa do CRA que dispõe de uma lista com os 9000 registrados que se graduaram em Santa Catarina 2 Os elementos da amostra são selecionados através de alguma forma de sorteio não viciado tabelas de números aleatórios números pseudoaleatórios gerados por computador Com a utilização de sorteio eliminase a ingerência do pesquisador na obtenção da amostra e garantese que todos os integrantes da população têm probabilidade de pertencer à amostra Agora vamos lhe apresentar os tipos de amostragem probabilística 81 331 Amostragem aleatória casual simples A amostragem aleatória simples Glossário Amostragem aleatória simples é o processo de amostragem em que todos os elementos da população têm a mesma probabilidade de pertencer à amostra e cada elemento é sorteado Fonte Barbetta Reis e Bornia 2010 Fim Glossário é o tipo de amostragem probabilística recomendável somente se a população for homogênea em relação aos objetivos da pesquisa por exemplo quando admitese que todos os elementos da população têm características semelhantes em relação aos objetivos da pesquisa Há uma listagem dos elementos da população atribuemse números a eles e através de alguma espécie de sorteio não viciado por meio de tabelas de números aleatóriosGlossário Tabelas de números aleatóriossão instrumentos usados para auxiliar na seleção de amostras aleatórias formadas por sucessivos sorteios de algarismos do conjunto 0 1 2 3 4 5 6 7 8 9 fazendo com que todo número com a mesma quantidade de algarismos tenha a mesma probabilidade de ocorrência Fonte Barbetta 2007 Fim Glossárioou números pseudoaleatórios gerados por computador os integrantes da amostra são selecionados Neste tipo de amostragem probabilística todos os elementos da população têm a mesma probabilidade de pertencer à amostra Foi exatamente o que fizemos no final do tema Aspectos necessários para o sucesso da amostragem para a nossa pesquisa do CRA 332 Amostragem sistemática Quando a lista de respondentes for muito grande a utilização de amostragem aleatória simples pode ser um processo moroso ou se o tamanho de amostra for substancial teremos que realizar um grande número de sorteios caso estejamos utilizando números pseudoaleatórios aumenta o risco de repetição dos números Utilizase então uma variação a amostragem sistemáticaGlossário Amostragem sistemática é a variação da amostragem aleatória simples em que os elementos da população são retirados a intervalos regulares até compor o total da amostra sendo o sorteio realizado apenas no ponto de partida Fonte Barbetta 2007 Glossárioque também supõe que a população é homogênea em relação à variável de interesse mas que consiste em retirar elementos da população a 82 intervalos regulares até compor o total da amostra A amostragem sistemática somente pode ser retirada se a ordenação da lista não tiver relação com a variável de interesse Imagine que queremos obter uma amostra de idades de uma listagem justamente ordenada desta forma neste caso a amostragem sistemática não seria apropriada a não ser que reordenássemos a lista Veja a seguir o procedimento para a amostragem sistemática obtémse o tamanho da população N calculase o tamanho da amostra n veremos isso mais adiante encontrase o intervalo de retirada k Nn se k for fracionário devese aumentar n até tornar o resultado inteiro se N for um número primo excluemse por sorteio alguns elementos da população para tornar k inteiro sorteiase o ponto de partida um dos k números do primeiro intervalo usando uma tabela de números aleatórios ou qualquer outro dispositivo isso precisa ser feito para garantir que todos os elementos da população tenham chance de pertencer à amostra a cada k elementos da população retirase um para fazer parte da amostra até completar o valor de n O resumo deste processo é retratado na Figura 32 veja Figura 32 Processo de amostragem sistemática Fonte elaborada pelo autor 1k N k k k 1 n População Amostra 83 O exemplo a seguir ajudará você a entender melhor sobre o processo de amostragem sistemática Leia com atenção Exemplo 1 Uma operadora telefônica pretende saber a opinião de seus assinantes comerciais sobre seus serviços na cidade de Florianópolis Supondo que há 25037 assinantes comerciais e a amostra precisa ter no mínimo 800 elementos mostre como seria organizada uma amostragem sistemática para selecionar os respondentes A operadora dispõe de uma lista ordenada alfabeticamente com todos os seus assinantes o intervalo de retirada serák Nn 25037800 312965 Como o valor de k é fracionário algo precisa ser feito Aumentar o tamanho da amostra não resolverá o problema porque 25037 é um número primo Como não podemos reduzir o tamanho de amostra devendo permanecer igual a 800 se excluirmos por sorteio 237 elementos da população e refizermos a lista teremosk Nn 24800800 31 A cada 31 assinantes um é retirado para fazer parte da amostra Devemos sortear o ponto de partida um número de 1 a 31 do 1o ao 31o assinante Imagine que o sorteio resultasse em 5 então a amostra seria número de assinantes5 36 67 98 24774 333 Amostragem estratificada É bastante comum que a população de uma pesquisa seja heterogênea em relação aos objetivos da pesquisa No caso de uma pesquisa eleitoral para governador por exemplo podemos esperar que a opinião deva ser diferente dependendo da região onde o eleitor mora classe social e mesmo profissão dos entrevistados Contudo podemos supor que haja certa homogeneidade de opinião dentro de cada grupo Então supõese que haja heterogeneidade entre os estratos mas homogeneidade dentro dos estratos e que eles sejam mutuamente exclusivos cada elemento da população pode pertencer a apenas um estrato Para garantir que a amostra seja representativa da população Glossário Amostra 84 representativa aquela que representa na sua composição todas as subdivisões da população procurando retratar da melhor maneira possível a sua variabilidade Fonte elaborado pelo autor Fim Glossárioprecisamos garantir que os diferentes estratos sejam nela representados deve usar a amostragem estratificada Glossário Amostragem estratificada é a amostragem probabilística usada quando a população for heterogênea em relação aos objetivos da pesquisa as opiniões tendem a variar muito de subgrupo para subgrupo e amostra precisa conter elementos de cada subgrupo da população para representála adequadamente Fonte Barbetta 2007 Fim Glossário como representa a Figura 33 Figura 33 Amostragem estratificada Fonte elaborada pelo autor Veja que a seleção dos elementos de cada estrato pode ser feita usando amostragem aleatória simples ou sistemática A amostragem estratificada pode ser proporcional quando o número de elementos selecionados de cada estrato é proporcional ao seu tamanho na população por exemplo se o estrato representa 15 da população 15 da amostra deverá ser retirada dele e uniforme quando os mesmos números de elementos são selecionados de cada estrato A amostragem estratificadaproporcional possibilita resultados melhores mas exige um grande conhecimento da população para saber quantos são e quais são os tamanhos dos estratos A amostragem estratificada uniforme é mais utilizada em estudos comparativos Sorteio não viciado 85 No caso da pesquisa do CRA você acredita que a população é heterogênea em relação aos objetivos da pesquisa Será que a região do Estado o fato de ter estudado em faculdade pública ou particular pode influenciar as opiniões dos registrados sobre os cursos onde se graduaram 334 Amostragem por conglomerados Teoricamente a amostragem estratificada proporcional apresenta os melhores resultados possíveis Sua grande dificuldade de uso devese ao grau de conhecimento necessário sobre a população que geralmente não existe ou é impraticável de obter Uma alternativa consiste no uso de conglomeradosGlossário Amostragem por conglomerados é a amostragem probabilística em que a população é subdividida em grupos definidos por conveniência usualmente geográfica e alguns destes grupos são selecionados por sorteio e elementos dos grupos sorteados podem também ser sorteados para compor a amostra Fonte Barbetta 2007 Fim Glossário Os conglomerados também são grupos mutuamente exclusivos de elementos da população mas são definidos de forma mais arbitrária do que os estratos é bastante comum definir os conglomerados geograficamente Por exemplo os bairros de uma cidade que constituiriam conglomerados de domicílios O procedimento para a amostragem por conglomerados ocorre da seguinte forma dividese a população em conglomerados sorteiamse os conglomerados usando tabela de números aleatórios ou qualquer outro método não viciado pesquisamse todos os elementos dos conglomerados sorteados ou sorteiamse elementos deles A utilização de amostragem por conglomerados permite uma redução substancial nos custos de obtenção da amostra sem comprometer demasiadamente a precisão sendo 86 que em alguns casos é a única alternativa possível Veja a Figura34e entenda como ocorre essa amostragem Figura 34 Amostragem por conglomerados Fonte elaborada pelo autor A Pesquisa Nacional por Amostra de Domicílios PNAD do IBGE coleta informações demográficas e sócioeconômicas sobre a população brasileira Utiliza amostragem por conglomerados em três estágios LINK Mais informações em httpwwwibgegovbrhomeestatisticapopulacaotrabalhoerendimentopnad98saudemet odologiashtm LINK Primeiro estágio amostras de municípios conglomerados para cada uma das regiões geográficas do Brasil Segundo estágio setores censitários sorteados em cada município conglomerado sorteado e Terceiro estágio domicílios sorteados em cada setor censitário Você deve estar se perguntando e quando não for possível garantir a probabilidade de todo elemento da população pertencer à amostra Então este é o momento de partirmos para a amostragem não probabilística 34 Amostragem não probabilística A obtenção de uma amostra probabilística exige uma listagem com os elementos da população Em suma exige acesso a todos os elementos da população Nem sempre é possível obter tal listagem na prática o que teoricamente inviabilizaria a retirada de uma amostra probabilística Então podese recorrer à amostragem não probabilística Glossário Observar todos os elementos dos conglomerados sorteados Sortear alguns elementos dos conglomerados sorteados Sorteio de conglomerados 87 Amostragem não probabilística é o processo de amostragem em que nem todos os elementos da população têm chance de pertencer à amostra pois a seleção não é feita por sorteio não viciado Fonte Barbetta 2007 Fim Glossário Ao usar a amostragem não probabilística o pesquisador não sabe qual é a probabilidade de que um elemento da população tem de pertencer à amostra Portanto os resultados da amostra não podem ser estatisticamente generalizados para a população porque não se pode estimar o erro amostral Glossário Erro amostral é o valor máximo que o pesquisador admite errar na estimativa de uma característica da população a partir de uma amostra aleatória desta mesma população Fonte Barbetta 2007 Fim Glossário Alguns dos usos habituais da amostragem não probabilística são os seguintes o a etapa preliminar em projetos de pesquisa o em projetos de pesquisa qualitativa e o em casos onde a população de trabalho não pode ser enumerada Veja que existem ainda vários tipos de amostragem não probabilística e que serão descritos na seqüência 341 Amostragem a esmo Na Amostragem a esmo o pesquisador procura ser o mais aleatório possível mas sem fazer um sorteio formal Imagine um lote de 10000 parafusos do qual queremos tirar uma amostra de 100 se fôssemos realizar uma amostragem aleatória simples o processo talvez fosse trabalhoso demais Então simplesmente retiramos os elementos a esmo Este tipo de amostragem também pode ser utilizado quando a população for formada por material contínuo gases líquidos minérios bastando homogeneizar o material e retirar a amostra 88 342 Amostragem por julgamento intencional Na amostragem por julgamento o pesquisador deliberadamente escolhe alguns elementos para fazer parte da amostra com base no seu julgamento de aqueles seriam representativos da população Este tipo de amostragem é bastante usado em estudos qualitativos Obviamente o risco de obter uma amostra viciada é grande pois se baseia totalmente nas preferências do pesquisador que pode se enganar involuntária ou voluntariamente 343 Amostragem por cotas A Amostragem por cotas parece semelhante a uma amostragem estratificada proporcional da qual se diferencia por não empregar sorteio na seleção dos elementos A população é dividida em vários subgrupos na realidade é comum dividir em um grande número para compensar a falta de aleatoriedade e selecionase uma cota de cada subgrupo proporcional ao seu tamanho Em uma pesquisa de opinião eleitoral por exemplo poderíamos dividir a população de eleitores por sexo nível de instrução faixas de renda entre outros aspectos e obter cotas proporcionais ao tamanho dos grupos que poderia ser obtido através das informações do IBGE Na amostragem por cotas os elementos da amostra são escolhidos pelos entrevistadores de acordo com os critérios geralmente em pontos de grande movimento o que sempre acarreta certa subjetividade e impede que qualquer um que não esteja passando pelo local no exato momento da pesquisa possa ser selecionado Na prática muitas pesquisas são realizadas utilizando amostragem por cotas incluindo as polêmicas pesquisas eleitorais LINK Leia um texto muito interessante sobre o tema que encontrase disponível em httpwwwimeunicampbrdiasfalaciaPesquisaEleitoralpdf LINK 89 No exemplo apresentado no Quadro 4 imagine que queremos saber a opinião dos eleitores do bairro Goiaba sobre o governo municipal Supõese que as principais variáveis que condicionariam as respostas seriam sexo idade e classe social O bairro apresenta a seguinte composição demográfica para as variáveis Sexo Idade faixa etária Classe social populacional Masculino 18 35 A 1 Masculino 18 35 B 4 Masculino 18 35 C 10 Feminino 18 35 A 1 Feminino 18 35 B 2 Feminino 18 35 C 9 Masculino 35 60 A 5 Masculino 35 60 B 8 Masculino 35 60 C 12 Feminino 35 60 A 4 Feminino 35 60 B 8 Feminino 35 60 C 10 Masculino Mais de 60 A 1 Masculino Mais de 60 B 9 Masculino Mais de 60 C 3 Feminino Mais de 60 A 3 Feminino Mais de 60 B 7 Feminino Mais de 60 C 3 Quadro 4 Esquema de amostragem por cotas Fonte adaptado pelo autor de Marconi e Lakatos 2003 Se por exemplo o tamanho de nossa amostra fosse igual a 200 200 pessoas serão entrevistadas o número de pessoas deveria ser dividido de forma proporcional 1 do sexo masculino com idade entre 18 e 25 anos da classe A totalizando 2 pessoas 4 do sexo masculino com idade entre 18 e 25 anos da classe B totalizando 8 pessoas e assim por diante Os entrevistadores receberiam suas cotas e deveriam escolher pessoas em pontos de movimento do referido bairro que se aproximem dos critérios e entrevistálas recolhendo suas opiniões sobre o governo municipal Usualmente os resultados são generalizados estatisticamente para a população empregando as técnicas que serão vistas na Unidade 5 deste livrotexto mas rigorosamente os resultados da amostragem por cotas 90 não têm validade estatística visto que não contemplam o princípio de aleatoriedade na seleção da amostra 344 Amostragem bola de neve A Amostragem bola de neve é particularmente importante quando é difícil identificar respondentes em potencial A cada novo respondente que é identificado e entrevistado pedese que identifique outros que possam ser qualificados como respondentes Pode levar a amostras compostas apenas por amigos dos primeiros entrevistados o que pode causar viesamentos nos resultados finais Agora que você já conhece sobre o importante e interessante tema do cálculo do tamanho de amostra passaremos para uma amostra probabilística 35 Cálculo do tamanho de uma amostra probabilística aleatória para estimar proporção A determinação do tamanho de amostra é um dos aspectos mais controversos da técnica de amostragem e envolve uma série de conceitos probabilidade inferência estatística e a própria teoria da amostragem Nesta seção apresentaremos uma visão simplificada para obter o tamanho mínimo de uma amostra aleatória simples que atenda aos seguintes requisitos o interesse na proporção de ocorrência de um dos valores de uma variável qualitativa na população a confiabilidade dos resultados da amostra deve ser aproximadamente igual a 95 ou seja há 95 de probabilidade de que a proporção populacional do valor da variável qualitativa esteja no intervalo definido pelos resultados da amostra estamos fazendo uma estimativa exagerada do tamanho de amostra não vamos nos preocupar com aspectos financeiros relacionados ao tamanho da amostra embora obviamente seja uma consideração importante 91 O primeiro passo para calcular o tamanho da amostra é definir o erro amostral tolerável que será chamado de E0 Este erro é o valor máximo que o pesquisador admite errar na estimativa de uma característica da população Lembrese das pesquisas de opinião eleitoral o candidato Fulano está com 18 de intenção de voto a margem de erro da pesquisa é de 2 para mais ou para menos O 2 é o valor do erro amostral tolerável então o percentual de pessoas declarando o voto no candidato Fulano é igual a 18 2 Além disso há uma probabilidade de que este intervalo não contenha o valor real do parâmetro ou seja o percentual de eleitores que declaram o voto no candidato pelo fato de que estamos usando uma amostra embora isso raramente seja dito na mídia especialmente na televisão É razoável imaginar que quanto menor o erro amostral tolerável escolhido maior será o tamanho da amostra necessário para obtêlo Isso fica mais claro ao ver a fórmula para obtenção da primeira estimativa do tamanho de amostra 2 0 0 1 E n Onde E0 é o erro amostral tolerável e n0 é a primeira estimativa do tamanho de amostra Se o tamanho da população N for conhecido podemos corrigir a primeira estimativa 0 0 n N n N n Exemplo 2 Calcule o tamanho mínimo de uma amostra aleatória simples para estimar uma proporção admitindo com alto grau de confiança um erro amostral máximo de 2 supondo que a população tenha a 200 elementos b 200000 elementos Observe a diferença entre os tamanhos das duas populações a da letra b é mil vezes maior do que a da letra a Como a primeira estimativa n0 não depende do tamanho da 92 população e o erro amostral é 2 para ambas podemos calculálo apenas uma vez Devemos dividir o 2 por 100 antes de substituir na fórmula 2500 02 0 1 1 2 2 0 0 E n Então nossa primeira estimativa para um erro amostral de 2 é retirar uma amostra de 2500 elementos a Obviamente precisamos corrigir a primeira estimativa pois a população conta com apenas 200 elementos Então 185 185 2500 200 2500 200 0 0 n N N n n Precisamos arredondar sempre para cima o tamanho mínimo da amostra Então a amostra deverá ter pelo menos 186 elementos para garantir um erro amostral de 2 Observe que a amostra representa 93 da população Será que um censo não seria mais aconselhável neste caso b Corrigindo a primeira estimativa com o tamanho da população 2469 136 2500 200000 2500 200000 0 0 n N n N n Arredondando a amostra deverá ter no mínimo 2470 elementos para garantir um erro amostral de 2 Observe que a amostra representa 1235 da população Claríssimo caso em que a amostragem é a melhor opção de coleta Poderíamos ter usado diretamente a primeira estimativa 2500 elementos pois a correção não causou grande mudança Este exemplo prova que não precisamos de grandes amostras para obter uma boa precisão nos resultados A Figura 35 mostra um gráfico relacionando tamanhos de amostra para diferentes tamanhos de população considerando um erro amostral tolerável igual a 2 93 Figura 35 Tamanho de amostra x tamanho da população e0 2 Fonte elaborado pelo autor a partir de Microsoft Observe que a partir de um determinado tamanho de população para o mesmo erro amostral o ritmo de crescimento do tamanho da amostra vai diminuindo para 70000 elementos ou mais praticamente não há mais aumento Isso mostra que não há necessidade de retirar por exemplo 50 da população para ter uma boa amostra É importante alertar que ao calcular o tamanho de amostra para amostragem estratificada devese fazêlo para cada estrato e o tamanho total será a soma dos valores Se isso não for feito não podemos garantir o erro amostral dentro de cada estrato se calcularmos um valor geral e dividirmos o tamanho da amostra por estrato mesmo proporcionalmente a margem de erro dentro de cada estrato será maior do que a prevista Tô afim de saber Sobre amostragem consulte BARBETTAP A Estatística Aplicada às Ciências Sociais 7ª ed Florianópolis Ed da UFSC 2008 Capítulo 3 Sobre características de fácil mensuração consulte em LAGO NETO JC O Efeito da Autocorrelação em Gráficos de Controle para Variável Contínua Um Estudo de Caso Florianópolis 1999 Dissertação Mestrado em Engenharia de Produção Programa de PósGraduação em Engenharia de Produção UFSC Tamanhos mínimos de amostra erro amostral de 2 0 500 1000 1500 2000 2500 3000 20000 1760000 3500000 5240000 6980000 8720000 10460000 Tamanho da População Tamanho de amostra 94 Sobre pesquisas eleitorais consulte SOUZA J Pesquisas Eleitorais Críticas e Técnicas Brasília Centro Gráfico do Senado Federal 1990 Sobre como gerar números pseudoaleatórios ou obter amostras aleatórias simples no BrOffice Calc leia o texto Como gerar uma amostra aleatória simples com o BrOffice Calc no Ambiente Virtual de EnsinoAprendizagem Sobre Amostragem a esmo leia COSTA NETO PL da O Estatística 2ª ed São Paulo Edgard Blücher 2002 Atividades de Aprendizagem O que você acha de testar seus conhecimentos com relação ao estudo da Unidade 3 Para tanto faça as atividades propostas a seguir e encaminheas para seu tutor através do Ambiente Virtual de EnsinoAprendizagem Não hesite em buscar o auxílio do seu tutor se encontrar dificuldades 1 Analise os planos de amostragens apresentados abaixo Você concorda com a maneira como foram elaborados Justifique Apresente as soluções que você julgar necessárias a Para ser conhecida a opinião dos estudantes da UFSC sobre o Jornal Universitário foram colhidas as opiniões de 40 estudantes da última fase do curso de Jornalismo daquela instituição b Há interesse em medir o índice de luminosidade das salas de aula da UFSC A coleta de dados será feita em todos os centros da UFSC durante os períodos diurno e noturno nas salas que estiveram desocupadas no momento da pesquisa Cada centro será visitado apenas uma vez c As constantes reclamações dos usuários motivaram a direção da Biblioteca Central da UFSC a realizar uma pesquisa sobre o nível de ruído em suas dependências O ruído será medido em todas as seções da Biblioteca na primeira e na penúltima semanas do semestre de segunda a sábado durante todo o horário de funcionamento d No controle de qualidade de uma fábrica de peças que trabalha 24 horas por dia sete 95 dias por semana um item produzido é retirado de cada máquina a cada meia hora para avaliação O procedimento é feito durante todo o dia ao longo da semana e O Comando de um Batalhão da Polícia Militar de Santa Catarina quer conhecer a opinião das pessoas que residem em sua área de atuação no intuito de formular novas escalas de policiamento ostensivo Para tanto serão feitas entrevistas com as pessoas que se passarem a pé pela frente do Batalhão de segunda à sexta das 830 às 1200 horas e das 1400 às 1730 horas durante duas semanas f Com a finalidade de estudar o perfil dos consumidores de um supermercado observaram se os consumidores que compareceram ao supermercado no primeiro sábado do mês g Com a finalidade de estudar o perfil dos consumidores de um supermercado fezse a coleta de dados durante um mês tomando a cada dia um consumidor de cada fila de cada caixa variandose sistematicamente o horário de coleta dos dados h Para avaliar a qualidade dos itens que saem de uma linha de produção observaramse todos os itens das 14 às 14 horas e trinta minutos i Para avaliar a qualidade dos itens que saem de uma linha de produção observouse um item a cada meia hora durante todo o dia j Para estimar a porcentagem de empresas que investiram em novas tecnologias no último ano enviouse um questionário a todas as empresas de um estado A amostra foi formada pelas empresas que responderam o questionário 2 Uma determinada faculdade do interior de Santa Catarina possui 6 cursos estando os alunos matriculados de acordo com a tabela abaixo Curso Direito Administração Economia Agronomia Veterinária Computação Alunos 250 200 150 150 150 100 A diretoria pretende selecionar por amostragem alguns alunos para uma atividade extracurricular a Os cursos direito administração e economia formam um estrato sócioeconômicos agronomia e veterinária formam outro agrários e computação outro estrato tecnológicos extraia uma amostra estratificada proporcional de 20 alunos use o Microsoft Excel ou o BrOffice Calc b Através de uma amostragem de conglomerados de 2 estágios extraia uma amostra 96 aleatória de 21 alunos Selecione 3 cursos e depois 7 alunos por curso use o Microsoft Excel ou o BrOffice Calc c Qual das duas amostras você acredita que tem resultados mais confiáveis JUSTIFIQUE 3 Será feito um levantamento por amostragem de uma população de 2000 famílias para a realização de uma pesquisa a Calcule o tamanho mínimo de uma amostra para que se tenha um erro amostral máximo de 5 b Supondo a população dividida em 2 estratos iguais qual o tamanho mínimo de amostra para se ter um erro amostral máximo de 5 em cada estrato c Qual seria o erro amostral em cada estrato do item b se o tamanho da amostra em cada estrato fosse simplesmente o valor definido no item a dividido por 2 Resumo O resumo desta Unidade está esquematizado na Figura 36 Veja 97 Figura 36 Resumo da Unidade 3 Fonte elaborada pelo autor NÃO SIM Amostragem x Censo Quando usar amostragem Economia Rapidez Testes destrutivos Quando não usar amostragem População pequena Fácil mensuração Necessidades políticas Necessidade de alta precisão Aspectos necessários para a amostragem Representatividade Suficiência Aleatoriedade Tabelas de números aleatórios ou pseudoaleatórios Algoritmos de geração de números pseudoaleatórios Plano de amostragem Unidades amostrais Tamanho de amostra Tipo de amostragem Probabilística Escolha dos elementos Sorteio dos elementos A esmo por julgamento Por cotas bola de neve Aleatória simples Sistemática Estratificada Por conglomerados Estimação de proporção Erro amostral 98 Caro estudante Chegamos ao final da Unidade3 Nela estudamos sobre amostragem e censo e suas formas de utilização habilidades necessárias para um bom administrador Essa Unidade foi repleta de Figuras quadros representações e exemplos de utilização das técnicas e das diferentes formas de utilização na íntegra de suas especificidades e deu sustentação para as discussões das próximas unidades Releia caso necessário todos os exemplos leia as indicações do Saiba mais e discuta com seus colegas Na realização da atividade de aprendizagem você colocará em prática os ensinamentos repassados Conte sempre com o acompanhamento da tutoria e das explicações do professor Lembrese que não estás sozinho Conte com a gente 99 Unidade 4 Inferência estatística e distribuição amostral 100 Objetivo Nesta Unidade você vai aprender os conceitos de inferência estatística e de distribuição amostral que são a base para o processo de generalização usado pelos administradores em várias tomadas de decisão 101 41 Conceito de Inferência Estatística Caro estudante vamos relembrar um pouco nossa trajetória ao longo das duasdisciplinas de Estatística Aplicada à Administração Na Unidade 1 de Estatística I vimos que através da Inferência Estatística usando os conceitos de Probabilidade e variáveis aleatórias Unidade 6 de Estatística I e Unidade 1 de Estatística II podemos generalizar os resultados de uma pesquisa por amostragem Unidade 3 de Estatística II para a população da qual a amostra foi retirada Lembrese estamos supondo que a amostra foi retirada por meio de amostragem probabilística ou aleatória temos então um experimento aleatório não sabemos quem fará parte da amostra antes do sorteio Unidade 3 de Estatística II Uma vez retirada a amostra fazemos análise exploratória dos dados Unidades 2 e 3 de Estatística I por exemplo calculamos média de uma variável quantitativa Esta média e todas as demais estatísticas serão variáveis aleatórias pois estão associadas ao Espaço Amostral de um experimento aleatório e poderemos tentar identificar o modelo probabilístico mais apropriado para elas Unidades 1 e 2 de Estatística II Mas neste caso o modelo probabilístico de uma estatística da amostra é chamado de Distribuição Amostral Conhecer a Distribuição Amostral das principais estatísticas vai nos ser muito útil quando estudarmos os tipos particulares de Inferência Estatística Estimação de Parâmetros Unidade 5 e Testes de Hipóteses Unidade 6 neste livro de Estatística Aplicada à Administração II Vamos continuar aprendendo É muito bom ter você conosco 102 Estatística é a ciência que se ocupa de organizar descrever analisar e interpretar dados para que seja possível a tomada de decisões eou a validação científica de uma conclusão Os dados são coletados para estudar uma ou mais características de uma População conjunto das medidas das características de interesse em todos os elementos que as apresentam Uma população pode ser representada através de um modelo este apresenta condições para uso forma para a distribuição e parâmetros Os dados necessários para a obtenção do modelo podem ser obtidos através de um censo pesquisa de toda a população ou através de uma amostra subconjunto finito da populaçãoLINK Na Unidade 3 enumeramos as principais razões para usar amostragemLINK A amostra deve ser representativa da população suficiente para que o resultado tenha confiabilidade e aleatória retirada por sorteio não viciado DESTAQUE A Inferência Estatística consiste em fazer afirmações probabilísticas sobre as características do modelo probabilístico que se supõe representar uma população a partir dos dados de uma amostra aleatória probabilística GLOSSÁRIO Amostra aleatória casual ou probabilística amostra retirada por meio de um sorteio não viciado que garante que cada elemento da população terá uma probabilidade maior do que zero de pertencer à amostra GLOSSÁRIO desta mesma população DESTAQUE Fazer uma afirmação probabilística sobre uma característica qualquer é associar à declaração feita uma probabilidade de que tal declaração esteja correta e portanto a probabilidade complementar de que esteja errada Quando se usa uma amostra da população sempre haverá uma probabilidade de estar cometendo um erro justamente por ser usada uma amostra a diferença entre os métodos estatísticos e os outros reside no fato de que os métodos estatísticos permitem calcular essa probabilidade de erro E para que isso seja possível a amostra da população precisa ser aleatória 103 As afirmações probabilísticas sobre o modelo da população podem ser basicamente estimar quais são os possíveis valores dos parâmetros GLOSSÁRIO Parâmetros alguma medida descritiva média variância proporção dos valores x1 x2 x3 associados à populaçãoFonte Barbetta Reis e Bornia 2010Fim GLOSSÁRIOEstimação de ParâmetrosGLOSSÁRIO Estimação de Parâmetros forma de inferência estatística que busca estimar os parâmetros do modelo probabilístico da variável de interesse na população a partir de dados de uma amostra probabilística desta mesma população Fonte Barbetta Reis e Bornia 2010FimGLOSSÁRIO qual é o valor da média de uma variável que segue uma distribuição normal qual é o valor da proporção de um dos 2 resultados possíveis de uma variável que segue uma distribuição binomial testar hipóteses sobre as características do modelo parâmetros forma da distribuição de probabilidades entre outros Testes de HipótesesGLOSSÁRIO Testes de hipóteses forma de inferência estatística que busca testar hipóteses sobre características parâmetros forma do modelo do modelo probabilístico da variável de interesse na população a partir de dados de uma amostra probabilística desta mesma população Fonte Barbetta Reis e Bornia 2010FimGLOSSÁRIO o valor da média de uma variável que segue uma distribuição é maior do que um certo valor o modelo probabilístico da população é uma distribuição normal o valor da média de uma variável que segue uma distribuição normal em uma população é diferente da mesma média em outra população Estudaremos Estimação de Parâmetros na Unidade 5 e Testes de Hipóteses na Unidade 6 104 42 Parâmetros e Estatísticas Vamos imaginar uma pesquisa como a da Unidade 1 de Estatística Aplicada à Administração 2 opinião dos registrados no CRASC sobre os cursos em que se graduaram desde que tenham se graduado em Santa Catarina Naquela Unidade e depois na Unidade 2 de Estatística Aplicada à Administração II declaramos que era possível realizar uma amostragem probabilística e vimos um exemplo de como fazer isso Independente da pesquisa uma vez que tenha sido realizada por amostragem probabilística os dados podem ser estatisticamente generalizados para a população Uma vez tendo coletado os dados é preciso resumilos e organizálos de maneira a permitir uma primeira análise e posterior uso das informações As técnicas estatísticas que se ocupam desses aspectos constituem a Análise Exploratória de Dados que estudamos detalhadamente nas Unidades 2 e 3 de Estatística Aplicada à Administração I O conjunto de dados pode ser resumido e apresentado através das distribuições de frequências que relacionam os valores que a variável pode assumir com a frequência contagem com que foram encontrados naquele conjunto Esta distribuição pode ser apresentada na forma de uma tabela ou através de um gráfico estes dois métodos podem ser usados tanto para variáveis qualitativas quanto para variáveis qualitativas Há uma terceira forma de resumir o conjunto de dados quando a variável sob análise é quantitativa as medidas de síntese ou estatísticas GLOSSÁRIO Estatísticas medidas de síntese da variável calculadas com base nos resultados de uma amostra da população Se a amostra for probabilística aleatória as estatísticas podem ser consideradas variáveis aleatórias Fonte Barbetta Reis e Bornia 2010FimGLOSSÁRIO As principais 105 estatísticas são a média o desvio padrão a variância e a proporção LINK Esta última está relacionada aos percentuais de ocorrência dos valores em uma distribuição de frequências de uma variável qualitativa LINK DESTAQUE Atenção vamos relembrar o que cada uma dessas significa o Média média aritmética simples ver Unidade 3 de Estatística Aplicada à Administração I tratase de uma estatística que caracteriza o centro de massa do conjunto de dados Valor Esperado ver Unidade 1 seção 14 Quando é a média populacional recebe o símbolo µ quando é a média amostral recebe o símbolo x o Variância tratase de uma estatística ver Unidade 3 de Estatística Aplicada à Administração I que mede a dispersão em torno da média do conjunto em torno do valor esperado Ver Unidade 1 seção 14 possuindo uma unidade que é o quadrado da unidade da média e dos valores do conjunto Quando é a variância populacional recebe o símbolo 2 quando é a variância amostral recebe o símbolo s2 o Desvio padrão é a raiz quadrada positiva da variância tendo portanto uma unidade que é igual à unidade da média sendo muitas vezes preferida para efeito de mensuração da dispersão Quando é o valor populacional recebe o símbolo σ e quando é o amostral recebe o símbolo s o Proporção consiste em calcular a razão entre o número de ocorrências do valor de interesse de uma variável qualitativa e o número total de ocorrências registradas no conjunto de todos os valores que a variável pode assumir quando é uma proporção populacional recebe o símbolo π quando é uma proporção amostral recebe o símbolo p DESTAQUE Os valores das medidas de síntese além de resumirem o conjunto de dados constituem uma indicação dos prováveis valores dos parâmetros Assim em estudos baseados em amostras é comum utilizar tais medidas de síntese como estatísticas que serão utilizadas para estimar os parâmetros do modelo probabilístico que descreve a população 106 O Quadro5 resume os parâmetros e as estatísticas Medidas de síntese Parâmetros População Estatísticas Amostra Média N x N 1 i i n X x n 1 i i Variância N x N 1 i 2 i 2 1 n x x s n 1 i 2 i 2 Proporção N fa n f p a Quadro 5 Parâmetros e Estatísticas mais comuns Fonte elaborado pelo autor Onde N é o número de elementos da população n é o número de elementos da amostra e fa é a frequência de ocorrência de um dos valores de uma variável qualitativa na população ou na amostra As Estatísticas são variáveis aleatórias pois seus valores podem variar dependendo do resultado da amostra Se forem variáveis aleatórias podem ser caracterizadas através de algum modelo probabilístico Este modelo recebe o nome de distribuição amostral 43 Distribuição Amostral Seja uma população qualquer com um parâmetro de interesse correspondendo a uma estatística T em uma amostra Amostras aleatórias são retiradas da população e para cada amostra calculase o valor t da estatística T 107 Os valores de tLINK NÃO confundir com o t da distribuição t de Student seção 224 Unidade 2 LINK formam uma nova população que segue uma distribuição de probabilidades que é chamada de distribuição amostral de T Exemplo 1 Seja a população abaixo constituída pelos pesos em kg de oito pessoas adultas Figura 37 Distribuição Amostral Exemplo 1 Fonte elaborada pelo autor Observe que foram retiradas três amostras Para cada amostra foi calculada a média visando estimar a média populacional que vale 6562 kg Observe que há uma variação na estatística média pois o processo de amostragem é aleatório é um experimento aleatório Esta variação precisa ser considerada quando são realizadas as inferências sobre os parâmetros Assim sendo o conhecimento das distribuições amostrais das principais estatísticas é necessário para fazer inferências sobre os parâmetros do modelo probabilístico da população Por hora basta conhecer as distribuições amostrais das estatísticas média de uma variável quantitativa qualquer e proporção de um dos dois únicos resultados de uma variável qualitativa 431 Distribuição amostral da média 108 Vamos observar as particularidades da distribuição amostral da média Exemplo 2 Suponha uma variável quantitativa cujos valores constituem uma população com os seguintes valores 2 3 4 5 Para esta população que tem uma distribuição uniforme podemos observar que os parâmetros são 35 2 125 usouse n no denominador por ser uma população Se retirarmos todas as amostras aleatórias de 2 elementos com reposição possíveis desta população n 2 teremos os seguintes resultadosLINK Há 16 amostras possíveis LINK 2 2 2 3 2 4 2 5 3 2 3 3 3 4 3 5 42 4 3 4 4 4 5 5 2 5 3 5 4 5 5 O cálculo das médias de todas as amostras acima resultará na matriz abaixo 05 54 04 53 54 04 53 03 04 53 03 52 53 03 52 02 X Se estas médias forem plotadas em um histograma Figura 38 Figura 38 Histograma de médias amostrais Fonte adaptada pelo autor de Statsoft 109 Se forem calculados a média e a variância das médias de todas as amostras o resultado será 53 5616 X n 2 1 25 0 625 x V 2 Observe como a distribuição das médias amostrais da variável pode ser aproximada por um modelo normal não obstante a distribuição da variável na população não ser normal e que o valor esperado das médias amostrais média das médias é igual ao valor da média populacional da variável e a variância das médias amostrais é igual ao valor da variância populacional da variável dividida pelo tamanho da amostra Quanto maior o tamanho da amostra quanto maior n mais o histograma acima vai se aproximar de um modelo normal independentemente do formato da distribuição da variável na população Podemos então enunciar os teoremas Teorema das Combinações Lineares Se a variável de interesse segue uma distribuição normal na população a distribuição amostral das médias de amostras aleatórias retiradas desta população também será normal independentemente do tamanho destas amostras Teorema Central do Limite Se a variável de interesse não segue uma distribuição normal na população ou não se sabe qual é a sua distribuição a distribuição amostral das médias de amostras aleatórias retiradas desta população será normal se o tamanho destas amostras for suficientemente grande LINK Este suficientemente grande varia de distribuição para distribuição como foi visto uma distribuição uniforme precisa de uma amostra pequena n 2 no caso para que a aproximação seja possível outras distribuições precisam de amostras maiores Alguns autores costumam chamar de grandes amostras aquelas que possuem mais de 30 elementos a partir deste tamanho a aproximação poderia ser feita sem maiores 110 preocupações LINK com uma média igual à média populacional e uma variância igual à variância populacional dividida pelo tamanho da amostra Para o caso da Proporção podemos chegar a uma conclusão semelhante 432 Distribuição amostral da proporção Vamos estudar as particularidades da distribuição amostral da proporção através de um exemplo Exemplo 3Seja uma variável qualitativa que pode assumir apenas dois valores e que constitui a seguinte população Vamos supor que há interesse no valor este valor seria o nosso sucesso A proporção deste valor na população o valor do parâmetro será 15 Se retirarmos todas as amostras aleatórias de 2 elementos com reposição possíveis desta população n 2 teremos os seguintes resultadosLINK Há 25 amostras possíveis LINK Figura 39 Amostras de tamanho 2 para proporção Fonte elaborada pelo autor Observe que se definirmos a variável como o número de sucessos número de esta seguirá um modelo binomial há apenas dois resultados possíveis para cada realização 111 há um número limitado de realizações n 2 no caso e cada realização independe da outra porque a amostra é aleatória com reposição Calculando a proporção de em cada uma das amostras e chamando esta proporção amostral de p teremos os seguintes resultados 1 1 2 1 2 1 2 2 1 1 2 0 0 0 0 1 2 0 0 0 0 1 2 0 0 0 0 1 2 0 0 0 0 p Calculando a média valor esperado e a variância das proporções acima teremos 5 1 Ep X n 1 2 5 1 1 5 1 0 08 s2 Observe que o valor esperado média das proporções amostrais é igual ao valor da proporção populacional de e que a variância das proporções amostrais é igual ao produto da proporção populacional de por seu complementar dividido pelo tamanho da amostraLINK Voltaremos a analisar o significado deste resultado quando estudarmos Estimação por Ponto LINK Lembrese de que um modelo binomial pode ser aproximado por um modelo normal se algumas condições forem satisfeitas se o produto do número de realizações pela probabilidade de sucesso n p E o produto do número de realizações pela probabilidade de fracasso n 1 p forem ambos maiores ou iguais a 5 LINK Isto também é decorrência do Teorema Central do Limite LINK E esta distribuição normal teria média igual a n p e variância igual a n p 1 p Se estivermos interessados apenas na proporção probabilidade de sucesso e não no número de sucessos as expressões anteriores podem ser divididas por n o tamanho da amostra média p e variância p 1 p n 112 Por causa do Teorema Central do Limite é que o modelo normal é tão importante É claro que ele representa muito bem uma grande variedade de fenômenos mas é devido à sua utilização em Inferência Estatística que o seu estudo é imprescindível Ressaltese porém que a sua aplicação costuma resumirse ao que se chama de Inferência Paramétrica inferências sobre os parâmetros dos modelos probabilísticos que descrevem as variáveis na população Para fazer inferências sobre outros aspectos que não os parâmetros ou quando as amostras utilizadas não forem suficientemente grandes para se assumir a validade do Teorema Central do Limite é preciso usar técnicas de Inferência Não Paramétrica que nós não veremos nesta disciplina Tô afim de saber Sobre distribuição amostral BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 2ª ed São Paulo Atlas 2008 capítulo 7 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo 7 ANDERSON DR SWEENEY DJ WILLIAMS TA Estatística Aplicada à Administração e Economia 2ª ed São Paulo Thomson Learning 2007 capítulo 7 Sobre a utilização do Microsoft Excel para estudar distribuições amostrais veja LEVINE D M STEPHAN D KREHBIEL T C BERENSON M L Estatística Teoria e Aplicações Usando Microsoft Excel em Português 5ª ed Rio de Janeiro LTC 200 capítulo 5 Resumo O resumo desta Unidade está mostrado na Figura40 113 Figura 40 Resumo da Unidade 4 Fonte elaborado pelo autor Pesquisa por amostragem Amostragem probabilística Inferência Estatística generalizar para a população Modelo probabilístico da população Estimação de Parâmetros Testes de Hipóteses Estatísticas x Parâmetros Distribuição amostral amostra probabilística estatísticas são variáveis aleatórias Média Proporção Média das médias amostrais média populacional Variância das médias amostrais variância populacionaln Médias amostrais seguem modelo normal para n suficientemente grande Média das proporções amostrais proporção populacional Variância das proporções amostrais x 1 n Proporções amostrais seguem modelo normal para n suficientemente grande é a proporção populacional Teorema das combinações lineares Teorema Central do Limite n é o tamanho de amostra 114 Atividades de aprendizagem 1 Uma variável tem média 200 e desvio padrão 12 na população com uma distribuição bastante assimétrica a Imagine que serão retiradas amostras aleatórias de 2 elementos desta população a1 Encontre a média das médias amostrais R 200 a2 Encontre o desvio padrão das médias amostrais R 8485 a3 A distribuição das médias amostrais será aproximadamente normal JUSTIFIQUE b Imagine que serão retiradas amostras aleatórias de 225 elementos desta população b1 Encontre a média das médias amostrais R 200 b2 Encontre o desvio padrão das médias amostrais R 08 b3 A distribuição das médias amostrais será aproximadamente normal JUSTIFIQUE 2 O censo indicou que 60 dos homens de um município são casados Se fossem retiradas amostras aleatórias de 200 elementos da população de homens a Qual é a média da proporção amostral de casados R 060 b Qual é o desvio padrão da proporção amostral de casados R 00346 c A distribuição das proporções amostrais será aproximadamente normal JUSTIFIQUE d Supondo que a distribuição das proporções amostrais possa ser considerada normal qual é a probabilidade de uma proporção de uma das amostras aleatórias diferir em mais de 5 para mais ou para menos da proporção populacional R aproximadamente 01484 3 Sabese que 50 dos edifícios construídos em uma grande cidade apresentam problemas estéticos relevantes em menos de 5 anos após a entrega da obra Considerando a seleção de uma amostra aleatória simples com 200 edifícios com 5 anos qual é a probabilidade de menos de 90 deles apresentarem problemas estéticos relevantes considerar que não tenha havido obras de reparo nos edifícios selecionados R aproximadamente 00783 115 Caro estudante Esta Unidade foi muito importante para o seu aprendizado pois lhe dará base para chegar à Inferência Estatística propriamente dita assunto que será tema de discussão nas Unidades 5 e 6 Vimos até agora sobre a inferência estatística e distribuição amostral seu modelo probabilístico e testes de hipóteses Chegamos ao final desta Unidade e a continuidade da aprendizagem proposta desde o início deste material Interaja com seus colegas responda a atividade de aprendizagem e visite o Ambiente Virtual de EnsinoAprendizagem espaço este que contemplará suas possíveis dúvidasProcure seu tutor e solicite todas as informações necessárias para o seu aprendizado Bons estudos 116 Unidade 5 Estimação de parâmetros 117 Objetivo Nesta Unidade você vai conhecer e aplicar os conceitos de Estimação de Parâmetros por Ponto e por Intervalo de Média e Proporção e aprenderá como calcular o tamanho mínimo de amostra necessário para a Estimação por Intervalo 118 Prezado estudante Na Unidade 4 você viu o conceito de Distribuição Amostral e observou a importância do modelo normal Nesta Unidade você vai aprender como aplicar estes conceitos no primeiro tipo particular de Inferência Estatística a Estimação de Parâmetros por ponto e por intervalo Parâmetros são medidas de síntese de variáveis quantitativas na População que estamos pesquisando Por ser inviável ou inconveniente pesquisar toda a População coletamos uma amostra para estudála Os resultados da amostra podem ser então usados para fazer afirmações probabilísticas sobre o parâmetro de interesse definir um intervalo possível para os valores do parâmetro e calcular a probabilidade de que o valor real do parâmetro esteja dentro dele esta é a Estimação por Intervalo Vamos aprender como estimar os parâmetros média de uma variável quantitativa e proporção de um dos valores de uma variável qualitativa Além disso você vai ver como é possível definir de forma mais acurada o tamanho mínimo de uma amostra aleatória para estimar média e proporção para esta última apresentamos uma primeira expressão de cálculo Unidade 3 51 Estimação por Ponto Uma vez tendo decidido que modelo probabilístico é mais adequado para representar a variável de interesse na População resta obter os seus parâmetros Nos estudos feitos com base em amostras é preciso escolher qual das estatísticas da amostra será o melhor estimador para cada parâmetro do modelo A Estimação por PontoGLOSSÁRIO Estimação por ponto tipo de estimação de parâmetros que procura identificar qual é o melhor estimador para um parâmetro populacional a partir das várias estatística amostrais disponíveis seguindo alguns 119 critériosFonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIOconsiste em determinar qual será o melhor estimador para o parâmetro de interesse Como os parâmetros serão estimados através das estatísticas estimadoresde uma amostra aleatória e como para cada amostra aleatória as estatísticas apresentarão diferentes valores os estimadores também terão valores aleatórios Em outras palavras um Estimador é uma variável aleatória que pode ter um modelo probabilístico para descrevêla Naturalmente haverá várias estatísticas T que poderão ser usadas como estimadores de um parâmetro qualquer Como escolher qual das estatísticas será o melhor estimador para o parâmetro Há basicamente três critérios para a escolha de um estimador o estimador precisa ser justo consistente e eficiente 1 Um Estimador T é um estimador justo não tendencioso de um parâmetro quando o valor esperado de T é igual ao valor do parâmetro a ser estimado ET 2 Um Estimador T é um estimador consistente de um parâmetro quando além ser um estimador justo a sua variância tende a zero à medida que o tamanho da amostra aleatória aumenta 0 VT lim n 3 Se há dois Estimadores justos de um parâmetro o mais eficiente é aquele que apresentar a menor variância Conforme foi dito na introdução desta Unidade estamos interessados em estimar dois parâmetros média e proporção populacional Vamos então buscar os estimadores mais apropriados para ambos 120 511 Estimação por ponto dos principais parâmetros Os principais parâmetros que vamos avaliar aqui são média de uma variável que segue um modelo normal ou qualquer modelo se a amostra for suficientemente grande em uma população média populacional µ e proporção de ocorrência de um dos valores de uma variável que segue um modelo Binomial em uma população proporção populacional π Em suma escolher quais estatísticas amostrais são mais adequadas para estimar estes parâmetros usando os critérios definidos acima Lembrandose dos Exemplos 2 e 3 da Unidade 4 algumas constatações que lá foram feitas passarão a fazer sentido agora Vamos supor que houvesse a intenção de estimar a média populacional da variável do Exemplo 2 Qual das estatísticas disponíveis seria o melhor estimador Lembremse de que após retirar todas as amostras aleatórias possíveis daquela população calculamos a média de cada amostra e posteriormente a média dessas médias Constatouse que o valor esperado das médias amostrais média das médias é igual ao valor da média populacional da variável e a variância das médias amostrais é igual ao valor da variância populacional da variável dividida pelo tamanho da amostra Ex n x V 2 O melhor estimador da média populacional µ é a média amostral x pois se trata de um estimador justo e consistente Justo porque o valor esperado da média amostral será a média populacional Consistente porque se o tamanho da amostra n tender ao infinito a variância da média amostral do Estimador tenderá a zero Agora vamos supor que houvesse a intenção de estimar a proporção populacional do valor da variável do Exemplo 3 Qual das estatísticas disponíveis seria o melhor estimador 121 Lembremse de que após retirar todas as amostras aleatórias possíveis daquela população calculamos a proporção de em cada amostra e posteriormente a média dessas proporções Constatouse que o valor esperado das proporções amostrais média das proporções é igual ao valor da proporção populacional do valor da variável e a variância das proporções amostrais é igual ao valor do produto da proporção populacional do valor da variável pela sua complementar dividida pelo tamanho da amostra Ep n 1 Vp O melhor estimador da proporção populacional é a proporção amostral p pois se trata de um estimador justo e consistente Justo porque o valor esperado da proporção amostral será a proporção populacional Consistente porque se o tamanho da amostra n tender ao infinito a variância da proporção amostral do Estimador tenderá a zero Poderíamos fazer um procedimento semelhante para estimar outros parâmetros como por exemplo a variância populacional de uma variável Este procedimento não será demonstrado mas o melhor estimador da variância populacional será a variância amostral se for usado n 1no denominador da expressão de cálculo Somente assim a variância amostral será um estimador justo não viciado da variância populacional Como o desvio padrão é a raiz quadrada da variância é comum estimar o desvio padrão populacional extraindo a raiz quadrada da variância amostral O problema da Estimação por Ponto é que geralmente só dispomos de uma amostra aleatória Intuitivamente qual será a probabilidade de que a média ou proporção amostral de uma amostra aleatória coincida exatamente com o valor do parâmetro É como pescar usando uma lança de bambu É preciso muita habilidade para pegar o peixe Mas se você puder usar uma rede ficará bem mais fácil Esta rede é a Estimação por Intervalo 122 52 Estimação por Intervalo de Parâmetros Geralmente uma inferência estatística é feita com base em uma única amostra na maior parte dos casos é totalmente inviável retirar todas as amostras possíveis de uma determinada população Intuitivamente percebemos que as estatísticas calculadas nessa única amostra mesmo sendo os melhores estimadores para os parâmetros de interesse terão uma probabilidade infinitesimal de coincidir exatamente com os valores reais dos parâmetros Então a Estimação por Ponto dos parâmetros é insuficiente e as estimativas assim obtidas servirão apenas como referência para a Estimação por Intervalo A Estimação por Intervalo consiste em colocar um Intervalo de Confiança IC em torno da estimativa obtida através da Estimação por Ponto O Intervalo de Confiança GLOSSÁRIO Intervalo de confiança faixa de valores da estatística usada como estimador dentro da qual há uma probabilidade conhecida de que o verdadeiro valor do parâmetro esteja Sinônimo de estimação por intervalo Fonte Barbetta Reis e Bornia 2010 FimGLOSSÁRIOterá uma certa probabilidade chamada de Nível de confiança que costuma ser simbolizado como 1 α de conter o valor real do parâmetro LINK fazer uma Estimação por Intervalo de um parâmetro é efetuar uma afirmação probabilística sobre este parâmetro indicando uma faixa de possíveis valores LINK e a probabilidade de que esta faixa realmente contenha o valor real do parâmetro A probabilidade de que o Intervalo de Confiança não contenha o valor real do parâmetro é chamada de Nível de Significância α e o valor desta probabilidade será o complementar do Nível de ConfiançaGLOSSÁRIO Nível de confiança probabilidade de que o intervalo de confiança contenha o valor real do parâmetro a estimar esperase que seja um valor alto de no mínimo 90 Fonte Moore McCabe Duckworth e Sclove 2006 Fim GLOSSÁRIO É comum definir o Nível de Significância como uma probabilidade máxima de erro um risco máximo admissível 123 A determinação do Intervalo de Confiança para um determinado parâmetro resume se basicamente a definir o Limite Inferior e o Limite Superior do intervalo supondo um determinado Nível de Confiança ou SignificânciaGLOSSÁRIO Nível de Significância complementar do nível de confiança a probabilidade de que o intervalo de confiança não contenha o valor real do parâmetro Probabilidade de erro esperase que seja um valor baixo de no máximo 10 Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIO A definição dos limites dependerá também da distribuição amostral da estatística usada como referência para o intervalo e do tamanho da amostra utilizada Para os dois parâmetros em que temos maior interesse média populacional µ e proporção populacional π a distribuição amostral dos estimadores média amostral x e proporção amostral p respectivamente pode ser aproximada por uma distribuição normal o Intervalo de Confiança será então simétrico em relação ao valor calculado da estimativa média ou proporção amostral com base na amostra aleatória coletada Figura 66 Figura 41 Intervalo de Confiança para um modelo normal Fonte elaborada pelo autor Onde Li é o limite inferior e Ls é o limite superior do Intervalo de Confiança 1 α é o Nível de Confiança estabelecido observando que o valor do Nível de Significância α é dividido igualmente entre os valores abaixo de Li e acima de Ls Para obter os limites em função do Nível de Confiança devemos utilizar a distribuição normal padrão variável Z com média zero e variância um fixar um certo valor de probabilidade obter o valor de Z correspondente e substituir o valor em Z x 124 média desvio padrão LINK Foram colocados entre aspas porque os valores dependerão dos parâmetros sob análise e de outros fatores LINK para obter o valor x valor correspondente ao valor de Z para a probabilidade fixada Observe a Figura 42 Figura 42 Intervalo de Confiança para a distribuição normal padrão Fonte elaborada pelo autor O limite Li inferior corresponde a Z1 e o limite Ls superior corresponde a Z2 O ponto central 0 zero corresponde ao valor calculado da Estimativa Como a variável Z tem distribuição normal com média igual a zero lembrando que a distribuição normal é simétrica em relação à média os valores de Z1 e Z2 serão iguais em módulo Z1 será negativo e Z2 positivo Z1 será um valor de Z tal que 2 Z PZ 1 e Z2 será um valor tal que 2 1 Z PZ 2 Então obteremos os valores dos limites através das expressões Z1 Li média desvio padrão Li média Z1 desvio padrão Z2 Ls média desvio padrão Ls média Z2 desvio padrão Como Z1 Z2 podemos substituir Li média Z2 desvio padrão Ls média Z2 desvio padrão E este valor Z2 costuma ser chamado de Zcrítico porque corresponde aos limites do intervalo Li média Zcrítico desvio padrão Ls média Zcrítico desvio padrão 125 Reparem que o mesmo valor é somado e subtraído da média Este valor é chamado de semiintervalo ou precisão do intervalo ou margem de erro e0 e0 Zcrítico desvio padrão Resta agora definir corretamente o valor da média e do desvio padrão para cada um dos parâmetros em que estamos interessados média e proporção populacional Com base nas conclusões obtidas na Estimação por Ponto isso será simples Contudo há alguns outros aspectos que precisarão ser esmiuçados 521 Estimação por Intervalo da Média Populacional Lembrando das expressões anteriores Li média Zcrítico desvio padrão média e0 Ls média Zcrítico desvio padrão média e0 Neste caso a média será a média amostral x ou mais precisamente o seu valor P x e x e 0 0 1 O valor de e0 dependerá de outros aspectos a Se a variância populacional 2 da variável cuja média populacional queremos estimar for conhecida Neste caso a variância amostral da média poderá ser calculada através da expressão n x V 2 e por conseguinte o desvio padrão será n desvio padrao E e0 será n Z e critico 0 Bastará então fixar o Nível de Confiança ou de Significância para obter Zcrítico através da Tabela disponível no Ambiente Virtual e calcular e0 126 b Se a variância populacional 2 da variável for desconhecida Naturalmente este é o caso mais encontrado na prática Como se deve proceder Dependerá do tamanho da amostra b1 Grandes amostras mais de 30 elementos Nestes casos procedese como no item anterior apenas fazendo com que s ou seja considerando que o desvio padrão da variável na população é igual ao desvio padrão da variável na amostra suposição razoável para grandes amostras b2 Pequenas amostras até 30 elementos Nestes casos a aproximação do item b1 não será viável Terá que ser feita uma correção na distribuição normal padrão Z através da distribuição t de Student que estudamos na Unidade 2 Quando a variância populacional da variável é desconhecida e a amostra tem até 30 elementos substituise por s e Z por tn1 em todas as expressões para determinação dos limites do intervalo de confiança obtendo Li média tn1crítico desvio padrão média e0 Ls média tn1crítico desvio padrão média e0 E e0 será n s t e 1 critico n 0 Os valores de tn1crítico podem ser obtidos de forma semelhante aos de Zcrítico definindo o Nível de Confiança ou de Significância mas precisam também da definição do número de graus de liberdade n 1 tendo estes valores basta procurar o valor da Tabela 2 do Ambiente Virtual ou em um programa computacional 127 Se o tamanho da amostra n for superior a 5 do tamanho da população N os valores de e0 precisam ser corrigidos Caso contrário os limites dos intervalos não serão acusados A correção é mostrada na equação a seguir 1 N n N e e 0 0corrigido Exemplo 1 Retirouse uma amostra aleatória de 4 elementos de uma produção de cortes bovinos no intuito de estimar a média do peso do corte Obtevese média de 82 kg e desvio padrão de 04 kg Supondo população normalDeterminar um intervalo de confiança para a média populacional com 1 de significância O parâmetro de interesse é a média populacional µ do peso do corte Adotouse um nível de significância de 1 então α 001e 1 α 099LINK Este valor pode ser arbitrado pelo usuário ou pode ser uma exigência do problema sob análise ou até mesmo uma exigência legal Os níveis de significância mais comuns são de 1 5 ou mesmo 10 LINK As estatísticas disponíveis são média amostral 82 kg s 04 kg n 4 elementos Definição da variável de teste como a variância populacional é DESCONHECIDA e o tamanho da amostra é menor do que 30 elementos não obstante a população ter distribuição normal a distribuição amostral da média será t de Student e a variável de teste será tn1 Encontrar o valor de tn1crítico como o Intervalo de Confiança para a média é bilateral teremos uma situação semelhante à da Figura 43 128 Figura 43 Distribuição t de Student para 99 de confiança Fonte elaborada pelo autor a partir de Statgraphics Para encontrar o valor crítico devemos procurar na tabela da distribuição de Student na linha correspondente a n1 graus de liberdade ou seja em 4 1 3 graus de liberdade O valor da probabilidade pode ser visto na Figura acima os valores críticos serão t30005e t30995os quais serão iguais em módulo E o valor de tn1críticoserá igual a 584 em módulo Determinamse os limites do intervalo através da expressão abaixo cujo resultado será somado e subtraído da média amostral para determinar os limites do intervalo 168kg 1 4 40 84 5 n s t e 1 crítico n 0 7 032kg 1168 28 e x L 0 I 9 368kg 1168 28 e x L 0 S Então o intervalo de 99 de confiança para a média populacional da dimensão é 70329368 kg Interpretação há 99 de probabilidade de que a verdadeira média populacional do peso de corte esteja entre 7032 e 9368 kg 522 Estimação por Intervalo da Proporção Populacional Anteriormente declaramos que o melhor estimador para a proporção populacional π é a proporção amostral p E que esta proporção amostral teria média igual a π e variância igual a π x 1 πn onde n é o tamanho da amostra aleatória A distribuição da 129 proporção amostral p é binomial e sabese que a distribuição binomial pode ser aproximada por uma normal se algumas condições forem satisfeitas Se nπ 5E n 1 π 5 Ora se fosse conhecido não estaríamos aqui nos preocupando com a sua Estimação por Intervalo assim vamos verificar se é possível aproximar a distribuição binomial de p por uma normal se np 5E n 1 p 5 ou seja usando o próprio valor da proporção amostral observada tratase de uma aproximação razoável Se e somente se estas duas condições forem satisfeitas poderemos usar as expressões abaixo lembrando das expressões anteriores Li média Zcrítico desvio padrão média e0 Ls média Zcrítico desvio padrão média e0 Neste caso a média será a proporção amostral ou mais precisamente o seu valor 1 e p e Pp 0 0 E o valor do desvio padrão será igual a n 1 Novamente como π é desconhecido usaremos a proporção amostral p como aproximação Então e0 será n p 1 p Z e critico 0 Bastará então fixar o Nível de Confiança ou de Significância Zcrítico e calcular e0 Novamente precisamos corrigir o valor de e0 para o caso de população finita 1 N n N e e 0 0corrigido 130 Em suma a Estimação por Intervalo da média e da proporção populacional consiste basicamente em calcular a amplitude do semiintervalo o e0 de acordo com as condições do problema sob análise Para a média observar se é viável considerar que a distribuição da variável na população é normal ou que a amostra seja suficientemente grande para que a distribuição das médias amostrais possa ser considerada normal Se isso for verificado identificar se a variância populacional da variável é conhecida caso seja deverá ser usada a variável Z da distribuição normal padrão para qualquer tamanho de amostra Se variância populacional da variável é desconhecida há duas possibilidades para amostras com mais de 30 elementos usar a variável Z e fazer a variância populacional igual à variância amostral da variável se a amostra tem até 30 elementos usar a variável tn1 da distribuição de Student Para a proporção observar se é possível fazer a aproximação pela distribuição normal Exemplo 2 Retirouse uma amostra aleatória de 1000 peças de um lote Verificouse que 35 eram defeituosasDeterminar um intervalo de confiança de 95 para a proporção peças defeituosas no lote O parâmetro de interesse é a proporção populacional π de peças defeituosas Adotouse um nível de significância de 5 então α 005e 1 α 095 As estatísticas são proporção amostral de peças defeituosas p 351000n 1000 elementos Definição da variável de teste precisamos verificar se é possível fazer a aproximação pela normal entãon x p 1000 x 0035 35 5 e n x 1 p 1000 x 0965 965 5 Como ambos os produtos satisfazem as condições para a aproximação podemos usar a variável Z da distribuição normal padrão 131 Encontrar o valor de Zcrítico como o Intervalo de Confiança para a média é bilateral teremos uma situação semelhante à da Figura Figura 44 Distribuição normal padrão para 95 de confiança Fonte elaborada pelo autor Para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0975 0950025 O valor da probabilidade pode ser visto na Figura 84acima os valores críticos serão Z0025e Z0975os quais serão iguais em módulo E o valor de Zcríticoserá igual a 196 em módulo Passase agora a determinação dos limites do intervalo através da expressão abaixo cujo resultado será somado e subtraído da proporção amostral de peças defeituosas para determinar os limites do intervalo 0 0114 1000 0 965 0 035 196 n p 1 p Z e critico 0 0 0236 0 0114 0 035 e p L 0 I 0 0464 0 0114 0 035 e p L 0 S Então o intervalo de 95 de confiança para a proporção populacional de peças defeituosas é 236464 Interpretação há 95 de probabilidade de que a verdadeira proporção populacional de plantas atacadas pelo fungo esteja entre 236 e 464 132 53 Tamanho mínimo de amostra para Estimação por Intervalo Como foi observado nos itens anteriores a determinação dos limites de um Intervalo de Confiançadeterminação do e0 depende do tamanho da amostra aleatória coletada além do Nível de Confiança e da distribuição amostral do estimador utilizado Nada podemos fazer quanto à distribuição amostral do estimador o Nível de Confiança nós podemos controlar seria interessante definir então uma precisão um valor para e0 para o Intervalo de Confiança é muito comum querermos estabelecer previamente qual será a faixa de variação de um determinado parâmetro com uma certa confiabilidade Contudo para um mesmo tamanho de amostra se aumentarmos o Nível de Confiança reduzirmos o Nível de Significância teremos um valor crítico maior o que aumentará o valor de e0 resultando em um Intervalo de Confiança mais largo com menor precisão se resolvermos aumentar a precisão menor valor de e0 obter um Intervalo de Confiança mais estreito teremos uma queda no Nível de Confiança A solução para o dilema acima é obter um tamanho mínimo de amostra capaz de atender simultaneamente ao Nível de Confiança ou de Significância e à precisão e0 especificados Como as expressões de e0 são em função do tamanho de amostra n seria razoável pensar em reordenálas de forma a fazer com que o tamanho de amostra seja função do Nível de Confiança e da precisão e0 531 Tamanho mínimo de amostra para Estimação por Intervalo da Média Populacional a Variância populacional conhecida n Z e critico 0 isolandon 2 0 critico e Z n 133 Neste caso basta especificar o valor de e0 na mesma unidade do desvio padrão populacional e o Nível de Confiança que será usado para encontrar o Zcrítico e calcular o tamanho mínimo de amostra b Variância populacional desconhecida n s t e 1 critico n 0 isolandon 2 0 1 critico n e s t n O procedimento neste caso seria semelhante exceto por um pequeno problema se estamos calculando o tamanho da amostra como podemos conhecer n 1 e o desvio padrão amostral s Quando a variância populacional da variável é desconhecida o usual é retirar uma amostra pilotoGLOSSÁRIO Amostra piloto amostra teste de tamanho arbitrado pelo pesquisador a partir da qual são calculadas estatísticas necessárias para a determinação do tamanho mínimo de amostra Fonte Costa Neto 2002 Fim GLOSSÁRIOcom um tamanho n arbitrário A partir dos resultados desta amostra são calculadas as estatísticas entre elas o desvio padrão amostral s que são substituídas na expressão acima Se nn então a amostra piloto é suficiente para o Nível de Confiança e a precisão exigidos Se nn então a amostra piloto é insuficiente para o Nível de Confiança e a precisão exigidas sendo então necessário retornar à população e retirar os elementos necessários para completar o tamanho mínimo de amostra O processo continua até que a amostra seja considerada suficiente Conforme visto na Unidade 3 se o tamanho da população for conhecido é recomendável corrigir o tamanho da amostra obtida seja para o intervalo de confiança de média ou proporção através da seguinte fórmula 134 n N n N n corrigido onde N é o tamanho da população Assim procedendo evitamos o inconveniente de obter um tamanho de amostra superior ao tamanho da população o que pode ocorrer se N não for muito grande Exemplo 3 Considere os dados do Exemplo 1 Para estimar a média com 1 de significância e precisão de 02 kg esta amostra é suficiente Como a variância populacional é desconhecida e o tamanho da amostra é menor do que 30 elementos não obstante a população ter distribuição normal a distribuição amostral da média será t de Student e a variável de teste será tn1 Assim será usada a seguinte expressão para calcular o tamanho mínimo de amostra para a estimação por intervalo da média populacional 2 0 1 critico n e s t n O nível de significância é o mesmo do item a Sendo assim o valor crítico continuará sendo o mesmo tn1crítico 584 O desvio padrão amostral vale 04 kg e o valor de e0 a precisão foi fixado em 02 kg Basta então substituir os valores na expressão 137 13642 20 40 84 5 e s t n 2 2 0 n 1 critico elementos Concluise que a amostra retirada é insuficiente pois é menor do que o valor calculado acima 532 Tamanho mínimo de amostra para Estimação por Intervalo da Proporção Populacional Para a proporção populacional teremos n p 1 p Z e critico 0 isolando n p 1 p e Z n 2 0 critico 135 É necessário especificar o Nível de Confiança ou de Significância que será usado para encontrar o Zcrítico e o valor de e0 tomando o cuidado de que tanto e0 quanto p e 1 p estejam todos como proporções adimensionais ou como percentuais para que seja possível calcular o valor do tamanho mínimo de amostra Da mesma forma que no caso da Estimação da média quando a variância populacional é desconhecida teremos que recorrer à uma amostra piloto No cálculo do tamanho mínimo de amostra para a Estimação por Intervalo da proporção populacional há porém uma solução alternativa utilizase uma estimativa exageradaLINK Esta solução somente é usada quando a natureza da pesquisa é tal que não é possível retirar uma amostra piloto a retirada de uma amostra piloto e a eventual retirada de novos elementos da população poderiam prejudicar muito o resultado da pesquisa Pagase então o preço de ter uma amostra substancialmente maior do que talvez fosse necessário LINK da amostra supondo o máximo valor possível para o produto p 1 p que ocorrerá quando ambas as proporções forem iguais a 05 50 Conforme visto na Unidade 3 se o tamanho da população for conhecido é recomendável corrigir o tamanho da amostra obtida seja para o intervalo de confiança de média ou proporção através da seguinte fórmula n N n N n corrigido onde N é o tamanho da população Assim procedendo evitamos o inconveniente de obter um tamanho de amostra superior ao tamanho da população o que pode ocorrer se N não for muito grande Exemplo 4 Considere o caso do Exemplo 2 Supondo 99 de confiança e precisão de 1 esta amostra é suficiente para estimar a proporção populacional De acordo com o Exemplo 2 é possível utilizar a aproximação pela distribuição normal A expressão para o cálculo do tamanho mínimo de amostra para a proporção populacional será 136 p 1 p e Z n 2 0 critico Os valores de p e 1 p já são conhecidos p 0035 1 p 0965 O nível de confiança exigido é de 99 para encontrar o valor crítico devemos procurar na tabela da distribuição normal padrão pela probabilidade 0995 0990005 os valores críticos serão Z0005e Z0995os quais serão iguais em módulo E o valor de Zcríticoserá igual a 258 em módulo A precisão foi fixada em 1 001 Substituindo os valores na expressão acima 2249 224814 0 965 0 035 0 01 2 58 p 1 p e Z n 2 2 0 critico Observe que o tamanho mínimo de amostra necessário para atender a 99 de confiança e precisão de 1 deveria ser de 2249 elementos Como a amostra coletada possui apenas 1000 elementos ela é insuficiente para a confiança e precisão exigidas Recomenda se o retorno à população para a retirada aleatória de mais 1249 peças Visto tudo o que estudamos agora você já pode acompanhar atentamente os resultados das pesquisas de opinião veiculadas na mídia Apenas mais um pequeno adendo 54 Empate técnico Estamos acostumados a ouvir declarações do tipo os candidatos A e B estão tecnicamente empatados na preferência eleitoral O que significa isso Geralmente as pesquisas de opinião eleitoral consistem em obter as proporções de entrevistados que declara votar neste ou naquele candidato naquele momento Posteriormente as proporções são generalizadas estatisticamente para a população através do cálculo de intervalos de confiança para as proporções de cada candidato Se os intervalos de confiança das proporções de dois ou mais candidatos apresentam grandes superposições declarase que há 137 um empate técnico as diferenças entre eles devemse provavelmente ao acaso e para todos os fins estão em condições virtualmente iguais naquele momento Exemplo 3 Imagine que uma pesquisa de opinião eleitoral apresentasse os seguintes resultados intervalos de confiança para a proporção que declara votar no candidato sobre a prefeitura do município de Tapioca Quais candidatos estão tecnicamente empatados Quadro 5 Opinião Limite inferior Limite superior Godofredo Astrogildo 31 37 Filismino Arquibaldo 14 20 Urraca Hermengarda 13 19 Salustiano Quintanilha 22 28 Indecisos 11 17 Quadro 5 Resultados de uma pesquisa eleitoral municipal Fonte fictícia elaborado pelo autor Filismino e Urraca estão tecnicamente empatados pois seus intervalos de confiança apresentam grande sobreposição Godofredo está muito na frente pois o limite inferior de seu intervalo é maior do que o limite superior de Salustiano que está em segundo lugar É importante ressaltar que o número de indecisos é razoável variando de 11 a 17 quando eles se decidirem poderão mudar completamente o quadro da eleição ou garantir a vitória folgada de Godofredo Tô afim de saber Sobre propriedades e características desejáveis de um estimador BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 7 Sobre estimadores e intervalos de confiança para variância TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 capítulo 6 138 Para entender melhor o conceito de distribuição amostral e sua relação com estimação de parâmetros veja o arquivo Estimaxls e suas instruções no ambiente virtual Sobre a utilização do Microsoft Excel para realizar estimação por intervalo LEVINE D M STEPHAN D KREHBIEL T C BERENSON M L Estatística Teoria e Aplicações Usando Microsoft Excel em Português 5ª ed Rio de Janeiro LTC 200 capítulo 6 Atividades de aprendizagem 1 O tempo médio de atendimento em uma agência lotérica está sendo analisado por técnicos Uma amostra de 40 clientes foi sistematicamente monitorada em relação ao tempo que levavam para serem atendidos obtendose as seguintes estatísticas tempo médio de atendimento de 195 segundos e desvio padrão de 15 segundos Considerando que o tempo de utilização segue uma distribuição normal a Faça uma estimação por intervalo para o tempo médio de utilização para toda a população de clientes da agência lotérica utilizando um nível de confiança de 95 R 19035 a 19965 segundos b Se a legislação estabelecesse que em média o tempo seja de 180 segundos para atendimento a lotérica está atendendo ao padrão JUSTIFIQUE b A amostra utilizada seria suficiente para uma precisão de 1 minuto R Sim n 1 2 O tempo de montagem de determinados conectores utiliza um processo já há algum tempo que dura em média 35 segundos Está sendo analisada a possibilidade de troca deste processo para um outro que se afirma possuir um tempo de montagem menor Para esta análise foram observados os tempos de montagem de conectores por um operário padrão utilizando o novo processo e foram anotados os seguintes valores em segundos25 25 26 30 32 35 37 37 21 24 27 28 31 31 36 36 25 29 28 38 Considerando a situação exposta acima e utilizando um nível de confiança de 95 aEstime o tempo médio de montagem dos conectores utilizando o novo processo R 2767 a 3243 s 139 b Considerando que o tempo médio aceitável seja de 3 minutos o novo processo atende ao padrão JUSTIFIQUE c Calcule o tamanho mínimo da amostra que seria necessária para estimar a média com 95 de confiança e precisão de 05 segundos R n 5 3 Buscando melhorar a qualidade do serviço uma empresa estuda o tempo de atraso na entrega dos pedidos recebidos Supondo que o tempo de atraso se encontra normalmente distribuído e conhecendo o tempo de atraso dos últimos 20 pedidos descritos abaixo em dias determine 5 1 0 3 6 10 2 3 4 1 5 3 1 6 6 9 0 0 1 0 a Estime o atraso médio na entrega dos pedidos com confiança de 90 R 2136 a 4464 dias b Um dos clientes da empresa propôs romper o contrato pois reclama que os atrasos são muito grandes ele aceitaria em média 2 dias Com base nosresultados do item a a empresa deve se preocupar com a possibilidade de rompimento do contrato JUSTIFIQUE c Para a situação do item ao tamanho da amostra é suficiente se é necessária uma precisão de 05 dias para o mesmo nível de confiança R Não n 109 4 A satisfação da população de um estado em relação a determinado governo foi pesquisada através de uma amostra com a opinião de 1000 habitantes do estado Destes 585 se declararam insatisfeitas com a administração estadual Admitindose um nível de significância de 5 solucione os itens abaixo aEstime o percentual da população que está insatisfeita com a administração estadual R 5545 a 6155 b Com base no resultado do item a você considera a população do estado satisfeita com o governo JUSTIFIQUE cQual o tamanho da amostra necessária para a estimação se a empresa responsável pela pesquisa estipulou uma folga máxima de 25 R n 1493 140 5 Uma fábrica está convertendo as máquinas que aluga para uma versão mais moderna Até agora foram convertidas 40 máquinas O tempo médio de conversão foi de 24 horas com desvio padrão de 3 horas a Determine um intervalo de 98 de confiança para o tempo médio de conversão R 22895 h a 25105 h b A direção da fábrica esperava uma média de 20 h para a conversão A equipe responsável atingiu este padrão JUSITIFIQUE Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 6 Um banco possui 800 terminais de autoatendimento instalados no estado de SC Avaliando 48 terminais 6 apresentaram defeitos a Estime a proporção de terminais com defeitos R 3144 a 2186 b Você considera o intervalo de confiança obtido na letra a preciso para estimar a proporção de terminais com defeitos JUSTIFIQUE Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 7 Em uma pesquisa de mercado acerca da preferência pelo produto X 300 consumidores foram entrevistados sendo que 100 declararam consumir o produto a O fabricante quer que você determine um intervalo de 95 para a proporção populacional de pessoas que consomem o produto R 28 a 3867 b Um dos diretores do fabricante exige que o intervalo de confiança para a proporção populacional tenha 99 de confiança com um erro máximo de 25 Qual seria o tamanho de amostra necessário para atingir tais critériosR 2358 Adaptado de BUSSAB WO MORETTIN P A Estatística Básica 8a ed São Paulo Saraiva2013 141 8 A Polícia Rodoviária Estadual fez recentemente uma pesquisa secreta sobre as velocidades desenvolvidas na SC 401 das 23h às 2h No período de observação 100 carros passaram por um aparelho de radar a uma velocidade média de 112 kmh com desvio padrão de 22 kmh a Construa um intervalo de 95 de confiança para a média da população R 10769 kmh a 11631 kmh b O comando da Polícia divulgaria os resultados do item a apenas se a margem de erro fosse inferior a 10 kmh Na sua opinião os resultados podem ser divulgados JUSTIFIQUE Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 9 Uma máquina produz peças classificadas como boas ou defeituosas Retirouse uma amostra de 1000 peças da produção verificandose que 35 eram defeituosas O controle de qualidade para a linha de produção para rearranjo dos equipamentos envolvidos quando o percentual de defeituosos é superior a 3 a Determinar um intervalo de 95 de confiança para a proporção de peças defeituosas R 2361 a 4639 b Com base nos resultados do item a o controle de qualidade deve parar a produção JUSTIFIQUE C Se há interesse em obter um intervalo de 95 de confiança com precisão de 15 para a proporção de peças defeituosas qual deve ser o tamanho mínimo de amostraR 577 10 Os índices dos alunos dos cursos de Economia e de Administração estão sendo avaliados no sentido de definirem se há diferença entre os cursos Para tanto foram analisados os índices de 10 alunos de cada curso escolhidos aleatoriamente dentre os regularmente matriculados e anotados seus valores onde se obteve Economia média 73 desvio padrão 26 Administração média71 desvio padrão 31 a Estime os valores médios dos índices de cada curso com 95 de confiança R Economia 544 a 916 Administração 488 a 932 142 b Com base nos resultados do item a há diferenças significativas entre as médias dos índices dos dois cursos JUSTIFIQUE c Para o mesmo nível de confiança de a Será que 10 alunos é uma amostra suficiente em ambos os cursos para estimar seus índices médios com uma precisão igual a 1 Quais seriam os tamanhos de amostra necessários R Economia insuficiente n 35 Administração insuficiente n 50 11 O CRA de SC está conduzindo uma pesquisa sobre a opinião dos acadêmicos de administração sobre seus cursos Suspeitase que haja diferença entre as proporções de satisfeitos de instituições públicas e privadas os acadêmicos das públicas seriam mais satisfeitos Para avaliar esta suposição foi conduzida uma pesquisa por amostragem entrevistando alunos de duas instituições públicas SHUFSC e GASE e de três privadas PATÁPIO de SÁ UNIMALI e UNILUS Os resultados estão na tabela a seguir Medidas UNIVERSIDADES SHUFSC GASE PATÁPIO UNIMALI UNILUS n 120 165 185 194 189 p 055 048 032 049 025 N população 890 900 1500 1200 1800 Usando 1 de significância responda os itens a seguir a Estime a proporção populacional de satisfeitos com o seu curso em cada universidade R SHUFSC 4411 a 6589 GASE 3894 a 5706 PATÁPIO 2373 a 4027 UNIMALI 4053 a 5747 UNILUS 1732 a 3268 b De acordo com os resultados do item a a suposição do CRA é confirmada JUSTIFIQUE c Para uma margem de erro de 2 qual deveria ser o tamanho de amostra para estimar a proporção de satisfeitos em cada universidade R SHUFSC 732 GASE 740 PATÁPIO 1060 UNIMALI 931 UNILUS 1141 Resumo O resumo desta Unidade está mostrado na Figura45 143 Figura 45 Resumo da Unidade 5 Fonte elaborado pelo autor Estimação de Parâmetros Obter estimativas para os parãmetros do modelo populacional Estimação por ponto Escolher melhor estimador dentre as várias estatísticas Principais parâmetros Média Proporção Variância Melhor estimador média amostral Melhor estimador proporção amostral Melhor estimador variância amostral Estimação por Intervalo Intervalo de confiança em torno da estimação por ponto Cálculo da precisão e0 e limites do intervalo Média e proporção Tamanho mínimo de amostra para estimação por intervalo Média e proporção Critérios justo consistente eficiente Com n1 no denominador Nível de confiança Distribuição amostral do estimador Tamanho da amostra Corrigir se nN 005 Para determinada confiança e precisão Usar amostra piloto se necessário Corrigir com o tamanho da população N Modelo normal ou t de Student A partir de uma amostra aleatória 144 Vimos nessa Unidade sobre os conceitos de Estimação de Parâmetros Aprendemos a estimar os parâmetros média de uma variável quantitativa e proporção de um dos valores de uma variável qualitativa Além de definir o tamanho mínimo de uma amostra aleatória para estimar média e proporção Veremos mais sobre este assunto na última Unidade deste livro Estamos próximos do final do nosso material e é de suma importância a continuidade da interação comseus colegas e professor Não deixe de ver as tabelas indicadas no livro e disponíveis no Ambiente Virtual de EnsinoAprendizagem e de realizar a atividade de aprendizagem 145 Unidade 6 Testes de Hipóteses 146 Objetivo Nesta Unidade você vai conhecer e aplicar os conceitos de Testes de Hipóteses especialmente para média de uma variável quantitativa proporção de um dos valores de uma variável quantitativa e associação entre duas variáveis qualitativas Você aprenderá também qual é a importância de tais conceitos para o dia a dia do administrador 147 Caro estudante você viu anteriormente que uma determinada população pode ser descrita através de um modelo que apresenta características e parâmetros Muitas vezes estes parâmetros são desconhecidos e há interesse em estimálos para obter um melhor conhecimento sobre a população retirase então uma amostra aleatória da população e através das técnicas de Estimação de Parâmetros Unidade 5 procurase obter uma estimativa de algum parâmetro de interesse e associamos uma probabilidade de que a estimativa esteja correta Nesta última e importantíssima Unidade veremos que a Estimação de Parâmetros é uma subdivisão da Inferência Estatística que consiste em fazer afirmações probabilísticas sobre o modelo da população a partir de uma amostra aleatória desta população a outra grande subdivisão constitui os Testes de Hipóteses Vamos saber mais Contrariamente à Estimação de Parâmetros os Testes de Hipóteses permitem fazer inferências sobre outras características do modelo da população além dos parâmetros como por exemplo a forma do modelo da população Quando os Testes são feitos sobre os parâmetros da população são chamados de Testes ParamétricosGLOSSÁRIO Testes paramétricos testes de hipóteses sobre parâmetros do modelo da variável sob análise Fonte elaborado pelo autor Fim GLOSSÁRIO e quando são feitos sobre outras características são chamados de Testes Não ParamétricosGLOSSÁRIO Testes paramétricos testes de hipóteses sobre outros aspectos do modelo da variável sob análise ou alternativas aos testes paramétricos quando as condições para uso destes não forem satisfeitas Fonte elaborado pelo autor Fim GLOSSÁRIO TO AFIM DE SABER Na realidade a denominação correta deveria ser Testes dependentes de distribuição de referência porque para fazer inferências sobre os parâmetros devemos supor que o modelo probabilístico populacional é normal por exemplo ou que a distribuição amostral do parâmetro pode ser aproximada por uma normal e Testes livres de distribuição porque os Testes Não Paramétricos não exigem que os dados tenham uma aderência a certo modelo FIM Não obstante vamos nos restringir aos Testes Paramétricos de uma média de uma variável quantitativa e de uma proporção de um dos valores de uma variável qualitativa 148 Vimos que uma determinada população pode ser descrita através de um modelo probabilístico que apresenta características e parâmetros Muitas vezes estes parâmetros são desconhecidos e há interesse em estimálos para obter um melhor conhecimento sobre a população retirase então uma amostra aleatória da população e através das técnicas de Estimação de Parâmetros Unidade 5 procurase obter uma estimativa de algum parâmetro de interesse e associamos uma probabilidade de que a estimativa esteja correta A Estimação de Parâmetros é uma subdivisão da Inferência Estatística que consiste em fazer afirmações probabilísticas sobre o modelo probabilístico da população a partir de uma amostra aleatória desta população a outra grande subdivisão constitui os Testes de Hipóteses Contrariamente à Estimação de Parâmetros os Testes de Hipóteses permitem fazer inferências sobre outras características do modelo probabilístico da população além dos parâmetros como por exemplo a forma do modelo probabilístico da população Quando os Testes são feitos sobre os parâmetros da população são chamados de Testes Paramétricos e quando são feitos sobre outras características são chamados de Testes Não Paramétricos Não obstante vamos nos restringir aos Testes Paramétricos LINK A você estudante interessado em Testes Não Paramétricos recomendo a referência SIEGEL S Estatística Não Paramétrica para as Ciências do Comportamento McGrawHill São Paulo 1975 É uma boa referência no assunto em português LINK Imaginese que um determinado pesquisador está interessado em alguma característica de uma população Devido a estudos prévios ou simplesmente por bom senso melhor ponto de partida para o estudo ele estabelece que a característica terá um determinado comportamento Formula então uma hipótese estatística sobre a característica da população e esta hipótese é aceita como válida até prova estatística em contrário Para testar a hipótese é coletada uma amostra aleatória representativa da população sendo calculadas as estatísticas necessárias para o teste Naturalmente devido ao fato de ser utilizada uma amostra aleatória haverá diferenças entre o que se esperava sob a condição da hipótese verdadeira e o que realmente foi obtido na amostra A questão a ser respondida 149 é as diferenças são significativas o bastante para que a hipótese estatística estabelecida seja rejeitada Esta não é uma pergunta simples de responder dependerá do que está sob teste que parâmetro por exemplo da confiabilidade desejada para o resultado entre outros Basicamente porém será necessário comparar as diferenças com uma referência a distribuição amostral de um parâmetro por exemplo que supõe que a hipótese sob teste é verdadeira a comparação costuma ser feita através de uma estatística de teste que envolve os valores da amostra e os valores sob teste A tomada de decisão é feita da seguinte forma se a diferença entre o que foi observado na amostra e o que era esperado sob a condição da hipótese verdadeira não for significativa a hipótese será aceita se a diferença entre o que foi observado na amostra e o que era esperado sob a condição da hipótese verdadeira for significativa a hipótese será rejeitada O valor a partir do qual a diferença será considerada significativa será determinado pelo Nível de SignificânciaGLOSSÁRIO Nível de Significância probabilidade arbitrada pelo pesquisador valor máximo de erro admissível para rejeitar a hipótese nula sendo ela verdadeira esperase que seja um valor baixo de no máximo 10 FonteBarbetta Reis e Bornia 2010 Moore McCabe Duckworth e Sclove 2006 Fim GLOSSÁRIOdo teste O Nível de Significância geralmente é fixado pelo pesquisador muitas vezes de forma arbitrária e também será a probabilidade de erro do Teste de Hipóteses a probabilidade de cometer um erro no teste rejeitando uma hipótese válida Como a decisão do teste é tomada a partir dos dados de uma amostra aleatória da população há sempre a probabilidade de estar cometendo um erro mas com a utilização de métodos estatísticos é possível calcular o valor desta probabilidade LINK Usando outros métodos empíricos não há como ter idéia da chance de erro pode ser um erro de 0 ou de 5000 LINK O Nível de Significância é uma probabilidade portanto é um número real que varia de 0 a 1 0 a 100 e como é a probabilidade de se cometer um erro no teste é interessante que seja o mais próximo possível de zero valores típicos são 5 10 1 e até menores dependendo do problema sob análise Contudo não é possível usar um Nível de 150 Significância igual a zero porque devido ao uso de uma amostra aleatória sempre haverá chance de erro a não ser que a amostra fosse do tamanho da população O complementar do Nível de Significância é chamado de Nível de Confiança pois ele indica a confiabilidade do resultado obtido a probabilidade de que a decisão tomada esteja correta Você deve estar lembrado destes dois conceitos de Estimação de Parâmetros Nível de Confiança era a probabilidade de que o Intervalo de Confiança contivesse o valor real do parâmetro e Nível de Significância complementar daquele era a probabilidade de que o Intervalo não contivesse o parâmetro em suma a probabilidade da Estimação estar correta ou não respectivamente 61 Tipos de Hipóteses Para realizar um Teste de Hipóteses é necessário definir enunciar duas Hipóteses Estatísticas complementares que abrangem todos os resultados possíveis a chamada Hipótese Nula denotada por H0 e a Hipótese Alternativa denotada por H1 ou Ha Enunciar as hipóteses é o primeiro e possivelmente mais importante passo de um Teste de Hipóteses pois todo o procedimento dependerá dele A Hipótese Nula H0 é a hipótese estatística aceita como verdadeira até prova estatística em contrário pode ser o ponto de partida mais adequado para o estudo ou exatamente o contrário do que o pesquisador quer provar ou o contrário daquilo que o preocupa A Hipótese Alternativa H1 que será uma hipótese complementar de H0 fornecerá uma alternativa à hipótese nula muitas vezes é justamente o que o pesquisador quer provar ou o que o preocupa Quando as hipóteses são formuladas sobre os parâmetros do modelo probabilístico da população o Teste de Hipóteses é chamado de Paramétrico Quando as hipóteses são formuladas sobre outras características do modelo o Teste é chamado de Não Paramétrico 151 A decisão do teste consiste em aceitar ou rejeitar a Hipótese Nula H0 vaise aceitar ou não a hipótese até então considerada verdadeira É importante ter a noção exata do que significa aceitar ou rejeitar a Hipótese Nula H0 A decisão é tomada sobre esta hipótese e não sobre a Hipótese Alternativa porque é a Hipótese Nula é que considerada verdadeira até prova em contrário Quando se aceita a Hipótese Nula significa que não há provas suficientes para rejeitála Já quando a decisão é por rejeitar a Hipótese Nula há evidências suficientes de que as diferenças obtidas entre o que era esperado e o que foi observado na amostra não ocorreram por acaso Usando uma analogia com o direito dos EUA aceitar H0 seria comparável a um veredito de não culpado not guilty ou seja não há provas suficientes para condenar o réu Por outro lado rejeitar H0 seria comparável a um veredito de culpado guilty ou seja as provas reunidas são suficientes para condenar o réu O Nível de Significância será a probabilidade assumida de Rejeitar H0 sendo H0 verdadeira 62 Tipos de Testes Paramétricos A formulação das hipóteses é o ponto inicial do problema e deve depender única e exclusivamente das conclusões que se pretende obter com o teste A formulação da hipótese alternativa determinará o tipo de teste se UnilateralGLOSSÁRIO Teste unilateral teste no qual a região de rejeição da hipótese nula está concentrada em apenas um dos lados da distribuição amostral da variável de teste Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIOou BilateralGLOSSÁRIO Teste bilateral teste no qual a região de rejeição da hipótese nula está dividida em duas partes em cada um dos lados da distribuição amostral da variável de teste Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIO Se a formulação da hipótese alternativa indicar que o parâmetro é maior ou menor do que o valor de teste valor considerado verdadeiro até prova em contrário o teste será Unilateral somente há interesse se as diferenças entre os dados da amostra e o valor de teste forem em uma determinada direção Se a formulação da hipótese alternativa indicar 152 que o parâmetro é diferente do valor de teste o teste será Bilateral há interesse nas diferenças em qualquer direção As hipóteses então seriam Testes Unilaterais H0 parâmetro valor de teste H1 parâmetro valor de teste H0 parâmetro valor de teste H1 parâmetro valor de teste Testes Bilaterais H0 parâmetro valor de teste H1 parâmetro valor de teste A escolha do tipo de teste dependerá das condições do problema sob estudo sejam as três situações abaixo a Um novo protocolo de atendimento foi implementado no Banco RMG visando reduzir o tempo que as pessoas passam na fila do caixa O protocolo será considerado satisfatório se a média do tempo de fila for menor do que 30 minutos Um teste Unilateral seria o adequado b Cerca de 2000 formulários de pedidos de compra estão sendo analisados Os clientes podem ficar insatisfeitos se houver erros nos formulários Neste caso admitese que a proporção máxima de formulários com erros seja de 5 Ou seja um valor maior do que 5 causaria problemas Um teste Unilateral seria o adequado c Uma peça automotiva precisa ter 100 mm de diâmetro exatamente Neste caso a dimensão não pode ser maior ou menor do que 100 mm em outras palavras não pode ser diferente de 100 mm pois isso indicará que a peça não está de acordo com as especificações Um teste Bilateral seria o adequado Após definir as hipóteses é coletada uma amostra aleatória da população para seu teste 153 DESTAQUE É importante ressaltar que a montagem das hipóteses deve depender apenas das conclusões que se pretende obter e jamais de uma eventual evidência amostral disponível DESTAQUE A decisão de aceitar ou rejeitar H0 dependerá das regiões de aceitação e rejeição de H0 que por sua vez dependem dos seguintes fatores do parâmetro sob teste e da estatística ou variável de teste usada para testálo do tipo de teste se Unilateral à esquerda ou à direita ou Bilateral do valor de teste valor do parâmetro considerado verdadeiro até prova em contrário do Nível de Significância α ou Nível de Confiança 1 α adotado de um valor crítico da estatística ou variável de teste a partir do qual a hipótese será rejeitada e este valor dependerá por sua vez do Nível de Significância do tipo de teste e da Distribuição Amostral do parâmetro A Região de Aceitação de H0 será a faixa de valores da estatística ou da variável de teste associada ao parâmetro em que as diferenças entre o que foi observado na amostra e o que era esperado não são significativasA Região de Rejeição de H0 será a faixa de valores da estatística ou da variável de teste associada ao parâmetro em que as diferenças entre o que foi observado na amostra e o que era esperado são significativas Esta abordagem é chamada de abordagem clássica dos testes de hipóteses Há também a do valorp muito usada por programas computacionais a probabilidade de significância ou valor p é definida como a probabilidade da estatística do teste acusar um resultado tão ou mais distante do esperado como o resultado ocorrido na particular amostra observada supondo H0 como a hipótese verdadeira Barbetta Reis Bornia 2010 O valorp obtido é comparado com o nível de significância se for MENOR do que o nível de significância rejeitase H0 se for maior ou igual aceitase H0 Para entender melhor os conceitos acima observe a situação a seguir 154 Há interesse em realizar um teste de hipóteses sobre o comprimento médio de uma das dimensões de uma peça mecânica O valor nominal da média aceito como verdadeiro até prova em contrário é igual a b valor genérico H0 µ b Supondo que a distribuição amostral do estimador do parâmetro distribuição de x seja normal e será centrada em b é possível fazer a conversão para a distribuição normal padrão média zero e desvio padrão 1 variável Z Figuras 46 e 47 H0 µ b H0 µ 0 Figura 46 Hipótese nula média populacional b Figura 47 Hipótese nula média 0 Fonte elaboradas pelo autor O valor de b média da dimensão e média de x corresponde a zero média da variável Z Dependendo da formulação da Hipótese Alternativa haveria diferentes Regiões de Rejeição de H0 Se a Hipótese Alternativa fosse H1 µ b H1 µ 0 ou seja se o teste fosse Unilateral à esquerda a Região de Rejeição de H0 seria Figura 48 155 Figura 48 H1 µ b µ 0 Fonte elaboradas pelo autor Observe que há um valor crítico de 𝑥 se a média amostral estiver abaixo dele a Hipótese Nula será rejeitada acima será aceita A determinação do valor é feita com base no Nível de Significância a área abaixo da curva normal até o valor crítico de x Geralmente obtémse o valor crítico da variável de teste Z neste caso através de uma tabela ou pacote computacional que corresponde ao valor crítico de 𝑥 fazse a transformação de variáveis 𝑍 𝑥 𝜇0 𝜎 e obtémse o valor crítico de 𝑥 µ0 é o valor sob teste b no exemplo e é um desvio padrão cujo valorserá explicitado posteriormente Pela abordagem clássica a decisão será tomada comparando valor da média amostral x com o valor crítico desta mesma média se for menor do que o valor crítico𝑥 𝑐𝑟𝑖𝑡𝑖𝑐𝑜 ou seja está na região de RejeiçãodeH0 então se rejeita a Hipótese Nula É muito comum também tomar a decisão comparando o valor da variável de teste Z neste caso obtido com base nos dados da amostra com o valor crítico 𝑍𝑐𝑟𝑖𝑡𝑖𝑐 𝑜 desta mesma variável obtido de uma tabela ou programa computacional se for menor do que o valor crítico rejeitase a Hipótese Nula Observe que o valor do Nível de Significância α é colocado na curva referente à Hipótese Nula porque é esta que é aceita como válida até prova em contrário Observe também que a faixa de valores da região de Rejeição pertence à curva da Hipótese Nula assim o valor α é a probabilidade de Rejeitar H0 sendo Z 0 Zcrítico x valorp 156 H0verdadeira LINK Probabilidade de tomar uma decisão errada fixada pelo pesquisadorLINK Neste ponto é importante ressaltar um ponto que costuma passar despercebido Se a decisão for tomada com base na variável de teste Z por exemplo é interessante notar que como o teste é Unilateral à esquerda o valor 𝑍𝑐𝑟𝑖𝑡𝑖 𝑐𝑜 será NEGATIVO uma vez que a região de Rejeição de H0 está à ESQUERDA de 0 menor do que zero No teste Unilateral à direita que veremos a seguir o valor de 𝑍𝑐𝑟𝑖𝑡𝑖𝑐𝑜 será positivo pois a região de Rejeição de H0 estará à DIREITA de 0 maior do que zero Se por exemplo o Nível de Significância fosse de 5 005 o valor de 𝑍𝑐𝑟𝑖𝑡𝑖𝑐𝑜 para o teste Unilateral à esquerda seria 1645 Se houvesse interesse em obter o valor de 𝑥 𝑐𝑟𝑖𝑡𝑖𝑐𝑜 correspondente bastaria usar a expressão 𝑍 𝑥 𝜇0𝜎 substituindo Z por 1645 LINK O sinal correto é importante para que o valor de coerente com a posição da região de Rejeição de H0 LINK Pela abordagem do valorpcalculase a probabilidade de que 𝑥 assuma valores menores que aquele obtido na amostra Veja na figura 48 uma posição hipotética de 𝑥 o valorp é a probabilidade de que ela seja menor porque o teste é unilateral à esquerda do que aquele valor Se o valorp for MENOR do que 005 nível de significância α rejeitase H0 Se a Hipótese Alternativa fosse H1 µ b H1 µ 0 ou seja se o teste fosse Unilateral à direita a Região de Rejeição de H0 seria Figura 49 Z 0 Zcrítico x valorp 157 Figura 49 H1 µ b µ 0 Fonte elaboradas pelo autor Neste caso o valor crítico está à direita se a média amostral x ou a variável de teste Z tiverem valores superiores aos respectivos valores críticos a Hipótese Nula será rejeitada pois os valores caíram na região de Rejeição de H0 Como foi notado anteriormente o valor de 𝑍𝑐𝑟𝑖𝑡𝑖𝑐𝑜 será positivo pois é maior do que zero usando o mesmo Nível de Significância de 5 o valor de 𝑍𝑐𝑟𝑖𝑡𝑖𝑐𝑜 seria 1645 igual em módulo ao anterior uma vez que a distribuição normal padrão é simétrica em relação à sua média que é igual a zero Pela abordagem do valorp é preciso calcular a probabilidade de que 𝑥 assuma valores maiores que aquele obtido na amostra Veja na figura 49 uma posição hipotética de 𝑥 o valorp é a probabilidade de que ela seja maior porque o teste é unilateral à direita do que aquele valor Se o valorp for MENOR do que 005 nível de significância α rejeitase H0 Se a Hipótese Alternativa fosse H1 µ b H1 µ 0 ou seja o teste fosse Bilaterala Região de Rejeição de H0 seria Figura 50 Figura 50 H1 µ b µ 0 Fonte elaboradas pelo autor Z 0 Zcrítico Zcrítico x valorp2 158 Neste caso a região de Rejeição se divide em duas iguais probabilidades iguais à metade do Nível de Significância α semelhante ao que acontece na Estimação por Intervalo Existirão dois valores críticos um abaixo do valor de teste e outro acima se a média amostral 𝑥 ou a variável de teste Z tiverem valores acima do valor crítico superior ou abaixo do valor crítico inferior a Hipótese Nula será rejeitada pois os valores caíram em uma das 2 regiões de Rejeição Se for usada a variável de teste Z os valores críticos serão iguais em módulo pois estão à mesma distância do valor sob teste zero Pela abordagem do valorp é preciso calcular a probabilidade de que 𝑥 assuma valores maiores que aquele obtido na amostra e depois multiplicar esta probabilidade por 2 Veja na figura 50 uma posição hipotética de 𝑥 o valorp é a probabilidade de que ela seja maior do que aquele valormultiplicada por 2 porque o teste é bilateral Se o valorp for MENOR do que 005 nível de significância α rejeitase H0 Recordando as três situações que foram abordadas anteriormente seria interessante definir completamente as Hipóteses Estatísticas Nos dois primeiros casos optouse por um Teste Unilateral e no terceiro por um Teste Bilateral a Um novo protocolo de atendimento foi implementado no Banco RMG visando reduzir o tempo que as pessoas passam na fila do caixa O protocolo será considerado satisfatório se a média do tempo de fila for menor do que 30 minutos Um teste Unilateral seria o adequado Mas Unilateral à Esquerda ou à Direita Como está grifado na frase anterior haverá problema se a média do tempo fosse menor do que 30 resultando Teste unilateral à esquerda H0 µ 30 onde µ0 30 valor de teste H1 µ 30 Teste Unilateral à Esquerda b Cerca de 2000 formulários de pedidos de compra estão sendo analisados Os clientes podem ficar insatisfeitos se houver erros nos formulários Neste caso admitese que a proporção máxima de formulários com erros seja de 5 Ou seja um valor maior do que 5 causaria problemas Um teste Unilateral seria o adequado Neste caso um teste de proporção o problema será um valor maior do que 5 resultando 159 Teste unilateral à direita H0 π 5 onde π0 5 valor de teste H1 π 5 c Uma peça automotiva precisa ter 100 mm de diâmetro exatamente Neste caso a dimensão não pode ser maior ou menor do que 100 mm em outras palavras não pode ser diferente de 100 mm pois isso indicará que a peça não está de acordo com as especificações Um teste Bilateral seria o adequado resultando Teste Bilateral H0 µ 100 mm onde µ0 100 mm valor de teste H1 µ 100 mm Para a definição apropriada das hipóteses é imprescindível a correta identificação do valor de teste pois se trata de um dos aspectos mais importantes o resultado da amostra será comparado ao valor de teste Lembrando novamente que a tomada de decisão depende da correta determinação da região de Rejeição e por conseguinte de Aceitação da Hipótese Nula ou do cálculo do valorp e isso por sua vez depende diretamente da formulação das Hipóteses Estatísticas 63 Testes de Hipóteses sobre a Média de uma Variável em uma População Neste caso há interesse em testar a hipótese de que o parâmetro média populacional µ de uma certa variável quantitativa seja maior menor ou diferente de um certo valor Para a realização deste teste é necessário que uma das duas condições seja satisfeita sabese ou é razoável supor que a variável de interesse segue um modelo normal na população isso significa que a distribuição amostral da média também será normal permitindo realizar a inferência estatística paramétrica a distribuição da variável na população é desconhecida mas a amostra retirada desta população é considerada suficientemente grande LINK Há muita controvérsia a 160 respeito do que seria uma amostra suficientemente grande mas geralmente uma amostra com pelo menos 30 elementos costuma ser considerada grande o bastante para que a distribuição amostral da média possa ser aproximada por uma normal LINKo que de acordo com o Teorema Central do Limite permite concluir que a distribuição amostral da média é normal supõese também que a amostra é representativa da população e foi retirada de forma aleatória Tal como na Estimação de Parâmetros por Intervalo existirão diferenças nos testes dependendo do conhecimento ou não da variância populacional da variável a Se a variância populacional 2 da variável cuja média populacional queremos testar for conhecida Neste caso a variância amostral da média poderá ser calculada através da expressão n x V 2 e por conseguinte o desvio padrão LINK O desvio padrão é a raiz quadrada positiva da variância LINK será n desvio padrão A variável de teste será a variável Z da distribuição normal padrão lembrando que 𝑍 𝑣𝑎𝑙𝑜𝑟 𝑚é𝑑𝑖𝑎 𝑑𝑒𝑠𝑣𝑖𝑜𝑝𝑎𝑑𝑟ã𝑜 A média será o valor de teste suposto verdadeiro até prova em contrário denotado por µ0 O valor obtido pela amostra será a média amostral que é o melhor estimador da média populacional denotada por 𝑥 e o desvio padrão será o valor obtido anteriormente Sendo assim a expressão da variável de teste Zassumirá um determinado valor que chamaremos de Zcalculado 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝜎 𝑛 161 Pela abordagem clássica comparase o valor da variável de teste com o valor crítico Zcrítico que depende do Nível de Significância adotado de acordo com o tipo de teste as expressões abaixo também estão no apêndice Se H1µµ0 Rejeitar H0 se ZcalculadoZcrítico 𝒙 𝒙 crítico Se H1µµ0 Rejeitar H0 se ZcalculadoZcrítico LINK Neste caso Zcrítico será negativo já que a região de Rejeição de H0 está à esquerda de zero LINK𝒙 𝒙 crítico Se H1 µµ0 Rejeitar H0 se Zcalculado Zcrítico Pela abordagem do valorp calculase a probabilidade associada ao valor da variável de teste Se H1 µ µ0 Rejeitar H0 se PZ Zcalculado α Se H1 µ µ0 Rejeitar H0 se PZ Zcalculado α LINK Neste caso calculase a probabilidade de Z ser MENOR do que o Zcalculado pois o teste é unilateral à esquerda LINK Se H1 µ µ0 Rejeitar H0 se 2 PZ Zcalculado α LINK Neste caso multiplicase por 2 a probabilidade de Z ser MAIOR do que o valor em módulo de Zcalculado pois o teste é bilateral LINK b Se a variância populacional 2 da variável for desconhecida Naturalmente este é o caso mais encontrado na prática Como se deve proceder Dependerá do tamanho da amostra b1 Grandes amostras mais de 30 elementos Nestes casos procedese como no item anterior apenas fazendo com que s ou seja considerando que o desvio padrão da variável na população é igual ao desvio padrão da variável na amostra suposição razoável para grandes amostras b2 Pequenas amostras até 30 elementos Nestes casos a aproximação do item b1 não será viável Terá que ser feita uma correção na distribuição normal padrão Z através da distribuição t de Student Esta distribuição já é conhecida ver Unidades 2 e 5 Tratase de uma distribuição de 162 probabilidades que possui média zero como a distribuição normal padrão variável Z mas sua variância é igual a nn2 ou seja a variância depende do tamanho da amostra Quanto maior for o tamanho da amostra mais o quociente acima se aproxima de 1 a variância da distribuição normal padrão e mais a distribuição t de Student aproximase da distribuição normal padrão A partir de n 30 já é possível considerar a variância da distribuição t de Student aproximadamente igual a 1 LINK E talvez este seja o motivo de se considerar mais de 30 elementos como sendo uma amostra suficientemente grande LINK A variável de teste será então tn1 t com n 1 graus de liberdade e assumirá um valor que chamaremos de tn1calculado 𝑡𝑛1𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝑠 𝑛 onde s é o desvio padrão amostral e os outros valores têm o mesmo significado da expressão anterior Pela abordagem clássica comparase o valor da variável de teste com o valor crítico tn1crítico que depende do Nível de Significância adotado de acordo com o tipo de teste as expressões abaixo também estão no apêndice Se H1 µ µ0 Rejeitar H0 se tn1calculado tn1crítico 𝒙 𝒙 crítico Se H1 µ µ0 Rejeitar H0 se tn1calculado tn1crítico LINK Neste caso tn1crítico será negativo já que a região de Rejeição de H0 está à esquerda de zero LINK𝒙 𝒙 crítico Se H1 µ µ0 Rejeitar H0 se tn1calculado tn1crítico Pela abordagem do valorp calculase a probabilidade associada ao valor da variável de teste Se H1 µ µ0 Rejeitar H0 se Ptn1 tn1calculado α Se H1 µ µ0 Rejeitar H0 se Ptn1 tn1calculado α LINK Neste caso calculase a probabilidade de Z ser MENOR do que o tn1calculado pois o teste é unilateral à esquerda LINK Se H1 µ µ0 Rejeitar H0 se 2 Ptn1 tn1calculado α LINK Neste caso multiplicase por 2 a probabilidade de tn1 ser MAIOR do que o valor em módulo de tn1calculado pois o teste é bilateral LINK 163 Exemplo 1 Uma peça automotiva precisa ter 100 mm de diâmetro exatamente Foram medidas 15 peças aleatoriamente escolhidas Obtevese média de 1007 mm e variância de 001 mm2 Supõese que a dimensão segue distribuição normal na população A peça está dentro das especificações Usar 1 de significância Enunciar as hipótesesConforme visto na seção 62 o teste mais adequado para este caso é um Teste Bilateral H0 µ 100 mm onde µ0 100 mm valor de teste H1 µ 100 mm Nível de significânciaO problema declara que é necessário usar 1 de significância se não fosse especificado outro valor poderia ser usado Variável de testeUma vez que a variância populacional da variável é DESCONHECIDA o valor fornecido é a variância amostral e a amostra retirada apresenta apenas 15 elementos portanto menos de 30 a variável de teste será tn1 da distribuição t de Student Através dos valores da amostra avaliar o valor da variável Neste ponto é preciso encontrar o valor da variável de teste 𝑡𝑛1𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝑠 𝑛 O valor de teste µ0 é igual a 100 mm a média amostral x vale 1007 mm o tamanho de amostra n é igual a 15 e o desvio padrão amostral s é a raiz quadrada de 001 mm2 Substituindo na equação acima 𝑡𝑛1𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝑠 𝑛 𝑡151𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑡14𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 1007100 001 15 2711 então t14calculado 2711 Pela abordagem clássica é preciso definir a região de aceitação de H0Figura 51 164 Figura 51 Regiões de rejeição e aceitação da hipótese nula Teste bilateral de média Fonte elaborada pelo autor Observe que por ser um teste Bilateral o Nível de Significância α foi dividido em dois metade para cada região de rejeição de H0 Para encontrar o valor crítico devemos procurar na tabela da distribuição de Student ou em um pacote computacional na linha correspondente a n1 graus de liberdade ou seja em 15 1 14 graus de liberdade O valor da probabilidade pode ser visto na figura ao lado os valores críticos serão t140005e t140995os quais serão iguais em módulo E o valor de tn1críticoserá igual a 2977 em módulo Pela abordagem do valorp é preciso calcular a probabilidade de que tn1 seja maior do que tn1calculado em outras palavras Pt14 2711 Se procurarmos na tabela t de Student para 14 graus de liberdade disponível no ambiente virtual veremos que o maior valor encontrado é 4140 correspondente a uma probabilidade 00005 Como 2711 é bem maior do que 4140 mais de 6 vezes a probabilidade associada deve ser praticamente igual a zero mesmo multiplicandoa por 2 por ser o teste bilateral o valorp poderá ser considerado praticamente igual a zero usando o Microsoft Excel chegamos a 168 1013 um número muito pequeno Decidir pela aceitação ou rejeição de H0Como se trata de um teste bilateral Pela abordagem clássica 165 Rejeitar H0 setn1 calculado tn1crítico Como t14 2711 tn1crítico t140995 2977 Rejeitar H0 a 1 de Significância há 1 de chance de erro Pela abordagem do valorp Rejeitar H0 se2 Ptn1 tn1calculado α Como valorp 0 α 001 Rejeitar H0 a 1 de Significância há 1 de chance de erro Interpretar a decisão no contexto do problema Há provas estatísticas suficientes de que a dimensão da peça não está dentro das especificações LINK Cuidado com os casos de FRONTEIRA em que o valor da variável de teste é muito próximo do valor crítico abordagem clássica ou o valorp muito próximo de α abordagem do valorp Nesses casos a rejeição ou aceitação de H0 pode ocorrer por acaso Sempre que apresentar o resultado recomende que uma nova amostra seja retirada para avaliar novamente o problema Mas neste caso rejeitase H0 com folga LINK Exemplo 2 Um novo protocolo de atendimento foi implementado no Banco RMG visando reduzir o tempo que as pessoas passam na fila do caixa O protocolo será considerado satisfatório se a média do tempo de fila for menor do que 30 minutos Suponha que o tempo que 35 clientes selecionados aleatoriamente passaram na fila foi monitorado resultando em uma média de 29 minutos e desvio padrão de 5 minutos O protocolo pode ser considerado satisfatório a 5 de significância Enunciar as hipóteses Conforme visto na seção 62 o teste mais adequado para este caso é um Teste Unilateral à Esquerda H0 µ 30 onde µ0 30 valor de teste H1 µ 30 Nível de significância O problema declara que é necessário usar 5 166 Variável de teste Uma vez que a variância populacional da variável é DESCONHECIDA o valor fornecido é o desvio padrão AMOSTRAL mas a amostra retirada apresenta 35 elementos portanto mais de 30 a variável de teste será Z da distribuição normal Através dos valores da amostra avaliar o valor da variável Neste ponto é preciso encontrar o valor da variável de teste 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝑠 𝑛 O valor de teste µ0 é igual a 30 a média amostral x vale 29 o tamanho de amostra n é igual a 35 e o desvio padrão amostral s é 5 Substituindo na equação acima 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑥 𝜇0 𝑠 𝑛 29 30 5 35 1183 Pela abordagem clássica é preciso definir a região de aceitação de H0 Figura 52 Figura 52 Regiões de aceitação e de rejeição Teste unilateral à esquerda Fonte elaborada pelo autor Observe que por ser um teste Unilateral à Esquerda o Nível de Significância α está todo concentrado em um dos lados da distribuição definindo a região de rejeição de H0 Para encontrar o valor crítico devemos procurar na tabela da distribuição normal ou em um pacote computacional pela probabilidade acumulada 095 Ou procurar a probabilidade 167 complementar 005 e mudar o sinal do valor encontrado pois o Zcrítico aqui é menor do que zero O valor crítico será igual a 1645 Pela abordagem do valorp é preciso calcular a probabilidade de que Z seja menor do que Zcalculado em outras palavras PZ 1183 Lembrando da simetria da distribuição normal padrão que tem média zero sabemos que PZ 1183 é igual a PZ 1183 Se procurarmos na tabela da normal padrão disponível no ambiente virtualveremos que a probabilidade vale 01190 usando o Microsoft Excel chegamos a 01184 Decidir pela aceitação ou rejeição de H0 Como se trata de um teste Unilateral à esquerda Pela abordagem clássica Rejeitar H0 seZcalculadoZcrítico Como Zcalculado 1185 Zcrítico 1645 Aceitar H0 a 5 de Significância há 5 de chance de erro Pela abordagem do valorp Rejeitar H0 sePZ Zcalculado α Como valorp 01190 α 005 Aceitar H0 a 5 de Significância há 5 de chance de erro Interpretar a decisão no contexto do problema Não há provas estatísticas suficientes para concluir que o protocolo tem um desempenho satisfatório 64 Testes de Hipóteses sobre a Proporção de uma Variável em uma População Neste caso há interesse em testar a hipótese de que o parâmetro proporção populacional π de um dos valores de uma certa variável seja maior menor ou diferente de um certo valor Para a realização deste teste tal como será descrito é necessário que duas condições sejam satisfeitas que o produto n x π0 seja maior ou igual a 5 que o produto n x 1 π0 seja maior ou igual a 5 168 Onde n é o tamanho da amostra e π0 é a proporção sob teste de um dos valores da variável Se ambas as condições forem satisfeitas a distribuição amostral da proporção que é binomial uma Bernoulli repetida n vezes pode ser aproximada por uma normal Obviamente supõese que a amostra é representativa da população e foi retirada de forma aleatória e que a variável pode assumir apenas dois valores aquele no qual há interesse e o seu complementar Se as condições acima forem satisfeitas a distribuição amostral da proporção poderá ser aproximada por uma normal com Média µ0 Desvio Padrão n 1 0 0 Lembrandose da expressão da variável Z desvio padrão valor média Z O valor será a proporção amostral que é o melhor estimador da proporção populacional do valor da variável denotada por p A média e o desvio padrão são os valores definidos acima então a expressão de Zassumirá um valor que chamaremos de Zcalculado 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑝 𝜋0 𝜋01𝜋0 𝑛 Pela abordagem clássica comparase o valor da variável de teste com o valor crítico Zcrítico que depende do Nível de Significância adotado de acordo com o tipo de teste as expressões abaixo também estão no apêndice Se H1 0 Rejeitar H0 se ZcalculadoZcrítico 𝒑𝒑crítico Se H1 0 Rejeitar H0 se ZcalculadoZcrítico 169 LINK Neste caso Zcrítico será negativo já que a região de Rejeição de H0 está à esquerda de zero LINK𝒑𝒑crítico Se H10 Rejeitar H0 se Zcalculado Zcrítico Pela abordagem do valorp calculase a probabilidade associada ao valor da variável de teste Se H1 0 Rejeitar H0 se PZ Zcalculado α Se H1 0 Rejeitar H0 se PZ Zcalculado α LINK Neste caso calculase a probabilidade de Z ser MENOR do que o Zcalculado pois o teste é unilateral à esquerda LINK Se H10 Rejeitar H0 se 2 PZ Zcalculado α LINK Neste caso multiplicase por 2 a probabilidade de Z ser MAIOR do que o valor em módulo de Zcalculado pois o teste é bilateral LINK Exemplo 3 Cerca de 2000 formulários de pedidos de compra estão sendo analisados Os clientes podem ficar insatisfeitos se houver erros nos formulários Neste caso admitese que a proporção máxima de formulários com erros seja de 5 Suponha que dentre os 2000 formulários 7 apresentavam erros A proporção máxima foi ultrapassada a 1 de significância Enunciar as hipóteses Conforme visto na seção 62 o teste mais adequado para este caso é um Teste Unilateral à Direita H0 π 5 onde π0 5 valor de teste H1 π 5 Nível de significância O problema declara que é necessário usar 1 de significância se não fosse especificado outro valor poderia ser usado Variável de teste Como se trata de um teste de proporção é necessário verificar o valor dos produtos 170 n x π0 2000 x 005 100 e n x 1 π0 2000 x 095 1900 Como ambos são maiores do que 5 é possível aproximar pela normal e a variável de teste será Z Através dos valores da amostra avaliar o valor da variável Neste ponto é preciso encontrar o valor da variável de teste 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑝 𝜋0 𝜋01𝜋0 𝑛 O valor de teste π0 é igual a 005 5 a proporção amostral p vale 007 7 e o tamanho de amostra n é igual a 2000 Substituindo na equação acima 𝑍𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 𝑝 𝜋0 𝜋01𝜋0 𝑛 007 005 005095 2000 4104 Pela abordagem clássica é preciso definir a região de aceitação de H0 Figura 53 Figura 53 Regiões de aceitação e de rejeição Teste unilateral à direita Fonte elaborada pelo autor Observe que por ser um teste Unilateral à Direita o Nível de Significância α está todo concentrado em um dos lados da distribuição definindo a região de rejeição de H0 Para encontrar o valor crítico devemos procurar na tabela da distribuição normal pela probabilidade acumulada 001 o Zcrítico aqui é maior do que zero O valor crítico será aproximadamente igual a 233 171 Pela abordagem do valorp é preciso calcular a probabilidade de que Z seja maior do que Zcalculado em outras palavras PZ 4104 Se procurarmos na tabela da normal padrão disponível no ambiente virtual veremos o valor de Z mais próximo é 40 e que a probabilidade de Z ser maior do que 40 vale 00000317 usando o Microsoft Excel chegamos a 0000020303 Decidir pela aceitação ou rejeição de H0 Como se trata de um teste Unilateral à direita Pela abordagem clássica Rejeitar H0 seZcalculadoZcrítico Como Zcalculado 4104 Zcrítico 233 Rejeitar H0 a 1 de Significância há 1 de chance de erro Pela abordagem do valorp Rejeitar H0 sePZ Zcalculado α Como valorp 00000317 α 001 Rejeitar H0 a 1 de Significância há 1 de chance de erro Interpretar a decisão no contexto do problema Há provas estatísticas suficientes de que a proporção está acima do máximo admitido LINK Este não é um caso de fronteira LINK Provavelmente os vendedorescompradores precisarão passar por novo treinamento Agora vamos ver um tipo de teste estatístico muito utilizado pelos administradores para avaliar o relacionamento entre duas variáveis qualitativas o teste de associação independência de quiquadrado 65 Teste de associação de quiquadrado O teste do quiquadradoGLOSSÁRIO Teste de associação independência de quiquadrado teste que permite avaliar se duas variáveis qualitativas cujas frequências estão dispostas em uma tabela de contingências apresentam associação significativa ou 172 não Fonte Barbetta Reis e Bornia 2010 Fim GLOSSÁRIO também chamado de teste de independência de quiquadrado está vinculado à análise de duas variáveis qualitativas Vamos ver alguns conceitos antes de apresentar o teste de associação de quiquadrado 651 Variáveis qualitativas e tabelas de contingência É comum haver interesse em saber se duas variáveis quaisquer estão relacionadas e o quanto estão relacionadas seja na vida prática seja em trabalhos de pesquisa por exemplo se a satisfação com um produto está relacionada à faixa etária do consumidor se a função exercida por uma pessoa em uma organização está associada a seu gênero Na Unidade 2 de Estatística Aplicada à Administração I apresentamos técnicas para tentar responder as perguntas do parágrafo anterior Variáveis Qualitativas são as variáveis cujas realizações são atributos categorias Unidades 1 e 2 de Estatística Aplicada à Administração I Como exemplo de variáveis qualitativas temse sexo de uma pessoa duas categorias masculino e feminino grau de instrução analfabeto primeiro grau incompleto etc opinião sobre um assunto favorável desfavorável indiferente Em estudos sobre variáveis qualitativas é extremamente comum registrar as frequências de ocorrência de cada valor que as variáveis podem assumir e quando há duas variáveis envolvidas é comum registrarse a frequência de ocorrência dos cruzamentos entre valores por exemplo quantas pessoas do sexo masculino são favoráveis a uma certa proposta de lei quantas são desfavoráveis quantas pessoas do sexo feminino são favoráveis E para facilitar a análise dos resultados estes resultados costumam ser dispostos em uma Tabela de Contingências A Tabela de Contingências relaciona os possíveis valores de uma variável qualitativa com os possíveis valores da outra registrando quantas ocorrências foram verificadas de cada cruzamento 173 Exemplo 4 O Quadro 6 mostra uma tabela de contingências relacionando as funções exercidas e o sexo de 474 funcionários de uma organização Função Sexo Escritório Serviços gerais Gerência Total Masculino 157 27 74 258 Feminino 206 0 10 216 Total 363 27 84 474 Quadro 6 Tabela de contingências de Função por Sexo Fonte elaborado pelo autor Podemos apresentar os percentuais calculados em relação aos totais das colunas no Quadro 7 Função Sexo Escritório Serviços gerais Gerência Total Masculino 4325 100 8810 54 Feminino 5675 0 1190 46 Total 100 100 100 100 Quadro 7 Tabela de contingências de Função por Sexo percentuais por colunas Fonte elaborado pelo autor Seria interessante saber se as duas variáveis são estatisticamente dependentes e o quão forte é esta associação Repare que os percentuais de homens e mulheres em cada função são diferentes dos percentuais marginais de homens e mulheres no total de funcionários sendo que em duas funções Serviços gerais e Gerência as diferenças são bem grandes 174 O teste de associação de quiquadrado é uma das ferramentas estatísticas mais utilizadas quando se deseja estudar o relacionamento entre duas variáveis qualitativas Permite verificar se duas variáveis qualitativas são independentes se as proporções de ocorrência dos valores das variáveis observadas estão de acordo com o que era esperado etc Neste texto haverá interesse em usar o teste para avaliar se duas variáveis qualitativas são independentes Como todo teste de hipóteses o teste de associação de quiquadrado consiste em comparar os valores observados em uma amostra com os valores de uma referência referência esta que supõe que a hipótese nula seja válida As frequências observadas da variável são representadas em uma tabela de contingências e a Hipótese Nula H0 do teste será que as duas variáveis não diferem em relação às frequências com que ocorre uma característica particular ou seja as variáveis são independentes que será testada contra a Hipótese Alternativa H1 de que as variáveis não são independentes O teste pode ser realizado porque o grau de dependência pode ser quantificado descritivamente através de uma estatística que se chama justamente quiquadrado 2 na população mas na amostra é chamada de q2 cuja expressão é 𝑞2 𝑂𝑖𝑗 𝐸𝑖𝑗 2 𝐸𝑖𝑗 𝐶 𝑗1 𝐿 𝑖1 Sendo 𝐸𝑖𝑗 total da linha i total da coluna j total geral Onde Eij é a frequência esperada sob a condição de independência entre as variáveis em uma célula qualquer da tabela de contingências Todas as frequências esperadas precisam ser maiores ou iguais a 5 para que o resultado do teste seja válido LINK Se isso não ocorrer 175 recomendase agrupar as categorias de uma ou outra variável ou de ambas até obter todas as frequências pelo menos iguais a 5LINK Oij é a frequência observada em uma célula qualquer da tabela de contingências L é o número total de linhas da tabela de contingências número de valores que uma das variáveis pode assumir C é o número total de colunas da tabela número de valores que a outra variável pode assumir Então para cada célula da tabela de contingências calculase a diferença entre a frequência observada e a esperada Para evitar que as diferenças positivas anulem as negativas elas são elevadas ao quadrado E para evitar que uma diferença grande em termos absolutos mas pequena em termos relativos inflacione a estatística ou que uma diferença pequena em termos absolutos mas grande em termos relativos tenha sua influência reduzida dividese o quadrado da diferença pela frequência esperada Somamse os valores de todas as células da tabela e obtêmse o valor da estatística total que chamaremos de q2 calculado quanto maior q2 calculado mais o Observado se afasta do Esperado portanto maior a dependência Sob a hipótese de independência entre as duas variáveis H0 a estatística q2 seguirá o modelo quiquadrado com L1 C 1 graus de liberdade que estudamos na Unidade 2 prometendo usála aqui na Unidade 6 O número de graus de liberdade assume este valor porque para calcular as frequências esperadas não é necessário calcular os valores de todas as células as últimas podem ser calculadas por diferença já que os totais são fixos Por exemplo para duas variáveis que somente podem assumir 2 valores cada o número de graus de liberdade seria igual a 1 2121 bastaria calcular a frequência esperada de uma célula e obter as outras por diferença em relação ao total Da mesma forma que nos testes de hipóteses anteriores podemos usar a abordagem clássica ou a do valorp para tomar a decisão de rejeitar ou aceitar H0 com base na evidência amostral mas teremos um processo mais simples o teste de associação do quiquadrado para avaliar se duas variáveis são independentes será sempreunilateral 176 Pela abordagem clássica definido o nível de significância α é possível encontrar o q2 críticopara determinado grau de liberdade Por exemplo para o caso em que há 3 graus de liberdade e o Nível de Significância fosse de 5 a região de Rejeição de H0 ficarásempre À DIREITA o valor crítico seria lembrese da Unidade 2 Figura 54 Figura 54 Uso da tabela da distribuição quiquadrado Ilustração com gl 3 e área na cauda superior de 5 Fonte adaptado pelo autor de Barbetta Reis e Bornia 2010 A Hipótese Nula será rejeitada se q2 calculado q2 crítico para L 1 C 1 graus de liberdade Pela abordagem do valorp é preciso encontrar a probabilidade do valor associado à variável de teste com L 1 C 1 graus de liberdade rejeitase se H0 se Pq2 q2 calculado α nível se significância Exemplo 4 Para os dados mostrados no Quadro 6 supondo que os resultados são provenientes de uma amostra aleatória aplique um teste estatístico apropriado para avaliar se as variáveis são independentes a 1 de significância Terá que ser usado o teste de associação de quiquadrado pois os dados estão em uma tabela de contingências relacionando duas variáveis qualitativas Enunciar as Hipóteses 177 H0 as variáveis sexo e função são independentes H1 as variáveis sexo e função não são independentes Nível de significância determinado pelo problema igual a 1 001 Retirar as amostras aleatórias e montar a tabela de contingências isso já foi feito repetida a tabela de contingências no Quadro 6 Função Sexo Escritório Serviços gerais Gerência Total Masculino 157 27 74 258 Feminino 206 0 10 216 Total 363 27 84 474 Quadro 8 Tabela de contingências de Função por Sexo Fonte elaborado pelo autor Na tabela acima se encontram os totais marginais e o total geral L1 total Masculino 258 L2 total Feminino 216 C1 total Escritório 157 C2 total SGerais 27 C3 total gerência 84 N total geral 474 Repare que somando os totais das linhas o resultado é o total geral e que somando os totais das colunas o resultado é o total geral também Calcular as frequências esperadas Calculando as frequências esperadas de acordo com a fórmula vista anteriormente Masculino Escritório E 258 363 474 19758 Masculino Serviços Gerais E 258 27 474 1470 Masculino Gerência E 258 84 474 4572 Feminino Escritório E 216 363 474 16542 Feminino Serviços Gerais E 216 27 474 1230 Feminino Gerência E 216 84 474 3828 178 Calculando a estatística q2para cada célula Agora podemos calcular as diferenças entre as frequências e as demais operações que serão mostradas nos Quadros 9 10 e 11 O E Função Sexo Escritório Serviços gerais Gerência Masculino 157 19758 27 1470 74 4572 Feminino 206 16542 0 1230 10 3828 Quadro 9 Diferença entre frequências observadas e esperadas de Função por Sexo Fonte elaborado pelo autor OE2 Função Sexo Escritório Serviços gerais Gerência Masculino 1646921 151383 799672 Feminino 1646921 151383 799672 Quadro 10 Diferença entre frequências observadas e esperadas de Função por Sexo elevadas ao quadrado Fonte elaborado pelo autor Finalmente OE2E Função Sexo Escritório Serviços gerais Gerência Masculino 8336 10301 17490 Feminino 9956 12304 20891 Quadro 11 Estatísticas q2 de Função por Sexo Fonte elaborado pelo autor Agora podemos somar os valores q2 calculado 8336 10301 17490 9956 12304 20891 79227 Os graus de liberdade número de linhas 1 número de colunas 1 2 131 2 179 Então q2calculado 79227 para 2 graus de liberdade Abordagem clássica O q2 crítico será procurando na Tabela 3 do ambiente ou em um pacote computacional para 2 graus de liberdade e 99 de confiança 1 de significância q2 crítico 921 ver Figura 55 Figura 55 Valor crítico de q2 para 2 graus de liberdade e 1 de significância Fonte adaptada pelo autor de PQRS Como q2 calculado é maior do que q2 críticopara 2 graus de liberdade rejeitaseH0 a 1 de significância Abordagem do valorp O q2 calculado vale 79227 Procurando na tabela da distribuição quiquadrado que está no ambiente virtual para 2 graus o maior valor encontrado é 1382 que corresponde a uma probabilidade igual a 0001 Como 79227 é muito maior do que 1382 a probabilidade de q2 ser maior do que 79227 deve ser bem menor do que 0001 através do Microsoft Excel a probabilidade é praticamente igual a zero Então o valorp deve ser praticamente igual a zero Como o valor p 0 α 001 rejeitase H0 a 1 de significância HÁ evidência estatística suficiente que indicam que as variáveis função e sexo não são independentes Isso confirma nossas suspeitas iniciais devido às grandes diferenças nas frequências da tabela 180 No tópico Tô afim de saber você terá indicações de vários outros tipos de hipóteses que não foram mencionados nesta Unidade As referências lá citadas serão extremamente valiosas se você tiver que aplicar testes para avaliar se há diferenças entre médias de duas ou mais populações aplicar testes para avaliar se há diferenças entre proporções de duas populações aplicar testes não paramétricos por exemplo testes de aderência dos dados a um determinado modelo probabilístico Com este tópico terminamos nossa jornada Agora é com vocês Boa sorte Tô afim de saber Sobre tipos de erro poder em testes de hipóteses BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 8 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo10 Sobre testes de uma variância BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 8 TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 capítulo 7 Sobre testes de comparação de duas médias BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 9 Sobre testes de comparação de duas proporções MOORE DS McCABE GP DUCKWORTH WM SCLOVE S L A prática da estatística empresarial como usar dados para tomar decisões Rio de Janeiro LTC 2006 capítulo 8 Sobre Análise de Variância comparação de várias médias BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 9 181 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo 11 MOORE DS McCABE GP DUCKWORTH WM SCLOVE S L A prática da estatística empresarial como usar dados para tomar decisões Rio de Janeiro LTC 2006 capítulos 14 e 15 TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 capítulo 11 Sobre testes não paramétricos BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 3ª ed São Paulo Atlas 2010 capítulo 10 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 capítulo 13 SIEGEL S Estatística Não Paramétrica para as Ciências do Comportamento São Paulo McGrawHill 1975 Sobre a utilização do Microsoft Excel para realizar testes de hipóteses LEVINE D M STEPHAN D KREHBIEL T C BERENSON M L Estatística Teoria e Aplicações Usando Microsoft Excel em Português 5ª ed Rio de Janeiro LTC 200 capítulo 6 Atividades de aprendizagem 1 O tempo médio de atendimento em uma agência lotérica está sendo analisado por técnicos Uma amostra de 40 clientes foi sistematicamente monitorada em relação ao tempo que levavam para serem atendidos obtendose as seguintes estatísticas tempo médio de atendimento de 195 segundos e desvio padrão de 15 segundosConsiderando que o tempo de utilização segue uma distribuição normal O dono da agência garante que o tempo médio de atendimento é de 3 minutos se for maior ele se compromete a contratar mais um atendente Aplicando o teste estatístico apropriado com base nos dados da amostra a afirmação do dono é verdadeira ou ele deve contratar um novo atendente Use um nível de significância de 1 R Sim Z 632 182 2 O tempo de montagem de determinados conectores utiliza um processo já há algum tempo que dura em média 35 segundos Está sendo analisada a possibilidade de troca deste processo para um outro que se afirma possuir um tempo de montagem menor Para esta análise foram observados os tempos de montagem de conectores por um operário padrão utilizando o novo processo e foram anotados os seguintes valores em segundos25 25 26 30 32 35 37 37 21 24 27 28 31 31 36 36 25 29 28 38 Aplicando o teste estatístico apropriado considerando a situação exposta acima com um nível de confiança de 95 a empresa deve mudar para o novo processo ou manter o atual R Deve mudar t 436 3 Buscando melhorar a qualidade do serviço uma empresa estuda o tempo de atraso na entrega dos pedidos recebidos Supondo que o tempo de atraso se encontra normalmente distribuído e conhecendo o tempo de atraso dos últimos 20 pedidos descritos abaixo em dias determine 5 1 0 3 6 10 2 3 4 1 5 3 1 6 6 9 0 0 1 0 Um cliente enfurecido quer testar estatisticamente a hipótese declarada pela empresa de que o atraso médio será de no máximo 1 dia Ele argumenta que deve ser maior e quer uma confiança de 99 para um teste estatístico apropriado Com base nos dados da amostra o cliente tem razão na sua reclamação R Sim t 342 4 A satisfação da população em relação a determinado governo foi pesquisada através de uma amostra com a opinião de 1000 habitantes do estado Destes 585 se declararam insatisfeitas com a administração estadual Admitindose um nível de significância de 5 solucione os itens abaixo A atual administração decidiu que se o percentual de descontentamento fosse superior a 50 deveria ser redirecionado o plano governamental Aplicando o teste estatístico apropriado utilizando a informação amostral o que você conclui R Redirecionar o plano Z 5375 183 5 Uma firma está convertendo as máquinas que aluga para uma versão mais moderna Até agora foram convertidas 40 máquinas O tempo médio de conversão foi de 24 horas com desvio padrão de 3 horasO fabricante das novas máquinas afirma que a conversão em média dura no máximo 25 horas Aplicando o teste estatístico apropriado com base nas conversões feitas até o momento a 1 de significância a afirmação do fabricante é verdadeira R Sim Z 21082 Adaptado de STEVENSON WJ Estatística Aplicada à Administração São Paulo Harper do Brasil 2001 6 Em uma pesquisa de mercado acerca da preferência pelo produto X 300 consumidores foram entrevistados sendo que 100 declararam consumir o produto O fabricante do produto X afirma que é a marca líder no mercado que mais de 40 dos consumidores a preferem Aplique o teste estatístico apropriado e com base nos dados verifique se a afirmação é válida Usar 1 de significânciaR Não Z 235 Adaptado de BUSSAB WO MORETTIN P A Estatística Básica 8a ed São Paulo Saraiva2013 7 Uma máquina produz peças classificadas como boas ou defeituosas Retirouse uma amostra de 1000 peças da produção verificandose que 35 eram defeituosas O controle de qualidade pára a linha de produção para rearranjo dos equipamentos envolvidos quando o percentual de defeituosos é superior a 3 Aplique o teste estatístico apropriado e baseado nos dados amostrais verifique se a linha de produção deve ser parada R Não Z 09268 8 Em 600 lançamentos de um dado obtevese a face 6 em 123 lançamentos a Aplique o teste estatístico apropriado e verifique se a 5 de significância há razão para desconfiar que o dado é viciado quanto a face 6 R Sim Z 2519 b E a 1 de significância R Não 9 Uma amostra aleatória entre homens e mulheres foi analisada com o objetivo de pesquisarse o comportamento de fumar cigarros Verificouse que de 27 homens 15 eram fumantes e que de 33 mulheres 12 tinham o hábito de fumar 184 Teste a hipótese de que o sexo influencia o comportamento de fumar a um nível de 5 de significância R Não associada q2 2210 10 Dentre os alunos de uma sala alguns não frequentavam as aulas apenas comparecendo às provas Na tabela abaixo estão apresentados seus resultados Aprovados Reprovados Total frequentadores 22 8 30 ausentes 10 18 28 Total 32 26 58 Utilizando 1 99 Aplique o teste apropriado para verificar se a presença nas aulas está associada aos resultados finais dos alunos R Associada 2 8287 11 Queremos saber se há associação entre três meios de comunicação em termos de lembrança do consumidor da propaganda veiculada O resultado de um estudo sobre propaganda mostrou Capacidade de lembrança Meio de comunicação Revista TV Rádio Total Lembram da propaganda 25 93 7 125 Não lembram da propaganda 73 10 108 191 Total 98 103 115 316 a Usando 1 de significância e o teste estatístico apropriado é possível concluir que há associação entre a capacidade de lembrança e o meio de comunicação usado R Sim 2 1728536 b Observando os resultados acima qual meio de comunicação você recomendaria para veicular uma propaganda para maximizar a capacidade de lembrança do público alvo Por quê Adaptado de LEVINE DM BERENSON ML STEPHAN D Estatística Teoria e Aplicações usando Microsoft Excel em Português Rio de Janeiro LTC 2000 185 Resumo O resumo desta Unidade está demonstrado na Figura 59 Figura 59 Resumo da Unidade 6 Fonte elaborado pelo autor SIM NÃO SIM NÃO Testes de hipóteses Testar hipóteses estatísticas sobre características da população Testes paramétricos x não paramétricos Tipos de hipóteses Hipótese Nula aceita como verdadeira até prova em contrário Hipótese alternativa Nível de significância Testes unilaterais x bilaterais Decisão aceitar ou rejeitar H0 1 variável apenas Avaliar nível de mensuração Vamos nos limitar a apenas 2 Quantitativa Testes de 1 média Testes de 1 proporção Qualitativas relacionamento expresso em tabela de contingências Teste de associação de quiquadrado A partir de uma amostra aleatória Nível de confiança Regiões de rejeição e aceitação de H0 186 Chegamos ao final da disciplina de Estatística Aplicada a Administração IIEstudamos nessa última Unidade os testes de hipóteses tipos de hipóteses e suas variáveis A Unidade foi explorada com Figuras exemplos e Quadros para melhor representar o conteúdo oferecido Além do material produzido pelo professor você tem em mãos uma riquíssima fonte de referencias para saber mais sobre o assunto Explore os conhecimentos propostos Não tenha esta Unidade como fim mas sim o começo de uma nova trajetória em sua vida acadêmica Bons estudos e boa sorte Referências ANDERSON DR SWEENEY DJ WILLIAMS TA Estatística Aplicada à Administração e Economia 2ª ed São Paulo Thomson Learning 2007 BARBETTA PA REIS MM BORNIA AC Estatística para Cursos de Engenharia e Informática 2ª ed São Paulo Atlas 2008 BARBETTAP A Estatística Aplicada às Ciências Sociais 7ª ed Florianópolis Ed da UFSC 2007 COSTA NETO PL da O Estatística 2ª ed São Paulo Edgard Blücher 2002 LOPES P A Probabilidades e Estatística Rio de Janeiro Reichmann e Affonso Editores 1999 MARCONI Marina de Andrade LAKATOS Eva Maria Técnicas de Pesquisa 5a ed São Paulo Atlas 2003 187 MONTGOMERY D C Introdução ao Controle Estatístico da Qualidade 4ed Rio de Janeiro LTC 2004 MOORE DS McCABE GP DUCKWORTH WM SCLOVE S L A prática da estatística empresarial como usar dados para tomar decisões Rio de Janeiro LTC 2006 STEVENSON Willian J Estatística Aplicada à Administração São Paulo Ed Harbra 2001 TRIOLA M Introdução à Estatística Rio de Janeiro LTC 1999 VIRGILITTO S B Estatística Aplicada Técnicas básicas e avançadas para todas as áreas do conhecimento São Paulo AlfaOmega 2003 Minicurrículo e foto do autor Minicurrículo MARCELO MENEZES REIS é formado em Engenharia Elétrica pela Universidade Federal de Santa Catarina UFSC bacharel em Administração de Empresas pela Universidade para o Desenvolvimento de Santa Catarina UDESC registro no CRASC 4049 Especialização em Seis Sigma Beyond Six Sigma Certification Program na University of South Florida USF EUA mestre em Engenharia Elétrica pela Universidade Federal de Santa Catarina e doutor em Engenharia de Produção pela Universidade Federal de Santa Catarina Professor Adjunto lotado no Departamento de Informática e Estatística da Universidade Federal de Santa Catarina desde 1995 Tem ministrado disciplinas de estatística em vários cursos de graduação e pósgraduação da Universidade incluindo os de Administração Foto 188