·
Cursos Gerais ·
Estatística 2
Send your question to AI and receive an answer instantly
Recommended for you
Preview text
52 Unidade II Unidade II Amostragem estimação e decisão estatística A partir de agora iremos nos aprofundar nas teorias da estimação estatística e da decisão estatística Na primeira dessas teorias talvez o campo mais usado e conhecido da amostragem veremos como estimar uma população a partir de amostras dela retiradas Na segunda teoria nossa preocupação será diferenciar o que é causal do que é casual na amostragem Objetivos do módulo Anteriormente vimos que é possível prever o comportamento de amostras sabendo o comportamento da população do qual elas são retiradas Do ponto de vista prático no entanto normalmente é mais interessante o movimento ao contrário ou seja a partir do estudo de uma amostra estimarse o comportamento de uma população Podemos por exemplo prever quem será eleito em uma próxima eleição a partir de uma pesquisa eleitoral ou estimar qual será o volume de vendas de um produto que iremos lançar a partir de uma pesquisa de mercado ou ainda quantos desempregados existem em uma região ou em um país Já aprendemos que uma maneira imediata e intuitiva de se conhecer um problema é coletar todos os dados relativos a ele Estatisticamente é a ideia do censo Porém muitas vezes é impossível ou difícil de fazêlo Envolve muito trabalho e custo isso quando os dados forem reais se forem improváveis nem com muito trabalho chegaremos a um resultado adequado A alternativa é coletarmos e estudarmos amostras e a partir delas estimarmos a população Essas estimativas estão no centro do próximo assunto que iremos abordar Por outro lado também vimos que em estatística sempre estamos sujeitos a cometer erros de predição Mensurar diminuir e se possível eliminar esses erros é fundamental para a qualidade do estudo estatístico Veremos isso aqui quando serão estudadas casualidade e causalidade dos experimentos Saiba mais Uma das mais importantes pesquisas por amostragem no Brasil é a PNAD Pesquisa Nacional por Amostra em Domicílios base para grande parte do planejamento econômico nacional INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA Pesquisa nacional por amostra de domicílios PNAD Disponível em httpsww2ibgegov brhomeestatisticapesquisaspesquisaresultadosphpidpesquisa40 Acesso em 13 jun 2019 53 ESTATÍSTICA APLICADA 5 TEORIA DA ESTIMAÇÃO ESTATÍSTICA A princípio o valor central da amostra é igual ao valor central correspondente da população Por exemplo tomamos uma amostra de um determinado processo produtivo e ela revelou uma produtividade média de 150 toneladas por hora X 150 th É lícito pensar que se fosse possível avaliar toda a população ou seja as infinitas vezes em que o processo foi e será repetido a produtividade média dela seria 150 toneladas por hora também µ 150 th Esse raciocínio é conhecido por estimativa por pontos É intuitivo notar que esse tipo de estimativa é lógico mas dificilmente exato Acasos ocasionarão variações que têm que ser de algum modo consideradas Isso nos conduz ao conceito de fidedignidade da estimativa que consiste em declarar um intervalo de variação É a chamada estimativa por intervalos No caso do processo produtivo estimaríamos que a produtividade estivesse por exemplo entre 145 e 155 th portanto uma estimativa por intervalos Calcular esses intervalos é o nosso problema desta etapa Esse campo do estudo estatístico é conhecido como inferência estatística sendo esta normalmente feita com a definição dos chamados intervalos de confiança Suponha uma distribuição amostral das médias cuja média seja X µ e o erro padrão X σ Note que uma amostra qualquer retirada da população correspondente deve pertencer a essa distribuição Consequentemente podemos afirmar que temos 100 de certeza ou de confiança que a média de toda e qualquer amostra estará dentro do intervalo entre X X X X 4 até 4 µ σ µ σ Lembrete A curva normal tem como uma de suas características mais notáveis o fato de que varia entre mais ou menos quatro vezes o desvio padrão em torno da média Não existem probabilidades acima ou abaixo desses limites Logo se uma amostra ou população tiver média igual a 10 e desvio padrão igual a 1 será impossível se obter nela valores acima de 14 ou abaixo de 6 Vamos entender melhor isso através de um exemplo numérico Suponha que a população de alunos da UNIP que cursaram Estatística no passado apresente uma nota média igual a 62 com desvio padrão igual a 04 distribuída normalmente Para estudo retiramos uma amostra de 16 alunos Qual a nota média amostral decorrente ou seja entre que valores essa amostra pode ocorrer Os parâmetros amostrais seriam X µ µ 62 54 Unidade II X X X 04 01 n 16 σ σ σ σ Portanto temos 100 de certeza que qualquer amostra de 16 alunos retirada da população de alunos de Estatística da UNIP terá sua média entre 58 e 66 É estatisticamente impossível um valor médio superior a 66 ou inferior a 58 ocorrer Podemos fazer o raciocínio inverso Caso tomemos uma amostra com X e desvio padrão S poderemos afirmar com 100 de certeza que o valor real da população estará entre X S até X S Vamos imaginar que temos uma amostra com 25 alunos de Matemática Financeira da UNIP e calculamos sua média e desvio padrão chegando aos valores X 56 e S 25 Podemos estimar que a nota média desses estudantes todos estará entre 36 e 76 com 100 de certeza Veja os cálculos X X 56 µ µ X X X 25 05 n 25 σ σ σ σ X X X X 4 até 4 56 4 05 até 56 4 05 36 até 76 µ σ µ σ Observação Nesses cálculos utilizamos a média da amostra X no lugar da média da população µ e o desvio padrão da amostra S em vez do desvio padrão da população σ visto não conhecermos os parâmetros populacionais é o que desejamos saber O uso alternativo da média é obvio Esperase que as médias da amostra da população e a amostral sejam iguais por definição de amostragem Já a igualdade dos desvios padrões é menos intuitiva mas pode ser assumida se n 30 ou se a distribuição for normal Quando isso não acontecer recairemos na Teoria das Pequenas Amostras que não é objeto dos nossos estudos Essa estimativa não é satisfatória afinal prever que as notas médias estarão entre 36 e 76 é pouco melhor do que prever que elas estejam entre 0 e 10 e para isso não precisaríamos de estatística Temos duas maneiras de aperfeiçoála A primeira é aumentar o número de elementos da amostra Imagine que pegamos uma amostra de 100 alunos e que ela também apresenta os mesmos valores de média e desvio padrão Refazendo os cálculos notaríamos uma melhoria significativa 55 ESTATÍSTICA APLICADA X X 56 µ µ X X X 25 025 n 100 σ σ σ σ X X X X 4 até 4 56 4 025 até 56 4 025 46 até 66 µ σ µ σ Estimase portanto que a média de todos os alunos de Matemática Financeira da UNIP esteja entre 46 e 66 com 100 de certeza Reduziuse pela metade a margem de erro da estimativa mas o custo foi multiplicado por quatro Esse é um grande problema da amostragem o custo aumenta muito mais rapidamente que a precisão Observação Usamos os termos margem de erro e erro esperado como sinônimos do intervalo de confiança de uma estimativa que é a variação prevista para mais e para menos da estimativa por pontos A segunda maneira é trabalhar com níveis de confiabilidade ou confiança menores assumindo algum risco de estarmos em desacordo com a realidade O gráfico a seguir demonstra esse raciocínio Z Pz 682 954 977 1000 4σx 3σx 2σx 1σx µx 1σx 2σx 3σx 4σx Figura 14 56 Unidade II Observe que a probabilidade de que uma amostra tenha valor médio entre X X X X 4 até 4 µ σ µ σ é de 682 quer dizer temos uma confiança de 682 de que o valor médio de uma amostra qualquer esteja entre aqueles valores mencionados Em outras palavras o intervalo de confiança de 662 são os valores entre X X X X µ σ até µ σ De modo semelhante o intervalo de confiança de 997 está entre X X X X 3 até 3 µ σ µ σ e assim por diante O número de erros padrões que estabelecem a confiabilidade é chamado de coeficientes de confiança ou valores críticos e simbolizado por zc Podemos determinar uma confiança a partir do valor crítico ou ao contrário estabelecer o valor crítico a partir da confiança desejada utilizando a tabela da curva normal reduzida Por exemplo caso queiramos trabalhar com uma confiabilidade de 90 o valor crítico será de 1645 Chegase a esse valor através do raciocínio estabelecido no gráfico a seguir Z Pz Zc Zc 100 90 2 5 00500 100 90 2 5 00500 90 Figura 15 Utilizando a tabela da distribuição reduzida teríamos tab c A 00500 z 1645 Perceba que a área 00500 é exatamente o ponto médio entre os valores 00495 Z 165 e 00505 Z 164 daí o valor intermediário igual a 1645 O sinal negativo será ignorado por causa da simetria da curva Existe um zc positivo e outro negativo simétricos Vamos voltar ao exemplo dos alunos de matemática financeira Devemos considerar a amostra original de 25 alunos e refazer os cálculos para uma confiabilidade de 90 Como vimos anteriormente 57 ESTATÍSTICA APLICADA o valor de zc para uma confiabilidade de 90 seria igual a 164 na prática não usamos o valor 1645 Seria trabalhar com uma precisão desnecessária Ficaria assim X X 56 µ µ X X X 25 050 n 25 σ σ σ σ c c X X X X z até z 56 164 050 até 56 164 050 48 até 64 µ σ µ σ Estimase portanto que a média de todos os alunos esteja entre 48 e 64 com 90 de certeza Isso quer dizer que se tomarmos 100 amostras de 25 alunos cada em 90 delas estaríamos corretos mas em 10 delas errados ou seja errando a estimativa por pouco mas equivocandose Olhando os vários cálculos chegaremos provavelmente à conclusão de que essa última estimativa é a mais adequada Tomar uma decisão com um risco de 10 não é tão ruim assim na maioria dos casos práticos Perceba que até aqui falamos e exemplificamos usando sempre a média Isso é o mais comum na prática mas todas as medidas estatísticas podem ser estimadas As formulações dos intervalos de confiança para os principais parâmetros estão relacionadas a seguir Forma geral das estimativas por intervalos Valor estimado Valor mais provável coeficiente de confiança erro padrão Intervalo de confiança para a média c Valor estimado X z n σ Intervalo de confiança para as proporções c p 1 p Valor estimado p z n Intervalo de confiança para a soma de médias 2 2 A B A B c A B Valor estimado X X z n n σ σ 58 Unidade II Intervalo de confiança para as diferenças de médias 2 2 A B A B c A B Valor estimado X X z n n σ σ Intervalo de confiança para a soma das proporções A A B B A B c A B p 1 p p 1 p Valor estimado p p z n n Intervalo de confiança para as diferenças das proporções A A B B A B c A B p 1 p p 1 p Valor estimado p p z n n Alguns exemplos facilitarão o entendimento da teoria apresentada Exemplo 1 um auditor contábil separou aleatoriamente uma amostra de 45 contas pagas por uma empresa e encontrou um valor médio para elas de R 1490000 com desvio padrão de R 360000 Baseandose nesses valores qual foi o valor estimado para a média populacional com 95 de confiabilidade Resolução A estimativa para a média é dada por c Valor estimado X z n σ Para se fazer essa estimativa precisamos das seguintes informações Média X 1490000 Valor crítico zc 196 conforme o seguinte cálculo tab c 1 confiabilidade 1 095 A 00250 z 196 z 196 2 2 Desvio padrão σ s 3600 59 ESTATÍSTICA APLICADA Tamanho da amostra 45 c 3600 Valor estimado X z 14900 196 Valor estimado 1490000 105200 n 45 σ Baseado nesse cálculo e nessa amostra nós podemos dizer que se estima que as contas dessa empresa tenham um valor médio entre R 1384800 e R 1595200 com 95 de certeza Exemplo 2 uma pesquisa eleitoral feita com 2500 eleitores revelou que o candidato A tinha 45 de intenções de voto para determinado cargo eletivo Qual a estimativa da votação que esse candidato teria se a eleição fosse hoje com 99 de confiabilidade Resolução A estimativa para a proporção é dada por c p 1 p Valor estimado p z n Para se fazer essa estimativa precisamos das seguintes informações Proporção p 045 Valor crítico zc 258 conforme o seguinte cálculo tab c 1 confiabilidade 1 099 A 00050 z 258 z 258 2 2 Tamanho da amostra n 2500 c p 1 p 045 1 045 Valor estimado p z 045 258 n 2500 045 0026 ou valor estimado 45 26 Desse modo podemos afirmar que se a eleição fosse hoje o candidato A teria 45 dos votos com uma margem de erro para mais ou para menos de 26 com 99 de confiabilidade ou então dizer que temos 99 de certeza de que ele teria entre 424 e 476 dos votos Exemplo 3 uma amostra de 300 lâmpadas da marca A apresentou uma durabilidade média de 2300 horas com desvio padrão de 200 horas Outra amostra de 150 lâmpadas da marca B apresentou vida útil de 2000 horas com desvio padrão de 90 horas Estime com 90 de confiabilidade a diferença entre as vidas úteis de ambas as marcas de lâmpadas 60 Unidade II Resolução A estimativa para a diferença de médias é dada por 2 2 A B A B c A B Valor estimado X X z n n σ σ Para se fazer essa estimativa precisamos das seguintes informações Médias A B X 2300 e X 2000 Valor crítico zc 164 conforme o seguinte cálculo tab c 1 confiabilidade 1 090 A 00500 z 164 z 164 2 2 Desvios padrões σA sA 200 σB sB 90 Tamanhos das amostras nA 300 nB 150 2 2 A B A B c A B 2 2 Valor estimado X X z n n 200 90 2300 2000 164 Valor estimado 300 224 300 150 σ σ As lâmpadas da marca A devem durar mais do que as lâmpadas da marca B entre 2774 horas e 3224 horas com 90 de confiança Exemplo 4 uma amostra aleatória com 250 homens e 320 mulheres revelou que 150 dos homens e 240 das mulheres apreciaram o design de um novo modelo de automóvel Estime com 98 de confiabilidade a diferença entre a proporção de todos os homens e mulheres em relação a esse novo automóvel Resolução A estimativa para a diferença de proporções é dada por A A B B A B c A B p 1 p p 1 p Valor estimado p p z n n 61 ESTATÍSTICA APLICADA Para se fazer essa estimativa precisamos das seguintes informações Proporções H M 150 240 p 06 e p 075 250 320 Valor crítico zc 233 conforme o seguinte cálculo tab c 1 confiabilidade 1 098 A 00100 z 233 z 233 2 2 Tamanho da amostra nH 250 nM 320 M M H H M H c M H p 1 p p 1 p Valor estimado p p z n n 075 1 075 060 1 060 075 060 233 015 0092 ou 1 5 92 320 250 Estimase que 15 a mais de mulheres do que homens gostem do design desse automóvel com uma margem de erro de 92 e uma confiabilidade de 98 ou em outras palavras a diferença entre mulheres e homens nesse aspecto está entre 58 e 242 com 98 de certeza Grande parte das utilizações práticas desses conceitos envolve o cálculo do tamanho da amostra necessária para se atender a determinadas condições estatísticas O raciocínio é o mesmo dos casos anteriores invertendose no entanto a incógnita procurada As questões seguintes demonstram esse equacionamento Exemplo 5 um analista de treinamento deseja estimar o tempo de treinamento em horas para determinado cargo com uma confiabilidade de 95 e erro esperado de 2 horas Baseado em estudos anteriores ele estima o desvio padrão das horas gastas em treinamento em 18 horas Qual é o tamanho de amostra com que deve trabalhar Resolução Observe que o erro esperado ou margem de erro é dado por erro esperado zc n σ 62 Unidade II Para se fazer essa estimativa precisamos das seguintes informações Valor crítico zc 196 conforme o seguinte cálculo tab c 1 confiabilidade 1 095 A 00250 z 196 z 196 2 2 Desvio padrão σ s 18 horas Erro esperado desejável 2 horas 2 c 18 18 18 erro esperado z 2 196 n 196 n 196 n 312 2 2 n n σ Baseado nesse cálculo concluímos que o analista deve trabalhar com uma amostra de 312 elementos Observação O cálculo feito na verdade resulta em 31117 mas como não existe fração de elemento e estamos trabalhando a favor da segurança arredondaremos para cima nesses casos Exemplo 6 uma pesquisa com amostra de 100 consumidores detectou que 40 deles preferiam o sabão em pó Lavafacil em vez de qualquer outra marca Ao se estimar o comportamento de toda a população com uma confiabilidade de 95 chegouse a uma margem de erro inconveniente O cliente da pesquisa deseja que a estimativa seja feita com um erro de no máximo 5 mantida a confiabilidade Dessa forma mais quantos consumidores devem ser pesquisados para atender o estabelecido supondo que a proporção de consumidores de Lavafacil permanecesse constante Resolução Observe que o erro esperado ou margem de erro é dado por c p 1 p erro esperado z n Para se fazer essa estimativa precisamos das seguintes informações Erro esperado estabelecido ou margem de erro 5 ou 005 63 ESTATÍSTICA APLICADA Confiabilidade zc 196 tab c 1 confiabilidade 1 095 A 00250 z 196 z 196 2 2 Proporção de consumidores que preferem Lavafacil 04 c 2 2 p 1 p 04 1 04 005 024 erro esperado z 005 196 n n 196 n 005 024 024 n n 369 consumidores 196 n 005 196 Como já foram entrevistados 100 consumidores precisaríamos entrevistar mais 269 consumidores 369 100 269 Observação Constantemente no cálculo do tamanho da amostra para uma estimativa de proporções não se conhece o valor da proporção p Nesse caso utilizamos p 05 porque esse é o valor para o qual ocorre o maior erro padrão portanto gera as amostras de maior tamanho o que favorece a segurança do cálculo Utilizando essa diretriz no exemplo chegaríamos a 385 entrevistados em vez de 369 Exemplo 7 um engenheiro deseja avaliar a diferença entre duas marcas distintas de cabos de aço e para tanto ensaiou uma amostra de 64 cabos de cada marca chegando aos valores a seguir Tabela 8 Cabos Resistência média em kgf Desvio padrão da resistência média em kgf Marca A 1635 125 Marca B 1284 93 Ao fazer uma estimativa das diferenças de resistência média de todos os cabos de cada uma das duas marcas chegou a 99 de confiabilidade e percebeu que a margem de erro que não o agradava Ele deseja reduzir essa margem de erro em 20 kgf Quantos cabos a mais ele deverá ensaiar 64 Unidade II Resolução A estimativa inicial feita pelo engenheiro foi de 351 kgf 497 kgf a favor dos cabos da marca A 2 2 A B A B c A B 2 2 Valor estimado X X z n n 125 93 1635 1284 257 Valor estimado 351 50 64 64 σ σ Sendo tab c 1 confiabilidade 1 099 A 00050 z 257 z 257 2 2 Como ele deseja reduzir essa margem de erro em 20 kgf o erro esperado deverá baixar para 30 kgf logo 2 2 2 2 A B c A B 2 2 125 93 erro esperado z 30 257 30 n n n n 24274 30 24274 30 24274 24274 257 n n 179 cabos n 257 n 257 n 30 257 σ σ Como já foram ensaiados 64 cabos o engenheiro precisaria ensaiar mais 115 cabos 179 64 115 Exemplo 8 uma amostra de 20 baterias elétricas para uso em tablets revelou uma vida útil média de 30000 horas com desvio padrão de 2600 horas Baseado nesses dados um técnico estimou que as baterias desse tipo tivessem uma vida útil de 30000744 horas Qual a confiabilidade dessa estimativa Resolução O erro esperado ou margem de erro é dado por erro esperado zc n σ Sabemos que o erro da estimativa é igual a 744 horas que o desvio padrão da amostra foi de 2600 horas e que o tamanho da amostra é de 20 baterias Com esses dados conseguimos determinar o valor de zc 65 ESTATÍSTICA APLICADA erro esperado zc 744 n σ c c 2600 z z 20 c 744 z 128 2600 20 Invertendo o raciocínio que utilizamos anteriormente para determinar o valor crítico zc obteremos o valor da confiabilidade da amostra como mostra a figura a seguir Z Pz 128 Área tabelada 01003 ou 1003 Área tabelada 01003 ou 1003 Confiabilidade 1 2 x 01003 07994 080 ou 80 128 Figura 16 Podemos então afirmar que o técnico tem 80 de confiança na estimativa que fez Exemplo 9 às vésperas de uma eleição um importante órgão da mídia informou que se a eleição fosse naquele momento o candidato João Honesto venceria com 42 dos votos Afirmou também que a pesquisa havia sido feita com 2000 eleitores e que a margem de erro era de 1 para mais ou para menos Qual a confiabilidade que essa informação tem Resolução A margem de erro é dada por 66 Unidade II c p 1 p erro esperado z n Temos informado que a margem de erro é de 1 que o candidato teve 42 dos votos na amostra e que o seu tamanho era de 2000 eleitores Logo c c c p 1 p 042 1 042 001 erro esperado z 001 z z 091 n 2000 042 1 042 2000 Reproduzindo o raciocínio do exemplo 6 definimos que o valor da confiabilidade da informação é de apenas 6372 c tab z 091 z 091 A 01814 Confiabilidade 1 2 01814 06372 ou 6372 Exemplo 10 uma pesquisa de mercado pegou amostras do salário de funcionários de duas empresas concorrentes chegando aos valores a seguir Tabela 9 Empresa Tamanho da amostra tomada Salário médio da amostra Desvio padrão dos salários médios ABC 120 R 385000 R 85000 WXY 165 R 402000 R 101800 A partir desses dados um analista estimou que a diferença salarial entre as duas empresas seria de R 17000 R 16600 Qual é a confiança que podemos ter nessa estimativa Resolução O erro esperado para a estimativa da diferença de médias é dado por 2 2 A B c A B Erro esperado z n n σ σ Logo nesse caso teríamos 2 2 2 2 A B c c c c A B 850 1018 166 Erro esperado z 166 z 166 z 111 z 150 n n 120 165 111 σ σ c tab z 150 z 150 A 00668 Confiabilidade 1 2 00668 08664 ou 8664 67 ESTATÍSTICA APLICADA A estimativa apresenta uma confiabilidade de 8664 Exemplo 11 às vésperas de uma importante eleição foi feita uma pesquisa com 4866 eleitores que revelou uma polarização entre dois candidatos O candidato A teria 487 das intenções de votos enquanto o candidato B ficaria com 461 dos votos Um importante jornal decide cacifar o resultado e coloca na manchete do dia da eleição que o Candidato A será eleito Considerando que não ocorram variações nas intenções de votos qual é a confiabilidade que o jornal tem dessa informação Resolução Caso consideremos a estimativa por pontos o candidato A evidentemente ganharia pois teria 26 de votos a mais mas vimos que isso não seria preciso Ambas as votações têm variações portanto precisamos considerálas Irá ganhar a eleição o candidato que tiver um voto a mais do que o outro ou seja a diferença entre eles deverá ser superior a 0 A estimativa da diferença das proporções é dada por A A B B A B c A B p 1 p p 1 p Valor estimado p p z n n c 0487 1 0487 0461 1 0461 Valor estimado 0487 0461 z 4866 4866 c Valor estimado 00260 z 00101 Perceba que o candidato A deverá ter 26 mais ou menos uma variação Ele ganhará a eleição se tiver mais 0 dos votos ou seja se a margem de erro for abaixo de 26 ele vence Em outras palavras o valor estimado para a diferença das votações deve ser acima de 0 e como temos c Valor estimado 00260 z 00101 podemos estabelecer que no limite c c 0 00260 z 00101 00260 z 00101 c c 00260 multiplicando por menos 1 00260 z 00101 z 257 00101 c tab z 257 z 257 A 00051 Confiabilidade 1 2 00051 09898 ou 9898 68 Unidade II Esse cálculo no entanto tem uma imprecisão conceitual Veja a figura a seguir Z Pz 257 Probabilidade de o candidato B ter mais votos que o candidato A Probabilidade de o candidato A ter acima de 26 dos votos que o candidato B Confiabilidade calculada 99 257 Figura 17 Perceba que a confiabilidade calculada de 99 exclui duas áreas na cauda da curva normal A área da esquerda realmente tem que ser excluída visto ser a área na qual o candidato B vence e portanto a estimativa do jornal estaria errada Mas a área à direita não tem motivo para ser excluída visto que ela se refere à vitória ainda mais expressiva do candidato A portanto a favor da previsão do jornal A confiabilidade é calculada em um conceito conhecido como bicaudal ou seja caudas de exceção de ambos os lados da curva O nosso problema é de um tipo diferente o unicaudal Só faz sentido de um dos lados da curva no exemplo à esquerda Assim o jornal estaria correto em todos os casos com exceção das ocorrências da cauda esquerda ou seja a confiança que ele tem na manchete é dada pela confiabilidade calculada mais a cauda da direita portanto 9949 0989800051 Saiba mais Pesquisas eleitorais talvez sejam as aplicações mais rotineiras da estimação de resultados É possível verificar muitas dessas previsões e os efetivos resultados das eleições acessando PODER 360 Publicações por Fernando Rodrigues online sd Disponível em httpswwwpoder360combrauthorfernandorodrigues Acesso em 13 jun 2019 69 ESTATÍSTICA APLICADA 6 TEORIA DA DECISÃO ESTATÍSTICA Quando trabalhamos no terreno das probabilidades é inevitável aceitar uma variação em torno dos valores reais ou esperados Por exemplo ao jogarmos certo número de vezes uma moeda honesta não viciada o esperado é que em metade das vezes saia cara e na outra metade coroa Portanto se jogarmos uma moeda honesta 50 vezes imaginamos que em 25 delas saia cara E se saírem 26 caras Provavelmente a moeda é honesta e por casualidade saiu uma cara a mais Mas e se saírem 30 caras Ainda poderemos dizer que a moeda é honesta Uma variação dessas é aceita como uma casualidade Ou existe uma causa para saírem mais caras a moeda ser viciada Precisamos decidir isso Observação Fisicamente o peso de uma moeda deve ser distribuído de modo uniforme para que ela seja aleatória ou seja não tenha tendência de cair de um dos lados Caso isso não ocorra porque por exemplo colocouse de um lado um pequeno e pouco visível peso a moeda passa a ter a tendência de cair com esse lado mais pesado para baixo ficando viciada A probabilidade de a face mais leve ser sorteada será maior do que 50 Consideramos que uma pequena variação a mais de caras ou coroas acima ou abaixo dos 50 é devido à aleatoriedade Nesse caso a diferença seria casual ocasionada pela aleatoriedade do experimento Todavia além de um dado ponto essas desproporções deixam de ser casuais e se tornam causais Ocorrem pela disparidade de peso entre as faces da moeda Decidir quando ocorre um ou outro fato nos leva ao terreno da Teoria da Decisão Estatística a terceira e última abordagem da amostragem Essa teoria é especialmente útil quando precisamos nos decidir sobre populações a partir de amostras delas retiradas Por exemplo decidir entre duas campanhas publicitárias qual é a mais eficaz ou entre dois processos produtivos qual é o mais eficiente ou entre dois produtos similares qual tem melhor desempenho ou ainda se uma moeda é viciada ou não Vamos iniciar nosso estudo pela decisão de se uma moeda é honesta ou viciada Suponha que você tenha na mão uma moeda e não consiga determinar visualmente se ela é honesta ou viciada A única maneira de se chegar a uma conclusão é testar a referida moeda e a partir dos resultados decidir se ela é viciada ou não Perceba que existem duas hipóteses ou a moeda é honesta ou é viciada A hipótese de que ela seja honesta é o que se chama de hipótese nula e é simbolizada por H0 Assumese essa possibilidade muitas vezes para desmentila Caso estivéssemos analisando a eficiência de dois processos por exemplo formularíamos como hipótese H0 não existir diferença entre ambos 70 Unidade II Qualquer hipótese que não seja a zero é chamada de hipótese alternativa e simbolizada por H1 Assim sendo no caso de ela ser honesta tanto a probabilidade de sair cara como de sair coroa é igual a 05 é a hipótese nula p05 Qualquer ocorrência diferente p05 é considerada hipótese alternativa Imaginemos que uma moeda seja jogada 100 vezes e queiramos saber se ela é viciada ou não Vimos anteriormente que as estatísticas esperadas são Valor esperado média populacional média amostral np 100 x 05 50 caras ou 50 coroas Desvio padrão da média populacional Desvio padrão da média populacional n p 1 p 100 05 1 05 5 caras ou 5 coroas 5 caras ou 5 coroas Como o tamanho da amostra é maior que 30 n30 e o número esperado de caras ou de coroas é maior que 5 npcara npcoroa 100 x 05 50 podemos usar a aproximação da binomial pela distribuição normal Observação Jogar uma moeda envolve uma distribuição binomial para variáveis discretas mas podemos usar a aproximação para a normal sempre que n 30 e np 5 Como vimos são recomendações dadas por vários estatísticos entre eles Murray Siegel Utilizando a distribuição normal podemos afirmar que é impossível lançar 100 vezes uma moeda honesta e ter menos de 30 caras ou de 30 coroas e consequentemente mais de 70 coroas ou de 70 caras A figura a seguir relembra esse conceito Z Pz 1000 50 4 x 5 30 50 4 x 5 70 σ 5 4σ 3σ 2σ 1σ µ 50 1σ 2σ 3σ 4σ Figura 18 71 ESTATÍSTICA APLICADA Portanto se ao coletarmos uma amostra de 100 jogadas dessa moeda saírem mais do que 70 caras e consequentemente menos do que 30 coroas ou mais do que 70 coroas e consequentemente menos do que 30 caras a moeda será viciada nos casos contrários ela será honesta Perceba que essa afirmação tem 100 de confiabilidade já que abrange toda a curva normal Mas já vimos que esse nível não é muito utilizado na prática Normalmente se usam níveis menores de confiabilidade por exemplo 95 Isso porque quanto maior o nível de confiabilidade mais custo teremos para obtermos uma precisão adequada Note que aceitar como honesta uma moeda com toda essa variação entre 30 e 70 caras ou coroas na prática é pouco interessante Iremos trabalhar com menores confiabilidades por exemplo 95 Graficamente teremos Z Pz 196 Região crítica 25 Região crítica 25 95 196 Figura 19 tab c 1 confiabilidade 1 095 A 00250 z 196 z 196 2 2 Com 95 de confiança afirmamos que a moeda será honesta caso em uma amostra de 100 jogadas não se obtenha mais de 60 caras ou coroas ou menos do que 40 caras ou coroas c X z X 50 196 5 40 e X 50 196 5 60 µ σ Resumindo caso ao jogarmos 100 vezes a moeda obtenhamos entre 40 e 60 caras ou coroas assumimos que ela é honesta caso contrário entendemos que a moeda é viciada Perceba que os valores que correspondem à moeda ser viciada estão nas áreas sombreadas do gráfico chamadas de região crítica Resultados nessas áreas expressam que existem diferenças observadas significativas o que nos leva a rejeitar a hipótese nula H0 72 Unidade II Essa regra que estabelecemos aceitarmos a hipótese zero se o número de caras ou coroas estiver entre 40 e 60 e rejeitarmos nos casos contrários é nomeada como teste de hipóteses ou regra de decisão ou ainda teste de significância Perceba que essas regras de decisão são sujeitas a incertezas como todas as estimativas estatísticas Nesse assunto estamos sujeitos a dois tipos de erros Podemos aceitar como falsa uma hipótese verdadeira ou seja rejeitarmos uma situação que deveria ser aceita No nosso exemplo acharmos que é viciada uma moeda honesta Esse é o chamado erro do tipo I E ao contrário podemos aceitar como verdadeira uma hipótese falsa ou seja aceitarmos um evento que deveria ser rejeitado No nosso modelo considerarmos que é honesta uma moeda viciada Esse é o chamado erro do tipo II Em ambos os casos teríamos incorrido em decisões erradas ou em um erro de julgamento Um teste de hipóteses deve ser planejado para apresentar os menores erros possíveis seja do tipo I ou do tipo II O problema é que isso não é uma tarefa elementar Mantido o tamanho da amostra se nós diminuirmos o erro de um tipo nós aumentamos o erro do outro Reduzir os dois erros simultaneamente implica acréscimo do tamanho da amostra e por consequência nos acréscimos de custo já discutidos anteriormente Na prática verificamos qual o tipo de erro mais importante e focamos nele nossos esforços de redução Nesse caso o que é pior aceitar uma moeda honesta como viciada ou outra como honesta Da nossa decisão sairá o foco da redução do tipo de erro Via de regra os erros do tipo I são mais importantes e normalmente objeto de tentativa de redução Quando fixamos como fizemos agora há pouco um nível de confiabilidade assumimos um risco de ocorrência de erro do tipo I Nesse caso nosso nível de confiabilidade foi de 95 portanto temos um risco de 5 de ocorrerem erros do tipo I Em outras palavras se fizermos com essa moeda 100 testes e em cada um jogarmos a moeda 100 vezes em 5 desses testes o resultado cairá na zona sombreada causando um erro do tipo I A esse risco máximo damos o nome de nível de significância do teste simbolizado normalmente por α Na prática utilizamos níveis de significância de 005 5 ou 001 1 mas qualquer outro nível pode ser utilizado Assim sendo se adotamos um nível de significância de 005 ou 5 quer dizer que há cerca de 5 chances em 100 de a hipótese ser rejeitada quando deveria ser aceita em outras palavras temos 95 de confiança na nossa decisão Suponha que tenhamos obtido uma amostra com 38 caras e claro 62 coroas Diríamos que a hipótese de a moeda ser honesta foi rejeitada no nível de significância 005 Haveria portanto a probabilidade de erro tipo I de 5 73 ESTATÍSTICA APLICADA Observação Perceba que o nível de significância e o nível de confiabilidade são complementares A soma dos dois sempre será sempre igual a 1 ou 100 Agora imagine que tenhamos obtido uma amostra com 42 caras e portanto com 58 coroas Pela regra de decisão que estabelecemos moeda é honesta caso saiam entre 40 e 60 caras ou coroas aceitamos que a moeda é honesta mas podemos estar incorrendo em um erro do tipo II Cometese um erro do tipo II quando se aceita uma hipótese que deveria ser rejeitada Para evitálo em vez de aceitála simplesmente não a rejeitamos o que significa que não estaríamos tomando qualquer decisão a respeito Poderíamos então redigir a regra de decisão da seguinte forma para evitar um erro do tipo se o número de caras ou coras estiver entre 40 e 60 não rejeitaremos a hipótese caso contrário o faremos Perceba que aceitar a hipótese é diferente de não a rejeitar Não rejeitar é uma não decisão Na prática no entanto muitas vezes é necessário definir se uma hipótese deverá ser aceita ou não Isso requer um estudo mais completo dos erros tipo II que faremos posteriormente Existem portanto quatro resultados possíveis em um teste de hipóteses Tabela 10 Hipótese H0 Decisão Verdadeira Falsa Não rejeitar H0 Decisão correta Erro tipo II Rejeitar H0 Erro tipo I Decisão correta Um exemplo deixa mais claro todo o processo No processo de negociação de uma nova máquina automática o fornecedor informa à empresa compradora que a produtividade dela é de 260 toneladas por hora com um desvio padrão de 43 toneladas por hora O comprador decide verificar a veracidade da informação para aceitar ou não essa afirmação e consequentemente adquirir ou não a máquina e para tanto efetua uma amostragem com 36 observações Para essa amostra a produtividade média observada foi de 240 toneladas por hora Estabeleça para esses dados Quais as hipóteses possíveis Qual o nível de significância que o estudo irá utilizar 74 Unidade II Quais os valores críticos de teste ou em outras palavras qual a regra de decisão Qual a decisão a ser tomada Quais os riscos desta tomada de decisão Lembrete A distribuição normal de probabilidades pode ser utilizada para testar um valor hipotético quando n30 ou caso n30 apenas se a população for normalmente distribuída Existem duas hipóteses possíveis A hipótese nula é que o valor da produtividade média seja efetivamente de 260 th H0 µ260 e a hipótese alternativa é a de que a produtividade seja diferente de 260 th H1 µ260 Em tese qualquer nível de significância pode ser utilizado Os mais usados são 001 e 005 Vamos utilizar no exemplo esse último tab c 1 confiabilidade significância 005 A 00250 z 196 z 196 2 2 2 Observe que a estatística de teste que iremos usar é a média produtividade média Dessa forma o valor esperado é de 260 th X µ e como estamos falando de uma amostra de 36 observações n e de um desvio padrão populacional de 43 th σ os valores críticos da média da amostra seriam crítico c X 43 x z 260 196 26000 1405 n 36 σ µ A regra de decisão será a seguinte Aceitase que o fornecedor informou corretamente a produtividade da máquina se a amostra estiver com valores entre 24595 e 27405 th Rejeitase a informação do fornecedor se a amostra estiver fora dos limites mencionados Resumindo aceitamos que a produtividade média da máquina é de 260 th com significância de 5 caso uma amostra de 36 observações apresente resultados entre 24595 e 27405 th A amostra coletada apresentou um valor médio para a produtividade de 240 th fora dos limites estabelecidos portanto nossa decisão seria rejeitar a hipótese H0 e aceitar a hipótese alternativa H1 Isso significa que não aceitamos a informação do fornecedor porque a produtividade média da máquina seja igual a 260 th 75 ESTATÍSTICA APLICADA Essa decisão apresenta risco de erros O quadro a seguir resume as possibilidades Quadro 1 Nossa decisão A afirmação do fornecedor é verdadeira A afirmação do fornecedor não é verdadeira Rejeitamos H0 Cometemos um erro do tipo II A máquina tem a produtividade anunciada pelo fabricante mas não aceitamos isso e deixamos de comprála Decisão acertada A máquina não tem a produtividade anunciada pelo fabricante e ao não comprála tomamos a decisão correta Não rejeitamos H0 Decisão acertada A máquina tem a produtividade anunciada pelo fabricante e ao não comprála tomamos a decisão correta Cometemos um erro do tipo I A máquina não tem a produtividade anunciada pelo fabricante e ao comprála cometemos um erro do tipo I Observe no entanto uma peculiaridade nesse exemplo O fabricante da máquina afirma que a produtividade dela é de 260 th e como nossa amostra apresentou produtividade de 240 th rejeitamos a produtividade anunciada Mas e se nossa amostra tivesse registrado uma produtividade média de 280 th Teríamos rejeitado também porque está fora do intervalo estabelecido 24595 e 27405 th No entanto essa rejeição não teria sentido prático porque a produtividade seria maior que a alegada pelo fabricante e portanto iria nos favorecer mais ainda na compra da máquina Isso acontece porque ao resolvermos o exercício adotamos um raciocínio bilateral rejeitando ambos os extremos da curva normal quando o correto seria usar o raciocínio unilateral preterindo apenas o lado da curva que nos interessa Região crítica Região crítica Teste bilateral Teste unilateral Região crítica Zc Zc Zc Figura 20 Dessa forma a resolução do exercício ficaria muito mais adequada com o aspecto prático se a regra de decisão fosse a seguinte aceitase que o fornecedor informou corretamente a produtividade da máquina se a amostra estiver com valores superiores à região crítica do teste unilateral rejeitase a informação do fornecedor se a amostra estiver na zona crítica do teste unilateral 76 Unidade II Mantendo o nível de significância em 005 o valor de zc seria igual a 164 e portanto os valores críticos seriam dados por crítico c X 43 x z 260 164 26000 1175 24825 n 36 σ µ Consequentemente aceitaríamos a afirmação do fornecedor se a nossa amostra ficasse com valores acima de 24825 th e rejeitaríamos no caso contrário com os riscos decorrentes de incorrer em erros do tipo I ou II No exemplo dado no qual a amostra de 36 observações teria resultado em uma produtividade média de 240 th rejeitaríamos a afirmação do fornecedor com um nível de significância de 5 Observação Perceba que para o teste unilateral o cálculo do coeficiente zc é alterado em razão de a região crítica ficar toda em um dos lados da curva normal portanto sem dividir a significância por 2 tab c A significância 00500 z 164 z 164 O modelo visto trata de um dos parâmetros estatísticos a média no caso produtividade média mas todos os outros indicadores estão sujeitos aos testes de hipóteses Nos exemplos a seguir veremos algumas aplicações práticas Exemplo 1 um empreendedor pretende assumir uma franquia em determinada região da cidade na qual se alega que a renda média familiar é de R 1500000 Não confinado nessa informação ele faz sua própria pesquisa com 15 famílias e obtém para elas uma renda média de R 1400000 De estudos anteriores ele sabe que o desvio padrão aceitável para as rendas dessa zona é de R 200000 Ele deve aceitar a alegação feita com um nível de significância de 5 Resolução Observe que H0 µ R 1500000 e H1 µ R 1500000 e que para um nível de significância bilateral zc 196 logo crítico c X 2000 x z 15000 196 1500000 101214 n 15 σ µ Assim aceitamos a hipótese se a amostra estiver entre R 1398786 e R 1601214 que é efetivamente o caso visto que o empreendedor obteve uma amostra de média de R 1400000 Desse modo ele não rejeita a informação recebida 77 ESTATÍSTICA APLICADA Exemplo 2 considere que o empreendedor do exemplo anterior não esteja interessado na possibilidade de a renda familiar da região ser maior que R 1500000 e sim de ser menor Qual seria então a regra de decisão a ser aplicada Resolução Essa situação é mais realista visto que para o empreendedor rendas menores que as esperadas representam riscos não as superiores O cálculo seria feito não se considerando um teste bilateral e sim unilateral A alteração ocorreria apenas no fator de criticidade zc que passaria de 196 para 164 conforme mostrado anteriormente e teríamos então H0 µ R 1500000 e H1 µ R 1500000 Para um nível de significância unilateral zc 164 logo crítico c X 2000 x z 15000 164 1500000 84689 n 15 σ µ A regra de decisão fica então aceitase a hipótese zero se o valor amostral for maior ou igual a R 1415311 e rejeitase nos casos contrários Como a amostra que ele obteve foi de R 1400000 ele deve rejeitar a informação recebida Exemplo 3 um fabricante informa que 95 dos pequenos motores elétricos que fornece estão rigorosamente de acordo com as especificações Um comprador testou 200 desses motores e encontrou 18 defeituosos A afirmação do fabricante pode ser aceita com nível de significância de 1 Resolução Note que é um teste unilateral só interessa testar a quantidade de motores fora da especificação portanto as hipóteses seriam H0 p 005 H1 p 005 zc 233 crítico c p 1 p 005 1 005 p p z 005 233 005 0036 ou 5 36 n 200 Aceitase a hipótese zero se a porcentagem de defeitos for menor ou igual a 86 e rejeitase no caso contrário A amostra apresentou 18 defeitos em 200 ou seja 9 portanto rejeitamos a afirmação do fabricante com uma significância de 1 78 Unidade II O gráfico da figura a seguir resume a situação calculada Rejeitase a afirmação Significância 1 Zc233 Defeitos apresentados Aceitase a afirmação 5 9 Figura 21 Exemplo 4 duas classes em princípio semelhantes foram submetidas a uma avaliação da disciplina de estatística e obtiveram os resultados mostrados a seguir Tabela 11 Classe Média alcançada Desvio padrão Quantidade de alunos A 74 8 40 B 78 7 50 Podemos afirmar com um nível de significância de 5 que as classes apresentam diferenças significativas nos seus aproveitamentos Resolução Vamos supor que as duas classes vêm de populações cujas médias são respectivamente µA e µB Nesse caso as hipóteses seriam H0 µA µB ou seja as eventuais diferenças são casualidades H1 µA µB ou seja existem diferenças significativas entres as salas Considerando um teste bilateral visto que nos interessa saber se há diferenças de uma em relação à outra teríamos 2 2 A B A B A crítico B c A B x x z n n σ σ µ µ 79 ESTATÍSTICA APLICADA crític 2 2 A B o 8 7 x x 0 196 0 315 40 5 0 O valor crítico de z zc é calculado por tab c significância 005 A 00250 z 196 z 196 2 2 Dessa forma podemos supor que no caso de as diferenças entre as notas das classes estarem entre 315 e 315 verificase a hipótese zero ou seja são casuais nas situações contrárias as variações são significativas É o que acontece a diferença entre os escores foi de 74 78 4 portanto existem desproporções significativas entre os aproveitamentos das classes com a segunda sendo provavelmente a melhor no nível de 5 de significância Exemplo 5 como ficaria o teste de hipóteses do exemplo anterior para o nível de significância de 1 Resolução Vamos supor que as duas classes venham de populações cujas médias são respectivamente µA e µB Nesse caso as hipóteses seriam H0 µA µB ou seja as eventuais diferenças são casualidades H1 µA µB ou seja existem diferenças significativas entres as salas Considerando um teste bilateral visto que nos interessa saber se há diferenças de uma em relação à outra teríamos 2 2 A B A B A crítico B c A B x x z n n σ σ µ µ crític 2 2 A B o 8 7 x x 0 258 0 414 40 5 0 O valor crítico de z zc é calculado por tab c significância 001 A 00050 z 258 z 258 2 2 80 Unidade II Dessa forma podemos supor que no caso de as diferenças entre as notas das classes estarem entre 414 e 414 verificase a hipótese zero ou seja são casuais nas situações contrárias as variações são significativas A diferença entre os escores foi de 74 78 4 portanto não existem diferenças significativas entre os aproveitamentos das classes no nível de 1 de significância Murray Spiegel 1993 afirma que alguns estatísticos fazem a seguinte distinção terminológica Tabela 12 Resultados significativos no nível de São considerados 1 Altamente significativos 5 Provavelmente significativos Acima de 5 Não significativos Usando esse conceito terminológico nos exemplos 4 e 5 poderíamos afirmar que os resultados são provavelmente significativos visto que estão no nível de 5 mas não significativos no nível de 1 Exemplo 6 uma pesquisa médica trabalhou com dois grupos de pacientes portadores da mesma doença cada um deles com 100 elementos Ao grupo A ministrou uma nova medicação em desenvolvimento enquanto ao grupo B administrou apenas placebo substância com aparência medicamentosa mas sem princípios ativos para que ele se comportasse como grupo de controle Todas as demais condições foram mantidas idênticas para ambos os grupos Terminado o teste constatouse que 75 pessoas do grupo A tinham sido curadas contra 65 indivíduos do grupo B Teste a hipótese de o medicamento ministrado auxiliar na cura com um nível de significância de 5 Resolução As proporções de cura para os dois grupos seriam A B 75 65 p 075 e p 065 100 100 Portanto a amostragem apresentou uma diferença de 010 ou 10 a favor da utilização da medicação Esse resultado é significativo O teste de hipóteses seria montado da seguinte forma H0 pA pB ou seja as eventuais diferenças são casualidades H1 pA pB ou seja existem diferenças significativas quando do uso do medicamento 81 ESTATÍSTICA APLICADA Observe que se trata de um teste unilateral portanto A A B B A B crítico A B c A B p 1 p p 1 p p p p p z n n A B crítico 075 1 075 065 1 065 p p 0 164 0 0106 ou seja 0 106 pessoas 100 100 tab c A significância 00500 z 164 z 164 Observação O sinal da fórmula é substituído no cálculo pelo sinal por ser um teste unilateral A hipótese zero só será rejeitada se a proporção de pessoas curadas com a medicação for maior do que a curada sem medicação ou seja interessa a cauda direita do gráfico Portanto as diferenças serão significativas se o número de pessoas curadas com medicação for superior a 106 daquelas curadas sem medicação A diferença no entanto é de 10 indivíduos 75 65 ou seja a medicação não apresenta variações significativas no nível de 5 de significância Portanto a discrepância de resultados é devida ao acaso nesse nível de significância Exemplo 7 como ficaria o exemplo anterior no caso de um nível de significância de 10 Resolução As proporções de cura para os dois grupos seriam A B 75 65 p 075 e p 065 100 100 Portanto a amostragem apresentou uma diferença de 010 ou 10 a favor da utilização da medicação Esse resultado é significativo O teste de hipóteses seria montado da seguinte forma H0 pA pB ou seja as eventuais diferenças são casualidades H1 pA pB ou seja existem diferenças significativas quando do uso do medicamento 82 Unidade II Observe que se trata de um teste unilateral portanto A A B B A B crítico A B c A B p 1 p p 1 p p p p p z n n A B crítico 075 1 075 065 1 065 p p 0 128 0 0083 ou seja 0 83 pessoas 100 10 0 tab c A significância 01000 z 128 z 128 Consequentemente as diferenças serão significativas se o número de pessoas curadas com medicação for superior a 83 daquelas curadas sem medicação Como a diferença foi de 10 pessoas 75 65 a medicação apresenta diferenças significativas no nível de 10 de significância Portanto ela é significativa Note que usando a terminologia apresentada no exemplo 5 diríamos que a amostragem demonstra diferenças não significativas Observação As conclusões anteriores dependem do risco que estamos dispostos a correr ao tomar a decisão requerida Caso o medicamento seja ineficaz isto é as diferenças sejam casuais e concluirmos que as diferenças são decorrentes dela nós estaremos incorrendo em um erro do tipo I e acabaremos aplicando a medicação a um grupo muito grande somente para chegar à conclusão de que ele é ineficaz Por outro lado se o medicamento for eficaz e concluirmos que ele não é erro do tipo II nós poderemos colocar vidas humanas em risco Ambos os erros trazem problemas e devem ser muito bem avaliados o que na prática nem sempre acontece Resumo Grande parte dos problemas administrativos reside na formulação de cenários futuros para respaldar a tomada de decisão nos aspectos estratégicos financeiros mercadológicos operacionais entre outros A estatística de modo geral e a amostragem em particular em muito facilitam esse processo permitindo estimações quantitativas A teoria da estimação permite que ponderemos situações futuras tendo o domínio sobre as margens de erro e os custos dos trabalhos estatísticos determinando uma relação de compromisso que ao mesmo tempo nos permita tomar decisões com pouco risco com alta confiabilidade e custos 83 ESTATÍSTICA APLICADA benefícios adequados Equilibrando custos dos estudos diretamente ligados aos tamanhos das amostras precisão requerida e confiabilidade apropriada nós conseguimos ter dados quantitativos suficientemente pertinentes às atividades profissionais e científicas de qualidade Entre essas ferramentas decorrentes dos conceitos de amostra uma que se destaca é o controle estatístico da qualidade vital para a avaliação da efetiva eficiência e eficácia de todo e qualquer processo Esses e outros indicadores muitos deles estatísticos são decisivos nas melhores práticas administrativas Outro aspecto importante tratado foi o dilema que se põe em qualquer comparação de observações As diferenças observadas entre várias observações inevitáveis de ocorrer seriam devidas a um motivo real ou seja a uma causa ou a algo acidental apenas casual Essa análise pode ser delicada e sutil e nos levar a tomar decisões erradas aceitando o que deveria ser rejeitado ou rejeitando o que deveria ser aceito Estimar algo futuro ou muito complexo e decidir se as ocorrências são casuais ou causais nos dá condições de exercer adequadamente toda e qualquer atividade decisória Exercícios Questão 1 Diversas pesquisas na área de economia aplicada procuraram avaliar a hipótese da histerese no desemprego por meio da aplicação de testes de raízes unitárias Song Wu 1998 por exemplo analisaram o referido fenômeno no desemprego dos EUA utilizando dados anuais desagregados de desemprego de quarenta e oito estados norteamericanos Os resultados apontados pelos autores indicam a existência de uma tendência estocástica nas séries em consonância com a hipótese de histerese Disponível em httpsbitly2Idcd1M Acesso em 13 jun 2019 O teste de raiz unitária é extremamente importante em séries temporais A partir dele será possível saber se os resultados são seguros ou não Aponte a alternativa correta A Quando uma série possui raiz unitária significa que os resultados não são estocásticos B Uma série com raiz unitária possui alto grau de correlação C O teste de raiz unitária é dispensável em regressões cujo R2 seja maior que 95 84 Unidade II D O teste de raiz unitária é facultativo em regressões com muitas observações E A ausência do teste de raiz unitária pode levar a regressões espúrias Resposta correta alternativa E Análise das alternativas A Alternativa incorreta Justificativa justamente o contrário séries com raiz unitária apontam para possíveis resultados estocásticos B Alternativa incorreta Justificativa a correlação entre as variáveis é perfeitamente visível tanto em séries que apresentam raiz unitária quanto naquelas em que a média e a variância são constantes C Alternativa incorreta Justificativa de forma alguma a correlação entre variáveis explicativas e dependentes não anula a necessidade de observar se a série apresenta raiz unitária D Alternativa incorreta Justificativa o tamanho da amostra não determina se a regressão pode ser ou não espúria portanto neste caso é indispensável o uso de testes como o DickeyFuller aumentado para identificar se a série tem ou não raiz unitária E Alternativa correta Justificativa sim algumas variáveis apresentam alto grau de correlação sem no entanto terem qualquer relação entre si Questão 2 A estimativa é um processo em que uma amostra é selecionada medemse as estatísticas necessárias como por exemplo a altura média e o desvio padrão da amostra Então é feita uma inferência ou seja um processo de generalização dizendo que a partir da média da amostra será possível concluir que ela será a média da população Em outras palavras com os dados da amostra tirase conclusão da população Disponível em httpsbitly2NjthrA Acesso em 24 jun 2019 85 ESTATÍSTICA APLICADA O texto anterior faz referência a A Estimativa por intervalo B Fidedignidade da estimativa C Estimativa por pontos D Intervalo de confiança E Semelhanças para as proporções Resolução desta questão na plataforma
Send your question to AI and receive an answer instantly
Recommended for you
Preview text
52 Unidade II Unidade II Amostragem estimação e decisão estatística A partir de agora iremos nos aprofundar nas teorias da estimação estatística e da decisão estatística Na primeira dessas teorias talvez o campo mais usado e conhecido da amostragem veremos como estimar uma população a partir de amostras dela retiradas Na segunda teoria nossa preocupação será diferenciar o que é causal do que é casual na amostragem Objetivos do módulo Anteriormente vimos que é possível prever o comportamento de amostras sabendo o comportamento da população do qual elas são retiradas Do ponto de vista prático no entanto normalmente é mais interessante o movimento ao contrário ou seja a partir do estudo de uma amostra estimarse o comportamento de uma população Podemos por exemplo prever quem será eleito em uma próxima eleição a partir de uma pesquisa eleitoral ou estimar qual será o volume de vendas de um produto que iremos lançar a partir de uma pesquisa de mercado ou ainda quantos desempregados existem em uma região ou em um país Já aprendemos que uma maneira imediata e intuitiva de se conhecer um problema é coletar todos os dados relativos a ele Estatisticamente é a ideia do censo Porém muitas vezes é impossível ou difícil de fazêlo Envolve muito trabalho e custo isso quando os dados forem reais se forem improváveis nem com muito trabalho chegaremos a um resultado adequado A alternativa é coletarmos e estudarmos amostras e a partir delas estimarmos a população Essas estimativas estão no centro do próximo assunto que iremos abordar Por outro lado também vimos que em estatística sempre estamos sujeitos a cometer erros de predição Mensurar diminuir e se possível eliminar esses erros é fundamental para a qualidade do estudo estatístico Veremos isso aqui quando serão estudadas casualidade e causalidade dos experimentos Saiba mais Uma das mais importantes pesquisas por amostragem no Brasil é a PNAD Pesquisa Nacional por Amostra em Domicílios base para grande parte do planejamento econômico nacional INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA Pesquisa nacional por amostra de domicílios PNAD Disponível em httpsww2ibgegov brhomeestatisticapesquisaspesquisaresultadosphpidpesquisa40 Acesso em 13 jun 2019 53 ESTATÍSTICA APLICADA 5 TEORIA DA ESTIMAÇÃO ESTATÍSTICA A princípio o valor central da amostra é igual ao valor central correspondente da população Por exemplo tomamos uma amostra de um determinado processo produtivo e ela revelou uma produtividade média de 150 toneladas por hora X 150 th É lícito pensar que se fosse possível avaliar toda a população ou seja as infinitas vezes em que o processo foi e será repetido a produtividade média dela seria 150 toneladas por hora também µ 150 th Esse raciocínio é conhecido por estimativa por pontos É intuitivo notar que esse tipo de estimativa é lógico mas dificilmente exato Acasos ocasionarão variações que têm que ser de algum modo consideradas Isso nos conduz ao conceito de fidedignidade da estimativa que consiste em declarar um intervalo de variação É a chamada estimativa por intervalos No caso do processo produtivo estimaríamos que a produtividade estivesse por exemplo entre 145 e 155 th portanto uma estimativa por intervalos Calcular esses intervalos é o nosso problema desta etapa Esse campo do estudo estatístico é conhecido como inferência estatística sendo esta normalmente feita com a definição dos chamados intervalos de confiança Suponha uma distribuição amostral das médias cuja média seja X µ e o erro padrão X σ Note que uma amostra qualquer retirada da população correspondente deve pertencer a essa distribuição Consequentemente podemos afirmar que temos 100 de certeza ou de confiança que a média de toda e qualquer amostra estará dentro do intervalo entre X X X X 4 até 4 µ σ µ σ Lembrete A curva normal tem como uma de suas características mais notáveis o fato de que varia entre mais ou menos quatro vezes o desvio padrão em torno da média Não existem probabilidades acima ou abaixo desses limites Logo se uma amostra ou população tiver média igual a 10 e desvio padrão igual a 1 será impossível se obter nela valores acima de 14 ou abaixo de 6 Vamos entender melhor isso através de um exemplo numérico Suponha que a população de alunos da UNIP que cursaram Estatística no passado apresente uma nota média igual a 62 com desvio padrão igual a 04 distribuída normalmente Para estudo retiramos uma amostra de 16 alunos Qual a nota média amostral decorrente ou seja entre que valores essa amostra pode ocorrer Os parâmetros amostrais seriam X µ µ 62 54 Unidade II X X X 04 01 n 16 σ σ σ σ Portanto temos 100 de certeza que qualquer amostra de 16 alunos retirada da população de alunos de Estatística da UNIP terá sua média entre 58 e 66 É estatisticamente impossível um valor médio superior a 66 ou inferior a 58 ocorrer Podemos fazer o raciocínio inverso Caso tomemos uma amostra com X e desvio padrão S poderemos afirmar com 100 de certeza que o valor real da população estará entre X S até X S Vamos imaginar que temos uma amostra com 25 alunos de Matemática Financeira da UNIP e calculamos sua média e desvio padrão chegando aos valores X 56 e S 25 Podemos estimar que a nota média desses estudantes todos estará entre 36 e 76 com 100 de certeza Veja os cálculos X X 56 µ µ X X X 25 05 n 25 σ σ σ σ X X X X 4 até 4 56 4 05 até 56 4 05 36 até 76 µ σ µ σ Observação Nesses cálculos utilizamos a média da amostra X no lugar da média da população µ e o desvio padrão da amostra S em vez do desvio padrão da população σ visto não conhecermos os parâmetros populacionais é o que desejamos saber O uso alternativo da média é obvio Esperase que as médias da amostra da população e a amostral sejam iguais por definição de amostragem Já a igualdade dos desvios padrões é menos intuitiva mas pode ser assumida se n 30 ou se a distribuição for normal Quando isso não acontecer recairemos na Teoria das Pequenas Amostras que não é objeto dos nossos estudos Essa estimativa não é satisfatória afinal prever que as notas médias estarão entre 36 e 76 é pouco melhor do que prever que elas estejam entre 0 e 10 e para isso não precisaríamos de estatística Temos duas maneiras de aperfeiçoála A primeira é aumentar o número de elementos da amostra Imagine que pegamos uma amostra de 100 alunos e que ela também apresenta os mesmos valores de média e desvio padrão Refazendo os cálculos notaríamos uma melhoria significativa 55 ESTATÍSTICA APLICADA X X 56 µ µ X X X 25 025 n 100 σ σ σ σ X X X X 4 até 4 56 4 025 até 56 4 025 46 até 66 µ σ µ σ Estimase portanto que a média de todos os alunos de Matemática Financeira da UNIP esteja entre 46 e 66 com 100 de certeza Reduziuse pela metade a margem de erro da estimativa mas o custo foi multiplicado por quatro Esse é um grande problema da amostragem o custo aumenta muito mais rapidamente que a precisão Observação Usamos os termos margem de erro e erro esperado como sinônimos do intervalo de confiança de uma estimativa que é a variação prevista para mais e para menos da estimativa por pontos A segunda maneira é trabalhar com níveis de confiabilidade ou confiança menores assumindo algum risco de estarmos em desacordo com a realidade O gráfico a seguir demonstra esse raciocínio Z Pz 682 954 977 1000 4σx 3σx 2σx 1σx µx 1σx 2σx 3σx 4σx Figura 14 56 Unidade II Observe que a probabilidade de que uma amostra tenha valor médio entre X X X X 4 até 4 µ σ µ σ é de 682 quer dizer temos uma confiança de 682 de que o valor médio de uma amostra qualquer esteja entre aqueles valores mencionados Em outras palavras o intervalo de confiança de 662 são os valores entre X X X X µ σ até µ σ De modo semelhante o intervalo de confiança de 997 está entre X X X X 3 até 3 µ σ µ σ e assim por diante O número de erros padrões que estabelecem a confiabilidade é chamado de coeficientes de confiança ou valores críticos e simbolizado por zc Podemos determinar uma confiança a partir do valor crítico ou ao contrário estabelecer o valor crítico a partir da confiança desejada utilizando a tabela da curva normal reduzida Por exemplo caso queiramos trabalhar com uma confiabilidade de 90 o valor crítico será de 1645 Chegase a esse valor através do raciocínio estabelecido no gráfico a seguir Z Pz Zc Zc 100 90 2 5 00500 100 90 2 5 00500 90 Figura 15 Utilizando a tabela da distribuição reduzida teríamos tab c A 00500 z 1645 Perceba que a área 00500 é exatamente o ponto médio entre os valores 00495 Z 165 e 00505 Z 164 daí o valor intermediário igual a 1645 O sinal negativo será ignorado por causa da simetria da curva Existe um zc positivo e outro negativo simétricos Vamos voltar ao exemplo dos alunos de matemática financeira Devemos considerar a amostra original de 25 alunos e refazer os cálculos para uma confiabilidade de 90 Como vimos anteriormente 57 ESTATÍSTICA APLICADA o valor de zc para uma confiabilidade de 90 seria igual a 164 na prática não usamos o valor 1645 Seria trabalhar com uma precisão desnecessária Ficaria assim X X 56 µ µ X X X 25 050 n 25 σ σ σ σ c c X X X X z até z 56 164 050 até 56 164 050 48 até 64 µ σ µ σ Estimase portanto que a média de todos os alunos esteja entre 48 e 64 com 90 de certeza Isso quer dizer que se tomarmos 100 amostras de 25 alunos cada em 90 delas estaríamos corretos mas em 10 delas errados ou seja errando a estimativa por pouco mas equivocandose Olhando os vários cálculos chegaremos provavelmente à conclusão de que essa última estimativa é a mais adequada Tomar uma decisão com um risco de 10 não é tão ruim assim na maioria dos casos práticos Perceba que até aqui falamos e exemplificamos usando sempre a média Isso é o mais comum na prática mas todas as medidas estatísticas podem ser estimadas As formulações dos intervalos de confiança para os principais parâmetros estão relacionadas a seguir Forma geral das estimativas por intervalos Valor estimado Valor mais provável coeficiente de confiança erro padrão Intervalo de confiança para a média c Valor estimado X z n σ Intervalo de confiança para as proporções c p 1 p Valor estimado p z n Intervalo de confiança para a soma de médias 2 2 A B A B c A B Valor estimado X X z n n σ σ 58 Unidade II Intervalo de confiança para as diferenças de médias 2 2 A B A B c A B Valor estimado X X z n n σ σ Intervalo de confiança para a soma das proporções A A B B A B c A B p 1 p p 1 p Valor estimado p p z n n Intervalo de confiança para as diferenças das proporções A A B B A B c A B p 1 p p 1 p Valor estimado p p z n n Alguns exemplos facilitarão o entendimento da teoria apresentada Exemplo 1 um auditor contábil separou aleatoriamente uma amostra de 45 contas pagas por uma empresa e encontrou um valor médio para elas de R 1490000 com desvio padrão de R 360000 Baseandose nesses valores qual foi o valor estimado para a média populacional com 95 de confiabilidade Resolução A estimativa para a média é dada por c Valor estimado X z n σ Para se fazer essa estimativa precisamos das seguintes informações Média X 1490000 Valor crítico zc 196 conforme o seguinte cálculo tab c 1 confiabilidade 1 095 A 00250 z 196 z 196 2 2 Desvio padrão σ s 3600 59 ESTATÍSTICA APLICADA Tamanho da amostra 45 c 3600 Valor estimado X z 14900 196 Valor estimado 1490000 105200 n 45 σ Baseado nesse cálculo e nessa amostra nós podemos dizer que se estima que as contas dessa empresa tenham um valor médio entre R 1384800 e R 1595200 com 95 de certeza Exemplo 2 uma pesquisa eleitoral feita com 2500 eleitores revelou que o candidato A tinha 45 de intenções de voto para determinado cargo eletivo Qual a estimativa da votação que esse candidato teria se a eleição fosse hoje com 99 de confiabilidade Resolução A estimativa para a proporção é dada por c p 1 p Valor estimado p z n Para se fazer essa estimativa precisamos das seguintes informações Proporção p 045 Valor crítico zc 258 conforme o seguinte cálculo tab c 1 confiabilidade 1 099 A 00050 z 258 z 258 2 2 Tamanho da amostra n 2500 c p 1 p 045 1 045 Valor estimado p z 045 258 n 2500 045 0026 ou valor estimado 45 26 Desse modo podemos afirmar que se a eleição fosse hoje o candidato A teria 45 dos votos com uma margem de erro para mais ou para menos de 26 com 99 de confiabilidade ou então dizer que temos 99 de certeza de que ele teria entre 424 e 476 dos votos Exemplo 3 uma amostra de 300 lâmpadas da marca A apresentou uma durabilidade média de 2300 horas com desvio padrão de 200 horas Outra amostra de 150 lâmpadas da marca B apresentou vida útil de 2000 horas com desvio padrão de 90 horas Estime com 90 de confiabilidade a diferença entre as vidas úteis de ambas as marcas de lâmpadas 60 Unidade II Resolução A estimativa para a diferença de médias é dada por 2 2 A B A B c A B Valor estimado X X z n n σ σ Para se fazer essa estimativa precisamos das seguintes informações Médias A B X 2300 e X 2000 Valor crítico zc 164 conforme o seguinte cálculo tab c 1 confiabilidade 1 090 A 00500 z 164 z 164 2 2 Desvios padrões σA sA 200 σB sB 90 Tamanhos das amostras nA 300 nB 150 2 2 A B A B c A B 2 2 Valor estimado X X z n n 200 90 2300 2000 164 Valor estimado 300 224 300 150 σ σ As lâmpadas da marca A devem durar mais do que as lâmpadas da marca B entre 2774 horas e 3224 horas com 90 de confiança Exemplo 4 uma amostra aleatória com 250 homens e 320 mulheres revelou que 150 dos homens e 240 das mulheres apreciaram o design de um novo modelo de automóvel Estime com 98 de confiabilidade a diferença entre a proporção de todos os homens e mulheres em relação a esse novo automóvel Resolução A estimativa para a diferença de proporções é dada por A A B B A B c A B p 1 p p 1 p Valor estimado p p z n n 61 ESTATÍSTICA APLICADA Para se fazer essa estimativa precisamos das seguintes informações Proporções H M 150 240 p 06 e p 075 250 320 Valor crítico zc 233 conforme o seguinte cálculo tab c 1 confiabilidade 1 098 A 00100 z 233 z 233 2 2 Tamanho da amostra nH 250 nM 320 M M H H M H c M H p 1 p p 1 p Valor estimado p p z n n 075 1 075 060 1 060 075 060 233 015 0092 ou 1 5 92 320 250 Estimase que 15 a mais de mulheres do que homens gostem do design desse automóvel com uma margem de erro de 92 e uma confiabilidade de 98 ou em outras palavras a diferença entre mulheres e homens nesse aspecto está entre 58 e 242 com 98 de certeza Grande parte das utilizações práticas desses conceitos envolve o cálculo do tamanho da amostra necessária para se atender a determinadas condições estatísticas O raciocínio é o mesmo dos casos anteriores invertendose no entanto a incógnita procurada As questões seguintes demonstram esse equacionamento Exemplo 5 um analista de treinamento deseja estimar o tempo de treinamento em horas para determinado cargo com uma confiabilidade de 95 e erro esperado de 2 horas Baseado em estudos anteriores ele estima o desvio padrão das horas gastas em treinamento em 18 horas Qual é o tamanho de amostra com que deve trabalhar Resolução Observe que o erro esperado ou margem de erro é dado por erro esperado zc n σ 62 Unidade II Para se fazer essa estimativa precisamos das seguintes informações Valor crítico zc 196 conforme o seguinte cálculo tab c 1 confiabilidade 1 095 A 00250 z 196 z 196 2 2 Desvio padrão σ s 18 horas Erro esperado desejável 2 horas 2 c 18 18 18 erro esperado z 2 196 n 196 n 196 n 312 2 2 n n σ Baseado nesse cálculo concluímos que o analista deve trabalhar com uma amostra de 312 elementos Observação O cálculo feito na verdade resulta em 31117 mas como não existe fração de elemento e estamos trabalhando a favor da segurança arredondaremos para cima nesses casos Exemplo 6 uma pesquisa com amostra de 100 consumidores detectou que 40 deles preferiam o sabão em pó Lavafacil em vez de qualquer outra marca Ao se estimar o comportamento de toda a população com uma confiabilidade de 95 chegouse a uma margem de erro inconveniente O cliente da pesquisa deseja que a estimativa seja feita com um erro de no máximo 5 mantida a confiabilidade Dessa forma mais quantos consumidores devem ser pesquisados para atender o estabelecido supondo que a proporção de consumidores de Lavafacil permanecesse constante Resolução Observe que o erro esperado ou margem de erro é dado por c p 1 p erro esperado z n Para se fazer essa estimativa precisamos das seguintes informações Erro esperado estabelecido ou margem de erro 5 ou 005 63 ESTATÍSTICA APLICADA Confiabilidade zc 196 tab c 1 confiabilidade 1 095 A 00250 z 196 z 196 2 2 Proporção de consumidores que preferem Lavafacil 04 c 2 2 p 1 p 04 1 04 005 024 erro esperado z 005 196 n n 196 n 005 024 024 n n 369 consumidores 196 n 005 196 Como já foram entrevistados 100 consumidores precisaríamos entrevistar mais 269 consumidores 369 100 269 Observação Constantemente no cálculo do tamanho da amostra para uma estimativa de proporções não se conhece o valor da proporção p Nesse caso utilizamos p 05 porque esse é o valor para o qual ocorre o maior erro padrão portanto gera as amostras de maior tamanho o que favorece a segurança do cálculo Utilizando essa diretriz no exemplo chegaríamos a 385 entrevistados em vez de 369 Exemplo 7 um engenheiro deseja avaliar a diferença entre duas marcas distintas de cabos de aço e para tanto ensaiou uma amostra de 64 cabos de cada marca chegando aos valores a seguir Tabela 8 Cabos Resistência média em kgf Desvio padrão da resistência média em kgf Marca A 1635 125 Marca B 1284 93 Ao fazer uma estimativa das diferenças de resistência média de todos os cabos de cada uma das duas marcas chegou a 99 de confiabilidade e percebeu que a margem de erro que não o agradava Ele deseja reduzir essa margem de erro em 20 kgf Quantos cabos a mais ele deverá ensaiar 64 Unidade II Resolução A estimativa inicial feita pelo engenheiro foi de 351 kgf 497 kgf a favor dos cabos da marca A 2 2 A B A B c A B 2 2 Valor estimado X X z n n 125 93 1635 1284 257 Valor estimado 351 50 64 64 σ σ Sendo tab c 1 confiabilidade 1 099 A 00050 z 257 z 257 2 2 Como ele deseja reduzir essa margem de erro em 20 kgf o erro esperado deverá baixar para 30 kgf logo 2 2 2 2 A B c A B 2 2 125 93 erro esperado z 30 257 30 n n n n 24274 30 24274 30 24274 24274 257 n n 179 cabos n 257 n 257 n 30 257 σ σ Como já foram ensaiados 64 cabos o engenheiro precisaria ensaiar mais 115 cabos 179 64 115 Exemplo 8 uma amostra de 20 baterias elétricas para uso em tablets revelou uma vida útil média de 30000 horas com desvio padrão de 2600 horas Baseado nesses dados um técnico estimou que as baterias desse tipo tivessem uma vida útil de 30000744 horas Qual a confiabilidade dessa estimativa Resolução O erro esperado ou margem de erro é dado por erro esperado zc n σ Sabemos que o erro da estimativa é igual a 744 horas que o desvio padrão da amostra foi de 2600 horas e que o tamanho da amostra é de 20 baterias Com esses dados conseguimos determinar o valor de zc 65 ESTATÍSTICA APLICADA erro esperado zc 744 n σ c c 2600 z z 20 c 744 z 128 2600 20 Invertendo o raciocínio que utilizamos anteriormente para determinar o valor crítico zc obteremos o valor da confiabilidade da amostra como mostra a figura a seguir Z Pz 128 Área tabelada 01003 ou 1003 Área tabelada 01003 ou 1003 Confiabilidade 1 2 x 01003 07994 080 ou 80 128 Figura 16 Podemos então afirmar que o técnico tem 80 de confiança na estimativa que fez Exemplo 9 às vésperas de uma eleição um importante órgão da mídia informou que se a eleição fosse naquele momento o candidato João Honesto venceria com 42 dos votos Afirmou também que a pesquisa havia sido feita com 2000 eleitores e que a margem de erro era de 1 para mais ou para menos Qual a confiabilidade que essa informação tem Resolução A margem de erro é dada por 66 Unidade II c p 1 p erro esperado z n Temos informado que a margem de erro é de 1 que o candidato teve 42 dos votos na amostra e que o seu tamanho era de 2000 eleitores Logo c c c p 1 p 042 1 042 001 erro esperado z 001 z z 091 n 2000 042 1 042 2000 Reproduzindo o raciocínio do exemplo 6 definimos que o valor da confiabilidade da informação é de apenas 6372 c tab z 091 z 091 A 01814 Confiabilidade 1 2 01814 06372 ou 6372 Exemplo 10 uma pesquisa de mercado pegou amostras do salário de funcionários de duas empresas concorrentes chegando aos valores a seguir Tabela 9 Empresa Tamanho da amostra tomada Salário médio da amostra Desvio padrão dos salários médios ABC 120 R 385000 R 85000 WXY 165 R 402000 R 101800 A partir desses dados um analista estimou que a diferença salarial entre as duas empresas seria de R 17000 R 16600 Qual é a confiança que podemos ter nessa estimativa Resolução O erro esperado para a estimativa da diferença de médias é dado por 2 2 A B c A B Erro esperado z n n σ σ Logo nesse caso teríamos 2 2 2 2 A B c c c c A B 850 1018 166 Erro esperado z 166 z 166 z 111 z 150 n n 120 165 111 σ σ c tab z 150 z 150 A 00668 Confiabilidade 1 2 00668 08664 ou 8664 67 ESTATÍSTICA APLICADA A estimativa apresenta uma confiabilidade de 8664 Exemplo 11 às vésperas de uma importante eleição foi feita uma pesquisa com 4866 eleitores que revelou uma polarização entre dois candidatos O candidato A teria 487 das intenções de votos enquanto o candidato B ficaria com 461 dos votos Um importante jornal decide cacifar o resultado e coloca na manchete do dia da eleição que o Candidato A será eleito Considerando que não ocorram variações nas intenções de votos qual é a confiabilidade que o jornal tem dessa informação Resolução Caso consideremos a estimativa por pontos o candidato A evidentemente ganharia pois teria 26 de votos a mais mas vimos que isso não seria preciso Ambas as votações têm variações portanto precisamos considerálas Irá ganhar a eleição o candidato que tiver um voto a mais do que o outro ou seja a diferença entre eles deverá ser superior a 0 A estimativa da diferença das proporções é dada por A A B B A B c A B p 1 p p 1 p Valor estimado p p z n n c 0487 1 0487 0461 1 0461 Valor estimado 0487 0461 z 4866 4866 c Valor estimado 00260 z 00101 Perceba que o candidato A deverá ter 26 mais ou menos uma variação Ele ganhará a eleição se tiver mais 0 dos votos ou seja se a margem de erro for abaixo de 26 ele vence Em outras palavras o valor estimado para a diferença das votações deve ser acima de 0 e como temos c Valor estimado 00260 z 00101 podemos estabelecer que no limite c c 0 00260 z 00101 00260 z 00101 c c 00260 multiplicando por menos 1 00260 z 00101 z 257 00101 c tab z 257 z 257 A 00051 Confiabilidade 1 2 00051 09898 ou 9898 68 Unidade II Esse cálculo no entanto tem uma imprecisão conceitual Veja a figura a seguir Z Pz 257 Probabilidade de o candidato B ter mais votos que o candidato A Probabilidade de o candidato A ter acima de 26 dos votos que o candidato B Confiabilidade calculada 99 257 Figura 17 Perceba que a confiabilidade calculada de 99 exclui duas áreas na cauda da curva normal A área da esquerda realmente tem que ser excluída visto ser a área na qual o candidato B vence e portanto a estimativa do jornal estaria errada Mas a área à direita não tem motivo para ser excluída visto que ela se refere à vitória ainda mais expressiva do candidato A portanto a favor da previsão do jornal A confiabilidade é calculada em um conceito conhecido como bicaudal ou seja caudas de exceção de ambos os lados da curva O nosso problema é de um tipo diferente o unicaudal Só faz sentido de um dos lados da curva no exemplo à esquerda Assim o jornal estaria correto em todos os casos com exceção das ocorrências da cauda esquerda ou seja a confiança que ele tem na manchete é dada pela confiabilidade calculada mais a cauda da direita portanto 9949 0989800051 Saiba mais Pesquisas eleitorais talvez sejam as aplicações mais rotineiras da estimação de resultados É possível verificar muitas dessas previsões e os efetivos resultados das eleições acessando PODER 360 Publicações por Fernando Rodrigues online sd Disponível em httpswwwpoder360combrauthorfernandorodrigues Acesso em 13 jun 2019 69 ESTATÍSTICA APLICADA 6 TEORIA DA DECISÃO ESTATÍSTICA Quando trabalhamos no terreno das probabilidades é inevitável aceitar uma variação em torno dos valores reais ou esperados Por exemplo ao jogarmos certo número de vezes uma moeda honesta não viciada o esperado é que em metade das vezes saia cara e na outra metade coroa Portanto se jogarmos uma moeda honesta 50 vezes imaginamos que em 25 delas saia cara E se saírem 26 caras Provavelmente a moeda é honesta e por casualidade saiu uma cara a mais Mas e se saírem 30 caras Ainda poderemos dizer que a moeda é honesta Uma variação dessas é aceita como uma casualidade Ou existe uma causa para saírem mais caras a moeda ser viciada Precisamos decidir isso Observação Fisicamente o peso de uma moeda deve ser distribuído de modo uniforme para que ela seja aleatória ou seja não tenha tendência de cair de um dos lados Caso isso não ocorra porque por exemplo colocouse de um lado um pequeno e pouco visível peso a moeda passa a ter a tendência de cair com esse lado mais pesado para baixo ficando viciada A probabilidade de a face mais leve ser sorteada será maior do que 50 Consideramos que uma pequena variação a mais de caras ou coroas acima ou abaixo dos 50 é devido à aleatoriedade Nesse caso a diferença seria casual ocasionada pela aleatoriedade do experimento Todavia além de um dado ponto essas desproporções deixam de ser casuais e se tornam causais Ocorrem pela disparidade de peso entre as faces da moeda Decidir quando ocorre um ou outro fato nos leva ao terreno da Teoria da Decisão Estatística a terceira e última abordagem da amostragem Essa teoria é especialmente útil quando precisamos nos decidir sobre populações a partir de amostras delas retiradas Por exemplo decidir entre duas campanhas publicitárias qual é a mais eficaz ou entre dois processos produtivos qual é o mais eficiente ou entre dois produtos similares qual tem melhor desempenho ou ainda se uma moeda é viciada ou não Vamos iniciar nosso estudo pela decisão de se uma moeda é honesta ou viciada Suponha que você tenha na mão uma moeda e não consiga determinar visualmente se ela é honesta ou viciada A única maneira de se chegar a uma conclusão é testar a referida moeda e a partir dos resultados decidir se ela é viciada ou não Perceba que existem duas hipóteses ou a moeda é honesta ou é viciada A hipótese de que ela seja honesta é o que se chama de hipótese nula e é simbolizada por H0 Assumese essa possibilidade muitas vezes para desmentila Caso estivéssemos analisando a eficiência de dois processos por exemplo formularíamos como hipótese H0 não existir diferença entre ambos 70 Unidade II Qualquer hipótese que não seja a zero é chamada de hipótese alternativa e simbolizada por H1 Assim sendo no caso de ela ser honesta tanto a probabilidade de sair cara como de sair coroa é igual a 05 é a hipótese nula p05 Qualquer ocorrência diferente p05 é considerada hipótese alternativa Imaginemos que uma moeda seja jogada 100 vezes e queiramos saber se ela é viciada ou não Vimos anteriormente que as estatísticas esperadas são Valor esperado média populacional média amostral np 100 x 05 50 caras ou 50 coroas Desvio padrão da média populacional Desvio padrão da média populacional n p 1 p 100 05 1 05 5 caras ou 5 coroas 5 caras ou 5 coroas Como o tamanho da amostra é maior que 30 n30 e o número esperado de caras ou de coroas é maior que 5 npcara npcoroa 100 x 05 50 podemos usar a aproximação da binomial pela distribuição normal Observação Jogar uma moeda envolve uma distribuição binomial para variáveis discretas mas podemos usar a aproximação para a normal sempre que n 30 e np 5 Como vimos são recomendações dadas por vários estatísticos entre eles Murray Siegel Utilizando a distribuição normal podemos afirmar que é impossível lançar 100 vezes uma moeda honesta e ter menos de 30 caras ou de 30 coroas e consequentemente mais de 70 coroas ou de 70 caras A figura a seguir relembra esse conceito Z Pz 1000 50 4 x 5 30 50 4 x 5 70 σ 5 4σ 3σ 2σ 1σ µ 50 1σ 2σ 3σ 4σ Figura 18 71 ESTATÍSTICA APLICADA Portanto se ao coletarmos uma amostra de 100 jogadas dessa moeda saírem mais do que 70 caras e consequentemente menos do que 30 coroas ou mais do que 70 coroas e consequentemente menos do que 30 caras a moeda será viciada nos casos contrários ela será honesta Perceba que essa afirmação tem 100 de confiabilidade já que abrange toda a curva normal Mas já vimos que esse nível não é muito utilizado na prática Normalmente se usam níveis menores de confiabilidade por exemplo 95 Isso porque quanto maior o nível de confiabilidade mais custo teremos para obtermos uma precisão adequada Note que aceitar como honesta uma moeda com toda essa variação entre 30 e 70 caras ou coroas na prática é pouco interessante Iremos trabalhar com menores confiabilidades por exemplo 95 Graficamente teremos Z Pz 196 Região crítica 25 Região crítica 25 95 196 Figura 19 tab c 1 confiabilidade 1 095 A 00250 z 196 z 196 2 2 Com 95 de confiança afirmamos que a moeda será honesta caso em uma amostra de 100 jogadas não se obtenha mais de 60 caras ou coroas ou menos do que 40 caras ou coroas c X z X 50 196 5 40 e X 50 196 5 60 µ σ Resumindo caso ao jogarmos 100 vezes a moeda obtenhamos entre 40 e 60 caras ou coroas assumimos que ela é honesta caso contrário entendemos que a moeda é viciada Perceba que os valores que correspondem à moeda ser viciada estão nas áreas sombreadas do gráfico chamadas de região crítica Resultados nessas áreas expressam que existem diferenças observadas significativas o que nos leva a rejeitar a hipótese nula H0 72 Unidade II Essa regra que estabelecemos aceitarmos a hipótese zero se o número de caras ou coroas estiver entre 40 e 60 e rejeitarmos nos casos contrários é nomeada como teste de hipóteses ou regra de decisão ou ainda teste de significância Perceba que essas regras de decisão são sujeitas a incertezas como todas as estimativas estatísticas Nesse assunto estamos sujeitos a dois tipos de erros Podemos aceitar como falsa uma hipótese verdadeira ou seja rejeitarmos uma situação que deveria ser aceita No nosso exemplo acharmos que é viciada uma moeda honesta Esse é o chamado erro do tipo I E ao contrário podemos aceitar como verdadeira uma hipótese falsa ou seja aceitarmos um evento que deveria ser rejeitado No nosso modelo considerarmos que é honesta uma moeda viciada Esse é o chamado erro do tipo II Em ambos os casos teríamos incorrido em decisões erradas ou em um erro de julgamento Um teste de hipóteses deve ser planejado para apresentar os menores erros possíveis seja do tipo I ou do tipo II O problema é que isso não é uma tarefa elementar Mantido o tamanho da amostra se nós diminuirmos o erro de um tipo nós aumentamos o erro do outro Reduzir os dois erros simultaneamente implica acréscimo do tamanho da amostra e por consequência nos acréscimos de custo já discutidos anteriormente Na prática verificamos qual o tipo de erro mais importante e focamos nele nossos esforços de redução Nesse caso o que é pior aceitar uma moeda honesta como viciada ou outra como honesta Da nossa decisão sairá o foco da redução do tipo de erro Via de regra os erros do tipo I são mais importantes e normalmente objeto de tentativa de redução Quando fixamos como fizemos agora há pouco um nível de confiabilidade assumimos um risco de ocorrência de erro do tipo I Nesse caso nosso nível de confiabilidade foi de 95 portanto temos um risco de 5 de ocorrerem erros do tipo I Em outras palavras se fizermos com essa moeda 100 testes e em cada um jogarmos a moeda 100 vezes em 5 desses testes o resultado cairá na zona sombreada causando um erro do tipo I A esse risco máximo damos o nome de nível de significância do teste simbolizado normalmente por α Na prática utilizamos níveis de significância de 005 5 ou 001 1 mas qualquer outro nível pode ser utilizado Assim sendo se adotamos um nível de significância de 005 ou 5 quer dizer que há cerca de 5 chances em 100 de a hipótese ser rejeitada quando deveria ser aceita em outras palavras temos 95 de confiança na nossa decisão Suponha que tenhamos obtido uma amostra com 38 caras e claro 62 coroas Diríamos que a hipótese de a moeda ser honesta foi rejeitada no nível de significância 005 Haveria portanto a probabilidade de erro tipo I de 5 73 ESTATÍSTICA APLICADA Observação Perceba que o nível de significância e o nível de confiabilidade são complementares A soma dos dois sempre será sempre igual a 1 ou 100 Agora imagine que tenhamos obtido uma amostra com 42 caras e portanto com 58 coroas Pela regra de decisão que estabelecemos moeda é honesta caso saiam entre 40 e 60 caras ou coroas aceitamos que a moeda é honesta mas podemos estar incorrendo em um erro do tipo II Cometese um erro do tipo II quando se aceita uma hipótese que deveria ser rejeitada Para evitálo em vez de aceitála simplesmente não a rejeitamos o que significa que não estaríamos tomando qualquer decisão a respeito Poderíamos então redigir a regra de decisão da seguinte forma para evitar um erro do tipo se o número de caras ou coras estiver entre 40 e 60 não rejeitaremos a hipótese caso contrário o faremos Perceba que aceitar a hipótese é diferente de não a rejeitar Não rejeitar é uma não decisão Na prática no entanto muitas vezes é necessário definir se uma hipótese deverá ser aceita ou não Isso requer um estudo mais completo dos erros tipo II que faremos posteriormente Existem portanto quatro resultados possíveis em um teste de hipóteses Tabela 10 Hipótese H0 Decisão Verdadeira Falsa Não rejeitar H0 Decisão correta Erro tipo II Rejeitar H0 Erro tipo I Decisão correta Um exemplo deixa mais claro todo o processo No processo de negociação de uma nova máquina automática o fornecedor informa à empresa compradora que a produtividade dela é de 260 toneladas por hora com um desvio padrão de 43 toneladas por hora O comprador decide verificar a veracidade da informação para aceitar ou não essa afirmação e consequentemente adquirir ou não a máquina e para tanto efetua uma amostragem com 36 observações Para essa amostra a produtividade média observada foi de 240 toneladas por hora Estabeleça para esses dados Quais as hipóteses possíveis Qual o nível de significância que o estudo irá utilizar 74 Unidade II Quais os valores críticos de teste ou em outras palavras qual a regra de decisão Qual a decisão a ser tomada Quais os riscos desta tomada de decisão Lembrete A distribuição normal de probabilidades pode ser utilizada para testar um valor hipotético quando n30 ou caso n30 apenas se a população for normalmente distribuída Existem duas hipóteses possíveis A hipótese nula é que o valor da produtividade média seja efetivamente de 260 th H0 µ260 e a hipótese alternativa é a de que a produtividade seja diferente de 260 th H1 µ260 Em tese qualquer nível de significância pode ser utilizado Os mais usados são 001 e 005 Vamos utilizar no exemplo esse último tab c 1 confiabilidade significância 005 A 00250 z 196 z 196 2 2 2 Observe que a estatística de teste que iremos usar é a média produtividade média Dessa forma o valor esperado é de 260 th X µ e como estamos falando de uma amostra de 36 observações n e de um desvio padrão populacional de 43 th σ os valores críticos da média da amostra seriam crítico c X 43 x z 260 196 26000 1405 n 36 σ µ A regra de decisão será a seguinte Aceitase que o fornecedor informou corretamente a produtividade da máquina se a amostra estiver com valores entre 24595 e 27405 th Rejeitase a informação do fornecedor se a amostra estiver fora dos limites mencionados Resumindo aceitamos que a produtividade média da máquina é de 260 th com significância de 5 caso uma amostra de 36 observações apresente resultados entre 24595 e 27405 th A amostra coletada apresentou um valor médio para a produtividade de 240 th fora dos limites estabelecidos portanto nossa decisão seria rejeitar a hipótese H0 e aceitar a hipótese alternativa H1 Isso significa que não aceitamos a informação do fornecedor porque a produtividade média da máquina seja igual a 260 th 75 ESTATÍSTICA APLICADA Essa decisão apresenta risco de erros O quadro a seguir resume as possibilidades Quadro 1 Nossa decisão A afirmação do fornecedor é verdadeira A afirmação do fornecedor não é verdadeira Rejeitamos H0 Cometemos um erro do tipo II A máquina tem a produtividade anunciada pelo fabricante mas não aceitamos isso e deixamos de comprála Decisão acertada A máquina não tem a produtividade anunciada pelo fabricante e ao não comprála tomamos a decisão correta Não rejeitamos H0 Decisão acertada A máquina tem a produtividade anunciada pelo fabricante e ao não comprála tomamos a decisão correta Cometemos um erro do tipo I A máquina não tem a produtividade anunciada pelo fabricante e ao comprála cometemos um erro do tipo I Observe no entanto uma peculiaridade nesse exemplo O fabricante da máquina afirma que a produtividade dela é de 260 th e como nossa amostra apresentou produtividade de 240 th rejeitamos a produtividade anunciada Mas e se nossa amostra tivesse registrado uma produtividade média de 280 th Teríamos rejeitado também porque está fora do intervalo estabelecido 24595 e 27405 th No entanto essa rejeição não teria sentido prático porque a produtividade seria maior que a alegada pelo fabricante e portanto iria nos favorecer mais ainda na compra da máquina Isso acontece porque ao resolvermos o exercício adotamos um raciocínio bilateral rejeitando ambos os extremos da curva normal quando o correto seria usar o raciocínio unilateral preterindo apenas o lado da curva que nos interessa Região crítica Região crítica Teste bilateral Teste unilateral Região crítica Zc Zc Zc Figura 20 Dessa forma a resolução do exercício ficaria muito mais adequada com o aspecto prático se a regra de decisão fosse a seguinte aceitase que o fornecedor informou corretamente a produtividade da máquina se a amostra estiver com valores superiores à região crítica do teste unilateral rejeitase a informação do fornecedor se a amostra estiver na zona crítica do teste unilateral 76 Unidade II Mantendo o nível de significância em 005 o valor de zc seria igual a 164 e portanto os valores críticos seriam dados por crítico c X 43 x z 260 164 26000 1175 24825 n 36 σ µ Consequentemente aceitaríamos a afirmação do fornecedor se a nossa amostra ficasse com valores acima de 24825 th e rejeitaríamos no caso contrário com os riscos decorrentes de incorrer em erros do tipo I ou II No exemplo dado no qual a amostra de 36 observações teria resultado em uma produtividade média de 240 th rejeitaríamos a afirmação do fornecedor com um nível de significância de 5 Observação Perceba que para o teste unilateral o cálculo do coeficiente zc é alterado em razão de a região crítica ficar toda em um dos lados da curva normal portanto sem dividir a significância por 2 tab c A significância 00500 z 164 z 164 O modelo visto trata de um dos parâmetros estatísticos a média no caso produtividade média mas todos os outros indicadores estão sujeitos aos testes de hipóteses Nos exemplos a seguir veremos algumas aplicações práticas Exemplo 1 um empreendedor pretende assumir uma franquia em determinada região da cidade na qual se alega que a renda média familiar é de R 1500000 Não confinado nessa informação ele faz sua própria pesquisa com 15 famílias e obtém para elas uma renda média de R 1400000 De estudos anteriores ele sabe que o desvio padrão aceitável para as rendas dessa zona é de R 200000 Ele deve aceitar a alegação feita com um nível de significância de 5 Resolução Observe que H0 µ R 1500000 e H1 µ R 1500000 e que para um nível de significância bilateral zc 196 logo crítico c X 2000 x z 15000 196 1500000 101214 n 15 σ µ Assim aceitamos a hipótese se a amostra estiver entre R 1398786 e R 1601214 que é efetivamente o caso visto que o empreendedor obteve uma amostra de média de R 1400000 Desse modo ele não rejeita a informação recebida 77 ESTATÍSTICA APLICADA Exemplo 2 considere que o empreendedor do exemplo anterior não esteja interessado na possibilidade de a renda familiar da região ser maior que R 1500000 e sim de ser menor Qual seria então a regra de decisão a ser aplicada Resolução Essa situação é mais realista visto que para o empreendedor rendas menores que as esperadas representam riscos não as superiores O cálculo seria feito não se considerando um teste bilateral e sim unilateral A alteração ocorreria apenas no fator de criticidade zc que passaria de 196 para 164 conforme mostrado anteriormente e teríamos então H0 µ R 1500000 e H1 µ R 1500000 Para um nível de significância unilateral zc 164 logo crítico c X 2000 x z 15000 164 1500000 84689 n 15 σ µ A regra de decisão fica então aceitase a hipótese zero se o valor amostral for maior ou igual a R 1415311 e rejeitase nos casos contrários Como a amostra que ele obteve foi de R 1400000 ele deve rejeitar a informação recebida Exemplo 3 um fabricante informa que 95 dos pequenos motores elétricos que fornece estão rigorosamente de acordo com as especificações Um comprador testou 200 desses motores e encontrou 18 defeituosos A afirmação do fabricante pode ser aceita com nível de significância de 1 Resolução Note que é um teste unilateral só interessa testar a quantidade de motores fora da especificação portanto as hipóteses seriam H0 p 005 H1 p 005 zc 233 crítico c p 1 p 005 1 005 p p z 005 233 005 0036 ou 5 36 n 200 Aceitase a hipótese zero se a porcentagem de defeitos for menor ou igual a 86 e rejeitase no caso contrário A amostra apresentou 18 defeitos em 200 ou seja 9 portanto rejeitamos a afirmação do fabricante com uma significância de 1 78 Unidade II O gráfico da figura a seguir resume a situação calculada Rejeitase a afirmação Significância 1 Zc233 Defeitos apresentados Aceitase a afirmação 5 9 Figura 21 Exemplo 4 duas classes em princípio semelhantes foram submetidas a uma avaliação da disciplina de estatística e obtiveram os resultados mostrados a seguir Tabela 11 Classe Média alcançada Desvio padrão Quantidade de alunos A 74 8 40 B 78 7 50 Podemos afirmar com um nível de significância de 5 que as classes apresentam diferenças significativas nos seus aproveitamentos Resolução Vamos supor que as duas classes vêm de populações cujas médias são respectivamente µA e µB Nesse caso as hipóteses seriam H0 µA µB ou seja as eventuais diferenças são casualidades H1 µA µB ou seja existem diferenças significativas entres as salas Considerando um teste bilateral visto que nos interessa saber se há diferenças de uma em relação à outra teríamos 2 2 A B A B A crítico B c A B x x z n n σ σ µ µ 79 ESTATÍSTICA APLICADA crític 2 2 A B o 8 7 x x 0 196 0 315 40 5 0 O valor crítico de z zc é calculado por tab c significância 005 A 00250 z 196 z 196 2 2 Dessa forma podemos supor que no caso de as diferenças entre as notas das classes estarem entre 315 e 315 verificase a hipótese zero ou seja são casuais nas situações contrárias as variações são significativas É o que acontece a diferença entre os escores foi de 74 78 4 portanto existem desproporções significativas entre os aproveitamentos das classes com a segunda sendo provavelmente a melhor no nível de 5 de significância Exemplo 5 como ficaria o teste de hipóteses do exemplo anterior para o nível de significância de 1 Resolução Vamos supor que as duas classes venham de populações cujas médias são respectivamente µA e µB Nesse caso as hipóteses seriam H0 µA µB ou seja as eventuais diferenças são casualidades H1 µA µB ou seja existem diferenças significativas entres as salas Considerando um teste bilateral visto que nos interessa saber se há diferenças de uma em relação à outra teríamos 2 2 A B A B A crítico B c A B x x z n n σ σ µ µ crític 2 2 A B o 8 7 x x 0 258 0 414 40 5 0 O valor crítico de z zc é calculado por tab c significância 001 A 00050 z 258 z 258 2 2 80 Unidade II Dessa forma podemos supor que no caso de as diferenças entre as notas das classes estarem entre 414 e 414 verificase a hipótese zero ou seja são casuais nas situações contrárias as variações são significativas A diferença entre os escores foi de 74 78 4 portanto não existem diferenças significativas entre os aproveitamentos das classes no nível de 1 de significância Murray Spiegel 1993 afirma que alguns estatísticos fazem a seguinte distinção terminológica Tabela 12 Resultados significativos no nível de São considerados 1 Altamente significativos 5 Provavelmente significativos Acima de 5 Não significativos Usando esse conceito terminológico nos exemplos 4 e 5 poderíamos afirmar que os resultados são provavelmente significativos visto que estão no nível de 5 mas não significativos no nível de 1 Exemplo 6 uma pesquisa médica trabalhou com dois grupos de pacientes portadores da mesma doença cada um deles com 100 elementos Ao grupo A ministrou uma nova medicação em desenvolvimento enquanto ao grupo B administrou apenas placebo substância com aparência medicamentosa mas sem princípios ativos para que ele se comportasse como grupo de controle Todas as demais condições foram mantidas idênticas para ambos os grupos Terminado o teste constatouse que 75 pessoas do grupo A tinham sido curadas contra 65 indivíduos do grupo B Teste a hipótese de o medicamento ministrado auxiliar na cura com um nível de significância de 5 Resolução As proporções de cura para os dois grupos seriam A B 75 65 p 075 e p 065 100 100 Portanto a amostragem apresentou uma diferença de 010 ou 10 a favor da utilização da medicação Esse resultado é significativo O teste de hipóteses seria montado da seguinte forma H0 pA pB ou seja as eventuais diferenças são casualidades H1 pA pB ou seja existem diferenças significativas quando do uso do medicamento 81 ESTATÍSTICA APLICADA Observe que se trata de um teste unilateral portanto A A B B A B crítico A B c A B p 1 p p 1 p p p p p z n n A B crítico 075 1 075 065 1 065 p p 0 164 0 0106 ou seja 0 106 pessoas 100 100 tab c A significância 00500 z 164 z 164 Observação O sinal da fórmula é substituído no cálculo pelo sinal por ser um teste unilateral A hipótese zero só será rejeitada se a proporção de pessoas curadas com a medicação for maior do que a curada sem medicação ou seja interessa a cauda direita do gráfico Portanto as diferenças serão significativas se o número de pessoas curadas com medicação for superior a 106 daquelas curadas sem medicação A diferença no entanto é de 10 indivíduos 75 65 ou seja a medicação não apresenta variações significativas no nível de 5 de significância Portanto a discrepância de resultados é devida ao acaso nesse nível de significância Exemplo 7 como ficaria o exemplo anterior no caso de um nível de significância de 10 Resolução As proporções de cura para os dois grupos seriam A B 75 65 p 075 e p 065 100 100 Portanto a amostragem apresentou uma diferença de 010 ou 10 a favor da utilização da medicação Esse resultado é significativo O teste de hipóteses seria montado da seguinte forma H0 pA pB ou seja as eventuais diferenças são casualidades H1 pA pB ou seja existem diferenças significativas quando do uso do medicamento 82 Unidade II Observe que se trata de um teste unilateral portanto A A B B A B crítico A B c A B p 1 p p 1 p p p p p z n n A B crítico 075 1 075 065 1 065 p p 0 128 0 0083 ou seja 0 83 pessoas 100 10 0 tab c A significância 01000 z 128 z 128 Consequentemente as diferenças serão significativas se o número de pessoas curadas com medicação for superior a 83 daquelas curadas sem medicação Como a diferença foi de 10 pessoas 75 65 a medicação apresenta diferenças significativas no nível de 10 de significância Portanto ela é significativa Note que usando a terminologia apresentada no exemplo 5 diríamos que a amostragem demonstra diferenças não significativas Observação As conclusões anteriores dependem do risco que estamos dispostos a correr ao tomar a decisão requerida Caso o medicamento seja ineficaz isto é as diferenças sejam casuais e concluirmos que as diferenças são decorrentes dela nós estaremos incorrendo em um erro do tipo I e acabaremos aplicando a medicação a um grupo muito grande somente para chegar à conclusão de que ele é ineficaz Por outro lado se o medicamento for eficaz e concluirmos que ele não é erro do tipo II nós poderemos colocar vidas humanas em risco Ambos os erros trazem problemas e devem ser muito bem avaliados o que na prática nem sempre acontece Resumo Grande parte dos problemas administrativos reside na formulação de cenários futuros para respaldar a tomada de decisão nos aspectos estratégicos financeiros mercadológicos operacionais entre outros A estatística de modo geral e a amostragem em particular em muito facilitam esse processo permitindo estimações quantitativas A teoria da estimação permite que ponderemos situações futuras tendo o domínio sobre as margens de erro e os custos dos trabalhos estatísticos determinando uma relação de compromisso que ao mesmo tempo nos permita tomar decisões com pouco risco com alta confiabilidade e custos 83 ESTATÍSTICA APLICADA benefícios adequados Equilibrando custos dos estudos diretamente ligados aos tamanhos das amostras precisão requerida e confiabilidade apropriada nós conseguimos ter dados quantitativos suficientemente pertinentes às atividades profissionais e científicas de qualidade Entre essas ferramentas decorrentes dos conceitos de amostra uma que se destaca é o controle estatístico da qualidade vital para a avaliação da efetiva eficiência e eficácia de todo e qualquer processo Esses e outros indicadores muitos deles estatísticos são decisivos nas melhores práticas administrativas Outro aspecto importante tratado foi o dilema que se põe em qualquer comparação de observações As diferenças observadas entre várias observações inevitáveis de ocorrer seriam devidas a um motivo real ou seja a uma causa ou a algo acidental apenas casual Essa análise pode ser delicada e sutil e nos levar a tomar decisões erradas aceitando o que deveria ser rejeitado ou rejeitando o que deveria ser aceito Estimar algo futuro ou muito complexo e decidir se as ocorrências são casuais ou causais nos dá condições de exercer adequadamente toda e qualquer atividade decisória Exercícios Questão 1 Diversas pesquisas na área de economia aplicada procuraram avaliar a hipótese da histerese no desemprego por meio da aplicação de testes de raízes unitárias Song Wu 1998 por exemplo analisaram o referido fenômeno no desemprego dos EUA utilizando dados anuais desagregados de desemprego de quarenta e oito estados norteamericanos Os resultados apontados pelos autores indicam a existência de uma tendência estocástica nas séries em consonância com a hipótese de histerese Disponível em httpsbitly2Idcd1M Acesso em 13 jun 2019 O teste de raiz unitária é extremamente importante em séries temporais A partir dele será possível saber se os resultados são seguros ou não Aponte a alternativa correta A Quando uma série possui raiz unitária significa que os resultados não são estocásticos B Uma série com raiz unitária possui alto grau de correlação C O teste de raiz unitária é dispensável em regressões cujo R2 seja maior que 95 84 Unidade II D O teste de raiz unitária é facultativo em regressões com muitas observações E A ausência do teste de raiz unitária pode levar a regressões espúrias Resposta correta alternativa E Análise das alternativas A Alternativa incorreta Justificativa justamente o contrário séries com raiz unitária apontam para possíveis resultados estocásticos B Alternativa incorreta Justificativa a correlação entre as variáveis é perfeitamente visível tanto em séries que apresentam raiz unitária quanto naquelas em que a média e a variância são constantes C Alternativa incorreta Justificativa de forma alguma a correlação entre variáveis explicativas e dependentes não anula a necessidade de observar se a série apresenta raiz unitária D Alternativa incorreta Justificativa o tamanho da amostra não determina se a regressão pode ser ou não espúria portanto neste caso é indispensável o uso de testes como o DickeyFuller aumentado para identificar se a série tem ou não raiz unitária E Alternativa correta Justificativa sim algumas variáveis apresentam alto grau de correlação sem no entanto terem qualquer relação entre si Questão 2 A estimativa é um processo em que uma amostra é selecionada medemse as estatísticas necessárias como por exemplo a altura média e o desvio padrão da amostra Então é feita uma inferência ou seja um processo de generalização dizendo que a partir da média da amostra será possível concluir que ela será a média da população Em outras palavras com os dados da amostra tirase conclusão da população Disponível em httpsbitly2NjthrA Acesso em 24 jun 2019 85 ESTATÍSTICA APLICADA O texto anterior faz referência a A Estimativa por intervalo B Fidedignidade da estimativa C Estimativa por pontos D Intervalo de confiança E Semelhanças para as proporções Resolução desta questão na plataforma