• Home
  • Chat IA
  • Recursos
  • Guru IA
  • Professores
Home
Recursos
Chat IA
Professores

·

Química ·

Estatística 1

Envie sua pergunta para a IA e receba a resposta na hora

Recomendado para você

Projeto de Pesquisa Mestrado - Avaliação da Atividade Antioxidante de Complexos de Mg(II) como Fertilizante

18

Projeto de Pesquisa Mestrado - Avaliação da Atividade Antioxidante de Complexos de Mg(II) como Fertilizante

Estatística 1

UFSCAR

Estatistica-Descritiva-Amostragem-e-Probabilidade

1

Estatistica-Descritiva-Amostragem-e-Probabilidade

Estatística 1

UFSCAR

Curso Estatística e Probabilidade

4

Curso Estatística e Probabilidade

Estatística 1

UFSCAR

Lista de Exercicios - Estatistica - Calculo de Probabilidades e Distribuicoes

2

Lista de Exercicios - Estatistica - Calculo de Probabilidades e Distribuicoes

Estatística 1

UFSCAR

Testes de Hipótese

5

Testes de Hipótese

Estatística 1

UFSCAR

Analise Estatistica de Dados

1

Analise Estatistica de Dados

Estatística 1

UFSCAR

Estatistica

1

Estatistica

Estatística 1

UFSCAR

Exercício 4 Lista-2023 1

6

Exercício 4 Lista-2023 1

Estatística

UFRPE

Estatistica Atv 2

1

Estatistica Atv 2

Estatística 1

URCA

Estatistica

4

Estatistica

Estatística 1

URCA

Texto de pré-visualização

LISTA 03B EXERCÍCIO 1 INTERVALO DE CONFIANÇA PARA MÉDIA Suponha que X represente a duração da vida de uma peça de equipamento Admitase que 100 peças sejam ensaiadas fornecendo uma duração de vida média de 5012 horas Suponhase que seja conhecido e igual a 4 horas e que se deseje obter um intervalo de confianças de 95 por cento para a média EXERCÍCIO 2 INTERVALO DE CONFIANÇA PARA MÉDIA Dez mensurações são feitas para a resistência de um certo tipo de fio fornecendo os valores X1 X2 X10 Suponhase que 1048 ohms e Σ10𝑿𝑖𝟏𝑿 𝑋𝟐 136 ohms Vamos supor que X tenha distribuição N𝜎2 e que desejemos obter um intervalo de confiança para com coeficiente de confiança 090 Portanto 010 EXERCÍCIO 3 INTERVALO DE CONFIANÇA PARA DIFERENÇA DE MÉDIAS Um processo industrial usa uma ferramenta fabricada de aço tipo A da qual uma amostra de 10 unidades apresentou vida média de 1400 horas e desviopadrão de 120 horas A mesma ferramenta passou a ser fabricada com aço tipo B e um lote de 20 unidades apresentou vida média de 1200 horas e desviopadrão de 100 horas Desde que o processo de fabricação da ferramenta não mudou podese supor idênticos os desviospadrão das populações de cada amostra Determinar o intervalo de confiança a 95 para a diferença entre as médias das populações de ambos os tipos de ferramenta EXERCÍCIO 4 INTERVALO DE CONFIANÇA PARA DIFERENÇA DE MÉDIAS Um engenheiro civil tenciona medir a força compressiva de dois tipos de betão De duas amostras aleatórias independentes de 10 elementos dos dois tipos resultaram Tipo I 3250 3268 4302 3184 3266 3297 3332 3502 3064 3116 Tipo II 3094 3268 4302 3184 3266 3124 3316 3212 3380 3018 Considerando que as amostras provêm de populações normais com desvio padrão igual a 353 e 363 respectivamente determine um intervalo de confiança de 95 para a diferença entre os valores esperados das duas populações EXERCÍCIO 5 INTERVALO DE CONFIANÇA PARA PROPORÇÃO Examinadas 500 peças de uma produção encontrouse 260 defeituosas Construir um intervalo de confiança a 90 para a verdadeira proporção de peças defeituosas EXERCÍCIO 6 INTERVALO DE CONFIANÇA PARA PROPORÇÃO Um teste realizado com 280 pessoas consistia em adivinhar em qual das mãos ambas fechadas do pesquisador estava uma moeda Em 44 das tentativas a identificação foi correta da mão selecionada EXERCÍCIO 7 INTERVALO DE CONFIANÇA PARA VARIÂNCIA O peso de componentes mecânicos produzidos por uma determinada empresa é uma variável aleatória que se supõe ter distribuição Normal Pretendese estudar a variabilidade do peso dos referidos componentes Para isso uma amostra de tamanho 11 foi obtidacujos valores em grama são 98 97 102 100 98 101 102 105 95 102 100 Construa um intervalo de confiança para a variância do peso com um grau de confiança igual a 95 EXERCÍCIO 8 INTERVALO DE CONFIANÇA PARA VARIÂNCIA Em uma fábrica uma amostra de 30 parafusos apresentou os seguintes diâmetros em mm 10 13 14 11 13 14 11 13 14 15 12 14 15 13 14 12 12 11 15 16 13 15 14 14 15 15 16 12 10 15 Supondo que os diâmetros sejam aproximadamente normais obtenha um intervalo de confiança para o diâmetro médio de todos os parafusos produzidos nessa fábrica usando o nível de significância de 2 Para facilitar a solução do exercício você pode usar os seguintes resultados Σ30𝑥𝑖401 Σ30 𝑥𝑖2 5443 EXERCÍCIO 9 TESTE DE HIPÓTESE PARA MÉDIA COM VARIÂNCIA CONHECIDA Na indústria cerâmica avaliase sistematicamente a resistência de amostras de massas cerâmicas após o processo de queima Dessas avaliações sabese que certo tipo de massa tem resistência mecânica aproximadamente normal com média 53 MPa e variância 16 MPa2 Após a troca de alguns fornecedores de matérias primas desejase verificar se houve alteração na qualidade Uma amostra de 15 corpos de prova de massa cerâmica acusou média igual a 50 MPa Qual é a conclusão ao nível de significância de 5 EXERCÍCIO 10 TESTE DE HIPÓTESE PARA MÉDIA COM VARIÂNCIA DESCONHECIDA O tempo para transmitir 10 MB em determinada rede de computadores varia segundo um modelo normal com média 74 seg e variância 13 seg2 Depois de algumas mudanças na rede acreditase numa redução no tempo de transmissão de dados além de uma possível alteração na variabilidade Foram realizados 10 ensaios independentes com um arquivo de 10 MB e foram anotados os tempos de transmissão em segundos 68 71 59 75 63 69 72 76 66 63 Existe evidência suficiente de que o tempo médio de transmissão foi reduzido Use nível de significância de 1 EXERCÍCIO 11 TESTE DE HIPÓTESE PARA DIFERENÇA DE MÉDIAS As resistências de dois tipos de concreto que segue o modelo normal foram medidas mostrando os resultados da tabela Fixado um nível de significância de 10 existem evidências de que o concreto do tipo X seja mais resistente do que o concreto do tipo Y TIPO X 54 55 58 50 61 TIPO Y 51 54 55 52 53 EXERCÍCIO 12 TESTE DE HIPÓTESE PARA DIFERENÇA DE MÉDIAS Desejamos verificar se os catalisadores A e B têm efeitos diferentes no rendimento de carta reação química Foram realizados dez ensaios com cada catalisador em ordem aleatória Os resultados são mostrados na tabela a seguir CAT A 45 51 50 62 43 42 53 50 48 55 CAT B 45 35 43 59 48 45 41 43 49 39 Teste a hipótese de as médias diferirem entre si a um nível de confiança de 5 EXERCÍCIO 13 TESTE DE HIPÓTESE PARA PROPORÇÃO Uma empresa retira periodicamente amostras aleatórias de 500 peças de sua linha de produção para análise da qualidade As peças da amostra são classificadas como defeituosas ou não sendo que a política da empresa exige que o processo produtivo seja revisto se houver evidência de mais que 15 de peças defeituosas Na última amostra foram encontradas nove peças defeituosas Usando nível de significância de 1 o processo precisa ser revisto EXERCÍCIO 14 TESTE DE HIPÓTESE PARA PROPORÇÃO Um fabricante garante que 90 das peças que fornecem à linha de produção de uma determinada fábrica estão de acordo com as especificações exigidas A análise de uma amostra de 200 peças revelou 25 defeituosas A um nível de 5 podemos dizer que é verdadeira a afirmação do fabricante EXERCÍCIO 15 TESTE DE HIPÓTESE PARA VARIÂNCIA Usuários de uma rede de transmissão de energia elétrica têm reclamado da alta variação na tensão desvio padrão de12 V A empresa encarregada da transmissão de energia elétrica na região instalou novos transformadores O desvio padrão calculado sobre 30 observações independentes foi de 8 V e a distribuição de frequências dos valores da amostra sugere uma distribuição normal Há evidências de redução na variação da tensão Use α 5 EXERCÍCIO 16 TESTE DE HIPÓTESE PARA VARIÂNCIA O tempo para transmitir 10 MB em determinada rede de computadores varia segundo um modelo normal com média 74 seg e variância 13 seg² Depois de algumas mudanças na rede acreditase numa redução no tempo de transmissão de dados além de uma possível alteração na variabilidade Foram realizados 10 ensaios independentes com um arquivo de 10 MB e foram anotados os tempos de transmissão em segundos 68 71 59 75 63 69 72 76 66 63 Existe evidência suficiente de que as mudanças na rede de computadores alteram a variabilidade no tempo de transmissão de dados Use nível de significância de 5 LISTA 04B 01 Uma empresa produz televisores de dois tipos tipo A comum e tipo B luxo e garante a restituição da quantia paga se qualquer televisor apresentar defeito grave no prazo de seis meses O tempo para ocorrência de algum defeito grave nos televisores tem distribuição normal sendo que no tipo A com média de 10 meses e desvio padrão de 2 meses e no tipo B com média de 11 meses e desvio padrão de 3 meses Os televisores de tipo A e B são produzidos com lucro de 1200 um e 2100 um respectivamente e caso haja restituição com prejuízo de 2500 um e 7000 um respectivamente a Calcule as probabilidades de haver restituição nos televisores do tipo A e do tipo B b Calcule o lucro médio para os televisores do tipo A e para os televisores do tipo B c Baseandose nos lucros médios a empresa deveria incentivar as vendas dos aparelhos do tipo A ou do tipo B 02 A concentração de um poluente em água liberada por uma fábrica tem distribuição N8 15 Qual a chance de que num dado dia a concentração do poluente exceda o limite regulatório de 10 ppm 03 O diâmetro do eixo principal de um disco rígido segue a distribuição Normal com média 2508 pol e desvio padrão 005 pol Se as especificações para esse eixo são 2500 015 pol determine o percentual de unidades produzidas em conformidades com as especificações 04 Suponha que as medidas da corrente elétrica em pedaço de fio sigam a distribuição Normal com uma média de 10 miliamperes e uma variância de 4 miliamperes a Qual a probabilidade de a medida exceder 13 miliamperes b Qual a probabilidade de a medida da corrente estar entre 9 e 11 miliamperes c Determine o valor para o qual a probabilidade de uma medida da corrente estar abaixo desse valor seja 098 05 O diâmetro de um eixo de um drive óptico de armazenagem é normalmente distribuído com média 02505 polegadas e desviopadrão de 00005 polegadas As especificações do eixo são 02500000015 polegadas Que proporção de eixos obedece às especificações 06 A média dos diâmetros internos de uma amostra de 200 arruelas produzidas por uma certa máquina é 0502 cm e o desviopadrão é 00005 A finalidade para qual essas arruelas são fabricadas permite a tolerância máxima para o diâmetro de 0496 a 0508 cm Se isso não se verificar as arruelas serão consideradas defeituosas Determinar a percentagem de arruelas defeituosas produzidas pela máquina admitindose que os diâmetros são distribuídos normalmente 07 Uma fábrica de carros sabe que os motores de sua fabricação têm duração normal com média 150000 km e desviopadrão de 5000 km Qual a probabilidade de que um carro escolhido ao acaso dos fabricados por essa firma tenha um motor que dure a Menos de 170000 km b Entre 140000 km e 165000 km c Se a fábrica substitui o motor que apresenta duração inferior à garantia qual deve ser esta garantia para que a porcentagem de motores substituídos seja inferior a 02 Resolução da Lista 5 Questão 1 Passo 1 Calcular a estatística de teste z z x μ0 σn 1615 1600 120100 15 12010 15 12 125 Passo 2 Determinar os valores críticos Para α 005 bilateral zα2 z0025 196 Passo 3 Regra de decisão Rejeitar H0 se z 196 Passo 4 Aplicar a regra z 125 196 Não rejeitamos H0 Passo 5 Conclusão Ao nível de significância de 5 não há evidência suficiente para concluir que a duração média das lâmpadas é diferente de 1600 horas Questão 2 Passo 1 Calcular média e desvio padrão amostral xi 65 74 78 86 59 84 75 72 81 83 757 x 757 10 757 xi² 65² 74² 78² 86² 59² 84² 75² 72² 81² 83² 4225 5476 6084 7396 3481 7056 5625 5184 s² xi² n x² n1 57977 10 757² 9 57977 10 573049 9 57977 573049 9 6721 9 746778 s 746778 8642 Passo 2 Suposições necessárias 1 As notas são independentes 2 As notas têm distribuição normal ou aproximadamente normal dado o tamanho pequeno da amostra 3 A variância populacional é desconhecida Passo 3 Calcular a estatística de teste t t x μ0 sn 757 80 864210 43 864231623 43 2732 1574 Passo 4 Determinar o valor crítico Graus de liberdade ν n 1 9 Para α 005 unilateral à esquerda t0059 1833 Passo 5 Regra de decisão Rejeitar H0 se t 1833 Passo 6 Aplicar a regra t 1574 1833 Não rejeitamos H0 Passo 7 Conclusão Ao nível de significância de 5 não há evidência suficiente para concluir que a média das notas diminuiu Questao 3 Conceito O nıvel descritivo pvalor e a probabilidade de se obter um resultado tao ou mais extremo que o observado assumindo H0 verdadeira Regra de decisao baseada no pvalor Se α pvalor rejeitase H0 Se α pvalor nao rejeitase H0 Resposta O pesquisador aceitara a hipotese nula nao rejeitara H0 para nıveis de significˆancia inferiores a 0035 Para nıveis de significˆancia superiores a 0035 ele rejeitara H0 Questao 4 a H0 µ 18 Ha µ 13 Esta e uma hipotese alternativa simples nao composta Calculamos o nıvel descritivo como a probabilidade de observar x 15 2 ou valor mais extremo considerando a distribuicao sob H0 Primeiro note que sob H0 µ 18 a estatıstica e z x µ0 σn 15 2 18 10 50 2 8 107 0711 2 8 1 4142 1 98 O nıvel descritivo para teste de uma hipotese alternativa simples µ 13 e a probabilidade de obter x 15 2 sob H0 ja que 13 18 teste unilateral a esquerda p PZ 1 98 Φ1 98 0 0239 b H0 µ 18 Ha µ 18 A hipotese alternativa e composta unilateral a esquerda O nıvel descritivo e p PZ 1 98 0 0239 c H0 µ 18 Ha µ 18 A hipotese alternativa e bilateral O nıvel descritivo e p 2 PZ 1 98 2 0 0239 0 0478 d H0 µ 17 Ha µ 14 Calculamos a estatıstica sob H0 µ 17 z 15 2 17 10 50 1 8 1 4142 1 273 Como 14 17 teste unilateral a esquerda p PZ 1 273 Φ1 273 0 1016 Respostas a 00239 b 00239 c 00478 d 01016 2 Questão 5 Passo 1 Calcular a estatística de teste sob H0 z x μ0 σn 98 13 6 25 32 65 32 12 2667 Passo 2 Determinar a região crítica Como Ha μ 8 13 temos um teste unilateral à esquerda Valor crítico para α 010 z010 1282 Passo 3 Regra de decisão Rejeitar H0 se z 1282 Passo 4 Aplicar a regra z 2667 1282 Rejeitamos H0 Passo 5 Conclusão Ao nível de significância de 10 há evidência suficiente para rejeitar H0 μ 13 em favor de Ha μ 8 Passo 6 Cálculo do nível descritivo pvalor p PZ 2667 Φ2667 00038 Como p 00038 α 010 confirmase a rejeição de H0 Questão 6 Passo 1 Verificar condições para uso da aproximação normal np0 100 010 10 5 n1 p0 100 090 90 5 Condições satisfeitas Passo 2 Calcular a estatística de teste z z p p0 p01p0n 008 010 010090 100 002 009 100 002 00009 002 003 06667 Passo 3 Determinar o valor crítico Para α 008 unilateral à esquerda z008 1405 Passo 4 Regra de decisão Rejeitar H0 se z 1405 Passo 5 Aplicar a regra z 06667 1405 Não rejeitamos H0 Passo 6 Cálculo do pvalor opcional p PZ 06667 Φ06667 02525 Como p 02525 α 008 confirmase a não rejeição de H0 Passo 7 Conclusão Ao nível de significância de 8 não há evidência suficiente para concluir que a proporção de animais com verminose diminuiu após a alteração da dieta Questão 7 Passo 1 Organizar os dados Controle 38 26 20 70 16 26 38 32 45 49 32 Teste 17 31 28 21 50 21 20 51 10 22 18 35 Observação O grupo teste tem 12 valores listados não 13 como mencionado Vou considerar nT 12 Passo 2 Calcular estatísticas descritivas Para Controle nC 11 C 38 26 20 70 16 26 38 32 45 49 32 392 C 392 11 35636 C² 38² 26² 20² 70² 16² 26² 38² 32² 45² 49² 32² 1444 676 400 4900 256 676 1444 1024 2025 2401 1024 sC² C² nC C² nC 1 16270 11 35636² 10 16270 11 12700 10 16270 13970 10 2300 10 230 sC 230 15166 Para Teste nT 12 T 17 31 28 21 50 21 20 51 10 22 18 35 324 T 324 12 270 T² 17² 31² 28² 21² 50² 21² 20² 51² 10² 22² 18² 35² 289 961 784 441 2500 441 400 2601 100 484 324 1225 sT² T² nT T² nT 1 10550 12 729 11 10550 8748 11 1802 11 163818 sT 163818 12799 Passo 3 Testar igualdade das variâncias préteste F sC² sT² 230 163818 1404 Graus de liberdade ν1 10 ν2 11 Valor crítico F bilateral 005 F00251011 353 e F09751011 1 F00251110 1330 0303 Como 0303 1404 353 não rejeitamos igualdade das variâncias Passo 4 Aplicar teste t para duas amostras com variâncias iguais Variância combinada sp² nC 1 sC² nT 1 sT² nC nT 2 10 230 11 163818 21 2300 1802 21 4102 21 195333 sp 195333 13976 Estatística de teste t T C sp 1nC 1nT 270 35636 13976 111 112 8636 13976 00909 00833 8636 13976 01742 8636 13976 04174 8636 5834 1480 Graus de liberdade ν nC nT 2 21 Passo 5 Determinar o valor crítico Para teste unilateral à esquerda com α 005 valor típico pois não foi especificado t00521 1721 Passo 6 Regra de decisão Rejeitar H0 se t 1721 Passo 7 Aplicar a regra t 1480 1721 Não rejeitamos H0 Passo 8 Cálculo do pvalor p PT21 1480 0076 Passo 9 Conclusão Ao nível de significância de 5 não há evidência suficiente para concluir que o uso dos sensores contribui para a diminuição do tempo médio gasto no percurso Entretanto note que o pvalor 0076 é próximo de 005 indicando que há alguma evidência mas não suficiente ao nível de 5 Questão 8 Passo 1 Calcular somas de quadrados Número de tratamentos a 5 Número de repetições por tratamento r 5 Número total de observações N a r 25 Total geral G 8562 Cálculo da Correção C C G² N 8562² 25 73307844 25 293231376 Cálculo da Soma de Quadrados Total SQT SQT Σi1a Σj1r yij² C Σ yij² 389² 254² 203² 257² 293² 209² 262² 323² 283² 287² 281² 270² 258² 269² 223² 387² 432² 417² 390² 403² 478² 478² 447² 505² 564² Calculando cada grupo A 151321 64516 41209 66049 85849 408944 B 43681 68644 104329 80089 82369 379112 C 78961 72900 66564 72361 49729 340515 D 149769 186624 173889 152100 162409 824791 E 228484 228484 199809 255025 318096 1229898 Σ yij² 408944 379112 340515 824791 1229898 3183260 SQT 3183260 293231376 25094624 Cálculo da Soma de Quadrados de Tratamentos SQTrat SQTrat 1r Σi1a Ti² C 1r Σ Ti² 151396² 1364² 1301² 2029² 2472² 151948816 1860496 1692601 4116841 6110784 1515729538 31459076 SQTrat 31459076 293231376 21359384 Cálculo da Soma de Quadrados do Resíduo SQRes SQRes SQT SQTrat 25094624 21359384 3735240 Passo 2 Calcular quadrados médios Graus de liberdade de tratamentos GLTrat a 1 4 Graus de liberdade total GLTotal N 1 24 Graus de liberdade do resíduo GLRes GLTotal GLTrat 24 4 20 QMTrat SQTrat GLTrat 21359384 4 5339846 QMRes SQRes GLRes 3735240 20 186762 Passo 3 Calcular estatística F F QMTrat QMRes 5339846 186762 2859 Passo 4 Tabela ANOVA Fonte de Variação GL SQ QM F Valorp Tratamentos 4 21359384 5339846 2859 00001 Resíduo 20 3735240 186762 Total 24 25094624 Passo 5 Valor crítico e decisão Para α 005 GL1 4 GL2 20 F005420 2866 Como F 2859 2866 rejeitamos H0 Resposta a Há diferença significativa p 00001 entre as produtividades das cinco variedades de mandioca ao nível de significância de 5 Resposta b Identificação do melhor tratamento Para identificar qual variedade apresentou o melhor resultado calculamos as médias de cada tratamento Tratamento Média tha A IAC 5 1396 5 2792 B IAC 7 1364 5 2728 C IAC 11 1301 5 2602 D IRACEMA 2029 5 4058 E MANTIQUEIRA 2472 5 4944 Ordenando as médias 1 E MANTIQUEIRA 4944 tha 2 D IRACEMA 4058 tha 3 A IAC 5 2792 tha 4 B IAC 7 2728 tha 5 C IAC 11 2602 tha A variedade que apresentou o melhor resultado foi a MANTIQUEIRA com média de 4944 tha Teste de comparação múltipla opcional para identificar diferenças significativas Como a ANOVA foi significativa podemos aplicar um teste de comparação múltipla como Tukey ou Duncan para identificar quais tratamentos diferem entre si Diferença Mínima Significativa DMS usando teste de Tukey DMS qαaGLres QMres r Para α 005 a 5 GLres 20 q005520 4232 DMS 4232 186762 5 4232 373524 4232 1933 818 Qualquer diferença entre médias maior que 818 tha é estatisticamente significativa Comparando as médias E vs C 4944 2602 2342 818 significativa E vs D 4944 4058 886 818 significativa D vs C 4058 2602 1456 818 significativa A B C entre si diferenças 818 não significativas Portanto temos trˆes grupos homogˆeneos 1 Grupo superior MANTIQUEIRA E 2 Grupo intermediario IRACEMA D 3 Grupo inferior IAC 5 A IAC 7 B IAC 11 C 8 Resolucao da Lista 3 Questao 1 Passo 1 Identificar o valor crıtico zα2 Para 1 α 0 95 temos α2 0 025 O valor crıtico da distribuicao normal padrao e z0025 1 96 Passo 2 Formula do intervalo de confianca ICµ x zα2 σ n Passo 3 Calcular a margem de erro E 1 96 4 100 1 96 0 4 0 784 Passo 4 Construir o intervalo ICµ 501 2 0 784 ICµ 500 416 501 984 Questao 2 Passo 1 Identificar o valor crıtico tα2ν Como σ e desconhecido e a amostra e pequena n 30 usamos a distribuicao tStudent Graus de liberdade ν n 1 9 Para α2 0 05 e ν 9 da tabela t temos t0059 1 833 Passo 2 Formula do intervalo de confianca ICµ x tα2ν s n Passo 3 Calcular a margem de erro E 1 833 1 36 10 1 833 0 4301 0 788 Passo 4 Construir o intervalo ICµ 10 48 0 788 ICµ 9 692 11 268 1 Questão 3 Passo 1 Calcular o desvio padrão combinado sp sp2 n1 1s12 n2 1s22 n1 n2 2 sp2 9 1202 19 1002 28 9 14400 19 10000 28 sp2 129600 190000 28 319600 28 114142857 sp 114142857 10684 Passo 2 Determinar o valor crítico t Graus de liberdade ν n1 n2 2 28 Para α2 0025 e ν 28 t002528 2048 Passo 3 Fórmula do intervalo ICµ1 µ2 x1 x2 tα2ν sp 1n1 1n2 Passo 4 Calcular a margem de erro E 2048 10684 110 120 110 120 01 005 015 03873 E 2048 10684 03873 8477 Passo 5 Construir o intervalo x1 x2 1400 1200 200 ICµ1 µ2 200 8477 ICµ1 µ2 11523 28477 Questão 4 Passo 1 Calcular as médias amostrais Para Tipo I x1 3250 3268 4302 3184 3266 3297 3332 3502 3064 3116 10 x1 33581 10 33581 Para Tipo II dados idênticos Há inconsistência nos valores fornecidos assumirei que os dados são diferentes mas como os valores exatos não são claros usarei a fórmula geral Nota Os dados do Tipo II parecem estar incompletoscopiados erroneamente Prosseguirei com a fórmula Passo 2 Valor crítico z Para 1 α 095 zα2 196 Passo 3 Fórmula do intervalo conhecidos ICµ1 µ2 x1 x2 zα2 σ12n1 σ22n2 Passo 4 Substituir valores assumindo x2 calculado corretamente 3532210 3632210 124609 131769 256378 16012 E 196 16012 31384 Passo 5 Intervalo com x1 x2 hipotético Se por exemplo x2 3200 então x1 x2 1581 ICµ1 µ2 1581 31384 15574 47194 Questão 5 Passo 1 Valor crítico z Para 1 α 090 α2 005 z005 1645 Passo 2 Fórmula do intervalo para proporção ICp p zα2 p1 p n Passo 3 Calcular a margem de erro 052 048500 02496500 00004992 002234 E 1645 002234 003675 Passo 4 Construir o intervalo ICp 052 003675 ICp 048325 055675 ou em porcentagem 4833 5568 Questão 6 Passo 1 Valor crítico z Para 1 α 095 α2 0025 z0025 196 Passo 2 Fórmula do intervalo ICp p zα2 p1 p n Passo 3 Calcular a margem de erro 044 056280 02464280 000088 002966 E 196 002966 005813 Passo 4 Construir o intervalo ICp 044 005813 ICp 038187 049813 ou em porcentagem 3819 4981 Questão 7 Passo 1 Calcular média e variância amostral Primeiro somar os valores xi 98 97 102 100 98 101 102 105 95 102 100 1100 x 1100 11 100 Agora calcular a soma dos quadrados xi2 982 972 1022 1002 982 1012 1022 1052 952 1022 1002 9604 9409 10404 10000 9604 10201 10404 11025 9025 10404 10000 110080 Variância amostral s2 xi2 n x2n 1 110080 11 10000 10 110080 110000 10 80 10 8 Passo 2 Determinar os valores críticos quiquadrado Graus de liberdade ν n 1 10 Para α2 0025 e 1 α2 0975 χ2002510 20483 e χ2097510 3247 Passo 3 Fórmula do intervalo para variância ICσ2 n 1s2 χ2α2ν n 1s2 χ21α2ν Passo 4 Calcular os limites Limite inferior LI 10 8 20483 80 20483 3906 Limite superior LS 10 8 3247 80 3247 24638 Passo 5 Intervalo de confiança ICσ2 3906 24638 gramas2 Questão 8 Passo 1 Calcular média e variância amostral Média x 40130 133667 Variância amostral s² xᵢ² n x² n 1 5443 30 133667² 29 Primeiro calcular x² x² 133667² 178667 n x² 30 178667 536001 s² 5443 536001 29 8299 29 28617 s 28617 16917 Passo 2 Determinar o valor crítico t Graus de liberdade ν n 1 29 Para α2 001 bilateral 98 de confiança t₀₀₁₂₉ 2462 Passo 3 Fórmula do intervalo para média ICμ x tᵅ₂ν s n Passo 4 Calcular a margem de erro E 2462 16917 30 2462 16917 54772 2462 03088 0760 Passo 5 Construir o intervalo ICμ 133667 0760 ICμ 126067 141267 mm Questão 9 Passo 1 Calcular a estatística de teste z z x μ₀ σ n 50 53 4 15 3 4387298 3 10328 2904 Passo 2 Determinar os valores críticos Para α 005 bilateral zα2 z₀₀₂₅ 196 Passo 3 Regra de decisão Rejeitar H₀ se z 196 Passo 4 Comparar e concluir z 2904 196 Portanto rejeitamos H₀ Passo 5 Conclusão Ao nível de significância de 5 há evidência suficiente para concluir que a resistência média da massa cerâmica alterouse após a troca de fornecedores Questão 10 Passo 1 Calcular média e desvio padrão amostral xᵢ 68 71 59 75 63 69 72 76 66 63 682 x 682 10 682 Soma dos quadrados xᵢ² 68² 71² 59² 75² 63² 69² 72² 76² 66² 63² 4624 5041 3481 5625 3969 4761 5184 5776 4356 3969 46886 Variância amostral s² xᵢ² n x² n 1 46886 10 682² 9 46886 10 465124 9 46886 465124 9 3736 9 04151 s 04151 06443 Passo 2 Calcular a estatística de teste t t x μ₀ s n 682 74 06443 10 058 0644331623 058 02037 2848 Passo 3 Determinar o valor crítico t Graus de liberdade ν n 1 9 Para α 001 unilateral à esquerda t₀₀₁₉ 2821 Passo 4 Regra de decisão Rejeitar H₀ se t 2821 Passo 5 Comparar e concluir t 2848 2821 Portanto rejeitamos H₀ Passo 6 Conclusão Ao nível de significância de 1 há evidência suficiente para concluir que o tempo médio de transmissão foi reduzido após as mudanças na rede Questão 11 Passo 1 Calcular médias e variâncias amostrais Para Tipo X X 54 55 58 50 61 278 X 278 5 556 X² 54² 55² 58² 50² 61² 2916 3025 3364 2500 3721 15526 sₓ² X² nₓ X² nₓ 1 15526 5 556² 4 15526 5 309136 4 15526 154568 4 692 4 173 Para Tipo Y Y 51 54 55 52 53 265 Ȳ 265 5 53 Y² 51² 54² 55² 52² 53² 2601 2916 3025 2704 2809 14055 sᵧ² Y² nᵧ Ȳ² nᵧ 1 14055 5 53² 4 14055 5 2809 4 14055 14045 4 10 4 25 Passo 2 Testar igualdade das variâncias préteste F sₓ² sᵧ² 173 25 692 Graus de liberdade ν₁ 4 ν₂ 4 Valor crítico F para α 010 F₀₁₀₄₄ 411 Como F 692 411 rejeitamos a igualdade das variâncias Passo 3 Aplicar teste t com variâncias desiguais Welch Hipóteses H₀ μₓ μᵧ 0 vs H₁ μₓ μᵧ 0 Estatística de teste t X Ȳ sₓ²nₓ sᵧ²nᵧ 556 53 1735 255 26 346 05 26 396 26 199 1307 Graus de liberdade aproximados WelchSatterthwaite ν sₓ²nₓ sᵧ²nᵧ² sₓ²nₓ²nₓ1 sᵧ²nᵧ²nᵧ1 396² 4 05² 4 1735²4 255² 4 156816 1197164 0254 156816 29929 00625 156816 30554 513 5 Passo 4 Valor crítico e decisão Para α 010 unilateral ν 5 t₀₁₀₅ 1476 Regra Rejeitar H₀ se t 1476 Como t 1307 1476 não rejeitamos H₀ Passo 5 Conclusão Ao nível de significância de 10 não há evidência suficiente para concluir que o concreto do tipo X seja mais resistente que o do tipo Y Questão 12 Passo 1 Calcular médias e variâncias Para Catalisador A A 45 51 50 62 43 42 53 50 48 55 499 Ȧ 499 10 499 A² 45²51²50²62²43²42²53²50²48²55² 2025260125003844184917642809250023043025 s²A 25221 10 49 9² 9 25221 10 2490 01 9 25221 24900 1 9 320 9 9 35 656 Para Catalisador B B 45 35 43 59 48 45 41 43 49 39 448 B 448 10 44 8 B² 45²35²43²59²48²45²41²43²49²39² 2025122518493481230420251681184924011521 s²B 20361 10 44 8² 9 20361 10 2007 04 9 20361 20070 4 9 290 6 9 32 289 Passo 2 Testar igualdade das variâncias F s²A s²B 35 656 32 289 1 104 Graus de liberdade ν₁ 9 ν₂ 9 Valor crítico F bilateral α 005 F₀₀₂₅₉₉ 4 03 e F₀₉₇₅₉₉ 14 03 0 248 Como 0 248 1 104 4 03 não rejeitamos a igualdade das variâncias Passo 3 Aplicar teste t com variâncias iguais Variância combinada s²p nA 1s²A nB 1s²B nA nB 2 9 35 656 9 32 289 18 320 904 290 601 18 611 505 18 33 9725 sp 33 9725 5 829 Estatística de teste t A B sp 1nA 1nB 49 9 44 8 5 829 110 110 5 1 5 8290 2 5 1 5 829 0 4472 5 1 2 606 1 957 Graus de liberdade ν nA nB 2 18 Passo 4 Valor crítico e decisão Para α 005 bilateral ν 18 t₀₀₂₅₁₈ 2 101 Regra Rejeitar H₀ se t 2 101 Como t 1 957 2 101 não rejeitamos H₀ Passo 5 Conclusão Ao nível de significância de 5 não há evidência suficiente para concluir que os catalisadores A e B tenham efeitos diferentes no rendimento da reação química Questão 13 Passo 1 Estabelecer hipóteses H₀ p 0 015 vs H₁ p 0 015 Passo 2 Verificar condições np₀ 500 0 015 7 5 5 e n1 p₀ 500 0 985 492 5 5 OK Passo 3 Calcular estatística de teste z z p p₀ p₀1p₀n 0 018 0 015 0 0150985 500 0 003 0 014775 500 0 003 0 00002955 0 003 0 005436 0 552 Passo 4 Valor crítico e decisão Para α 0 01 unilateral z₀₀₁ 2 326 Regra Rejeitar H₀ se z 2 326 Como z 0 552 2 326 não rejeitamos H₀ Passo 5 Conclusão Ao nível de significância de 1 não há evidência suficiente para concluir que a proporção de peças defeituosas seja maior que 15 Portanto o processo não precisa ser revisto Questão 14 Passo 1 Estabelecer hipóteses O fabricante afirma que 90 estão conforme proporção de defeituosas 10 H₀ p 0 10 vs H₁ p 0 10 Passo 2 Verificar condições np₀ 200 0 10 20 5 e n1 p₀ 200 0 90 180 5 OK Passo 3 Calcular estatística de teste z z p p₀ p₀1p₀n 0 125 0 10 0 10090 200 0 025 0 09 200 0 025 0 00045 0 025 0 021213 1 179 Passo 4 Valor crítico e decisão Para α 0 05 bilateral zα2 z₀₀₂₅ 1 96 Regra Rejeitar H₀ se z 1 96 Como z 1 179 1 96 não rejeitamos H₀ Passo 5 Conclusão Ao nível de significância de 5 não há evidência suficiente para rejeitar a afirmação do fabricante de que 90 das peças estão conforme as especificações Questão 15 Passo 1 Estabelecer hipóteses H₀ σ² 144 vs H₁ σ² 144 pois σ²₀ 12² 144 Passo 2 Calcular estatística de teste quiquadrado χ² n 1s² σ²₀ 29 8² 144 29 64 144 1856 144 12 889 Passo 3 Valor crítico e decisão Graus de liberdade ν n 1 29 Para teste unilateral à esquerda com α 0 05 χ²₀₉₅₂₉ 17 708 valor abaixo do qual rejeitamos Regra Rejeitar H₀ se χ² 17 708 Como χ² 12 889 17 708 rejeitamos H₀ Passo 4 Conclusão Ao nível de significância de 5 há evidência suficiente para concluir que houve redução na variação da tensão após a instalação dos novos transformadores Questão 16 Passo 1 Calcular média e variância amostral xi 6 8 7 1 5 9 7 5 6 3 6 9 7 2 7 6 6 6 6 3 68 2 x 68 2 10 6 82 Calcular soma dos quadrados x²i 6 8² 7 1² 5 9² 7 5² 6 3² 6 9² 7 2² 7 6² 6 6² 6 3² 46 24 50 41 34 81 56 25 39 69 47 61 51 84 57 76 43 56 39 69 468 86 Variância amostral s² x²i n x² n 1 468 86 10 6 82² 9 468 86 10 46 5124 9 468 86 465 124 9 3 736 9 0 4151 seg² Passo 2 Estabelecer hipóteses H₀ σ² 1 3 vs H₁ σ² 1 3 Passo 3 Calcular estatística de teste quiquadrado χ² n 1s² σ²₀ 9 0 4151 1 3 3 7359 1 3 2 874 Passo 4 Determinar os valores críticos Graus de liberdade ν n 1 9 Para teste bilateral com α 0 05 χ²₀₉₇₅₉ 2 700 limite inferior crítico χ²₀₀₂₅₉ 19 023 limite superior crítico Passo 5 Regra de decisão Rejeitar H₀ se χ² χ²₀₉₇₅₉ 2 700 OU χ² χ²₀₀₂₅₉ 19 023 Passo 6 Aplicar a regra de decisão χ² 2 874 é tal que 2 700 2 874 19 023 Portanto NÃO rejeitamos H₀ Passo 7 Conclusão Ao nível de significância de 5 não há evidência suficiente para concluir que as mudanças na rede de computadores alteraram a variabilidade no tempo de transmissão de dados A variância aparentemente menor na amostra 04151 vs 13 não é estatisticamente significativa ao nível de 5 Passo 8 Intervalo de confiança para ² opcional para complementar O intervalo de confiança de 95 para a variância é ICσ² n1s² χ²₀0259 n1s² χ²₀9759 904151 19023 904151 2700 37359 19023 37359 2700 01964 13837 Como o valor σ₀²13 está dentro do intervalo 01964 13837 confirmase que não há evidência para rejeitar H₀ Lista de exercícios propostos de Teste de hipóteses para uma população 1 A vida média de uma amostra de 100 lâmpadas de certa marca é de 1615 horas Por similariadade com outros processos de fabricação supomos o desvio padrão igual a 120 horas Utilizandose um nível de significância igual a 5 desejamos testar se a duração média de todas as lâmpadas dessa marca é igual ou é diferente de 1600 horas Qual é a conclusão 2 O número de pontos de um exame de inglês tem sido historicamente ao redor de 80 Sorteamos 10 estudantes que fizeram recentemente esse exame e observamos as notas 65 74 78 86 59 84 75 72 81 e 83 Especialistas desconfiam que a média diminuiu e desejam testar essa afirmação através de um teste de hipóteses com nível de significância de 5 Fazendo as suposições necessárias qual seria a conclusão do teste Quais suposições são necessárias para a realização do teste realizado 3 Um pesquisador está realizando um teste para a média e obteve nível descritivo igual a 0035 Ele aceitará a hipótese nula para níveis de significância superiores ou inferiores a 0035zado 4 Uma variável aleatória tem distribuição Normal e desvio padrão igual a 10 Uma amostra de 50 valores dessa variável forneceu média igual a 152 Para cada um dos testes abaixo responda qual o nível descritivo a H₀ μ18 Hₐ μ13 b H₀μ18 Hₐ μ18 c H₀μ18 Hₐ μ18 d H₀μ17 Hₐ μ14 5 A resistência de um certo tipo de cabo de aço é uma variável aleatória modelada pela distribuição Normal com desvio padrão igual a 6 kgf Uma amostra de tamanho 25 desses cabos escolhida ao acaso forneceu média igual a 98 kgf Teste as hipóteses μ13 versus μ8 e tire suas conclusões a um nível de significância de 10 6 Um criador tem constatado uma proporção de 10 do rebanho com verminose O veterinário alterou a dieta dos animais e acredita que a doença diminuiu de intensidade Um exame em 100 cabeças do rebanho escolhidas ao acaso indicou 8 delas com verminose Ao nível de significância de 8 há indícios de que a proporção diminuiu 7 Sabese que o tempo necessário para percorrer uma determinada rota no final da tarde pode ser estudado por um modelo Normal Foram instalados sensores para controlar o tempo de abertura dos semáforos presentes na rota e desejase verificar se o tempo gasto para completar o percurso diminuiu Com os sensores desativados 11 veículos de mesmo ano e marca denominados Grupo Controle tiveram o tempo gasto no percurso anotado Em seguida os sensores foram ativados e outros 13 veículos Grupo Teste também de mesmo ano e marca percorreram a mesma rota Os tempos observados em minutos foram Controle 38 26 20 70 16 26 38 32 45 49 32 Teste 17 31 28 21 50 21 20 51 10 22 18 35 29 Verifique se o uso dos sensores contribui para a diminuição do tempo médio gasto na realização do percurso através de um teste de hipóteses 8 A tabela abaixo apresenta a produtividade de cinco variedades da cultura da mandioca em toneladas por hectare tha TRATAMENTOS REPETIÇÕES TOTAIS 1 2 3 4 5 A IAC 5 389 254 203 257 293 1396 B IAC 7 209 262 323 283 287 1364 C IAC 11 281 270 258 269 223 1301 D IRACEMA 387 432 417 390 403 2029 E MANTIQUEIRA 478 478 447 505 564 2472 8562 Responda a Há diferença significativa em relação à produtividade destas cinco variedades b Se sim qual delas apresentou o melhor resultado Testes de hipótese para médias proporções e variâncias Prof Paulo Justiniano Ribeiro Junior Departamento de Estatística Universidade Federal do Paraná Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 1 Testes para comparar médias de duas populações Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 2 Testes para comparar duas médias Exemplo comparação de IRA entre alunos e alunas de uma universidade Diferentes possibilidades de testes Testes de hipótese para a diferença de médias de duas populações σ 2s conhecidos Testes de hipótese para a diferença de médias de duas populações σ 2s desconhecidos Testes de hipótese para amostras emparelhadas Testes de hipótese para amostras independentes Variâncias iguais σ 2 1 σ 2 2 Variâncias diferentes σ 2 1 σ 2 2 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 3 Testes de hipótese para duas populações Ao testar uma hipótese para duas populações devem ser consideradas Amostras independentes quando os valores amostrados de uma população não estão relacionados ou emparelhados com os da outra população Exemplo teste para pressão sanguínea do grupo controle vs grupo medicado Amostras dependentes ou emparelhadas quando cada elemento de uma amostra corresponde ao mesmo elemento da outra amostra geralmente o mesmo indivíduo analisado antes e depois de um experimento Exemplo teste para a diferença de peso de uma mesma pessoa antes e depois de uma dieta Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 4 Testes de hipótese para médias de duas populações Até agora testamos hipóteses para uma único parâmetro populacional H0 µ µ0 Ha µ µ0 ou Ha µ µ0 ou Ha µ µ0 Podemos estender o teste de hipótese quando queremos comparar o mesmo parâmetro para duas populações diferentes Em geral faremos testes para verificar se a diferença entre estes dois parâmetros é igual a zero H0 µ1 µ2 0 H0 µ1 µ2 vs Ha µ1 µ2 0 Ha µ1 µ2 ou Ha µ1 µ2 0 Ha µ1 µ2 ou Ha µ1 µ2 0 Ha µ1 µ2 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 5 Testes de hipótese para a diferença de médias de duas populações σ 2 conhecido Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 6 Distribuição amostral da diferença Considere duas populações Y1 e Y2 com médias μ1 e μ2 e desviospadrão σ1 e σ2 ou seja Y1 Nμ1 σ1² e Y2 Nμ2 σ2² A nova variável Yd Y1 Y2 também possui distribuição normal com EY1 Y2 μ1 μ2 VY1 Y2 VY1 VY2 σ1²n1 σ2²n2 ou seja a distribuição amostral da diferença de médias é Yd Y1 Y2 N μ1 μ2 σ1²n1 σ2²n2 Condições para o teste Quando temos os seguintes requisitos Ambas amostras são AAS Ambas amostras são independentes Ambas populações tem distribuição normal ou n1 30 e n2 30 Podemos usar o Teorema do Limite Central para afirmar que a diferença entre as duas médias segue uma distribuição normal e a estatística de teste é dada por z y1 y2 μ1 μ2 σ1²n1 σ2²n2 y1 y2 σ1²n1 σ2²n2 Etapas do teste Procedimentos gerais 1 Definir a hipótese nula H0 e a alternativa Ha 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste z y1 y2 σ1²n1 σ2²n2 5 Determinar a região crítica região de rejeição com base no nível de significância α 6 Conclusão do teste Exercício tempos de entrega Uma transportadora de mercadorias tem duas possibili dades de trajeto para realizar entregas O gerente de lo gística desconfia não haver diferença significativa entre o tempo de cada trajeto Foram selecionadas aleatoriamente 45 entregas realiza das no primeiro trajeto resultando em uma média amos tral de 57 minutos No segundo trajeto foram seleciona das aleatoriamente 30 entregas e o tempo médio foi de 54 minutos O desviopadrão populacional do primeiro trajeto é de σ1 8 minutos e o do segundo trajeto é de σ2 6 minu tos Teste a hipótese de que não existe diferença signifi cativa entre o tempo médio dos dois trajetos ao nível de 1 de significância Figura 1 Foto de Norma Mortenson no Pexels Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 10 Solução 1 Hipóteses H0 μ₁ μ₂ vs Ha μ₁ μ₂ teste bilateral 2 Estatística de teste z y₁ y₂ σ²₁ n₁ σ²₂ n₂ 57 54 8²45 6²30 1853 3 Nível de significância α 001 RC z 2576 ou z 2576 4 Conclusão do teste z RC portanto não rejeita H0 pvalor 2 PZ 1853 0064 não existem evidências para rejeitar a hipótese de que os tempos dos trajetos sejam iguais Testes de hipótese para a diferença de médias de duas populações σ 2 desconhecido Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 12 Suposições sobre as variâncias Quando não conhecemos σ 2 usamos a estimativa amostral s2 Nesse caso já vimos que usamos a distribuição t no lugar da distribuição z No entanto quando temos duas amostras devem ser considerados dois casos distintos Variâncias iguais quando é razoável supor que as variâncias populacionais são iguais ou seja σ 2 1 σ 2 2 Variâncias diferentes quando não se pode fazer nenhuma suposição sobre a igualdade das variâncias populacionais ou seja σ 2 1 σ 2 2 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 13 Estatística do teste para o caso de variâncias iguais σ²₁ σ²₂ Neste caso calculamos a média ponderada das variâncias amostrais s²₁ e s²₂ para obter uma estimativa da variância populacional comum s² n₁ 1 s²₁ n₂ 1 s²₂ n₁ n₂ 2 A estatística de teste fica t y₁ y₂ μ₁ μ₂ s² n₁ s² n₂ y₁ y₂ s² n₁ s² n₂ tᵥ em que ν n₁ n₂ 2 são os graus de liberdade Etapas do teste Procedimentos gerais 1 Definir a hipótese nula H0 e a alternativa Ha 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste t y₁ y₂ s²₁n₁ s²₂n₂ y₁ y₂ s² 1n₁ 1n₂ em que s² é a variância combinada das amostras 5 Determinar a região crítica região de rejeição com base no nível de significância α Obs use ν n₁ n₂ 2 6 Conclusão do teste Exercício rendimento das turmas Em uma avaliação de estatística foi selecionada uma amostra de 12 alunos da turma A resultando em uma média de 79 com desviopadrão 06 Na turma B foram selecionados 15 alunos os quais tiraram nota média 67 com desviopadrão 08 As notas possuem distribuição normal e assumese que σ 2 1 σ 2 2 Teste a hipótese de que a turma A tem média maior do que a turma B com um nível de significância de 1 Figura 3 Foto de Kaboompicscom do Pexels Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 16 Solução 1 Hipóteses H₀ μ₁ μ₂ vs Hₐ μ₁ μ₂ μ₁ μ₂ 0 unilateral à direita 2 Variância combinada ŝ² n₁ 1 s₁² n₂ 1 s₂² n₁ n₂ 2 12 1 06² 15 1 08² 12 15 2 0517 3 Estatística de teste t ȳ₁ ȳ₂ ŝ² 1n₁ 1n₂ 79 67 0517 112 115 4309 4 Nível de significância α 001 RC t 2485 Solução 4 Conclusão do teste t RC portanto rejeita H0 pvalor PT 4309 00001 y1 79 y2 67 00 05 10 15 20 6 7 8 Y Densidade t 4309 t001 2485 00 01 02 03 04 50 25 00 25 50 t Densidade Figura 4 Distribuição amostral das médias e região de rejeição da hipótese nula Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 18 Estatística do teste para o caso de variâncias diferentes σ₁² σ₂² Neste caso ainda usamos as variâncias amostrais s₁² e s₂² para determinar o erropadrão da diferença entre as duas médias A estatística de teste fica t ȳ₁ ȳ₂ μ₁ μ₂ s₁² n₁ s₂² n₂ ȳ₁ ȳ₂ s₁² n₁ s₂² n₂ tᵥ Porém como as variâncias são diferentes os graus de liberdade devem ser ajustados ν w₁ w₂² w₁² n₁ 1 w₂² n₂ 1 em que w₁ s₁² n₁ e w₂ s₂² n₂ Etapas para o teste Procedimentos gerais 1 Definir a hipótese nula H₀ e a alternativa Hₐ 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste t ȳ₁ ȳ₂ s₁² n₁ s₂² n₂ tᵥ 5 Determinar a região crítica região de rejeição com base no nível de significância α Obs o valor de graus de liberdade ν deve ser calculado conforme equação anterior 6 Conclusão do teste Exemplo tempo de uma tarefa doméstica Uma pesquisa avaliou a eficácia de dois tipos de treinamento com a finalidade de reduzir o tempo médio de determinada tarefa doméstica Foram selecionadas duas amostras aleatórias de populações com distribuição Normal onde assumese que σ 2 1 σ 2 2 Os dados da pesquisa estão no quadro abaixo Teste a hipótese de que o tempo médio para a realização da tarefa é igual para os dois treinamentos ao nível de 5 de significância Treinamento 1 n1 15 y1 242 min s1 316 min Treinamento 2 n2 10 y2 239 min s2 447 min Figura 5 Foto de cottonbro no Pexels Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 21 Solução 1 Hipóteses H0 μ1 μ2 vs Ha μ1 μ2 teste bilateral 2 Estatística de teste t ȳ1 ȳ2 s1²n1 s2²n2 242 239 316²15 447²10 0184 3 Nível de significância α 005 4 Graus de liberdade w1 s1²n1 316²15 0666 e w2 s2²n2 447²10 1998 ν w1 w2² w1²n1 1 w2²n2 1 0666 1998² 0666²15 1 1998²10 1 14933 Solução 3 Nível de significância α 005 RC t 2132 ou t 2132 4 Conclusão do teste t RC portanto não rejeita H0 pvalor 2 PT 0184 0856 y1 242 y2 239 00 01 02 03 04 05 18 21 24 27 30 Y Densidade t 0184 t0025 2132 t0025 2132 00 01 02 03 04 25 00 25 t Densidade Figura 6 Distribuição amostral das médias e região de rejeição da hipótese nula Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 23 Testes de hipótese para a diferença de médias de duas populações σ desconhecido e amostras emparelhadas Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 24 Amostras emparelhadas Fazemos testes de comparação de médias para dados emparelhados quando os resultados das duas amostras são relacionados de acordo com algum critério Para cada par Y1i Y2i o valor da primeira amostra deve estar claramente associado ao valor da segunda amostra estudos do tipo antes e depois Este teste verifica se o processo ao qual os indivíduos em estudo foram submetidos produziu alguma alteração Exemplos Influência de uma nova dieta sobre os mesmos indivíduos Influência de uma campanha publicitária sobre a intenção de compra do consumidor Influência de hábitos de saúde acompanhando pares de gêmeos Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 25 Distribuição amostral da diferença Ao invés de analisarmos cada grupo separadamente observamos somente a diferença Di entre as duas amostras Y1i e Y2i Di Y1i Y2i e calculamos a média destas diferenças D 1n i1 to n Di que terá distribuição D NμD σD²n O parâmetro μD é estimado pela média amostral D e como usualmente não temos informações sobre σD² estimamos seu valor por sD² Média e variância Além da média das diferenças d 1n i1 to n di precisamos calcular também a variância das diferenças entre os pares dada por sD² 1n1 i1 to n di d² 1n1 i1 to n di² n d² i y1 y2 d 1 y11 y21 d1 y11 y21 2 y12 y22 d2 y12 y22 3 y13 y23 d3 y13 y23 4 y14 y24 d4 y14 y24 5 y15 y25 d5 y15 y25 6 y16 y26 d6 y16 y26 7 y17 y27 d7 y17 y27 8 y18 y28 d8 y18 y28 9 y19 y29 d9 y19 y29 n y1n y2n dn y1n y2n Estatística do teste Uma vez que a diferença média é calculada com base nas diferenças entre amostras emparelhadas isto é σ 2 é desconhecido e que os valores de Di geralmente tem distribuição normal usamos a distribuição t com estatística de teste dada por t d µd sdn d sdn tν em que ν n 1 com n sendo o número de pares observados µd é a média das diferenças na população normalmente µd 0 Observação para Ha Normalmente H0 µd 0 e µd 0 significa que houve aumento depois µd 0 significa que houve diminuição depois Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 28 Etapas do teste Procedimentos gerais 1 Definir a hipótese nula H0 e a alternativa Ha 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste t d µd sdn 5 Determinar a região crítica região de rejeição com base no nível de significância α Obs ν n 1 sendo n o número de pares observados 6 Conclusão do teste Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 29 Exemplo manutenção preventiva Em uma fábrica sete máquinas foram selecionadas aleatoriamente a fim de determinar o efeito da manutenção preventiva na produção Inicialmente as máquinas trabalharam por um período na forma habitual e depois trabalham o mesmo período recebendo manutenções preventivas O total de trabalho produzido antes e depois da adoção das manutenções está na tabela ao lado Ao nível de 5 podemos concluir que o trabalho médio produzido é maior depois da adoção das manutenções preventivas i Antes Depois Diferença 1 1210 1250 040 2 1230 1600 370 3 1110 1290 180 4 1280 1400 120 5 1410 1290 120 6 840 1250 410 7 1330 1350 020 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 30 Solução 1 Hipóteses H0 µd 0 vs Ha µd 0 unilateral à esquerda 2 Estatística de teste t d µd sdn 1457 0 1913 7 2015 3 Nível de significância α 005 RC t 1943 4 Conclusão do teste t RC portanto rejeita H0 pvalor PT 2015 0045 existem evidências de que o tempo médio de funcionamento das máquinas é maior quando recebem manutenções preventivas t 2015 t005 1943 00 01 02 03 04 50 25 00 25 50 t Densidade Figura 7 Resultado do teste de hipótese Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 31 Teste de hipótese para a diferença de proporção de duas populações Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 32 Hipóteses Se a amostra for suficientemente grande sabemos pelo Teorema do Limite Central que a distribuição de probabilidade da proporção amostral tem um comportamento aproximada mente Normal Na comparação de duas proporções po pulacionais p1 e p2 usaremos como es timador a diferença entre as respectivas proporções amostrais ˆp1 e ˆp2 Supondo que duas amostras foram retira das de duas populações independentes te remos duas proporções amostrais indepen dentes e a diferença entre elas também terá distribuição aproximadamente Normal Assim o interesse será em testar H0 p1 p2 0 H0 p1 p2 vs Ha p1 p2 0 Ha p1 p2 ou Ha p1 p2 0 Ha p1 p2 ou Ha p1 p2 0 Ha p1 p2 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 33 Distribuição amostral Desse modo o estimador a ser utilizado será p1 p2 cuja distribuição será aproximada pela Normal com parâmetros Ep1 p2 p1 p2 Vp1 p2 Vp1 Vp1 p1 1 p1n1 p2 1 p2n2 ou seja p1 p2 aprox Np1 p2 p1 1 p1n1 p2 1 p2n2 Teste de hipótese para a proporção de duas populações Se a hipótese nula for verdadeira as proporções populacionais são iguais Denotando seu valor comum por p temos p1 p2 p Podemos obter um estimador para p através da ponderação dos estimadores p1 e p2 obtendo a proporção combinada p y1 y2 n1 n2 em que y1 e y2 são os números de sucessos em cada amostra Substituindo os valores de p1 e p2 na expressão da Vp1 p2 temos que a estatística de teste para a diferença de duas proporções é z p1 p2 sqrtp 1 p 1n1 1n2 aprox N01 Etapas do teste Procedimentos gerais 1 Definir a hipótese nula H0 e a alternativa Ha 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste z p1 p2 sqrtp 1 p 1n1 1n2 onde p é calculado pela equação apresentada anteriormente 5 Determinar a região crítica região de rejeição com base no nível de significância α 6 Conclusão do teste Exercício celular no trânsito Em um estudo com 2870 motoristas 1210 afirmaram ter o hábito de mexer no celular com o carro em movimento Depois de sancionada uma multa foi realizado outro estudo com 2200 motoristas dos quais 725 afirmaram ter ainda o hábito Usando um nível de significância de 10 é possível verificar a alegação de que a proporção de motoristas com hábito de mexer no celular no trânsito diminuiu significativamente após a criação da multa Figura 8 Foto de Roman Pohorecki no Pexels Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 37 Solução 1 Hipóteses H0 p1 p2 VS Ha p1 p2 unilateral à direita 2 Proporções p1 y1n1 12102870 0422 e p2 y2n2 7252200 033 p y1 y2n1 n2 1210 7252870 2200 0382 Estatística de teste z p1 p2 p1 p 1n1 1n2 0422 033 03821 0382 12870 12200 6682 Solução 3 Nível de significância α 01 RC z 1282 4 Conclusão do teste z RC portanto rejeita H0 pvalor PZ 6682 0 existem evidências de que a criação da multa teve efeito z 6682 z01 1282 00 01 02 03 04 8 4 0 4 8 z Densidade Figura 9 Resultado do teste de hipótese Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 39 Teste de hipótese para a razão de variâncias de duas populações Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 40 Ideia geral Considerando duas populações Y1 e Y2 com médias µ1 e µ2 e variâncias σ 2 1 e σ 2 2 ou seja Y1 Nµ1 σ 2 1 e Y2 Nµ2 σ 2 2 Já vimos que a distribuição amostral da razão de duas variâncias amostrais s2 1 e s2 2 possui distribuição F com n1 1 graus de liberdade no numerador e n2 1 graus de liberdade no denominador Intuitivamente Se a razão das duas variâncias for próxima de 1 então elas são aproximadamente iguais Em um teste de hipótese para a igualdade de variâncias entre duas populações verificase então se a razão das variâncias está ou não próxima de 1 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 41 Condições para o teste Quando temos os seguintes requisitos Temos uma AAS As duas populações são independentes As duas populações têm cada uma distribuição Normal essa é uma exigência estrita Sendo assim usamos a estatística de teste F s2 1 s2 2 Fν1ν2 em que ν1 n1 1 graus de liberdade no numerador e ν2 n2 1 graus de liberdade no denominador Importante s2 1 deve ser sempre a maior das duas variâncias amostrais Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 42 Etapas do teste Procedimentos gerais para um teste de hipótese para a diferença de duas variâncias 1 Definir a hipótese nula H0 e a alternativa Ha 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste F s2 1 s2 2 5 Determinar a região crítica região de rejeição com base no nível de significância α 6 Conclusão do teste Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 43 Exemplo variação em moedas de quarto de dólar Nos EUA as moedas de quarto de dólar sofreram alterações no peso depois de 1964 Uma amostra de 40 moedas fabricadas antes de 1964 resultou em um desviopadrão de 0087 g Uma amostra de 40 moedas fabricadas depois de 1964 resultou em um desviopadrão de 006194 g Ao se projetar uma máquina de vendas com moedas devese considerar os desviospadrão antes e depois de 1964 Use o nível de significância de 5 para testar a afirmativa de que os pesos de quarto de dólar antes e depois de 1964 são provenientes de populações com o mesmo desviopadrão Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 44 Solução 1 Hipóteses H0 σ 2 1 σ 2 2 vs Ha σ 2 1 σ 2 2 bilateral 2 Estatística de teste F s2 1 s2 2 00872 0061942 00076 00038 1973 3 Nível de significância α 005 RC F 0529 ou F 1891 4 Conclusão do teste F RC portanto rejeita H0 pvalor 2 PF 1973 2 0018 0036 existem evidências de que a variação dos pesos de quarto de dólar feitos depois de 1964 é significativamente diferente da variação entre os quartos de dólar feitos antes de 1964 f 1973 f0975 0529 f0025 1891 00 05 10 0 1 2 F Densidade Figura 10 Resultado do teste de hipótese Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 45 Estrutura da unidade Fundamentos de testes de hipóteses Testes para uma população Testes para duas populações Testes de hipótese para a diferença de média de duas populações σ 2 conhecido Testes de hipótese para a diferença de média de duas populações σ 2 desconhecido Variâncias iguais σ 2 1 σ 2 2 Variâncias diferentes σ 2 1 σ 2 2 Testes de hipótese para a diferença de média de duas populações σ 2 desconhecido e amostras emparelhadas Teste de hipótese para a diferença de proporção de duas populações Teste de hipótese para a razão de variâncias de duas populações Testes de aderência e de associação Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 46 1 Calcule a partir da distribuição normal padronizada as seguintes probabilidades a PZ 115 b PZ 196 c PZ 196 d PZ 015 e P110 Z 196 f P196 Z 196 2 Encontre os valores de Zc sendo Z N0 1 tais que a PZ Zc 0975 b PZ Zc 0025 c PZ Zc 0975 d P180 Z Zc 07620 3 Considerando que os pesos de coelhos Norfolk X ao abate aos 90 dias possui média μ 260 kg e variância σ2 004 kg2 Assumindo que os pesos seguem uma distribuição normal calcule as seguintes probabilidades a PX 280 b PX 230 c P250 X 260 d Determine os limites das classes de peso considerando os seguintes critérios E os 10 mais leves D os 20 mais pesados imediatamente acima da classe mais leve C os 40 que são imediatamente mais pesados acima dessa classe B os 20 imediatamente mais pesados que os da classe C e A os 10 mais pesados de todos Observe a figura a seguir image with normal distribution curve 4 Suponha que X VA discreta represente o número de animais doentes de uma determinada raça Sabese que esta doença é controlada geneticamente e que ataca 14 da raça Numa amostra de n 50 animais utilizando a distribuição binomial exata e a aproximação normal determinar a A probabilidade de haver na amostra menos de 10 animais doentes b A probabilidade de haver no máximo 6 animais doentes 5 Numa lâmina verificouse que existiam em média 8 bactériascm2 A lâmina foi subdividida em 300 quadrados de 1 cm2 Em quantos destes quadrados você espera encontrar no máximo 3 bactéria Qual é a probabilidade de se encontrar mais de 6 bactérias por centímetro quadrado Usar a aproximação normal e comparar os resultados com os valores exatos das probabilidades obtidas pela distribuição Poisson Questão 1 Considere os dois boxplots a seguir que apresentam informações sobre a perda de peso em gramas de um grupo de voluntários que participou de um teste de uma dieta Os voluntários foram divididos aleatoriamente em dois grupos sendo que o grupo 1 realizou um tipo de dieta e o grupo 2 realizou outro tipo de dieta boxplot image A partir das informações dos boxplots complete a tabela a seguir Qual das duas dietas parece ser mais eficiente Mínimo Primeiro Quartil Mediana Terceiro Quartil Máximo Dieta 1 Dieta 2 Questão 2 Classifique os casos a seguir como exemplos de amostragem probabilística ou nãoprobabilística I Para estimar o efeito do consumo de bebidas alcóolicas sobre o desempenho acadêmico um professor entrevistou 30 de seus alunos da universidade II Em uma pesquisa de opinião sobre o funcionamento do sistema público de saúde de um município a prefeitura aplicou questionários para 500 famílias selecionadas aleatoriamente III Para estudar a qualidade do sistema de saúde dos municípios brasileiros uma equipe de pesquisadores sorteou 224 municípios a partir de três grupos municípios com menos de 100 mil habitantes municípios entre 500 mil e 100 mil habitantes e municípios com mais de 500 mil habitantes BOX PLOT Uma maneira simples rápida e poderosa de representar seus dados 2 Box Plot Sumário Como representar esses dados 3 O que é 4 Box plot 5 Representação 6 Métrica fundamental Quartis 7 Calculando os quartis 8 Montando o Box Plot 11 Qual a vantagem 12 O que o Boxplot não mostra 13 Outliers 14 Como decidir quando um dado será um outlier 16 Resumindo 17 Exercitando 18 Resolução 19 Representando os 4 conjuntos 23 Box Plot no Excel 24 Correlação utilizando box plot 27 ANOVA auxiliado pelo BoxPlot 29 Exemplo prático 1 31 Exemplo prático 2 32 Exercitando 33 3 Box Plot Como representar esses dados 17 31 12 5 17 22 29 6 31 31 17 33 5 25 20 33 13 13 18 26 29 12 34 22 32 8 27 28 29 6 35 7 32 6 19 15 24 16 21 14 19 19 30 11 5 10 31 23 DotPlot HistoGrama BOX PLOT 4 Box Plot O que é Representação gráfica de uma variável numérica utilizando quartis Recurso muito útil para realizar comparações de dados principalmente a variação destes Útil para evidenciar correlação entre variáveis Permite representar dados sem que estes obedeçam a determinada distribuição específica Também conhecido como diagrama de caixa diagrama de extremos e quartis Box Plot Box plot 6 Box Plot Representação Whisker Fio de bigode Whisker Fio de bigode CAIXA Limite Superior 3º quartil Mediana 1º quartil Limite Inferior 7 Box Plot Métrica fundamental Quartis Os quartis Q1 Q2 Q3 dividem uma distribuição de dados em 4 partes iguais EXemPlo Observe a distribuição abaixo que representa o número de funcionários alocados em cada andar de um prédio comercial Andar nº funcionários 1º 42 2º 19 3º 44 4º 53 5º 28 6º 19 7º 22 8º 23 9º 39 10º 35 11º 39 8 Box Plot Calculando os quartis 1º Passo Ordenar os dados 2º Passo LoCaliZar a mediana 19 19 22 23 28 35 39 39 42 44 53 19 19 22 23 28 35 39 39 42 44 53 MEDIANA 50 50 9 Box Plot Calculando os quartis 3º Passo CalCUlar o Primeiro e terCeiro QUartis 19 19 22 23 28 35 39 39 42 44 53 19 19 22 23 28 35 39 39 42 44 53 MEDIANA 2º quartil 1º quartil 3º quartil 14 25 14 25 14 25 14 25 10 Box Plot Calculando os quartis 19 19 22 23 28 35 39 39 42 44 53 19 19 22 23 28 35 39 39 42 44 53 19 19 22 23 28 35 39 39 42 44 53 Q2 ou mediana Q1 Q3 14 25 14 25 24 50 34 75 34 75 24 50 11 Box Plot Montando o Box Plot 19 19 22 23 28 35 39 39 42 44 53 1º quartil 22 2º quartil 35 3º quartil 42 mínimo 19 máximo 53 12 Box Plot Qual a vantagem Fácil compreensão Simples Entendimento da dispersão 13 Box Plot O que o Boxplot não mostra É possível saber qual a média de altura do time A NÃO É possível saber qual a média de altura do time B NÃO É possível saber quantos jogadores tem o time A NÃO É possível saber quantos jogadores tem o time B NÃO BoXPlot não mostra Média dos dados Quantidade de dados 14 Box Plot Outliers Um empresa de logística monitora o tempo que os entregadores levam para realizar uma rota entre duas cidades próximas Os dados coletados durante um mês estão representados pelo box plot ao lado Outlier Valor atípicoponto fora da curva 15 Box Plot Outliers Observemos os dados Semana 1ª 2ª 3ª 4ª 45 57 48 51 55 52 50 55 49 39 55 42 42 42 55 111 44 44 Obs tempo em segundos Outlier 16 Box Plot Como decidir quando um dado será um outlier Calculemos Q3 15 Q3 Q1 Q3 15 Q3 Q1 5500 15 1150 7225 Q1 15 Q3 Q1 4350 15 1150 2625 Calculemos Q1 15 Q3 Q1 Q3 Q1 5500 4350 1150 39 42 42 42 44 44 45 48 49 50 51 52 55 55 55 55 57 111 Q1 4350 Q2 ou mediana 4950 Q3 5500 Portanto Outliers sãO tOdOs Os valOres abaixO de 2625 e acima de 7225 17 Box Plot Resumindo Limite Superior mín max dados Q3 15 Q3 Q1 3º quartil Mediana 1º quartil Limite Inferior máx min dados Q1 15 Q3 Q1 18 Box Plot Exercitando Considere os quatro conjuntos de dados mostrados ao lado Represente esses conjuntos utilizandose box plots A B C D 1 3 1 1 1 4 4 2 1 5 6 3 2 5 10 4 4 6 12 5 5 7 14 6 6 8 14 7 7 10 14 8 10 12 15 9 11 12 16 10 13 15 16 11 14 21 12 14 22 13 15 27 13 16 30 13 17 30 30 18 30 20 25 19 Box Plot Resolução A 1 1 1 2 4 5 6 7 10 11 13 14 14 15 16 17 18 20 25 Q1 4 Q2 11 Q3 16 Há Presença de OUtliers VERIFICAR QUal o tamanHo dos WHisKers Q3 15 Q3 Q1 16 15 16 4 34 Q1 15 Q3 Q1 4 15 16 4 14 Outiliers são dados que estão fora desse intervalo POrtaNtO NãO HÁ Outliers Limite Superior mín max dados Q3 15 Q3 Q1 Limite Superior min 25 34 25 Limite Inferior máx min dados Q1 15 Q3 Q1 Limite Inferior máx 1 14 1 20 Box Plot Resolução B 3 4 5 5 6 7 8 10 12 12 15 Q1 5 Q2 7 Q3 12 Há Presença de OUtliers VERIFICAR QUal o tamanHo dos WHisKers Q3 15 Q3 Q1 12 15 12 5 225 Q1 15 Q3 Q1 5 15 12 5 55 Outiliers são dados que estão fora desse intervalo POrtaNtO NãO HÁ Outliers Limite Superior mín max dados Q3 15 Q3 Q1 Limite Superior min 15 225 15 Limite Inferior máx min dados Q1 15 Q3 Q1 Limite Inferior máx 3 55 3 21 Box Plot Resolução C 1 4 6 10 12 14 14 14 15 16 16 21 22 27 30 30 30 Q1 11 Q2 15 Q3 245 Há Presença de OUtliers VERIFICAR QUal o tamanHo dos WHisKers Q3 15 Q3 Q1 245 15 245 11 4475 Q1 15 Q3 Q1 11 15 245 11 925 Outiliers são dados que estão fora desse intervalo POrtaNtO NãO HÁ Outliers Limite Superior mín max dados Q3 15 Q3 Q1 Limite Superior min 30 4475 30 Limite Inferior máx min dados Q1 15 Q3 Q1 Limite Inferior máx 1 925 1 22 Box Plot Resolução D 1 2 3 4 5 6 7 8 9 10 11 12 13 13 13 30 Q1 425 Q2 850 Q3 1275 Há Presença de OUtliers VERIFICAR QUal o tamanHo dos WHisKers Q3 15 Q3 Q1 1275 15 1275 425 255 Q1 15 Q3 Q1 425 15 1275 425 85 Outiliers são dados que estão fora desse intervalo POrtaNtO Há Outliers Limite Superior mín max dados Q3 15 Q3 Q1 Limite Superior min 13 255 13 Limite Inferior máx min dados Q1 15 Q3 Q1 Limite Inferior máx 1 85 1 23 Box Plot Representando os 4 conjuntos 24 Box Plot Box Plot no Excel O Microsoft Excel traz em seu pacote de recursos a opção para construir um gráfico box plot No caso ele é denominado Caixa Estreita 25 Box Plot Box Plot no Excel RealiZando o eXemPlo dos QUatro ConJUntos no EXCel 1 Selecione o conjunto de dados 2 Inserir Gráficos Caixa Estreia 26 Box Plot Box Plot no Excel É possível alterar o que é mostrado no box plot Clique sobre alguma caixa e as opções serão mostradas ao lado Por exemplo por padrão o Excel mostra através de um símbolo x a média dos dados 27 Box Plot Correlação utilizando box plot Correlação é a interdependência entre duas variáveis Exemplo Uma empresa que produz canecas plásticas estava enfrentando problemas com tempos excessivos de setup Como a variedade de modelos era elevada o setup é considerado crítico para a produção Os responsáveis por um projeto de melhoria estavam desconfiados que havia diferentes nos tempos de setup entre os três turnos Buscando verificar se havia correlação entre o tempo de setup e o turno de trabalho foram coletados dados conformes mostrado ao lado 1º turno 2º turno 3º turno 20 24 29 19 23 24 21 28 26 21 22 28 22 24 27 18 24 27 20 23 25 20 21 29 19 25 25 19 23 26 23 26 28 21 27 26 19 22 28 20 22 27 22 25 25 18 26 30 28 Box Plot Correlação utilizando box plot Como tradUZir esses dados de maneira a evidenCiar se eXiste Correlação BOXPLOT 29 Box Plot ANOVA auxiliado pelo BoxPlot ANOVA Análise de Variação Análise para comparar as médias de mais de duas populações Exemplo Um médico deseja comparar os efeitos de três diferentes remédios na recuperação de pacientes idosos que sofreram derrame devido a um ataque do coração de média intensidade Um total de 18 pacientes foi selecionado procurando manter constantes parâmetros como idade condição física motivação etc Esses pacientes foram divididos aleatoriamente em três grupos e após um período de seis meses eles foram avaliados por um especialista que não tinha conhecimento a que grupo pertencia cada paciente Remédio A Remédio B Remédio C 80 56 97 73 72 90 79 61 75 88 64 87 68 80 88 75 74 83 30 Box Plot ANOVA auxiliado pelo BoxPlot Com o auxílio de um soft ware estatístico sua análise fica fácil e rápida e o Boxplot é utilizado para auxiliar a análise conforme vemos Análise de variância Fonte GL SQ Aj QM Aj Valor F ValorP C6 2 10641 53206 878 0003 Erro 15 9090 6060 Total 17 19731 31 Box Plot Exemplo prático 1 Um pesquisador realizou um experimento para comparar três tipos de fertilizantes O intuito era descobrir qual deles contribuia mais para o crescimento de mudas de cana de açúcar Cada fertilizante foi aplicado em dez mudas Após duas semanas anotouse o comprimento de cada muda As condições ambientais temperatura luminosidade umidade etc foram mantidas idênticas O resultado do experimento é mostrado no boxplot abaixo Observandose o gráfico é possível ver de maneira clara a comparação entre os três fertilizantes Claramente o fertilizante 3 foi aquele que provocou os maiores resultados de crescimento Podemos notar um outlier para esse fertilizante No caso uma das mudas apresentou um comportamento anormal Este ponto deve ser investigado o que de fato aconteceu Provavelmente essa medida será excluída 32 Box Plot Exemplo prático 2 Uma grande rede de shoppings com cinco unidades localizadas em regiões distintas da cidade de São Paulo monitora a quantidade diária de pessoas que frequentam o shopping Os dados comparativos das cinco unidades são mostrados abaixo para o mês de agosto 33 Box Plot Exercitando Os números abaixo representam a idade dos funcionários de determinada empresa Qual o Boxplot que representa corretamente esses valores 21 23 23 26 28 29 30 30 31 33 36 38 39 40 45 a b c 34 Box Plot Exercitando Considerando os dados mostrados abaixo qual o Boxplot que representa corretamente esses valores 0 5 6 7 8 10 12 12 15 16 22 43 43 a b c Instituto de Ciências Matemáticas e de Computação ICMC Oilson A Gonzatto Junior 20 de dezembro de 2023 INTRODUÇÃO À TEORIA DAS PROBABILIDADES 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A 1 A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Agenda A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL 2 O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O que abordaremos na atividade Nessa atividade final vocês serão apresentados pelo menos par cialmente à perspectiva Estatística sobre uma técnica simples de análise de dados que também é muito utilizada na Matemática e na Computação Essa técnica busca estudar a evidência de uma relação linear sistemática entre duas variáveis Veremos que com um modelo construído e bem ajustado além de fazermos predições de novas observações estatisticamente vali damos a forma e quantificamos a força da associação entre duas variáveis 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 3 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Contextualização A Regressão Linear Simples é um método que estuda e sumariza relações entre duas variáveis No recorte da nossa atividade duas variáveis quantitativas Uma das variáveis denotada por X é dita ser a variável pre ditora explicativa ou ainda variável independente A outra variável denotada por Y é conhecida como variável resposta ou variável dependente Observação O termo simples nos diz que o estudo é realizado sobre apenas uma variável preditora Na situação em que mais do que uma variável preditora é estudada utilizamos o termo múltipla 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 3 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Contextualização Lembremse que no início do semestre conversamos sobre experi mentos determinísticos e aleatórios Suponham que os resultados desses experimentos cheguem até nós como pares YX Esses resultados podem dar forma a dois tipos de relação deter minística e estatística respectivamente Nos concentraremos nesta última 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 3 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Contextualização Tenham em mente que Relação Determinística A equação que relaciona Y e X descreve exatamente o com portamento de uma com a variação da outra Relação Estatística A equação que relaciona Y e X não relaciona valores de X a valores exatos de Y ITEM 1 Forneçam três exemplos práticos de cada relação 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 4 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Gráfico de Dispersão Considere 10 registros do par de variáveis XY em que Valor do seguro do automóvel em reais Y e Valor do automóvel em milhares de reais X 62 2032 64 1936 67 2272 68 2512 69 2592 72 2496 72 2704 73 2640 72 2896 76 3328 Observe o gráfico de dispersão para essas duas variáveis 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 4 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Gráfico de Dispersão 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 5 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Poderíamos nos antecipar afirmando que quanto maior for o valor do veículo maior será o valor do seguro O gráfico de dispersão embasa essa suposição O gráfico exibe uma tendência é fato e ele também exibe uma dispersão o que nos dá a percepção de que o valor do seguro não será determinado exatamente pelo valor do veículo Lembremse estamos lidando com uma relação estatística e não determinística 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 5 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação É razoável pensarmos que o aumento no valor do seguro é direta mente proporcional ao aumento do valor do veículo Se isso for verdade essa relação poderia ser bem descrita pela equação da reta Y β0 β1X 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 6 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear ITEM 2a Qual dessas retas você acredita ser uma boa representação para a relação que vemos Y 343166 8608 X Y 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 6 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear ITEM 2b Como somos capazes de identificar a reta que melhor se ajusta aos dados que temos Y 343166 8608 X Y 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 6 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear Para isso vamos precisar definir algumas notações importantes Notações usuais Yi denota a resposta observada no iésimo registro Xi denota o preditor observado no iésimo registro ˆYi denota a resposta predita ou valor esperado para o iésimo registro Nesse contexto a reta ajustada seria denotada por ˆYi β0 β1Xi com i 1n 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 7 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Retas Propostas Vamos avaliar as retas propostas anteriormente e com propósito ilustrativo note o quinto registro que observamos X5Y5 69 2592 343166 8608 X 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y Y Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 7 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Retas Propostas Se utilizássemos ambas as retas para prever o valor de Y5 ob teríamos como resultados ˆY5 25082 e ˆY5 24288 343166 8608 X 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y Y Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 7 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Retas Propostas Obviamente as predições não foram perfeitas existe um erro de predição associado a elas De fato erramos 838 e 1632 de acordo com a reta utilizada e para esse ponto especificamente 838 1632 343166 8608 X 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y Y Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 8 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Se o valor anual do seguro de um carro que vale R 6900000 fosse desconhecido por nós poderíamos utilizar uma das equações para predizer esse valor Nesse caso o tamanho do erro de predição dependeria da reta escolhida Erro de Predição Definimos como erro de predição a diferença entre o que ob servamos e o valor predito εi Yi ˆYi parai 12n 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 8 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Com esse contexto em mente podemos vislumbrar um critério apro priado para a escolha do melhor ajuste linear O Melhor Ajuste Linear Dizemos que a reta que se ajusta melhor aos dados é aquela em que os n erros de predição um para cada registro observado são tão pequenos quanto possamos ter Muito bem o critério está idealizado precisamos organizar essas ideias matematicamente 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 9 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear Uma maneira de pensar em todos os erros de predição simulta neamente é pensar na soma de todos eles particularmente o quadrado deles isto é Qβ0β1 n i1 ε2 i n i1 Yi ˆYi2 n i1 Yi β0 β1Xi2 Se a equação que desejamos ajustar é ˆYi β0 β1Xi precisamos encontrar os valores de β0 e β1 que tornam mínima a função Q Esse é o Critério de Mínimos Quadrados 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 10 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Note que se não tomarmos o quadrado dos erros de predição ao somarmos erros positivos e negativos invariavelmente a soma resultaria em zero Além disso a ideia de tomar o quadrado entre observado e es perado é bem conhecida por nós a própria variância é calculada desse modo e tem muitos pontos positivos nisso Agora que nos familiarizamos com o critério dos Mínimos Quadra dos vamos retornar às nossas retas propostas 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 11 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Escolha entre as Retas ITEM 3 À luz do que foi dito anteriormente qual dessas retas seria a melhor escolha Y 343166 8608 X Y 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 11 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Escolha entre as Retas Vamos sistematizar nossa escolha X Y ˆY εi ε2 ˆY εi ε2 62 2032 19056 1264 159796 18343 1977 390894 64 1936 20778 1418 200956 20042 682 46457 67 2272 23360 640 40977 22590 130 1690 68 2512 24221 899 80824 23439 1681 282583 69 2592 25082 838 70253 24288 1632 266236 72 2496 27664 2704 731361 26836 1876 352076 72 2704 27664 624 38984 26836 204 4147 73 2640 28525 2125 451654 27686 1286 165306 72 2896 27664 1296 167866 26836 2124 450981 76 3328 31108 2172 471864 30234 3046 927960 SOMA 2414535 2888340 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 12 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Tendo como base o critério dos mínimos quadrados podemos con cluir que a equação que melhor se ajusta aos dados é ˆY 343166 8608X Como vimos a soma do quadrado dos erros para a reta vermelha foi igual a 2414535 enquanto para a reta verde foi 2888340 ITEM 4 Mas o que podemos dizer sobre qualquer outra reta que sequer foi considerada 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 13 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear A proposta então é avaliar dentre todas as infinitas retas possí veis aquela que minimiza a soma de erros ao quadrado Para nos poupar de contas alguém já fez esse trabalho por nós e obteve expressões fechadas para os dois parâmetros que indexam uma equação da reta o intercepto e a inclinação ou coeficiente angular 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 13 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear Considerando a função Q definida anteriormente Q n i1 Yi β0 β1Xi2 derivamos em relação aos parâmetros β0 e β1 Assim β0 Qβ0β1 2 n i1 Yi β0 β1Xi e β1 Qβ0β1 2 n i1 Yi β0 β1XiXi 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 13 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear Substituindo β0 e β1 por ˆβ0 e ˆβ1 para indicar valores particulares dos parâmetros que minimizam Qβ0β1 e igualando as derivadas parciais a zero obtemos 2 n i1 Yi ˆβ0 ˆβ1Xi 0 e 2 n i1 Yi ˆβ0 ˆβ1XiXi 0 Estimadores dos coeficientes Os valores ˆβ0 ˆβ1 que minimizam Qβ0β1 dentre todos os possíveis valores β0β1 são expressos por ˆβ1 n i1Xi XYi Y n i1Xi X2 e ˆβ0 Y ˆβ1X 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 14 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Em muitos momentos dizemos que a equação resultante ˆYi ˆβ0 ˆβ1Xi é conhecida como reta de regressão de mínimos quadrados Notem que para estabelecer esse critério não fizemos qualquer suposição sobre nossos dados além daquela que diz que o rela cionamento entre Y e X pode ser expresso na forma de uma reta Em um contexto prático não nos preocupamos com as fórmulas que determinam ˆβ0 e ˆβ1 Eles serão calculados computacionalmente 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 15 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Que informações extraímos do modelo Ainda que tenhamos visto como estimar os coeficientes da regres são não conversamos sobre o que podemos aprender com eles Uma das coisas que eles nos possibilitam e que já falamos breve mente é a realização de predições de respostas futuras O valor anual do seguro de carros que valem R 6900000 é dado por ˆY 343166 8593 69 249783 O valor anual do seguro de carros que valem R 6000000 é dado por ˆY 343166 8593 60 172442 Com a introdução de um pouco da perspectiva Estatística conse guiremos extrair outras informações 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 16 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística Do ponto de vista estatístico entendemos que a reta de regressão representa o valor médio da variável aleatória Y X x isto é Y condicionada a um nível específico x da variável preditora X Nesse sentido modelamos µYx EY X x β0 β1x e entendemos a variável aleatória como Y x β0 β1x ε Vamos entender isso com mais atenção 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 16 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística µY x EY x 3431663 85935 x Yi 3431663 85935 xi εi 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais x Valor anual do seguro em reais Y xi 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 16 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística Focar em um grupo muito específico de veículos uma subpopulação particularmente daqueles que valem R 7200000 ITEM 5 Certamente podem existir muitos valores de seguros associados a esse mesmo valor de veículo Mas o que o nosso modelo deveria nos dizer sobre isso Vamos ver graficamente 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 16 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais x Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 17 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Observação Notem que nesse exemplo em particular observamos medidas de erros distintas para um mesmo nível da variável preditora ITEM 6 Reflitam sobre o que chamamos de erro de predição ε Considerando as discussões que tivemos ao longo do semestre qual a nossa expectativa realista sobre ele 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 18 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística Esse entendimento implica em suposições específicas para esse modelo e decorre da introdução de um padrão de aleatoriedade sobre os erros Suposições do modelo de regressão linear simples A relação descrita entre Y e X é linear nos coeficientes β0 e β1 Os erros de predição εi são independentes entre si Os erros de predição εi em cada valor da variável preditora xi são normalmente distribuídos Os erros de predição εi em cada valor da variável preditora xi apresentam média zero e a mesma variância denotada por σ2 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 18 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística 1000 2000 3000 4000 65 70 75 Valor do veículo em milhares de reais x Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 19 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Observação A introdução desse padrão de aleatoriedade tem consequência di reta sobre a capacidade do modelo e traz uma percepção muito interessante sobre como interpretamos os coeficientes β0 e β1 ITEM 7 Considerando tudo o que viemos discutindo ao longo do semestre enumerem algumas consequências diretas da suposição ε Normal0σ2 sobre algumas quantidades importantes no nosso modelo Por exemplo o que se pode dizer sobre Y x qual seria sua média e variância sua distribuição E também o que sabemos ˆβ0 e ˆβ1 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 19 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Observação Essas questões permitem fazer inferência diretamente sobre a res posta e também sobre efeito quantificado da variável preditora Tenham em mente que β1 a inclinação da reta de regressão quantifica quão rápido o valor médio da variável resposta cresce ou decresce ˆβ1 o estimador de β1 carrega a noção de incerteza decor rente do processo aleatório Utilizamos ˆβ1 para avaliar se a associação de Y e X é es tatisticamente significativa Fazemos isso com base em uma medida de incerteza conhecida como erropadrão que é ob tido no processo de estimação 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 19 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Observação Chamamos de erropadrão o desviopadrão da distribuição amos tral do nosso estimador Para nos situar no contexto do que vimos em aula lembrem que se uma variável aleatória qualquer X tem EX µ e Var X σ2 então a distribuição do estimador de µ média amostral X n i1 Xin tem EX µ e Var X σ2n 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística 20 Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exemplo Seguros Estimativa dos coeficientes A saída dos softwares também costumam apresentar outros resul tados muito interessantes particularmente retornam os intervalos de confiança já calculados para os coeficientes estimados Vamos visualizar as saidas para o nosso exemplo Intervalo de Confiança 95 Estimativa Erropadrão Estatística t Pr t Limite Inferior Limite Superior Intercepto 343166 92967 369 0006 557549 128784 Inclinação 8593 1335 644 1e3 5514 11673 Para o propósito desta atividade nossa atenção se voltará somente às colunas Estimativa ErroPadrão e Intervalo de Confiança 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística 21 Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Interpretação Um intervalo de confiança é um intervalo cujos limites aleatórios são construídos de modo a garantir com um nível arbitrário de confiança que o valor desconhecido do parâmetro seja coberto Uma vez que o intervalo para β1 contém apenas valores estrita mente positivos 5514 11673 entendemos que o valor do auto móvel e o do seguro são direta e sistematicamente associados Nesse contexto inferimos que o valor do seguro aumenta em torno de R 8593 para cada aumento de R 100000 no valor do auto móvel variando entre R 5514 e R 11673 com 95 de confiança 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística 22 Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Observação Antes de interpretarmos o modelo ajustado devemos nos atentar com algumas questões importantes Lembremse que a suposição de que ε Normal0σ2 levou a uma série de implicações Para que possamos fazer uso das vantagens decorrentes dessa suposição isto é interpretar a reta de regressão estatisticamente precisamos avaliar se as suposições que fizemos se verificam Nesse sentido utilizamos uma série de ferramentas que em con junto dão indicativos sobre a qualidade e validade do modelo quando confrontado com as suposições feitas antes do ajuste 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes 23 Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Diagnóstico do Modelo Abordaremos nessa atividade apenas algumas ferramentas gráfi cas para a avaliação do modelo mas é muito importante ressaltar que utilizar apenas elas não é uma estratégia interessante Em outros cursos vocês poderão ter contato com algumas ferra mentas numéricas com embasamento estatístico para discriminar o comportamento esperado de um comportamento inadequado 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes 24 Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Diagnóstico do Modelo Resíduos vs Observações Estimativa e Preditora Nesses gráficos de dispersão nós especulamos sobre o comporta mento dos resíduos de acordo com o índice de observação de acordo com os valores estimados da variável resposta e de acordo com os valores da variável preditora ITEM 8 Tendo em mente que os resíduos são nossas estimativas dos erros de predição ε isto é ˆεi Yi ˆYi para i 12n O que esperamos e o que não esperamos observar em cada um desses gráficos 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes 25 Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exemplo Seguros Resíduos vs Observações Estimativa e Preditora σ σ 2 σ 2 σ 200 0 200 1 2 3 4 5 6 7 8 9 10 Observação Resíduo simples 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes 26 Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Diagnóstico do Modelo Gráfico QuantilQuantil Esse é um gráfico que compara a distribuição Normal teórica com as estimativas que fizemos do erro aleatório do modelo os resíduos Para isso plotamos no eixo horizontal os quantis teóricos da distri buição normal e no eixo vertical os quantis observados resíduos Estabelecemos uma reta de referência e como resultado espera mos que os resíduos se concentrem em torno dela Desvios muito expressivos nos dão indícios de nãonormalidade Essa ferramenta também traz várias outras informações interes santes mas não serão abordadas nessa atividade 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes 27 Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exemplo Seguros Gráfico QuantilQuantil 200 100 0 100 200 300 1 0 1 Quantis Teóricos Quantis Amostrais 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo 28 Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exposição do Modelo Ajustado Uma vez que o modelo apresente bons indicativos de sua quali dade podemos expor e interpretar a relação entre Y e X Nesse contexto considerando o nosso exemplo dizemos que o com portamento médio do valor anual do seguro em reais pode ser ex presso como uma função do valor do veículo em milhares de reais e essa função é dada por ˆµYx 343166 8594x para qualquer x 62 76 Dados os nossos resultados dizemos também que a associação entre as duas variáveis é linear direta e estatisticamente signifi cativa Agora podemos determinar intervalos probabilísticos para a média em um ponto x x dada por EYx μYx β0 β1x Para isso nos baseamos na distribuição de μYx e com isso obtemos um intervalo com 1001α de confiança para μYx μYx t1α2 n2 1n x x²Sxx σ erropadrão de μYx sendo Sxx ni1xix² e t1α2n2 o ponto em que acumulamos uma probabilidade igual a 1α2 na distribuição tstudent com n2 graus de liberdade 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo 28 Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exposição do Modelo Ajustado ITEM 9 Quais as fontes de incerteza sobre a construção do intervalo para EY x µYx 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y ICµ95 EYx µ Analogamente podemos determinar intervalos probabilísticos para a resposta Y Yx μYx ε β0 β1x ε Com isso obtemos um intervalo com 1001α de confiança para Y Yx com base na distribuição de Ŷ cujos limites são dados por Ŷ tα2n2 1 1n x x²Sxx σ erropadrão de Ŷ 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo 28 Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exposição do Modelo Ajustado ITEM 10 Quais as fontes de incerteza sobre a construção do intervalo para Y x 1500 2000 2500 3000 3500 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y ICY95 EYx µ 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL 29 A VEZ DE VOCÊS ICMC Agenda A ATIVIDADE FINAL A VEZ DE VOCÊS 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL 30 A VEZ DE VOCÊS ICMC A vez de vocês Agora que já encostamos nossos pés na superfície da análise de dados utilizem um código de exemplo cliquem duas vezes no pe queno ícone do bloco a seguir para baixálo e façam sua própria análise sobre um conjunto de dados à escolha de vocês Lembrem de escolher um conjunto de dados cuja forma da asso ciação seja contemplada pelo modelo que acabamos de estudar não sabotem seus modelos eles são apenas jovens camponeses no universo da análise de dados Interpretem os resultados gerais as estimativas e as respectivas incertezas associadas os resíduos o potencial de predições etc Além das respostas dos itens anteriores enviem um arquivo pdf com um relatório final de suas respectivas análises A vez de vocês Código de exemplo No text to extract Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Introdução à Estatística e conceitos de amostragem Fernando de Pol Mayer Laboratório de Estatística e Geoinformação LEG Departamento de Estatística DEST Universidade Federal do Paraná UFPR Este conteúdo está disponível por meio da Licença Creative Commons 40 AtribuiçãoNãoComercialPartilhaIgual 1 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 2 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 3 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 4 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências O que é Estatística Etimologia da palavra do latim status estado Origem coleta e apresentação de dados de interesse do Estado Informações sobre populações e riquezas Fins militares e tributários Conjunto de métodos especialmente apropriado ao tratamento de dados numéricos afetados por uma multiplicidade de causas Estes métodos fazem uso da Matemática e especialmente do cálculo de probabilidades 5 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Um pouco de história Confúcio relatou levantamentos feitos na China há mais de 2000 anos AC No Egito antigo os faraós fizeram uso sistemático de informações de caráter estatístico O mesmo aconteceu com antigas civilizações como Maias Astecas e Incas Imperadores faziam levantamentos de suas propriedades conquistadas imperadores romanos Carlos Magno Guilherme o Conquistador para se inteirar de suas riquezas Essa prática tem sido continuada nos tempos modernos por meio de recenseamentos como aqueles feitos pelo IBGE no Brasil 6 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências O que é Estatística Como Ciência Permite organizar descrever analisar e interpretar dados Utilizase da Teoria da Probabilidade para modelar a aleatoriedade e a incerteza associada aos fenômenos naturais econômicos sociais Auxilia a tirar conclusões sobre as características das fontes de onde os dados foram retirados para melhor compreendelos Indispensável para a tomada de decisões sob condições de incerteza sob o menor risco possível 7 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências O que é Estatística Como tecnologia Permite avaliar as incertezas e os seus efeitos no planejamento e interpretação de experiências e de observações de fenômenos da natureza e da sociedade Permite analisar e tirar conclusões de uma grande quantidade de informações A estatística tem sido utilizada para Otimização de recursos econômicos Aumento da qualidade e produtividade Análise de decisões judiciais Previsões climáticas econômicas 8 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 9 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Por que estudar Estatística Impossibilidade de estudar a população Aumento da capacidade de registro de dados que precisam ser compreendidos Expansão do conhecimento científico das áreas de pesquisa e dos instrumentos de investigação Necessidade de compreensão dos fenômenos naturais e sociais de otimização de recursos planejamento de atividades redução de riscos de previsão de resultados para correta tomada de decisão 10 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Por que estudar Estatística A Estatística pode ser pensada como a ciência de aprendizagem a partir dos dados Vivemos na era da informação e a Estatística possui as ferramentas necessárias para melhor compreender a informação 11 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 12 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Estatística e o uso de computadores No passado tratar um grande conjunto de dados era uma tarefa trabalhosa e cansativa Com o avanço da tecnologia os cálculos se tornaram rápidos e mecânicos possibilitando a analise de um volume grande de informações em pouco tempo No entanto é necessário conhecer e compreender os conceitos básicos de Estatística para que possamos utilizala de forma adequada 13 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 14 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Organograma da Estatística 15 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Áreas da Estatística Estatística Descritiva etapa inicial de qualquer análise É um conjunto de técnicas destinadas a descrever e resumir os dados que auxiliam a descrever características de interesse Conheça seus dados Probabilidade é a ferramenta matemática utilizada pela Estatística para se estudar a incerteza oriunda de fenômenos aleatórios Qual a incerteza associada aos dados Estatística Inferencial é um conjunto de técnicas que possibilita tirar conclusões sobre uma população a partir de um subconjunto de valores amostra Quais conclusões podemos tirar a partir destes dados 16 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 17 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Conceitos de amostragem Quando fazemos uma pesquisa ou utilizamos algum mecanismo para obter informações um dos objetivos principais é coletar dados de uma pequena parte de um grande grupo e aprender então alguma coisa sobre esse grupo maior 18 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências População e amostra 19 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Conceito de amostragem Astros do rock morrem jovens Todos os astros do rock morrem jovens 20 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências População e amostra População conjunto de indivíduos objetos ou produtos que contém a característica que temos interesse Exemplo Característica altura dos estudantes da UFPR População todos os estudantes da UFPR Observação A população depende do interesse da pesquisa Amostra subconjunto da população em geral com dimensão bem menor que também possui a característica de interesse Exemplo Característica altura dos estudantes da UFPR Amostra 100 estudantes selecionados ao acaso 21 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Parâmetro e Estatística População censo parâmetro Uma medida numérica que descreve alguma característica da população usualmente representada por letras gregas θ µ σ Exemplo média populacional µ População amostra estatística Uma medida numérica que descreve alguma característica da amostra usualmente denotada pela letra grega do respectivo parâmetro com um acento circunflexo ˆθ ˆµ ˆσ ou por letras do alfabeto comum x s Exemplo média amostral x 22 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Exemplo População todos os alunos de uma única turma Característica idade dos alunos Censo 22 21 24 23 20 22 21 25 24 24 23 19 25 24 23 23 20 21 23 20 23 22 23 23 25 25 20 23 24 20 Média populacional µ 22 5 Parâmetro Amostra de 5 alunos 25 24 23 23 25 Média amostral x 24 Estatística 23 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Por que fazer amostragem Parâmetros populacionais desconhecidos Impossibilidade de realização de um censo Mais barato mais rápido Atenção Não existe nenhuma técnica estatística capaz de salvar uma amostra mal coletada Em geral uma amostra deve ser um subconjunto representativo da população aleatória de alguma forma Existem diversas maneiras para se retirar uma amostra de uma população Teoria da Amostragem 24 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Por que fazer amostragem Parâmetros populacionais desconhecidos Impossibilidade de realização de um censo Mais barato mais rápido Atenção Não existe nenhuma técnica estatística capaz de salvar uma amostra mal coletada Em geral uma amostra deve ser um subconjunto representativo da população aleatória de alguma forma Existem diversas maneiras para se retirar uma amostra de uma população Teoria da Amostragem 24 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Por que fazer amostragem Parâmetros populacionais desconhecidos Impossibilidade de realização de um censo Mais barato mais rápido Atenção Não existe nenhuma técnica estatística capaz de salvar uma amostra mal coletada Em geral uma amostra deve ser um subconjunto representativo da população aleatória de alguma forma Existem diversas maneiras para se retirar uma amostra de uma população Teoria da Amostragem 24 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 25 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Tipos de amostragem A Levantamentos amostrais A amostra é obtida a partir de uma população bem definida bem meio de processos bem definidos pelo pesquisador Subdividese em dois grupos Probabilísticos Cada elemento da população possui a mesma probabilidade se ser selecionado para compor a amostra mecanismos aleatórios de seleção Não probabilísticos A seleção da amostra depende do julgamento do pesquisador Há uma escolha deliberada dos elementos para compor a amostra mecanismos não aleatórios de seleção 26 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Tipos de amostragem B Planejamento de Experimentos Aplica um tratamento e passa a observar seu efeito entre o objeto de estudo Requer portanto a interferência do pesquisador sobre a população bem como o controle de fatores externos com o intuito de medir o efeito desejado Exemplos Estudo do efeito de um novo medicamento experimentos agronômicos 27 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Tipos de amostragem C Levantamentos Observacionais Observa e mede características mas não modifica o objeto de estudo Os dados são coletados sem que o pesquisador tenha controle sobre as informações obtidas Exemplo Verificar o valor das vendas de uma empresa em um certo período não há como selecionar as vendas 28 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 29 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos de amostragem Para a escolha do método devese levar em conta Tipo de pesquisa Acessibilidade e disponibilidade dos elementos da população Disponibilidade de tempo Recursos financeiros e humanos 30 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos não probabilísticos Exemplos Amostragem por conveniência elementos selecionados por serem imediatamente disponíveis Exemplo Uma repórter entrevistando pessoas na rua Amostragem por julgamento uma pessoa experiente no assunto escolhe intencionalmente os elementos a serem amostrados Exemplo Novo produto testado entre funcionários Atenção Na amostragem não probabilística os elementos da população não tem a mesma probabilidade de serem selecionados portanto não há garantias da representatividade da população 31 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos não probabilísticos Exemplos Amostragem por conveniência elementos selecionados por serem imediatamente disponíveis Exemplo Uma repórter entrevistando pessoas na rua Amostragem por julgamento uma pessoa experiente no assunto escolhe intencionalmente os elementos a serem amostrados Exemplo Novo produto testado entre funcionários Atenção Na amostragem não probabilística os elementos da população não tem a mesma probabilidade de serem selecionados portanto não há garantias da representatividade da população 31 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem Aleatória Simples AAS Todas as possíveis amostras de tamanho n tem a mesma chance de serem escolhidas de uma população com N elementos Exemplos Selecionar 10 estudantes de uma sala por sorteio e perguntar a idade Gerar uma amostra aleatória de 1000 números de matrícula de estudantes da UFPR no computador e perguntar a idade 32 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem Aleatória Simples AAS É o método mais simples para selecionarmos uma amostra probabilística de uma população Serve de base para outros procedimentos amostrais planejamento de experimentos e estudos observacionais Utilizandose um procedimento aleatório sorteiase um elemento da população Repetese o processo até que sejam sorteadas as n unidades na amostra 33 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem Aleatória Simples AAS Com reposição o mesmo elemento da população pode ser amostrado mais de uma vez A probabilidade de seleção não se altera Sem reposição cada elemento da população é amostrado uma única vez A probabilidade de seleção se altera Atenção Na prática em populações infinitas muito grandes a reposição ou não é irrelevante 34 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem Aleatória Simples AAS Do ponto de vista da quantidade de informação contida na amostra a amostragem sem reposição é mais adequada No entanto a amostragem com reposição conduz a um tratamento teórico mais simples pois ele implica que tenhamos independência entre as unidades selecionadas Portanto na maioria dos casos quando nos referenciarmos a uma AAS estamos nos referenciando a uma amostragem aleatória simples com reposição 35 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem sistemática Utilizada quando os elementos estão dispostos de maneira organizada ex fila lista e aleatória Escolhe um ponto de partida e selecionase cada késimo elemento da população ex o 50 elemento Exemplo Em uma fábrica de lâmpadas a cada 100 peças produzidas uma é retirada para teste 36 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem estratificada Indicada quando a população está dividida em grupos distintos denominados estratos Dentro de cada estrato é realizada uma amostragem aleatória simples O tamanho da amostra pode ou não ser proporcional ao tamanho do estrato Exemplos Uma comunidade universitária com 8000 indivíduos está estratificada da seguinte forma Estrato População Amostra Professores 800 80 Funcionários 1200 120 Estudantes 6000 600 37 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem por conglomerado A área da população é dividida em seções ou conglomerados ex bairros quarteirões Os conglomerados são selecionados aleatoriamente Dentro de um conglomerado todos os elementos são amostrados Exemplo 38 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 39 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Erros amostrais Erros amostrais Diferença entre o resultado da amostra e o verdadeiro valor da população Ocorre pois as amostras são aleatórias Erros não amostrais Ocorre quando os dados amostrais são coletados incorretamente devido a uma amostra tendenciosa instrumento de medida defeituoso anotações erradas Atenção Os erros não amostrais não devem existir ou devem ser minimizados 40 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Erros amostrais Erros amostrais Diferença entre o resultado da amostra e o verdadeiro valor da população Ocorre pois as amostras são aleatórias Erros não amostrais Ocorre quando os dados amostrais são coletados incorretamente devido a uma amostra tendenciosa instrumento de medida defeituoso anotações erradas Atenção Os erros não amostrais não devem existir ou devem ser minimizados 40 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Erros amostrais Não importa quão bem a amostra seja coletada os erros amostrais sempre irão ocorrer Cada vez que uma amostra aleatória for retirada de uma população um resultado diferente será observado Selecione uma amostra de tamanho n 5 das idades dos estudantes de uma sala 22 21 24 23 20 22 21 25 24 24 23 19 25 24 23 23 20 21 23 20 23 22 23 23 25 25 20 23 24 20 Repita 5 vezes tente ser o mais aleatório possível calcule a média de cada amostra e compare com a média populacional µ 22 5 41 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Um exemplo Amostra x ϵ x µ 23 23 23 24 23 232 07 24 22 20 20 20 212 13 21 20 19 22 25 214 11 22 23 25 20 22 224 01 21 20 22 24 20 214 11 O que isso nos diz a respeito das médias amostrais O que isso nos diz a respeito da variabilidade das médias amostrais E se fizemos uma média das médias de todas as amostras Voltaremos aqui mais tarde 42 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 43 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Referências Bussab WO Morettin PA Estatística básica São Paulo Saraiva 2002 526 p Cap 1 e 10 Magalhães MN Lima ACP Noções de Probabilidade e Estatística São Paulo EDUSP 2008 Cap 1 44 44 Estatística Aplicada Larson Farber 5 Distribuição normal de probabilidade Introdução às distribuições normais Seção 51 Propriedades de uma distribuição normal Suas média mediana e moda são iguais Tem forma de sino e é simétrica em torno da média A área total sob a curva é de 100 x À medida que a curva se afasta da média aproximase cada vez mais do eixo x mas nunca o toca Os pontos em que a curvatura muda são chamados pontos de inflexão O gráfico curvase para baixo entre os pontos de inflexão e para cima à esquerda e à direita deles x Ponto de inflexão Ponto de inflexão Propriedades de uma distribuição normal Médias e desvios padrão 20 12 15 18 10 11 13 14 16 17 19 21 22 9 12 15 18 10 11 13 14 16 17 19 20 Curvas com médias diferentes e desvios padrão diferentes Curvas com médias diferentes e o mesmo desvio padrão Regra Empírica Cerca de 95 da área está a dois desvios padrão Cerca de 997 da área está a três desvios padrão da média Cerca de 68 da área está a um desvio padrão da média 68 42 45 48 51 39 36 33 Como determinar intervalos Segundo o manual de instruções o tempo de montagem de certo produto é normalmente distribuído com uma média de 42 horas e um desvio padrão de 03 hora Determine o intervalo no qual caem 95 dos tempos de montagem x 42 2 03 36 e 42 2 03 48 95 dos tempos de montagem estarão entre 36 e 48 horas 95 dos dados caem a até dois desvios padrão da média 42 horas 03 hora A distribuição normal padrão Seção 52 O escore padrão O escore padrão ou escore z representa o número de desvios padrão que separa uma variável aleatória x da média As pontuações em um concurso público estão normalmente distribuídas com média de 152 e desvio padrão de 7 Determine o escore z para um candidato com pontuação de a 161 b 148 c 152 a b c valor média desvio padrão 129 057 A distribuição normal padrão A distribuição normal padrão tem média 0 e desvio padrão de 1 Se usar escores z você pode transformar qualquer distribuição normal numa distribuição normal padrão 4 3 2 1 0 1 2 3 4 z Áreas acumuladas A área acumulada está próxima de 1 para escores z próximos de 349 0 1 2 3 3 2 1 z A área total sob a curva é 1 A área acumulada está próxima de 0 para escores z próximos de 349 A área acumulada para z 0 é 05000 Determine a área acumulada para um escore z de 125 0 1 2 3 3 2 1 z Áreas acumuladas 01056 Percorra a coluna z à esquerda até z 125 depois siga na transversal até a coluna sob o número 005 O valor da célula 01056 corresponde à área acumulada A probabilidade de que z esteja no máximo até 125 é de 01056 125 01056 P Como determinar probabilidades Para determinar a probabilidade de z ser inferior a um valor dado encontre a área acumulada na tabela de acordo com o correspondente escore z 0 1 2 3 3 21 z Percorra a coluna z até 14 depois vá na transversal até 005 A área acumulada é 00735 Determine Pz 145 Pz 145 00735 Como determinar probabilidades Para determinar a probabilidade de z ser superior a um valor dado subtraia de 1 a área acumulada que você encontrar na tabela 0 1 2 3 3 2 1 z Pz 124 08925 Determine Pz 124 A área acumulada área à esquerda é de 01075 Logo a área à direita é 1 01075 08925 01075 08925 Como determinar probabilidades Para determinar a probabilidade de z estar entre dois valores dados determine as áreas acumuladas para cada valor e depois subtraia a menor da maior Determine P125 z 117 1 Pz 117 08790 2 Pz 125 01056 3 P125 z 117 08790 01056 07734 0 1 2 3 3 2 1 z 0 1 2 3 1 3 2 z Resumo 321 0 1 2 3 z Para determinar a probabilidade de z ser superior a dado valor subtraia de 1 a área acumulada que você encontrou na tabela 3 2 1 0 1 2 3 z Para determinar a probabilidade de z estar entre dois valores dados determine as áreas acumuladas para cada valor e depois subtraia a menor da maior Para determinar a probabilidade de z ser inferior a dado valor encontre a área acumulada correspondente Distribuições normais determinando probabilidades Seção 53 Probabilidades e distribuições normais 115 100 Se uma variável aleatória x é normalmente distribuída a probabilidade de que ela esteja dentro de dado intervalo é igual à área sob a curva nesse intervalo Pontuações de QI são normalmente distribuídas com uma média de 100 e um desvio padrão de 15 Determine a probabilidade de que uma pessoa selecionada aleatoriamente tenha uma pontuação de QI inferior a 115 Para determinar a área nesse intervalo primeiro encontre o escore z correspondente a x 115 0 1 Probabilidades e distribuições normais Determine Pz 1 100 115 Distribuição normal padrão Determine Px 115 Distribuição normal Pz 1 08413 logo Px 115 08413 É O MESMO É O MESMO As contas mensais de serviços públicos em determinada cidade são normalmente distribuídas com média de US 100 e desvio padrão de US 12 Uma conta é escolhida aleatoriamente Determine a probabilidade de ela estar entre US 80 e US 115 P80 x 115 Distribuição normal P167 z 125 08944 00475 08469 A probabilidade de uma conta estar entre US 80 e US 115 é 08469 Aplicação 167 125 Distribuições normais obtendo valores Seção 54 z Da área ao escore z Localize 09803 na tabela Leia os valores no início da linha e no alto da coluna correspondentes O escore z será 206 Determine o escore z correspondente a uma área acumulada de 09803 z 206 corresponde mais ou menos ao 98º percentil 4 3 2 1 0 1 2 3 4 09803 Determinando escores z a partir de áreas Determine o escore z correspondente ao 90º percentil z 0 090 Na tabela o valor mais próximo é 08997 O início da linha é 12 e o topo da coluna é 008 Isso corresponde a z 128 Um escore z de 128 corresponde ao 90º percentil Determine um escore z que tenha uma área de 060 à sua direita 060 040 0 z z Com 060 à direita a área acumulada é de 040 O valor mais próximo é de 04013 O início da linha é 02 e o topo da coluna é 005 Logo o escore z é 025 Um escore z de 025 tem uma área de 060 à sua direita Isso corresponde ao 40º percentil Determinando escores z a partir de áreas Determine um escore z tal que 45 da área sob a curva fique entre z e z 0 z z A área restante nas pontas é de 055 Metade dessa área está em cada ponta logo 0552 0275 é a área acumulada para o valor negativo de z e 0275 045 0725 é a área acumulada para o z positivo O valor mais próximo na tabela é de 02743 e assim o escore z é 060 O escore z positivo é 060 045 0275 0275 Determinando escores z a partir de áreas De escores z a escores brutos As pontuações em um concurso público estão normalmente distribuídas com média de 152 e desvio padrão de 7 Determine a pontuação de um candidato com escore z a 233 b 175 c 0 a x 152 2337 16831 b x 152 1757 13975 c x 152 07 152 Para determinar um valor x a partir de um escore z Determinando percentis ou valores de corte As contas mensais de serviços públicos em determinada cidade são normalmente distribuídas com média de US 100 e desvio padrão de US 12 Qual é o valor mais baixo entre os 10 mais altos 10 90 Determine na tabela a área acumulada mais próxima a 09000 o 90º percentil A área 08997 corresponde a um escore z de 128 x 100 12812 11536 US 11536 é o valor mais baixo entre os 10 mais altos z Para determinar o valor x correspondente use Seção 55 Teorema do Limite Central Amostra Distribuições amostrais Uma distribuição amostral é a distribuição de probabilidade de uma estatística da amostra formada quando amostras de tamanho n são colhidas várias vezes de uma população Se a estatística da amostra for a sua média simples a distribuição será uma distribuição amostral de médias das amostras Amostra A distribuição amostral consiste nos valores das médias da amostra Amostra Amostra Amostra Amostra O Teorema do Limite Central Se uma amostra n 30 for tirada de uma população com qualquer tipo de distribuição média μ e desvio padrão σ as médias da amostra terão distribuição normal Média μx μ Desvio padrão σx σn a distribuição das médias da amostra de tamanho n será normal com média e desvio padrão O Teorema do Limite Central x Se uma amostra de qualquer tamanho for tirada de uma população com distribuição normal média e desvio padrão Aplicação A distribuição de médias da amostra de tamanho 60 será normal A média de altura dos homens norteamericanos de 20 a 29 anos é de polegadas Amostras aleatórias de 60 homens são selecionadas Determine a média e o desvio padrão erro padrão da distribuição amostral média Desvio padrão 692 692 e 29 692 29 692 29 03744 Interpretando o Teorema do Limite Central A média de altura dos homens norteamericanos de 20 a 29 anos é 692 polegadas Se uma amostra aleatória de 60 homens nessa faixa etária for selecionada qual é a probabilidade de que a média de altura na amostra seja superior a 70 polegadas Admita um desvio padrão de 29 polegadas Determine o escore z para uma média amostral de 70 Desvio padrão Média Uma vez que n 30 a distribuição amostral de será normal 692 29 03744 692 03744 214 214 z Há uma probabilidade de 00162 de que uma amostra com 60 homens tenha uma média de altura superior a 70 polegadas Interpretando o Teorema do Limite Central 09838 00162 P P 214 Aplicando o Teorema do Limite Central Em certa semana o preço médio da gasolina na Califórnia foi de US 1164 por galão Qual é a probabilidade de que o preço médio em uma amostra de 38 postos esteja entre US 1169 e US 1179 Admita que o desvio padrão seja de US 0049 Desvio padrão Média Calcule o escore z para valores amostrais de US 1169 e US 1179 Uma vez que n 30 a distribuição amostral de será normal 1164 0049 00079 00079 00079 1169 1164 1179 1164 063 190 063 190 z Aplicando o Teorema do Limite Central P063 z 190 09713 07357 02356 A probabilidade de que a média da amostra esteja entre US 1169 e US 1179 é de 02356 Aproximações normais para as distribuições binomiais Seção 56 Características da distribuição binomial O número de tentativas independentes n é fixo Cada tentativa pode ter dois resultados sucesso ou fracasso A probabilidade de sucesso numa única tentativa é p e de fracasso é q p q 1 É possível determinar a probabilidade de exatamente x sucessos em n tentativas sendo x 0 ou 1 ou 2 n x é uma variável aleatória discreta que representa uma contagem do número de sucessos em n tentativas e Aplicação 34 dos norteamericanos têm sangue tipo A Se 500 pessoas dessa nacionalidade forem selecionadas aleatoriamente qual é a probabilidade de ao menos 300 terem sangue tipo A Com as técnicas do Capítulo 4 você poderia calcular a probabilidade de exatamente 300 exatamente 301 exatamente 500 norteamericanos terem sangue tipo A e depois somar as probabilidades Ou você pode usar as probabilidades de curva normal para aproximar as probabilidades binomiais Se np 5 e nq 5 a variável aleatória binomial x tem distribuição aproximadamente normal com μ np e σ npq Por que precisamos de np 5 e nq 5 n 5 p 025 q 075 np 125 nq 375 n 20 p 025 np 5 nq 15 n 50 p 025 np 125 nq 375 Probabilidades binomiais A distribuição binomial é discreta e pode ser representada por um histograma de probabilidade A probabilidade de que um específico valor de x ocorra é igual à área do retângulo com ponto médio x Se n 50 e p 025 determine Some as áreas dos retângulos com pontos médios em x 14 x 15 x 16 14 15 16 0111 0089 0065 0111 0089 0065 0265 P P 0265 14 15 16 Correção pela continuidade Use a aproximação normal para a binomial a fim de determinar Os valores para a variável aleatória binomial x são 14 15 e 16 025 125 e se n e 375 P Verifique que 14 15 16 Correção pela continuidade Use a aproximação normal para a binomial a fim de determinar O intervalo de valores sob a curva normal é Para garantir que as fronteiras de cada retângulo estejam incluídas no intervalo subtraia 05 das fronteiras à esquerda e some 05 às que estão à direita 025 125 375 e e P se n 135 165 Verifique que Aproximação normal para a binomial Use a aproximação normal para a binomial a fim de determinar Ajuste os pontos extremos para corrigir pela continuidade P Converta cada ponto extremo em um escore z Com as fórmulas de distribuição binomial determine a média e o desvio padrão 125 025 P se n e 025 3062 050075 135 165 125 135 3062 033 165 125 3062 131 131 033 09049 06293 02756 Aplicação Segundo um levantamento entre os usuários da Internet 75 são a favor de que o governo regulamente o lixo eletrônico Se 200 internautas forem selecionados aleatoriamente determine a probabilidade de que menos de 140 sejam a favor da regulação governamental Uma vez que np 150 5 e nq 50 5 você pode usar a distribuição normal para aproximar a probabilidade binomial μ np 200 075 150 σ npq 200 075025 61237 A frase binomial menos de 140 significa 0 1 2 3139 Use a correção pela continuidade para traduzir isso à variável contínua no intervalo 1395 Determine Px 1395 Aplicação Segundo um levantamento entre os usuários da Internet 75 são a favor de que o governo regulamente o lixo eletrônico Se 200 internautas forem selecionados aleatoriamente determine a probabilidade de que menos de 140 sejam a favor da regulação governamental Use a correção pela continuidade Px 1395 Pz 171 00436 A probabilidade de que menos de 140 sejam a favor da regulação governamental é de aproximadamente 00436 1395 61237 171 Resolução da Lista 4 Questão 1 a Probabilidades de restituição Para tipo A PTA 6 PZ 6 10 2 PZ 2 Φ2 Da tabela normal Φ2 00228 Para tipo B PTB 6 PZ 6 11 3 PZ 16667 Φ16667 Φ16667 00478 Resposta Prestituição A 00228 228 Prestituição B 00478 478 b Lucro médio Lucro médio Lucro Prob sem defeito Prejuízo Prob com defeito Para tipo A LA 1200 1 00228 2500 00228 LA 1200 09772 2500 00228 LA 117264 57 111564 um Para tipo B LB 2100 1 00478 7000 00478 LB 2100 09522 7000 00478 LB 199962 3346 166502 um c Qual tipo incentivar Como LB 166502 LA 111564 a empresa deveria incentivar as vendas dos aparelhos do tipo B Questão 2 PX 10 PZ 10 8 12247 PZ 1633 PZ 1633 1 Φ1633 Da tabela normal Φ1633 09484 PX 10 1 09484 00516 Resposta A chance é de aproximadamente 516 Questão 3 P2485 X 2515 P2485 2508 005 Z 2515 2508 005 P023 005 Z 007 005 P46 Z 14 Φ14 Φ46 Φ14 09192 Φ46 0 P 09192 0 09192 Resposta Aproximadamente 9192 das unidades estão em conformidade Questão 4 a PX 13 PX 13 PZ 13 10 2 PZ 15 1 Φ15 1 09332 00668 b P9 X 11 P9 X 11 P9 10 2 Z 11 10 2 P05 Z 05 Φ05 Φ05 06915 03085 03830 c Valor x tal que PX x 098 Da tabela normal Φz 098 z 2054 x 10 2 2054 x 10 4108 x 14108 Respostas a 00668 668 b 03830 3830 c 14108 miliamperes Questão 5 P024985 X 025015 P 024985 02505 00005 Z 025015 02505 00005 P 000065 00005 Z 000035 00005 P13 Z 07 Φ07 Φ13 02420 00968 01452 Resposta Aproximadamente 1452 dos eixos obedecem às especificações Questão 6 Observação Como temos uma amostra grande n200 e a distribuição é normal podemos usar os parâmetros amostrais como estimativas dos populacionais Cálculo da proporção de arruelas defeituosas Arruelas defeituosas são aquelas com diâmetro fora do intervalo 0496 0508 cm Pdefeituosa 1 P0496 X 0508 Calculando as probabilidades P X 0496 P Z 0496 0502 00005 P Z 0006 00005 PZ 12 P X 0508 P Z 0508 0502 00005 P Z 0006 00005 PZ 12 Como Φ12 1 e Φ12 0 temos P 0496 X 0508 Φ12 Φ12 1 0 1 Portanto Pdefeituosa 1 1 0 Resposta Aproximadamente 0 das arruelas são defeituosas Isso ocorre porque as especificações estão extremamente amplas em relação à variabilidade do processo 0006 vs σ 00005 resultando em um processo com capacidade muito alta Verificação alternativa Vamos calcular os limites em termos de desvios padrão Limite inferior 0496 0502 00005 12σ Limite superior 0508 0502 00005 12σ Na distribuição normal praticamente 100 dos dados estão dentro de 3σ 9973 e dentro de 6σ já é mais de 999999998 Portanto realmente não há arruelas defeituosas Questão 7 a PX 170000 PX 170000 P Z 170000 150000 5000 P Z 20000 5000 PZ 4 Φ4 0999968 Resposta a Aproximadamente 999968 b P140000 X 165000 P140000 X 165000 P 140000 150000 5000 Z 165000 150000 5000 P 10000 5000 Z 15000 5000 P2 Z 3 Φ3 Φ2 099865 002275 09759 Resposta b Aproximadamente 9759 c Garantia para substituição 02 Queremos encontrar x₀ tal que PX x₀ 0002 02 Da tabela normal padrão Φz 0002 z 2878 Convertendo para a escala original x₀ 150000 5000 2878 x₀ 150000 2878 5000 14390 x₀ 150000 14390 135610 km Resposta c A garantia deve ser de 135610 km para que menos de 02 dos motores sejam substituídos Verificação da resposta c PX 135610 P Z 135610 150000 5000 P Z 14390 5000 PZ 2878 0002 Portanto a garantia de 135610 km realmente resulta em aproximadamente 02 de substituições

Envie sua pergunta para a IA e receba a resposta na hora

Recomendado para você

Projeto de Pesquisa Mestrado - Avaliação da Atividade Antioxidante de Complexos de Mg(II) como Fertilizante

18

Projeto de Pesquisa Mestrado - Avaliação da Atividade Antioxidante de Complexos de Mg(II) como Fertilizante

Estatística 1

UFSCAR

Estatistica-Descritiva-Amostragem-e-Probabilidade

1

Estatistica-Descritiva-Amostragem-e-Probabilidade

Estatística 1

UFSCAR

Curso Estatística e Probabilidade

4

Curso Estatística e Probabilidade

Estatística 1

UFSCAR

Lista de Exercicios - Estatistica - Calculo de Probabilidades e Distribuicoes

2

Lista de Exercicios - Estatistica - Calculo de Probabilidades e Distribuicoes

Estatística 1

UFSCAR

Testes de Hipótese

5

Testes de Hipótese

Estatística 1

UFSCAR

Analise Estatistica de Dados

1

Analise Estatistica de Dados

Estatística 1

UFSCAR

Estatistica

1

Estatistica

Estatística 1

UFSCAR

Exercício 4 Lista-2023 1

6

Exercício 4 Lista-2023 1

Estatística

UFRPE

Estatistica Atv 2

1

Estatistica Atv 2

Estatística 1

URCA

Estatistica

4

Estatistica

Estatística 1

URCA

Texto de pré-visualização

LISTA 03B EXERCÍCIO 1 INTERVALO DE CONFIANÇA PARA MÉDIA Suponha que X represente a duração da vida de uma peça de equipamento Admitase que 100 peças sejam ensaiadas fornecendo uma duração de vida média de 5012 horas Suponhase que seja conhecido e igual a 4 horas e que se deseje obter um intervalo de confianças de 95 por cento para a média EXERCÍCIO 2 INTERVALO DE CONFIANÇA PARA MÉDIA Dez mensurações são feitas para a resistência de um certo tipo de fio fornecendo os valores X1 X2 X10 Suponhase que 1048 ohms e Σ10𝑿𝑖𝟏𝑿 𝑋𝟐 136 ohms Vamos supor que X tenha distribuição N𝜎2 e que desejemos obter um intervalo de confiança para com coeficiente de confiança 090 Portanto 010 EXERCÍCIO 3 INTERVALO DE CONFIANÇA PARA DIFERENÇA DE MÉDIAS Um processo industrial usa uma ferramenta fabricada de aço tipo A da qual uma amostra de 10 unidades apresentou vida média de 1400 horas e desviopadrão de 120 horas A mesma ferramenta passou a ser fabricada com aço tipo B e um lote de 20 unidades apresentou vida média de 1200 horas e desviopadrão de 100 horas Desde que o processo de fabricação da ferramenta não mudou podese supor idênticos os desviospadrão das populações de cada amostra Determinar o intervalo de confiança a 95 para a diferença entre as médias das populações de ambos os tipos de ferramenta EXERCÍCIO 4 INTERVALO DE CONFIANÇA PARA DIFERENÇA DE MÉDIAS Um engenheiro civil tenciona medir a força compressiva de dois tipos de betão De duas amostras aleatórias independentes de 10 elementos dos dois tipos resultaram Tipo I 3250 3268 4302 3184 3266 3297 3332 3502 3064 3116 Tipo II 3094 3268 4302 3184 3266 3124 3316 3212 3380 3018 Considerando que as amostras provêm de populações normais com desvio padrão igual a 353 e 363 respectivamente determine um intervalo de confiança de 95 para a diferença entre os valores esperados das duas populações EXERCÍCIO 5 INTERVALO DE CONFIANÇA PARA PROPORÇÃO Examinadas 500 peças de uma produção encontrouse 260 defeituosas Construir um intervalo de confiança a 90 para a verdadeira proporção de peças defeituosas EXERCÍCIO 6 INTERVALO DE CONFIANÇA PARA PROPORÇÃO Um teste realizado com 280 pessoas consistia em adivinhar em qual das mãos ambas fechadas do pesquisador estava uma moeda Em 44 das tentativas a identificação foi correta da mão selecionada EXERCÍCIO 7 INTERVALO DE CONFIANÇA PARA VARIÂNCIA O peso de componentes mecânicos produzidos por uma determinada empresa é uma variável aleatória que se supõe ter distribuição Normal Pretendese estudar a variabilidade do peso dos referidos componentes Para isso uma amostra de tamanho 11 foi obtidacujos valores em grama são 98 97 102 100 98 101 102 105 95 102 100 Construa um intervalo de confiança para a variância do peso com um grau de confiança igual a 95 EXERCÍCIO 8 INTERVALO DE CONFIANÇA PARA VARIÂNCIA Em uma fábrica uma amostra de 30 parafusos apresentou os seguintes diâmetros em mm 10 13 14 11 13 14 11 13 14 15 12 14 15 13 14 12 12 11 15 16 13 15 14 14 15 15 16 12 10 15 Supondo que os diâmetros sejam aproximadamente normais obtenha um intervalo de confiança para o diâmetro médio de todos os parafusos produzidos nessa fábrica usando o nível de significância de 2 Para facilitar a solução do exercício você pode usar os seguintes resultados Σ30𝑥𝑖401 Σ30 𝑥𝑖2 5443 EXERCÍCIO 9 TESTE DE HIPÓTESE PARA MÉDIA COM VARIÂNCIA CONHECIDA Na indústria cerâmica avaliase sistematicamente a resistência de amostras de massas cerâmicas após o processo de queima Dessas avaliações sabese que certo tipo de massa tem resistência mecânica aproximadamente normal com média 53 MPa e variância 16 MPa2 Após a troca de alguns fornecedores de matérias primas desejase verificar se houve alteração na qualidade Uma amostra de 15 corpos de prova de massa cerâmica acusou média igual a 50 MPa Qual é a conclusão ao nível de significância de 5 EXERCÍCIO 10 TESTE DE HIPÓTESE PARA MÉDIA COM VARIÂNCIA DESCONHECIDA O tempo para transmitir 10 MB em determinada rede de computadores varia segundo um modelo normal com média 74 seg e variância 13 seg2 Depois de algumas mudanças na rede acreditase numa redução no tempo de transmissão de dados além de uma possível alteração na variabilidade Foram realizados 10 ensaios independentes com um arquivo de 10 MB e foram anotados os tempos de transmissão em segundos 68 71 59 75 63 69 72 76 66 63 Existe evidência suficiente de que o tempo médio de transmissão foi reduzido Use nível de significância de 1 EXERCÍCIO 11 TESTE DE HIPÓTESE PARA DIFERENÇA DE MÉDIAS As resistências de dois tipos de concreto que segue o modelo normal foram medidas mostrando os resultados da tabela Fixado um nível de significância de 10 existem evidências de que o concreto do tipo X seja mais resistente do que o concreto do tipo Y TIPO X 54 55 58 50 61 TIPO Y 51 54 55 52 53 EXERCÍCIO 12 TESTE DE HIPÓTESE PARA DIFERENÇA DE MÉDIAS Desejamos verificar se os catalisadores A e B têm efeitos diferentes no rendimento de carta reação química Foram realizados dez ensaios com cada catalisador em ordem aleatória Os resultados são mostrados na tabela a seguir CAT A 45 51 50 62 43 42 53 50 48 55 CAT B 45 35 43 59 48 45 41 43 49 39 Teste a hipótese de as médias diferirem entre si a um nível de confiança de 5 EXERCÍCIO 13 TESTE DE HIPÓTESE PARA PROPORÇÃO Uma empresa retira periodicamente amostras aleatórias de 500 peças de sua linha de produção para análise da qualidade As peças da amostra são classificadas como defeituosas ou não sendo que a política da empresa exige que o processo produtivo seja revisto se houver evidência de mais que 15 de peças defeituosas Na última amostra foram encontradas nove peças defeituosas Usando nível de significância de 1 o processo precisa ser revisto EXERCÍCIO 14 TESTE DE HIPÓTESE PARA PROPORÇÃO Um fabricante garante que 90 das peças que fornecem à linha de produção de uma determinada fábrica estão de acordo com as especificações exigidas A análise de uma amostra de 200 peças revelou 25 defeituosas A um nível de 5 podemos dizer que é verdadeira a afirmação do fabricante EXERCÍCIO 15 TESTE DE HIPÓTESE PARA VARIÂNCIA Usuários de uma rede de transmissão de energia elétrica têm reclamado da alta variação na tensão desvio padrão de12 V A empresa encarregada da transmissão de energia elétrica na região instalou novos transformadores O desvio padrão calculado sobre 30 observações independentes foi de 8 V e a distribuição de frequências dos valores da amostra sugere uma distribuição normal Há evidências de redução na variação da tensão Use α 5 EXERCÍCIO 16 TESTE DE HIPÓTESE PARA VARIÂNCIA O tempo para transmitir 10 MB em determinada rede de computadores varia segundo um modelo normal com média 74 seg e variância 13 seg² Depois de algumas mudanças na rede acreditase numa redução no tempo de transmissão de dados além de uma possível alteração na variabilidade Foram realizados 10 ensaios independentes com um arquivo de 10 MB e foram anotados os tempos de transmissão em segundos 68 71 59 75 63 69 72 76 66 63 Existe evidência suficiente de que as mudanças na rede de computadores alteram a variabilidade no tempo de transmissão de dados Use nível de significância de 5 LISTA 04B 01 Uma empresa produz televisores de dois tipos tipo A comum e tipo B luxo e garante a restituição da quantia paga se qualquer televisor apresentar defeito grave no prazo de seis meses O tempo para ocorrência de algum defeito grave nos televisores tem distribuição normal sendo que no tipo A com média de 10 meses e desvio padrão de 2 meses e no tipo B com média de 11 meses e desvio padrão de 3 meses Os televisores de tipo A e B são produzidos com lucro de 1200 um e 2100 um respectivamente e caso haja restituição com prejuízo de 2500 um e 7000 um respectivamente a Calcule as probabilidades de haver restituição nos televisores do tipo A e do tipo B b Calcule o lucro médio para os televisores do tipo A e para os televisores do tipo B c Baseandose nos lucros médios a empresa deveria incentivar as vendas dos aparelhos do tipo A ou do tipo B 02 A concentração de um poluente em água liberada por uma fábrica tem distribuição N8 15 Qual a chance de que num dado dia a concentração do poluente exceda o limite regulatório de 10 ppm 03 O diâmetro do eixo principal de um disco rígido segue a distribuição Normal com média 2508 pol e desvio padrão 005 pol Se as especificações para esse eixo são 2500 015 pol determine o percentual de unidades produzidas em conformidades com as especificações 04 Suponha que as medidas da corrente elétrica em pedaço de fio sigam a distribuição Normal com uma média de 10 miliamperes e uma variância de 4 miliamperes a Qual a probabilidade de a medida exceder 13 miliamperes b Qual a probabilidade de a medida da corrente estar entre 9 e 11 miliamperes c Determine o valor para o qual a probabilidade de uma medida da corrente estar abaixo desse valor seja 098 05 O diâmetro de um eixo de um drive óptico de armazenagem é normalmente distribuído com média 02505 polegadas e desviopadrão de 00005 polegadas As especificações do eixo são 02500000015 polegadas Que proporção de eixos obedece às especificações 06 A média dos diâmetros internos de uma amostra de 200 arruelas produzidas por uma certa máquina é 0502 cm e o desviopadrão é 00005 A finalidade para qual essas arruelas são fabricadas permite a tolerância máxima para o diâmetro de 0496 a 0508 cm Se isso não se verificar as arruelas serão consideradas defeituosas Determinar a percentagem de arruelas defeituosas produzidas pela máquina admitindose que os diâmetros são distribuídos normalmente 07 Uma fábrica de carros sabe que os motores de sua fabricação têm duração normal com média 150000 km e desviopadrão de 5000 km Qual a probabilidade de que um carro escolhido ao acaso dos fabricados por essa firma tenha um motor que dure a Menos de 170000 km b Entre 140000 km e 165000 km c Se a fábrica substitui o motor que apresenta duração inferior à garantia qual deve ser esta garantia para que a porcentagem de motores substituídos seja inferior a 02 Resolução da Lista 5 Questão 1 Passo 1 Calcular a estatística de teste z z x μ0 σn 1615 1600 120100 15 12010 15 12 125 Passo 2 Determinar os valores críticos Para α 005 bilateral zα2 z0025 196 Passo 3 Regra de decisão Rejeitar H0 se z 196 Passo 4 Aplicar a regra z 125 196 Não rejeitamos H0 Passo 5 Conclusão Ao nível de significância de 5 não há evidência suficiente para concluir que a duração média das lâmpadas é diferente de 1600 horas Questão 2 Passo 1 Calcular média e desvio padrão amostral xi 65 74 78 86 59 84 75 72 81 83 757 x 757 10 757 xi² 65² 74² 78² 86² 59² 84² 75² 72² 81² 83² 4225 5476 6084 7396 3481 7056 5625 5184 s² xi² n x² n1 57977 10 757² 9 57977 10 573049 9 57977 573049 9 6721 9 746778 s 746778 8642 Passo 2 Suposições necessárias 1 As notas são independentes 2 As notas têm distribuição normal ou aproximadamente normal dado o tamanho pequeno da amostra 3 A variância populacional é desconhecida Passo 3 Calcular a estatística de teste t t x μ0 sn 757 80 864210 43 864231623 43 2732 1574 Passo 4 Determinar o valor crítico Graus de liberdade ν n 1 9 Para α 005 unilateral à esquerda t0059 1833 Passo 5 Regra de decisão Rejeitar H0 se t 1833 Passo 6 Aplicar a regra t 1574 1833 Não rejeitamos H0 Passo 7 Conclusão Ao nível de significância de 5 não há evidência suficiente para concluir que a média das notas diminuiu Questao 3 Conceito O nıvel descritivo pvalor e a probabilidade de se obter um resultado tao ou mais extremo que o observado assumindo H0 verdadeira Regra de decisao baseada no pvalor Se α pvalor rejeitase H0 Se α pvalor nao rejeitase H0 Resposta O pesquisador aceitara a hipotese nula nao rejeitara H0 para nıveis de significˆancia inferiores a 0035 Para nıveis de significˆancia superiores a 0035 ele rejeitara H0 Questao 4 a H0 µ 18 Ha µ 13 Esta e uma hipotese alternativa simples nao composta Calculamos o nıvel descritivo como a probabilidade de observar x 15 2 ou valor mais extremo considerando a distribuicao sob H0 Primeiro note que sob H0 µ 18 a estatıstica e z x µ0 σn 15 2 18 10 50 2 8 107 0711 2 8 1 4142 1 98 O nıvel descritivo para teste de uma hipotese alternativa simples µ 13 e a probabilidade de obter x 15 2 sob H0 ja que 13 18 teste unilateral a esquerda p PZ 1 98 Φ1 98 0 0239 b H0 µ 18 Ha µ 18 A hipotese alternativa e composta unilateral a esquerda O nıvel descritivo e p PZ 1 98 0 0239 c H0 µ 18 Ha µ 18 A hipotese alternativa e bilateral O nıvel descritivo e p 2 PZ 1 98 2 0 0239 0 0478 d H0 µ 17 Ha µ 14 Calculamos a estatıstica sob H0 µ 17 z 15 2 17 10 50 1 8 1 4142 1 273 Como 14 17 teste unilateral a esquerda p PZ 1 273 Φ1 273 0 1016 Respostas a 00239 b 00239 c 00478 d 01016 2 Questão 5 Passo 1 Calcular a estatística de teste sob H0 z x μ0 σn 98 13 6 25 32 65 32 12 2667 Passo 2 Determinar a região crítica Como Ha μ 8 13 temos um teste unilateral à esquerda Valor crítico para α 010 z010 1282 Passo 3 Regra de decisão Rejeitar H0 se z 1282 Passo 4 Aplicar a regra z 2667 1282 Rejeitamos H0 Passo 5 Conclusão Ao nível de significância de 10 há evidência suficiente para rejeitar H0 μ 13 em favor de Ha μ 8 Passo 6 Cálculo do nível descritivo pvalor p PZ 2667 Φ2667 00038 Como p 00038 α 010 confirmase a rejeição de H0 Questão 6 Passo 1 Verificar condições para uso da aproximação normal np0 100 010 10 5 n1 p0 100 090 90 5 Condições satisfeitas Passo 2 Calcular a estatística de teste z z p p0 p01p0n 008 010 010090 100 002 009 100 002 00009 002 003 06667 Passo 3 Determinar o valor crítico Para α 008 unilateral à esquerda z008 1405 Passo 4 Regra de decisão Rejeitar H0 se z 1405 Passo 5 Aplicar a regra z 06667 1405 Não rejeitamos H0 Passo 6 Cálculo do pvalor opcional p PZ 06667 Φ06667 02525 Como p 02525 α 008 confirmase a não rejeição de H0 Passo 7 Conclusão Ao nível de significância de 8 não há evidência suficiente para concluir que a proporção de animais com verminose diminuiu após a alteração da dieta Questão 7 Passo 1 Organizar os dados Controle 38 26 20 70 16 26 38 32 45 49 32 Teste 17 31 28 21 50 21 20 51 10 22 18 35 Observação O grupo teste tem 12 valores listados não 13 como mencionado Vou considerar nT 12 Passo 2 Calcular estatísticas descritivas Para Controle nC 11 C 38 26 20 70 16 26 38 32 45 49 32 392 C 392 11 35636 C² 38² 26² 20² 70² 16² 26² 38² 32² 45² 49² 32² 1444 676 400 4900 256 676 1444 1024 2025 2401 1024 sC² C² nC C² nC 1 16270 11 35636² 10 16270 11 12700 10 16270 13970 10 2300 10 230 sC 230 15166 Para Teste nT 12 T 17 31 28 21 50 21 20 51 10 22 18 35 324 T 324 12 270 T² 17² 31² 28² 21² 50² 21² 20² 51² 10² 22² 18² 35² 289 961 784 441 2500 441 400 2601 100 484 324 1225 sT² T² nT T² nT 1 10550 12 729 11 10550 8748 11 1802 11 163818 sT 163818 12799 Passo 3 Testar igualdade das variâncias préteste F sC² sT² 230 163818 1404 Graus de liberdade ν1 10 ν2 11 Valor crítico F bilateral 005 F00251011 353 e F09751011 1 F00251110 1330 0303 Como 0303 1404 353 não rejeitamos igualdade das variâncias Passo 4 Aplicar teste t para duas amostras com variâncias iguais Variância combinada sp² nC 1 sC² nT 1 sT² nC nT 2 10 230 11 163818 21 2300 1802 21 4102 21 195333 sp 195333 13976 Estatística de teste t T C sp 1nC 1nT 270 35636 13976 111 112 8636 13976 00909 00833 8636 13976 01742 8636 13976 04174 8636 5834 1480 Graus de liberdade ν nC nT 2 21 Passo 5 Determinar o valor crítico Para teste unilateral à esquerda com α 005 valor típico pois não foi especificado t00521 1721 Passo 6 Regra de decisão Rejeitar H0 se t 1721 Passo 7 Aplicar a regra t 1480 1721 Não rejeitamos H0 Passo 8 Cálculo do pvalor p PT21 1480 0076 Passo 9 Conclusão Ao nível de significância de 5 não há evidência suficiente para concluir que o uso dos sensores contribui para a diminuição do tempo médio gasto no percurso Entretanto note que o pvalor 0076 é próximo de 005 indicando que há alguma evidência mas não suficiente ao nível de 5 Questão 8 Passo 1 Calcular somas de quadrados Número de tratamentos a 5 Número de repetições por tratamento r 5 Número total de observações N a r 25 Total geral G 8562 Cálculo da Correção C C G² N 8562² 25 73307844 25 293231376 Cálculo da Soma de Quadrados Total SQT SQT Σi1a Σj1r yij² C Σ yij² 389² 254² 203² 257² 293² 209² 262² 323² 283² 287² 281² 270² 258² 269² 223² 387² 432² 417² 390² 403² 478² 478² 447² 505² 564² Calculando cada grupo A 151321 64516 41209 66049 85849 408944 B 43681 68644 104329 80089 82369 379112 C 78961 72900 66564 72361 49729 340515 D 149769 186624 173889 152100 162409 824791 E 228484 228484 199809 255025 318096 1229898 Σ yij² 408944 379112 340515 824791 1229898 3183260 SQT 3183260 293231376 25094624 Cálculo da Soma de Quadrados de Tratamentos SQTrat SQTrat 1r Σi1a Ti² C 1r Σ Ti² 151396² 1364² 1301² 2029² 2472² 151948816 1860496 1692601 4116841 6110784 1515729538 31459076 SQTrat 31459076 293231376 21359384 Cálculo da Soma de Quadrados do Resíduo SQRes SQRes SQT SQTrat 25094624 21359384 3735240 Passo 2 Calcular quadrados médios Graus de liberdade de tratamentos GLTrat a 1 4 Graus de liberdade total GLTotal N 1 24 Graus de liberdade do resíduo GLRes GLTotal GLTrat 24 4 20 QMTrat SQTrat GLTrat 21359384 4 5339846 QMRes SQRes GLRes 3735240 20 186762 Passo 3 Calcular estatística F F QMTrat QMRes 5339846 186762 2859 Passo 4 Tabela ANOVA Fonte de Variação GL SQ QM F Valorp Tratamentos 4 21359384 5339846 2859 00001 Resíduo 20 3735240 186762 Total 24 25094624 Passo 5 Valor crítico e decisão Para α 005 GL1 4 GL2 20 F005420 2866 Como F 2859 2866 rejeitamos H0 Resposta a Há diferença significativa p 00001 entre as produtividades das cinco variedades de mandioca ao nível de significância de 5 Resposta b Identificação do melhor tratamento Para identificar qual variedade apresentou o melhor resultado calculamos as médias de cada tratamento Tratamento Média tha A IAC 5 1396 5 2792 B IAC 7 1364 5 2728 C IAC 11 1301 5 2602 D IRACEMA 2029 5 4058 E MANTIQUEIRA 2472 5 4944 Ordenando as médias 1 E MANTIQUEIRA 4944 tha 2 D IRACEMA 4058 tha 3 A IAC 5 2792 tha 4 B IAC 7 2728 tha 5 C IAC 11 2602 tha A variedade que apresentou o melhor resultado foi a MANTIQUEIRA com média de 4944 tha Teste de comparação múltipla opcional para identificar diferenças significativas Como a ANOVA foi significativa podemos aplicar um teste de comparação múltipla como Tukey ou Duncan para identificar quais tratamentos diferem entre si Diferença Mínima Significativa DMS usando teste de Tukey DMS qαaGLres QMres r Para α 005 a 5 GLres 20 q005520 4232 DMS 4232 186762 5 4232 373524 4232 1933 818 Qualquer diferença entre médias maior que 818 tha é estatisticamente significativa Comparando as médias E vs C 4944 2602 2342 818 significativa E vs D 4944 4058 886 818 significativa D vs C 4058 2602 1456 818 significativa A B C entre si diferenças 818 não significativas Portanto temos trˆes grupos homogˆeneos 1 Grupo superior MANTIQUEIRA E 2 Grupo intermediario IRACEMA D 3 Grupo inferior IAC 5 A IAC 7 B IAC 11 C 8 Resolucao da Lista 3 Questao 1 Passo 1 Identificar o valor crıtico zα2 Para 1 α 0 95 temos α2 0 025 O valor crıtico da distribuicao normal padrao e z0025 1 96 Passo 2 Formula do intervalo de confianca ICµ x zα2 σ n Passo 3 Calcular a margem de erro E 1 96 4 100 1 96 0 4 0 784 Passo 4 Construir o intervalo ICµ 501 2 0 784 ICµ 500 416 501 984 Questao 2 Passo 1 Identificar o valor crıtico tα2ν Como σ e desconhecido e a amostra e pequena n 30 usamos a distribuicao tStudent Graus de liberdade ν n 1 9 Para α2 0 05 e ν 9 da tabela t temos t0059 1 833 Passo 2 Formula do intervalo de confianca ICµ x tα2ν s n Passo 3 Calcular a margem de erro E 1 833 1 36 10 1 833 0 4301 0 788 Passo 4 Construir o intervalo ICµ 10 48 0 788 ICµ 9 692 11 268 1 Questão 3 Passo 1 Calcular o desvio padrão combinado sp sp2 n1 1s12 n2 1s22 n1 n2 2 sp2 9 1202 19 1002 28 9 14400 19 10000 28 sp2 129600 190000 28 319600 28 114142857 sp 114142857 10684 Passo 2 Determinar o valor crítico t Graus de liberdade ν n1 n2 2 28 Para α2 0025 e ν 28 t002528 2048 Passo 3 Fórmula do intervalo ICµ1 µ2 x1 x2 tα2ν sp 1n1 1n2 Passo 4 Calcular a margem de erro E 2048 10684 110 120 110 120 01 005 015 03873 E 2048 10684 03873 8477 Passo 5 Construir o intervalo x1 x2 1400 1200 200 ICµ1 µ2 200 8477 ICµ1 µ2 11523 28477 Questão 4 Passo 1 Calcular as médias amostrais Para Tipo I x1 3250 3268 4302 3184 3266 3297 3332 3502 3064 3116 10 x1 33581 10 33581 Para Tipo II dados idênticos Há inconsistência nos valores fornecidos assumirei que os dados são diferentes mas como os valores exatos não são claros usarei a fórmula geral Nota Os dados do Tipo II parecem estar incompletoscopiados erroneamente Prosseguirei com a fórmula Passo 2 Valor crítico z Para 1 α 095 zα2 196 Passo 3 Fórmula do intervalo conhecidos ICµ1 µ2 x1 x2 zα2 σ12n1 σ22n2 Passo 4 Substituir valores assumindo x2 calculado corretamente 3532210 3632210 124609 131769 256378 16012 E 196 16012 31384 Passo 5 Intervalo com x1 x2 hipotético Se por exemplo x2 3200 então x1 x2 1581 ICµ1 µ2 1581 31384 15574 47194 Questão 5 Passo 1 Valor crítico z Para 1 α 090 α2 005 z005 1645 Passo 2 Fórmula do intervalo para proporção ICp p zα2 p1 p n Passo 3 Calcular a margem de erro 052 048500 02496500 00004992 002234 E 1645 002234 003675 Passo 4 Construir o intervalo ICp 052 003675 ICp 048325 055675 ou em porcentagem 4833 5568 Questão 6 Passo 1 Valor crítico z Para 1 α 095 α2 0025 z0025 196 Passo 2 Fórmula do intervalo ICp p zα2 p1 p n Passo 3 Calcular a margem de erro 044 056280 02464280 000088 002966 E 196 002966 005813 Passo 4 Construir o intervalo ICp 044 005813 ICp 038187 049813 ou em porcentagem 3819 4981 Questão 7 Passo 1 Calcular média e variância amostral Primeiro somar os valores xi 98 97 102 100 98 101 102 105 95 102 100 1100 x 1100 11 100 Agora calcular a soma dos quadrados xi2 982 972 1022 1002 982 1012 1022 1052 952 1022 1002 9604 9409 10404 10000 9604 10201 10404 11025 9025 10404 10000 110080 Variância amostral s2 xi2 n x2n 1 110080 11 10000 10 110080 110000 10 80 10 8 Passo 2 Determinar os valores críticos quiquadrado Graus de liberdade ν n 1 10 Para α2 0025 e 1 α2 0975 χ2002510 20483 e χ2097510 3247 Passo 3 Fórmula do intervalo para variância ICσ2 n 1s2 χ2α2ν n 1s2 χ21α2ν Passo 4 Calcular os limites Limite inferior LI 10 8 20483 80 20483 3906 Limite superior LS 10 8 3247 80 3247 24638 Passo 5 Intervalo de confiança ICσ2 3906 24638 gramas2 Questão 8 Passo 1 Calcular média e variância amostral Média x 40130 133667 Variância amostral s² xᵢ² n x² n 1 5443 30 133667² 29 Primeiro calcular x² x² 133667² 178667 n x² 30 178667 536001 s² 5443 536001 29 8299 29 28617 s 28617 16917 Passo 2 Determinar o valor crítico t Graus de liberdade ν n 1 29 Para α2 001 bilateral 98 de confiança t₀₀₁₂₉ 2462 Passo 3 Fórmula do intervalo para média ICμ x tᵅ₂ν s n Passo 4 Calcular a margem de erro E 2462 16917 30 2462 16917 54772 2462 03088 0760 Passo 5 Construir o intervalo ICμ 133667 0760 ICμ 126067 141267 mm Questão 9 Passo 1 Calcular a estatística de teste z z x μ₀ σ n 50 53 4 15 3 4387298 3 10328 2904 Passo 2 Determinar os valores críticos Para α 005 bilateral zα2 z₀₀₂₅ 196 Passo 3 Regra de decisão Rejeitar H₀ se z 196 Passo 4 Comparar e concluir z 2904 196 Portanto rejeitamos H₀ Passo 5 Conclusão Ao nível de significância de 5 há evidência suficiente para concluir que a resistência média da massa cerâmica alterouse após a troca de fornecedores Questão 10 Passo 1 Calcular média e desvio padrão amostral xᵢ 68 71 59 75 63 69 72 76 66 63 682 x 682 10 682 Soma dos quadrados xᵢ² 68² 71² 59² 75² 63² 69² 72² 76² 66² 63² 4624 5041 3481 5625 3969 4761 5184 5776 4356 3969 46886 Variância amostral s² xᵢ² n x² n 1 46886 10 682² 9 46886 10 465124 9 46886 465124 9 3736 9 04151 s 04151 06443 Passo 2 Calcular a estatística de teste t t x μ₀ s n 682 74 06443 10 058 0644331623 058 02037 2848 Passo 3 Determinar o valor crítico t Graus de liberdade ν n 1 9 Para α 001 unilateral à esquerda t₀₀₁₉ 2821 Passo 4 Regra de decisão Rejeitar H₀ se t 2821 Passo 5 Comparar e concluir t 2848 2821 Portanto rejeitamos H₀ Passo 6 Conclusão Ao nível de significância de 1 há evidência suficiente para concluir que o tempo médio de transmissão foi reduzido após as mudanças na rede Questão 11 Passo 1 Calcular médias e variâncias amostrais Para Tipo X X 54 55 58 50 61 278 X 278 5 556 X² 54² 55² 58² 50² 61² 2916 3025 3364 2500 3721 15526 sₓ² X² nₓ X² nₓ 1 15526 5 556² 4 15526 5 309136 4 15526 154568 4 692 4 173 Para Tipo Y Y 51 54 55 52 53 265 Ȳ 265 5 53 Y² 51² 54² 55² 52² 53² 2601 2916 3025 2704 2809 14055 sᵧ² Y² nᵧ Ȳ² nᵧ 1 14055 5 53² 4 14055 5 2809 4 14055 14045 4 10 4 25 Passo 2 Testar igualdade das variâncias préteste F sₓ² sᵧ² 173 25 692 Graus de liberdade ν₁ 4 ν₂ 4 Valor crítico F para α 010 F₀₁₀₄₄ 411 Como F 692 411 rejeitamos a igualdade das variâncias Passo 3 Aplicar teste t com variâncias desiguais Welch Hipóteses H₀ μₓ μᵧ 0 vs H₁ μₓ μᵧ 0 Estatística de teste t X Ȳ sₓ²nₓ sᵧ²nᵧ 556 53 1735 255 26 346 05 26 396 26 199 1307 Graus de liberdade aproximados WelchSatterthwaite ν sₓ²nₓ sᵧ²nᵧ² sₓ²nₓ²nₓ1 sᵧ²nᵧ²nᵧ1 396² 4 05² 4 1735²4 255² 4 156816 1197164 0254 156816 29929 00625 156816 30554 513 5 Passo 4 Valor crítico e decisão Para α 010 unilateral ν 5 t₀₁₀₅ 1476 Regra Rejeitar H₀ se t 1476 Como t 1307 1476 não rejeitamos H₀ Passo 5 Conclusão Ao nível de significância de 10 não há evidência suficiente para concluir que o concreto do tipo X seja mais resistente que o do tipo Y Questão 12 Passo 1 Calcular médias e variâncias Para Catalisador A A 45 51 50 62 43 42 53 50 48 55 499 Ȧ 499 10 499 A² 45²51²50²62²43²42²53²50²48²55² 2025260125003844184917642809250023043025 s²A 25221 10 49 9² 9 25221 10 2490 01 9 25221 24900 1 9 320 9 9 35 656 Para Catalisador B B 45 35 43 59 48 45 41 43 49 39 448 B 448 10 44 8 B² 45²35²43²59²48²45²41²43²49²39² 2025122518493481230420251681184924011521 s²B 20361 10 44 8² 9 20361 10 2007 04 9 20361 20070 4 9 290 6 9 32 289 Passo 2 Testar igualdade das variâncias F s²A s²B 35 656 32 289 1 104 Graus de liberdade ν₁ 9 ν₂ 9 Valor crítico F bilateral α 005 F₀₀₂₅₉₉ 4 03 e F₀₉₇₅₉₉ 14 03 0 248 Como 0 248 1 104 4 03 não rejeitamos a igualdade das variâncias Passo 3 Aplicar teste t com variâncias iguais Variância combinada s²p nA 1s²A nB 1s²B nA nB 2 9 35 656 9 32 289 18 320 904 290 601 18 611 505 18 33 9725 sp 33 9725 5 829 Estatística de teste t A B sp 1nA 1nB 49 9 44 8 5 829 110 110 5 1 5 8290 2 5 1 5 829 0 4472 5 1 2 606 1 957 Graus de liberdade ν nA nB 2 18 Passo 4 Valor crítico e decisão Para α 005 bilateral ν 18 t₀₀₂₅₁₈ 2 101 Regra Rejeitar H₀ se t 2 101 Como t 1 957 2 101 não rejeitamos H₀ Passo 5 Conclusão Ao nível de significância de 5 não há evidência suficiente para concluir que os catalisadores A e B tenham efeitos diferentes no rendimento da reação química Questão 13 Passo 1 Estabelecer hipóteses H₀ p 0 015 vs H₁ p 0 015 Passo 2 Verificar condições np₀ 500 0 015 7 5 5 e n1 p₀ 500 0 985 492 5 5 OK Passo 3 Calcular estatística de teste z z p p₀ p₀1p₀n 0 018 0 015 0 0150985 500 0 003 0 014775 500 0 003 0 00002955 0 003 0 005436 0 552 Passo 4 Valor crítico e decisão Para α 0 01 unilateral z₀₀₁ 2 326 Regra Rejeitar H₀ se z 2 326 Como z 0 552 2 326 não rejeitamos H₀ Passo 5 Conclusão Ao nível de significância de 1 não há evidência suficiente para concluir que a proporção de peças defeituosas seja maior que 15 Portanto o processo não precisa ser revisto Questão 14 Passo 1 Estabelecer hipóteses O fabricante afirma que 90 estão conforme proporção de defeituosas 10 H₀ p 0 10 vs H₁ p 0 10 Passo 2 Verificar condições np₀ 200 0 10 20 5 e n1 p₀ 200 0 90 180 5 OK Passo 3 Calcular estatística de teste z z p p₀ p₀1p₀n 0 125 0 10 0 10090 200 0 025 0 09 200 0 025 0 00045 0 025 0 021213 1 179 Passo 4 Valor crítico e decisão Para α 0 05 bilateral zα2 z₀₀₂₅ 1 96 Regra Rejeitar H₀ se z 1 96 Como z 1 179 1 96 não rejeitamos H₀ Passo 5 Conclusão Ao nível de significância de 5 não há evidência suficiente para rejeitar a afirmação do fabricante de que 90 das peças estão conforme as especificações Questão 15 Passo 1 Estabelecer hipóteses H₀ σ² 144 vs H₁ σ² 144 pois σ²₀ 12² 144 Passo 2 Calcular estatística de teste quiquadrado χ² n 1s² σ²₀ 29 8² 144 29 64 144 1856 144 12 889 Passo 3 Valor crítico e decisão Graus de liberdade ν n 1 29 Para teste unilateral à esquerda com α 0 05 χ²₀₉₅₂₉ 17 708 valor abaixo do qual rejeitamos Regra Rejeitar H₀ se χ² 17 708 Como χ² 12 889 17 708 rejeitamos H₀ Passo 4 Conclusão Ao nível de significância de 5 há evidência suficiente para concluir que houve redução na variação da tensão após a instalação dos novos transformadores Questão 16 Passo 1 Calcular média e variância amostral xi 6 8 7 1 5 9 7 5 6 3 6 9 7 2 7 6 6 6 6 3 68 2 x 68 2 10 6 82 Calcular soma dos quadrados x²i 6 8² 7 1² 5 9² 7 5² 6 3² 6 9² 7 2² 7 6² 6 6² 6 3² 46 24 50 41 34 81 56 25 39 69 47 61 51 84 57 76 43 56 39 69 468 86 Variância amostral s² x²i n x² n 1 468 86 10 6 82² 9 468 86 10 46 5124 9 468 86 465 124 9 3 736 9 0 4151 seg² Passo 2 Estabelecer hipóteses H₀ σ² 1 3 vs H₁ σ² 1 3 Passo 3 Calcular estatística de teste quiquadrado χ² n 1s² σ²₀ 9 0 4151 1 3 3 7359 1 3 2 874 Passo 4 Determinar os valores críticos Graus de liberdade ν n 1 9 Para teste bilateral com α 0 05 χ²₀₉₇₅₉ 2 700 limite inferior crítico χ²₀₀₂₅₉ 19 023 limite superior crítico Passo 5 Regra de decisão Rejeitar H₀ se χ² χ²₀₉₇₅₉ 2 700 OU χ² χ²₀₀₂₅₉ 19 023 Passo 6 Aplicar a regra de decisão χ² 2 874 é tal que 2 700 2 874 19 023 Portanto NÃO rejeitamos H₀ Passo 7 Conclusão Ao nível de significância de 5 não há evidência suficiente para concluir que as mudanças na rede de computadores alteraram a variabilidade no tempo de transmissão de dados A variância aparentemente menor na amostra 04151 vs 13 não é estatisticamente significativa ao nível de 5 Passo 8 Intervalo de confiança para ² opcional para complementar O intervalo de confiança de 95 para a variância é ICσ² n1s² χ²₀0259 n1s² χ²₀9759 904151 19023 904151 2700 37359 19023 37359 2700 01964 13837 Como o valor σ₀²13 está dentro do intervalo 01964 13837 confirmase que não há evidência para rejeitar H₀ Lista de exercícios propostos de Teste de hipóteses para uma população 1 A vida média de uma amostra de 100 lâmpadas de certa marca é de 1615 horas Por similariadade com outros processos de fabricação supomos o desvio padrão igual a 120 horas Utilizandose um nível de significância igual a 5 desejamos testar se a duração média de todas as lâmpadas dessa marca é igual ou é diferente de 1600 horas Qual é a conclusão 2 O número de pontos de um exame de inglês tem sido historicamente ao redor de 80 Sorteamos 10 estudantes que fizeram recentemente esse exame e observamos as notas 65 74 78 86 59 84 75 72 81 e 83 Especialistas desconfiam que a média diminuiu e desejam testar essa afirmação através de um teste de hipóteses com nível de significância de 5 Fazendo as suposições necessárias qual seria a conclusão do teste Quais suposições são necessárias para a realização do teste realizado 3 Um pesquisador está realizando um teste para a média e obteve nível descritivo igual a 0035 Ele aceitará a hipótese nula para níveis de significância superiores ou inferiores a 0035zado 4 Uma variável aleatória tem distribuição Normal e desvio padrão igual a 10 Uma amostra de 50 valores dessa variável forneceu média igual a 152 Para cada um dos testes abaixo responda qual o nível descritivo a H₀ μ18 Hₐ μ13 b H₀μ18 Hₐ μ18 c H₀μ18 Hₐ μ18 d H₀μ17 Hₐ μ14 5 A resistência de um certo tipo de cabo de aço é uma variável aleatória modelada pela distribuição Normal com desvio padrão igual a 6 kgf Uma amostra de tamanho 25 desses cabos escolhida ao acaso forneceu média igual a 98 kgf Teste as hipóteses μ13 versus μ8 e tire suas conclusões a um nível de significância de 10 6 Um criador tem constatado uma proporção de 10 do rebanho com verminose O veterinário alterou a dieta dos animais e acredita que a doença diminuiu de intensidade Um exame em 100 cabeças do rebanho escolhidas ao acaso indicou 8 delas com verminose Ao nível de significância de 8 há indícios de que a proporção diminuiu 7 Sabese que o tempo necessário para percorrer uma determinada rota no final da tarde pode ser estudado por um modelo Normal Foram instalados sensores para controlar o tempo de abertura dos semáforos presentes na rota e desejase verificar se o tempo gasto para completar o percurso diminuiu Com os sensores desativados 11 veículos de mesmo ano e marca denominados Grupo Controle tiveram o tempo gasto no percurso anotado Em seguida os sensores foram ativados e outros 13 veículos Grupo Teste também de mesmo ano e marca percorreram a mesma rota Os tempos observados em minutos foram Controle 38 26 20 70 16 26 38 32 45 49 32 Teste 17 31 28 21 50 21 20 51 10 22 18 35 29 Verifique se o uso dos sensores contribui para a diminuição do tempo médio gasto na realização do percurso através de um teste de hipóteses 8 A tabela abaixo apresenta a produtividade de cinco variedades da cultura da mandioca em toneladas por hectare tha TRATAMENTOS REPETIÇÕES TOTAIS 1 2 3 4 5 A IAC 5 389 254 203 257 293 1396 B IAC 7 209 262 323 283 287 1364 C IAC 11 281 270 258 269 223 1301 D IRACEMA 387 432 417 390 403 2029 E MANTIQUEIRA 478 478 447 505 564 2472 8562 Responda a Há diferença significativa em relação à produtividade destas cinco variedades b Se sim qual delas apresentou o melhor resultado Testes de hipótese para médias proporções e variâncias Prof Paulo Justiniano Ribeiro Junior Departamento de Estatística Universidade Federal do Paraná Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 1 Testes para comparar médias de duas populações Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 2 Testes para comparar duas médias Exemplo comparação de IRA entre alunos e alunas de uma universidade Diferentes possibilidades de testes Testes de hipótese para a diferença de médias de duas populações σ 2s conhecidos Testes de hipótese para a diferença de médias de duas populações σ 2s desconhecidos Testes de hipótese para amostras emparelhadas Testes de hipótese para amostras independentes Variâncias iguais σ 2 1 σ 2 2 Variâncias diferentes σ 2 1 σ 2 2 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 3 Testes de hipótese para duas populações Ao testar uma hipótese para duas populações devem ser consideradas Amostras independentes quando os valores amostrados de uma população não estão relacionados ou emparelhados com os da outra população Exemplo teste para pressão sanguínea do grupo controle vs grupo medicado Amostras dependentes ou emparelhadas quando cada elemento de uma amostra corresponde ao mesmo elemento da outra amostra geralmente o mesmo indivíduo analisado antes e depois de um experimento Exemplo teste para a diferença de peso de uma mesma pessoa antes e depois de uma dieta Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 4 Testes de hipótese para médias de duas populações Até agora testamos hipóteses para uma único parâmetro populacional H0 µ µ0 Ha µ µ0 ou Ha µ µ0 ou Ha µ µ0 Podemos estender o teste de hipótese quando queremos comparar o mesmo parâmetro para duas populações diferentes Em geral faremos testes para verificar se a diferença entre estes dois parâmetros é igual a zero H0 µ1 µ2 0 H0 µ1 µ2 vs Ha µ1 µ2 0 Ha µ1 µ2 ou Ha µ1 µ2 0 Ha µ1 µ2 ou Ha µ1 µ2 0 Ha µ1 µ2 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 5 Testes de hipótese para a diferença de médias de duas populações σ 2 conhecido Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 6 Distribuição amostral da diferença Considere duas populações Y1 e Y2 com médias μ1 e μ2 e desviospadrão σ1 e σ2 ou seja Y1 Nμ1 σ1² e Y2 Nμ2 σ2² A nova variável Yd Y1 Y2 também possui distribuição normal com EY1 Y2 μ1 μ2 VY1 Y2 VY1 VY2 σ1²n1 σ2²n2 ou seja a distribuição amostral da diferença de médias é Yd Y1 Y2 N μ1 μ2 σ1²n1 σ2²n2 Condições para o teste Quando temos os seguintes requisitos Ambas amostras são AAS Ambas amostras são independentes Ambas populações tem distribuição normal ou n1 30 e n2 30 Podemos usar o Teorema do Limite Central para afirmar que a diferença entre as duas médias segue uma distribuição normal e a estatística de teste é dada por z y1 y2 μ1 μ2 σ1²n1 σ2²n2 y1 y2 σ1²n1 σ2²n2 Etapas do teste Procedimentos gerais 1 Definir a hipótese nula H0 e a alternativa Ha 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste z y1 y2 σ1²n1 σ2²n2 5 Determinar a região crítica região de rejeição com base no nível de significância α 6 Conclusão do teste Exercício tempos de entrega Uma transportadora de mercadorias tem duas possibili dades de trajeto para realizar entregas O gerente de lo gística desconfia não haver diferença significativa entre o tempo de cada trajeto Foram selecionadas aleatoriamente 45 entregas realiza das no primeiro trajeto resultando em uma média amos tral de 57 minutos No segundo trajeto foram seleciona das aleatoriamente 30 entregas e o tempo médio foi de 54 minutos O desviopadrão populacional do primeiro trajeto é de σ1 8 minutos e o do segundo trajeto é de σ2 6 minu tos Teste a hipótese de que não existe diferença signifi cativa entre o tempo médio dos dois trajetos ao nível de 1 de significância Figura 1 Foto de Norma Mortenson no Pexels Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 10 Solução 1 Hipóteses H0 μ₁ μ₂ vs Ha μ₁ μ₂ teste bilateral 2 Estatística de teste z y₁ y₂ σ²₁ n₁ σ²₂ n₂ 57 54 8²45 6²30 1853 3 Nível de significância α 001 RC z 2576 ou z 2576 4 Conclusão do teste z RC portanto não rejeita H0 pvalor 2 PZ 1853 0064 não existem evidências para rejeitar a hipótese de que os tempos dos trajetos sejam iguais Testes de hipótese para a diferença de médias de duas populações σ 2 desconhecido Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 12 Suposições sobre as variâncias Quando não conhecemos σ 2 usamos a estimativa amostral s2 Nesse caso já vimos que usamos a distribuição t no lugar da distribuição z No entanto quando temos duas amostras devem ser considerados dois casos distintos Variâncias iguais quando é razoável supor que as variâncias populacionais são iguais ou seja σ 2 1 σ 2 2 Variâncias diferentes quando não se pode fazer nenhuma suposição sobre a igualdade das variâncias populacionais ou seja σ 2 1 σ 2 2 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 13 Estatística do teste para o caso de variâncias iguais σ²₁ σ²₂ Neste caso calculamos a média ponderada das variâncias amostrais s²₁ e s²₂ para obter uma estimativa da variância populacional comum s² n₁ 1 s²₁ n₂ 1 s²₂ n₁ n₂ 2 A estatística de teste fica t y₁ y₂ μ₁ μ₂ s² n₁ s² n₂ y₁ y₂ s² n₁ s² n₂ tᵥ em que ν n₁ n₂ 2 são os graus de liberdade Etapas do teste Procedimentos gerais 1 Definir a hipótese nula H0 e a alternativa Ha 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste t y₁ y₂ s²₁n₁ s²₂n₂ y₁ y₂ s² 1n₁ 1n₂ em que s² é a variância combinada das amostras 5 Determinar a região crítica região de rejeição com base no nível de significância α Obs use ν n₁ n₂ 2 6 Conclusão do teste Exercício rendimento das turmas Em uma avaliação de estatística foi selecionada uma amostra de 12 alunos da turma A resultando em uma média de 79 com desviopadrão 06 Na turma B foram selecionados 15 alunos os quais tiraram nota média 67 com desviopadrão 08 As notas possuem distribuição normal e assumese que σ 2 1 σ 2 2 Teste a hipótese de que a turma A tem média maior do que a turma B com um nível de significância de 1 Figura 3 Foto de Kaboompicscom do Pexels Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 16 Solução 1 Hipóteses H₀ μ₁ μ₂ vs Hₐ μ₁ μ₂ μ₁ μ₂ 0 unilateral à direita 2 Variância combinada ŝ² n₁ 1 s₁² n₂ 1 s₂² n₁ n₂ 2 12 1 06² 15 1 08² 12 15 2 0517 3 Estatística de teste t ȳ₁ ȳ₂ ŝ² 1n₁ 1n₂ 79 67 0517 112 115 4309 4 Nível de significância α 001 RC t 2485 Solução 4 Conclusão do teste t RC portanto rejeita H0 pvalor PT 4309 00001 y1 79 y2 67 00 05 10 15 20 6 7 8 Y Densidade t 4309 t001 2485 00 01 02 03 04 50 25 00 25 50 t Densidade Figura 4 Distribuição amostral das médias e região de rejeição da hipótese nula Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 18 Estatística do teste para o caso de variâncias diferentes σ₁² σ₂² Neste caso ainda usamos as variâncias amostrais s₁² e s₂² para determinar o erropadrão da diferença entre as duas médias A estatística de teste fica t ȳ₁ ȳ₂ μ₁ μ₂ s₁² n₁ s₂² n₂ ȳ₁ ȳ₂ s₁² n₁ s₂² n₂ tᵥ Porém como as variâncias são diferentes os graus de liberdade devem ser ajustados ν w₁ w₂² w₁² n₁ 1 w₂² n₂ 1 em que w₁ s₁² n₁ e w₂ s₂² n₂ Etapas para o teste Procedimentos gerais 1 Definir a hipótese nula H₀ e a alternativa Hₐ 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste t ȳ₁ ȳ₂ s₁² n₁ s₂² n₂ tᵥ 5 Determinar a região crítica região de rejeição com base no nível de significância α Obs o valor de graus de liberdade ν deve ser calculado conforme equação anterior 6 Conclusão do teste Exemplo tempo de uma tarefa doméstica Uma pesquisa avaliou a eficácia de dois tipos de treinamento com a finalidade de reduzir o tempo médio de determinada tarefa doméstica Foram selecionadas duas amostras aleatórias de populações com distribuição Normal onde assumese que σ 2 1 σ 2 2 Os dados da pesquisa estão no quadro abaixo Teste a hipótese de que o tempo médio para a realização da tarefa é igual para os dois treinamentos ao nível de 5 de significância Treinamento 1 n1 15 y1 242 min s1 316 min Treinamento 2 n2 10 y2 239 min s2 447 min Figura 5 Foto de cottonbro no Pexels Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 21 Solução 1 Hipóteses H0 μ1 μ2 vs Ha μ1 μ2 teste bilateral 2 Estatística de teste t ȳ1 ȳ2 s1²n1 s2²n2 242 239 316²15 447²10 0184 3 Nível de significância α 005 4 Graus de liberdade w1 s1²n1 316²15 0666 e w2 s2²n2 447²10 1998 ν w1 w2² w1²n1 1 w2²n2 1 0666 1998² 0666²15 1 1998²10 1 14933 Solução 3 Nível de significância α 005 RC t 2132 ou t 2132 4 Conclusão do teste t RC portanto não rejeita H0 pvalor 2 PT 0184 0856 y1 242 y2 239 00 01 02 03 04 05 18 21 24 27 30 Y Densidade t 0184 t0025 2132 t0025 2132 00 01 02 03 04 25 00 25 t Densidade Figura 6 Distribuição amostral das médias e região de rejeição da hipótese nula Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 23 Testes de hipótese para a diferença de médias de duas populações σ desconhecido e amostras emparelhadas Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 24 Amostras emparelhadas Fazemos testes de comparação de médias para dados emparelhados quando os resultados das duas amostras são relacionados de acordo com algum critério Para cada par Y1i Y2i o valor da primeira amostra deve estar claramente associado ao valor da segunda amostra estudos do tipo antes e depois Este teste verifica se o processo ao qual os indivíduos em estudo foram submetidos produziu alguma alteração Exemplos Influência de uma nova dieta sobre os mesmos indivíduos Influência de uma campanha publicitária sobre a intenção de compra do consumidor Influência de hábitos de saúde acompanhando pares de gêmeos Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 25 Distribuição amostral da diferença Ao invés de analisarmos cada grupo separadamente observamos somente a diferença Di entre as duas amostras Y1i e Y2i Di Y1i Y2i e calculamos a média destas diferenças D 1n i1 to n Di que terá distribuição D NμD σD²n O parâmetro μD é estimado pela média amostral D e como usualmente não temos informações sobre σD² estimamos seu valor por sD² Média e variância Além da média das diferenças d 1n i1 to n di precisamos calcular também a variância das diferenças entre os pares dada por sD² 1n1 i1 to n di d² 1n1 i1 to n di² n d² i y1 y2 d 1 y11 y21 d1 y11 y21 2 y12 y22 d2 y12 y22 3 y13 y23 d3 y13 y23 4 y14 y24 d4 y14 y24 5 y15 y25 d5 y15 y25 6 y16 y26 d6 y16 y26 7 y17 y27 d7 y17 y27 8 y18 y28 d8 y18 y28 9 y19 y29 d9 y19 y29 n y1n y2n dn y1n y2n Estatística do teste Uma vez que a diferença média é calculada com base nas diferenças entre amostras emparelhadas isto é σ 2 é desconhecido e que os valores de Di geralmente tem distribuição normal usamos a distribuição t com estatística de teste dada por t d µd sdn d sdn tν em que ν n 1 com n sendo o número de pares observados µd é a média das diferenças na população normalmente µd 0 Observação para Ha Normalmente H0 µd 0 e µd 0 significa que houve aumento depois µd 0 significa que houve diminuição depois Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 28 Etapas do teste Procedimentos gerais 1 Definir a hipótese nula H0 e a alternativa Ha 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste t d µd sdn 5 Determinar a região crítica região de rejeição com base no nível de significância α Obs ν n 1 sendo n o número de pares observados 6 Conclusão do teste Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 29 Exemplo manutenção preventiva Em uma fábrica sete máquinas foram selecionadas aleatoriamente a fim de determinar o efeito da manutenção preventiva na produção Inicialmente as máquinas trabalharam por um período na forma habitual e depois trabalham o mesmo período recebendo manutenções preventivas O total de trabalho produzido antes e depois da adoção das manutenções está na tabela ao lado Ao nível de 5 podemos concluir que o trabalho médio produzido é maior depois da adoção das manutenções preventivas i Antes Depois Diferença 1 1210 1250 040 2 1230 1600 370 3 1110 1290 180 4 1280 1400 120 5 1410 1290 120 6 840 1250 410 7 1330 1350 020 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 30 Solução 1 Hipóteses H0 µd 0 vs Ha µd 0 unilateral à esquerda 2 Estatística de teste t d µd sdn 1457 0 1913 7 2015 3 Nível de significância α 005 RC t 1943 4 Conclusão do teste t RC portanto rejeita H0 pvalor PT 2015 0045 existem evidências de que o tempo médio de funcionamento das máquinas é maior quando recebem manutenções preventivas t 2015 t005 1943 00 01 02 03 04 50 25 00 25 50 t Densidade Figura 7 Resultado do teste de hipótese Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 31 Teste de hipótese para a diferença de proporção de duas populações Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 32 Hipóteses Se a amostra for suficientemente grande sabemos pelo Teorema do Limite Central que a distribuição de probabilidade da proporção amostral tem um comportamento aproximada mente Normal Na comparação de duas proporções po pulacionais p1 e p2 usaremos como es timador a diferença entre as respectivas proporções amostrais ˆp1 e ˆp2 Supondo que duas amostras foram retira das de duas populações independentes te remos duas proporções amostrais indepen dentes e a diferença entre elas também terá distribuição aproximadamente Normal Assim o interesse será em testar H0 p1 p2 0 H0 p1 p2 vs Ha p1 p2 0 Ha p1 p2 ou Ha p1 p2 0 Ha p1 p2 ou Ha p1 p2 0 Ha p1 p2 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 33 Distribuição amostral Desse modo o estimador a ser utilizado será p1 p2 cuja distribuição será aproximada pela Normal com parâmetros Ep1 p2 p1 p2 Vp1 p2 Vp1 Vp1 p1 1 p1n1 p2 1 p2n2 ou seja p1 p2 aprox Np1 p2 p1 1 p1n1 p2 1 p2n2 Teste de hipótese para a proporção de duas populações Se a hipótese nula for verdadeira as proporções populacionais são iguais Denotando seu valor comum por p temos p1 p2 p Podemos obter um estimador para p através da ponderação dos estimadores p1 e p2 obtendo a proporção combinada p y1 y2 n1 n2 em que y1 e y2 são os números de sucessos em cada amostra Substituindo os valores de p1 e p2 na expressão da Vp1 p2 temos que a estatística de teste para a diferença de duas proporções é z p1 p2 sqrtp 1 p 1n1 1n2 aprox N01 Etapas do teste Procedimentos gerais 1 Definir a hipótese nula H0 e a alternativa Ha 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste z p1 p2 sqrtp 1 p 1n1 1n2 onde p é calculado pela equação apresentada anteriormente 5 Determinar a região crítica região de rejeição com base no nível de significância α 6 Conclusão do teste Exercício celular no trânsito Em um estudo com 2870 motoristas 1210 afirmaram ter o hábito de mexer no celular com o carro em movimento Depois de sancionada uma multa foi realizado outro estudo com 2200 motoristas dos quais 725 afirmaram ter ainda o hábito Usando um nível de significância de 10 é possível verificar a alegação de que a proporção de motoristas com hábito de mexer no celular no trânsito diminuiu significativamente após a criação da multa Figura 8 Foto de Roman Pohorecki no Pexels Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 37 Solução 1 Hipóteses H0 p1 p2 VS Ha p1 p2 unilateral à direita 2 Proporções p1 y1n1 12102870 0422 e p2 y2n2 7252200 033 p y1 y2n1 n2 1210 7252870 2200 0382 Estatística de teste z p1 p2 p1 p 1n1 1n2 0422 033 03821 0382 12870 12200 6682 Solução 3 Nível de significância α 01 RC z 1282 4 Conclusão do teste z RC portanto rejeita H0 pvalor PZ 6682 0 existem evidências de que a criação da multa teve efeito z 6682 z01 1282 00 01 02 03 04 8 4 0 4 8 z Densidade Figura 9 Resultado do teste de hipótese Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 39 Teste de hipótese para a razão de variâncias de duas populações Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 40 Ideia geral Considerando duas populações Y1 e Y2 com médias µ1 e µ2 e variâncias σ 2 1 e σ 2 2 ou seja Y1 Nµ1 σ 2 1 e Y2 Nµ2 σ 2 2 Já vimos que a distribuição amostral da razão de duas variâncias amostrais s2 1 e s2 2 possui distribuição F com n1 1 graus de liberdade no numerador e n2 1 graus de liberdade no denominador Intuitivamente Se a razão das duas variâncias for próxima de 1 então elas são aproximadamente iguais Em um teste de hipótese para a igualdade de variâncias entre duas populações verificase então se a razão das variâncias está ou não próxima de 1 Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 41 Condições para o teste Quando temos os seguintes requisitos Temos uma AAS As duas populações são independentes As duas populações têm cada uma distribuição Normal essa é uma exigência estrita Sendo assim usamos a estatística de teste F s2 1 s2 2 Fν1ν2 em que ν1 n1 1 graus de liberdade no numerador e ν2 n2 1 graus de liberdade no denominador Importante s2 1 deve ser sempre a maior das duas variâncias amostrais Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 42 Etapas do teste Procedimentos gerais para um teste de hipótese para a diferença de duas variâncias 1 Definir a hipótese nula H0 e a alternativa Ha 2 Definir o nível de significância α 3 Definir o tipo de teste com base na hipótese alternativa 4 Calcular a estatística de teste F s2 1 s2 2 5 Determinar a região crítica região de rejeição com base no nível de significância α 6 Conclusão do teste Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 43 Exemplo variação em moedas de quarto de dólar Nos EUA as moedas de quarto de dólar sofreram alterações no peso depois de 1964 Uma amostra de 40 moedas fabricadas antes de 1964 resultou em um desviopadrão de 0087 g Uma amostra de 40 moedas fabricadas depois de 1964 resultou em um desviopadrão de 006194 g Ao se projetar uma máquina de vendas com moedas devese considerar os desviospadrão antes e depois de 1964 Use o nível de significância de 5 para testar a afirmativa de que os pesos de quarto de dólar antes e depois de 1964 são provenientes de populações com o mesmo desviopadrão Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 44 Solução 1 Hipóteses H0 σ 2 1 σ 2 2 vs Ha σ 2 1 σ 2 2 bilateral 2 Estatística de teste F s2 1 s2 2 00872 0061942 00076 00038 1973 3 Nível de significância α 005 RC F 0529 ou F 1891 4 Conclusão do teste F RC portanto rejeita H0 pvalor 2 PF 1973 2 0018 0036 existem evidências de que a variação dos pesos de quarto de dólar feitos depois de 1964 é significativamente diferente da variação entre os quartos de dólar feitos antes de 1964 f 1973 f0975 0529 f0025 1891 00 05 10 0 1 2 F Densidade Figura 10 Resultado do teste de hipótese Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 45 Estrutura da unidade Fundamentos de testes de hipóteses Testes para uma população Testes para duas populações Testes de hipótese para a diferença de média de duas populações σ 2 conhecido Testes de hipótese para a diferença de média de duas populações σ 2 desconhecido Variâncias iguais σ 2 1 σ 2 2 Variâncias diferentes σ 2 1 σ 2 2 Testes de hipótese para a diferença de média de duas populações σ 2 desconhecido e amostras emparelhadas Teste de hipótese para a diferença de proporção de duas populações Teste de hipótese para a razão de variâncias de duas populações Testes de aderência e de associação Prof Paulo Justiniano Ribeiro Junior Testes de hipótese para médias proporções e variâncias 46 1 Calcule a partir da distribuição normal padronizada as seguintes probabilidades a PZ 115 b PZ 196 c PZ 196 d PZ 015 e P110 Z 196 f P196 Z 196 2 Encontre os valores de Zc sendo Z N0 1 tais que a PZ Zc 0975 b PZ Zc 0025 c PZ Zc 0975 d P180 Z Zc 07620 3 Considerando que os pesos de coelhos Norfolk X ao abate aos 90 dias possui média μ 260 kg e variância σ2 004 kg2 Assumindo que os pesos seguem uma distribuição normal calcule as seguintes probabilidades a PX 280 b PX 230 c P250 X 260 d Determine os limites das classes de peso considerando os seguintes critérios E os 10 mais leves D os 20 mais pesados imediatamente acima da classe mais leve C os 40 que são imediatamente mais pesados acima dessa classe B os 20 imediatamente mais pesados que os da classe C e A os 10 mais pesados de todos Observe a figura a seguir image with normal distribution curve 4 Suponha que X VA discreta represente o número de animais doentes de uma determinada raça Sabese que esta doença é controlada geneticamente e que ataca 14 da raça Numa amostra de n 50 animais utilizando a distribuição binomial exata e a aproximação normal determinar a A probabilidade de haver na amostra menos de 10 animais doentes b A probabilidade de haver no máximo 6 animais doentes 5 Numa lâmina verificouse que existiam em média 8 bactériascm2 A lâmina foi subdividida em 300 quadrados de 1 cm2 Em quantos destes quadrados você espera encontrar no máximo 3 bactéria Qual é a probabilidade de se encontrar mais de 6 bactérias por centímetro quadrado Usar a aproximação normal e comparar os resultados com os valores exatos das probabilidades obtidas pela distribuição Poisson Questão 1 Considere os dois boxplots a seguir que apresentam informações sobre a perda de peso em gramas de um grupo de voluntários que participou de um teste de uma dieta Os voluntários foram divididos aleatoriamente em dois grupos sendo que o grupo 1 realizou um tipo de dieta e o grupo 2 realizou outro tipo de dieta boxplot image A partir das informações dos boxplots complete a tabela a seguir Qual das duas dietas parece ser mais eficiente Mínimo Primeiro Quartil Mediana Terceiro Quartil Máximo Dieta 1 Dieta 2 Questão 2 Classifique os casos a seguir como exemplos de amostragem probabilística ou nãoprobabilística I Para estimar o efeito do consumo de bebidas alcóolicas sobre o desempenho acadêmico um professor entrevistou 30 de seus alunos da universidade II Em uma pesquisa de opinião sobre o funcionamento do sistema público de saúde de um município a prefeitura aplicou questionários para 500 famílias selecionadas aleatoriamente III Para estudar a qualidade do sistema de saúde dos municípios brasileiros uma equipe de pesquisadores sorteou 224 municípios a partir de três grupos municípios com menos de 100 mil habitantes municípios entre 500 mil e 100 mil habitantes e municípios com mais de 500 mil habitantes BOX PLOT Uma maneira simples rápida e poderosa de representar seus dados 2 Box Plot Sumário Como representar esses dados 3 O que é 4 Box plot 5 Representação 6 Métrica fundamental Quartis 7 Calculando os quartis 8 Montando o Box Plot 11 Qual a vantagem 12 O que o Boxplot não mostra 13 Outliers 14 Como decidir quando um dado será um outlier 16 Resumindo 17 Exercitando 18 Resolução 19 Representando os 4 conjuntos 23 Box Plot no Excel 24 Correlação utilizando box plot 27 ANOVA auxiliado pelo BoxPlot 29 Exemplo prático 1 31 Exemplo prático 2 32 Exercitando 33 3 Box Plot Como representar esses dados 17 31 12 5 17 22 29 6 31 31 17 33 5 25 20 33 13 13 18 26 29 12 34 22 32 8 27 28 29 6 35 7 32 6 19 15 24 16 21 14 19 19 30 11 5 10 31 23 DotPlot HistoGrama BOX PLOT 4 Box Plot O que é Representação gráfica de uma variável numérica utilizando quartis Recurso muito útil para realizar comparações de dados principalmente a variação destes Útil para evidenciar correlação entre variáveis Permite representar dados sem que estes obedeçam a determinada distribuição específica Também conhecido como diagrama de caixa diagrama de extremos e quartis Box Plot Box plot 6 Box Plot Representação Whisker Fio de bigode Whisker Fio de bigode CAIXA Limite Superior 3º quartil Mediana 1º quartil Limite Inferior 7 Box Plot Métrica fundamental Quartis Os quartis Q1 Q2 Q3 dividem uma distribuição de dados em 4 partes iguais EXemPlo Observe a distribuição abaixo que representa o número de funcionários alocados em cada andar de um prédio comercial Andar nº funcionários 1º 42 2º 19 3º 44 4º 53 5º 28 6º 19 7º 22 8º 23 9º 39 10º 35 11º 39 8 Box Plot Calculando os quartis 1º Passo Ordenar os dados 2º Passo LoCaliZar a mediana 19 19 22 23 28 35 39 39 42 44 53 19 19 22 23 28 35 39 39 42 44 53 MEDIANA 50 50 9 Box Plot Calculando os quartis 3º Passo CalCUlar o Primeiro e terCeiro QUartis 19 19 22 23 28 35 39 39 42 44 53 19 19 22 23 28 35 39 39 42 44 53 MEDIANA 2º quartil 1º quartil 3º quartil 14 25 14 25 14 25 14 25 10 Box Plot Calculando os quartis 19 19 22 23 28 35 39 39 42 44 53 19 19 22 23 28 35 39 39 42 44 53 19 19 22 23 28 35 39 39 42 44 53 Q2 ou mediana Q1 Q3 14 25 14 25 24 50 34 75 34 75 24 50 11 Box Plot Montando o Box Plot 19 19 22 23 28 35 39 39 42 44 53 1º quartil 22 2º quartil 35 3º quartil 42 mínimo 19 máximo 53 12 Box Plot Qual a vantagem Fácil compreensão Simples Entendimento da dispersão 13 Box Plot O que o Boxplot não mostra É possível saber qual a média de altura do time A NÃO É possível saber qual a média de altura do time B NÃO É possível saber quantos jogadores tem o time A NÃO É possível saber quantos jogadores tem o time B NÃO BoXPlot não mostra Média dos dados Quantidade de dados 14 Box Plot Outliers Um empresa de logística monitora o tempo que os entregadores levam para realizar uma rota entre duas cidades próximas Os dados coletados durante um mês estão representados pelo box plot ao lado Outlier Valor atípicoponto fora da curva 15 Box Plot Outliers Observemos os dados Semana 1ª 2ª 3ª 4ª 45 57 48 51 55 52 50 55 49 39 55 42 42 42 55 111 44 44 Obs tempo em segundos Outlier 16 Box Plot Como decidir quando um dado será um outlier Calculemos Q3 15 Q3 Q1 Q3 15 Q3 Q1 5500 15 1150 7225 Q1 15 Q3 Q1 4350 15 1150 2625 Calculemos Q1 15 Q3 Q1 Q3 Q1 5500 4350 1150 39 42 42 42 44 44 45 48 49 50 51 52 55 55 55 55 57 111 Q1 4350 Q2 ou mediana 4950 Q3 5500 Portanto Outliers sãO tOdOs Os valOres abaixO de 2625 e acima de 7225 17 Box Plot Resumindo Limite Superior mín max dados Q3 15 Q3 Q1 3º quartil Mediana 1º quartil Limite Inferior máx min dados Q1 15 Q3 Q1 18 Box Plot Exercitando Considere os quatro conjuntos de dados mostrados ao lado Represente esses conjuntos utilizandose box plots A B C D 1 3 1 1 1 4 4 2 1 5 6 3 2 5 10 4 4 6 12 5 5 7 14 6 6 8 14 7 7 10 14 8 10 12 15 9 11 12 16 10 13 15 16 11 14 21 12 14 22 13 15 27 13 16 30 13 17 30 30 18 30 20 25 19 Box Plot Resolução A 1 1 1 2 4 5 6 7 10 11 13 14 14 15 16 17 18 20 25 Q1 4 Q2 11 Q3 16 Há Presença de OUtliers VERIFICAR QUal o tamanHo dos WHisKers Q3 15 Q3 Q1 16 15 16 4 34 Q1 15 Q3 Q1 4 15 16 4 14 Outiliers são dados que estão fora desse intervalo POrtaNtO NãO HÁ Outliers Limite Superior mín max dados Q3 15 Q3 Q1 Limite Superior min 25 34 25 Limite Inferior máx min dados Q1 15 Q3 Q1 Limite Inferior máx 1 14 1 20 Box Plot Resolução B 3 4 5 5 6 7 8 10 12 12 15 Q1 5 Q2 7 Q3 12 Há Presença de OUtliers VERIFICAR QUal o tamanHo dos WHisKers Q3 15 Q3 Q1 12 15 12 5 225 Q1 15 Q3 Q1 5 15 12 5 55 Outiliers são dados que estão fora desse intervalo POrtaNtO NãO HÁ Outliers Limite Superior mín max dados Q3 15 Q3 Q1 Limite Superior min 15 225 15 Limite Inferior máx min dados Q1 15 Q3 Q1 Limite Inferior máx 3 55 3 21 Box Plot Resolução C 1 4 6 10 12 14 14 14 15 16 16 21 22 27 30 30 30 Q1 11 Q2 15 Q3 245 Há Presença de OUtliers VERIFICAR QUal o tamanHo dos WHisKers Q3 15 Q3 Q1 245 15 245 11 4475 Q1 15 Q3 Q1 11 15 245 11 925 Outiliers são dados que estão fora desse intervalo POrtaNtO NãO HÁ Outliers Limite Superior mín max dados Q3 15 Q3 Q1 Limite Superior min 30 4475 30 Limite Inferior máx min dados Q1 15 Q3 Q1 Limite Inferior máx 1 925 1 22 Box Plot Resolução D 1 2 3 4 5 6 7 8 9 10 11 12 13 13 13 30 Q1 425 Q2 850 Q3 1275 Há Presença de OUtliers VERIFICAR QUal o tamanHo dos WHisKers Q3 15 Q3 Q1 1275 15 1275 425 255 Q1 15 Q3 Q1 425 15 1275 425 85 Outiliers são dados que estão fora desse intervalo POrtaNtO Há Outliers Limite Superior mín max dados Q3 15 Q3 Q1 Limite Superior min 13 255 13 Limite Inferior máx min dados Q1 15 Q3 Q1 Limite Inferior máx 1 85 1 23 Box Plot Representando os 4 conjuntos 24 Box Plot Box Plot no Excel O Microsoft Excel traz em seu pacote de recursos a opção para construir um gráfico box plot No caso ele é denominado Caixa Estreita 25 Box Plot Box Plot no Excel RealiZando o eXemPlo dos QUatro ConJUntos no EXCel 1 Selecione o conjunto de dados 2 Inserir Gráficos Caixa Estreia 26 Box Plot Box Plot no Excel É possível alterar o que é mostrado no box plot Clique sobre alguma caixa e as opções serão mostradas ao lado Por exemplo por padrão o Excel mostra através de um símbolo x a média dos dados 27 Box Plot Correlação utilizando box plot Correlação é a interdependência entre duas variáveis Exemplo Uma empresa que produz canecas plásticas estava enfrentando problemas com tempos excessivos de setup Como a variedade de modelos era elevada o setup é considerado crítico para a produção Os responsáveis por um projeto de melhoria estavam desconfiados que havia diferentes nos tempos de setup entre os três turnos Buscando verificar se havia correlação entre o tempo de setup e o turno de trabalho foram coletados dados conformes mostrado ao lado 1º turno 2º turno 3º turno 20 24 29 19 23 24 21 28 26 21 22 28 22 24 27 18 24 27 20 23 25 20 21 29 19 25 25 19 23 26 23 26 28 21 27 26 19 22 28 20 22 27 22 25 25 18 26 30 28 Box Plot Correlação utilizando box plot Como tradUZir esses dados de maneira a evidenCiar se eXiste Correlação BOXPLOT 29 Box Plot ANOVA auxiliado pelo BoxPlot ANOVA Análise de Variação Análise para comparar as médias de mais de duas populações Exemplo Um médico deseja comparar os efeitos de três diferentes remédios na recuperação de pacientes idosos que sofreram derrame devido a um ataque do coração de média intensidade Um total de 18 pacientes foi selecionado procurando manter constantes parâmetros como idade condição física motivação etc Esses pacientes foram divididos aleatoriamente em três grupos e após um período de seis meses eles foram avaliados por um especialista que não tinha conhecimento a que grupo pertencia cada paciente Remédio A Remédio B Remédio C 80 56 97 73 72 90 79 61 75 88 64 87 68 80 88 75 74 83 30 Box Plot ANOVA auxiliado pelo BoxPlot Com o auxílio de um soft ware estatístico sua análise fica fácil e rápida e o Boxplot é utilizado para auxiliar a análise conforme vemos Análise de variância Fonte GL SQ Aj QM Aj Valor F ValorP C6 2 10641 53206 878 0003 Erro 15 9090 6060 Total 17 19731 31 Box Plot Exemplo prático 1 Um pesquisador realizou um experimento para comparar três tipos de fertilizantes O intuito era descobrir qual deles contribuia mais para o crescimento de mudas de cana de açúcar Cada fertilizante foi aplicado em dez mudas Após duas semanas anotouse o comprimento de cada muda As condições ambientais temperatura luminosidade umidade etc foram mantidas idênticas O resultado do experimento é mostrado no boxplot abaixo Observandose o gráfico é possível ver de maneira clara a comparação entre os três fertilizantes Claramente o fertilizante 3 foi aquele que provocou os maiores resultados de crescimento Podemos notar um outlier para esse fertilizante No caso uma das mudas apresentou um comportamento anormal Este ponto deve ser investigado o que de fato aconteceu Provavelmente essa medida será excluída 32 Box Plot Exemplo prático 2 Uma grande rede de shoppings com cinco unidades localizadas em regiões distintas da cidade de São Paulo monitora a quantidade diária de pessoas que frequentam o shopping Os dados comparativos das cinco unidades são mostrados abaixo para o mês de agosto 33 Box Plot Exercitando Os números abaixo representam a idade dos funcionários de determinada empresa Qual o Boxplot que representa corretamente esses valores 21 23 23 26 28 29 30 30 31 33 36 38 39 40 45 a b c 34 Box Plot Exercitando Considerando os dados mostrados abaixo qual o Boxplot que representa corretamente esses valores 0 5 6 7 8 10 12 12 15 16 22 43 43 a b c Instituto de Ciências Matemáticas e de Computação ICMC Oilson A Gonzatto Junior 20 de dezembro de 2023 INTRODUÇÃO À TEORIA DAS PROBABILIDADES 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A 1 A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Agenda A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL 2 O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O que abordaremos na atividade Nessa atividade final vocês serão apresentados pelo menos par cialmente à perspectiva Estatística sobre uma técnica simples de análise de dados que também é muito utilizada na Matemática e na Computação Essa técnica busca estudar a evidência de uma relação linear sistemática entre duas variáveis Veremos que com um modelo construído e bem ajustado além de fazermos predições de novas observações estatisticamente vali damos a forma e quantificamos a força da associação entre duas variáveis 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 3 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Contextualização A Regressão Linear Simples é um método que estuda e sumariza relações entre duas variáveis No recorte da nossa atividade duas variáveis quantitativas Uma das variáveis denotada por X é dita ser a variável pre ditora explicativa ou ainda variável independente A outra variável denotada por Y é conhecida como variável resposta ou variável dependente Observação O termo simples nos diz que o estudo é realizado sobre apenas uma variável preditora Na situação em que mais do que uma variável preditora é estudada utilizamos o termo múltipla 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 3 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Contextualização Lembremse que no início do semestre conversamos sobre experi mentos determinísticos e aleatórios Suponham que os resultados desses experimentos cheguem até nós como pares YX Esses resultados podem dar forma a dois tipos de relação deter minística e estatística respectivamente Nos concentraremos nesta última 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 3 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Contextualização Tenham em mente que Relação Determinística A equação que relaciona Y e X descreve exatamente o com portamento de uma com a variação da outra Relação Estatística A equação que relaciona Y e X não relaciona valores de X a valores exatos de Y ITEM 1 Forneçam três exemplos práticos de cada relação 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 4 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Gráfico de Dispersão Considere 10 registros do par de variáveis XY em que Valor do seguro do automóvel em reais Y e Valor do automóvel em milhares de reais X 62 2032 64 1936 67 2272 68 2512 69 2592 72 2496 72 2704 73 2640 72 2896 76 3328 Observe o gráfico de dispersão para essas duas variáveis 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 4 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Gráfico de Dispersão 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 5 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Poderíamos nos antecipar afirmando que quanto maior for o valor do veículo maior será o valor do seguro O gráfico de dispersão embasa essa suposição O gráfico exibe uma tendência é fato e ele também exibe uma dispersão o que nos dá a percepção de que o valor do seguro não será determinado exatamente pelo valor do veículo Lembremse estamos lidando com uma relação estatística e não determinística 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos 5 Contextualização O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação É razoável pensarmos que o aumento no valor do seguro é direta mente proporcional ao aumento do valor do veículo Se isso for verdade essa relação poderia ser bem descrita pela equação da reta Y β0 β1X 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 6 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear ITEM 2a Qual dessas retas você acredita ser uma boa representação para a relação que vemos Y 343166 8608 X Y 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 6 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear ITEM 2b Como somos capazes de identificar a reta que melhor se ajusta aos dados que temos Y 343166 8608 X Y 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 6 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear Para isso vamos precisar definir algumas notações importantes Notações usuais Yi denota a resposta observada no iésimo registro Xi denota o preditor observado no iésimo registro ˆYi denota a resposta predita ou valor esperado para o iésimo registro Nesse contexto a reta ajustada seria denotada por ˆYi β0 β1Xi com i 1n 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 7 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Retas Propostas Vamos avaliar as retas propostas anteriormente e com propósito ilustrativo note o quinto registro que observamos X5Y5 69 2592 343166 8608 X 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y Y Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 7 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Retas Propostas Se utilizássemos ambas as retas para prever o valor de Y5 ob teríamos como resultados ˆY5 25082 e ˆY5 24288 343166 8608 X 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y Y Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 7 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Retas Propostas Obviamente as predições não foram perfeitas existe um erro de predição associado a elas De fato erramos 838 e 1632 de acordo com a reta utilizada e para esse ponto especificamente 838 1632 343166 8608 X 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y Y Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 8 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Se o valor anual do seguro de um carro que vale R 6900000 fosse desconhecido por nós poderíamos utilizar uma das equações para predizer esse valor Nesse caso o tamanho do erro de predição dependeria da reta escolhida Erro de Predição Definimos como erro de predição a diferença entre o que ob servamos e o valor predito εi Yi ˆYi parai 12n 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 8 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Com esse contexto em mente podemos vislumbrar um critério apro priado para a escolha do melhor ajuste linear O Melhor Ajuste Linear Dizemos que a reta que se ajusta melhor aos dados é aquela em que os n erros de predição um para cada registro observado são tão pequenos quanto possamos ter Muito bem o critério está idealizado precisamos organizar essas ideias matematicamente 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 9 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear Uma maneira de pensar em todos os erros de predição simulta neamente é pensar na soma de todos eles particularmente o quadrado deles isto é Qβ0β1 n i1 ε2 i n i1 Yi ˆYi2 n i1 Yi β0 β1Xi2 Se a equação que desejamos ajustar é ˆYi β0 β1Xi precisamos encontrar os valores de β0 e β1 que tornam mínima a função Q Esse é o Critério de Mínimos Quadrados 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 10 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Note que se não tomarmos o quadrado dos erros de predição ao somarmos erros positivos e negativos invariavelmente a soma resultaria em zero Além disso a ideia de tomar o quadrado entre observado e es perado é bem conhecida por nós a própria variância é calculada desse modo e tem muitos pontos positivos nisso Agora que nos familiarizamos com o critério dos Mínimos Quadra dos vamos retornar às nossas retas propostas 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 11 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Escolha entre as Retas ITEM 3 À luz do que foi dito anteriormente qual dessas retas seria a melhor escolha Y 343166 8608 X Y 343166 8493 X 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 11 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Exemplo Seguros Escolha entre as Retas Vamos sistematizar nossa escolha X Y ˆY εi ε2 ˆY εi ε2 62 2032 19056 1264 159796 18343 1977 390894 64 1936 20778 1418 200956 20042 682 46457 67 2272 23360 640 40977 22590 130 1690 68 2512 24221 899 80824 23439 1681 282583 69 2592 25082 838 70253 24288 1632 266236 72 2496 27664 2704 731361 26836 1876 352076 72 2704 27664 624 38984 26836 204 4147 73 2640 28525 2125 451654 27686 1286 165306 72 2896 27664 1296 167866 26836 2124 450981 76 3328 31108 2172 471864 30234 3046 927960 SOMA 2414535 2888340 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 12 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Tendo como base o critério dos mínimos quadrados podemos con cluir que a equação que melhor se ajusta aos dados é ˆY 343166 8608X Como vimos a soma do quadrado dos erros para a reta vermelha foi igual a 2414535 enquanto para a reta verde foi 2888340 ITEM 4 Mas o que podemos dizer sobre qualquer outra reta que sequer foi considerada 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 13 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear A proposta então é avaliar dentre todas as infinitas retas possí veis aquela que minimiza a soma de erros ao quadrado Para nos poupar de contas alguém já fez esse trabalho por nós e obteve expressões fechadas para os dois parâmetros que indexam uma equação da reta o intercepto e a inclinação ou coeficiente angular 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 13 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear Considerando a função Q definida anteriormente Q n i1 Yi β0 β1Xi2 derivamos em relação aos parâmetros β0 e β1 Assim β0 Qβ0β1 2 n i1 Yi β0 β1Xi e β1 Qβ0β1 2 n i1 Yi β0 β1XiXi 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 13 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC O melhor ajuste linear Substituindo β0 e β1 por ˆβ0 e ˆβ1 para indicar valores particulares dos parâmetros que minimizam Qβ0β1 e igualando as derivadas parciais a zero obtemos 2 n i1 Yi ˆβ0 ˆβ1Xi 0 e 2 n i1 Yi ˆβ0 ˆβ1XiXi 0 Estimadores dos coeficientes Os valores ˆβ0 ˆβ1 que minimizam Qβ0β1 dentre todos os possíveis valores β0β1 são expressos por ˆβ1 n i1Xi XYi Y n i1Xi X2 e ˆβ0 Y ˆβ1X 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 14 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Observação Em muitos momentos dizemos que a equação resultante ˆYi ˆβ0 ˆβ1Xi é conhecida como reta de regressão de mínimos quadrados Notem que para estabelecer esse critério não fizemos qualquer suposição sobre nossos dados além daquela que diz que o rela cionamento entre Y e X pode ser expresso na forma de uma reta Em um contexto prático não nos preocupamos com as fórmulas que determinam ˆβ0 e ˆβ1 Eles serão calculados computacionalmente 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização 15 O Melhor Ajuste Linear A Perspectiva Estatística A VEZ DE VOCÊS ICMC Que informações extraímos do modelo Ainda que tenhamos visto como estimar os coeficientes da regres são não conversamos sobre o que podemos aprender com eles Uma das coisas que eles nos possibilitam e que já falamos breve mente é a realização de predições de respostas futuras O valor anual do seguro de carros que valem R 6900000 é dado por ˆY 343166 8593 69 249783 O valor anual do seguro de carros que valem R 6000000 é dado por ˆY 343166 8593 60 172442 Com a introdução de um pouco da perspectiva Estatística conse guiremos extrair outras informações 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 16 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística Do ponto de vista estatístico entendemos que a reta de regressão representa o valor médio da variável aleatória Y X x isto é Y condicionada a um nível específico x da variável preditora X Nesse sentido modelamos µYx EY X x β0 β1x e entendemos a variável aleatória como Y x β0 β1x ε Vamos entender isso com mais atenção 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 16 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística µY x EY x 3431663 85935 x Yi 3431663 85935 xi εi 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais x Valor anual do seguro em reais Y xi 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 16 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística Focar em um grupo muito específico de veículos uma subpopulação particularmente daqueles que valem R 7200000 ITEM 5 Certamente podem existir muitos valores de seguros associados a esse mesmo valor de veículo Mas o que o nosso modelo deveria nos dizer sobre isso Vamos ver graficamente 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 16 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais x Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 17 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Observação Notem que nesse exemplo em particular observamos medidas de erros distintas para um mesmo nível da variável preditora ITEM 6 Reflitam sobre o que chamamos de erro de predição ε Considerando as discussões que tivemos ao longo do semestre qual a nossa expectativa realista sobre ele 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 18 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística Esse entendimento implica em suposições específicas para esse modelo e decorre da introdução de um padrão de aleatoriedade sobre os erros Suposições do modelo de regressão linear simples A relação descrita entre Y e X é linear nos coeficientes β0 e β1 Os erros de predição εi são independentes entre si Os erros de predição εi em cada valor da variável preditora xi são normalmente distribuídos Os erros de predição εi em cada valor da variável preditora xi apresentam média zero e a mesma variância denotada por σ2 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 18 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC A Perspectiva Estatística 1000 2000 3000 4000 65 70 75 Valor do veículo em milhares de reais x Valor anual do seguro em reais Y 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 19 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Observação A introdução desse padrão de aleatoriedade tem consequência di reta sobre a capacidade do modelo e traz uma percepção muito interessante sobre como interpretamos os coeficientes β0 e β1 ITEM 7 Considerando tudo o que viemos discutindo ao longo do semestre enumerem algumas consequências diretas da suposição ε Normal0σ2 sobre algumas quantidades importantes no nosso modelo Por exemplo o que se pode dizer sobre Y x qual seria sua média e variância sua distribuição E também o que sabemos ˆβ0 e ˆβ1 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 19 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Observação Essas questões permitem fazer inferência diretamente sobre a res posta e também sobre efeito quantificado da variável preditora Tenham em mente que β1 a inclinação da reta de regressão quantifica quão rápido o valor médio da variável resposta cresce ou decresce ˆβ1 o estimador de β1 carrega a noção de incerteza decor rente do processo aleatório Utilizamos ˆβ1 para avaliar se a associação de Y e X é es tatisticamente significativa Fazemos isso com base em uma medida de incerteza conhecida como erropadrão que é ob tido no processo de estimação 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear 19 A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Observação Chamamos de erropadrão o desviopadrão da distribuição amos tral do nosso estimador Para nos situar no contexto do que vimos em aula lembrem que se uma variável aleatória qualquer X tem EX µ e Var X σ2 então a distribuição do estimador de µ média amostral X n i1 Xin tem EX µ e Var X σ2n 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística 20 Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exemplo Seguros Estimativa dos coeficientes A saída dos softwares também costumam apresentar outros resul tados muito interessantes particularmente retornam os intervalos de confiança já calculados para os coeficientes estimados Vamos visualizar as saidas para o nosso exemplo Intervalo de Confiança 95 Estimativa Erropadrão Estatística t Pr t Limite Inferior Limite Superior Intercepto 343166 92967 369 0006 557549 128784 Inclinação 8593 1335 644 1e3 5514 11673 Para o propósito desta atividade nossa atenção se voltará somente às colunas Estimativa ErroPadrão e Intervalo de Confiança 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística 21 Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Interpretação Um intervalo de confiança é um intervalo cujos limites aleatórios são construídos de modo a garantir com um nível arbitrário de confiança que o valor desconhecido do parâmetro seja coberto Uma vez que o intervalo para β1 contém apenas valores estrita mente positivos 5514 11673 entendemos que o valor do auto móvel e o do seguro são direta e sistematicamente associados Nesse contexto inferimos que o valor do seguro aumenta em torno de R 8593 para cada aumento de R 100000 no valor do auto móvel variando entre R 5514 e R 11673 com 95 de confiança 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística 22 Estimativa dos Coeficientes Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Observação Antes de interpretarmos o modelo ajustado devemos nos atentar com algumas questões importantes Lembremse que a suposição de que ε Normal0σ2 levou a uma série de implicações Para que possamos fazer uso das vantagens decorrentes dessa suposição isto é interpretar a reta de regressão estatisticamente precisamos avaliar se as suposições que fizemos se verificam Nesse sentido utilizamos uma série de ferramentas que em con junto dão indicativos sobre a qualidade e validade do modelo quando confrontado com as suposições feitas antes do ajuste 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes 23 Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Diagnóstico do Modelo Abordaremos nessa atividade apenas algumas ferramentas gráfi cas para a avaliação do modelo mas é muito importante ressaltar que utilizar apenas elas não é uma estratégia interessante Em outros cursos vocês poderão ter contato com algumas ferra mentas numéricas com embasamento estatístico para discriminar o comportamento esperado de um comportamento inadequado 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes 24 Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Diagnóstico do Modelo Resíduos vs Observações Estimativa e Preditora Nesses gráficos de dispersão nós especulamos sobre o comporta mento dos resíduos de acordo com o índice de observação de acordo com os valores estimados da variável resposta e de acordo com os valores da variável preditora ITEM 8 Tendo em mente que os resíduos são nossas estimativas dos erros de predição ε isto é ˆεi Yi ˆYi para i 12n O que esperamos e o que não esperamos observar em cada um desses gráficos 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes 25 Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exemplo Seguros Resíduos vs Observações Estimativa e Preditora σ σ 2 σ 2 σ 200 0 200 1 2 3 4 5 6 7 8 9 10 Observação Resíduo simples 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes 26 Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Diagnóstico do Modelo Gráfico QuantilQuantil Esse é um gráfico que compara a distribuição Normal teórica com as estimativas que fizemos do erro aleatório do modelo os resíduos Para isso plotamos no eixo horizontal os quantis teóricos da distri buição normal e no eixo vertical os quantis observados resíduos Estabelecemos uma reta de referência e como resultado espera mos que os resíduos se concentrem em torno dela Desvios muito expressivos nos dão indícios de nãonormalidade Essa ferramenta também traz várias outras informações interes santes mas não serão abordadas nessa atividade 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes 27 Diagnóstico do Modelo Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exemplo Seguros Gráfico QuantilQuantil 200 100 0 100 200 300 1 0 1 Quantis Teóricos Quantis Amostrais 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo 28 Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exposição do Modelo Ajustado Uma vez que o modelo apresente bons indicativos de sua quali dade podemos expor e interpretar a relação entre Y e X Nesse contexto considerando o nosso exemplo dizemos que o com portamento médio do valor anual do seguro em reais pode ser ex presso como uma função do valor do veículo em milhares de reais e essa função é dada por ˆµYx 343166 8594x para qualquer x 62 76 Dados os nossos resultados dizemos também que a associação entre as duas variáveis é linear direta e estatisticamente signifi cativa Agora podemos determinar intervalos probabilísticos para a média em um ponto x x dada por EYx μYx β0 β1x Para isso nos baseamos na distribuição de μYx e com isso obtemos um intervalo com 1001α de confiança para μYx μYx t1α2 n2 1n x x²Sxx σ erropadrão de μYx sendo Sxx ni1xix² e t1α2n2 o ponto em que acumulamos uma probabilidade igual a 1α2 na distribuição tstudent com n2 graus de liberdade 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo 28 Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exposição do Modelo Ajustado ITEM 9 Quais as fontes de incerteza sobre a construção do intervalo para EY x µYx 2000 2500 3000 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y ICµ95 EYx µ Analogamente podemos determinar intervalos probabilísticos para a resposta Y Yx μYx ε β0 β1x ε Com isso obtemos um intervalo com 1001α de confiança para Y Yx com base na distribuição de Ŷ cujos limites são dados por Ŷ tα2n2 1 1n x x²Sxx σ erropadrão de Ŷ 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL O que abordaremos Contextualização O Melhor Ajuste Linear A Perspectiva Estatística Estimativa dos Coeficientes Diagnóstico do Modelo 28 Exposição do Modelo Ajustado A VEZ DE VOCÊS ICMC Exposição do Modelo Ajustado ITEM 10 Quais as fontes de incerteza sobre a construção do intervalo para Y x 1500 2000 2500 3000 3500 64 68 72 76 Valor do veículo em milhares de reais X Valor anual do seguro em reais Y ICY95 EYx µ 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL 29 A VEZ DE VOCÊS ICMC Agenda A ATIVIDADE FINAL A VEZ DE VOCÊS 31 Introdução à Teoria das Probabilidades Gonzatto Jr O A A ATIVIDADE FINAL 30 A VEZ DE VOCÊS ICMC A vez de vocês Agora que já encostamos nossos pés na superfície da análise de dados utilizem um código de exemplo cliquem duas vezes no pe queno ícone do bloco a seguir para baixálo e façam sua própria análise sobre um conjunto de dados à escolha de vocês Lembrem de escolher um conjunto de dados cuja forma da asso ciação seja contemplada pelo modelo que acabamos de estudar não sabotem seus modelos eles são apenas jovens camponeses no universo da análise de dados Interpretem os resultados gerais as estimativas e as respectivas incertezas associadas os resíduos o potencial de predições etc Além das respostas dos itens anteriores enviem um arquivo pdf com um relatório final de suas respectivas análises A vez de vocês Código de exemplo No text to extract Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Introdução à Estatística e conceitos de amostragem Fernando de Pol Mayer Laboratório de Estatística e Geoinformação LEG Departamento de Estatística DEST Universidade Federal do Paraná UFPR Este conteúdo está disponível por meio da Licença Creative Commons 40 AtribuiçãoNãoComercialPartilhaIgual 1 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 2 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 3 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 4 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências O que é Estatística Etimologia da palavra do latim status estado Origem coleta e apresentação de dados de interesse do Estado Informações sobre populações e riquezas Fins militares e tributários Conjunto de métodos especialmente apropriado ao tratamento de dados numéricos afetados por uma multiplicidade de causas Estes métodos fazem uso da Matemática e especialmente do cálculo de probabilidades 5 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Um pouco de história Confúcio relatou levantamentos feitos na China há mais de 2000 anos AC No Egito antigo os faraós fizeram uso sistemático de informações de caráter estatístico O mesmo aconteceu com antigas civilizações como Maias Astecas e Incas Imperadores faziam levantamentos de suas propriedades conquistadas imperadores romanos Carlos Magno Guilherme o Conquistador para se inteirar de suas riquezas Essa prática tem sido continuada nos tempos modernos por meio de recenseamentos como aqueles feitos pelo IBGE no Brasil 6 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências O que é Estatística Como Ciência Permite organizar descrever analisar e interpretar dados Utilizase da Teoria da Probabilidade para modelar a aleatoriedade e a incerteza associada aos fenômenos naturais econômicos sociais Auxilia a tirar conclusões sobre as características das fontes de onde os dados foram retirados para melhor compreendelos Indispensável para a tomada de decisões sob condições de incerteza sob o menor risco possível 7 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências O que é Estatística Como tecnologia Permite avaliar as incertezas e os seus efeitos no planejamento e interpretação de experiências e de observações de fenômenos da natureza e da sociedade Permite analisar e tirar conclusões de uma grande quantidade de informações A estatística tem sido utilizada para Otimização de recursos econômicos Aumento da qualidade e produtividade Análise de decisões judiciais Previsões climáticas econômicas 8 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 9 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Por que estudar Estatística Impossibilidade de estudar a população Aumento da capacidade de registro de dados que precisam ser compreendidos Expansão do conhecimento científico das áreas de pesquisa e dos instrumentos de investigação Necessidade de compreensão dos fenômenos naturais e sociais de otimização de recursos planejamento de atividades redução de riscos de previsão de resultados para correta tomada de decisão 10 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Por que estudar Estatística A Estatística pode ser pensada como a ciência de aprendizagem a partir dos dados Vivemos na era da informação e a Estatística possui as ferramentas necessárias para melhor compreender a informação 11 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 12 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Estatística e o uso de computadores No passado tratar um grande conjunto de dados era uma tarefa trabalhosa e cansativa Com o avanço da tecnologia os cálculos se tornaram rápidos e mecânicos possibilitando a analise de um volume grande de informações em pouco tempo No entanto é necessário conhecer e compreender os conceitos básicos de Estatística para que possamos utilizala de forma adequada 13 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 14 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Organograma da Estatística 15 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Áreas da Estatística Estatística Descritiva etapa inicial de qualquer análise É um conjunto de técnicas destinadas a descrever e resumir os dados que auxiliam a descrever características de interesse Conheça seus dados Probabilidade é a ferramenta matemática utilizada pela Estatística para se estudar a incerteza oriunda de fenômenos aleatórios Qual a incerteza associada aos dados Estatística Inferencial é um conjunto de técnicas que possibilita tirar conclusões sobre uma população a partir de um subconjunto de valores amostra Quais conclusões podemos tirar a partir destes dados 16 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 17 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Conceitos de amostragem Quando fazemos uma pesquisa ou utilizamos algum mecanismo para obter informações um dos objetivos principais é coletar dados de uma pequena parte de um grande grupo e aprender então alguma coisa sobre esse grupo maior 18 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências População e amostra 19 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Conceito de amostragem Astros do rock morrem jovens Todos os astros do rock morrem jovens 20 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências População e amostra População conjunto de indivíduos objetos ou produtos que contém a característica que temos interesse Exemplo Característica altura dos estudantes da UFPR População todos os estudantes da UFPR Observação A população depende do interesse da pesquisa Amostra subconjunto da população em geral com dimensão bem menor que também possui a característica de interesse Exemplo Característica altura dos estudantes da UFPR Amostra 100 estudantes selecionados ao acaso 21 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Parâmetro e Estatística População censo parâmetro Uma medida numérica que descreve alguma característica da população usualmente representada por letras gregas θ µ σ Exemplo média populacional µ População amostra estatística Uma medida numérica que descreve alguma característica da amostra usualmente denotada pela letra grega do respectivo parâmetro com um acento circunflexo ˆθ ˆµ ˆσ ou por letras do alfabeto comum x s Exemplo média amostral x 22 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Exemplo População todos os alunos de uma única turma Característica idade dos alunos Censo 22 21 24 23 20 22 21 25 24 24 23 19 25 24 23 23 20 21 23 20 23 22 23 23 25 25 20 23 24 20 Média populacional µ 22 5 Parâmetro Amostra de 5 alunos 25 24 23 23 25 Média amostral x 24 Estatística 23 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Por que fazer amostragem Parâmetros populacionais desconhecidos Impossibilidade de realização de um censo Mais barato mais rápido Atenção Não existe nenhuma técnica estatística capaz de salvar uma amostra mal coletada Em geral uma amostra deve ser um subconjunto representativo da população aleatória de alguma forma Existem diversas maneiras para se retirar uma amostra de uma população Teoria da Amostragem 24 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Por que fazer amostragem Parâmetros populacionais desconhecidos Impossibilidade de realização de um censo Mais barato mais rápido Atenção Não existe nenhuma técnica estatística capaz de salvar uma amostra mal coletada Em geral uma amostra deve ser um subconjunto representativo da população aleatória de alguma forma Existem diversas maneiras para se retirar uma amostra de uma população Teoria da Amostragem 24 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Por que fazer amostragem Parâmetros populacionais desconhecidos Impossibilidade de realização de um censo Mais barato mais rápido Atenção Não existe nenhuma técnica estatística capaz de salvar uma amostra mal coletada Em geral uma amostra deve ser um subconjunto representativo da população aleatória de alguma forma Existem diversas maneiras para se retirar uma amostra de uma população Teoria da Amostragem 24 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 25 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Tipos de amostragem A Levantamentos amostrais A amostra é obtida a partir de uma população bem definida bem meio de processos bem definidos pelo pesquisador Subdividese em dois grupos Probabilísticos Cada elemento da população possui a mesma probabilidade se ser selecionado para compor a amostra mecanismos aleatórios de seleção Não probabilísticos A seleção da amostra depende do julgamento do pesquisador Há uma escolha deliberada dos elementos para compor a amostra mecanismos não aleatórios de seleção 26 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Tipos de amostragem B Planejamento de Experimentos Aplica um tratamento e passa a observar seu efeito entre o objeto de estudo Requer portanto a interferência do pesquisador sobre a população bem como o controle de fatores externos com o intuito de medir o efeito desejado Exemplos Estudo do efeito de um novo medicamento experimentos agronômicos 27 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Tipos de amostragem C Levantamentos Observacionais Observa e mede características mas não modifica o objeto de estudo Os dados são coletados sem que o pesquisador tenha controle sobre as informações obtidas Exemplo Verificar o valor das vendas de uma empresa em um certo período não há como selecionar as vendas 28 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 29 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos de amostragem Para a escolha do método devese levar em conta Tipo de pesquisa Acessibilidade e disponibilidade dos elementos da população Disponibilidade de tempo Recursos financeiros e humanos 30 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos não probabilísticos Exemplos Amostragem por conveniência elementos selecionados por serem imediatamente disponíveis Exemplo Uma repórter entrevistando pessoas na rua Amostragem por julgamento uma pessoa experiente no assunto escolhe intencionalmente os elementos a serem amostrados Exemplo Novo produto testado entre funcionários Atenção Na amostragem não probabilística os elementos da população não tem a mesma probabilidade de serem selecionados portanto não há garantias da representatividade da população 31 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos não probabilísticos Exemplos Amostragem por conveniência elementos selecionados por serem imediatamente disponíveis Exemplo Uma repórter entrevistando pessoas na rua Amostragem por julgamento uma pessoa experiente no assunto escolhe intencionalmente os elementos a serem amostrados Exemplo Novo produto testado entre funcionários Atenção Na amostragem não probabilística os elementos da população não tem a mesma probabilidade de serem selecionados portanto não há garantias da representatividade da população 31 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem Aleatória Simples AAS Todas as possíveis amostras de tamanho n tem a mesma chance de serem escolhidas de uma população com N elementos Exemplos Selecionar 10 estudantes de uma sala por sorteio e perguntar a idade Gerar uma amostra aleatória de 1000 números de matrícula de estudantes da UFPR no computador e perguntar a idade 32 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem Aleatória Simples AAS É o método mais simples para selecionarmos uma amostra probabilística de uma população Serve de base para outros procedimentos amostrais planejamento de experimentos e estudos observacionais Utilizandose um procedimento aleatório sorteiase um elemento da população Repetese o processo até que sejam sorteadas as n unidades na amostra 33 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem Aleatória Simples AAS Com reposição o mesmo elemento da população pode ser amostrado mais de uma vez A probabilidade de seleção não se altera Sem reposição cada elemento da população é amostrado uma única vez A probabilidade de seleção se altera Atenção Na prática em populações infinitas muito grandes a reposição ou não é irrelevante 34 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem Aleatória Simples AAS Do ponto de vista da quantidade de informação contida na amostra a amostragem sem reposição é mais adequada No entanto a amostragem com reposição conduz a um tratamento teórico mais simples pois ele implica que tenhamos independência entre as unidades selecionadas Portanto na maioria dos casos quando nos referenciarmos a uma AAS estamos nos referenciando a uma amostragem aleatória simples com reposição 35 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem sistemática Utilizada quando os elementos estão dispostos de maneira organizada ex fila lista e aleatória Escolhe um ponto de partida e selecionase cada késimo elemento da população ex o 50 elemento Exemplo Em uma fábrica de lâmpadas a cada 100 peças produzidas uma é retirada para teste 36 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem estratificada Indicada quando a população está dividida em grupos distintos denominados estratos Dentro de cada estrato é realizada uma amostragem aleatória simples O tamanho da amostra pode ou não ser proporcional ao tamanho do estrato Exemplos Uma comunidade universitária com 8000 indivíduos está estratificada da seguinte forma Estrato População Amostra Professores 800 80 Funcionários 1200 120 Estudantes 6000 600 37 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Métodos probabilísticos Amostragem por conglomerado A área da população é dividida em seções ou conglomerados ex bairros quarteirões Os conglomerados são selecionados aleatoriamente Dentro de um conglomerado todos os elementos são amostrados Exemplo 38 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 39 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Erros amostrais Erros amostrais Diferença entre o resultado da amostra e o verdadeiro valor da população Ocorre pois as amostras são aleatórias Erros não amostrais Ocorre quando os dados amostrais são coletados incorretamente devido a uma amostra tendenciosa instrumento de medida defeituoso anotações erradas Atenção Os erros não amostrais não devem existir ou devem ser minimizados 40 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Erros amostrais Erros amostrais Diferença entre o resultado da amostra e o verdadeiro valor da população Ocorre pois as amostras são aleatórias Erros não amostrais Ocorre quando os dados amostrais são coletados incorretamente devido a uma amostra tendenciosa instrumento de medida defeituoso anotações erradas Atenção Os erros não amostrais não devem existir ou devem ser minimizados 40 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Erros amostrais Não importa quão bem a amostra seja coletada os erros amostrais sempre irão ocorrer Cada vez que uma amostra aleatória for retirada de uma população um resultado diferente será observado Selecione uma amostra de tamanho n 5 das idades dos estudantes de uma sala 22 21 24 23 20 22 21 25 24 24 23 19 25 24 23 23 20 21 23 20 23 22 23 23 25 25 20 23 24 20 Repita 5 vezes tente ser o mais aleatório possível calcule a média de cada amostra e compare com a média populacional µ 22 5 41 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Um exemplo Amostra x ϵ x µ 23 23 23 24 23 232 07 24 22 20 20 20 212 13 21 20 19 22 25 214 11 22 23 25 20 22 224 01 21 20 22 24 20 214 11 O que isso nos diz a respeito das médias amostrais O que isso nos diz a respeito da variabilidade das médias amostrais E se fizemos uma média das médias de todas as amostras Voltaremos aqui mais tarde 42 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Plano de aula 1 Estatística O que é Estatística Por que estudar Estatística Estatística e o uso de computadores Áreas da Estatística 2 Conceitos de amostragem Tipos de Amostragem Métodos de amostragem Não probabilísticos Probabilísticos 3 Erros amostrais 4 Referências 43 44 Introdução à Estatística e conceitos de amostragem Estatística O que é Por que Computadores Áreas Amostragem Tipos Métodos Não probabi lísticos Probabilísticos Erros amostrais Referências Referências Bussab WO Morettin PA Estatística básica São Paulo Saraiva 2002 526 p Cap 1 e 10 Magalhães MN Lima ACP Noções de Probabilidade e Estatística São Paulo EDUSP 2008 Cap 1 44 44 Estatística Aplicada Larson Farber 5 Distribuição normal de probabilidade Introdução às distribuições normais Seção 51 Propriedades de uma distribuição normal Suas média mediana e moda são iguais Tem forma de sino e é simétrica em torno da média A área total sob a curva é de 100 x À medida que a curva se afasta da média aproximase cada vez mais do eixo x mas nunca o toca Os pontos em que a curvatura muda são chamados pontos de inflexão O gráfico curvase para baixo entre os pontos de inflexão e para cima à esquerda e à direita deles x Ponto de inflexão Ponto de inflexão Propriedades de uma distribuição normal Médias e desvios padrão 20 12 15 18 10 11 13 14 16 17 19 21 22 9 12 15 18 10 11 13 14 16 17 19 20 Curvas com médias diferentes e desvios padrão diferentes Curvas com médias diferentes e o mesmo desvio padrão Regra Empírica Cerca de 95 da área está a dois desvios padrão Cerca de 997 da área está a três desvios padrão da média Cerca de 68 da área está a um desvio padrão da média 68 42 45 48 51 39 36 33 Como determinar intervalos Segundo o manual de instruções o tempo de montagem de certo produto é normalmente distribuído com uma média de 42 horas e um desvio padrão de 03 hora Determine o intervalo no qual caem 95 dos tempos de montagem x 42 2 03 36 e 42 2 03 48 95 dos tempos de montagem estarão entre 36 e 48 horas 95 dos dados caem a até dois desvios padrão da média 42 horas 03 hora A distribuição normal padrão Seção 52 O escore padrão O escore padrão ou escore z representa o número de desvios padrão que separa uma variável aleatória x da média As pontuações em um concurso público estão normalmente distribuídas com média de 152 e desvio padrão de 7 Determine o escore z para um candidato com pontuação de a 161 b 148 c 152 a b c valor média desvio padrão 129 057 A distribuição normal padrão A distribuição normal padrão tem média 0 e desvio padrão de 1 Se usar escores z você pode transformar qualquer distribuição normal numa distribuição normal padrão 4 3 2 1 0 1 2 3 4 z Áreas acumuladas A área acumulada está próxima de 1 para escores z próximos de 349 0 1 2 3 3 2 1 z A área total sob a curva é 1 A área acumulada está próxima de 0 para escores z próximos de 349 A área acumulada para z 0 é 05000 Determine a área acumulada para um escore z de 125 0 1 2 3 3 2 1 z Áreas acumuladas 01056 Percorra a coluna z à esquerda até z 125 depois siga na transversal até a coluna sob o número 005 O valor da célula 01056 corresponde à área acumulada A probabilidade de que z esteja no máximo até 125 é de 01056 125 01056 P Como determinar probabilidades Para determinar a probabilidade de z ser inferior a um valor dado encontre a área acumulada na tabela de acordo com o correspondente escore z 0 1 2 3 3 21 z Percorra a coluna z até 14 depois vá na transversal até 005 A área acumulada é 00735 Determine Pz 145 Pz 145 00735 Como determinar probabilidades Para determinar a probabilidade de z ser superior a um valor dado subtraia de 1 a área acumulada que você encontrar na tabela 0 1 2 3 3 2 1 z Pz 124 08925 Determine Pz 124 A área acumulada área à esquerda é de 01075 Logo a área à direita é 1 01075 08925 01075 08925 Como determinar probabilidades Para determinar a probabilidade de z estar entre dois valores dados determine as áreas acumuladas para cada valor e depois subtraia a menor da maior Determine P125 z 117 1 Pz 117 08790 2 Pz 125 01056 3 P125 z 117 08790 01056 07734 0 1 2 3 3 2 1 z 0 1 2 3 1 3 2 z Resumo 321 0 1 2 3 z Para determinar a probabilidade de z ser superior a dado valor subtraia de 1 a área acumulada que você encontrou na tabela 3 2 1 0 1 2 3 z Para determinar a probabilidade de z estar entre dois valores dados determine as áreas acumuladas para cada valor e depois subtraia a menor da maior Para determinar a probabilidade de z ser inferior a dado valor encontre a área acumulada correspondente Distribuições normais determinando probabilidades Seção 53 Probabilidades e distribuições normais 115 100 Se uma variável aleatória x é normalmente distribuída a probabilidade de que ela esteja dentro de dado intervalo é igual à área sob a curva nesse intervalo Pontuações de QI são normalmente distribuídas com uma média de 100 e um desvio padrão de 15 Determine a probabilidade de que uma pessoa selecionada aleatoriamente tenha uma pontuação de QI inferior a 115 Para determinar a área nesse intervalo primeiro encontre o escore z correspondente a x 115 0 1 Probabilidades e distribuições normais Determine Pz 1 100 115 Distribuição normal padrão Determine Px 115 Distribuição normal Pz 1 08413 logo Px 115 08413 É O MESMO É O MESMO As contas mensais de serviços públicos em determinada cidade são normalmente distribuídas com média de US 100 e desvio padrão de US 12 Uma conta é escolhida aleatoriamente Determine a probabilidade de ela estar entre US 80 e US 115 P80 x 115 Distribuição normal P167 z 125 08944 00475 08469 A probabilidade de uma conta estar entre US 80 e US 115 é 08469 Aplicação 167 125 Distribuições normais obtendo valores Seção 54 z Da área ao escore z Localize 09803 na tabela Leia os valores no início da linha e no alto da coluna correspondentes O escore z será 206 Determine o escore z correspondente a uma área acumulada de 09803 z 206 corresponde mais ou menos ao 98º percentil 4 3 2 1 0 1 2 3 4 09803 Determinando escores z a partir de áreas Determine o escore z correspondente ao 90º percentil z 0 090 Na tabela o valor mais próximo é 08997 O início da linha é 12 e o topo da coluna é 008 Isso corresponde a z 128 Um escore z de 128 corresponde ao 90º percentil Determine um escore z que tenha uma área de 060 à sua direita 060 040 0 z z Com 060 à direita a área acumulada é de 040 O valor mais próximo é de 04013 O início da linha é 02 e o topo da coluna é 005 Logo o escore z é 025 Um escore z de 025 tem uma área de 060 à sua direita Isso corresponde ao 40º percentil Determinando escores z a partir de áreas Determine um escore z tal que 45 da área sob a curva fique entre z e z 0 z z A área restante nas pontas é de 055 Metade dessa área está em cada ponta logo 0552 0275 é a área acumulada para o valor negativo de z e 0275 045 0725 é a área acumulada para o z positivo O valor mais próximo na tabela é de 02743 e assim o escore z é 060 O escore z positivo é 060 045 0275 0275 Determinando escores z a partir de áreas De escores z a escores brutos As pontuações em um concurso público estão normalmente distribuídas com média de 152 e desvio padrão de 7 Determine a pontuação de um candidato com escore z a 233 b 175 c 0 a x 152 2337 16831 b x 152 1757 13975 c x 152 07 152 Para determinar um valor x a partir de um escore z Determinando percentis ou valores de corte As contas mensais de serviços públicos em determinada cidade são normalmente distribuídas com média de US 100 e desvio padrão de US 12 Qual é o valor mais baixo entre os 10 mais altos 10 90 Determine na tabela a área acumulada mais próxima a 09000 o 90º percentil A área 08997 corresponde a um escore z de 128 x 100 12812 11536 US 11536 é o valor mais baixo entre os 10 mais altos z Para determinar o valor x correspondente use Seção 55 Teorema do Limite Central Amostra Distribuições amostrais Uma distribuição amostral é a distribuição de probabilidade de uma estatística da amostra formada quando amostras de tamanho n são colhidas várias vezes de uma população Se a estatística da amostra for a sua média simples a distribuição será uma distribuição amostral de médias das amostras Amostra A distribuição amostral consiste nos valores das médias da amostra Amostra Amostra Amostra Amostra O Teorema do Limite Central Se uma amostra n 30 for tirada de uma população com qualquer tipo de distribuição média μ e desvio padrão σ as médias da amostra terão distribuição normal Média μx μ Desvio padrão σx σn a distribuição das médias da amostra de tamanho n será normal com média e desvio padrão O Teorema do Limite Central x Se uma amostra de qualquer tamanho for tirada de uma população com distribuição normal média e desvio padrão Aplicação A distribuição de médias da amostra de tamanho 60 será normal A média de altura dos homens norteamericanos de 20 a 29 anos é de polegadas Amostras aleatórias de 60 homens são selecionadas Determine a média e o desvio padrão erro padrão da distribuição amostral média Desvio padrão 692 692 e 29 692 29 692 29 03744 Interpretando o Teorema do Limite Central A média de altura dos homens norteamericanos de 20 a 29 anos é 692 polegadas Se uma amostra aleatória de 60 homens nessa faixa etária for selecionada qual é a probabilidade de que a média de altura na amostra seja superior a 70 polegadas Admita um desvio padrão de 29 polegadas Determine o escore z para uma média amostral de 70 Desvio padrão Média Uma vez que n 30 a distribuição amostral de será normal 692 29 03744 692 03744 214 214 z Há uma probabilidade de 00162 de que uma amostra com 60 homens tenha uma média de altura superior a 70 polegadas Interpretando o Teorema do Limite Central 09838 00162 P P 214 Aplicando o Teorema do Limite Central Em certa semana o preço médio da gasolina na Califórnia foi de US 1164 por galão Qual é a probabilidade de que o preço médio em uma amostra de 38 postos esteja entre US 1169 e US 1179 Admita que o desvio padrão seja de US 0049 Desvio padrão Média Calcule o escore z para valores amostrais de US 1169 e US 1179 Uma vez que n 30 a distribuição amostral de será normal 1164 0049 00079 00079 00079 1169 1164 1179 1164 063 190 063 190 z Aplicando o Teorema do Limite Central P063 z 190 09713 07357 02356 A probabilidade de que a média da amostra esteja entre US 1169 e US 1179 é de 02356 Aproximações normais para as distribuições binomiais Seção 56 Características da distribuição binomial O número de tentativas independentes n é fixo Cada tentativa pode ter dois resultados sucesso ou fracasso A probabilidade de sucesso numa única tentativa é p e de fracasso é q p q 1 É possível determinar a probabilidade de exatamente x sucessos em n tentativas sendo x 0 ou 1 ou 2 n x é uma variável aleatória discreta que representa uma contagem do número de sucessos em n tentativas e Aplicação 34 dos norteamericanos têm sangue tipo A Se 500 pessoas dessa nacionalidade forem selecionadas aleatoriamente qual é a probabilidade de ao menos 300 terem sangue tipo A Com as técnicas do Capítulo 4 você poderia calcular a probabilidade de exatamente 300 exatamente 301 exatamente 500 norteamericanos terem sangue tipo A e depois somar as probabilidades Ou você pode usar as probabilidades de curva normal para aproximar as probabilidades binomiais Se np 5 e nq 5 a variável aleatória binomial x tem distribuição aproximadamente normal com μ np e σ npq Por que precisamos de np 5 e nq 5 n 5 p 025 q 075 np 125 nq 375 n 20 p 025 np 5 nq 15 n 50 p 025 np 125 nq 375 Probabilidades binomiais A distribuição binomial é discreta e pode ser representada por um histograma de probabilidade A probabilidade de que um específico valor de x ocorra é igual à área do retângulo com ponto médio x Se n 50 e p 025 determine Some as áreas dos retângulos com pontos médios em x 14 x 15 x 16 14 15 16 0111 0089 0065 0111 0089 0065 0265 P P 0265 14 15 16 Correção pela continuidade Use a aproximação normal para a binomial a fim de determinar Os valores para a variável aleatória binomial x são 14 15 e 16 025 125 e se n e 375 P Verifique que 14 15 16 Correção pela continuidade Use a aproximação normal para a binomial a fim de determinar O intervalo de valores sob a curva normal é Para garantir que as fronteiras de cada retângulo estejam incluídas no intervalo subtraia 05 das fronteiras à esquerda e some 05 às que estão à direita 025 125 375 e e P se n 135 165 Verifique que Aproximação normal para a binomial Use a aproximação normal para a binomial a fim de determinar Ajuste os pontos extremos para corrigir pela continuidade P Converta cada ponto extremo em um escore z Com as fórmulas de distribuição binomial determine a média e o desvio padrão 125 025 P se n e 025 3062 050075 135 165 125 135 3062 033 165 125 3062 131 131 033 09049 06293 02756 Aplicação Segundo um levantamento entre os usuários da Internet 75 são a favor de que o governo regulamente o lixo eletrônico Se 200 internautas forem selecionados aleatoriamente determine a probabilidade de que menos de 140 sejam a favor da regulação governamental Uma vez que np 150 5 e nq 50 5 você pode usar a distribuição normal para aproximar a probabilidade binomial μ np 200 075 150 σ npq 200 075025 61237 A frase binomial menos de 140 significa 0 1 2 3139 Use a correção pela continuidade para traduzir isso à variável contínua no intervalo 1395 Determine Px 1395 Aplicação Segundo um levantamento entre os usuários da Internet 75 são a favor de que o governo regulamente o lixo eletrônico Se 200 internautas forem selecionados aleatoriamente determine a probabilidade de que menos de 140 sejam a favor da regulação governamental Use a correção pela continuidade Px 1395 Pz 171 00436 A probabilidade de que menos de 140 sejam a favor da regulação governamental é de aproximadamente 00436 1395 61237 171 Resolução da Lista 4 Questão 1 a Probabilidades de restituição Para tipo A PTA 6 PZ 6 10 2 PZ 2 Φ2 Da tabela normal Φ2 00228 Para tipo B PTB 6 PZ 6 11 3 PZ 16667 Φ16667 Φ16667 00478 Resposta Prestituição A 00228 228 Prestituição B 00478 478 b Lucro médio Lucro médio Lucro Prob sem defeito Prejuízo Prob com defeito Para tipo A LA 1200 1 00228 2500 00228 LA 1200 09772 2500 00228 LA 117264 57 111564 um Para tipo B LB 2100 1 00478 7000 00478 LB 2100 09522 7000 00478 LB 199962 3346 166502 um c Qual tipo incentivar Como LB 166502 LA 111564 a empresa deveria incentivar as vendas dos aparelhos do tipo B Questão 2 PX 10 PZ 10 8 12247 PZ 1633 PZ 1633 1 Φ1633 Da tabela normal Φ1633 09484 PX 10 1 09484 00516 Resposta A chance é de aproximadamente 516 Questão 3 P2485 X 2515 P2485 2508 005 Z 2515 2508 005 P023 005 Z 007 005 P46 Z 14 Φ14 Φ46 Φ14 09192 Φ46 0 P 09192 0 09192 Resposta Aproximadamente 9192 das unidades estão em conformidade Questão 4 a PX 13 PX 13 PZ 13 10 2 PZ 15 1 Φ15 1 09332 00668 b P9 X 11 P9 X 11 P9 10 2 Z 11 10 2 P05 Z 05 Φ05 Φ05 06915 03085 03830 c Valor x tal que PX x 098 Da tabela normal Φz 098 z 2054 x 10 2 2054 x 10 4108 x 14108 Respostas a 00668 668 b 03830 3830 c 14108 miliamperes Questão 5 P024985 X 025015 P 024985 02505 00005 Z 025015 02505 00005 P 000065 00005 Z 000035 00005 P13 Z 07 Φ07 Φ13 02420 00968 01452 Resposta Aproximadamente 1452 dos eixos obedecem às especificações Questão 6 Observação Como temos uma amostra grande n200 e a distribuição é normal podemos usar os parâmetros amostrais como estimativas dos populacionais Cálculo da proporção de arruelas defeituosas Arruelas defeituosas são aquelas com diâmetro fora do intervalo 0496 0508 cm Pdefeituosa 1 P0496 X 0508 Calculando as probabilidades P X 0496 P Z 0496 0502 00005 P Z 0006 00005 PZ 12 P X 0508 P Z 0508 0502 00005 P Z 0006 00005 PZ 12 Como Φ12 1 e Φ12 0 temos P 0496 X 0508 Φ12 Φ12 1 0 1 Portanto Pdefeituosa 1 1 0 Resposta Aproximadamente 0 das arruelas são defeituosas Isso ocorre porque as especificações estão extremamente amplas em relação à variabilidade do processo 0006 vs σ 00005 resultando em um processo com capacidade muito alta Verificação alternativa Vamos calcular os limites em termos de desvios padrão Limite inferior 0496 0502 00005 12σ Limite superior 0508 0502 00005 12σ Na distribuição normal praticamente 100 dos dados estão dentro de 3σ 9973 e dentro de 6σ já é mais de 999999998 Portanto realmente não há arruelas defeituosas Questão 7 a PX 170000 PX 170000 P Z 170000 150000 5000 P Z 20000 5000 PZ 4 Φ4 0999968 Resposta a Aproximadamente 999968 b P140000 X 165000 P140000 X 165000 P 140000 150000 5000 Z 165000 150000 5000 P 10000 5000 Z 15000 5000 P2 Z 3 Φ3 Φ2 099865 002275 09759 Resposta b Aproximadamente 9759 c Garantia para substituição 02 Queremos encontrar x₀ tal que PX x₀ 0002 02 Da tabela normal padrão Φz 0002 z 2878 Convertendo para a escala original x₀ 150000 5000 2878 x₀ 150000 2878 5000 14390 x₀ 150000 14390 135610 km Resposta c A garantia deve ser de 135610 km para que menos de 02 dos motores sejam substituídos Verificação da resposta c PX 135610 P Z 135610 150000 5000 P Z 14390 5000 PZ 2878 0002 Portanto a garantia de 135610 km realmente resulta em aproximadamente 02 de substituições

Sua Nova Sala de Aula

Sua Nova Sala de Aula

Empresa

Contato Blog

Legal

Termos de uso Política de privacidade Política de cookies Código de honra

Baixe o app

4,8
(35.000 avaliações)
© 2026 Meu Guru® • 42.269.770/0001-84