·
Engenharia de Computação ·
Probabilidade e Estatística 1
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
58
Inferência Estatística e Intervalo de Confiança
Probabilidade e Estatística 1
UFAL
3
Exercícios de Probabilidade
Probabilidade e Estatística 1
UFAL
3
Lista de Exercícios sobre Variáveis Aleatórias Discretas
Probabilidade e Estatística 1
UFAL
20
Combinação Linear de Distribuições Normais
Probabilidade e Estatística 1
UFAL
42
Variáveis Aleatórias em Probabilidade e Estatística
Probabilidade e Estatística 1
UFAL
5
Lista de Exercícios sobre Distribuições Continuas: Normal e Exponencial
Probabilidade e Estatística 1
UFAL
60
Variáveis Aleatórias Contínuas e Distribuição Normal
Probabilidade e Estatística 1
UFAL
44
Variáveis Aleatórias e Distribuições Discretas em Probabilidade e Estatística
Probabilidade e Estatística 1
UFAL
83
Introdução à Probabilidade e seus Conceitos Básicos
Probabilidade e Estatística 1
UFAL
19
Covariância e Correlação em Probabilidade e Estatística
Probabilidade e Estatística 1
UFAL
Texto de pré-visualização
UNIVERSIDADE FEDERAL DE ALAGOAS Instituto de Computação PROBABILIDADE E ESTATÍSTICA INFERÊNCIA ESTATÍSTICA TESTES DE HIPÓTESES PROFESSOR PETRUCIO A MEDEIROS BARROS TURMA CIÊNCIA DA COMPUTAÇÃO ENG DA COMPUTAÇÃO 18042023 1 TESTES DE HIPÓTESES Tratase de uma técnica para se fazer inferência estatística A partir de um teste de hipóteses realizado com os dados amostrais pode se fazer inferências sobre a população 18042023 2 TESTES DE HIPÓTESES Principais conceitos Hipóteses Estatística Tratase de uma suposição quanto ao valor de um parâmetro populacional ou quanto à natureza da distribuição de probabilidade de uma variável populacional 18042023 3 TESTES DE HIPÓTESES É uma metodologia estatística que nos auxilia a tomar decisões sobre uma ou mais populações baseado na informação obtida da amostra Um exemplo considere que um fabricante anuncia que seu novo carro híbrido tem média de consumo de combustível de 50 milhas por galão mpg Se você suspeitar que o consumo médio não é de 50 milhas por galão como você poderia mostrar que o anúncio é falso Obviamente não pode testar todos os veículos Para testar que o consumo médio de combustível dos veículos híbridos desse tipo é μ 50 mpg retirouse uma amostra aleatória de 30 veículos e mediuse o consumo de cada um e se obteve uma média amostral de x 47 mpg e um desvio padrão de 55 mpg Isso indica que o anúncio do fabricante é falso Para decidir vamos fazer algo incomum supor que o anúncio está correto Ou seja supor que μ 50 e examinar a distribuição amostral das médias com n 30 obtida de uma população 18042023 4 Pelo teorema do limite central podemos calcular o erro padrão Sx Ssqrtn frac55sqrt30 1004 Assim com média amostral x 47 e erro padrão 1 mpg 47 é improvável está a aproximadamente 3 erros padrão da média afirmada Para confirmar calculase a probabilidade Z frac47 501004 299 consultando a tabela z a probabilidade de se obter uma média amostral de 47 ou menos é de 00013 Confirmando que é um evento incomum A suposição de que o anúncio da empresa está correto o levou a um resultado improvável Então ou tivemos uma amostra muito incomum ou o anúncio é provavelmente falso A conclusão lógica é a de que o anúncio provavelmente é falso TESTES DE HIPÓTESES 18042023 6 Regra do EVENTO RARO se sob uma dada hipótese a probabilidade de um evento particular observado for muito pequena concluímos que provavelmente a hipótese não é correta Afirmativa com relação ao parâmetro Distribuição Estatística Probabilidade Distribuições Estudadas Normal z tstudent t Quiquadrada χ2 F de FisherSnedecor TESTES DE HIPÓTESES Estabelecendo uma hipótese Uma afirmação sobre um parâmetro populacional é chamada de hipótese estatística Para testar uma afirmação sobre um parâmetro populacional devemos especificar um par de hipóteses Uma que represente a afirmação e outra seu complemento Por exemplo se o valor da afirmação é em relação a k e o parâmetro populacional é σ então alguns pares possíveis de hipóteses nula e alternativa são 18042023 7 TESTES DE HIPÓTESES Declarando e construindo hipóteses 18042023 8 TESTES DE HIPÓTESES Valor Crítico Região de Rejeição Região de Não Rejeição TESTES DE HIPÓTESES Erros de Decisão Um detetive de polícia é encarregado da investigação de um crime Baseado nas evidências encontradas o detetive suspeita inicialmente do mordomo e precisa decidir então se o prende ou se o libera O mordomo pode ser culpado ou inocente Possibilidades Detetive Prende Libera Errado OK Inocente Mordomo OK Errado Culpado Decisão Rejeita 𝑯𝟎 Não Rejeita 𝑯𝟎 Erro tipo I OK 𝑯𝟎 Verdade Possibilidades OK Erro tipo II 𝑯𝟎 falso 18042023 10 IDENTIFICANDO ERROS TIPO I E TIPO II O limite aceito pelo Departamento de Agricultura dos Estados Unidos USDA para contaminação por salmonela no frango é de 20 Um inspector de qualidade de carnes informa que o frango produzido por uma empresa excede os limites estabelecidos pelo USDA Um teste de hipóteses pode determinar se a afirmação do inspector de qualidade de carnes é verdadeira H0 p 02 Ha p 02 Afirm O erro tipo I ocorre quando a proporção real de frango contaminado é menor ou igual a 02 mas rejeitase H0 Criou pânico na saúde e causou danos às vendas de produtores de frango que estavam realmente dentro dos limites do USDA O erro tipo II ocorre quando a proporção real de frango contaminado é maior que 02 mas não se rejeitou H0 Frangos contaminados vendidos ao consumidor O erro tipo II é mais grave pois pode resultar em doença ou morte TESTES DE HIPÓTESES Erros de Decisão Erro Tipo I Rejeição de uma hipótese Verdadeira Sim Este erro é chamado de erro tipo I e equivale ao nível de significância Este erro é sempre conhecido sendo em geral definido previamente pelo tomador de decisão P rejeitar H0 H0 é verdadeira 𝜶 P aceitar H0 H0 é verdadeira 1 𝜶 Hipóteses H0 0 H1 0 Mesmo sendo H0 verdadeira existe a possibilidade de se selecionar uma amostra desta população e obter uma média amostral tão alta que leve a conclusão errada de que H0 é falsa 18042023 12 Erros de Decisão Erro Tipo II Aceitação de uma hipótese Falsa Hipóteses H0 μ μ0 H1 μ μ0 Agora sendo H0 falsa existe a possibilidade de se selecionar uma amostra desta população cuja média verdadeira é μ1 μ0 e obter uma média amostral X tão pequena que leve a conclusão errada de que H0 é verdadeira Sim Este erro é chamado de erro do tipo II ou erro β P aceitar H0 H1 é verdadeira β P rejeitar H0 H1 é verdadeira 1 β poder do teste 18042023 TESTES DE HIPÓTESES Erros de Decisão Toda conclusão de um teste de hipótese está associada a um nível de significância e portanto não pode ser considerado 100 confiável Tipos de Erro Podese rejeitar uma hipótese quando ela é de fato verdadeira ou aceitar uma hipótese quando ela é de fato falsa A rejeição de uma hipótese verdadeira é chamada erro tipo I α A aceitação de uma hipótese falsa constitui um erro tipo II β O objetivo é reduzir ao mínimo as probabilidades dos dois tipos de erros Infelizmente essa é uma tarefa difícil porque para uma amostra de determinado tamanho a probabilidade de se incorrer em um erro tipo II aumenta à medida que diminui a probabilidade do erro I E viceversa A redução simultânea dos erros poderá ser alcançada pelo aumento do tamanho da amostra 18042023 14 TESTES DE HIPÓTESES Nível de significância Quando testes estatísticos são realizados normalmente a ocorrência de um evento incomum é caracterizada por uma probabilidade de 010 ou menor 005 ou menor ou 001 ou menor Pelo fato de haver variação de amostra para amostra sempre há uma possibilidade de que se rejeite uma hipótese nula quando ela é na realidade verdadeira Podese reduzir a probabilidade de isso acontecer diminuindo o nível de significância O nível de significância é a probabilidade máxima permitida de cometer um erro tipo I Ele é simbolizado por α alfa A probabilidade de um erro tipo II é simbolizada por β beta Os três níveis de significância usuais são 010 005 e 001 ou 10 5 e 1 respectivamente 18042023 15 Testes de Hipóteses Teste de Hipóteses 1 Marque o valor observado zobs tobs no gráfico 2 Concluir o teste Se o valor observado Região de Não Rejeição a decisão é não rejeitar H0 Se o valor observado Região Crítica a decisão é rejeitar H0 3 Interpretar em palavras a conclusão feita 18042023 Procedimento padrão para a realização de um Teste de Hipóteses 1 Definese as hipóteses do teste nula e alternativa 2 Fixase um nível de significância α 3 Levantase uma amostra de tamanho n e calculase uma estimativa do parâmetro 4 Calcular o valor observado zobs tobs utilizando a fórmula correspondente ao caso que está analisando 5 Desenhe o gráfico da distribuição amostral De acordo com a hipótese alternativa marque a região crítica RC do teste 6 Obtenha o valor crítico do teste zcrit tcrit de acordo com o nível descritivo do teste α e com a região crítica RC utilizando a tabela da distribuição correspondente Normal t de Student 18042023 TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ2 conhecidas 18042023 18 TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ² conhecidas Testes Bilaterais De uma população com distribuição normal com média 45 e variância 36 tirase uma amostra aleatória de tamanho 16 obtendose uma média de 43 Ao nível de significância de 10 testar as hipóteses α nível de significância 1 α nível de confiança Na tabela z completa procurar valor mais próximo de 095 164 Hipóteses H₀ μ 45 H₁ μ 45 σ² 36 x 43 n 16 TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ² conhecidas Testes Bilaterais De uma população com distribuição normal com média 45 e variância 36 tirase uma amostra aleatória de tamanho 16 obtendose uma média de 43 Ao nível de significância de 10 testar as hipóteses Zcalc x μ σ n 43 45 6 16 133 Hipóteses H₀ μ 45 H₁ μ 45 Não há indícios para Rejeitarmos H₀ A diferença existente é por conta da variação amostral dos dados Distribuição Normal Padrão Acumulada Φz PZ z z frac1sqrt2pi eu²2 du TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ² conhecidas Testes Unilateral monocaudal à esquerda Uma fábrica anuncia que o índice de nicotina dos cigarros da marca X é inferior a 26 mg por cigarro Um laboratório realiza 10 análises do índice e obtém 26 24 23 22 28 25 27 26 28 e 24 Sabese que o índice de nicotina dos cigarros da marca X se distribui normalmente com variância 536 mg² Podese aceitar a afirmação do fabricante ao nível de significância de 5 TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ² conhecidas μ 26242322282527262824 10 253 desvio padrão 536 n 10 α 5 H₀ μ 26 H₁ μ 26 RNR 164 RC 164 Zₐ𝓬𝓵 RNR Não há indícios para se rejeita H₀ ao nível de 5 e concluímos que a afirmação do fabricante é falsa TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ2 conhecidas Testes Unilateral monocaudal à direita Um fabricante de lajotas de cerâmica introduz um novo material em sua fabricação para aumentar a resistência média que é de 206 Kg A resistência das lajotas tem distribuição normal com desvio padrão de 12 Kg Retirase uma amostra de 30 lajotas obtendose 210 Kg Ao nível de significância de 10 pode o fabricante afirmar que a resistência média de suas lajotas tenha aumentado 18042023 24 TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ2 conhecidas Média 210 desvio padrão 12 n 30 α 10 18042023 25 H0 206 H1 206 𝒁𝒄𝒂𝒍𝒄 210 206 𝟏𝟐 𝟑𝟎 219 219 Distribuição Normal Padrão Acumulada Φz PZ z ᴑ²2πeu²2du TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variância σ2 desconhecida 18042023 27 TESTES DE HIPÓTESES Testes de Hipóteses para a Média com Variância Desconhecida Se a variância é desconhecida ela precisa ser estimada Supondo que nossa amostra aleatória seja representada pelo vetor de variáveis aleatórias X1Xn todas elas com densidade Normal de média µ e variância σ2 Vamos utilizar o melhor estimador que conhecemos para a variância que é a variância amostral 18042023 28 Fórmula alternativa TESTES DE HIPÓTESES Testes de Hipóteses para a Média com Variância Desconhecida Estatística de teste A distribuição t de Student e seu parâmetro tem o nome de graus de liberdade neste caso correspondendo ao total de dados menos um a notação utilizada é tn1 Devido à complexidade de sua função densidade as probabilidades são obtidas de tabelas construídas numericamente 18042023 29 TESTES DE HIPÓTESES Testes de Hipóteses para a Média com Variância Desconhecida A principal diferença entre a distribuição normal e a t de Student é que esta tem mais área nas caudas A distribuição normal apresenta valores menos precisos para as pequenas amostras A medida que a amostra n cresce a distribuição t de Student se aproxima da distribuição normal 18042023 30 TESTES DE HIPÓTESES Testes de Hipóteses para a Média com Variância Desconhecida Se o tamanho da amostra aumenta a densidade tStudent converge para a Normal padrão As tabelas construídas se limitam a valores de graus de liberdade menores ou iguais a 120 Para graus superiores a 120 as probabilidades são obtidas da tabela de distribuição Normal e representados por nas tabelas Tal fato é consequente da consistência o estimador S2 para σ2 que faz com que a distribuição T se aproxime de Z à medida que aumenta o tamanho da amostra 18042023 31 TESTES DE HIPÓTESES 18042023 32 Distribuição t de Student TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 1 Os registros dos últimos anos de um colégio atestam para os calouros admitidos uma nota média 115 teste vocacional Para testar a hipótese de que a média de uma nova turma é a mesma das turmas anteriores retirouse uma amostra de 20 notas obtendose média 118 e desvio padrão 20 Admita um nível de significância de 5 para efetuar o teste Hipóteses H0 115 H1 115 Como se trata de uma amostra pequena utilizar a distribuição t de Student com gl n1 201 19 18042023 33 TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 1 Os registros dos últimos anos de um colégio atestam para os calouros admitidos tem nota média 115 teste vocacional Para testar a hipótese de que a média de uma nova turma é a mesma das turmas anteriores retirouse uma amostra de 20 notas obtendose média 118 e desvio padrão 20 Admita um nível de significância de 5 para efetuar o teste Hipóteses H0 μ 115 H1 μ 115 tobs 118 115 20 20 0671 Na tabela t de Student para t519 tcrit 20930 Como o valor observado não está na região crítica do teste não rejeitamos H0 ou seja ao nível de 5 há indícios de que a média tenha se alterado Aceitamos H0 TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 2 Foram coletados dados na Universidade Federal em que buscou constatar se a tensão fornecida pela rede corresponderia a tensão de 127 V em tomadas da Universidade Foram analisados no total 15 tomadas as quais compuseram a amostra 125 124 125 125 125 124 123 122 123 123 123 123 124 calculando desvio padrão 099 e média 12387 Nível de confiança 95 Hipóteses H0 μ 127 H1 μ 127 tcalc tα2 Rejeitase a hipótese nula e concluise que a tensão é diferente de 127 V Na tabela t de Student para t514 tcrit 2145 18042023 36 Distribuição t de Student TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 2 Foram coletados dados na Universidade Federal em que buscou constatar se a tensão fornecida pela rede corresponderia a tensão de 127 V em tomadas da Universidade Foram analisados no total 15 tomadas as quais compuseram a amostra 125 124 125 125 125 124 123 122 123 123 123 123 124 calculando desvio padrão 099 e média 12387 Nível de confiança 95 Hipóteses H0 μ 127 H1 μ 127 tcalc tα2 Rejeitase a hipótese nula e concluise que a tensão é diferente de 127 V Na tabela t de Student para t514 tcrit 2145 TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 2 Foram coletados dados na Universidade Federal em que buscou constatar se a tensão fornecida pela rede corresponderia a tensão de 127 V em tomadas da Universidade Foram analisadas no total 15 tomadas as quais compuseram a amostra 125 124 125 125 125 125 124 123 122 123 123 123 124 124 calculando desvio padrão 099 e média 12387 Nível de confiança de 95 Hipóteses H0 µ 127 H1 µ 127 tcalc t Rejeitase a hipótese nula e concluise que a tensão é inferior a 127 V TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 3 Desejase investigar se uma certa moléstia que ataca o rim altera o consumo de oxigênio desse órgão Para indivíduos sadios admitese que esse consumo tem distribuição Normal com média 12cm3min Os valores medidos em cinco pacientes com a moléstia foram 144 129 150 137 e 135 Qual seria a conclusão ao nível de 1 de significância O teste de interesse é H0 A moléstia não altera a média de consumo renal de oxigênio H1 Indivíduos portadores da moléstia têm média alterada Hipóteses H0 12 H1 12 18042023 39 Na tabela t de Student t1 A tcrit 46041 xobs 14412915137135 5 1390 e sobs 08155 tob s 1390 12 08155 5 52099 Portanto como tobs RC decidimos pela rejeição da hipótese nula ou seja a moléstia tem influência no consumo renal médio de oxigênio ao nível de 1 18042023 41 O intervalo de confiança encontrado não inclui o valor 12 para µ que foi a hipótese nula do exemplo Dessa forma confirma se a rejeição da hipótese nula TESTES DE HIPÓTESES Pvalue valor da probabilidade ou nível descritivo do teste Um pvalue é uma medida de quanta evidência se tem contra a hipótese nula Quanto menor o pvalue mais evidência se tem O pvalue é o menor nível de significância que conduz à rejeição da hipótese nula H0 Rejeitar H0 se Pvalue α onde α é o nível de significância Aceitar H0 se Pvalue α O Pvalue normalmente são fornecidos pelos softwares estatísticos Exemplo o pvalue está entre 005 e 010 então existe uma chance de 5 a 10 de que os resultados observados não foram um reflexo de uma mudança de processo ou dos dados os resultados ocorreram por conta do acaso O valorp é que este é o menor nível de significância com que se rejeitaria a hipótese nula Um valorp pequeno significa que a probabilidade de obter um valor da estatística de teste como o observado é muito improvável levando assim à rejeição da hipótese nula Etapas para elaboração de teste de hipótese usando pvalue 1 Identificar o parâmetro de interesse e especificar as hipóteses 2 Escolher a estatística de teste e calcular tobs 3 Determinar o pvalue do teste se teste unilateral à direita pvalue P T tobs se teste unilateral à esquerda pvalue P T tobs se teste bilateral 2P T tobs se tobs for reduzido 2P T tobs se tobs for elevado 4 Tomar decisão rejeitar H0 se pvalue α nível de significância 5 Concluir Para uso do pvalue com a distribuição Z substituir tobs pelo zobs e T por Z nas fórmulas TESTES DE HIPÓTESES Pvalue valor da probabilidade ou nível descritivo do teste Toda conclusão de um teste de hipótese está associada à um nível de significância Exemplo 4 Com base em um teste z unilateral a 5 de significância pôdese concluir que a média é maior que 20 Considere à estatística z obtida igual a 25 Hipóteses H0 𝜇 20 H1 𝜇 20 18042023 45 zcrítico 1645 Para 5 rejeitase H0 ou seja pode ser considerado maior que 20 TESTES DE HIPÓTESES Pvalue valor da probabilidade ou nível descritivo do teste Toda conclusão de um teste de hipótese está associada à um nível de significância Exemplo 4 Com base em um teste z unilateral a 1 de significância pôdese concluir que a média é maior que 20 Considere à estatística z obtida igual a 25 Hipóteses H0 𝜇 20 H1 𝜇 20 18042023 46 zcrítico 233 Para 1 rejeitase H0 ou seja pode ser considerado maior que 20 Para que valores rejeitase H0 ou seja pode ser considerado maior que 20 Exemplo 4 Com base em um teste z unilateral qual seria o nível de significância para concluir que a média µ é maior que 20 Considere à estatística z obtida igual a 25 Hipóteses H0 µ 20 H1 µ 20 Na tabela Z para z 25 09938 P Z zobs H0 P Z 25 1 09938 00062 pvalue Podese aceitar H0 para qualquer nível de significância α maior que 062 uma vez que valorP PZ 25 062 TESTES DE HIPÓTESES Testet de Student para uma amostra utilizando o software R A média da altura de uma amostra foi de 165952 cm enquanto que a média de altura da população é de 160 cm A questão é a média da altura foi maior mas será que essa diferença de altura é estatisticamente significativa Um teste estatístico pretende tentar responder essa questão Rejeitar H0 ou seja existe diferença entre as alturas 18042023 48 0000543 00543 Hipóteses H0 𝝁 160 H1 𝝁 160 TESTES DE HIPÓTESES Testet de Student para uma amostra no R A média da altura de uma amostra foi de 165952 cm enquanto que a média de altura da população é de 160 cm A questão é a média da altura foi maior mas será que essa diferença de altura é estatisticamente significativa Um teste estatístico pretende tentar responder essa questão Aceitar H0 ou seja não existe diferença entre as alturas 18042023 49 008047 08047 Hipóteses H0 𝝁 160 H1 𝝁 160 TESTES DE HIPÓTESES Testet de Student para uma amostra no R A média da altura de uma amostra foi de 165952 cm enquanto que a média de altura da população é de 160 cm A questão é a média da altura foi maior mas será que essa diferença de altura é estatisticamente significativa Rejeitar H0 ou seja existe diferença entre as alturas Aceitar H0 ou seja não existe diferença entre as alturas 18042023 50 TESTES DE HIPÓTESES Testet de Student para uma amostra no R A média da altura de uma amostra foi de 165952 cm enquanto que a média de altura da população é de 160cm A questão é a média da altura foi maior mas será que essa diferença de altura é estatisticamente significativa Um teste estatístico pretende tentar responder essa questão Rejeitar H0 ou seja existe diferença entre as alturas Aceitar H0 ou seja não existe diferença entre as alturas 18042023 51 008047 08047 0000543 00543 Testes de Hipóteses Teste de Hipótese para proporção O teste para proporção é aplicado em situações nas quais desejase verificar se a proporção de algum atributo na população pode ser igual a certo valor p Estatística do teste Zcalc p p p1pn onde p xn As regras de decisão para rejeição ou não da hipótese nula para o teste sobre a proporção amostral são a mesma enunciada para o teste de hipóteses para média Testes de Hipóteses Teste de Hipótese para proporção Exemplo 6 Um candidato a deputado estadual afirma que terá 60 dos votos dos eleitores de uma cidade Um instituto de pesquisa colhe uma amostra de 300 eleitores dessa cidade encontrando 160 que votarão no candidato Esse resultado mostra que a afirmação do candidato é verdadeira ao nível de 5 Hipóteses H0 p 060 H1 p 060 p xn 160300 053 Zcalc 053 060 061 06300 Zcalc 2474 Como Zcalc RC decidimos pela rejeição da hipótese nula ou seja a afirmação do candidato é falsa a 5 de significância Testes de Hipóteses Teste de Hipótese para proporção Exemplo 7 Um centro de pesquisa declara que menos de 20 dos usuários de internet nos Estados Unidos tem rede sem fio em suas casas Em uma amostra aleatória de 100 adultos 15 deles dizem que tem rede sem fio em casa Com nível significância de 1 há evidência suficiente para apoiar a declaração do pesquisador Hipóteses H0 µ 020 H1 µ 020 p 15100 015 Zcalc 015 020 p1 pn 125 Portanto como Zcalc RNR aceitação da hipótese H0 Ao nível de 1 não é possível afirmar que a proporção de usuários seja inferior a 20 TESTES DE HIPÓTESES Inificação entre parâmetros de duas populações Suponha que temse interesse em verificar se existe ou não uma diferença significativa entre as médias populacionais μ1 e μ2 Hipóteses H0 μ1 μ2 Δ H1 μ1 μ2 Δ H1 μ1 μ2 ou Δ H1 μ1 μ2 Δ ou Δ TESTES DE HIPÓTESES Teste para comparação de duas variâncias Precisamos comparar as variâncias de duas populações ou amostras para posteriormente poder comparar no caso de dados pareados para as médias Ao realizar um teste de hipóteses para esse fim estaremos cientes que as variâncias não são homogêneas ou não são semelhantes Caso contrário admitese que elas são homogêneas ou semelhantes Estatística do teste 18042023 56 TESTES DE HIPÓTESES Teste para comparação de duas variâncias Exemplo 1 Em um estudo foram coletados dados das tensões máximas suportadas MPa em dois tipos de madeiras da região do Sudoeste do Paraná Itaúba e Cedrinho Os valores estão apresentados com objetivo de verificar se as variâncias dos dois grupos são homogêneas ou não ao nível 5 de significância Hipóteses H0 σ1² σ2² Ha σ1² σ2² Fcalc s² maior s² menor 2717 1051 Aceitase H0 ou seja as variâncias são homogêneas Distribuição F de Snedecor a 5 p005 TESTES DE HIPÓTESES Teste para comparação de duas variâncias Exemplo 1 Em um estudo foram coletados dados das tensões máximas suportadas MPa em dois tipos de madeiras da região do Sudoeste do Paraná Itaúba e Cedrinho Os valores estão apresentados com objetivo de verificar se as variâncias dos dois grupos são homogêneas ou não ao nível 5 de significância Hipóteses Usando o R 18042023 60 Como pvalue 09494 9494 maior que 5 Não rejeitase H0 As variâncias homogêneas TESTES DE HIPÓTESES Teste de Hipótese para duas médias Em várias situações científicas e práticas há interesse em comparar o desempenho de dois ou mais tratamentos como por exemplo dois processos de temperatura na produção de aço dois tipos de cimentoecola para fixar azulejos velocidade de processamento de dois sistemas operacionais entre outros Ao compararmos duas médias Teste t para dados dependentes ou pareados as medições podem ser feitas em especificamente dois momentos distintos implicando uma dependência entre os dados ou uma paridade entre eles Teste t para amostras independentes pode ser necessário comparar médias de dois grupos distintos Isso implica que o teste t para amostras independentes deve ser utilizado sendo que devese observar se as variâncias dos conjuntos são homogêneas 18042023 61 TESTES DE HIPÓTESES Para duas médias Teste t para dados pareados 18042023 62 Dados pareados ou emparelhados ou dependentes ocorrem quando os elementos de duas amostras são relacionados dois a dois de acordo com algum critério que fornece uma influência entre os vários pares e sobre os valores de cada par Média das diferenças amostras pareadas TESTES DE HIPÓTESES Teste de Hipótese para duas médias Exemplo 1 Um fabricante de tacos de golfe afirma que os golfistas podem diminuir seus placares usando os tacos de golfe recémprojetados por ele Oito jogadores de golfe são escolhidos aleatoriamente e é pedido que forneça seu mais recente placar Após usar os novos tacos por um mês é pedido novamente aos jogadores que forneçam seus placares recentes Os placares são mostrados na tabela Assumindo que os placares são distribuídos normalmente existe evidencia suficiente para apoiar a afirmação do fabricante para um nível de significância de 10 Hipóteses H0 μantigo μnovo μd 0 H1 μantigo μnovo μd 0 afirmação do fabricante d placar antigo placar novo tcalc 16250 306778 1498 Na tabela t de Student para t7 20 tcrit 1415 Como tcalc tcrit ao nível de 10 rejeitase H0 Há evidências que o placar novo seja menor que o antigo Assim a afirmação do fabricante está correta d 138 1625 TESTES DE HIPÓTESES Teste de Hipótese para duas médias Exemplo 1 Um fabricante de tacos de golfe afirma que os golfistas podem diminuir seus placares usando os tacos de golfe recémprojetados por ele Oito jogadores de golfe são escolhidos aleatoriamente e é pedido que forneça seu mais recente placar Após usar os novos tacos por um mês é pedido novamente aos jogadores que forneçam seus placares recentes Os placares são mostrados na tabela Assumindo que os placares são distribuídos normalmente existe evidencia suficiente para apoiar a afirmação do fabricante para um nível de significância de 10 Hipóteses H0 𝝁𝒂𝒏𝒕𝒊𝒈𝒐 𝝁𝒏𝒐𝒗𝒐 𝝁𝒅 0 H1 𝝁𝒂𝒏𝒕𝒊𝒈𝒐 𝝁𝒏𝒐𝒗𝒐 𝝁𝒅 0 Ao nível de 10 pvalue 008887 α 010 há evidências que o placar novo seja menor que o antigo Assim a afirmação do fabricante está correta 18042023 64 pvalue 00887 100 887 10 18042023 65 Distribuição t de Student TESTES DE HIPÓTESES Teste de Hipótese para duas médias Exemplo 2 Seja o problema de verificar se um novo algoritmo de busca em um banco de dados é mais rápido que o algoritmo atualmente usado Para fazer a comparação dos dois algoritmos planejase realizar uma amostra aleatória de dez buscas experimentais Em cada realização uma dada busca é realizada pelos dois algoritmos e o tempo de resposta é registrado para ambos os processos Considerando dez realizações existe diferença entre as velocidades de busca para os dois algoritmos Verificar a um nível de 5 de significância Hipóteses H0 μ1 μ2 μd 0 H1 μ1 μ2 μd 0 Na tabela t de Student para t005 9 2262 tcalc 34 38064 10 Conformo o resultado rejeitar H0 pois tcalc tcrit Concluímos então que há diferença na velocidade de busca dos dois algoritmos TESTES DE HIPÓTESES Teste de Hipótese para duas médias Exemplo 2 Seja o problema de verificar se um novo algoritmo de busca em um banco de dados é mais rápido que o algoritmo atualmente usado Para fazer a comparação dos dois algoritmos planejase realizar uma amostra aleatória de dez buscas experimentais Em cada realização uma dada busca é realizada pelos dois algoritmos e o tempo de resposta é registrado para ambos os processos Considerando dez realizações existe diferença entre as velocidades de busca para os dois algoritmos Verificar a um nível de 5 de significância Hipóteses H0 μ1 μ2 μ4 0 H1 μ1 μ2 μ4 0 Na t de Student para t0059 2262 tcalc 34 38064 28246 Conforme o resultado do teste percebemos que p value é menor que α Portanto há evidências amostrais suficientes para rejeitar a hipótese nula Concluímos então que há diferença na velocidade de busca dos dados dos dois algoritmos TESTES DE HIPÓTESES Teste de Hipótese para duas médias Teste para amostras independentes a Variância Populacionais conhecidas 18042023 68 TESTES DE HIPÓTESES Teste de Hipótese para duas médias Teste t para amostras independentes variância populacionais conhecidas Exemplo 1 Uma organização de educação de consumidores afirma que há uma diferença entre a média da dívida do cartão de crédito de homens e mulheres Sabese de estudos anteriores que o desvio padrão para dívida das mulheres é de U 750 e dos homens U 800 Os resultados de uma pesquisa aleatória de 200 indivíduos de cada grupo foram média da dívida das mulheres U 2290 média da dívida dos homens U 2370 Verifique se ao nível de 5 se a afirmação da organização está correta Hipóteses H0 μh μm μh μm 0 H1 μh μm μh μm 0 z x1 x2 μ1 μ2 σx1x2 zobs 2290 2370 0 7502 200 8002 200 103 Na tabela z obter zcrit para 5 196 Não Rejeitase H0 Ao nível de 5 NÃO há evidências que haja diferença entre a dívida média dos homens e a dívida média das mulheres TESTES DE HIPÓTESES Teste de Hipótese para duas médias Teste para amostras independentes b Variância populacionais desconhecidas Um teste t baseado em duas amostras é usado para testar a diferença entre duas médias populacionais μ1 e μ2 A estatística de teste padronizada é Variâncias são iguais Se as variâncias populacionais são consideradas iguais então as variâncias das duas amostras são combinadas para se calcular uma estimativa conjunta do desvio padrão s Variâncias não são iguais Se as variâncias populacionais não são iguais então o erro padrão é sx1x2 S1 2 n1 S2 2 n2 e gl menor de n1 1 e n2 1 TESTES DE HIPÓTESES Teste de Hipótese para duas médias 18042023 72 Distribuição t de Student TESTES DE HIPÓTESES Teste de Hipótese para duas médias TESTES DE HIPÓTESES Teste de Hipótese para duas médias TESTES DE HIPÓTESSES Teste de Hipótese para duas médias Teste t para amostras independentes no R Procedimento testar as variâncias das amostras se igual varequal TRUE caso contrário não usar varequal que será usado o padrão do R testet com variação de Welch Argumentos do test e no R paired False padrão dados independentes varequal FALSE ou TRUE Variâncias conflevel 095 admitido como padrão alternative twosided teste bicaudal podese escolher também greater ou less Calculando da maneira tradicional a 5 de significância encontrase tcal 35277 e tc 2074 e assim também Rejeitase H0 Como pvalue é menor que 005 Rejeitase H0 Há evidências a 5 de significância que as médias são diferentes TESTES DE HIPÓTESES Teste de hipótese para duas Proporções Um teste z de duas amostras é usado para testar a diferenças entre proporções de duas populações 18042023 77 TESTES DE HIPÓTESSES Teste de Hipótese para duas médias Teste t para amostras independentes no R Como pvalue é menor que 005 Rejeitase H0 Há evidências a 5 de significância que as médias são diferentes Ao nível de significância de 1 mudaria a interpretação SIM pois pvalue seria maior que o nível de significância e as médias seriam consideradas iguais TESTES DE HIPÓTESES Teste para igualdade de duas Proporções Exemplo 1 Em um estudo de 200 mulheres selecionadas aleatoriamente e 250 homens ambos usuários de internet 30 das mulheres e 38 dos homens disseram que planejam comprar online ao menos uma vez no mês seguinte Ao nível de significância de 10 testar a afirmação de que há uma diferença entre a proporção de homens e mulheres usuários de internet que planejam comprar online Hipóteses H0 pM pH pM pH 0 H1 pM pH pM pH 0 Na tabela z para 10 1645 Ao nível de 10 há evidências que haja diferença entre a proporção de homens e a proporção de mulheres usuários de internet TESTES DE HIPÓTESES Teste para igualdade de duas Proporções Exemplo 1 Em um estudo de 200 mulheres adultas selecionadas aleatoriamente e 250 homens adultos ambos usuários de internet 30 das mulheres e 38 dos homens disseram que planejam comprar online ao menos uma vez no mês seguinte Ao nível de significância de 10 testar a afirmação de que há uma diferença entre a proporção de homens e mulheres usuários de internet que planejam comprar online Ao nível de 10 há evidências que haja diferença entre a proporção de homens e a proporção de mulheres usuários de internet Hipóteses H0 𝒑𝑴 𝒑𝑯 𝒑𝑴 𝒑𝑯 0 H1 𝒑𝑴 𝒑𝑯 𝒑𝑴 𝒑𝑯 0 18042023 79 pvalue 010 Rejeitar H0 TESTES DE NORMALIDADE Grande parte dos procedimentos estatísticos de estimação e inferência de parâmetros supõem distribuição normal dos dados amostrais Porém tal suposição é muitas vezes deixada de lado pelos pesquisadores seja por esquecimento por falta de conhecimento ou por desconhecerem qual o melhor método a ser aplicado para se verificar se os dados seguem ou não a distribuição normal PRINCIPAIS TESTES NO R Teste de Shapiro Wilk O teste de ShapiroWilk testa a hipótese nula que uma amostra y1 y2 yn retirada de uma população tem distribuição normal Para calcular o valor da estatística W dada a amostra aleatória de tamanho n As hipóteses testadas são H0 Têm distribuição normal H1 Não têm distribuição normal 18042023 80 TESTES DE NORMALIDADE PRINCIPAIS TESTES NO R Teste de Shapiro Wilk As hipóteses testadas são H0 Têm distribuição normal H1 Não têm distribuição normal 18042023 81 TESTES DE NORMALIDADE TRANFORMAÇÕES DE DADOS Algumas vezes você pode ser capaz de transformar dados nãonormais aplicando uma função aos dados que muda seus valores para que eles sigam mais de perto uma distribuição normal É uma tarefa difícil dizer exatamente quando usar cada tipo de transformação É um processo trabalhoso e que provavelmente precisará de bastante tentativa e erro Algumas sugestões Scale Divide cada valor pelo desvio padrão do atributo Center Subtrai cada valor pela média do atributo Standardize ou zscore Os atributos terão média igual a 0 e desvio padrão igual a 1 Normalize Transforma os dados em um range de 0 a 1 Aplicar Logaritmo Aplicar Raiz quadrada ou Raiz Cubica 18042023 82 Distribuição tStudent Valores t c tais que P t c t t c 1 p Distribuição t de Student 18042023 84 Distribuição Normal Padrão Acumulada Φz PZ z z 12π et²2 dt Dúvidas Até a próxima aula 18042023 86
Envie sua pergunta para a IA e receba a resposta na hora
Recomendado para você
58
Inferência Estatística e Intervalo de Confiança
Probabilidade e Estatística 1
UFAL
3
Exercícios de Probabilidade
Probabilidade e Estatística 1
UFAL
3
Lista de Exercícios sobre Variáveis Aleatórias Discretas
Probabilidade e Estatística 1
UFAL
20
Combinação Linear de Distribuições Normais
Probabilidade e Estatística 1
UFAL
42
Variáveis Aleatórias em Probabilidade e Estatística
Probabilidade e Estatística 1
UFAL
5
Lista de Exercícios sobre Distribuições Continuas: Normal e Exponencial
Probabilidade e Estatística 1
UFAL
60
Variáveis Aleatórias Contínuas e Distribuição Normal
Probabilidade e Estatística 1
UFAL
44
Variáveis Aleatórias e Distribuições Discretas em Probabilidade e Estatística
Probabilidade e Estatística 1
UFAL
83
Introdução à Probabilidade e seus Conceitos Básicos
Probabilidade e Estatística 1
UFAL
19
Covariância e Correlação em Probabilidade e Estatística
Probabilidade e Estatística 1
UFAL
Texto de pré-visualização
UNIVERSIDADE FEDERAL DE ALAGOAS Instituto de Computação PROBABILIDADE E ESTATÍSTICA INFERÊNCIA ESTATÍSTICA TESTES DE HIPÓTESES PROFESSOR PETRUCIO A MEDEIROS BARROS TURMA CIÊNCIA DA COMPUTAÇÃO ENG DA COMPUTAÇÃO 18042023 1 TESTES DE HIPÓTESES Tratase de uma técnica para se fazer inferência estatística A partir de um teste de hipóteses realizado com os dados amostrais pode se fazer inferências sobre a população 18042023 2 TESTES DE HIPÓTESES Principais conceitos Hipóteses Estatística Tratase de uma suposição quanto ao valor de um parâmetro populacional ou quanto à natureza da distribuição de probabilidade de uma variável populacional 18042023 3 TESTES DE HIPÓTESES É uma metodologia estatística que nos auxilia a tomar decisões sobre uma ou mais populações baseado na informação obtida da amostra Um exemplo considere que um fabricante anuncia que seu novo carro híbrido tem média de consumo de combustível de 50 milhas por galão mpg Se você suspeitar que o consumo médio não é de 50 milhas por galão como você poderia mostrar que o anúncio é falso Obviamente não pode testar todos os veículos Para testar que o consumo médio de combustível dos veículos híbridos desse tipo é μ 50 mpg retirouse uma amostra aleatória de 30 veículos e mediuse o consumo de cada um e se obteve uma média amostral de x 47 mpg e um desvio padrão de 55 mpg Isso indica que o anúncio do fabricante é falso Para decidir vamos fazer algo incomum supor que o anúncio está correto Ou seja supor que μ 50 e examinar a distribuição amostral das médias com n 30 obtida de uma população 18042023 4 Pelo teorema do limite central podemos calcular o erro padrão Sx Ssqrtn frac55sqrt30 1004 Assim com média amostral x 47 e erro padrão 1 mpg 47 é improvável está a aproximadamente 3 erros padrão da média afirmada Para confirmar calculase a probabilidade Z frac47 501004 299 consultando a tabela z a probabilidade de se obter uma média amostral de 47 ou menos é de 00013 Confirmando que é um evento incomum A suposição de que o anúncio da empresa está correto o levou a um resultado improvável Então ou tivemos uma amostra muito incomum ou o anúncio é provavelmente falso A conclusão lógica é a de que o anúncio provavelmente é falso TESTES DE HIPÓTESES 18042023 6 Regra do EVENTO RARO se sob uma dada hipótese a probabilidade de um evento particular observado for muito pequena concluímos que provavelmente a hipótese não é correta Afirmativa com relação ao parâmetro Distribuição Estatística Probabilidade Distribuições Estudadas Normal z tstudent t Quiquadrada χ2 F de FisherSnedecor TESTES DE HIPÓTESES Estabelecendo uma hipótese Uma afirmação sobre um parâmetro populacional é chamada de hipótese estatística Para testar uma afirmação sobre um parâmetro populacional devemos especificar um par de hipóteses Uma que represente a afirmação e outra seu complemento Por exemplo se o valor da afirmação é em relação a k e o parâmetro populacional é σ então alguns pares possíveis de hipóteses nula e alternativa são 18042023 7 TESTES DE HIPÓTESES Declarando e construindo hipóteses 18042023 8 TESTES DE HIPÓTESES Valor Crítico Região de Rejeição Região de Não Rejeição TESTES DE HIPÓTESES Erros de Decisão Um detetive de polícia é encarregado da investigação de um crime Baseado nas evidências encontradas o detetive suspeita inicialmente do mordomo e precisa decidir então se o prende ou se o libera O mordomo pode ser culpado ou inocente Possibilidades Detetive Prende Libera Errado OK Inocente Mordomo OK Errado Culpado Decisão Rejeita 𝑯𝟎 Não Rejeita 𝑯𝟎 Erro tipo I OK 𝑯𝟎 Verdade Possibilidades OK Erro tipo II 𝑯𝟎 falso 18042023 10 IDENTIFICANDO ERROS TIPO I E TIPO II O limite aceito pelo Departamento de Agricultura dos Estados Unidos USDA para contaminação por salmonela no frango é de 20 Um inspector de qualidade de carnes informa que o frango produzido por uma empresa excede os limites estabelecidos pelo USDA Um teste de hipóteses pode determinar se a afirmação do inspector de qualidade de carnes é verdadeira H0 p 02 Ha p 02 Afirm O erro tipo I ocorre quando a proporção real de frango contaminado é menor ou igual a 02 mas rejeitase H0 Criou pânico na saúde e causou danos às vendas de produtores de frango que estavam realmente dentro dos limites do USDA O erro tipo II ocorre quando a proporção real de frango contaminado é maior que 02 mas não se rejeitou H0 Frangos contaminados vendidos ao consumidor O erro tipo II é mais grave pois pode resultar em doença ou morte TESTES DE HIPÓTESES Erros de Decisão Erro Tipo I Rejeição de uma hipótese Verdadeira Sim Este erro é chamado de erro tipo I e equivale ao nível de significância Este erro é sempre conhecido sendo em geral definido previamente pelo tomador de decisão P rejeitar H0 H0 é verdadeira 𝜶 P aceitar H0 H0 é verdadeira 1 𝜶 Hipóteses H0 0 H1 0 Mesmo sendo H0 verdadeira existe a possibilidade de se selecionar uma amostra desta população e obter uma média amostral tão alta que leve a conclusão errada de que H0 é falsa 18042023 12 Erros de Decisão Erro Tipo II Aceitação de uma hipótese Falsa Hipóteses H0 μ μ0 H1 μ μ0 Agora sendo H0 falsa existe a possibilidade de se selecionar uma amostra desta população cuja média verdadeira é μ1 μ0 e obter uma média amostral X tão pequena que leve a conclusão errada de que H0 é verdadeira Sim Este erro é chamado de erro do tipo II ou erro β P aceitar H0 H1 é verdadeira β P rejeitar H0 H1 é verdadeira 1 β poder do teste 18042023 TESTES DE HIPÓTESES Erros de Decisão Toda conclusão de um teste de hipótese está associada a um nível de significância e portanto não pode ser considerado 100 confiável Tipos de Erro Podese rejeitar uma hipótese quando ela é de fato verdadeira ou aceitar uma hipótese quando ela é de fato falsa A rejeição de uma hipótese verdadeira é chamada erro tipo I α A aceitação de uma hipótese falsa constitui um erro tipo II β O objetivo é reduzir ao mínimo as probabilidades dos dois tipos de erros Infelizmente essa é uma tarefa difícil porque para uma amostra de determinado tamanho a probabilidade de se incorrer em um erro tipo II aumenta à medida que diminui a probabilidade do erro I E viceversa A redução simultânea dos erros poderá ser alcançada pelo aumento do tamanho da amostra 18042023 14 TESTES DE HIPÓTESES Nível de significância Quando testes estatísticos são realizados normalmente a ocorrência de um evento incomum é caracterizada por uma probabilidade de 010 ou menor 005 ou menor ou 001 ou menor Pelo fato de haver variação de amostra para amostra sempre há uma possibilidade de que se rejeite uma hipótese nula quando ela é na realidade verdadeira Podese reduzir a probabilidade de isso acontecer diminuindo o nível de significância O nível de significância é a probabilidade máxima permitida de cometer um erro tipo I Ele é simbolizado por α alfa A probabilidade de um erro tipo II é simbolizada por β beta Os três níveis de significância usuais são 010 005 e 001 ou 10 5 e 1 respectivamente 18042023 15 Testes de Hipóteses Teste de Hipóteses 1 Marque o valor observado zobs tobs no gráfico 2 Concluir o teste Se o valor observado Região de Não Rejeição a decisão é não rejeitar H0 Se o valor observado Região Crítica a decisão é rejeitar H0 3 Interpretar em palavras a conclusão feita 18042023 Procedimento padrão para a realização de um Teste de Hipóteses 1 Definese as hipóteses do teste nula e alternativa 2 Fixase um nível de significância α 3 Levantase uma amostra de tamanho n e calculase uma estimativa do parâmetro 4 Calcular o valor observado zobs tobs utilizando a fórmula correspondente ao caso que está analisando 5 Desenhe o gráfico da distribuição amostral De acordo com a hipótese alternativa marque a região crítica RC do teste 6 Obtenha o valor crítico do teste zcrit tcrit de acordo com o nível descritivo do teste α e com a região crítica RC utilizando a tabela da distribuição correspondente Normal t de Student 18042023 TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ2 conhecidas 18042023 18 TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ² conhecidas Testes Bilaterais De uma população com distribuição normal com média 45 e variância 36 tirase uma amostra aleatória de tamanho 16 obtendose uma média de 43 Ao nível de significância de 10 testar as hipóteses α nível de significância 1 α nível de confiança Na tabela z completa procurar valor mais próximo de 095 164 Hipóteses H₀ μ 45 H₁ μ 45 σ² 36 x 43 n 16 TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ² conhecidas Testes Bilaterais De uma população com distribuição normal com média 45 e variância 36 tirase uma amostra aleatória de tamanho 16 obtendose uma média de 43 Ao nível de significância de 10 testar as hipóteses Zcalc x μ σ n 43 45 6 16 133 Hipóteses H₀ μ 45 H₁ μ 45 Não há indícios para Rejeitarmos H₀ A diferença existente é por conta da variação amostral dos dados Distribuição Normal Padrão Acumulada Φz PZ z z frac1sqrt2pi eu²2 du TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ² conhecidas Testes Unilateral monocaudal à esquerda Uma fábrica anuncia que o índice de nicotina dos cigarros da marca X é inferior a 26 mg por cigarro Um laboratório realiza 10 análises do índice e obtém 26 24 23 22 28 25 27 26 28 e 24 Sabese que o índice de nicotina dos cigarros da marca X se distribui normalmente com variância 536 mg² Podese aceitar a afirmação do fabricante ao nível de significância de 5 TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ² conhecidas μ 26242322282527262824 10 253 desvio padrão 536 n 10 α 5 H₀ μ 26 H₁ μ 26 RNR 164 RC 164 Zₐ𝓬𝓵 RNR Não há indícios para se rejeita H₀ ao nível de 5 e concluímos que a afirmação do fabricante é falsa TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ2 conhecidas Testes Unilateral monocaudal à direita Um fabricante de lajotas de cerâmica introduz um novo material em sua fabricação para aumentar a resistência média que é de 206 Kg A resistência das lajotas tem distribuição normal com desvio padrão de 12 Kg Retirase uma amostra de 30 lajotas obtendose 210 Kg Ao nível de significância de 10 pode o fabricante afirmar que a resistência média de suas lajotas tenha aumentado 18042023 24 TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variâncias σ2 conhecidas Média 210 desvio padrão 12 n 30 α 10 18042023 25 H0 206 H1 206 𝒁𝒄𝒂𝒍𝒄 210 206 𝟏𝟐 𝟑𝟎 219 219 Distribuição Normal Padrão Acumulada Φz PZ z ᴑ²2πeu²2du TESTES DE HIPÓTESES Testes de Hipóteses para a Média de Populações normais com variância σ2 desconhecida 18042023 27 TESTES DE HIPÓTESES Testes de Hipóteses para a Média com Variância Desconhecida Se a variância é desconhecida ela precisa ser estimada Supondo que nossa amostra aleatória seja representada pelo vetor de variáveis aleatórias X1Xn todas elas com densidade Normal de média µ e variância σ2 Vamos utilizar o melhor estimador que conhecemos para a variância que é a variância amostral 18042023 28 Fórmula alternativa TESTES DE HIPÓTESES Testes de Hipóteses para a Média com Variância Desconhecida Estatística de teste A distribuição t de Student e seu parâmetro tem o nome de graus de liberdade neste caso correspondendo ao total de dados menos um a notação utilizada é tn1 Devido à complexidade de sua função densidade as probabilidades são obtidas de tabelas construídas numericamente 18042023 29 TESTES DE HIPÓTESES Testes de Hipóteses para a Média com Variância Desconhecida A principal diferença entre a distribuição normal e a t de Student é que esta tem mais área nas caudas A distribuição normal apresenta valores menos precisos para as pequenas amostras A medida que a amostra n cresce a distribuição t de Student se aproxima da distribuição normal 18042023 30 TESTES DE HIPÓTESES Testes de Hipóteses para a Média com Variância Desconhecida Se o tamanho da amostra aumenta a densidade tStudent converge para a Normal padrão As tabelas construídas se limitam a valores de graus de liberdade menores ou iguais a 120 Para graus superiores a 120 as probabilidades são obtidas da tabela de distribuição Normal e representados por nas tabelas Tal fato é consequente da consistência o estimador S2 para σ2 que faz com que a distribuição T se aproxime de Z à medida que aumenta o tamanho da amostra 18042023 31 TESTES DE HIPÓTESES 18042023 32 Distribuição t de Student TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 1 Os registros dos últimos anos de um colégio atestam para os calouros admitidos uma nota média 115 teste vocacional Para testar a hipótese de que a média de uma nova turma é a mesma das turmas anteriores retirouse uma amostra de 20 notas obtendose média 118 e desvio padrão 20 Admita um nível de significância de 5 para efetuar o teste Hipóteses H0 115 H1 115 Como se trata de uma amostra pequena utilizar a distribuição t de Student com gl n1 201 19 18042023 33 TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 1 Os registros dos últimos anos de um colégio atestam para os calouros admitidos tem nota média 115 teste vocacional Para testar a hipótese de que a média de uma nova turma é a mesma das turmas anteriores retirouse uma amostra de 20 notas obtendose média 118 e desvio padrão 20 Admita um nível de significância de 5 para efetuar o teste Hipóteses H0 μ 115 H1 μ 115 tobs 118 115 20 20 0671 Na tabela t de Student para t519 tcrit 20930 Como o valor observado não está na região crítica do teste não rejeitamos H0 ou seja ao nível de 5 há indícios de que a média tenha se alterado Aceitamos H0 TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 2 Foram coletados dados na Universidade Federal em que buscou constatar se a tensão fornecida pela rede corresponderia a tensão de 127 V em tomadas da Universidade Foram analisados no total 15 tomadas as quais compuseram a amostra 125 124 125 125 125 124 123 122 123 123 123 123 124 calculando desvio padrão 099 e média 12387 Nível de confiança 95 Hipóteses H0 μ 127 H1 μ 127 tcalc tα2 Rejeitase a hipótese nula e concluise que a tensão é diferente de 127 V Na tabela t de Student para t514 tcrit 2145 18042023 36 Distribuição t de Student TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 2 Foram coletados dados na Universidade Federal em que buscou constatar se a tensão fornecida pela rede corresponderia a tensão de 127 V em tomadas da Universidade Foram analisados no total 15 tomadas as quais compuseram a amostra 125 124 125 125 125 124 123 122 123 123 123 123 124 calculando desvio padrão 099 e média 12387 Nível de confiança 95 Hipóteses H0 μ 127 H1 μ 127 tcalc tα2 Rejeitase a hipótese nula e concluise que a tensão é diferente de 127 V Na tabela t de Student para t514 tcrit 2145 TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 2 Foram coletados dados na Universidade Federal em que buscou constatar se a tensão fornecida pela rede corresponderia a tensão de 127 V em tomadas da Universidade Foram analisadas no total 15 tomadas as quais compuseram a amostra 125 124 125 125 125 125 124 123 122 123 123 123 124 124 calculando desvio padrão 099 e média 12387 Nível de confiança de 95 Hipóteses H0 µ 127 H1 µ 127 tcalc t Rejeitase a hipótese nula e concluise que a tensão é inferior a 127 V TESTES DE HIPÓTESES para a Média com Variância Desconhecida Exemplo 3 Desejase investigar se uma certa moléstia que ataca o rim altera o consumo de oxigênio desse órgão Para indivíduos sadios admitese que esse consumo tem distribuição Normal com média 12cm3min Os valores medidos em cinco pacientes com a moléstia foram 144 129 150 137 e 135 Qual seria a conclusão ao nível de 1 de significância O teste de interesse é H0 A moléstia não altera a média de consumo renal de oxigênio H1 Indivíduos portadores da moléstia têm média alterada Hipóteses H0 12 H1 12 18042023 39 Na tabela t de Student t1 A tcrit 46041 xobs 14412915137135 5 1390 e sobs 08155 tob s 1390 12 08155 5 52099 Portanto como tobs RC decidimos pela rejeição da hipótese nula ou seja a moléstia tem influência no consumo renal médio de oxigênio ao nível de 1 18042023 41 O intervalo de confiança encontrado não inclui o valor 12 para µ que foi a hipótese nula do exemplo Dessa forma confirma se a rejeição da hipótese nula TESTES DE HIPÓTESES Pvalue valor da probabilidade ou nível descritivo do teste Um pvalue é uma medida de quanta evidência se tem contra a hipótese nula Quanto menor o pvalue mais evidência se tem O pvalue é o menor nível de significância que conduz à rejeição da hipótese nula H0 Rejeitar H0 se Pvalue α onde α é o nível de significância Aceitar H0 se Pvalue α O Pvalue normalmente são fornecidos pelos softwares estatísticos Exemplo o pvalue está entre 005 e 010 então existe uma chance de 5 a 10 de que os resultados observados não foram um reflexo de uma mudança de processo ou dos dados os resultados ocorreram por conta do acaso O valorp é que este é o menor nível de significância com que se rejeitaria a hipótese nula Um valorp pequeno significa que a probabilidade de obter um valor da estatística de teste como o observado é muito improvável levando assim à rejeição da hipótese nula Etapas para elaboração de teste de hipótese usando pvalue 1 Identificar o parâmetro de interesse e especificar as hipóteses 2 Escolher a estatística de teste e calcular tobs 3 Determinar o pvalue do teste se teste unilateral à direita pvalue P T tobs se teste unilateral à esquerda pvalue P T tobs se teste bilateral 2P T tobs se tobs for reduzido 2P T tobs se tobs for elevado 4 Tomar decisão rejeitar H0 se pvalue α nível de significância 5 Concluir Para uso do pvalue com a distribuição Z substituir tobs pelo zobs e T por Z nas fórmulas TESTES DE HIPÓTESES Pvalue valor da probabilidade ou nível descritivo do teste Toda conclusão de um teste de hipótese está associada à um nível de significância Exemplo 4 Com base em um teste z unilateral a 5 de significância pôdese concluir que a média é maior que 20 Considere à estatística z obtida igual a 25 Hipóteses H0 𝜇 20 H1 𝜇 20 18042023 45 zcrítico 1645 Para 5 rejeitase H0 ou seja pode ser considerado maior que 20 TESTES DE HIPÓTESES Pvalue valor da probabilidade ou nível descritivo do teste Toda conclusão de um teste de hipótese está associada à um nível de significância Exemplo 4 Com base em um teste z unilateral a 1 de significância pôdese concluir que a média é maior que 20 Considere à estatística z obtida igual a 25 Hipóteses H0 𝜇 20 H1 𝜇 20 18042023 46 zcrítico 233 Para 1 rejeitase H0 ou seja pode ser considerado maior que 20 Para que valores rejeitase H0 ou seja pode ser considerado maior que 20 Exemplo 4 Com base em um teste z unilateral qual seria o nível de significância para concluir que a média µ é maior que 20 Considere à estatística z obtida igual a 25 Hipóteses H0 µ 20 H1 µ 20 Na tabela Z para z 25 09938 P Z zobs H0 P Z 25 1 09938 00062 pvalue Podese aceitar H0 para qualquer nível de significância α maior que 062 uma vez que valorP PZ 25 062 TESTES DE HIPÓTESES Testet de Student para uma amostra utilizando o software R A média da altura de uma amostra foi de 165952 cm enquanto que a média de altura da população é de 160 cm A questão é a média da altura foi maior mas será que essa diferença de altura é estatisticamente significativa Um teste estatístico pretende tentar responder essa questão Rejeitar H0 ou seja existe diferença entre as alturas 18042023 48 0000543 00543 Hipóteses H0 𝝁 160 H1 𝝁 160 TESTES DE HIPÓTESES Testet de Student para uma amostra no R A média da altura de uma amostra foi de 165952 cm enquanto que a média de altura da população é de 160 cm A questão é a média da altura foi maior mas será que essa diferença de altura é estatisticamente significativa Um teste estatístico pretende tentar responder essa questão Aceitar H0 ou seja não existe diferença entre as alturas 18042023 49 008047 08047 Hipóteses H0 𝝁 160 H1 𝝁 160 TESTES DE HIPÓTESES Testet de Student para uma amostra no R A média da altura de uma amostra foi de 165952 cm enquanto que a média de altura da população é de 160 cm A questão é a média da altura foi maior mas será que essa diferença de altura é estatisticamente significativa Rejeitar H0 ou seja existe diferença entre as alturas Aceitar H0 ou seja não existe diferença entre as alturas 18042023 50 TESTES DE HIPÓTESES Testet de Student para uma amostra no R A média da altura de uma amostra foi de 165952 cm enquanto que a média de altura da população é de 160cm A questão é a média da altura foi maior mas será que essa diferença de altura é estatisticamente significativa Um teste estatístico pretende tentar responder essa questão Rejeitar H0 ou seja existe diferença entre as alturas Aceitar H0 ou seja não existe diferença entre as alturas 18042023 51 008047 08047 0000543 00543 Testes de Hipóteses Teste de Hipótese para proporção O teste para proporção é aplicado em situações nas quais desejase verificar se a proporção de algum atributo na população pode ser igual a certo valor p Estatística do teste Zcalc p p p1pn onde p xn As regras de decisão para rejeição ou não da hipótese nula para o teste sobre a proporção amostral são a mesma enunciada para o teste de hipóteses para média Testes de Hipóteses Teste de Hipótese para proporção Exemplo 6 Um candidato a deputado estadual afirma que terá 60 dos votos dos eleitores de uma cidade Um instituto de pesquisa colhe uma amostra de 300 eleitores dessa cidade encontrando 160 que votarão no candidato Esse resultado mostra que a afirmação do candidato é verdadeira ao nível de 5 Hipóteses H0 p 060 H1 p 060 p xn 160300 053 Zcalc 053 060 061 06300 Zcalc 2474 Como Zcalc RC decidimos pela rejeição da hipótese nula ou seja a afirmação do candidato é falsa a 5 de significância Testes de Hipóteses Teste de Hipótese para proporção Exemplo 7 Um centro de pesquisa declara que menos de 20 dos usuários de internet nos Estados Unidos tem rede sem fio em suas casas Em uma amostra aleatória de 100 adultos 15 deles dizem que tem rede sem fio em casa Com nível significância de 1 há evidência suficiente para apoiar a declaração do pesquisador Hipóteses H0 µ 020 H1 µ 020 p 15100 015 Zcalc 015 020 p1 pn 125 Portanto como Zcalc RNR aceitação da hipótese H0 Ao nível de 1 não é possível afirmar que a proporção de usuários seja inferior a 20 TESTES DE HIPÓTESES Inificação entre parâmetros de duas populações Suponha que temse interesse em verificar se existe ou não uma diferença significativa entre as médias populacionais μ1 e μ2 Hipóteses H0 μ1 μ2 Δ H1 μ1 μ2 Δ H1 μ1 μ2 ou Δ H1 μ1 μ2 Δ ou Δ TESTES DE HIPÓTESES Teste para comparação de duas variâncias Precisamos comparar as variâncias de duas populações ou amostras para posteriormente poder comparar no caso de dados pareados para as médias Ao realizar um teste de hipóteses para esse fim estaremos cientes que as variâncias não são homogêneas ou não são semelhantes Caso contrário admitese que elas são homogêneas ou semelhantes Estatística do teste 18042023 56 TESTES DE HIPÓTESES Teste para comparação de duas variâncias Exemplo 1 Em um estudo foram coletados dados das tensões máximas suportadas MPa em dois tipos de madeiras da região do Sudoeste do Paraná Itaúba e Cedrinho Os valores estão apresentados com objetivo de verificar se as variâncias dos dois grupos são homogêneas ou não ao nível 5 de significância Hipóteses H0 σ1² σ2² Ha σ1² σ2² Fcalc s² maior s² menor 2717 1051 Aceitase H0 ou seja as variâncias são homogêneas Distribuição F de Snedecor a 5 p005 TESTES DE HIPÓTESES Teste para comparação de duas variâncias Exemplo 1 Em um estudo foram coletados dados das tensões máximas suportadas MPa em dois tipos de madeiras da região do Sudoeste do Paraná Itaúba e Cedrinho Os valores estão apresentados com objetivo de verificar se as variâncias dos dois grupos são homogêneas ou não ao nível 5 de significância Hipóteses Usando o R 18042023 60 Como pvalue 09494 9494 maior que 5 Não rejeitase H0 As variâncias homogêneas TESTES DE HIPÓTESES Teste de Hipótese para duas médias Em várias situações científicas e práticas há interesse em comparar o desempenho de dois ou mais tratamentos como por exemplo dois processos de temperatura na produção de aço dois tipos de cimentoecola para fixar azulejos velocidade de processamento de dois sistemas operacionais entre outros Ao compararmos duas médias Teste t para dados dependentes ou pareados as medições podem ser feitas em especificamente dois momentos distintos implicando uma dependência entre os dados ou uma paridade entre eles Teste t para amostras independentes pode ser necessário comparar médias de dois grupos distintos Isso implica que o teste t para amostras independentes deve ser utilizado sendo que devese observar se as variâncias dos conjuntos são homogêneas 18042023 61 TESTES DE HIPÓTESES Para duas médias Teste t para dados pareados 18042023 62 Dados pareados ou emparelhados ou dependentes ocorrem quando os elementos de duas amostras são relacionados dois a dois de acordo com algum critério que fornece uma influência entre os vários pares e sobre os valores de cada par Média das diferenças amostras pareadas TESTES DE HIPÓTESES Teste de Hipótese para duas médias Exemplo 1 Um fabricante de tacos de golfe afirma que os golfistas podem diminuir seus placares usando os tacos de golfe recémprojetados por ele Oito jogadores de golfe são escolhidos aleatoriamente e é pedido que forneça seu mais recente placar Após usar os novos tacos por um mês é pedido novamente aos jogadores que forneçam seus placares recentes Os placares são mostrados na tabela Assumindo que os placares são distribuídos normalmente existe evidencia suficiente para apoiar a afirmação do fabricante para um nível de significância de 10 Hipóteses H0 μantigo μnovo μd 0 H1 μantigo μnovo μd 0 afirmação do fabricante d placar antigo placar novo tcalc 16250 306778 1498 Na tabela t de Student para t7 20 tcrit 1415 Como tcalc tcrit ao nível de 10 rejeitase H0 Há evidências que o placar novo seja menor que o antigo Assim a afirmação do fabricante está correta d 138 1625 TESTES DE HIPÓTESES Teste de Hipótese para duas médias Exemplo 1 Um fabricante de tacos de golfe afirma que os golfistas podem diminuir seus placares usando os tacos de golfe recémprojetados por ele Oito jogadores de golfe são escolhidos aleatoriamente e é pedido que forneça seu mais recente placar Após usar os novos tacos por um mês é pedido novamente aos jogadores que forneçam seus placares recentes Os placares são mostrados na tabela Assumindo que os placares são distribuídos normalmente existe evidencia suficiente para apoiar a afirmação do fabricante para um nível de significância de 10 Hipóteses H0 𝝁𝒂𝒏𝒕𝒊𝒈𝒐 𝝁𝒏𝒐𝒗𝒐 𝝁𝒅 0 H1 𝝁𝒂𝒏𝒕𝒊𝒈𝒐 𝝁𝒏𝒐𝒗𝒐 𝝁𝒅 0 Ao nível de 10 pvalue 008887 α 010 há evidências que o placar novo seja menor que o antigo Assim a afirmação do fabricante está correta 18042023 64 pvalue 00887 100 887 10 18042023 65 Distribuição t de Student TESTES DE HIPÓTESES Teste de Hipótese para duas médias Exemplo 2 Seja o problema de verificar se um novo algoritmo de busca em um banco de dados é mais rápido que o algoritmo atualmente usado Para fazer a comparação dos dois algoritmos planejase realizar uma amostra aleatória de dez buscas experimentais Em cada realização uma dada busca é realizada pelos dois algoritmos e o tempo de resposta é registrado para ambos os processos Considerando dez realizações existe diferença entre as velocidades de busca para os dois algoritmos Verificar a um nível de 5 de significância Hipóteses H0 μ1 μ2 μd 0 H1 μ1 μ2 μd 0 Na tabela t de Student para t005 9 2262 tcalc 34 38064 10 Conformo o resultado rejeitar H0 pois tcalc tcrit Concluímos então que há diferença na velocidade de busca dos dois algoritmos TESTES DE HIPÓTESES Teste de Hipótese para duas médias Exemplo 2 Seja o problema de verificar se um novo algoritmo de busca em um banco de dados é mais rápido que o algoritmo atualmente usado Para fazer a comparação dos dois algoritmos planejase realizar uma amostra aleatória de dez buscas experimentais Em cada realização uma dada busca é realizada pelos dois algoritmos e o tempo de resposta é registrado para ambos os processos Considerando dez realizações existe diferença entre as velocidades de busca para os dois algoritmos Verificar a um nível de 5 de significância Hipóteses H0 μ1 μ2 μ4 0 H1 μ1 μ2 μ4 0 Na t de Student para t0059 2262 tcalc 34 38064 28246 Conforme o resultado do teste percebemos que p value é menor que α Portanto há evidências amostrais suficientes para rejeitar a hipótese nula Concluímos então que há diferença na velocidade de busca dos dados dos dois algoritmos TESTES DE HIPÓTESES Teste de Hipótese para duas médias Teste para amostras independentes a Variância Populacionais conhecidas 18042023 68 TESTES DE HIPÓTESES Teste de Hipótese para duas médias Teste t para amostras independentes variância populacionais conhecidas Exemplo 1 Uma organização de educação de consumidores afirma que há uma diferença entre a média da dívida do cartão de crédito de homens e mulheres Sabese de estudos anteriores que o desvio padrão para dívida das mulheres é de U 750 e dos homens U 800 Os resultados de uma pesquisa aleatória de 200 indivíduos de cada grupo foram média da dívida das mulheres U 2290 média da dívida dos homens U 2370 Verifique se ao nível de 5 se a afirmação da organização está correta Hipóteses H0 μh μm μh μm 0 H1 μh μm μh μm 0 z x1 x2 μ1 μ2 σx1x2 zobs 2290 2370 0 7502 200 8002 200 103 Na tabela z obter zcrit para 5 196 Não Rejeitase H0 Ao nível de 5 NÃO há evidências que haja diferença entre a dívida média dos homens e a dívida média das mulheres TESTES DE HIPÓTESES Teste de Hipótese para duas médias Teste para amostras independentes b Variância populacionais desconhecidas Um teste t baseado em duas amostras é usado para testar a diferença entre duas médias populacionais μ1 e μ2 A estatística de teste padronizada é Variâncias são iguais Se as variâncias populacionais são consideradas iguais então as variâncias das duas amostras são combinadas para se calcular uma estimativa conjunta do desvio padrão s Variâncias não são iguais Se as variâncias populacionais não são iguais então o erro padrão é sx1x2 S1 2 n1 S2 2 n2 e gl menor de n1 1 e n2 1 TESTES DE HIPÓTESES Teste de Hipótese para duas médias 18042023 72 Distribuição t de Student TESTES DE HIPÓTESES Teste de Hipótese para duas médias TESTES DE HIPÓTESES Teste de Hipótese para duas médias TESTES DE HIPÓTESSES Teste de Hipótese para duas médias Teste t para amostras independentes no R Procedimento testar as variâncias das amostras se igual varequal TRUE caso contrário não usar varequal que será usado o padrão do R testet com variação de Welch Argumentos do test e no R paired False padrão dados independentes varequal FALSE ou TRUE Variâncias conflevel 095 admitido como padrão alternative twosided teste bicaudal podese escolher também greater ou less Calculando da maneira tradicional a 5 de significância encontrase tcal 35277 e tc 2074 e assim também Rejeitase H0 Como pvalue é menor que 005 Rejeitase H0 Há evidências a 5 de significância que as médias são diferentes TESTES DE HIPÓTESES Teste de hipótese para duas Proporções Um teste z de duas amostras é usado para testar a diferenças entre proporções de duas populações 18042023 77 TESTES DE HIPÓTESSES Teste de Hipótese para duas médias Teste t para amostras independentes no R Como pvalue é menor que 005 Rejeitase H0 Há evidências a 5 de significância que as médias são diferentes Ao nível de significância de 1 mudaria a interpretação SIM pois pvalue seria maior que o nível de significância e as médias seriam consideradas iguais TESTES DE HIPÓTESES Teste para igualdade de duas Proporções Exemplo 1 Em um estudo de 200 mulheres selecionadas aleatoriamente e 250 homens ambos usuários de internet 30 das mulheres e 38 dos homens disseram que planejam comprar online ao menos uma vez no mês seguinte Ao nível de significância de 10 testar a afirmação de que há uma diferença entre a proporção de homens e mulheres usuários de internet que planejam comprar online Hipóteses H0 pM pH pM pH 0 H1 pM pH pM pH 0 Na tabela z para 10 1645 Ao nível de 10 há evidências que haja diferença entre a proporção de homens e a proporção de mulheres usuários de internet TESTES DE HIPÓTESES Teste para igualdade de duas Proporções Exemplo 1 Em um estudo de 200 mulheres adultas selecionadas aleatoriamente e 250 homens adultos ambos usuários de internet 30 das mulheres e 38 dos homens disseram que planejam comprar online ao menos uma vez no mês seguinte Ao nível de significância de 10 testar a afirmação de que há uma diferença entre a proporção de homens e mulheres usuários de internet que planejam comprar online Ao nível de 10 há evidências que haja diferença entre a proporção de homens e a proporção de mulheres usuários de internet Hipóteses H0 𝒑𝑴 𝒑𝑯 𝒑𝑴 𝒑𝑯 0 H1 𝒑𝑴 𝒑𝑯 𝒑𝑴 𝒑𝑯 0 18042023 79 pvalue 010 Rejeitar H0 TESTES DE NORMALIDADE Grande parte dos procedimentos estatísticos de estimação e inferência de parâmetros supõem distribuição normal dos dados amostrais Porém tal suposição é muitas vezes deixada de lado pelos pesquisadores seja por esquecimento por falta de conhecimento ou por desconhecerem qual o melhor método a ser aplicado para se verificar se os dados seguem ou não a distribuição normal PRINCIPAIS TESTES NO R Teste de Shapiro Wilk O teste de ShapiroWilk testa a hipótese nula que uma amostra y1 y2 yn retirada de uma população tem distribuição normal Para calcular o valor da estatística W dada a amostra aleatória de tamanho n As hipóteses testadas são H0 Têm distribuição normal H1 Não têm distribuição normal 18042023 80 TESTES DE NORMALIDADE PRINCIPAIS TESTES NO R Teste de Shapiro Wilk As hipóteses testadas são H0 Têm distribuição normal H1 Não têm distribuição normal 18042023 81 TESTES DE NORMALIDADE TRANFORMAÇÕES DE DADOS Algumas vezes você pode ser capaz de transformar dados nãonormais aplicando uma função aos dados que muda seus valores para que eles sigam mais de perto uma distribuição normal É uma tarefa difícil dizer exatamente quando usar cada tipo de transformação É um processo trabalhoso e que provavelmente precisará de bastante tentativa e erro Algumas sugestões Scale Divide cada valor pelo desvio padrão do atributo Center Subtrai cada valor pela média do atributo Standardize ou zscore Os atributos terão média igual a 0 e desvio padrão igual a 1 Normalize Transforma os dados em um range de 0 a 1 Aplicar Logaritmo Aplicar Raiz quadrada ou Raiz Cubica 18042023 82 Distribuição tStudent Valores t c tais que P t c t t c 1 p Distribuição t de Student 18042023 84 Distribuição Normal Padrão Acumulada Φz PZ z z 12π et²2 dt Dúvidas Até a próxima aula 18042023 86