·

Administração ·

Estatística 2

Envie sua pergunta para a IA e receba a resposta na hora

Fazer Pergunta

Texto de pré-visualização

Análise de variância ANOVA Ana Júlia Alves Câmara A ANOVA é um método para testar a igualdade de três ou mais médias populacionais baseado na análise das variâncias amostrais À primeira vista pode parecer correto realizar vários testes t comparando dois a dois No caso da comparação de três grupos grupo A grupo B e grupo C temos três testes t de comparação entre as médias 𝝁𝑨 𝐯𝐬 𝝁𝑩 𝝁𝑨 𝐯𝐬 𝝁𝒄 e 𝝁𝑩 𝐯𝐬 𝝁𝒄 Na comparação de quatro grupos temos seis testes t de comparação entre médias Se o número de grupos é igual a 10 precisaríamos de 45 testes t dois a dois Na ANOVA os dados amostrais são separados em grupos segundo uma característica fator Fator ou tratamento é uma caracerística que permite distinguir diferentes populações umas das outras Cada fator contém dois ou mais grupos classificações Nesse curso estudaremos a ANOVA de um fator Desejase comparar o volume expiratório forçado de pacientes com doença coronária oriundos de três centros médicos diferentes 21 pacientes da Johns Hopkins University School of Medicine 16 pacientes do Rancho Los Amigos Medical Center e 23 pacientes da St Louis University School of Medicine Exemplo Desejase comparar o volume expiratório forçado VEF de pacientes com doença coronária oriundos de três centros médicos diferentes 21 pacientes da Johns Hopkins University School of Medicine 16 pacientes do Rancho Los Amigos Medical Center e 23 pacientes da St Louis University School of Medicine Exemplo SUPOSIÇÕES Populações normalmente distribuídas Populações tem a mesmo desviopadrão homocedasticidade Amostras são aleatórias e independentes ANOVA de um fator Hipótese nula A média de todas as populações são iguais ou seja o fator tratamento não tem efeito nenhuma variação em média entre os grupos Hipóteses da ANOVA de um fator Hipótese alternativa Nem todas as médias populacionais são iguais ou seja pelo menos uma média é diferente existe efeito do fator Obs Não quer dizer que todas as médias são diferentes algumas podem ser iguais Hipóteses da ANOVA de um fator 𝑯𝟎 𝝁𝟏 𝝁𝟐 𝝁𝟑 𝝁𝒌 𝑯𝟏 Nem todas as médias populacionais são iguais Hipóteses da ANOVA de um fator 𝑯𝟎 𝝁𝟏 𝝁𝟐 𝝁𝟑 𝝁𝒌 𝑯𝟏 Nem todos os 𝝁𝒌 são iguais Todas as médias são iguais 𝐻0 é verdadeira O fator tratamento não tem efeito 𝑯𝟎 𝝁𝟏 𝝁𝟐 𝝁𝟑 𝝁𝒌 𝑯𝟏 Nem todos os 𝝁𝒌 são iguais Ao menos uma média é diferente 𝐻0 não é verdadeira Há efeito do fator tratamento A ANOVA é baseada em estimativas de dispersãovariância Temos 2 fontes de variância 1 Intragrupo valores individuais em torno da média do grupo ao qual pertence 2 Entre grupos médias populacionais em torno da média global Hipóteses da ANOVA de um fator Se a variabilidade intragrupo é menor que a entre grupos sugerese que as médias populacionais são de fato diferentes Hipóteses da ANOVA de um fator Objetivo Testar a seguinte hípótese 𝑯𝟎 𝝁𝟏 𝝁𝟐 𝝁𝟑 𝝁𝒌 Estimativa do desvio intragrupo 𝒔𝑫 𝒔𝑫 𝟐 𝒏𝟏 𝟏 𝒔𝟏 𝟐 𝒏𝟐 𝟏 𝒔𝟐 𝟐 𝒏𝒌 𝟏𝒔𝒌 𝟐 𝒏 𝒌 em que 𝒔𝒌 e 𝒏𝒌 são respectivamente o desviopadrão e tamanho amostral do késimo grupo e 𝒏 é o tamanho amostral total Desviopadrão Intragrupo O desviopadrão intragrupo é simplesmente a média ponderada das 𝒌 variâncias amostrais O subscrito 𝑫 referese à variabilidade dentro do grupo Necessitamos de uma estimativa da variação das médias em torno da média global Estimativa do desviopadrão entre grupos 𝒔𝑬 𝒔𝑬 𝟐 𝒏𝟏ഥ𝒙𝟏 ന𝒙𝟐𝒏𝟐ഥ𝒙𝟐 ന𝒙𝟐 𝒏𝒌ഥ𝒙𝒌 ന𝒙𝟐 𝒌 𝟏 Em que ഥ𝒙𝒌 é a média amostral do késimo grupo e ന𝒙 é a média global das 𝒏 observações Desviopadrão Entregrupos Se a hipótese nula é verdadeira esta quantidade também estima a variância intragrupos 𝒔𝑫 𝟐 Exemplo para k tratamentos Amostra 1 Amostra 2 Amostra 3 Amostra k 𝒙𝟏𝟏 𝒙𝟏𝟐 𝒙𝟏𝟑 𝒙𝟏𝒌 𝒙𝟐𝟏 𝒙𝟐𝟐 𝒙𝟐𝟑 𝒙𝟐𝒌 𝒙𝟑𝟏 𝒙𝟑𝟐 𝒙𝟑𝟑 𝒙𝟑𝒌 𝒙𝒏𝟏𝟏 𝒙𝒏𝟐𝟐 𝒙𝒏𝟑𝟑 𝒙𝒏𝒌𝒌 ഥ𝒙𝟏 ഥ𝒙𝟐 ഥ𝒙𝟑 ഥ𝒙𝒌 𝒔𝟏 𝟐 𝒔𝟐 𝟐 𝒔𝟑 𝟐 𝒔𝒌 𝟐 Média de todos os valores amostrais grande média ന𝒙 𝒏𝟏ഥ𝒙𝟏 𝒏𝟐ഥ𝒙𝟐 𝒏𝒌ഥ𝒙𝒌 𝒏𝟏 𝒏𝟐 𝒏𝒌 Para amostras de tamanhos iguais ന𝒙 ഥ𝒙𝟏 ഥ𝒙𝟐 ഥ𝒙𝒌 𝒌 A ideia básica da ANOVA partição da variabilidade Decomposição das observações em contribuições de diferentes fontes Exemplo Foram selecionados vários automóveis de 3 modelos diferentes e neles colocados a mesma quantidade de gasolina A tabela ao lado mostra a quilometragem obtida pelos automóveis Existe diferença entre de distância média percorrida pelos diferentes tipos de automóveis Pergunta as médias amostrais variam em torno da média global mais do que as observações individuais variam em torno das médias amostrais Se sim temos um indício de que existe alguma diferença entre as médias populacionais Precisamos de uma estatística para avaliar o tamanho desta diferença A estatística F FisherSnedecor é usada para este propósito 𝑭 𝒔𝑬 𝟐 𝒔𝑫 𝟐 Sob a hipótese nula de que as médias são iguais tanto 𝒔𝑬 𝟐 quanto 𝒔𝑫 𝟐 estimam a variância comum 𝝈𝟐 e F deve estar próximo de 1 Se existe uma diferença entre as populações então a variância entre os grupos é maior que a variância dentro dos grupos e F é maior que 1 Sob 𝑯𝟎 a razão F tem uma distribuição F com 𝒌 𝟏 e 𝒏 𝒌 graus de liberdade Podemos organizar o teste F na seguinte tabela chamada de tabela de análise de variância Fontes de variação SQ GL QM F Entre grupos 𝑆𝑄𝐸 k1 𝑄𝑀𝐸 𝑆𝑄𝐸𝑘 1 𝑄𝑀𝐸𝑄𝑀𝐷 Dentro dos grupos 𝑆𝑄𝐷 nk 𝑄𝑀𝐷 𝑆𝑄𝐷𝑛 𝑘 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 n1 𝑆𝑄𝐸 é a soma de quadrados entre os grupos numerador de 𝒔𝑬 𝟐 𝑆𝑄𝐷 é a soma de quadrados dentro dos grupos numerador de 𝒔𝑫 𝟐 Note de 𝑄𝑀𝐸 𝒔𝑬 𝟐 e 𝑄𝑀𝐷 𝒔𝑫 𝟐 Fontes de variação SQ GL QM F Entre grupos 𝑆𝑄𝐸 k1 𝑄𝑀𝐸 𝑆𝑄𝐸𝑘 1 𝑄𝑀𝐸𝑄𝑀𝐷 Dentro dos grupos 𝑆𝑄𝐷 nk 𝑄𝑀𝐷 𝑆𝑄𝐷𝑛 𝑘 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 n1 Retornando ao exemplo Estamos interessados em verificar se existe diferença entre de distância média percorrida pelos diferentes tipos de automóveis Use 𝜶 𝟓 ഥ𝒙𝟏 2492 𝒔𝟏 93 𝒏𝟏 5 ഥ𝒙𝟐 229 𝒔𝟐 778 𝒏𝟐 3 ഥ𝒙𝟑 20625 𝒔𝟑 965 𝒏𝟑 4 ന𝒙 22983 Fontes de variação SQ GL QM F Entre grupos 𝑆𝑄𝐸 k1 𝑄𝑀𝐸 𝑄𝑀𝐸 𝑄𝑀𝐷 Dentro dos grupos 𝑆𝑄𝐷 nk 𝑄𝑀𝐷 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 n1 Fontes de variação SQ GL QM F Entre grupos 𝑆𝑄𝐸 41021 k1 2 𝑄𝑀𝐸 20511 𝑄𝑀𝐸 𝑄𝑀𝐷 2473 Dentro dos grupos 𝑆𝑄𝐷 74639 nk 9 𝑄𝑀𝐷 8293 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 484849 n1 11 𝑭𝟐𝟗 𝟏𝟗 𝟑𝟖 𝟐𝟒 𝟕𝟑 portanto rejeitase a hipótese nula ao nível de 5 de significância 𝑯𝟎 𝝁𝟏 𝝁𝟐 𝝁𝟑 𝑯𝟏 Pelo menos uma das médias é diferente Procedimentos para comparações múltiplas 02 Um valor de F significativo indica a existência de pelo menos uma diferença entre os grupos estudados A identificação de diferenças particulares entre médias tomandoas duas a duas deve ser realizada por um dos vários métodos de comparações múltiplas presentes na literatura Estes testes são semelhantes ao teste t com a diferença de que controlam o nível de significância ao levar em consideração o número de comparações a serem realizadas É um procedimento simples mas ineficiente Consiste em corrigir o valor do nível de significância 𝜶 calculandose 𝜶 𝜶 𝒎 em que 𝜶 é o nível de significância global e m é o número de comparações a serem realizadas m 𝒌 𝟐 para k grupos Correção de Bonferroni Para o caso de k 3 populações o total de testes é m 3 Se definirmos o nível de significância global em 10 devemos utilizar 𝜶 𝟎 𝟏𝟎 𝟑 𝟎 𝟎𝟑𝟑 para cada teste individual Para realizar um teste da hipótese nula 𝑯𝟎 𝝁𝒊 𝝁𝒋 devemos calcular 𝒕𝒊𝒋 ഥ𝒙𝒊 ഥ𝒙𝒋 𝒔𝑫 𝟐 𝟏𝒏𝒊 𝟏𝒏𝒋 Embora este seja um teste para duas médias utilizamos a informação das k amostras 𝒔𝑫 𝟐 𝒔𝑫 𝟐 𝒏𝟏 𝟏 𝒔𝟏 𝟐 𝒏𝟐 𝟏 𝒔𝟐 𝟐 𝒏𝒌 𝟏𝒔𝒌 𝟐 𝒏 𝒌 Sob a hipótese nula 𝒕𝒊𝒋 tem uma distribuição 𝒕 com 𝒏 𝒌 graus de liberdade Retornando ao exemplo do VEF comparando as populações 1 e 2 os pacientes da Johns Hopkins e aqueles do Rancho Los amigos ao nível de 5 de significância Cada método fornece um valor de referência que deve ser comparado às diferenças das médias amostrais De forma equivalente eles fornecem um intervalo de confiança para a diferença de médias Outros métodos Um procedimento usual consiste em 1 Ordenar as médias amostrais 2 Comparálas utilizando um método de comparação múltipla É um dos testes de comparação de média mais utilizado por ser bastante rigoroso e de fácil aplicação É um teste exato em que para a família de todas as comparações 2 a 2 a taxa de erro da família dos testes é exatamente 𝜶 Método de Tukey O teste de Tukey tem como base a DMS distância mínima significativa Para dados balanceados 𝑫𝑴𝑺 𝒒𝜶𝒌𝒏𝒌 𝑸𝑴𝑫 𝒏 Em que 𝒏 é o número de grupos 𝒒𝜶𝑮𝑳𝒏𝑮𝑳 é um valor tabelado Tabela de Tukey e 𝑸𝑴𝑫 é o erro quadrático dentro do grupo 𝑯𝟎 𝝁𝒊 𝝁𝒋 𝒊 𝒋 𝑯𝟏 𝝁𝒊 𝒊 𝒋 Rejeitase a hipótese nula se ഥ𝒙𝒊 ഥ𝒙𝒋 𝑫𝑴𝑺 Método de Tukey É possível construir um intervalo de 1001𝜶 para a diferença entre todos os pares de médias ഥ𝒙𝒊 ഥ𝒙𝒋 𝒒𝜶𝒌𝒏𝒌 𝑸𝑴𝑫 𝒏 Método de Tukey Exemplo Um exame foi aplicado em 3 grupos de 9 crianças as quais receberam diferentes níveis de motivação baixa média e alta para matemática Há diferenças significativas entre os níveis de motivação Fontes de variação SQ GL QM F Entre grupos 𝑆𝑄𝐸 11496 k1 2 𝑄𝑀𝐸 5748 𝑄𝑀𝐸 𝑄𝑀𝐷 781 Dentro dos grupos 𝑆𝑄𝐷 17645 nk 24 𝑄𝑀𝐷 735 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 29141 n1 26 𝑭𝟎𝟎𝟓𝟒𝟐𝟎 340 ao nível de 5 rejeitase 𝑯𝟎 e concluímos que as médias de tratamentos diferem entre si existe diferença entre os níveis de motivação 𝑯𝟎 𝝁𝟏 𝝁𝟐 𝝁𝟑 𝝁𝟒 𝝁𝟓 𝑯𝟏 pelo menos uma das média é diferente 𝑯𝟎 𝝁𝒊 𝝁𝒋 𝒊 𝒋 Temos kk12 comparações duas a duas 𝑫𝑴𝑺 𝒒𝟎𝟎𝟓𝟑𝟐𝟒 𝑸𝑴𝑫 𝒏 𝟑 𝟓𝟑 𝟕 𝟑𝟓 𝟐𝟕 𝟎 𝟓𝟐𝟐 Comparando os pares de médias ഥ𝒙𝑩𝒂𝒊𝒙𝒂 𝟓 𝟏𝟏 ഥ𝒙𝑴é𝒅𝒊𝒂 𝟖 𝟔𝟕 ഥ𝒙𝑨𝒍𝒕𝒂 𝟑 𝟕𝟖 ഥ𝒙𝑩𝒂𝒊𝒙𝒂 ഥ𝒙𝑴é𝒅𝒊𝒂 𝟑 𝟓𝟔 𝑫𝑴𝑺 𝟎 𝟓𝟐𝟐 Rejeitase 𝑯𝟎 ഥ𝒙𝑩𝒂𝒊𝒙𝒂 ഥ𝒙𝑨𝒍𝒕𝒂 𝟏 𝟑𝟑 𝑫𝑴𝑺 𝟎 𝟓𝟐𝟐 Rejeitase 𝑯𝟎 ഥ𝒙𝑴é𝒅𝒊𝒂 ഥ𝒙𝑨𝒍𝒕𝒂 𝟒 𝟖𝟗 𝑫𝑴𝑺 𝟎 𝟓𝟐𝟐 Rejeitase 𝑯𝟎 Conclusão Pelo teste de Tukey ao nível de significância de 5 as médias dos todas as médias dos grupos presentam diferença significativa Ou seja há diferença entre todos os níveis de motivação Principais diferenças entre os métodos Bonferroni Este teste é aplicável a três ou mais grupos e é conservador o que significa que ele é menos propenso a erros tipo I falso positivo mas também é menos poderoso Melhor usado quando o número de comparações é baixo Principais diferenças entre os métodos Tukey Este teste é aplicável a três ou mais grupos e pressupõe que as variâncias dos grupos são iguais Melhor usado quando o número de comparações é alto Exercício Faça as comparações múltiplas utilizando os métodos de Bonferroni e Tukey para o exemplo da comparação de quilômetros percorridos por carros de 3 marcas CREDITS This presentation template was created by Slidesgo including icons by Flaticon infographics images by Freepik Referências Triola M F Introdução à estatística 12ª edição Rio de Janeiro LTC 2017