15
Estatística 1
UMG
1
Estatística 1
UMG
5
Estatística 1
UMG
21
Estatística 1
UMG
1
Estatística 1
UMG
7
Estatística 1
UMG
1
Estatística 1
UMG
1
Estatística 1
UMG
9
Estatística 1
UMG
1
Estatística 1
UMG
Texto de pré-visualização
1 Defina e exemplifique a Efeito Aleatório b Efeito Fixo c Modelo Aleatório d Modelo Fixo e Modelo Misto 2 O que são componentes de Variância Como se podem estimálos 3 Dado o modelo Yij m ti bj eij com m e ti fixos e bj e eij aleatórios com médias zero e variâncias σb² e σ² respectivamente Pedese a Vy i b Vy c Vyij 4 De um experimento você retira duas amostras A e B com nA 25 observações e nB 30 observações com valores médios XA 15 e XB 17 e variâncias sA² 16 e sB² 36 Qual delas foi estimada com maior precisão 5 Quando utilizar o erro padrão da média ou desvio padrão 6 Qual a utilização do coeficiente de variação e qual sua amplitude 7 Qual a definição de análise de variância 8 Quais as hipóteses que são testadas na ANOVA no caso de um fator considerando aleatório e depois fixo 9 Ao realizar um teste de comparação múltipla exemplo teste de TUKEY e DUNNET qual a hipótese que está sendo testada e qual a diferença entre os testes 10 Qual a amplitude das estatísticas a Média b Desvio padrão c Erro padrão da média d Coeficiente de variação e Covariância f Coeficiente de correlação 11 Qual a estatística que define o sinal do coeficiente de correlação e qual a interpretação dessa estatística 12 Qual a definição de graus de liberdade e como é calculado 1 Defina e exemplifique a Efeito Aleatório b Efeito Fixo c Modelo Aleatório d Modelo Fixo e Modelo Misto a Efeito aleatório Em um fator de efeitos aleatórios os níveis observados são considerados uma amostra aleatória de um conjunto maior de níveis possíveis e os efeitos associados a esses níveis são tratados como variáveis aleatórias usualmente com média zero e variância específica Em notação de um ANOVA de um fator escrevese yij μ αi εij αi N0 σa² εij N0 σ² com independência entre αi e εij O interesse recai em σa² variância entre níveis e não em comparar níveis específicos Exemplo escolher aleatoriamente g escolas de um estado e medir a proficiência média dos alunos o efeito escola αi é aleatório pois cada escola é uma realização possível dentre muitas b Efeito fixo Em um fator de efeitos fixos os níveis são exatamente aqueles de interesse no estudo e os efeitos associados são parâmetros determinísticos a estimar e comparar No modelo de um fator escrevese yij μ αi εij εij N0σ² com αi constantes costumase impor Σi αi 0 para identificabilidade O interesse está em contrastes como αi αi Exemplo comparar três métodos de ensino A B e C definidos previamente desejase concluir sobre A B e C e não generalizar para outros métodos d Modelo fixo É o modelo em que todos os efeitos são fixos Em regressão linear clássica y X β ε ε N0 σ² I com interesse em estimar e testar componentes de β Em ANOVA de efeitos fixos todos os fatores têm níveis fixos de interesse Exemplo regressão de rendimento escolar em função de dose de um programa educacional com níveis específicos 0 5 10 horas as doses são fixas e a conclusão vale para esses níveis e Modelo misto Combina efeitos fixos parâmetros de interesse direto e efeitos aleatórios fontes de variação não determinísticas que se deseja modelar como amostras de uma população O modelo linear de efeitos mistos é escrito como y X β Z u ε u N0 G ε N0 R onde X β representa os efeitos fixos e Z u os aleatórios A inferência usual envolve estimar β e os componentes de variância em G e R Exemplo ensaio multicêntrico com tratamento T como efeito fixo e centro como intercepto aleatório o objetivo é estimar o efeito médio de T generalizando para a população de centros ao mesmo tempo em que se modela a heterogeneidade entre centros Observações conceituais que ajudam a distinguir Quando o interesse é comparar níveis específicos de um fator usase efeito fixo quando os níveis observados são amostras de uma população de níveis e a meta é quantificar a variabilidade entre níveis usase efeito aleatório Modelos fixos contêm apenas efeitos fixos modelos aleatórios contêm apenas efeitos aleatórios modelos mistos contêm ambos Em termos de parâmetros efeitos fixos aparecem em X β enquanto efeitos aleatórios aparecem em Z u com distribuição especificada o que induz estrutura de covariância em y 2 O que são componentes de Variância Como se podem estimálos Componentes de variância são os parâmetros que decompõem a variabilidade total de uma resposta em parcelas atribuíveis a diferentes fontes aleatórias em um modelo com efeitos aleatórios No modelo linear misto y X β Z u ε u N0 G ε N0 R a matriz de covariância de y é V Z G Z R Os componentes de variância são as quantidades não negativas que parametrizam G e R por exemplo variância entre grupos variância residual covariâncias aleatórias Para explicar como estimálos considerase primeiro o modelo de um fator com intercepto aleatório delineamento balanceado g grupos n observações por grupo yij μ ai εij ai N0 σa2 εij N0 σ2 com i 1g e j 1n A variância total se decompõe como σa2 entre grupos e σ2 dentro dos grupos Método dos Momentos via ANOVA As esperanças dos quadrados médios são EMSE σ2 EMSA σ2 nσa2 Substituindo MSA e MSE amostrais e resolvendo o sistema linear obtémse σ2 MSE σa2 MSA MSE n truncando em zero se MSA MSE Exemplo numérico curto apenas para ilustrar o cálculo de momentos Suponha g 3 grupos n 4 por grupo com médias por grupo yA 1013 yB 1203 yC 955 e média geral y 1057 Os somatórios de quadrados são SSA n i1g yi y2 1342 SSE ij yij yi2 022 Os quadrados médios ficam MSA SSA g 1 1342 2 671 MSE SSE gn 1 022 9 003 Logo σ2 003 σa2 671 003 4 668 4 167 Esses números ilustram como o método dos momentos isola a parcela entre grupos e a parcela residual Máxima verossimilhança e verossimilhança restrita Em geral em modelos mistos com uma ou várias fontes aleatórias e dados possivelmente desbalanceados estimamse os componentes de variância maximizando a verossimilhança ML ou a verossimilhança restrita REML Escrevese ℓθ 12 log Vθ y XβTVθ1y Xβ N log 2π onde θ coleta os componentes de variância e β é o estimador de GLS dado θ No REML adicionase o termo log XTVθ1X e substituise N por N p o que remove o viés de estimar β A maximização é numérica por exemplo NewtonRaphson ou EM e produz θ não negativos Em delineamentos balanceados simples ANOVA por momentos e REML coincidem nos estimadores 3 Dado o modelo Yij m ti bj eij com m e ti fixos e bj e eij aleatórios com médias zero e variâncias σb2 e σ2 respectivamente Pedese a Vyi b Vy c Vyij Considere i 1a tratamentos e j 1r blocos O modelo dado é Yij m ti bj eij em que m e ti são fixos bj e eij são aleatórios independentes entre si com Ebj 0 Varbj σb2 Eeij 0 Vareij σ2 Como m e ti são fixos eles não contribuem para as variâncias a Variância de yi Definese a média do tratamento i ao longo dos r blocos yi 1r j1r Yij m ti 1r j1r bj 1r j1r eij Pela independência entre bj e eij Varyi Var1r j1r bj Var1r j1r eij Para termos independentes e identicamente distribuídos usase Var Zj VarZj e VarcZ c2 VarZ Assim Var1r j1r bj 1r2 j1r Varbj 1r2 r σb2 σb2 r Var1r j1r eij 1r2 j1r Vareij 1r2 r σ2 σ2 r Logo Varyi σb2 σ2 r b Variância de y A média geral é y 1ar i1a j1r Yij m t 1ar i1a j1r bj 1ar i1a j1r eij com t 1a i1a ti fixo Observase que i1a j1r bj a j1r bj Assim a parte aleatória de y é 1r j1r bj 1ar i1a j1r eij Pela independência Vary Var1r j1r bj Var1ar i1a j1r eij O primeiro termo já foi calculado como σb2 r O segundo termo usa ar erros independentes Var1ar i1a j1r eij 1a2 r2 ar σ2 σ2 ar Concluise que Vary σb2 r σ2 ar c Variância de yij Como Yij m ti bj eij e m ti são fixos VarYij Varbj eij Varbj Vareij 2 Covbj eij Pela independência entre bj e eij Covbj eij 0 Portanto Varyij σb2 σ2 4 De um experimento você retira duas amostras A e B com nA 25 observações e nB 30 observações com valores médios XA 15 e XB 17 e variâncias sA2 16 e sB2 36 Qual delas foi estimada com maior precisão Para comparar a precisão das duas médias amostrais usase que a variância do estimador X é VarX s2 n e o erro padrão é EPX VarX s2 n Quanto menor VarX ou EPX maior a precisão Para a amostra A com nA 25 e sA2 16 VarXA 1625 064 EPXA 064 080 Para a amostra B com nB 30 e sB2 36 VarXB 3630 120 EPXB 120 110 Como 064 120 e 080 110 concluise que a média estimada com maior precisão é a da amostra A 5 Quando utilizar o erro padrão da média ou desvio padrão O desvio padrão descreve a variabilidade dos dados individuais em torno da média enquanto o erro padrão da média descreve a incerteza do estimador X como média da população Portanto usase o desvio padrão para resumir a dispersão dos valores observados e usase o erro padrão da média quando o objetivo é relatar a precisão da estimativa da média ou compor inferências intervalos de confiança e testes Para dados iid com tamanho amostral n média x e desvio padrão amostral s s 1 n1 i1 to n xi x2 EPX s n O primeiro mede dispersão entre indivíduos o segundo mede a dispersão da distribuição amostral de X Se n aumentar e s permanecer o mesmo EPX diminui porque n aumenta Para visualizar a diferença considere s 600 fixo e dois tamanhos amostrais Com n 10 EP1 600 10 600 316 190 Com n 40 EP2 600 40 600 632 095 Mantido o mesmo s dobrar n reduz o erro padrão pela metade mas não altera o desvio padrão pois a variabilidade entre indivíduos não muda Em relatórios descritivos de uma amostra por exemplo altura dos alunos é apropriado apresentar x e s para caracterizar centro e dispersão dos dados Em estimativas e comparações de médias por exemplo construir um intervalo de confiança para a média ou exibir barras que representem a incerteza de x usase EPX ou de preferência o próprio intervalo de confiança construído a partir dele 6 Qual a utilização do coeficiente de variação e qual sua amplitude O coeficiente de variação mede a dispersão relativa sem unidade de uma variável em relação ao seu nível médio Em população definese CV σ μ e em amostra CV s x onde σ e s são os desvios padrão e μ e x são as médias Em porcentagem escrevese CV 100 s x Utilização Usase o coeficiente de variação quando se deseja comparar a variabilidade entre conjuntos com escalas ou unidades diferentes pois ele é invariante a mudanças de escala Se λ 0 então CVλX λ λ sX xX sX xX CVX Ele é apropriado quando a média é estritamente positiva e faz sentido discutir variabilidade relativa por exemplo rendimento concentração tempo altura Se μ 0 ou x próximo de zero CV tornase indefinido ou instável e não deve ser usado Amplitude Como s 0 e x 0 ou μ 0 temse CV 0 isto é de 0 até valores arbitrariamente grandes em porcentagem CV 0 O valor CV 0 ocorre apenas quando não há variabilidade s 0 Exemplo numérico curto para fixar a ideia Considere dois conjuntos A e B em que B é A multiplicado por 10 Calculando média desvio padrão e CV amostral xA 1080 sA 277 CVA 277 1080 026 2569 xB 10800 sB 2775 CVB 2775 10800 026 2569 Observase que embora a escala tenha mudado de um fator 10 o CV permaneceu o mesmo evidenciando seu uso para comparar variabilidade relativa entre conjuntos com escalas distintas 7 Qual a definição de análise de variância A análise de variância é um procedimento de inferência que expressa a variabilidade total de uma resposta como soma de parcelas atribuíveis a efeitos sistemáticos especificados no modelo e a um erro aleatório e usa essa decomposição para testar hipóteses sobre médias No caso clássico de um fator com a grupos e ni observações no grupo i modelase Yij μ αi εij εij N0 σ2 em que μ é a média geral αi representa o efeito fixo do grupo i e εij é o erro A definição operacional decorre da identidade de soma de quadrados que decompõe a variação total em variação entre grupos e variação dentro de grupos SST i1 to a j1 to ni Yij Ȳ2 i1 to a ni Ȳi Ȳ2 i1 to a j1 to ni Yij Ȳi2 onde os termos são identificados como SSA e SSE respectivamente onde 𝑌𝑖 é a média do grupo 𝑖 e 𝑌 a média global Dividindo cada parcela pelos respectivos graus de liberdade obtêmse os quadrados médios 𝑀𝑆𝐴 𝑆𝑆𝐴𝑎 1 𝑀𝑆𝐸 𝑆𝑆𝐸𝑁 𝑎 com 𝑁 𝑖1𝑎𝑛𝑖 O teste de igualdade de médias 𝐻0 𝛼1 𝛼𝑎 0 utiliza a estatística 𝐹 𝑀𝑆𝐴𝑀𝑆𝐸 que sob 𝐻0 tem distribuição 𝐹𝑎1 𝑁𝑎 Valores grandes de 𝐹 indicam que a parcela de variação explicada pelos grupos excede a variação residual compatível com o acaso levando à rejeição de 𝐻0 Em forma geral de modelos lineares a análise de variância testa hipóteses lineares sobre parâmetros 𝛽 no modelo 𝑦 𝑋𝛽 𝜀 por meio de projeções ortogonais que particionam a soma de quadrados total e constroem razões 𝐹 Extensões incluem arranjos fatoriais blocos covariáveis e efeitos aleatórios ou mistos sempre com a mesma ideia central decompor a variabilidade e comparar componentes por razões de quadrados médios 8 Quais as hipóteses que são testadas na ANOVA no caso de um fator considerando aleatório e depois fixo Para um único fator com 𝑎 níveis e 𝑛 observações por nível consideramse dois quadros conceituais distintos a Fator aleatório Modelo 𝑌𝑖𝑗 𝜇 𝛼𝑖 𝜀𝑖𝑗 𝛼𝑖 𝒩0𝜎𝑎2 𝜀𝑖𝑗 𝒩0𝜎2 com independência A hipótese central na ANOVA de um fator aleatório é sobre o componente de variância entre níveis 𝐻0 𝜎𝑎2 0 versus 𝐻1 𝜎𝑎2 0 A razão 𝐹 usa 𝐹 𝑀𝑆𝐴𝑀𝑆𝐸 O motivo é que 𝔼𝑀𝑆𝐸 𝜎2 𝔼𝑀𝑆𝐴 𝜎2 𝑛𝜎𝑎2 de modo que sob 𝐻0 𝔼𝑀𝑆𝐴 𝔼𝑀𝑆𝐸 e esperase 𝐹 1 Valores grandes de 𝐹 indicam 𝜎𝑎2 0 b Fator fixo Modelo 𝑌𝑖𝑗 𝜇 𝛼𝑖 𝜀𝑖𝑗 𝜀𝑖𝑗 𝒩0𝜎2 𝑖1𝑎𝛼𝑖0 A hipótese testada compara médias entre níveis específicos do fator 𝐻0 𝛼1 𝛼2 𝛼𝑎 0 𝜇1 𝜇2 𝜇𝑎 versus 𝐻1 existe 𝑖 𝑘 com 𝜇𝑖 𝜇𝑘 Usase a mesma razão 𝐹 𝑀𝑆𝐴𝑀𝑆𝐸 com distribuição 𝐹𝑎1 𝑁𝑎 sob 𝐻0 onde 𝑁 𝑎𝑛 Valores grandes de 𝐹 rejeitam a igualdade de médias 9 Ao realizar um teste de comparação múltipla exemplo teste de TUKEY e DUNNET qual a hipótese que está sendo testada e qual a diferença entre os testes Considere um fator fixo com 𝑎 médias populacionais 𝜇1 𝜇𝑎 somando 𝑁 observações e graus de liberdade residuais 𝜈 𝑁 𝑎 Denote 𝑀𝑆𝐸 a variância residual da ANOVA e 𝑛𝑖 o tamanho do grupo 𝑖 equilíbrio quando 𝑛𝑖 𝑛 para todos Hipóteses testadas no procedimento de Tukey O teste de Tukey controla o erro familiar a nível 𝛼 para todas as comparações pareadas entre médias Para cada par 𝑖 𝑗 testase simultaneamente 𝐻0𝑖𝑗 𝜇𝑖 𝜇𝑗 0 versus 𝐻1𝑖𝑗 𝜇𝑖 𝜇𝑗 0 O critério usa a distribuição do alcance studentizado 𝑞 No caso desbalanceado TukeyKramer rejeitase 𝐻0𝑖𝑗 quando 𝑌𝑖 𝑌𝑗 𝑞𝛼𝑎𝜈 𝑀𝑆𝐸2 1𝑛𝑖 1𝑛𝑗 No caso balanceado isto se reduz a 𝑌𝑖 𝑌𝑗 𝑞𝛼𝑎𝜈 𝑀𝑆𝐸𝑛 e os intervalos simultâneos são 𝑌𝑖 𝑌𝑗 𝑞𝛼𝑎𝜈 𝑀𝑆𝐸2 1𝑛𝑖 1𝑛𝑗 Hipóteses testadas no procedimento de Dunnett O teste de Dunnett controla o erro familiar a nível 𝛼 quando o interesse é comparar 𝑎 1 tratamentos a um controle 𝑐 Para cada tratamento 𝑖 𝑐 testase simultaneamente 𝐻0𝑖 𝜇𝑖 𝜇𝑐 0 versus 𝐻1𝑖 𝜇𝑖 𝜇𝑐 0 bicaudal há também versões unicaudais A regra de decisão usa a constante de Dunnett 𝑑𝛼𝑎1𝜈 derivada de uma distribuição t multivariada Rejeitase 𝐻0𝑖 quando 𝑌𝑖 𝑌𝑐 𝑑𝛼𝑎1𝜈 𝑀𝑆𝐸1𝑛𝑖 1𝑛𝑐 Os intervalos simultâneos correspondentes são 𝑌𝑖 𝑌𝑐 𝑑𝛼𝑎1𝜈 𝑀𝑆𝐸1𝑛𝑖 1𝑛𝑐 Diferença essencial entre os testes O teste de Tukey cobre todas as 𝑎𝑎 12 comparações par a par e por isso é apropriado quando qualquer diferença entre quaisquer dois níveis é de interesse O teste de Dunnett restringese às 𝑎 1 comparações de cada tratamento com um controle predefinido sendo em geral mais poderoso para esse objetivo específico por ajustar menos comparações e usar a correlação entre elas Em ambos supõese normalidade homocedasticidade e independência e o controle é do erro familiar a nível 𝛼 apenas a família de hipóteses difere 10 Qual a amplitude das estatísticas a Média b Desvio padrão c Erro padrão da média d Coeficiente de variação e Covariância f Coeficiente de correlação Item a Para uma variável real a média amostral é combinação linear dos dados Como combinações lineares de números reais podem assumir quaisquer valores reais sua amplitude como estatística é Observase também que para um conjunto de dados fixo vale min max Item b O desvio padrão amostral é a raiz quadrada de uma soma de quadrados Como somas de quadrados são 0 e a função raiz quadrada envia concluise que a amplitude é O valor 0 ocorre apenas quando todos os são iguais Item c O erro padrão da média é Como para temse Logo a amplitude é Ele vale 0 quando todos os dados iguais e tende a 0 quando com fixo Item d O coeficiente de variação amostral é Se como como resulta Se o é indefinido se é muito pequeno pode ser arbitrariamente grande Item e A covariância amostral pode ser positiva negativa ou nula Pela desigualdade de CauchySchwarz como podem ser arbitrariamente grandes ao variar os dados a covariância não é limitada por um número fixo Assim a amplitude é Item f O coeficiente de correlação amostral é para e Pela mesma desigualdade de CauchySchwarz concluindose que Portanto a amplitude é com quando os pontos estão exatamente em uma reta crescente ou decrescente 11 Qual a estatística que define o sinal do coeficiente de correlação e qual a interpretação dessa estatística A estatística que determina o sinal do coeficiente de correlação é a covariância amostral Como o sinal de coincide exatamente com o sinal de isto é Interpretação de A soma agrega produtos de desvios em relação às médias termos com o mesmo sinal ambos acima da média ou ambos abaixo contribuem positivamente termos com sinais opostos contribuem negativamente Portanto tendência de e crescerem ou diminuírem juntos associação linear positiva tendência de crescer quando diminui e viceversa associação linear negativa ausência de associação linear média pode haver relação não linear Relação útil com a regressão linear O mesmo sinal aparece no coeficiente angular do ajuste de mínimos quadrados de em Assim covariância positiva implica reta ajustada com inclinação positiva e correlação positiva covariância negativa implica inclinação negativa e correlação negativa 12 Qual a definição de graus de liberdade e como é calculado Grau de liberdade é a quantidade de informações independentes que podem variar livremente após impor as restrições do modelo ou do estimador Em termos algébricos em um modelo linear com observações e matriz de projeto o número de graus de liberdade associado ao resíduo é isto é número de observações menos o número de parâmetros efetivamente estimados o posto de Em somas de quadrados os graus de liberdade são as dimensões dos subespaços aos quais os dados são projetados Como se calcula em situações usuais Amostra simples e variância amostral Para a média impõe a identidade Fixados desvios o último é forçado a ser Há exatamente quantidades que podem variar livremente Por isso Exemplo concreto para fixar a ideia se então ANOVA de um fator fixo a grupos observações no grupo e No modelo com a restrição existem efeitos de tratamento independentes e resíduos independentes Assim com a verificação Exemplo numérico apenas ilustrativo se e cada grupo tem observações então e notase que Regressão linear com intercepto e preditores logo parâmetros ao todo Com observações e Exemplo ilustrativo se e então e com Síntese conceitual Calculase graus de liberdade sempre como sendo as restrições por exemplo parâmetros estimados ou identidades como Essa regra produz para a variância amostral e em ANOVA de um fator e para resíduos em regressão linear
15
Estatística 1
UMG
1
Estatística 1
UMG
5
Estatística 1
UMG
21
Estatística 1
UMG
1
Estatística 1
UMG
7
Estatística 1
UMG
1
Estatística 1
UMG
1
Estatística 1
UMG
9
Estatística 1
UMG
1
Estatística 1
UMG
Texto de pré-visualização
1 Defina e exemplifique a Efeito Aleatório b Efeito Fixo c Modelo Aleatório d Modelo Fixo e Modelo Misto 2 O que são componentes de Variância Como se podem estimálos 3 Dado o modelo Yij m ti bj eij com m e ti fixos e bj e eij aleatórios com médias zero e variâncias σb² e σ² respectivamente Pedese a Vy i b Vy c Vyij 4 De um experimento você retira duas amostras A e B com nA 25 observações e nB 30 observações com valores médios XA 15 e XB 17 e variâncias sA² 16 e sB² 36 Qual delas foi estimada com maior precisão 5 Quando utilizar o erro padrão da média ou desvio padrão 6 Qual a utilização do coeficiente de variação e qual sua amplitude 7 Qual a definição de análise de variância 8 Quais as hipóteses que são testadas na ANOVA no caso de um fator considerando aleatório e depois fixo 9 Ao realizar um teste de comparação múltipla exemplo teste de TUKEY e DUNNET qual a hipótese que está sendo testada e qual a diferença entre os testes 10 Qual a amplitude das estatísticas a Média b Desvio padrão c Erro padrão da média d Coeficiente de variação e Covariância f Coeficiente de correlação 11 Qual a estatística que define o sinal do coeficiente de correlação e qual a interpretação dessa estatística 12 Qual a definição de graus de liberdade e como é calculado 1 Defina e exemplifique a Efeito Aleatório b Efeito Fixo c Modelo Aleatório d Modelo Fixo e Modelo Misto a Efeito aleatório Em um fator de efeitos aleatórios os níveis observados são considerados uma amostra aleatória de um conjunto maior de níveis possíveis e os efeitos associados a esses níveis são tratados como variáveis aleatórias usualmente com média zero e variância específica Em notação de um ANOVA de um fator escrevese yij μ αi εij αi N0 σa² εij N0 σ² com independência entre αi e εij O interesse recai em σa² variância entre níveis e não em comparar níveis específicos Exemplo escolher aleatoriamente g escolas de um estado e medir a proficiência média dos alunos o efeito escola αi é aleatório pois cada escola é uma realização possível dentre muitas b Efeito fixo Em um fator de efeitos fixos os níveis são exatamente aqueles de interesse no estudo e os efeitos associados são parâmetros determinísticos a estimar e comparar No modelo de um fator escrevese yij μ αi εij εij N0σ² com αi constantes costumase impor Σi αi 0 para identificabilidade O interesse está em contrastes como αi αi Exemplo comparar três métodos de ensino A B e C definidos previamente desejase concluir sobre A B e C e não generalizar para outros métodos d Modelo fixo É o modelo em que todos os efeitos são fixos Em regressão linear clássica y X β ε ε N0 σ² I com interesse em estimar e testar componentes de β Em ANOVA de efeitos fixos todos os fatores têm níveis fixos de interesse Exemplo regressão de rendimento escolar em função de dose de um programa educacional com níveis específicos 0 5 10 horas as doses são fixas e a conclusão vale para esses níveis e Modelo misto Combina efeitos fixos parâmetros de interesse direto e efeitos aleatórios fontes de variação não determinísticas que se deseja modelar como amostras de uma população O modelo linear de efeitos mistos é escrito como y X β Z u ε u N0 G ε N0 R onde X β representa os efeitos fixos e Z u os aleatórios A inferência usual envolve estimar β e os componentes de variância em G e R Exemplo ensaio multicêntrico com tratamento T como efeito fixo e centro como intercepto aleatório o objetivo é estimar o efeito médio de T generalizando para a população de centros ao mesmo tempo em que se modela a heterogeneidade entre centros Observações conceituais que ajudam a distinguir Quando o interesse é comparar níveis específicos de um fator usase efeito fixo quando os níveis observados são amostras de uma população de níveis e a meta é quantificar a variabilidade entre níveis usase efeito aleatório Modelos fixos contêm apenas efeitos fixos modelos aleatórios contêm apenas efeitos aleatórios modelos mistos contêm ambos Em termos de parâmetros efeitos fixos aparecem em X β enquanto efeitos aleatórios aparecem em Z u com distribuição especificada o que induz estrutura de covariância em y 2 O que são componentes de Variância Como se podem estimálos Componentes de variância são os parâmetros que decompõem a variabilidade total de uma resposta em parcelas atribuíveis a diferentes fontes aleatórias em um modelo com efeitos aleatórios No modelo linear misto y X β Z u ε u N0 G ε N0 R a matriz de covariância de y é V Z G Z R Os componentes de variância são as quantidades não negativas que parametrizam G e R por exemplo variância entre grupos variância residual covariâncias aleatórias Para explicar como estimálos considerase primeiro o modelo de um fator com intercepto aleatório delineamento balanceado g grupos n observações por grupo yij μ ai εij ai N0 σa2 εij N0 σ2 com i 1g e j 1n A variância total se decompõe como σa2 entre grupos e σ2 dentro dos grupos Método dos Momentos via ANOVA As esperanças dos quadrados médios são EMSE σ2 EMSA σ2 nσa2 Substituindo MSA e MSE amostrais e resolvendo o sistema linear obtémse σ2 MSE σa2 MSA MSE n truncando em zero se MSA MSE Exemplo numérico curto apenas para ilustrar o cálculo de momentos Suponha g 3 grupos n 4 por grupo com médias por grupo yA 1013 yB 1203 yC 955 e média geral y 1057 Os somatórios de quadrados são SSA n i1g yi y2 1342 SSE ij yij yi2 022 Os quadrados médios ficam MSA SSA g 1 1342 2 671 MSE SSE gn 1 022 9 003 Logo σ2 003 σa2 671 003 4 668 4 167 Esses números ilustram como o método dos momentos isola a parcela entre grupos e a parcela residual Máxima verossimilhança e verossimilhança restrita Em geral em modelos mistos com uma ou várias fontes aleatórias e dados possivelmente desbalanceados estimamse os componentes de variância maximizando a verossimilhança ML ou a verossimilhança restrita REML Escrevese ℓθ 12 log Vθ y XβTVθ1y Xβ N log 2π onde θ coleta os componentes de variância e β é o estimador de GLS dado θ No REML adicionase o termo log XTVθ1X e substituise N por N p o que remove o viés de estimar β A maximização é numérica por exemplo NewtonRaphson ou EM e produz θ não negativos Em delineamentos balanceados simples ANOVA por momentos e REML coincidem nos estimadores 3 Dado o modelo Yij m ti bj eij com m e ti fixos e bj e eij aleatórios com médias zero e variâncias σb2 e σ2 respectivamente Pedese a Vyi b Vy c Vyij Considere i 1a tratamentos e j 1r blocos O modelo dado é Yij m ti bj eij em que m e ti são fixos bj e eij são aleatórios independentes entre si com Ebj 0 Varbj σb2 Eeij 0 Vareij σ2 Como m e ti são fixos eles não contribuem para as variâncias a Variância de yi Definese a média do tratamento i ao longo dos r blocos yi 1r j1r Yij m ti 1r j1r bj 1r j1r eij Pela independência entre bj e eij Varyi Var1r j1r bj Var1r j1r eij Para termos independentes e identicamente distribuídos usase Var Zj VarZj e VarcZ c2 VarZ Assim Var1r j1r bj 1r2 j1r Varbj 1r2 r σb2 σb2 r Var1r j1r eij 1r2 j1r Vareij 1r2 r σ2 σ2 r Logo Varyi σb2 σ2 r b Variância de y A média geral é y 1ar i1a j1r Yij m t 1ar i1a j1r bj 1ar i1a j1r eij com t 1a i1a ti fixo Observase que i1a j1r bj a j1r bj Assim a parte aleatória de y é 1r j1r bj 1ar i1a j1r eij Pela independência Vary Var1r j1r bj Var1ar i1a j1r eij O primeiro termo já foi calculado como σb2 r O segundo termo usa ar erros independentes Var1ar i1a j1r eij 1a2 r2 ar σ2 σ2 ar Concluise que Vary σb2 r σ2 ar c Variância de yij Como Yij m ti bj eij e m ti são fixos VarYij Varbj eij Varbj Vareij 2 Covbj eij Pela independência entre bj e eij Covbj eij 0 Portanto Varyij σb2 σ2 4 De um experimento você retira duas amostras A e B com nA 25 observações e nB 30 observações com valores médios XA 15 e XB 17 e variâncias sA2 16 e sB2 36 Qual delas foi estimada com maior precisão Para comparar a precisão das duas médias amostrais usase que a variância do estimador X é VarX s2 n e o erro padrão é EPX VarX s2 n Quanto menor VarX ou EPX maior a precisão Para a amostra A com nA 25 e sA2 16 VarXA 1625 064 EPXA 064 080 Para a amostra B com nB 30 e sB2 36 VarXB 3630 120 EPXB 120 110 Como 064 120 e 080 110 concluise que a média estimada com maior precisão é a da amostra A 5 Quando utilizar o erro padrão da média ou desvio padrão O desvio padrão descreve a variabilidade dos dados individuais em torno da média enquanto o erro padrão da média descreve a incerteza do estimador X como média da população Portanto usase o desvio padrão para resumir a dispersão dos valores observados e usase o erro padrão da média quando o objetivo é relatar a precisão da estimativa da média ou compor inferências intervalos de confiança e testes Para dados iid com tamanho amostral n média x e desvio padrão amostral s s 1 n1 i1 to n xi x2 EPX s n O primeiro mede dispersão entre indivíduos o segundo mede a dispersão da distribuição amostral de X Se n aumentar e s permanecer o mesmo EPX diminui porque n aumenta Para visualizar a diferença considere s 600 fixo e dois tamanhos amostrais Com n 10 EP1 600 10 600 316 190 Com n 40 EP2 600 40 600 632 095 Mantido o mesmo s dobrar n reduz o erro padrão pela metade mas não altera o desvio padrão pois a variabilidade entre indivíduos não muda Em relatórios descritivos de uma amostra por exemplo altura dos alunos é apropriado apresentar x e s para caracterizar centro e dispersão dos dados Em estimativas e comparações de médias por exemplo construir um intervalo de confiança para a média ou exibir barras que representem a incerteza de x usase EPX ou de preferência o próprio intervalo de confiança construído a partir dele 6 Qual a utilização do coeficiente de variação e qual sua amplitude O coeficiente de variação mede a dispersão relativa sem unidade de uma variável em relação ao seu nível médio Em população definese CV σ μ e em amostra CV s x onde σ e s são os desvios padrão e μ e x são as médias Em porcentagem escrevese CV 100 s x Utilização Usase o coeficiente de variação quando se deseja comparar a variabilidade entre conjuntos com escalas ou unidades diferentes pois ele é invariante a mudanças de escala Se λ 0 então CVλX λ λ sX xX sX xX CVX Ele é apropriado quando a média é estritamente positiva e faz sentido discutir variabilidade relativa por exemplo rendimento concentração tempo altura Se μ 0 ou x próximo de zero CV tornase indefinido ou instável e não deve ser usado Amplitude Como s 0 e x 0 ou μ 0 temse CV 0 isto é de 0 até valores arbitrariamente grandes em porcentagem CV 0 O valor CV 0 ocorre apenas quando não há variabilidade s 0 Exemplo numérico curto para fixar a ideia Considere dois conjuntos A e B em que B é A multiplicado por 10 Calculando média desvio padrão e CV amostral xA 1080 sA 277 CVA 277 1080 026 2569 xB 10800 sB 2775 CVB 2775 10800 026 2569 Observase que embora a escala tenha mudado de um fator 10 o CV permaneceu o mesmo evidenciando seu uso para comparar variabilidade relativa entre conjuntos com escalas distintas 7 Qual a definição de análise de variância A análise de variância é um procedimento de inferência que expressa a variabilidade total de uma resposta como soma de parcelas atribuíveis a efeitos sistemáticos especificados no modelo e a um erro aleatório e usa essa decomposição para testar hipóteses sobre médias No caso clássico de um fator com a grupos e ni observações no grupo i modelase Yij μ αi εij εij N0 σ2 em que μ é a média geral αi representa o efeito fixo do grupo i e εij é o erro A definição operacional decorre da identidade de soma de quadrados que decompõe a variação total em variação entre grupos e variação dentro de grupos SST i1 to a j1 to ni Yij Ȳ2 i1 to a ni Ȳi Ȳ2 i1 to a j1 to ni Yij Ȳi2 onde os termos são identificados como SSA e SSE respectivamente onde 𝑌𝑖 é a média do grupo 𝑖 e 𝑌 a média global Dividindo cada parcela pelos respectivos graus de liberdade obtêmse os quadrados médios 𝑀𝑆𝐴 𝑆𝑆𝐴𝑎 1 𝑀𝑆𝐸 𝑆𝑆𝐸𝑁 𝑎 com 𝑁 𝑖1𝑎𝑛𝑖 O teste de igualdade de médias 𝐻0 𝛼1 𝛼𝑎 0 utiliza a estatística 𝐹 𝑀𝑆𝐴𝑀𝑆𝐸 que sob 𝐻0 tem distribuição 𝐹𝑎1 𝑁𝑎 Valores grandes de 𝐹 indicam que a parcela de variação explicada pelos grupos excede a variação residual compatível com o acaso levando à rejeição de 𝐻0 Em forma geral de modelos lineares a análise de variância testa hipóteses lineares sobre parâmetros 𝛽 no modelo 𝑦 𝑋𝛽 𝜀 por meio de projeções ortogonais que particionam a soma de quadrados total e constroem razões 𝐹 Extensões incluem arranjos fatoriais blocos covariáveis e efeitos aleatórios ou mistos sempre com a mesma ideia central decompor a variabilidade e comparar componentes por razões de quadrados médios 8 Quais as hipóteses que são testadas na ANOVA no caso de um fator considerando aleatório e depois fixo Para um único fator com 𝑎 níveis e 𝑛 observações por nível consideramse dois quadros conceituais distintos a Fator aleatório Modelo 𝑌𝑖𝑗 𝜇 𝛼𝑖 𝜀𝑖𝑗 𝛼𝑖 𝒩0𝜎𝑎2 𝜀𝑖𝑗 𝒩0𝜎2 com independência A hipótese central na ANOVA de um fator aleatório é sobre o componente de variância entre níveis 𝐻0 𝜎𝑎2 0 versus 𝐻1 𝜎𝑎2 0 A razão 𝐹 usa 𝐹 𝑀𝑆𝐴𝑀𝑆𝐸 O motivo é que 𝔼𝑀𝑆𝐸 𝜎2 𝔼𝑀𝑆𝐴 𝜎2 𝑛𝜎𝑎2 de modo que sob 𝐻0 𝔼𝑀𝑆𝐴 𝔼𝑀𝑆𝐸 e esperase 𝐹 1 Valores grandes de 𝐹 indicam 𝜎𝑎2 0 b Fator fixo Modelo 𝑌𝑖𝑗 𝜇 𝛼𝑖 𝜀𝑖𝑗 𝜀𝑖𝑗 𝒩0𝜎2 𝑖1𝑎𝛼𝑖0 A hipótese testada compara médias entre níveis específicos do fator 𝐻0 𝛼1 𝛼2 𝛼𝑎 0 𝜇1 𝜇2 𝜇𝑎 versus 𝐻1 existe 𝑖 𝑘 com 𝜇𝑖 𝜇𝑘 Usase a mesma razão 𝐹 𝑀𝑆𝐴𝑀𝑆𝐸 com distribuição 𝐹𝑎1 𝑁𝑎 sob 𝐻0 onde 𝑁 𝑎𝑛 Valores grandes de 𝐹 rejeitam a igualdade de médias 9 Ao realizar um teste de comparação múltipla exemplo teste de TUKEY e DUNNET qual a hipótese que está sendo testada e qual a diferença entre os testes Considere um fator fixo com 𝑎 médias populacionais 𝜇1 𝜇𝑎 somando 𝑁 observações e graus de liberdade residuais 𝜈 𝑁 𝑎 Denote 𝑀𝑆𝐸 a variância residual da ANOVA e 𝑛𝑖 o tamanho do grupo 𝑖 equilíbrio quando 𝑛𝑖 𝑛 para todos Hipóteses testadas no procedimento de Tukey O teste de Tukey controla o erro familiar a nível 𝛼 para todas as comparações pareadas entre médias Para cada par 𝑖 𝑗 testase simultaneamente 𝐻0𝑖𝑗 𝜇𝑖 𝜇𝑗 0 versus 𝐻1𝑖𝑗 𝜇𝑖 𝜇𝑗 0 O critério usa a distribuição do alcance studentizado 𝑞 No caso desbalanceado TukeyKramer rejeitase 𝐻0𝑖𝑗 quando 𝑌𝑖 𝑌𝑗 𝑞𝛼𝑎𝜈 𝑀𝑆𝐸2 1𝑛𝑖 1𝑛𝑗 No caso balanceado isto se reduz a 𝑌𝑖 𝑌𝑗 𝑞𝛼𝑎𝜈 𝑀𝑆𝐸𝑛 e os intervalos simultâneos são 𝑌𝑖 𝑌𝑗 𝑞𝛼𝑎𝜈 𝑀𝑆𝐸2 1𝑛𝑖 1𝑛𝑗 Hipóteses testadas no procedimento de Dunnett O teste de Dunnett controla o erro familiar a nível 𝛼 quando o interesse é comparar 𝑎 1 tratamentos a um controle 𝑐 Para cada tratamento 𝑖 𝑐 testase simultaneamente 𝐻0𝑖 𝜇𝑖 𝜇𝑐 0 versus 𝐻1𝑖 𝜇𝑖 𝜇𝑐 0 bicaudal há também versões unicaudais A regra de decisão usa a constante de Dunnett 𝑑𝛼𝑎1𝜈 derivada de uma distribuição t multivariada Rejeitase 𝐻0𝑖 quando 𝑌𝑖 𝑌𝑐 𝑑𝛼𝑎1𝜈 𝑀𝑆𝐸1𝑛𝑖 1𝑛𝑐 Os intervalos simultâneos correspondentes são 𝑌𝑖 𝑌𝑐 𝑑𝛼𝑎1𝜈 𝑀𝑆𝐸1𝑛𝑖 1𝑛𝑐 Diferença essencial entre os testes O teste de Tukey cobre todas as 𝑎𝑎 12 comparações par a par e por isso é apropriado quando qualquer diferença entre quaisquer dois níveis é de interesse O teste de Dunnett restringese às 𝑎 1 comparações de cada tratamento com um controle predefinido sendo em geral mais poderoso para esse objetivo específico por ajustar menos comparações e usar a correlação entre elas Em ambos supõese normalidade homocedasticidade e independência e o controle é do erro familiar a nível 𝛼 apenas a família de hipóteses difere 10 Qual a amplitude das estatísticas a Média b Desvio padrão c Erro padrão da média d Coeficiente de variação e Covariância f Coeficiente de correlação Item a Para uma variável real a média amostral é combinação linear dos dados Como combinações lineares de números reais podem assumir quaisquer valores reais sua amplitude como estatística é Observase também que para um conjunto de dados fixo vale min max Item b O desvio padrão amostral é a raiz quadrada de uma soma de quadrados Como somas de quadrados são 0 e a função raiz quadrada envia concluise que a amplitude é O valor 0 ocorre apenas quando todos os são iguais Item c O erro padrão da média é Como para temse Logo a amplitude é Ele vale 0 quando todos os dados iguais e tende a 0 quando com fixo Item d O coeficiente de variação amostral é Se como como resulta Se o é indefinido se é muito pequeno pode ser arbitrariamente grande Item e A covariância amostral pode ser positiva negativa ou nula Pela desigualdade de CauchySchwarz como podem ser arbitrariamente grandes ao variar os dados a covariância não é limitada por um número fixo Assim a amplitude é Item f O coeficiente de correlação amostral é para e Pela mesma desigualdade de CauchySchwarz concluindose que Portanto a amplitude é com quando os pontos estão exatamente em uma reta crescente ou decrescente 11 Qual a estatística que define o sinal do coeficiente de correlação e qual a interpretação dessa estatística A estatística que determina o sinal do coeficiente de correlação é a covariância amostral Como o sinal de coincide exatamente com o sinal de isto é Interpretação de A soma agrega produtos de desvios em relação às médias termos com o mesmo sinal ambos acima da média ou ambos abaixo contribuem positivamente termos com sinais opostos contribuem negativamente Portanto tendência de e crescerem ou diminuírem juntos associação linear positiva tendência de crescer quando diminui e viceversa associação linear negativa ausência de associação linear média pode haver relação não linear Relação útil com a regressão linear O mesmo sinal aparece no coeficiente angular do ajuste de mínimos quadrados de em Assim covariância positiva implica reta ajustada com inclinação positiva e correlação positiva covariância negativa implica inclinação negativa e correlação negativa 12 Qual a definição de graus de liberdade e como é calculado Grau de liberdade é a quantidade de informações independentes que podem variar livremente após impor as restrições do modelo ou do estimador Em termos algébricos em um modelo linear com observações e matriz de projeto o número de graus de liberdade associado ao resíduo é isto é número de observações menos o número de parâmetros efetivamente estimados o posto de Em somas de quadrados os graus de liberdade são as dimensões dos subespaços aos quais os dados são projetados Como se calcula em situações usuais Amostra simples e variância amostral Para a média impõe a identidade Fixados desvios o último é forçado a ser Há exatamente quantidades que podem variar livremente Por isso Exemplo concreto para fixar a ideia se então ANOVA de um fator fixo a grupos observações no grupo e No modelo com a restrição existem efeitos de tratamento independentes e resíduos independentes Assim com a verificação Exemplo numérico apenas ilustrativo se e cada grupo tem observações então e notase que Regressão linear com intercepto e preditores logo parâmetros ao todo Com observações e Exemplo ilustrativo se e então e com Síntese conceitual Calculase graus de liberdade sempre como sendo as restrições por exemplo parâmetros estimados ou identidades como Essa regra produz para a variância amostral e em ANOVA de um fator e para resíduos em regressão linear