24
Estatística
USP
21
Estatística
USP
59
Estatística 1
USP
8
Estatística 1
USP
4
Estatística
USP
45
Estatística
USP
2
Estatística 1
USP
18
Estatística
USP
1
Estatística 1
USP
9
Estatística 1
USP
Texto de pré-visualização
PRO 3200 - Estat´ıstica An´alise de Variˆancia - um fator Profas. Linda Lee Ho e Celma de Oliveira Ribeiro 2021 Departmento de Engenharia de Produ¸c˜ao Universidade de S˜ao Paulo 1 Outline Introdu¸c˜ao Resumidamente an´alise de Variˆancia foi introduzida pelo Sir Ronald Fisher. Este assunto ´e muito abrangente e envolve v´arios outros conhecimentos que n˜ao ser˜ao abordados como planejamento de um experimento por´em igualmente relevantes. ´E importante destacar que deve haver uma consonˆancia entre o plano experimental e a an´alise de dados executados. Caso n˜ao haja, os resultados apontados na an´alise podem estar equivocados. Iremos apenas mostrar como analisar experimentos com um fator e dois fatores assumindo que eles foram planejados/executados segundo o esquema de um ”experimento completamente aleatorizado”. Sugest˜oes de referˆencia, caso necessitem saber sobre planejamento de experimento: Box GEP, Hunter JS, Hunter WG. Statistic for Experimenters - 2nd edition, Wiley 2005 Wu CFJ, Hamada M - Experiments, planning, analysis and parameter design optimization , 2nd edition,2009. wiley 3 Análise de Variância - um fator Vimos anteriormente teste de igualdade de médias para duas populações. Vamos estender este assunto para k populações. Suposições: • X, a variável de interesse quantitativa contínua, com distribuição normal. • então a variável X associada para cada população Xi ~ N(μi, σi²), i = 1, ..., k e de cada população, uma amostra aleatória simples é coletada: Amostra 1: X11, X12, ..., X1n1, temos X̄1 e S²1 Amostra 2: X21, X22, ..., X2n2, temos X̄2 e S²2 ... Amostra k: Xk1, Xk2, ..., Xknk, temos X̄k e S²k Objetivo { H0: μ1 = μ2 = ... = μk H1: ∃ pelo menos um par (i, j)|μi ≠ μj An´alise de variˆancia de um fator Antes de mostrar como fazer an´alise de variˆancia, vamos usar uma an´alise descritiva dos dados • 3 popula¸c˜oes de alunos: civil, mecˆanica e computa¸c˜ao. • Tamanhos de amostras aleat´orias extra´ıdas de cada popula¸c˜ao: 20, 30 e 50 • M´edias amostrais das provas de cada grupo: X cv = 4.8; X m = 4.9; X cp = 5.2 • M´edia geral: X = 5.0 • Pela Figura, podemos afirmar que as m´edias das popula¸c˜oes s˜ao iguais? • Como devemos analisar: considerar somente as m´edias dos grupos? E qual ´e o papel das variˆancias amostrais? 5 Análise de variância de um fator Para desenvolver a análise de variância uma outra suposição deve ser acrescida: • Homocedasticidade entre as populações ou seja, σ1² = ... = σk² = σ² Dito tudo isso, as variáveis aleatórias Xij- j-ésima observação da i-ésima população pode ser escrita (uma parte determinística + parte aleatória): Xij = μi + eij ou segundo a notação para modelos lineares como Xij = μ + αi + eij com eij ~ N(0, σ²), (sob a suposição de homocedasticidade) e a restrição Σki=1 αi = 0 Testar { H0: μ1 = μ2 = ... = μk H1: ∃ pelo menos um par (i, j)|μi ≠ μj equivale a H0: α1 = α2 = ... = αk = 0 H1: ∃ pelo menos algum (i)|αi ≠ 0 Análise de Variância de um fator Pergunta: Como estimar \(\sigma^2\)? Veremos que existem vários estimadores se \(H_0\) for verdadeira. Estimador 1: Cada população fornece um estimador \(S^2_i, i = 1, \ldots, k\). A ideia de usar um único estimador ponderado agregando informações como o caso de duas populações \(S^2_p\) anteriormente visto será estendido para \(k\) populações do seguinte modo: \[ S^2_p = \frac{\sum_{i=1}^{k} (n_i - 1)S^2_i}{\sum_{i=1}^{k} (n_i - 1)} \] Observe que \(S^2_p\) mede a variabilidade interna dos grupos. Convém relembrar que \(\frac{(n_i - 1)S^2_i}{\sigma^2} \sim \chi^2\) com \((n_i - 1)\) graus de liberdade. Segue que \[ \frac{\sum_{i=1}^{k} (n_i - 1)S^2_i}{\sigma^2} = \frac{S^2_p \sum_{i=1}^{k} (n_i - 1)}{\sigma^2} \sim \chi^2 \text{ com } \sum_{i=1}^{k} (n_i - 1) \text{ graus de liberdade} \] Análise de Variância com um fator Estimador 2: Temos que \(\overline{X}_i \sim N\left(\mu_i, \frac{\sigma^2}{n_i}\right)\), \(i = 1, \ldots, k\). Porém sob \(H_0\), \(\overline{X}_i \sim N\left(\mu, \frac{\sigma^2}{n_i}\right)\), \(i = 1, \ldots, k\). Pode-se demonstrar que nestas condições \[ S^2_e = \frac{\sum_{i=1}^{k} n_i (\overline{X}_i - \overline{X})^2}{k - 1} \] é um estimador de \(\sigma^2\), com \(\overline{X} = \frac{\sum_{i=1}^{k} n_i \overline{X}_i}{\sum_{i=1}^{k} n_i}\) Note que \(S^2_e\) mede a variabilidade entre os grupos. Além disso, \(\frac{S^2_e (k - 1)}{\sigma^2} \sim \chi^2 \text{ com } (k - 1) \text{ graus de liberdade}\) Análise de Variância com um fator E finalmente além deste dois estimadores, teríamos um terceiro: S^2 = \frac{\sum_{i=1}^{k} \sum_{j=1}^{n_i} (X_{ij} - \overline{X})^2}{n-1} ATENÇÃO: Todos estimam \sigma^2, sob H_0, mas somente S_p^2 estima \sigma^2 em caso da H_0 ser falsa. Exerc´ıcio 1 - Um consumidor pretende verificar se existe diferen¸ca no pre¸co de aspirinas em diferentes cidades e em diferentes tipos de loja. Para isto, selecionou uma ´unica unidade de observa¸c˜ao de cada localidade e tipo de loja: Centro Leste Oeste Sul Drogaria 2.46 2.85 2.44 2.51 Farm´acia 2.27 2.61 2.35 2.17 Supermercado 2.72 2.64 2.59 2.54 Use erro tipo I de 5%. Utilizando an´alise de variˆancia de um fator ´e poss´ıvel concluir que os pre¸cos s˜ao iguais entre regi˜oes? Utilizando an´alise de variˆancia de um fator ´e poss´ıvel concluir que os pre¸cos s˜ao iguais entre tipos de estabelecimento? 11 Solu¸c˜ao Utilizando an´alise de variˆancia de um fator ´e poss´ıvel concluir que os pre¸cos s˜ao iguais entre regi˜oes? Tabela das m´edias e variˆancias Regi˜ao M´edia Variˆancia n Centro 2.483 0.051 3 Leste 2.700 0.017 3 Oeste 2.460 0.015 3 Sul 2.407 0.042 3 M´edia 2.513 Hip´oteses nula e alternativa: H0 = os pre¸cos s˜ao iguais nos diferentes locais : H1 : Existe pelo menos um local com pre¸co diferente S2 e = 3(2.483−2.513)2+...+3(2.407−2.513)2 4−1 = 0.150 3 = 0.05 S2 p = 0.051×2+...+0.042×2 2+2+2+2 = 0.250 8 = 0.031 S2 e S2p = 0.05 0.031 = 1.598 Com α = 0.05, o valor cr´ıtico: F=4.066 com 3 e 8 graus de liberdade no numerador e denominador. Decis˜ao: Fobs = 1.598 < 4.066, n˜ao rejeita H0 12 Solu¸c˜ao Utilizando an´alise de variˆancia de um fator ´e poss´ıvel concluir que os pre¸cos s˜ao iguais entre tipos de estabelecimento? Tabela das m´edias e variˆancias Tipo M´edia Variˆancia n Drogaria 2.565 0.0370 4 Farm´acia 2.35 0.0355 4 Supermercado 2.6225 0.0059 4 M´edia 2.513 Hip´oteses nula e alternativa: H0 = os pre¸cos s˜ao iguais nos diferentes estabelecimentos : H1 : Existe pelo menos um tipo de estabelecimento com pre¸co diferente S2 e = 4(2.565−2.513)2+...+4(2.6225−2.513)2 3−1 = 0.16505 2 = 0.082525 S2 p = 0.0370×3+...+0.059×3 3+3+3 = 0.234975 9 = 0.02611 S2 e S2p = 0.082525 0.02611 = 3.161 Com α = 0.05, o valor cr´ıtico: F=4.265 com 2 e 9 graus de liberdade no numerador e denominador. Decis˜ao Fobs = 3.161 < 4.265, n˜ao rejeita H0 13 Exerc´ıcio 2 - Estudo sobre a presen¸ca de substˆancias t´oxicas no meio ambiente, associadas `a utiliza¸c˜ao de um pesticida envolve an´alises efetuadas por quatro laborat´orios diferentes. H´a alguma preocupa¸c˜ao de que os resultados destas an´alises diferem, devido `a utiliza¸c˜ao de diferentes t´ecnicas laboratoriais. Foram entregues a cada laborat´orio 6 pequenos contentores com solo recolhido aleatoriamente num terreno que antes fora tratado com o referido pesticida. Os resultados laboratoriais das an´alises qu´ımicas medem a concentra¸c˜ao dum composto qu´ımico nocivo (em ppm). Qual a conclus˜ao? (5% e 1%) Os valores observados s˜ao indicados na tabela que se segue: Laborat´orio 1 2 3 4 53.2 51.0 47.4 51.0 54.5 40.5 46.2 51.5 52.8 50.8 46.0 48.8 49.3 51.5 45.3 49.2 50.4 52.4 48.2 48.3 53.8 49.9 47.1 49.8 X 52.33 49.35 46.70 49.77 S2 4.151 19.480 1.120 1.587 14 Tabela da ANOVA É comum organizar os resultados da análise de variância de um fator na forma de uma tabela (Tabela ANOVA). \begin{tabular}{lccc} \hline Fonte de variação & Soma de Quadrados & G. L. & Quadrado médio & Estatística \\ \hline Entre grupos & SQE = \sum_{i=1}^{k} n_i (\overline{X}_i - \overline{X})^2 & k - 1 & S_e^2 = \frac{\sum_{i=1}^{k} n_i (\overline{X}_i - \overline{X})^2}{k - 1} & \frac{S_e^2}{S_p^2} \\ Dentro dos grupos & SQD = \sum_{i=1}^{k} (n_i - 1) S_i^2 & n - k & S_p^2 = \frac{\sum_{i=1}^{k} (n_i - 1) S_i^2}{n - k} & \\ Total & SQT = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (X_{ij} - \overline{X})^2 & n - 1 & & \\ \hline \end{tabular} Note que SQD = \sum_{i=1}^{k} (n_i - 1) S_i^2 = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (X_{ij} - \overline{X}_i)^2 Solu¸c˜ao - Ex 2 Hip´oteses nula e alternativa: H0: todos os laborat´orios produzem o mesmo resultado; H1: Existe pelo menos um laborat´orio que produz resultado diferente. Sa´ıda produzida pelo Excel - Como F=4.848> Fcritico, rejeitar a hip´otese nula 16 Análise de variância de um fator É comum perguntarem: 1 - Porque este teste de hipótese \begin{cases} H_0: \mu_1 = \mu_2 = \ldots = \mu_k \\ H_1: \exists \text{ pelo menos um par } (i, j)|\mu_i \neq \mu_j \end{cases} não equivale a testar todos os pares de média, 2 a 2. Resposta: não, não é equivalente e está errado analisar desta forma! Se testar dois a dois, você não está considerando todo o experimento, que usa um único estimador da variância para fazer o teste. Ao fazer teste de média dois a dois, a cada vez está usando estimadores diferentes para variância para testar a hipótese. Além disto, ao rejeitar H_0 estaremos concluindo que este fator é importante/relevante para explicar a variabilidade da média da variável analisada. Análise de variância com um fator 2 - a hipótese nula foi rejeitada, como proceder com este resultado? Resposta: Existem várias maneiras de prosseguir a análise. Uma delas é fazer a análise de contrastes. Existem vários métodos. Falaremos apenas o método de Scheffé pelo fato de ser bastante simples. Objetivo é identificar qual par de médias i, j tal que ocorreu μ_i ≠ μ_j Critério de decisão: se |X_i - X_j| > δ_ij então μ_i ≠ μ_j δ_ij = √((k - 1) × F_c × S_p² (1/n_i + 1/n_j)) F_c é o valor tabelado da distribuição F utilizado para rejeitar H_0. Solução - continuação do Ex 2 No exercício 2, como a hipótese nula foi rejeitada, há interesse em investigar quais laboratórios produzem resultados diferentes. Calculando o valor de δ_ij = √((4 - 1) × 3.098 × 6.583 (1/6 + 1/6)) = 4.516 As diferenças de médias entre laboratórios i, j Média 1 2 3 1 52.333 2 49.350 2.983 3 46.700 5.633 2.650 4 49.767 2.567 -0.417 -3.067 Os resultados indicam haver uma diferença entre os laboratórios 1 e 3. Vamos verificar se as medidas dos laboratórios são homocedastos. Variância amostrais: 4.151, 19.475, 1.120, 1.587. calculando a estatística D D = (6 - 1) \left( \ln \frac{6.583}{4.151} + \ln \frac{6.583}{19.475} + \ln \frac{6.583}{1.120} + \ln \frac{6.583}{1.587} \right) = 12.853 Valor critico=7.815 Rejeita a hipótese de homocedasticidade An´alise de Variˆancia com um fator 4 - E se a suposi¸c˜ao de homocedasticidade n˜ao for satisfeita? Existem v´arias solu¸c˜oes. A mais comum ´e empregar alguma transforma¸c˜ao (como ln, entre outras) para estabilizar a variˆancia e refazer a an´alise. 5 - E se a suposi¸c˜ao de normalidade n˜ao for satisfeita? O m´etodo ´e bastante robusta em rela¸c˜ao a isto. 22 Exerc´ıcio 3 - Um estudo sobre caf´e robusta em Angola analisa se frequˆencia da defeitos no gr˜ao de caf´e para seis diferentes regi˜oes. Em cada regi˜ao foram escolhidos aleatoriamente 11 lotes. a - Teste a hip´otese de a percentagem de gr˜ao sem defeito n˜ao depender da regi˜ao de proveniˆencia do gr˜ao. Utilize os n´ıveis de significˆancia 0.05 e comente. b - Construa a tabela ANOVA relativo `a al´ınea a. c - Independentemente do resultado da al´ınea a, verifique quais as regi˜oes cujas m´edias de gr˜aos com defeito devem ser consideradas diferentes, e quais aquelas em que se pode admitir a igualdade, utilizando um teste de Schefe´e, com um n´ıvel de significˆancia 0.05. d - Teste a validade da hip´otese de homogeneidade de variˆancias exigida no modelo que indicou na primeira al´ınea. Na tabela s˜ao apresentados as m´edias e desvios padr˜ao da percentagem do peso total de gr˜aos sem defeito, assim como as variˆancias e log variˆancias Laborat´orio M´edia Desvio Variˆancia Ln(var) Cabinda 44.19 6.94 48.1636 3.8746 Ambriz 58.87 18.98 360.2404 5.8868 Encoje 51.80 13.92 193.7664 5.2667 Cazongo 60.61 13.29 176.6241 5.1740 Libolo 61.96 24.49 599.7601 6.3965 Amboim 42.11 21.31 454.1161 6.1184 23 Solu¸c˜ao ex 3 a - Teste a hip´otese de a percentagem de gr˜ao sem defeito n˜ao depender da regi˜ao de proveniˆencia do gr˜ao. Utilize os n´ıveis de significˆancia 0.05 e comente. S2 e = 11[(44.19 − 53.257)2 + . . . + (42.11 − 53.25702] 6 − 1 = 4068.94 5 = 813.79 S2 p = [10 ∗ 48.1636 + . . . + 10 ∗ 454.1161] 10 + . . . + 10 = 18326.707 60 = 305.445 Estat´ıstica do teste F = 813.79 305.445 = 2.664 Com erro do tipo I de 5%, Valor cr´ıtico F=2.368, com 5 e 60 graus de liberdade no numerador e denominador. Decis˜ao: Rejeita a hip´otese nula de igualdade de percentagem de gr˜ao sem defeito 24 Solu¸c˜ao ex 3 b - Construa a tabela ANOVA relativo `a al´ınea a. FV SQ g.l. QM F entre 4068.94 5 813.79 2.664 dentro 18326.707 60 305.445 total 22395.65 65 25 c - Independentemente do resultado da alínea a, verifique quais as regiões cujas médias de grãos com defeito devem ser consideradas diferentes, e quais aquelas em que se pode admitir a igualdade, utilizando um teste de Scheffé, com um nível de significância 0.05. Calculando o valor de δ_{ij} = \sqrt{(6 - 1) \times 2.368 \times 305.445 \left( \frac{1}{11} + \frac{1}{11} \right)} = 25.64 As diferenças de médias entre regiões i,j \begin{array}{cccccc} & \text{Média} & \text{Ambriz} & \text{Encoje} & \text{Cazongo} & \text{Libolo} & \text{Amboim} \\ \text{Cabinda} & 44.19 \\ \text{Ambriz} & 58.87 & 14.68 \\ \text{Encoje} & 51.8 & 7.61 & -7.07 \\ \text{Cazongo} & 60.61 & 16.42 & 1.74 & 8.81 \\ \text{Libolo} & 61.96 & 17.77 & 3.09 & 10.16 & 1.35 \\ \text{Amboim} & 42.11 & -2.08 & -16.76 & -9.69 & -18.5 & -19.85 \\ \end{array} Pelo método do Scheffé, não apontou algum par i,j com diferença maior que 25.64. Outros tipos de contraste devem ser explorados. d - Teste a validade da hipótese de homogeneidade de variâncias exigida no modelo que indicou na primeira alínea. Dadas as variâncias amostrais 48.1636, 360.2404, 193.7664, 176.6241, 599.7601, 454.1161 calculando a estatística D D = (11-1) \left( \ln \frac{305.445}{48.1636} + \ln \frac{305.445}{360.2404} + \ln \frac{305.445}{193.7664} + \ln \frac{305.445}{176.6241} + \ln \frac{305.445}{599.7601} + \ln \frac{305.445}{454.1161} \right) = 16.14 Valor crítico \chi^2=11.07 com 5 graus de liberdade Decisão: Rejeita a hipótese de homocedasticidade
24
Estatística
USP
21
Estatística
USP
59
Estatística 1
USP
8
Estatística 1
USP
4
Estatística
USP
45
Estatística
USP
2
Estatística 1
USP
18
Estatística
USP
1
Estatística 1
USP
9
Estatística 1
USP
Texto de pré-visualização
PRO 3200 - Estat´ıstica An´alise de Variˆancia - um fator Profas. Linda Lee Ho e Celma de Oliveira Ribeiro 2021 Departmento de Engenharia de Produ¸c˜ao Universidade de S˜ao Paulo 1 Outline Introdu¸c˜ao Resumidamente an´alise de Variˆancia foi introduzida pelo Sir Ronald Fisher. Este assunto ´e muito abrangente e envolve v´arios outros conhecimentos que n˜ao ser˜ao abordados como planejamento de um experimento por´em igualmente relevantes. ´E importante destacar que deve haver uma consonˆancia entre o plano experimental e a an´alise de dados executados. Caso n˜ao haja, os resultados apontados na an´alise podem estar equivocados. Iremos apenas mostrar como analisar experimentos com um fator e dois fatores assumindo que eles foram planejados/executados segundo o esquema de um ”experimento completamente aleatorizado”. Sugest˜oes de referˆencia, caso necessitem saber sobre planejamento de experimento: Box GEP, Hunter JS, Hunter WG. Statistic for Experimenters - 2nd edition, Wiley 2005 Wu CFJ, Hamada M - Experiments, planning, analysis and parameter design optimization , 2nd edition,2009. wiley 3 Análise de Variância - um fator Vimos anteriormente teste de igualdade de médias para duas populações. Vamos estender este assunto para k populações. Suposições: • X, a variável de interesse quantitativa contínua, com distribuição normal. • então a variável X associada para cada população Xi ~ N(μi, σi²), i = 1, ..., k e de cada população, uma amostra aleatória simples é coletada: Amostra 1: X11, X12, ..., X1n1, temos X̄1 e S²1 Amostra 2: X21, X22, ..., X2n2, temos X̄2 e S²2 ... Amostra k: Xk1, Xk2, ..., Xknk, temos X̄k e S²k Objetivo { H0: μ1 = μ2 = ... = μk H1: ∃ pelo menos um par (i, j)|μi ≠ μj An´alise de variˆancia de um fator Antes de mostrar como fazer an´alise de variˆancia, vamos usar uma an´alise descritiva dos dados • 3 popula¸c˜oes de alunos: civil, mecˆanica e computa¸c˜ao. • Tamanhos de amostras aleat´orias extra´ıdas de cada popula¸c˜ao: 20, 30 e 50 • M´edias amostrais das provas de cada grupo: X cv = 4.8; X m = 4.9; X cp = 5.2 • M´edia geral: X = 5.0 • Pela Figura, podemos afirmar que as m´edias das popula¸c˜oes s˜ao iguais? • Como devemos analisar: considerar somente as m´edias dos grupos? E qual ´e o papel das variˆancias amostrais? 5 Análise de variância de um fator Para desenvolver a análise de variância uma outra suposição deve ser acrescida: • Homocedasticidade entre as populações ou seja, σ1² = ... = σk² = σ² Dito tudo isso, as variáveis aleatórias Xij- j-ésima observação da i-ésima população pode ser escrita (uma parte determinística + parte aleatória): Xij = μi + eij ou segundo a notação para modelos lineares como Xij = μ + αi + eij com eij ~ N(0, σ²), (sob a suposição de homocedasticidade) e a restrição Σki=1 αi = 0 Testar { H0: μ1 = μ2 = ... = μk H1: ∃ pelo menos um par (i, j)|μi ≠ μj equivale a H0: α1 = α2 = ... = αk = 0 H1: ∃ pelo menos algum (i)|αi ≠ 0 Análise de Variância de um fator Pergunta: Como estimar \(\sigma^2\)? Veremos que existem vários estimadores se \(H_0\) for verdadeira. Estimador 1: Cada população fornece um estimador \(S^2_i, i = 1, \ldots, k\). A ideia de usar um único estimador ponderado agregando informações como o caso de duas populações \(S^2_p\) anteriormente visto será estendido para \(k\) populações do seguinte modo: \[ S^2_p = \frac{\sum_{i=1}^{k} (n_i - 1)S^2_i}{\sum_{i=1}^{k} (n_i - 1)} \] Observe que \(S^2_p\) mede a variabilidade interna dos grupos. Convém relembrar que \(\frac{(n_i - 1)S^2_i}{\sigma^2} \sim \chi^2\) com \((n_i - 1)\) graus de liberdade. Segue que \[ \frac{\sum_{i=1}^{k} (n_i - 1)S^2_i}{\sigma^2} = \frac{S^2_p \sum_{i=1}^{k} (n_i - 1)}{\sigma^2} \sim \chi^2 \text{ com } \sum_{i=1}^{k} (n_i - 1) \text{ graus de liberdade} \] Análise de Variância com um fator Estimador 2: Temos que \(\overline{X}_i \sim N\left(\mu_i, \frac{\sigma^2}{n_i}\right)\), \(i = 1, \ldots, k\). Porém sob \(H_0\), \(\overline{X}_i \sim N\left(\mu, \frac{\sigma^2}{n_i}\right)\), \(i = 1, \ldots, k\). Pode-se demonstrar que nestas condições \[ S^2_e = \frac{\sum_{i=1}^{k} n_i (\overline{X}_i - \overline{X})^2}{k - 1} \] é um estimador de \(\sigma^2\), com \(\overline{X} = \frac{\sum_{i=1}^{k} n_i \overline{X}_i}{\sum_{i=1}^{k} n_i}\) Note que \(S^2_e\) mede a variabilidade entre os grupos. Além disso, \(\frac{S^2_e (k - 1)}{\sigma^2} \sim \chi^2 \text{ com } (k - 1) \text{ graus de liberdade}\) Análise de Variância com um fator E finalmente além deste dois estimadores, teríamos um terceiro: S^2 = \frac{\sum_{i=1}^{k} \sum_{j=1}^{n_i} (X_{ij} - \overline{X})^2}{n-1} ATENÇÃO: Todos estimam \sigma^2, sob H_0, mas somente S_p^2 estima \sigma^2 em caso da H_0 ser falsa. Exerc´ıcio 1 - Um consumidor pretende verificar se existe diferen¸ca no pre¸co de aspirinas em diferentes cidades e em diferentes tipos de loja. Para isto, selecionou uma ´unica unidade de observa¸c˜ao de cada localidade e tipo de loja: Centro Leste Oeste Sul Drogaria 2.46 2.85 2.44 2.51 Farm´acia 2.27 2.61 2.35 2.17 Supermercado 2.72 2.64 2.59 2.54 Use erro tipo I de 5%. Utilizando an´alise de variˆancia de um fator ´e poss´ıvel concluir que os pre¸cos s˜ao iguais entre regi˜oes? Utilizando an´alise de variˆancia de um fator ´e poss´ıvel concluir que os pre¸cos s˜ao iguais entre tipos de estabelecimento? 11 Solu¸c˜ao Utilizando an´alise de variˆancia de um fator ´e poss´ıvel concluir que os pre¸cos s˜ao iguais entre regi˜oes? Tabela das m´edias e variˆancias Regi˜ao M´edia Variˆancia n Centro 2.483 0.051 3 Leste 2.700 0.017 3 Oeste 2.460 0.015 3 Sul 2.407 0.042 3 M´edia 2.513 Hip´oteses nula e alternativa: H0 = os pre¸cos s˜ao iguais nos diferentes locais : H1 : Existe pelo menos um local com pre¸co diferente S2 e = 3(2.483−2.513)2+...+3(2.407−2.513)2 4−1 = 0.150 3 = 0.05 S2 p = 0.051×2+...+0.042×2 2+2+2+2 = 0.250 8 = 0.031 S2 e S2p = 0.05 0.031 = 1.598 Com α = 0.05, o valor cr´ıtico: F=4.066 com 3 e 8 graus de liberdade no numerador e denominador. Decis˜ao: Fobs = 1.598 < 4.066, n˜ao rejeita H0 12 Solu¸c˜ao Utilizando an´alise de variˆancia de um fator ´e poss´ıvel concluir que os pre¸cos s˜ao iguais entre tipos de estabelecimento? Tabela das m´edias e variˆancias Tipo M´edia Variˆancia n Drogaria 2.565 0.0370 4 Farm´acia 2.35 0.0355 4 Supermercado 2.6225 0.0059 4 M´edia 2.513 Hip´oteses nula e alternativa: H0 = os pre¸cos s˜ao iguais nos diferentes estabelecimentos : H1 : Existe pelo menos um tipo de estabelecimento com pre¸co diferente S2 e = 4(2.565−2.513)2+...+4(2.6225−2.513)2 3−1 = 0.16505 2 = 0.082525 S2 p = 0.0370×3+...+0.059×3 3+3+3 = 0.234975 9 = 0.02611 S2 e S2p = 0.082525 0.02611 = 3.161 Com α = 0.05, o valor cr´ıtico: F=4.265 com 2 e 9 graus de liberdade no numerador e denominador. Decis˜ao Fobs = 3.161 < 4.265, n˜ao rejeita H0 13 Exerc´ıcio 2 - Estudo sobre a presen¸ca de substˆancias t´oxicas no meio ambiente, associadas `a utiliza¸c˜ao de um pesticida envolve an´alises efetuadas por quatro laborat´orios diferentes. H´a alguma preocupa¸c˜ao de que os resultados destas an´alises diferem, devido `a utiliza¸c˜ao de diferentes t´ecnicas laboratoriais. Foram entregues a cada laborat´orio 6 pequenos contentores com solo recolhido aleatoriamente num terreno que antes fora tratado com o referido pesticida. Os resultados laboratoriais das an´alises qu´ımicas medem a concentra¸c˜ao dum composto qu´ımico nocivo (em ppm). Qual a conclus˜ao? (5% e 1%) Os valores observados s˜ao indicados na tabela que se segue: Laborat´orio 1 2 3 4 53.2 51.0 47.4 51.0 54.5 40.5 46.2 51.5 52.8 50.8 46.0 48.8 49.3 51.5 45.3 49.2 50.4 52.4 48.2 48.3 53.8 49.9 47.1 49.8 X 52.33 49.35 46.70 49.77 S2 4.151 19.480 1.120 1.587 14 Tabela da ANOVA É comum organizar os resultados da análise de variância de um fator na forma de uma tabela (Tabela ANOVA). \begin{tabular}{lccc} \hline Fonte de variação & Soma de Quadrados & G. L. & Quadrado médio & Estatística \\ \hline Entre grupos & SQE = \sum_{i=1}^{k} n_i (\overline{X}_i - \overline{X})^2 & k - 1 & S_e^2 = \frac{\sum_{i=1}^{k} n_i (\overline{X}_i - \overline{X})^2}{k - 1} & \frac{S_e^2}{S_p^2} \\ Dentro dos grupos & SQD = \sum_{i=1}^{k} (n_i - 1) S_i^2 & n - k & S_p^2 = \frac{\sum_{i=1}^{k} (n_i - 1) S_i^2}{n - k} & \\ Total & SQT = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (X_{ij} - \overline{X})^2 & n - 1 & & \\ \hline \end{tabular} Note que SQD = \sum_{i=1}^{k} (n_i - 1) S_i^2 = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (X_{ij} - \overline{X}_i)^2 Solu¸c˜ao - Ex 2 Hip´oteses nula e alternativa: H0: todos os laborat´orios produzem o mesmo resultado; H1: Existe pelo menos um laborat´orio que produz resultado diferente. Sa´ıda produzida pelo Excel - Como F=4.848> Fcritico, rejeitar a hip´otese nula 16 Análise de variância de um fator É comum perguntarem: 1 - Porque este teste de hipótese \begin{cases} H_0: \mu_1 = \mu_2 = \ldots = \mu_k \\ H_1: \exists \text{ pelo menos um par } (i, j)|\mu_i \neq \mu_j \end{cases} não equivale a testar todos os pares de média, 2 a 2. Resposta: não, não é equivalente e está errado analisar desta forma! Se testar dois a dois, você não está considerando todo o experimento, que usa um único estimador da variância para fazer o teste. Ao fazer teste de média dois a dois, a cada vez está usando estimadores diferentes para variância para testar a hipótese. Além disto, ao rejeitar H_0 estaremos concluindo que este fator é importante/relevante para explicar a variabilidade da média da variável analisada. Análise de variância com um fator 2 - a hipótese nula foi rejeitada, como proceder com este resultado? Resposta: Existem várias maneiras de prosseguir a análise. Uma delas é fazer a análise de contrastes. Existem vários métodos. Falaremos apenas o método de Scheffé pelo fato de ser bastante simples. Objetivo é identificar qual par de médias i, j tal que ocorreu μ_i ≠ μ_j Critério de decisão: se |X_i - X_j| > δ_ij então μ_i ≠ μ_j δ_ij = √((k - 1) × F_c × S_p² (1/n_i + 1/n_j)) F_c é o valor tabelado da distribuição F utilizado para rejeitar H_0. Solução - continuação do Ex 2 No exercício 2, como a hipótese nula foi rejeitada, há interesse em investigar quais laboratórios produzem resultados diferentes. Calculando o valor de δ_ij = √((4 - 1) × 3.098 × 6.583 (1/6 + 1/6)) = 4.516 As diferenças de médias entre laboratórios i, j Média 1 2 3 1 52.333 2 49.350 2.983 3 46.700 5.633 2.650 4 49.767 2.567 -0.417 -3.067 Os resultados indicam haver uma diferença entre os laboratórios 1 e 3. Vamos verificar se as medidas dos laboratórios são homocedastos. Variância amostrais: 4.151, 19.475, 1.120, 1.587. calculando a estatística D D = (6 - 1) \left( \ln \frac{6.583}{4.151} + \ln \frac{6.583}{19.475} + \ln \frac{6.583}{1.120} + \ln \frac{6.583}{1.587} \right) = 12.853 Valor critico=7.815 Rejeita a hipótese de homocedasticidade An´alise de Variˆancia com um fator 4 - E se a suposi¸c˜ao de homocedasticidade n˜ao for satisfeita? Existem v´arias solu¸c˜oes. A mais comum ´e empregar alguma transforma¸c˜ao (como ln, entre outras) para estabilizar a variˆancia e refazer a an´alise. 5 - E se a suposi¸c˜ao de normalidade n˜ao for satisfeita? O m´etodo ´e bastante robusta em rela¸c˜ao a isto. 22 Exerc´ıcio 3 - Um estudo sobre caf´e robusta em Angola analisa se frequˆencia da defeitos no gr˜ao de caf´e para seis diferentes regi˜oes. Em cada regi˜ao foram escolhidos aleatoriamente 11 lotes. a - Teste a hip´otese de a percentagem de gr˜ao sem defeito n˜ao depender da regi˜ao de proveniˆencia do gr˜ao. Utilize os n´ıveis de significˆancia 0.05 e comente. b - Construa a tabela ANOVA relativo `a al´ınea a. c - Independentemente do resultado da al´ınea a, verifique quais as regi˜oes cujas m´edias de gr˜aos com defeito devem ser consideradas diferentes, e quais aquelas em que se pode admitir a igualdade, utilizando um teste de Schefe´e, com um n´ıvel de significˆancia 0.05. d - Teste a validade da hip´otese de homogeneidade de variˆancias exigida no modelo que indicou na primeira al´ınea. Na tabela s˜ao apresentados as m´edias e desvios padr˜ao da percentagem do peso total de gr˜aos sem defeito, assim como as variˆancias e log variˆancias Laborat´orio M´edia Desvio Variˆancia Ln(var) Cabinda 44.19 6.94 48.1636 3.8746 Ambriz 58.87 18.98 360.2404 5.8868 Encoje 51.80 13.92 193.7664 5.2667 Cazongo 60.61 13.29 176.6241 5.1740 Libolo 61.96 24.49 599.7601 6.3965 Amboim 42.11 21.31 454.1161 6.1184 23 Solu¸c˜ao ex 3 a - Teste a hip´otese de a percentagem de gr˜ao sem defeito n˜ao depender da regi˜ao de proveniˆencia do gr˜ao. Utilize os n´ıveis de significˆancia 0.05 e comente. S2 e = 11[(44.19 − 53.257)2 + . . . + (42.11 − 53.25702] 6 − 1 = 4068.94 5 = 813.79 S2 p = [10 ∗ 48.1636 + . . . + 10 ∗ 454.1161] 10 + . . . + 10 = 18326.707 60 = 305.445 Estat´ıstica do teste F = 813.79 305.445 = 2.664 Com erro do tipo I de 5%, Valor cr´ıtico F=2.368, com 5 e 60 graus de liberdade no numerador e denominador. Decis˜ao: Rejeita a hip´otese nula de igualdade de percentagem de gr˜ao sem defeito 24 Solu¸c˜ao ex 3 b - Construa a tabela ANOVA relativo `a al´ınea a. FV SQ g.l. QM F entre 4068.94 5 813.79 2.664 dentro 18326.707 60 305.445 total 22395.65 65 25 c - Independentemente do resultado da alínea a, verifique quais as regiões cujas médias de grãos com defeito devem ser consideradas diferentes, e quais aquelas em que se pode admitir a igualdade, utilizando um teste de Scheffé, com um nível de significância 0.05. Calculando o valor de δ_{ij} = \sqrt{(6 - 1) \times 2.368 \times 305.445 \left( \frac{1}{11} + \frac{1}{11} \right)} = 25.64 As diferenças de médias entre regiões i,j \begin{array}{cccccc} & \text{Média} & \text{Ambriz} & \text{Encoje} & \text{Cazongo} & \text{Libolo} & \text{Amboim} \\ \text{Cabinda} & 44.19 \\ \text{Ambriz} & 58.87 & 14.68 \\ \text{Encoje} & 51.8 & 7.61 & -7.07 \\ \text{Cazongo} & 60.61 & 16.42 & 1.74 & 8.81 \\ \text{Libolo} & 61.96 & 17.77 & 3.09 & 10.16 & 1.35 \\ \text{Amboim} & 42.11 & -2.08 & -16.76 & -9.69 & -18.5 & -19.85 \\ \end{array} Pelo método do Scheffé, não apontou algum par i,j com diferença maior que 25.64. Outros tipos de contraste devem ser explorados. d - Teste a validade da hipótese de homogeneidade de variâncias exigida no modelo que indicou na primeira alínea. Dadas as variâncias amostrais 48.1636, 360.2404, 193.7664, 176.6241, 599.7601, 454.1161 calculando a estatística D D = (11-1) \left( \ln \frac{305.445}{48.1636} + \ln \frac{305.445}{360.2404} + \ln \frac{305.445}{193.7664} + \ln \frac{305.445}{176.6241} + \ln \frac{305.445}{599.7601} + \ln \frac{305.445}{454.1161} \right) = 16.14 Valor crítico \chi^2=11.07 com 5 graus de liberdade Decisão: Rejeita a hipótese de homocedasticidade