27
Estatística
USP
21
Estatística
USP
18
Estatística
USP
2
Estatística 1
USP
4
Estatística
USP
45
Estatística
USP
59
Estatística 1
USP
8
Estatística 1
USP
5
Estatística 1
USP
18
Estatística 1
USP
Texto de pré-visualização
PRO 3200 - Estat´ıstica Testes de aderˆencia e associa¸c˜ao Profas. Celma de Oliveira Ribeiro e Linda Lee Ho 2021 Departmento de Engenharia de Produ¸c˜ao Universidade de S˜ao Paulo 1 Outline Introdu¸c˜ao Teste de Kolmogorov-Smirnov Teste de qui-quadrado de Pearson Gr´aficos de probabilidade Teste de Associa¸c˜ao 2 Introdução Teste de aderˆencia Objetivo de teste de aderˆencia H0: os dados seguem a distribui¸c˜ao de probabilidade de interesse H1: os dados n˜ao seguem a distribui¸c˜ao probabilidade de interesse Existem v´arios testes de aderˆencia: • Qui-quadrado de Pearson • Kolmogorov-Smirnov • Anderson-Darling • Shapiro-Wilks • etc 3 Teste de aderencia Todos os testes partem de um mesmo princ´ıpio: • Compara a distribui¸c˜ao (acumulada) dos dados observados versus a distribui¸c˜ao (acumulada) te´orica • Uma estat´ıstica ´e calculada a partir destas discrepˆancias. • Compara-se esta estat´ıstica (ou alguma fun¸c˜ao) com um valor cr´ıtico; se for maior que o valor cr´ıtico, rejeita-se a hip´otese nula • Valor cr´ıtico – depende do teste, do tamanho da amostra, o erro do tipo I 4 Teste de Kolmogorov-Smirnov Teste de aderˆencia: Kolmogorov-Smirnov Estat´ıstica do teste: K = max|F0(X) − Fn(X)| onde • F0(X), valor da distribui¸c˜ao acumulada te´orica at´e X, • Fn(X), valor da distribui¸c˜ao emp´ırica acumulada at´e o ponto X. • Regra de decis˜ao: Se K > Kc rejeita a H0, • Kc, valor cr´ıtico tabelado em fun¸c˜ao do erro do tipo I, tamanho da amostra. 5 Teste de qui-quadrado de Pearson O teste de qui-quadrado de Pearson serve para testar vários teste de hipótese. Uma dela é verificar se um conjunto de dados segue alguma distribuição de probabilidade Estatística do teste Q = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} • O_i=frequência observada da classe i, i = 1, . . . , k • E_i frequência esperada da classe i, i = 1, . . . , k • Assintoticamente Q segue uma distribuição qui-quadrado com g graus de liberdade g = (k − 1) − p, k= número de classes, p= número de parâmetros estimados. • Restrições: E_i > 5 Teste de qui-quadrado de Pearson Um exemplo - Teste de qui-quadrado de Pearson Os dados seguem uma distribui¸c˜ao de Poisson? # de defeitos 0 1 2 3 4 frequencia 6000 3000 600 350 50 8 Solu¸c˜ao # de defeitos Freq Obs Freq Esp Freq Esp agreg Q 0 6000 5798.418 5798.418 7.008 1 3000 3160.138 3160.138 8.115 2 600 861.138 861.138 79.189 3 350 156.440 156.440 239.488 4 50 21.315 23.867 28.614 >4 0 2.552 Total 10000 362.414 Distribui¸c˜ao de Poisson - fun¸c˜ao do parˆametro λ Qual deve ser o estimador de λ? E a estimativa? Quantos graus de liberdade deve-se usar neste teste? Qual a sua conclus˜ao? 9 Q-Q plot Vamos detalhar o caso do Q-Q plot da distribuição normal pois esta é uma suposição bastante recorrente nas situações práticas. Relembrando que a CDF de distribuição normal padrão Z é: Φ(z) = p = P(Z < z) = ∫_{-∞}^{z} \frac{1}{\sqrt{2π}} exp(−1/2Z²)dz Então o quantil z de ordem p é dado por: z_p = Φ^{-1}(p) No caso de X ∼ N(μ, σ²), os quantis de ordem p são dados por X_p = μ + σΦ^{-1}(p) Gr´aficos de probabilidade Gr´aficos de probabilidade - embora formalmente n˜ao seja um teste de hip´otese, mas uma ferramenta muito ´util, pois permite visualizar a distribui¸c˜ao dos dados observados (ou os quantis observados) versus a distribui¸c˜ao te´orica (os quantis reais) principalmente quando o tamanho da amostra ´e pequeno e insuficiente para conduzir os testes de aderˆencia. Objetivo: Averiguar se um conjunto de dados possui uma distribui¸c˜ao de probabilidade de interesse. Existem dois tipos de gr´aficos de probabilidade: 1- Plotar a probabilidade acumulada emp´ırica versus a probabilidade acumulada te´orica segundo uma distribui¸c˜ao de interesse. Conhecido como P-P plot 2 - Plotar os quantis observados versus os quantis esperados segundo uma distribui¸c˜ao de interesse. Este ´e conhecido como Q-Q plot 10 P-P plot Percentis te´orico: 100p-´esimo percentil, para uma fun¸c˜ao com fun¸c˜ao distribui¸c˜ao acumulada F(.) ´e o valor q(p), tal que F(q(p)) = p. Para uma amostra de n elementos, o percentil observado ´e obtido da seguinte maneira: • Ordene do menor para o maior • O percentil da i-´esima observa¸c˜ao ´e: pi = 100(i − 0.5) n Os percentis te´oricos e observados devem estar bem pr´oximos caso os dados sigam `a distribui¸c˜ao de interesse. Muito semelhante como foi feito para o teste KS anteriormente visto. 11 Gráficos de probabilidade Q-Q plot Vamos determinar os quantis amostrais segundo uma distribui¸c˜ao Normal Dado um conjunto de observa¸c˜oes X1, X2, . . . , Xn, proceder do seguinte modo: • colocar os dados em ordem crescente obtendo X(1), X(2), . . . , X(n) • a distribui¸c˜ao acumulada emp´ırica da observa¸c˜ao i ´e pi = i − 0.5 n • obter Φ−1(pi) e plotar o par (X(i), Φ−1(pi)) ou (X(i), X(pi )) com X(pi ) = µ + σΦ−1(pi)) • se os dados forem normalmente distribuidos, eles estar˜ao alinhados, com o intercepto na m´edia µ e com inclina¸c˜ao σ 13 Exemplo Considere as 10 observa¸c˜oes: 0.87/1.56/-0.53/-1.91/1.40/-1.25/0.72/0.35/-0.75/0.20 X(i) pi zi −1.91 0.05 −1.645 −1.25 0.15 −1.036 −0.75 0.25 −0.674 −0.53 0.35 −0.385 0.2 0.45 −0.126 0.35 0.55 0.126 0.72 0.65 0.385 0.87 0.75 0.674 1.4 0.85 1.036 1.56 0.95 1.645 Plotando observa¸c˜ao x(i) x zi 14 Exemplo Dados: 3.01 / 3.35 / 4.79 / 5.96 / 7.89 Quer verificar se seguem a distribui¸c˜ao normal µ = 5 e σ = 2 X(i) pi zi X(pi) 3.01 0.1 -1.282 2.44 3.35 0.3 -0.524 3.95 4.79 0.5 0.000 5.00 5.96 0.7 0.524 6.05 7.89 0.9 1.282 7.56 Plotando X(i) x X(pi) 15 Teste de Associação Teste de associação Em estatística descritiva tabelas de contingência são empregadas para avaliar se existe ou não associação entre duas variáveis qualitativas. Veremos agora como fazer inferência neste assunto. Antes vamos recordar sobre a distribuição conjunta de probabilidade. Considerem X e Y variáveis aleatórias que assumem I e J valores com a distribuição conjunta dada por X_1 . . . X_I Y_1 d_11 d_1I p_1 . . . . . . . . Y_J d_1J d_IJ p_J q_1 . . . q_I sendo d_ij = P(X = x_i, Y = y_j), p_j = P(Y = y_j) e q_i = P(X = x_i), i = 1, … , I, j = 1, … , J Ausência de associação implica que as duas variáveis são independentes, caso contrário existe associação entre as variáveis. Expressando em termos de teste de hipótese: { H_0 : d_ij = q_ip_j H_1 : d_ij ≠ q_ip_j Teste de associação Abaixo um exemplo típico de tabela de contingência referente às variáveis X e Y para uma amostra de tamanho n X_1 . . . X_I Y_1 n_11 n_1I n_y1 . . . . . . . . Y_J n_1J n_IJ n_yJ n_x1 . . . n_xI n n_ij é a frequência observada do par (x_i, y_j), n_yj e n_xi, respectivamente frequências observadas de y_j e x_i. A estatística Q = ∑_(i=1)^I ∑_(j=1)^J ((O_ij - E_ij)^2 / E_ij) é usada para testar { H_0 : d_ij = q_ip_j H_1 : d_ij ≠ q_ip_j O_ij, frequência observada do par (x_i, y_j) e E_ij a frequência esperada do par (x_i,y_j), caso a hipótese nula fosse verdadeira, ou seja, E_ij = n × q̂_i p̂_j = (n_xi n_yj / n) = (n_xi n_yj) / n Teste de qui-quadrado de Pearson A estat´ıstica Q ´e conhecida como teste de qui-quadrado de Pearson proposto em 1900 por Karl Pearson. Assintoticamente, Q ∼ χ2 com (I − 1)(J − 1) graus de liberdade. Assim como no teste de aderˆencia, na presen¸ca de Eij < 5, linhas/colunas dever˜ao ser agregadas. Valores ”alto” de Q indicam que a hip´otese nula ´e falsa, ou seja, rejeita-se H0 se Q > χ2 c, onde χ2 c, ´e um valor tabelado da distribui¸c˜ao de quiquadrado com (I-1)(J-1) graus de liberdade. 18 Exerc´ıcio Uma amostra de 980 eleitores foi selecionado e cada eleitor anotou os dados: sexo e preferˆencia por qual partido. Os resultados est˜ao colocados na tabela abaixo. Dem Ind Rep Total M 279 73 225 577 H 165 47 191 403 444 120 416 980 Use o teste de qui-quadrado do Pearson para verificar se existe associa¸c˜ao entre preferˆencia de partido pol´ıtico e sexo do eleitor? Hip´oteses nula e alternativa: H0 : N˜ao existe associa¸c˜ao (os eventos s˜ao independentes); H1 : Existe associa¸c˜ao Frequencia esperada segundo a hip´otese de independˆencia 261.42 70.65 244.93 182.58 49.35 171.07 Valor da estat´ıstica: χ2 obs = 7.010 Com α = 5% Valor cr´ıtico:χ2 obs = 5.99 com 2 graus de liberdade Decis˜ao: rejeito H0 19
27
Estatística
USP
21
Estatística
USP
18
Estatística
USP
2
Estatística 1
USP
4
Estatística
USP
45
Estatística
USP
59
Estatística 1
USP
8
Estatística 1
USP
5
Estatística 1
USP
18
Estatística 1
USP
Texto de pré-visualização
PRO 3200 - Estat´ıstica Testes de aderˆencia e associa¸c˜ao Profas. Celma de Oliveira Ribeiro e Linda Lee Ho 2021 Departmento de Engenharia de Produ¸c˜ao Universidade de S˜ao Paulo 1 Outline Introdu¸c˜ao Teste de Kolmogorov-Smirnov Teste de qui-quadrado de Pearson Gr´aficos de probabilidade Teste de Associa¸c˜ao 2 Introdução Teste de aderˆencia Objetivo de teste de aderˆencia H0: os dados seguem a distribui¸c˜ao de probabilidade de interesse H1: os dados n˜ao seguem a distribui¸c˜ao probabilidade de interesse Existem v´arios testes de aderˆencia: • Qui-quadrado de Pearson • Kolmogorov-Smirnov • Anderson-Darling • Shapiro-Wilks • etc 3 Teste de aderencia Todos os testes partem de um mesmo princ´ıpio: • Compara a distribui¸c˜ao (acumulada) dos dados observados versus a distribui¸c˜ao (acumulada) te´orica • Uma estat´ıstica ´e calculada a partir destas discrepˆancias. • Compara-se esta estat´ıstica (ou alguma fun¸c˜ao) com um valor cr´ıtico; se for maior que o valor cr´ıtico, rejeita-se a hip´otese nula • Valor cr´ıtico – depende do teste, do tamanho da amostra, o erro do tipo I 4 Teste de Kolmogorov-Smirnov Teste de aderˆencia: Kolmogorov-Smirnov Estat´ıstica do teste: K = max|F0(X) − Fn(X)| onde • F0(X), valor da distribui¸c˜ao acumulada te´orica at´e X, • Fn(X), valor da distribui¸c˜ao emp´ırica acumulada at´e o ponto X. • Regra de decis˜ao: Se K > Kc rejeita a H0, • Kc, valor cr´ıtico tabelado em fun¸c˜ao do erro do tipo I, tamanho da amostra. 5 Teste de qui-quadrado de Pearson O teste de qui-quadrado de Pearson serve para testar vários teste de hipótese. Uma dela é verificar se um conjunto de dados segue alguma distribuição de probabilidade Estatística do teste Q = \sum_{i=1}^{k} \frac{(O_i - E_i)^2}{E_i} • O_i=frequência observada da classe i, i = 1, . . . , k • E_i frequência esperada da classe i, i = 1, . . . , k • Assintoticamente Q segue uma distribuição qui-quadrado com g graus de liberdade g = (k − 1) − p, k= número de classes, p= número de parâmetros estimados. • Restrições: E_i > 5 Teste de qui-quadrado de Pearson Um exemplo - Teste de qui-quadrado de Pearson Os dados seguem uma distribui¸c˜ao de Poisson? # de defeitos 0 1 2 3 4 frequencia 6000 3000 600 350 50 8 Solu¸c˜ao # de defeitos Freq Obs Freq Esp Freq Esp agreg Q 0 6000 5798.418 5798.418 7.008 1 3000 3160.138 3160.138 8.115 2 600 861.138 861.138 79.189 3 350 156.440 156.440 239.488 4 50 21.315 23.867 28.614 >4 0 2.552 Total 10000 362.414 Distribui¸c˜ao de Poisson - fun¸c˜ao do parˆametro λ Qual deve ser o estimador de λ? E a estimativa? Quantos graus de liberdade deve-se usar neste teste? Qual a sua conclus˜ao? 9 Q-Q plot Vamos detalhar o caso do Q-Q plot da distribuição normal pois esta é uma suposição bastante recorrente nas situações práticas. Relembrando que a CDF de distribuição normal padrão Z é: Φ(z) = p = P(Z < z) = ∫_{-∞}^{z} \frac{1}{\sqrt{2π}} exp(−1/2Z²)dz Então o quantil z de ordem p é dado por: z_p = Φ^{-1}(p) No caso de X ∼ N(μ, σ²), os quantis de ordem p são dados por X_p = μ + σΦ^{-1}(p) Gr´aficos de probabilidade Gr´aficos de probabilidade - embora formalmente n˜ao seja um teste de hip´otese, mas uma ferramenta muito ´util, pois permite visualizar a distribui¸c˜ao dos dados observados (ou os quantis observados) versus a distribui¸c˜ao te´orica (os quantis reais) principalmente quando o tamanho da amostra ´e pequeno e insuficiente para conduzir os testes de aderˆencia. Objetivo: Averiguar se um conjunto de dados possui uma distribui¸c˜ao de probabilidade de interesse. Existem dois tipos de gr´aficos de probabilidade: 1- Plotar a probabilidade acumulada emp´ırica versus a probabilidade acumulada te´orica segundo uma distribui¸c˜ao de interesse. Conhecido como P-P plot 2 - Plotar os quantis observados versus os quantis esperados segundo uma distribui¸c˜ao de interesse. Este ´e conhecido como Q-Q plot 10 P-P plot Percentis te´orico: 100p-´esimo percentil, para uma fun¸c˜ao com fun¸c˜ao distribui¸c˜ao acumulada F(.) ´e o valor q(p), tal que F(q(p)) = p. Para uma amostra de n elementos, o percentil observado ´e obtido da seguinte maneira: • Ordene do menor para o maior • O percentil da i-´esima observa¸c˜ao ´e: pi = 100(i − 0.5) n Os percentis te´oricos e observados devem estar bem pr´oximos caso os dados sigam `a distribui¸c˜ao de interesse. Muito semelhante como foi feito para o teste KS anteriormente visto. 11 Gráficos de probabilidade Q-Q plot Vamos determinar os quantis amostrais segundo uma distribui¸c˜ao Normal Dado um conjunto de observa¸c˜oes X1, X2, . . . , Xn, proceder do seguinte modo: • colocar os dados em ordem crescente obtendo X(1), X(2), . . . , X(n) • a distribui¸c˜ao acumulada emp´ırica da observa¸c˜ao i ´e pi = i − 0.5 n • obter Φ−1(pi) e plotar o par (X(i), Φ−1(pi)) ou (X(i), X(pi )) com X(pi ) = µ + σΦ−1(pi)) • se os dados forem normalmente distribuidos, eles estar˜ao alinhados, com o intercepto na m´edia µ e com inclina¸c˜ao σ 13 Exemplo Considere as 10 observa¸c˜oes: 0.87/1.56/-0.53/-1.91/1.40/-1.25/0.72/0.35/-0.75/0.20 X(i) pi zi −1.91 0.05 −1.645 −1.25 0.15 −1.036 −0.75 0.25 −0.674 −0.53 0.35 −0.385 0.2 0.45 −0.126 0.35 0.55 0.126 0.72 0.65 0.385 0.87 0.75 0.674 1.4 0.85 1.036 1.56 0.95 1.645 Plotando observa¸c˜ao x(i) x zi 14 Exemplo Dados: 3.01 / 3.35 / 4.79 / 5.96 / 7.89 Quer verificar se seguem a distribui¸c˜ao normal µ = 5 e σ = 2 X(i) pi zi X(pi) 3.01 0.1 -1.282 2.44 3.35 0.3 -0.524 3.95 4.79 0.5 0.000 5.00 5.96 0.7 0.524 6.05 7.89 0.9 1.282 7.56 Plotando X(i) x X(pi) 15 Teste de Associação Teste de associação Em estatística descritiva tabelas de contingência são empregadas para avaliar se existe ou não associação entre duas variáveis qualitativas. Veremos agora como fazer inferência neste assunto. Antes vamos recordar sobre a distribuição conjunta de probabilidade. Considerem X e Y variáveis aleatórias que assumem I e J valores com a distribuição conjunta dada por X_1 . . . X_I Y_1 d_11 d_1I p_1 . . . . . . . . Y_J d_1J d_IJ p_J q_1 . . . q_I sendo d_ij = P(X = x_i, Y = y_j), p_j = P(Y = y_j) e q_i = P(X = x_i), i = 1, … , I, j = 1, … , J Ausência de associação implica que as duas variáveis são independentes, caso contrário existe associação entre as variáveis. Expressando em termos de teste de hipótese: { H_0 : d_ij = q_ip_j H_1 : d_ij ≠ q_ip_j Teste de associação Abaixo um exemplo típico de tabela de contingência referente às variáveis X e Y para uma amostra de tamanho n X_1 . . . X_I Y_1 n_11 n_1I n_y1 . . . . . . . . Y_J n_1J n_IJ n_yJ n_x1 . . . n_xI n n_ij é a frequência observada do par (x_i, y_j), n_yj e n_xi, respectivamente frequências observadas de y_j e x_i. A estatística Q = ∑_(i=1)^I ∑_(j=1)^J ((O_ij - E_ij)^2 / E_ij) é usada para testar { H_0 : d_ij = q_ip_j H_1 : d_ij ≠ q_ip_j O_ij, frequência observada do par (x_i, y_j) e E_ij a frequência esperada do par (x_i,y_j), caso a hipótese nula fosse verdadeira, ou seja, E_ij = n × q̂_i p̂_j = (n_xi n_yj / n) = (n_xi n_yj) / n Teste de qui-quadrado de Pearson A estat´ıstica Q ´e conhecida como teste de qui-quadrado de Pearson proposto em 1900 por Karl Pearson. Assintoticamente, Q ∼ χ2 com (I − 1)(J − 1) graus de liberdade. Assim como no teste de aderˆencia, na presen¸ca de Eij < 5, linhas/colunas dever˜ao ser agregadas. Valores ”alto” de Q indicam que a hip´otese nula ´e falsa, ou seja, rejeita-se H0 se Q > χ2 c, onde χ2 c, ´e um valor tabelado da distribui¸c˜ao de quiquadrado com (I-1)(J-1) graus de liberdade. 18 Exerc´ıcio Uma amostra de 980 eleitores foi selecionado e cada eleitor anotou os dados: sexo e preferˆencia por qual partido. Os resultados est˜ao colocados na tabela abaixo. Dem Ind Rep Total M 279 73 225 577 H 165 47 191 403 444 120 416 980 Use o teste de qui-quadrado do Pearson para verificar se existe associa¸c˜ao entre preferˆencia de partido pol´ıtico e sexo do eleitor? Hip´oteses nula e alternativa: H0 : N˜ao existe associa¸c˜ao (os eventos s˜ao independentes); H1 : Existe associa¸c˜ao Frequencia esperada segundo a hip´otese de independˆencia 261.42 70.65 244.93 182.58 49.35 171.07 Valor da estat´ıstica: χ2 obs = 7.010 Com α = 5% Valor cr´ıtico:χ2 obs = 5.99 com 2 graus de liberdade Decis˜ao: rejeito H0 19