·

Cursos Gerais ·

Bioestatística

Envie sua pergunta para a IA e receba a resposta na hora

Texto de pré-visualização

TESTES QUIQUADRADO ADERÊNCIA INDEPENDÊNCIA E HETEROGENEIDADE Antonio Carlos Leal de Castro BIOESTATAULA 920252 Propriedades da Distribuição da Estatística QuiQuadrado 1 A distribuição quiquadrado não é simétrica ao contrário das distribuições normal e t de Student Na medida em que o número de graus de liberdade aumenta a distribuição vai se tornando menos assimétrica 2 Os valores de quiquadrado podem ser zero ou positivos nunca negativos 3 Há uma distribuição quiquadrado diferente para cada número de graus de liberdade 4 À medida que o número de graus de liberdade aumenta a distribuição quiquadrado tende para uma distribuição normal A distribuição Quiquadrado é assimétrica e se torna menos assimétrica a medida que os graus de liberdade aumentam Os valores da distribuição são sempre positivos maior ou igual a zero Existe uma família de distribuições quiquadrado dependendo do número de graus de liberdade Para grandes amostras a distribuição quiquadrado tende para uma distribuição normal Estatística do Quiquadrado Solução por QuiQuadrado QuiQuadrado indicado por 𝜒2 é uma estatística concebida por Karl Pearson em 1899 e prestase a testar basicamente dois tipos de hipóteses Aderência e Independência Um Teste de Aderência serve para ajudar o pesquisador a decidir se os dados que ele colheu se ajustam bem a uma determinada Lei Também chamado de Teste ou prova de ajustamento Solução por QuiQuadrado A Lei é tirada da H0 sob forma de Probabilidade Então para moedas honestas a lei é p 05 para dados honestos p 01666 O Teste de QuiQuadrado de aderência consiste em comparar os dados obtidos experimentalmente com os dados esperados de acordo com a lei Das comparações surgem diferenças que podem ser grandes ou pequenas Se forem grandes a H0 que pressupõe bom ajustamento deverá ser rejeitada em favor da Ha se forem pequenas a H0 não será rejeitada e as diferenças serão atribuíveis ao acaso Isso quer dizer que se estivermos trabalhando com um dado honesto de 5 faces a lei será p 02 A lei varia de acordo com cada situação específica Solução por QuiQuadrado Como os dados experimentais podem variar de amostra para amostra uma maneira sensata de avaliar quão grandes ou quão pequenas são as diferenças é eleválas ao quadrado e em seguida dividilas por um valor estável isto é um valor que se mantenha constante em qualquer amostra Esse valor é dado pela lei Em resumo esse tal de 𝜒2 ajudanos a decidir se de fato Muito é muito e pouco é pouco Ao elevar as diferenças ao quadrado o estatístico livrase do efeito dos sinais negativos Solução por QuiQuadrado A soma resultante desses quocientes chamase QuiQuadrado Observado e notase assim 𝜒2 0 A decisão final resulta da comparação entre 𝜒2 calc e um 𝜒2 c 𝜒2 crítico 𝜒2 c tabelado Distribuição QuiQuadrado Nível de Significância Graus de Liberdade 995 0995 99 099 975 0975 95 095 90 090 10 010 5 005 25 0025 1 001 05 0005 1 0001 0004 0016 2706 3841 5024 6635 7879 2 0010 0020 0051 0103 0211 4605 5991 7378 9210 10597 3 0072 0115 0216 0352 0584 6251 7815 9348 11345 12838 4 0207 0297 0484 0711 1064 7779 9488 11143 13277 14860 5 0412 0554 0831 1145 1610 9236 11071 12833 15086 16750 6 0676 0872 1237 1635 2204 10645 12592 14449 16812 18548 7 0989 1239 1690 2167 2833 12017 14067 16013 18475 20278 8 1344 1646 2180 2733 3490 13362 15507 17535 20090 21955 9 1735 2088 2700 3325 4168 14684 16919 19023 21666 23589 10 2156 2558 3247 3940 4865 15987 18307 20483 23209 25188 11 2603 3053 3816 4575 5578 17275 19675 21920 24725 26757 12 3074 3571 4404 5226 6304 18549 21026 23337 26217 28299 13 3565 4107 5009 5892 7042 19812 22362 24736 27688 29819 14 4075 4660 5629 6571 7790 21064 23685 26119 29141 31319 15 4601 5229 6262 7261 8547 22307 24996 27488 30578 32801 16 5142 5812 6908 7962 9312 23542 26296 28845 32000 34267 17 5697 6408 7564 8672 10085 24769 27587 30191 33409 35718 18 6265 7015 8231 9390 10865 25989 28869 31526 34805 37156 19 6844 7633 8907 10117 11651 27204 30144 32852 36191 38582 20 7434 8260 9591 10851 12443 28412 31410 34170 37566 39997 21 8034 8897 10283 11591 13240 29615 32671 35479 38932 41401 22 8643 9542 10982 12338 14042 30813 33924 36781 40289 42796 Como consultar a tábua Localizar o α Determinar o número de Graus de Liberdade GLIB Cruzar α com GLIB e ler o valor de 𝜒2 c Regra de Decisão Conclusão 𝜒2 calc 1200 𝜒2 c 3841 𝑯𝟎 𝒏ã𝒐 𝒓𝒆𝒋𝒆𝒊𝒕𝒂𝒅𝒂 Se 𝜒2 calc 𝜒2 c H0 rejeitada Se 𝜒2 calc 𝜒2 c H0 não rejeitada Solução por QuiQuadrado QuiQuadrado indicado por x² é uma estatística concebida por Karl Pearson em 1899 e prestase a testar basicamente dois tipos de hipóteses Aderência e Independência Um Teste de Aderência serve para ajudar o pesquisador a decidir se os dados que ele colheu se ajustam bem a uma determinada Lei Também chamado de Teste ou prova de ajustamento Solução por QuiQuadrado A Lei é tirada da H0 sob forma de Probabilidade Então para moedas honestas a lei é p 05 para dados honestos p 01666 A lei varia de acordo com cada situação específica O Teste de QuiQuadrado de aderência consiste em comparar os os dados obtidos experimentalmente com os dados esperados de acordo com a lei Das comparações surgem diferenças que podem ser grandes ou pequenas Se forem grandes a H0 que pressupõe bom ajustamento deverá ser rejeitada em favor da Ha se forem pequenas a H0 não será rejeitada e as diferenças serão atribuíveis ao acaso TESTE DE INDEPENDÊNCIA Um Teste de Independência serve para ajudar o pesquisador a decidir se duas variáveis estão ou não amarradas uma à outra por uma relação de dependência A lógica subjacente a essa prova é muito simples quanto menor a dependência entre as duas variáveis menor o valor de x0² Lembrar que o x0² é calculado o xc² é tabelado Regra de Decisão A regra de decisão também é a mesma para um dado valor de α e certo número de graus de liberdade se x0² xc² H0 rejeitada se x0² xc² H0 não será rejeitada Cálculo do número de Graus de Liberdade Se na tabela original dupla entrada fizermos c número de colunas e L número de linhas então GLIB c1L1 Para uma Prova de x² de independência usase uma tabela especial denominada Tabela de Dupla Entrada Nessa tabela há linhas e colunas e de seu cruzamento resultam caselas Falase em tabela de L linhas e c colunas e indicase por Lxc Os valores que figuram nas caselas são mutuamente excludentes não podem pertencer ao mesmo tempo a mais de uma casela Cálculo da Lei Para cada casela vale a relação total de linhatotal de coluna total geral Testes Quiquadrado Aderência 1 Testes de Aderência Objetivo Testar a adequabilidade de um modelo probabilístico a um conjunto de dados observados Exemplo 1 Segundo Mendel geneticista famoso os resultados dos cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas seguem uma distribuição de probabilidades dada por Resultado Amarela redonda Amarela enrugada Verde redonda Verde enrugada Probabilidade 916 316 316 116 Uma amostra de 556 ervilhas resultantes de cruzamentos de ervilhas amarelas redondas com ervilhas verdes enrugadas foi classificada da seguinte forma Resultado Amarela redonda Amarela enrugada Verde redonda Verde enrugada Frequência observada 315 101 108 32 Há evidências de que os resultados desse experimento estão de acordo com a distribuição de probabilidades proposta por Mendel 4 categorias para os resultados dos cruzamentos Amarelas redondas AR Amarelas enrugadas AE Verdes redondas VR Verdes enrugadas VE Segundo Mendel a probabilidade de cada categoria é dada por Probabilidades AR AE VR VE 916 316 316 116 No experimento 556 ervilhas foram classificadas segundo o tipo de resultado fornecendo a tabela a seguir Tipo de resultado Frequência observada AR 315 AE 101 VR 108 VE 33 Total 556 Objetivo Verificar se o modelo probabilístico proposto é adequado aos resultados do experimento Se o modelo probabilístico for adequado a frequência esperada ervilhas do tipo AR dentre as 556 observadas pode ser calculada por 556 x PAR 556 x 916 31275 Da mesma forma temos para o tipo AE 556 x PAE 556 x 316 10425 Para o tipo VR temos 556 x PVR 556 x 316 10425 E para o tipo VE 556 x PVE 556 x 116 3475 Podemos expandir a tabela de frequências dada anteriormente Tipo de resultado Frequência observada Frequência esperada AR 315 31275 AE 101 10425 VR 108 10425 VE 33 3475 Total 556 556 Pergunta Podemos afirmar que os valores observados estão suficientemente próximos dos valores esperados de tal forma que o modelo probabilístico proposto por Mendel é adequado aos resultados desse experimento Testes de Aderência Metodologia Considere uma tabela de frequências com k 2 categorias de resultados Categorias Frequência Observada 1 O1 2 O2 3 O3 k Ok Total n em que Oi é o total de indivíduos observados na categoria i i 1k Expandindo a tabela de frequências original temos Categor ias Frequência Observada Frequência esperada sob H 1 O1 E1 2 O2 E2 3 O3 E3 k Ok Ek Total n n Quantificação da distância entre as colunas de frequências Estatística do teste de aderência Supondo H verdadeira sendo que q k 1 representa o número de graus de liberdade Em outras palavras se H é verdadeira a va 2 tem distribuição aproximada quiquadrado com q graus de liberdade IMPORTANTE Este resultado é válido para n grande e para Ei 5 i 1 k aproximadamente Regra de decisão Pode ser baseada no nível descritivo ou valor P neste caso em que é o valor calculado a partir dos dados usando a expressão apresentada para Graficamente Se para fixado obtemos P rejeitamos a hipótese H Exemplo continuação Cruzamentos de ervilhas Hipóteses H O modelo probabilístico proposto por Mendel é adequado A O modelo proposto por Mendel não é adequado De forma equivalente podemos escrever H PAR 916 PAE 316 PVR 316 e PVE 116 A ao menos uma das igualdades não se verifica A tabela seguinte apresenta os valores observados e esperados calculados anteriormente Cálculo do valor da estatística do teste k 4 Resultado Oi EI AR 315 31275 AE 101 10425 VR 108 10425 VE 33 3475 Total 556 556 0016 0101 0135 0218 0470 Usando a distribuição de quiquadrado com q k1 3 graus de liberdade o nível descritivo é calculado por Conclusão Para 005 como P 0925 005 não há evidências para rejeitarmos a hipótese H isto é ao nível de significância de 5 concluímos o modelo de probabilidades de Mendel se aplica aos resultados do experimento Testes de Aderência Objetivo Testar a adequabilidade de um modelo probabilístico a um conjunto de dados observados Exemplo 1 Genética Equilíbrio HardyWeinberg Probabilidades Modelo teórico 3 categorias AA Aa aa Em uma certa população 100 descendentes foram estudados fornecendo a tabela a seguir Objetivo Verificar se o modelo genético proposto é adequado para essa população Genótipo Frequência observada AA 26 Aa 45 aa 29 Total 100 Se o modelo HardyWeinberg for adequado a frequência esperada de descendentes para o genótipo AA dentre os 100 indivíduos pode ser calculada por 100 PAA 100 1 4 25 Da mesma forma temos para o genótipo Aa 100 PAa 100 1 2 50 E para o genótipo aa 100 Paa 100 1 4 25 Podemos expandir a tabela de frequências dada anteriormente Pergunta Podemos afirmar que os valores observados estão suficientemente próximos dos valores esperados de tal forma que o modelo HardyWeinberg é adequado a esta população Genótipo Frequência Observada Frequência Esperada AA 26 25 Aa 45 50 Aa 29 25 Total 100 100 Hipóteses H O modelo proposto é adequado a esta situação A O modelo não é adequado a esta situação De forma equivalente podemos escrever H PAA ¼ PAa ½ e Paa ¼ A ao menos uma das igualdades não se verifica A tabela seguinte apresenta os valores observados e esperados calculados anteriormente Cálculo do valor da estatística do teste k 3 Usando a distribuição de quiquadrado com q k1 2 graus de liberdade o nível descritivo é calculado por Conclusão Para 005 como P 05543 005 não rejeitamos a hipótese H isto é essa população segue o equilíbrio HardyWeinberg Genótipo Oi Ei AA 26 25 Aa 45 50 aa 29 25 Total 100 100 Exemplo 2 Desejase verificar se o número de acidentes em uma estrada muda conforme o dia da semana O número de acidentes observado para cada dia de uma semana escolhida aleatoriamente foram Dia da Semana Nº de acidentes Seg 20 Ter 10 Qua 10 Qui 15 Sex 30 Sab 20 Dom 35 O que pode ser dito Hipóteses a serem testadas H O número de acidentes não muda conforme o dia da semana A Pelo menos um dos dias tem número diferente dos demais Se pi representa a probabilidade de ocorrência de acidentes no iésimo dia da semana H pi 17 para todo i 1 7 A pi 17 para pelo menos um valor de i Total de acidentes na semana n 140 Logo se H for verdadeira Ei 140 x 17 20 i 17 ou seja esperamos 20 acidentes por dia Cálculo da estatística de quiquadrado Dia da Semana Nº de acidentes observados Oi Nº esperado de acidentes Ei Seg 20 20 Ter 10 20 Qua 10 20 Qui 15 20 Sex 30 20 Sab 20 20 Dom 35 20 Neste caso temos 2 2 6 aproximadamente O nível descritivo é dado por Logo para 005 segue que P 00001 e assim rejeitamos H0 e concluímos que o número de acidentes não é o mesmo em todos os dias da semana TABELAS DE CONTINGÊNCIA TABELAS DE CONTINGÊNCIA Independência e Associação Tabela de Contingência Em muitos trabalhos experimentais os dados colhidos representam ocorrência de certos fenômenos que se podem classificar numa tabela chamada tabela de contingência Estas tabelas têm como objetivo estudar a possível associação entre duas variáveis que classificam os dados Em tal situação a H0 hipótese nula será testar a independência entre as variáveis Para poder calcular o ² é necessário que tenhamos as frequências teóricas o que se faz admitindose a hipótese de que todos os grupos reajam da mesma maneira diante da condição a elas imposta A comparação entre os valores calculados de ² para verificar a significância pode ser obtido na tabela de ² Definição Uma tabela de contingência é uma tabela de frequências que representa um conjunto de dados que foram classificados simultaneamente segundo duas bidimensional ou mais variáveis multidimensional As tabelas de contingência têm pelo menos 2 linhas e 2 colunas Pressupostos 1 As observações são selecionadas aleatoriamente 2 A hipótese nula H0 afirma que as variáveis linha e coluna são independentes a hipótese alternativa H1 afirma que as variáveis linha e coluna são dependentes 3 O valor esperado E de cada célula da tabela de contingência tem que ser pelo menos 5 Que não é o mesmo do que dizer que cada valor observado O de cada célula da tabela de contingência tenha que ser pelo menos 5 Teste de Independência Estatística de teste Correcção de Yates aplicase quando a tabela de contingência é 2x2 Neste caso a estatística de teste é Valores críticos 1 Determinamse através da tabela da distribuição Quiquadrado com r 1c 1graus de liberdade onde r é o número de linhas e c o número de colunas da tabela de contingência 2 A hipótese alternativa é sempre unilateral direita Teste de Independência H0 A variável linha é independente da variável coluna H1 A variável linha é dependente está relacionada com a da variável coluna A dependência entre as duas variáveis significa apenas que as duas variáveis estão relacionadas não especifica o tipo de relação por exº do tipo causaefeito Relações entre as componentes num Teste de Independência Testes de Independência Objetivo Verificar se existe independência entre duas variáveis medidas nas mesmas unidades experimentais Exemplo 3 Desejase verificar se existe dependência entre a renda e o número de filhos em famílias de uma cidade 250 famílias escolhidas ao acaso forneceram a tabela a seguir Renda R Número de filhos 0 1 2 de 2 Total Menos de 2000 15 27 50 43 135 2000 a 5000 25 30 12 8 75 5000 ou mais 8 13 9 10 40 Total 48 70 71 61 250 Em geral os dados referemse a mensurações de duas características A e B feitas em n unidades experimentais que são apresentadas conforme a seguinte tabela Hipóteses a serem testadas Teste de independência H A e B são variáveis independentes A As variáveis A e B não são independentes Regra de decisão Pode ser baseada no nível descritivo P neste caso em que 2 obs é o valor calculado a partir dos dados usando a expressão apresentada para 2 Graficamente Se para a fixado obtemos P rejeitamos a hipótese H de independência Exemplo continuação Estudo da dependência entre renda e o número de filhos 250 famílias foram escolhidas ao acaso Hipóteses H O número de filhos e a renda são independentes A Existe dependência entre o número de filhos e a renda Exemplo do cálculo dos valores esperados sob H independência Número esperado de famílias sem filhos e renda menor que R 2000 Renda R Número de filhos 0 1 2 de 2 Total Menos de 2000 15 27 50 43 135 2000 a 5000 25 30 12 8 75 5000 ou mais 8 13 9 10 40 Total 48 70 71 61 250 Tabela de valores observados e esperados entre parênteses Renda R Número de filhos 0 1 2 de 2 Total Menos de 2000 15 2592 273780 503834 433294 135 2000 a 5000 251440 302100 122130 81830 75 5000 ou mais 8768 131120 91136 10976 40 Total 48 70 71 61 250 1 filho e renda de R 2000 a R 5000 𝑬𝟐𝟐 𝟕𝟎𝒙𝟕𝟓 𝟐𝟓𝟎 2100 2 ou filhos e renda de R 5000 ou mais 𝑬𝟑𝟒 𝟔𝟏𝒙𝟒𝟎 𝟐𝟓𝟎 976 Cálculo da estatística de quiquadrado Renda R Número de filhos 0 1 2 de 2 Total Menos de 2000 15 2592 27 3780 50 3834 43 3294 135 2000 a 5000 25 1440 30 2100 12 2130 8 1830 75 5000 ou mais 8 768 13 1120 9 1136 10 976 40 Total 48 70 71 61 250 Determinação do número de graus de liberdade Categorias de renda r 3 Categorias de nº de filhos s 4 Como P 0000 005 rejeitamos a independência entre número de filhos e renda familiar q r 1s 1 2 3 6 2 Testes de Independência Objetivo Verificar se existe independência entre duas variáveis medidas nas mesmas unidades experimentais Exemplo 3 A Associação de Imprensa do Estado de São Paulo fez um levantamento com 1300 leitores para verificar se a preferência por leitura de um determinado jornal é independente do nível de instrução do indivíduo Os resultados obtidos foram Tipo de Jornal Grau de instrução Jornal A Jornal B Jornal C Outros Total 1º Grau 10 8 5 27 50 2º Grau 90 162 125 73 450 Universitári o 200 250 220 130 800 Total 300 420 350 230 1300 Tipo de Jornal Grau de instrução Jornal A Jornal B Jornal C Outros Total 1º Grau 10 1154 8 1615 5 1346 27 885 50 2º Grau 90 10385 162 14538 125 12115 73 7962 450 Universitári o 200 18462 250 25846 220 21538 130 14154 800 Total 300 420 350 230 1300 χ²obs 10 1154² 1154 8 1615² 1615 5 1346² 1346 27 885² 885 90 10385² 10385 162 14538² 14538 125 12115² 12115 73 7962² 7962 200 18462² 18462 250 25846² 25846 220 21538² 21538 130 14154² 14154 53910 Exemplo 4 1237 indivíduos adultos classificados segundo a pressão sanguínea mm Hg e o nível de colesterol mg100cm3 Verificar se existe independência entre essas variáveis H Pressão sanguínea e nível de colesterol são independentes A Nível de colesterol e pressão sanguínea são variáveis dependentes Colesterol Pressão Total 127 127 a 166 166 200 117 168 22 307 200 a 260 204 418 63 685 260 67 145 33 245 Total 388 731 118 1237 TESTE DE HETEROGENEIDADE Experiment Plants with yellow seeds Plants with green seeds Total plants n Uncorrected chisquare v 1 25 270000 11 90000 36 05926 1 2 32 292500 7 97500 39 10342 1 3 14 142500 5 47500 19 00175 1 4 70 727500 27 242500 97 04158 1 5 24 277500 13 92500 37 20270 1 6 20 195000 6 65000 26 00513 1 7 32 337500 13 112500 45 03630 1 8 44 397500 9 132500 53 18176 1 9 50 480000 14 160000 64 03333 1 10 44 465000 18 155000 62 05376 1 Total of chisquares 71899 10 Chisquare of totals ie pooled chisquare 355 3585000 123 1195000 478 01367 1 Heterogeneity chisquare 70532 9 χ20059 16919 Do not reject the homogeneity null hypothesis 050 P 075 P 063 In heterogeneity analysis chisquare is computed without correction for continuity Sample Righthanded Lefthanded n Uncorrected chisquare v 1 3 70000 11 70000 14 45714 1 2 4 80000 12 80000 16 40000 1 3 5 100000 15 100000 20 50000 1 4 14 90000 4 90000 18 55556 1 5 13 85000 4 85000 17 47647 1 6 17 110000 5 110000 22 65455 1 Total of chisquares 304372 6 Chisquare of totals ie pooled chisquare 56 535000 51 535000 107 02336 1 Heterogeneity chisquare 302036 5 χ20055 11070 Reject H0 for homogeneity P 0001 P 0000013 Sample Righthanded Lefthanded n Uncorrected chisquare v 1 15 110000 7 110000 22 29091 1 2 16 120000 8 120000 24 26667 1 3 12 85000 5 85000 17 28824 1 4 13 90000 5 90000 18 35556 1 Total of chisquares 120138 4 Chisquare of totals 56 405000 25 405000 81 118642 1 pooled chisquare Heterogeneity 01496 3 chisquare Χ00532 7815 The homogeneity H0 is not rejected 0975 P 099 P 0985 Therefore we are justified in pooling the four sets of data On doing so Χc2 11111 DF 1 P 000086 H0 is rejected