3
Bioestatística
UFRA
9
Bioestatística
UFRA
10
Bioestatística
UFRA
403
Bioestatística
UFRA
Texto de pré-visualização
AVALIAÇÃO PARCIAL 1 Elabore um tutorial escrito sobre TESTE T TESTE Z comparação parâmetro populacional com parâmetro amostral CORRELAÇÃO REGRESSÃO E QUI QUADRADO O tutorial precisar conter enunciado para cada teste explicação do teste exemplo tutorial adicionar prints e resultado biológico e estatístico AVALIAÇÃO PARCIAL 1 Elabore um tutorial escrito sobre TESTE T TESTE Z comparação parâmetro populacional com parâmetro amostral CORRELAÇÃO REGRESSÃO E QUIQUADRADO O tutorial precisar conter enunciado para cada teste explicação do teste exemplo tutorial adicionar prints e resultado biológico e estatístico TESTE NORMAL z Quando se investiga a dimensão da distância na qual a média aritmética da amostra se desvia em unidades de erropadrão da média da população teste z para a médiada população O teste z é considerado preciso quando A população é normalmente distribuída ou o tamanho da amostra é suficientemente grande de maneira que satisfaça o teorema do limite central O desviopadrão da população deve ser conhecido Neste caso com base no teorema do limite central a distribuição de amostragem da média aritmética seguiria a distribuição normal A estatística z representa quantos desvios padrões o parâmetro amostral está distante do parâmetro populacional Razão de z para uma única amostra zc x µ σ x e zc p p p q n População investigada N tamanho da amostra n média populacional µ média amostral x Erropadrão da média amostral sx p proporção da característica investigada na amostra p q 1 p proporção da característica na população investigada zc para diferença entre duas médias amostrais zc x1 x2 s² n1 s²n2 zc para diferença entre duas proporções amostrais zc p1 p2 p1 q1n1 p2 q2n2 No caso do teste z aplicado a uma proporção devemos trabalhar com uma amostra suficientemente grande isto é np 5 para que a distribuição normal ofereça uma boa aproximação para os dados de uma distribuição binomial Ex Uma população de 700 bovinos com peso médio 275 kg e desviopadrão de 50 kg foi investigada a partir de uma amostra de 100 bovinos com média amostrar de 290 kg A hipótese a ser investigada de é de que nada aconteceu com relação a média da população isto é µ 275 hipótese nula embora os pesquisadores suspeitem exatamente o oposto ou seja alguma alteração significativa deve ter acontecido com média da população de bovinos hipótese alternativa Isto é existe uma expectativa de rejeitar a hipótese nula Observação se a hipótese nula for verdadeira as distribuições de todas as médias amostram estará centrada em torno da média da população 275 Este conjunto representa distribuição da hipótese nula O erropadrão da média aritmética σ x é obtido pela fórmula σ x σ n Para esta amostra σ x σ n 50 100 5 Este erropadrão reflete o afastamento entre as médias das amostras Hipóteses Hipótese nula µ 275 e Hipótese alternativa µ 275 Razão de z para uma única amostra Zc x µ σ x para nosso exemplo zc 300 Conclusão como zc 300 a hipótese nula é rejeitada para os níveis de significância de 10 5 e 1 Teorema do Limite Central Consideremos uma população que tem como parâmetros média µ e desvio padrão σ da qual estaremos aleatoriamente uma amostra n este teorema estabelece o seguinte Se a população tiver distribuição normal a média amostral terá dis 9 tribuição normal µ σ n isto é a média das médias de todas as possíveis amostras será igual à média da população e o desviopadrão das médias de todas as possíveis amostras será uma fração do desviopadrão da população fração tanto menor quanto maior for o tamanho da amostra Observação mesmo que a população não possua distribuição normal a média amostral pode ser considerada normal desde que o tamanho da amostra seja suficiente grande em geral para n 30 A partir deste teorema podemos obter resultados para a média amostral conhecendo apenas os parâmetros da população média µ desviopadrão σ Exemplo Consideremos a população de preços de gasolina com média 1437 e desviopadrão 0093 Extraindose uma amostra de 36 preços qual a probabilidade da média amostram diferir menos de 2 centavos para cima ou para baixo da média da população O teorema do limite central nos diz que a média amostram é normalmente distribuída e tem os seguintes parâmetros Média da amostra 1437 Desviopadrão da amostra 0093 n 36 Erro Padrão da Média Amostral 00155 Erro Padrão N Confiança 002 afastamento Intervalo de Confiança para a média populacional L Inferior 1417 L Superior 1457 Probabilidade do preço pertencer a este Intervalo Erro Padrão 002 00155 129 Isto é 1 menos a prob z 129 e z 129 204015 803 P1417 µ 1457 1 01970 08030 Como estimar o valor p em Testes da Distribuição Normal O valor p é a probabilidade de se obter uma estatística de teste maior ou igual que o resultado obtido a partir dos dados da amostra desde que a hipótese nula seja realmente verdadeira O valor p é frequentemente chamado de nível observado de significância isto é o menor nível no qual a hipótese nula pode ser rejeitada Se p a hipótese nula é aceita Se p a hipótese nula é rejeitada Teste Bilateral Quando a média da amostra é maior ou igual a média populacional p 2 Pz zc Quando a média da amostra é menor ou igual a média populacional p 2 Pz zc Exemplo Afirmase que a média de uma população é 200 Uma amostra aleatória retirada dessa população com 36 unidades tem média 208 e desvio padrão 35 Verificar se devemos aceitar a hipótese nula ao nível de 5 Resolução zc 137 Como a média amostra é maior do que a média populacional p 2 Pz 137 portanto p 2 00853 01706 Como 01706 é maior que 005 aceitamos a Hipótese Nula Exemplo Uma empresa que produz determinado cereal afirma que o peso médio da caixa deste cereal é de 368 gramas com desviopadrão de 15 gramas Uma amostra aleatória de 25 caixas foi selecionada obtendo média de 3635 gramas Aplicar o teste conviniente Observação considere o desvio padrão da amostra aproximadamente igual ao da população Nível de significância de 5 Utilizando um teste bilateral H0 µ 368 e H1 µ 368 O valor de z calculado para a pesquisa zc 150 deve ser comparado com o intervalo de 196 Resolução Como a média amostra é menor do que a média populacional p 2 Pz 150 portanto p 2 00668 01336 Como 01336 é maior que 005 aceitamos a Hipótese Nula Teste Unilateral quando a média da amostra é maior ou igual a média populacional p Pz zc Quando a média da amostra é menor ou igual a média populacional p Pz zc Exemplo Utilizar teste unilateral na questão anterior H0 µ 368 e H1 µ 368 A região de rejeição neste caso esá relacionada com a cauda inferior da distribuição da amostra A área de aceitação da hipótese nula é 095 enquanto a de rejeição desta hipótese é de 005 5 com probabilidade de 165 Resolução Como a média da amostra é menor do que a média populacional p Pz 150 00668 Como 00668 é maior que 005 aceitamos a Hipótese Nula TESTE T O Teste T é um teste estatístico frequentemente utilizado para testar hipóteses sobre diferenças entre até duas médias É possível usar o Teste T para 1 comparar a média de uma amostra com a média populacional one sample t test 2 para comparar duas médias amostrais two sample t test ou 3 para comparar duas médias de uma mesma amostra que foi investigada em dois momentos do tempo paired ou matched t test Por utilizar dados amostrais da média para estimar a média populacional parâmetro μμ ele é considerado um teste paramétrico Como todo teste inferencial o Teste T é um modelo estatístico com os seguintes pressupostos i Os dados são aleatórios e representativos da população ii A variável dependente é contínua iii Os resíduos do modelo são normalmente distribuídos Quando há o interesse de utilizar o Teste T para comparar os resultados de dois grupos é também necessário que iv Ambos os grupos sejam independentes ou seja grupos exaustivos e excludentes v A variância residual seja homogênea princípio da homocedasticidade Quando se utiliza o Teste T pareado o princípio da independência não é mais solicitado mas é necessário que vi O tamanho amostral seja o mesmo nos grupos Uma vez que o Teste T é adequado para diferentes objetivos de pesquisa a tabela a seguir reúne alguns exemplos Correlação e Regressão São duas técnicas estreitamente relacionadas que visa estimar uma relação que possa existir entre duas variáveis na população Correlação resume o grau de relacionamento entre duas variáveis X e Y por exemplo Regressão tem como resultado uma equação matemática que descreve o relacionamento entre variáveis Correlação O objetivo do estudo da correlação é determinar mensurar o grau de relacionamento entre duas variáveis Caso os pontos das variáveis representados num plano cartesiano X Y ou gráfico de dispersão apresentem uma dispersão ao longo de uma reta imaginária dizemos que os dados apresentam uma correlação linear Coeficiente de correlação linear de Pearson Uma medida do grau e do sinal da correlação linear entre duas variáveis XY é dado pelo Coeficiente de Correlação Linear de Pearson definido por Exemplo 1 A tabela abaixo apresenta os preços médios das ações e títulos divulgados pela Bolsa de Nova York entre 1950 e 1959 Calcule o coeficiente de correlação de Pearson e interprete o resultado REGRESSÃO Quando analisamos dados que sugerem a existência de uma relação funcional entre duas variáveis surge então o problema de se determinar uma função matemática que exprima esse relacionamento ou seja uma equação de regressão Ao imaginar imaginar uma relação relação funcional funcional entre duas variáveis variáveis digamos digamos X e Y estamos interessados numa função que explique grande parte da variação de Y por X Entretanto uma parcela da variabilidade de Y não explicada por X será atribuída ao acaso ou seja ao erro aleatório Quando se estuda a variação de uma variável Y em função de uma variável X dizemos que Y é a variável dependente e que X é a variável explanatória ou independente O modelo em que busca explicar uma variável Y como uma função linear de apenas uma variável X é denominado de modelo de regressão linear simples Qui quadrado O Teste Quiquadrado é um teste nãoparamétrico utilizado basicamente para três finalidades específicas que são 1 verificar as distribuições de probabilidades de cada categoria de uma variável em relação a um valor teórico esperado aderência 2 verificar se as distribuições das categorias são as mesmas para diferentes subpopulações de interesse homogeneidade e 3 verificar se duas variáveis categóricas são independentes independência Apesar das diferenças em relação às perguntas de pesquisa o sistema matemático é o mesmo onde K se refere a quantidade de classes O é o valor observado de uma determinada classe E é o valor esperado desta classe Pela fórmula é possível deduzir que quanto maior for a discrepância entre as frequências observadas empiricamente O e as frequências esperadas E maior seráes a estatística de teste e consequentemente menor será o valor de P Finalmente é também possível entender o Quiquadrado como um caso particular de uma regressão logística o que será abordado em outro capítulo Se assume os seguintes pressupostos funcionais à execução de um Qui quadrado i Os dados são aleatórios e representativos da população ii as variáveis analisadas são categóricas eg sexo nível de escolaridade grau de uma doença iii Todas as frequências esperadas são maiores ou iguais a 1 iv No máximo apenas 20 das frequências esperadas são inferiores a 5 A tabela abaixo descreve as condições de análise com exemplos ilustrativos Versão do teste Variáveis Exemplo Aderência Goodness of fit 1 categórica Verificar se a proporção de caras e coroas é de 50 cada Verificar se a proporção das cores de chocolates MM são aderentes ao que a empresa afirma Homogeneidade 2 categóricas Verificar se a proporção de homens e mulheres que gostam de uma marca de celular é similar Testar se o uso de anabolizante é homogêneo em atletas de diferentes modalidades esportivas Independência 2 categóricas Verificar se o sexo e a escolha do curso de graduação são independentes Testar se classe social e local de interesse para uma viagem são independentes
3
Bioestatística
UFRA
9
Bioestatística
UFRA
10
Bioestatística
UFRA
403
Bioestatística
UFRA
Texto de pré-visualização
AVALIAÇÃO PARCIAL 1 Elabore um tutorial escrito sobre TESTE T TESTE Z comparação parâmetro populacional com parâmetro amostral CORRELAÇÃO REGRESSÃO E QUI QUADRADO O tutorial precisar conter enunciado para cada teste explicação do teste exemplo tutorial adicionar prints e resultado biológico e estatístico AVALIAÇÃO PARCIAL 1 Elabore um tutorial escrito sobre TESTE T TESTE Z comparação parâmetro populacional com parâmetro amostral CORRELAÇÃO REGRESSÃO E QUIQUADRADO O tutorial precisar conter enunciado para cada teste explicação do teste exemplo tutorial adicionar prints e resultado biológico e estatístico TESTE NORMAL z Quando se investiga a dimensão da distância na qual a média aritmética da amostra se desvia em unidades de erropadrão da média da população teste z para a médiada população O teste z é considerado preciso quando A população é normalmente distribuída ou o tamanho da amostra é suficientemente grande de maneira que satisfaça o teorema do limite central O desviopadrão da população deve ser conhecido Neste caso com base no teorema do limite central a distribuição de amostragem da média aritmética seguiria a distribuição normal A estatística z representa quantos desvios padrões o parâmetro amostral está distante do parâmetro populacional Razão de z para uma única amostra zc x µ σ x e zc p p p q n População investigada N tamanho da amostra n média populacional µ média amostral x Erropadrão da média amostral sx p proporção da característica investigada na amostra p q 1 p proporção da característica na população investigada zc para diferença entre duas médias amostrais zc x1 x2 s² n1 s²n2 zc para diferença entre duas proporções amostrais zc p1 p2 p1 q1n1 p2 q2n2 No caso do teste z aplicado a uma proporção devemos trabalhar com uma amostra suficientemente grande isto é np 5 para que a distribuição normal ofereça uma boa aproximação para os dados de uma distribuição binomial Ex Uma população de 700 bovinos com peso médio 275 kg e desviopadrão de 50 kg foi investigada a partir de uma amostra de 100 bovinos com média amostrar de 290 kg A hipótese a ser investigada de é de que nada aconteceu com relação a média da população isto é µ 275 hipótese nula embora os pesquisadores suspeitem exatamente o oposto ou seja alguma alteração significativa deve ter acontecido com média da população de bovinos hipótese alternativa Isto é existe uma expectativa de rejeitar a hipótese nula Observação se a hipótese nula for verdadeira as distribuições de todas as médias amostram estará centrada em torno da média da população 275 Este conjunto representa distribuição da hipótese nula O erropadrão da média aritmética σ x é obtido pela fórmula σ x σ n Para esta amostra σ x σ n 50 100 5 Este erropadrão reflete o afastamento entre as médias das amostras Hipóteses Hipótese nula µ 275 e Hipótese alternativa µ 275 Razão de z para uma única amostra Zc x µ σ x para nosso exemplo zc 300 Conclusão como zc 300 a hipótese nula é rejeitada para os níveis de significância de 10 5 e 1 Teorema do Limite Central Consideremos uma população que tem como parâmetros média µ e desvio padrão σ da qual estaremos aleatoriamente uma amostra n este teorema estabelece o seguinte Se a população tiver distribuição normal a média amostral terá dis 9 tribuição normal µ σ n isto é a média das médias de todas as possíveis amostras será igual à média da população e o desviopadrão das médias de todas as possíveis amostras será uma fração do desviopadrão da população fração tanto menor quanto maior for o tamanho da amostra Observação mesmo que a população não possua distribuição normal a média amostral pode ser considerada normal desde que o tamanho da amostra seja suficiente grande em geral para n 30 A partir deste teorema podemos obter resultados para a média amostral conhecendo apenas os parâmetros da população média µ desviopadrão σ Exemplo Consideremos a população de preços de gasolina com média 1437 e desviopadrão 0093 Extraindose uma amostra de 36 preços qual a probabilidade da média amostram diferir menos de 2 centavos para cima ou para baixo da média da população O teorema do limite central nos diz que a média amostram é normalmente distribuída e tem os seguintes parâmetros Média da amostra 1437 Desviopadrão da amostra 0093 n 36 Erro Padrão da Média Amostral 00155 Erro Padrão N Confiança 002 afastamento Intervalo de Confiança para a média populacional L Inferior 1417 L Superior 1457 Probabilidade do preço pertencer a este Intervalo Erro Padrão 002 00155 129 Isto é 1 menos a prob z 129 e z 129 204015 803 P1417 µ 1457 1 01970 08030 Como estimar o valor p em Testes da Distribuição Normal O valor p é a probabilidade de se obter uma estatística de teste maior ou igual que o resultado obtido a partir dos dados da amostra desde que a hipótese nula seja realmente verdadeira O valor p é frequentemente chamado de nível observado de significância isto é o menor nível no qual a hipótese nula pode ser rejeitada Se p a hipótese nula é aceita Se p a hipótese nula é rejeitada Teste Bilateral Quando a média da amostra é maior ou igual a média populacional p 2 Pz zc Quando a média da amostra é menor ou igual a média populacional p 2 Pz zc Exemplo Afirmase que a média de uma população é 200 Uma amostra aleatória retirada dessa população com 36 unidades tem média 208 e desvio padrão 35 Verificar se devemos aceitar a hipótese nula ao nível de 5 Resolução zc 137 Como a média amostra é maior do que a média populacional p 2 Pz 137 portanto p 2 00853 01706 Como 01706 é maior que 005 aceitamos a Hipótese Nula Exemplo Uma empresa que produz determinado cereal afirma que o peso médio da caixa deste cereal é de 368 gramas com desviopadrão de 15 gramas Uma amostra aleatória de 25 caixas foi selecionada obtendo média de 3635 gramas Aplicar o teste conviniente Observação considere o desvio padrão da amostra aproximadamente igual ao da população Nível de significância de 5 Utilizando um teste bilateral H0 µ 368 e H1 µ 368 O valor de z calculado para a pesquisa zc 150 deve ser comparado com o intervalo de 196 Resolução Como a média amostra é menor do que a média populacional p 2 Pz 150 portanto p 2 00668 01336 Como 01336 é maior que 005 aceitamos a Hipótese Nula Teste Unilateral quando a média da amostra é maior ou igual a média populacional p Pz zc Quando a média da amostra é menor ou igual a média populacional p Pz zc Exemplo Utilizar teste unilateral na questão anterior H0 µ 368 e H1 µ 368 A região de rejeição neste caso esá relacionada com a cauda inferior da distribuição da amostra A área de aceitação da hipótese nula é 095 enquanto a de rejeição desta hipótese é de 005 5 com probabilidade de 165 Resolução Como a média da amostra é menor do que a média populacional p Pz 150 00668 Como 00668 é maior que 005 aceitamos a Hipótese Nula TESTE T O Teste T é um teste estatístico frequentemente utilizado para testar hipóteses sobre diferenças entre até duas médias É possível usar o Teste T para 1 comparar a média de uma amostra com a média populacional one sample t test 2 para comparar duas médias amostrais two sample t test ou 3 para comparar duas médias de uma mesma amostra que foi investigada em dois momentos do tempo paired ou matched t test Por utilizar dados amostrais da média para estimar a média populacional parâmetro μμ ele é considerado um teste paramétrico Como todo teste inferencial o Teste T é um modelo estatístico com os seguintes pressupostos i Os dados são aleatórios e representativos da população ii A variável dependente é contínua iii Os resíduos do modelo são normalmente distribuídos Quando há o interesse de utilizar o Teste T para comparar os resultados de dois grupos é também necessário que iv Ambos os grupos sejam independentes ou seja grupos exaustivos e excludentes v A variância residual seja homogênea princípio da homocedasticidade Quando se utiliza o Teste T pareado o princípio da independência não é mais solicitado mas é necessário que vi O tamanho amostral seja o mesmo nos grupos Uma vez que o Teste T é adequado para diferentes objetivos de pesquisa a tabela a seguir reúne alguns exemplos Correlação e Regressão São duas técnicas estreitamente relacionadas que visa estimar uma relação que possa existir entre duas variáveis na população Correlação resume o grau de relacionamento entre duas variáveis X e Y por exemplo Regressão tem como resultado uma equação matemática que descreve o relacionamento entre variáveis Correlação O objetivo do estudo da correlação é determinar mensurar o grau de relacionamento entre duas variáveis Caso os pontos das variáveis representados num plano cartesiano X Y ou gráfico de dispersão apresentem uma dispersão ao longo de uma reta imaginária dizemos que os dados apresentam uma correlação linear Coeficiente de correlação linear de Pearson Uma medida do grau e do sinal da correlação linear entre duas variáveis XY é dado pelo Coeficiente de Correlação Linear de Pearson definido por Exemplo 1 A tabela abaixo apresenta os preços médios das ações e títulos divulgados pela Bolsa de Nova York entre 1950 e 1959 Calcule o coeficiente de correlação de Pearson e interprete o resultado REGRESSÃO Quando analisamos dados que sugerem a existência de uma relação funcional entre duas variáveis surge então o problema de se determinar uma função matemática que exprima esse relacionamento ou seja uma equação de regressão Ao imaginar imaginar uma relação relação funcional funcional entre duas variáveis variáveis digamos digamos X e Y estamos interessados numa função que explique grande parte da variação de Y por X Entretanto uma parcela da variabilidade de Y não explicada por X será atribuída ao acaso ou seja ao erro aleatório Quando se estuda a variação de uma variável Y em função de uma variável X dizemos que Y é a variável dependente e que X é a variável explanatória ou independente O modelo em que busca explicar uma variável Y como uma função linear de apenas uma variável X é denominado de modelo de regressão linear simples Qui quadrado O Teste Quiquadrado é um teste nãoparamétrico utilizado basicamente para três finalidades específicas que são 1 verificar as distribuições de probabilidades de cada categoria de uma variável em relação a um valor teórico esperado aderência 2 verificar se as distribuições das categorias são as mesmas para diferentes subpopulações de interesse homogeneidade e 3 verificar se duas variáveis categóricas são independentes independência Apesar das diferenças em relação às perguntas de pesquisa o sistema matemático é o mesmo onde K se refere a quantidade de classes O é o valor observado de uma determinada classe E é o valor esperado desta classe Pela fórmula é possível deduzir que quanto maior for a discrepância entre as frequências observadas empiricamente O e as frequências esperadas E maior seráes a estatística de teste e consequentemente menor será o valor de P Finalmente é também possível entender o Quiquadrado como um caso particular de uma regressão logística o que será abordado em outro capítulo Se assume os seguintes pressupostos funcionais à execução de um Qui quadrado i Os dados são aleatórios e representativos da população ii as variáveis analisadas são categóricas eg sexo nível de escolaridade grau de uma doença iii Todas as frequências esperadas são maiores ou iguais a 1 iv No máximo apenas 20 das frequências esperadas são inferiores a 5 A tabela abaixo descreve as condições de análise com exemplos ilustrativos Versão do teste Variáveis Exemplo Aderência Goodness of fit 1 categórica Verificar se a proporção de caras e coroas é de 50 cada Verificar se a proporção das cores de chocolates MM são aderentes ao que a empresa afirma Homogeneidade 2 categóricas Verificar se a proporção de homens e mulheres que gostam de uma marca de celular é similar Testar se o uso de anabolizante é homogêneo em atletas de diferentes modalidades esportivas Independência 2 categóricas Verificar se o sexo e a escolha do curso de graduação são independentes Testar se classe social e local de interesse para uma viagem são independentes