·

Cursos Gerais ·

Inferência Estatística 2

Send your question to AI and receive an answer instantly

Ask Question

Preview text

Inferência Estatística Material Teórico Responsável pelo Conteúdo Profª Me Adriana Domingues Freitas Revisão Textual Prof Me Claudio Brites Inferência e Comparação entre Médias Introdução A Estatística de Teste t de Student O Teste de Significância com a Distribuição T Teste T para Média de Dados Emparelhados Compreender e realizar testes de signifi cância para validar uma determinada média populacional Calcular estatísticas de teste a partir da distribuição t de student Realizar comparação entre duas médias tanto para amostras dependentes quanto para amostrar independentes OBJETIVOS DE APRENDIZADO Inferência e Comparação entre Médias Orientações de estudo Para que o conteúdo desta Disciplina seja bem aproveitado e haja maior aplicabilidade na sua formação acadêmica e atuação profissional siga algumas recomendações básicas Assim Organize seus estudos de maneira que passem a fazer parte da sua rotina Por exemplo você poderá determinar um dia e horário fixos como seu momento do estudo Procure se alimentar e se hidratar quando for estudar lembrese de que uma alimentação saudável pode proporcionar melhor aproveitamento do estudo No material de cada Unidade há leituras indicadas e entre elas artigos científicos livros vídeos e sites para aprofundar os conhecimentos adquiridos ao longo da Unidade Além disso você tam bém encontrará sugestões de conteúdo extra no item Material Complementar que ampliarão sua interpretação e auxiliarão no pleno entendimento dos temas abordados Após o contato com o conteúdo proposto participe dos debates mediados em fóruns de discus são pois irão auxiliar a verificar o quanto você absorveu de conhecimento além de propiciar o contato com seus colegas e tutores o que se apresenta como rico espaço de troca de ideias e de aprendizagem Organize seus estudos de maneira que passem a fazer parte Mantenha o foco Evite se distrair com as redes sociais Mantenha o foco Evite se distrair com as redes sociais Determine um horário fixo para estudar Aproveite as indicações de Material Complementar Procure se alimentar e se hidratar quando for estudar lembrese de que uma Não se esqueça de se alimentar e de se manter hidratado Aproveite as Conserve seu material e local de estudos sempre organizados Procure manter contato com seus colegas e tutores para trocar ideias Isso amplia a aprendizagem Seja original Nunca plagie trabalhos Introdução A partir dos dados de uma determinada amostra podemos recorrer à inferência estatística para estimar ou validar parâmetros populacionais Tanto para determinar intervalos de confiança como para realizar testes de significância temos alguns passos a serem seguidos bem como algumas informações são necessárias No teste de significância também chamado de teste de hipótese uma das etapas é justamente a escolha da estatística de teste e essa estatística que é determinada por uma fórmula pode variar de acordo com o contexto e com as informações a que se tem acesso Por exemplo quando temos uma distribuição que assumimos ser normal e conhecemos o desvio padrão populacional usamos a estatística de teste z Porém nem sempre é possível termos acesso aos parâmetros populacionais Na realidade casos nos quais não conhecemos os parâmetros populacionais média variância e desviopadrão ocorrem com muito mais frequência do que casos nos quais temos acesso a essas informações e então a estatística de teste z dependendo também do tamanho da amostra pode não ser a mais indicada É nesse contexto que a estatística de teste t com base da distribuição t de student é utilizada Importante Quando os dados analisados não fornecem o parâmetro populacional de dispersão desviopadrão ou variância a estatística de teste indicada é a t de student que chamamos também de teste t A estatística de teste t é calculada por t x µ s n Observe e compare com a estatística de teste z z x µ σ n Em que x é a média amostral 9 µ é a média populacional testada para H0 σ desviopadrão populacional s é o desviopadrão amostral n é o número de elementos da amostra Perceba que a diferença em termos de cálculo da estatística t para a estatística z está no fato de que ao invés de usar o DesvioPadrão Populacional σ se usa o DesvioPadrão Populacional s Atentese que quando o DesvioPadrão Populacional σ é estimado a partir da amostra usando então DesvioPadrão Populacional s o resultado é chamado de erropadrão O erropadrão da média amostral é definido por s n Na prática ao calcular a estatística de teste t ao invés de usar o desviopadrão populacional usa remos o desviopadrão amostral A Estatística de Teste t de Student A curva da distribuição t é similar à curva normal e assim como essa tem área igual a 1 é em forma de sino e simétrica em relação à média que é igual a zero assim como a moda e mediana igualmente nulas Tratase de uma família de curvas cada qual determinada por um parâmetro que é o chamado grau de liberdade Os valores para consulta em uma tabela t de student mudam de acordo com os graus de liberdade Podese trabalhar com diferentes graus de liberdade mas normalmente se tra balha com n1 graus de liberdade o que será o foco desta unidade Dessa forma quando usamos a distribuição t para estimar a média da população os graus de liberdade são iguais ao tamanho da amostra menos um ou seja n1 Perceba que como o grau de liberdade será dado por n1 temos uma distribuição diferente para cada tamanho de amostra Explor Conforme os graus de liberdade aumentam a distribuição t de student se apro xima da distribuição normal ao ponto que para mais de 30 graus de liberdade a distribuição t se equivale à distribuição normal conforme podemos observar na Figura 1 9 Figura 1 Curvas de densidade das distribuições t com dois e nove graus de liberdade e da distribuição Normal padrão Fonte Moore Notz e Fligner 2017 Observe que a dispersão da Distribuição t possui mais área nas caudas se comparada à Distribuição Normal Em decorrência disso a probabilidade de ocorrência nas caudas é maior na Distribuição T do que na Distribuição Normal e tal fato ocorre em virtude da substituição do parâmetro DesvioPadrão Populacional σ pelo Desvio Amostral s Temos ainda que conforme os graus de liberdade da curva de Distribuição t aumentam ela se aproxima da Curva Normal isso ocorre visto que quanto maior a amostra diminuise a interferência do uso de s ao invés de σ Conforme Moore Notz e Fligner 2017 ressaltam a estatística t tem a mesma interpretação que qualquer estatística padronizada informa a distância de x à sua média µ em unidades de desviopadrão Calcular a estatística t é uma simples aplicação da fórmula conforme o Exemplo 1 Exemplo 1 em um teste de significância no qual se tem H0 µ 200 e H1 µ 200 com base em nove registros de uma população normal e com x 2035 e s 6 calcule o valor da estatística t t x µ s n 2035 200 6 9 175 Portanto t calc 175 Igualmente simples é observar o número de graus de liberdade que terá sempre uma relação direta com o número de termos da amostra Lembrando que nesta unidade usaremos sempre o padrão n1 Exemplo 2 Ao realizar um teste de significância no qual temos H0 µ 20 contra H1 µ 20 com base em uma AAS de 22 observações de uma população Normal considerando que estatística t é t 2831 quantos são os graus de liberdade para essa estatística 11 Resolução observe que nessa situação como se utiliza a estatística de teste t temos que os graus de liberdade são dados por n1 como n 22 então 221 21 Logo são 21 graus de liberdade Veremos a seguir como proceder para realizar testes de significância utilizando a distribuição t O Teste de Significância com a Distribuição t A forma de realizar as etapas do teste de significância assim como interpretar seu resultado é igual tanto para z como para t o que difere é o cálculo da estatística de teste e a consulta para o valor do t crítico É justamente a fase que descrevemos como escolher a estatística de teste apropriada Ao escolher a estatística t passamos a tratar com o t crítico no lugar de z crítico Continuamos com três possibilidades de testes conforme as figuras a seguir bem como a análise da região crítica RC Figura 2 Teste de Signifi cância t Unilateral à esquerda Fonte Acervo do conteudista O teste unilateral à esquerda diz respeito a hipóteses nas quais consideramos a desigualdade menor para a H1 Como por exemplo H0 μ μ0 e H1 μ μ0 ou H0 μ μ0 e H1 μ μ0 Figura 3 Teste de Signifi cância t Unilateral à direita Fonte Acervo do conteudista 11 UNIDADE Inferência e Comparação entre Médias O teste unilateral à direita diz respeito a hipóteses nas quais consideramos a desigualdade maior para a H1 Como por exemplo H0 μ μ0 e H1 μ μ0 ou H0 μ μ0 e H1 μ μ0 Figura 4 Teste de Significância t Bilateral à direita Fonte Acervo do conteudista O teste bilateral é utilizado quando tratamos da igualdade H0 μ μ0 e por consequência H1 μ μ0 como a diferença A Região Crítica denotada na ilustração como RC assim como no teste z correspon de à área de rejeição A região crítica será dada pelo t observado na tabela t de student Importante Na tabela t de student para localizar o valor de t basta observar o cruzamento entre a linha que indica os graus de liberdade e a coluna que indica o valor p que no caso é a nossa signi ficância E p no caso da estatística t pode ser associado ao que apresenta o α na estatística z Importante Observe a tabela t de student a seguir Figura 5 Figura 5 Tabela t de student 12 Por exemplo se temos uma amostra com n 20 registros e queremos um teste com n1 graus de liberdade e com significância de 5 o valor de t na tabela será t 2093 UNIDADE Inferência e Comparação entre Médias procurando a evidência de que as condições passadas mudaram Se essas áreas tivessem sido consideradas inseguras no passado e estivéssemos procurando por evidência de que seriam seguras agora nossas hipóteses nula e alternativa seriam H0 μ 400 e H1 μ 400 Observe os níveis de coliformes fecais encontrados pelos laboratórios 160 40 2800 80 2000 2000 1500 400 150 500 3000 2200 15 80 2000 2000 2600 600 1000 1500 Esses dados são uma boa evidência na média de que os níveis de coliformes fecais nessas áreas de natação eram inseguros Resolução supondo uma amostra aleatória simples e como não conhecemos o desviopadrão ou a variância populacional utilizaremos então a estatística de teste t Da amostra temos que a média amostral será de 1231 e o desviopadrão s 1038 Se você não se recorda como calcular a média e o desvio padrão indicamos que assista ao vídeo para relembrar httpsyoutube10PK3V4kFA Explor Com os dados de x e s daremos prosseguimento ao teste Determinar o parâmetro de interesse Estabelecer a hipótese H0 Estabelece a hipótese H1 que contradiz H0 Calcular a estatística de Teste Encontrar o valor para a região crítica no caso de um determinado Nível de Confiança eou Nível de Significância desejados em tabelas de valores de áreas como tabela normal e t student por exemplo Contrapor a estatística de teste calculada com a região de rejeição no caso de um determinado Nível de Confiança eou Nível de Significância desejados e realizar a análise das hipóteses Manter ou rejeitar a Hipótese Inicial H0 A partir da Hipótese aceita voltar para a análise da questão e concluir no contexto apresentado Observe que nosso parâmetro de interesse é a média por hipótese temos H0 μ 400 e como alternativa H1 μ 400 note que H1 maior do que 400 e não maior ou igual já que ela deve se contrapor a H0 Temos então um teste unilateral à esquerda 14 A Estatística de testes será a t de student uma vez que desconhecemos o desviopadrão amostral Logo a estatística t é dada por t x μ s n 1231 400 1038 29 3580 Observe que o tcalculado pela estatística de teste bem como o t observado na tabela e sabendo que se trata de um teste unilateral temos o seguinte esboço para facilitar a análise da situação 001 17 da tabela como graus de liberdade temos que n 1 27 Logo o valor observado estará no encontro da coluna referente a p 05 com a linha referente à 27 graus de liberdade gl Note que t observado na tabela será t 2052 Observe o esboço na Figura 9 Figura 9 Esboço Teste T Unilateral do exemplo 4 Fonte Acervo do conteudista Como t calculado 167 não está na região crítica delimitada por t observado 2052 então mantemos H0 como verdadeira Logo H0 μ 35 No contexto da situação problema apresentada temos que com significância de 5 o gerente do call center pode admitir que a média da nota de avaliação dos atendimentos realizados não é maior do que 35 Teste t para Média de Dados Emparelhados O teste t é útil quando da comparação de duas médias ou seja para a inferência comparativa A comparação pode se dar em amostras independentes e depen dentes Quando temos o uso de dados emparelhados por exemplo são realizadas duas observações para os mesmos sujeitos uma antes e outra depois e então é realizada a análise comparativa das médias Essa análise é feita transformando as duas amostras em uma tomandose então a diferença entre os dados para cada respectivo par Nesse caso não devemos tratálas como amostras independentes por tratarse dos mesmos sujeitos Exemplo 5 O gerente de um call center implementou um plano de capacitação aos atendentes tendo como meta aumentar o nível de satisfação em relação aos atendimentos realizados por sua equipe Ao final de cada ligação o cliente classifica com uma nota de 0 a 7 o seu nível de satisfação no qual 0 quer dizer totalmente insatisfeito e 7 totalmente satisfeito Para analisar a eficiência do novo modelo de atendimento fez o levantamento de uma amostra das notas recebidas por oito aten dentes analisando a média das notas obtidas por esses atendentes antes e depois da capacitação Observe os dados coletados pelo gerente na Tabela 1 17 Tabela 1 Atendente Nota Antes da Capacitação Nota Posterior à Capacitação Diferença observada 01 4 5 1 02 3 6 3 03 4 6 2 04 2 4 2 05 3 5 2 06 3 3 0 07 2 4 2 08 4 4 0 Temos então uma amostra composta pelas oito diferenças 1 3 2 2 2 0 2 0 E dessa amostra temos como média e desviopadrão respectivamente x 15 e σ 107 É sobre essa amostra a amostra da diferença entre os dados que faremos o teste de hipótese Importante Veja que para realizar o teste de comparação das médias de dados emparelhados fazemos a análise da amostra que é composta pela diferença entre as médias O gerente quer saber se a nota recebida pelos atendentes foi maior após a capacitação realizada Nesse caso teremos como H0 a hipótese inicial de que nada mudou ou seja de que a média de atendimento é a mesma Para contrariar H0 teremos H1 que afirma que sim que a nota foi maior ou seja H0 μ 0 H1 μ 0 Note que H1 foi definida pela desigualdade μ 0 ao passo que H0 pela igualdade μ 0 Lembrese que H0 sempre é definida pela igualdade Como não sabemos a variabilidade da população todas as notas recebidas de todos os atendentes no período trabalharemos então com a variabilidade da amostra ou seja com o desviopadrão da amostra e usaremos o teste t de student Temos então que a média da amostra das diferenças é x 15 que μ 0 Além disso o desviopadrão da amostra é s 107 e são 8 registros na amostra das diferenças Ao calcular a estatística de teste t temos t x μ s n 15 0 107 8 Logo tcalc 212 Para identificar o valor que delimita a região crítica RC em nossa análise devemos ver um valor para a significância Veja que esse é um valor de escolha do pesquisador com qual nível de significância deseja realizar a inferência No nosso exemplo usaremos 5 que por consequência resulta em p 05 contudo perceba que poderíamos usar 1 ou ainda 8 ou seja esse é um valor de livre escolha do pesquisador mas que sempre deve ser informado na conclusão da análise dos dados Quem recebe os dados deve ter ciência do nível de significância envolvido na análise dos dados Temos nesta situação um teste unilateral já para a hipótese alternativa foi estipulado H1 μ 0 Perceba que aqui não bastaria ser diferente H1 μ 0 e sim ter maior para contrariar H0 já que devemos observar se a nota de avaliação dos atendentes aumentou após as mudanças implementadas Para consultar a tabela t precisamos também do número de graus de liberdade gl Como estamos trabalhando nesta disciplina com n1 graus de liberdade e como temos 8 registros na amostra então teremos 81 7 graus de liberdade Sendo assim devemos consultar na Figura 5 o valor correspondente ao encontro da coluna referente ao p 05 com a linha referente a gl 7 conforme Figura 10 Ao observar a tabela temos t 2365 Com base no t observado no tcalculado e no nível p de um teste unilateral temos esboço da Figura 11 Figura 10 Ao observar a tabela temos t 2365 Com base no t observado no tcalculado e no nível p de um teste unilateral temos esboço da Figura 11 005 t 2365 RC tcalc 397 Figura 11 Esboço Teste T Unilateral do exemplo 5 Fonte Acervo da conteudista Como t calculado pertence à região crítica então devemos rejeitar H0 e manter H1 Logo ao manter H1 temos que μ 0 Ou seja com um nível de significância de 5 podemos inferir que ocorreu diferença entre as duas notas observadas e que a mudança foi para uma nota maior maior satisfação em relação aos atendimentos depois da capacitação realizada no setor Comparação de duas amostras A comparação de duas médias ou também chamado problema de duas amostras consiste na análise das respostas a dois experimentos comparativos ou à comparação das características de duas populações Importante destacar que nesse caso não estamos tratando de dados emparelhados são portanto consideradas amostras independentes Ao obter duas amostras independentes cada qual com seu respectivo tamanho n que pode ser inclusive igual de duas populações normais com parâmetros médios e desviospadrão desconhecidos a estatística t para análise de duas amostras é dada por tcalc x1 x2 s1² n1 s2² n2 Quando falamos de estatística t necessariamente devemos falar dos graus de liberdade Quando temos duas amostras de tamanhos n1 e n2 distintos podemos usar os graus de liberdade dados pelos menor número entre n1 1 e n2 1 Há ainda programas que produzem valores de probabilidade precisos usando os graus de liberdade calculados a partir dos dados Porém em nossa disciplina usaremos a escolha do menor número entre as duas amostras Para calcular a estatística de teste t para a comparação de duas médias perceba então que deveremos ter as médias amostrais x1 e x2 bem como os respectivos desviospadrão amostrais s1 e s2 e total de números de registros n1 e n2 Um estudo obteve dados de 57 alunos que fizeram trabalho comunitário e de 17 que não o fizeram Uma das variáveis de resposta era uma medida de afeição a amigos medida pelo Inventory of Parent and Peer Attachment Inventário da Relação com Pais e Amigos onde os maiores escores indicam maior apego Em particular a resposta é um escore que se baseia nas respostas a 25 questões A seguir o livro apresenta os resultado da Tabela 2 Tabela 2 Grupo Condição n x s 1 Serviço 57 10532 1468 2 Não serviço 17 9682 1426 Resolução Temos que o parâmetro de teste é a média e faremos a comparação entre as duas amostras que são independentes Observe que a pesquisadora não tinha em mente uma direção específica se o grupo 1 era mais ou menos mas sim se seriam diferentes Dessa forma ficam então estabelecidas as seguintes hipóteses H0 μ1 μ2 H1 μ1 μ2 Temos portanto um teste bilateral Os autores no livro não destacam a significância mas trabalharemos com 5 Você observará que a conclusão será a mesma Calcularemos então a estatística de teste t tcalc x1 x2 s²1n1 s²2n2 10532 9682 1468² 1426² 214 Para observar o valor na tabela de t de student devemos escolher o menor dentre os valores de n1 Temos então 571 da primeira amostra e 171 da segunda amostra nossa opção então será 171 16 Embora o livro não tenha estabelecido utilizaremos o nível de significância de 5 Observe que se trata de um teste bilateral com duas áreas que juntas são iguais ao número p que será de 005 Portanto ao procurar na tabela procuraremos o encontro da coluna de p 05 com a linha de gl 16 O número t encontrado é t 2120 Figura 12 UNIDADE Inferência e Comparação entre Médias Figura 12 Como temos um teste bilateral observe o esboço na Figura 13 Figura 13 Esboço Teste T Bilateral do exemplo 6 Fonte Acervo do conteudista Observe que o valor de t calculado 214 pertence à região crítica delimitada pelo t observado de 2120 Logo rejeitamos H0 e mantemos H1 Ao manter H0 e analisando o contexto com um nível de significância de 5 temos então a conclusão para a inferência de que os grupos de fato se diferenciam ou seja que o grupo composto pelos estudantes que se envolveram com o serviço comunitário em média difere daquele composto por estudantes que não se envol veram com serviço comunitário na maneira como se apegam a seus amigos Um outro exemplo é o Exemplo 7 Exemplo 7 Um professor universitário deseja investigar se o rendimento dos estudantes em sua disciplina se difere em virtude de uma formação superior ante rior Para isso selecionou duas amostras independentes de dois grupos distintos o grupo 1 de estudantes que já tiveram uma formação superior anterior e o grupo 2 de estudantes que não tiveram uma formação superior anterior Os dados como média desviopadrão e número de alunos de cada amostra estão registrados na Tabela 3 22 Com base nos dados com um nível de significância de 5 o professor deseja verificar se há diferença entre o rendimento dos alunos das duas instituições Veja que o professor deseja saber se há diferença logo temos como H0 nenhuma diferença ou seja H0 μ1 μ2 No contraponto a Hipótese Alternativa apontando que há diferença ou seja H1 μ1 μ2 O parâmetro de interesse será a média e faremos então a comparação das médias por meio da t de student Ao calcular o t de student temos tcalc 192 conforme a seguir tcalc x1 x2 s²1n1 s²2n2 82 75 14² 12² 192 Sabemos ser um teste bilateral já que H0 μ1 μ2 e H1 μ1 μ2 e temos como p 5 Já em relação aos graus de liberdade teremos o menor valor dentre as duas amostras para n1 ou seja 24 1 23 Ao analisar a tabela de t student para p 005 e graus de liberdade igual a 23 temos glp 090 080 070 060 050 040 030 020 010 005 002 001 23 0127 0256 0390 0532 0685 0858 1060 1319 1714 2069 2520 3767 Observando os dados bem como o esboço da Figura 14 percebemos que t observado que define a região crítica de um teste bilateral é t 2069 enquanto o valor da estatística de teste é t calc 192 Portanto t calc não está na região crítica logo mantemos H0 Ao manter H0 temos que μ1 μ2 portanto com nível de significância de 5 podemos inferir que as duas turmas não apresentam diferença de rendimento em seus rendimentos médios em virtude de possuírem ou não formação anterior Chegamos aqui ao final desta unidade tivemos por objetivo apresentar os testes de significância utilizando a técnica de teste t de student que é a técnica utilizada em situações nas quais não são conhecidos desviopadrão ou variância ou ainda em situações nas quais o objetivo é testar amostras emparelhadas ou ainda amostras independentes Para melhor aproveitamento releia o material teórico refaça os exemplos assista a videoaula e leia a indicação do material complementar 25 Material Complementar Indicações para saber mais sobre os assuntos abordados nesta Unidade Vídeos Teste de Hipóteses para a média com variância populacional O prof Fernando Grings do canal Professor Guru explica o teste de significância para e média quando o desviopadrão ou variância populacionais não são conhecidos httpsyoutubeIfiGkWIs7Y Teste de Hipóteses para amostras independentes e variâncias desconhecidas e diferentes O prof Fernando Grings do canal Professor Guru explica o teste de significância para duas amostras independentes httpsyoutubeXL92KWe24N4 Estatística Aula 24 Teste de Hipóteses para Média com Variância Desconhecida No vídeo disponível a seguir da Universidade Virtual do Estado de São Paulo UNIVESP você verá dois exemplos de teste de significância para média desconhecido o desvio padrão Um dos testes inclusive trata de dados emparelhados httpsyoutubeT9EMGDIBX8E Livros A Estatística Básica e sua Prática MOORE D S NOTZ W I FLIGNER M A A estatística básica e sua prática Rio de Janeiro LTC 2017 Para melhor aprofundamento dos temas tratados nesta unidade sugerimos a leitura dos capítulos 20 e 21 do livro A estatística básica e sua prática Há importantes considerações dos autores em relação ao uso da comparação entre médias para amostras dependentes e independentes Há também exercícios que podem auxiliar você no aprofundamento e na fixação do conteúdo 25 UNIDADE Inferência e Comparação entre Médias Referências MOORE D S NOTZ W I FLIGNER M A A estatística básica e sua prática Rio de Janeiro LTC 2017 26 Cruzeiro do Sul Educacional