·

Psicologia ·

Bioestatística

· 2022/2

Send your question to AI and receive an answer instantly

Ask Question

Preview text

UNIVERSIDADE FEDERAL DA BAHIA ARTHUR CRUSOÉ ROCHA REBELLO Análise Descritiva dos Dados dos Participantes do ENEM 2021 em Recife - PE Salvador 2022 2 ARTHUR CRUSOÉ ROCHA REBELLO Análise Descritiva dos Dados dos Participantes do ENEM 2021 em Recife - PE Trabalho apresentado ao curso de Bacharelado em Humanidades da Universidade Federal da Bahia, como requisito de avaliação parcial na disciplina de Estatística em Psicologia, sob orientação do professor Gilberto Pereira Sassi. Salvador 2022 3 Resumo A estatística é uma importante ferramenta na interpretação de dados de diversos estudos. O presente trabalho teve como objetivo utilizar os dados do enem da cidade de Recife em 2021 para descrever o desempenho de seus estudantes no exame. Para isso, f oram construídos: gráfico de barras, histograma, diagrama de caixa, intervalo de confiança e um teste de hipótese para analisar os dados de 1000 inscritos no ENEM 2021. Nota-se maior participação do público feminino (59%) no exame, média de redação s, média de 559,95 para ciências humanas, 616,3 para matemática e 605 em linguagens. Introdução A estatística é um conjunto de técnicas que permite coletar, organizar, descrever, analisar e interpretar os dados, aplicando-se a diversas áreas do saber, inclusive na área de humanidades. O trabalho tem o objetivo de utilizar os dados do ENEM da cidade de Recife para uma análise crítica para o curso de Estatística em Psicologia. São analisadas as notas e o sexo dos inscritos, para interpretação do que significam no contexto em que os dados estão inseridos. Método A amostra foi composta por dados de 1000 inscritos do ENEM 2021, na cidade de Recife-PE. As variáveis estudadas foram: 1- Número de matrícula (nu_inscricao) 2- Sexo (tp_sexo). 3- Notas na prova de redação (nu_nota_redacao) 4- Notas na prova de ciências humanas (nu_nota_ch) 5- Notas na prova de matemática (nu_nota_mt) 6- Notas na prova de linguagens e códigos (nu_nota_lc) 7- Notas na prova de ciências naturais (nu_nota_cn) Os cálculos de medidas descritivas, fórmulas e gráficos, foram realizados no Excel, de maneira web, dentro do Google Drive. 4 O primeiro gráfico foi feito utilizando a ferramenta de tabela dinâmica no excel online, selecionando a coluna do número de matrícula dos inscritos como “valor” e a coluna de sexo dos mesmos como “linha”. Para o histograma não foi utilizada a tabela dinâmica, o método utilizado foi apenas selecionar a coluna de amostras de notas na redação, e inserindo um histograma. O intervalo selecionado foi de 25, para melhor visualização do histograma. Resultados Foram analisados dados de 1000 participantes, sendo a maioria do sexo feminino (59%) - Gráfico 1. Com 59% dos inscritos sendo do sexo feminino, existe uma discrepância grande se considerarmos que a divisão por sexo natural é 50/50. É necessário um estudo maior de caso e o levantamento de hipóteses, um exemplo seria se em Recife houvessem mais mulheres, ou se há uma adesão geral maior do sexo feminino na prova. Gráfico 01: Número de participantes quanto ao sexo. Fonte: Autoral. No histograma, é possível perceber uma distribuição de notas equilibrada acima dos 500 pontos, sendo a média 673,78, provando que a maioria consegue fazer uma redação no mínimo mediana dentro do tema, uma vez que notas muito baixas na redação refletem textos que tangenciam demais da proposta. 5 Gráfico 02: Histograma das Notas dos Inscritos em Redação Fonte: Autoral. A partir das notas em Ciências Humanas, foram calculadas as medidas de resumo para conseguir gerar o boxplot. Seguem as medidas de resumo e o gráfico: Tabela 01: Medidas de Resumo das Notas em Ciências Humanas Mínimo 1o Quartil 3o Quartil Máximo Média Mediana Desvio Padrão 336,8 481,37 611,87 782,1 549,19 559,95 89,92 Fonte: Autoral Gráfico 03: Boxplot das Notas em Ciências Humanas 6 F onte: Autoral. O gráfico boxplot divide os dados em diversas partes e é muito utilizado para conjuntos de dados não simétricos, tomando como base a mediana, na maioria das vezes. O gráfico acima demonstra os valores máximo e mínimo bem como o primeiro e 3º quartis, com mediana representando o segundo quartil (559,5). O gráfico seguinte apresenta a média das notas das provas de linguagens e códigos e de matemática, e o intervalo de confiança de cada. Gráfico 04: Intervalo de Confiança da Média das Notas de Linguagens e Matemática Fonte: Autoral. 7 Com o coeficiente de confiança 95%, a média das notas de matemática está entre 562,78 e 577,15, e com o mesmo coeficiente, a média das notas de linguagens está entre 525,97 e 535,11. Matemática, apesar de ter uma média superior, tem um desvio padrão maior (115,92) do que linguagens (73,69), resultando em um intervalo maior. A prova de matemática é mais difícil, porém suas questões têm um peso maior na nota final, o que gera tal diferença. Para o teste de hipótese, é criada uma hipótese a partir das médias estudadas das provas anteriores. Para H0 usaremos a média das médias das provas anteriores, ou seja das provas de ciências humanas, linguagens e matemática, como suposição para a média das notas da prova de ciências naturais. Ou seja, H0 = 549,89, e H1 549,89. Ao nível de significância 5%, a média das notas de ciências naturais não é igual a 590,16. I sso se deve ao Z0 (13,02) estar na região crítica (-∞;-1,96)U(1,96;∞), já que ao nível de significância de 5% equivale ao intervalo (-∞;-Z1-α/2)U(Z1-α/2;∞), logo rejeitamos H0. Conclusão O ENEM é uma prova com sistema de notas complexo, com pesos de questões atribuídas de forma inversa à sua dificuldade, ou seja uma questão fácil numa prova difícil vale mais do que em provas fáceis. As médias das notas são baixas se considerarmos a alta nota de entrada nos cursos concorridos. Seja por descaso durante a formação ou a dificuldade da prova, o sistema de educação brasileiro precisa de uma prova que não apenas teste conhecimentos gravados dos alunos, e sim que promova uma educação libertadora e a criatividade, já que a visão hoje visa cortar individualidades para entrada no mercado de trabalho, tanto que até na redação existem fórmulas e frases prontas para estruturar e fazer da forma que o MEC deseja. Resta apenas a esperança que, com a reforma do ensino médio e do ENEM, possamos dar mais liberdade criativa às próximas gerações, em vez de pura pressão em uma prova que supostamente decide o destino do aluno. Anexo 1 8 Cálculos usados para o boxplot Cálculos usados para o intervalo de confiança. Cálculos usados para o teste de hipótese. UNIVERSIDADE FEDERAL DA BAHIA ARTHUR CRUSOÉ ROCHA REBELLO Análise Descritiva dos Dados dos Participantes do ENEM 2021 em Recife - PE Salvador 2022 2 ARTHUR CRUSOÉ ROCHA REBELLO Análise Descritiva dos Dados dos Participantes do ENEM 2021 em Recife - PE Trabalho apresentado ao curso de Bacharelado em Humanidades da Universidade Federal da Bahia, como requisito de avaliação parcial na disciplina de Estatística em Psicologia, sob orientação do professor Gilberto Pereira Sassi. Salvador 2022 3 Resumo A estatística é uma importante ferramenta na interpretação de dados de diversos estudos. O presente trabalho teve como objetivo utilizar os dados do Enem da cidade de Recife em 2021 para descrever o desempenho de seus estudantes no exame. Para isso, foram construídos: gráfico de barras, histograma, diagrama de caixa, intervalo de confiança e um teste de hipótese para analisar os dados de 1.000 inscritos no ENEM 2021. Nota-se maior participação do público feminino (59%) no exame, média de redação s, média de 559,95 para ciências humanas, 616,3 para matemática e 605 em linguagens. Introdução A estatística é um conjunto de técnicas que permite coletar, organizar, descrever, analisar e interpretar os dados, aplicando-se a diversas áreas do saber, inclusive na área de humanidades. O trabalho tem o objetivo de utilizar os dados do ENEM da cidade de Recife para uma análise crítica para o curso de Estatística em Psicologia. São analisadas as notas e o sexo dos inscritos, para interpretação do que significam no contexto em que os dados estão inseridos. Método A amostra foi composta por dados de 1000 inscritos do ENEM 2021, na cidade de Recife-PE. As variáveis estudadas foram: 1- Número de matrícula (nu_inscricao) 2- Sexo (tp_sexo). 3- Notas na prova de redação (nu_nota_redacao) 4- Notas na prova de ciências humanas (nu_nota_ch) 5- Notas na prova de matemática (nu_nota_mt) 6- Notas na prova de linguagens e códigos (nu_nota_lc) 7- Notas na prova de ciências naturais (nu_nota_cn) Os cálculos de medidas descritivas, fórmulas e gráficos, foram realizados no Excel, de maneira web, dentro do Google Drive. 4 O primeiro gráfico foi feito utilizando a ferramenta de tabela dinâmica no Excel online, selecionando a coluna do número de matrícula dos inscritos como “valor” e a coluna de sexo dos mesmos como “linha”. Para o histograma não foi utilizada a tabela dinâmica, o método utilizado foi apenas selecionar a coluna de amostras de notas na redação, e inserindo um histograma. O intervalo selecionado foi de 100, para melhor visualização do histograma. Foi realizado dois testes de hipóteses na análise inferencial das notas. O primeiro para comparação das variâncias populacionais, que testa a hipótese nula: H 0:σ1 2=σ 2 2, com estatística de teste dada por F= S1 2 σ1 2 S2 2 σ 2 2 Fn−1,m−1. O segundo teste é baseado na comparação de médias no caso de suposição de variâncias populacionais desconhecidas e diferentes, isto é: H 0: μ1=μ2, com estatística de teste dada por: T= X1−X 2−(μ1−μ2) √ S1 2 n + S2 2 m tω, onde ω= ( S1 2 n + S2 2 m) 2 1 n−1( S1 2 n ) 2 + 1 m−1( S2 2 m) 2 . Para a realização dos testes de hipóteses, foi utilizado o suplemento “Dados” do Excel, o qual possui diversas funções para a realização de técnicas de Estatística. Resultados Foram analisados dados de 1.000 participantes, sendo a maioria do sexo feminino (59%) - Gráfico 1. Com 59% dos inscritos sendo do sexo feminino, existe uma discrepância grande se considerarmos que a divisão por sexo natural é 50/50. É necessário um estudo maior de caso e o levantamento de hipóteses, um exemplo seria se 5 em Recife houvessem mais mulheres, ou se há uma adesão geral maior do sexo feminino na prova. Gráfico 01: Número de participantes quanto ao sexo. Feminino Masculino 0.00 10.00 20.00 30.00 40.00 50.00 60.00 70.00 80.00 90.00 100.00 59.00 41.00 Sexo Percentual de Inscritos Fonte: Autoral. No histograma (Gráfico 02), é possível perceber uma distribuição de notas em Redação equilibrada acima dos 500 pontos, sendo a média 673,78, provando que a maioria consegue fazer uma redação no mínimo mediana dentro do tema, uma vez que notas muito baixas na redação refletem textos que tangenciam demais da proposta. Gráfico 02: Histograma das Notas em Redação dos Inscritos Fonte: Autoral. 6 A partir das notas em Ciências Humanas, foram calculadas as medidas de resumo (Tabela 01) para conseguir gerar o boxplot. Seguem as medidas de resumo e o gráfico: Tabela 01: Medidas de Resumo das Notas em Ciências Humanas Mínimo 1º Quartil Mediana 3º Quartil Máxim o Média Desvio-Padrão 336,80 481,37 559,95 611,87 782,10 549,1 9 89,92 Fonte: Autoral Gráfico 03: Boxplot das Notas em Ciências Humanas Fonte: Autoral. O gráfico boxplot divide os dados em diversas partes e é muito utilizado para conjuntos de dados não simétricos, tomando como base a mediana, na maioria das vezes. O gráfico acima demonstra os valores máximo e mínimo bem como o primeiro e 3º quartis, com mediana representando o segundo quartil (559,5), isto é, 50% dos participantes tiraram nota em Ciências Humanas acima de 559,5 e 50% abaixo de 559,5. A Tabela 02 seguinte apresenta a média, desvio-padrão e intervalo de confiança de 95% das notas das provas do ENEM. Considerou-se o intervalo de confiança no caso de desvio-padrão (σ ) desconhecido, isto é: x ±tα/2s/√n, onde s representa o desvio- padrão amostral. Como o nível de confiança escolhido é de 95%, segue que o nível de significância é de α=0,05 (5%), o que equivale ao quantil t0,025=1,962 da distribuição t-Student com graus de liberdade gl=999. 7 Tabela 02: Intervalo de Confiança da Média das Notas por Área de Avaliação Área Média Desvio-Padrão IC (95%) CN 516,68 80,69 (511,67; 521,68) CH 549,19 89,92 (543,61; 554,77) LC 530,54 73,69 (525,97; 535,11) MT 569,97 115,93 (562,77; 577,16) RED 673,78 147,34 (664,64; 682,92) Fonte: Autoral. Com o coeficiente de confiança 95%, a média das notas de matemática está entre 562,77 e 577,16, e com o mesmo coeficiente, a média das notas de linguagens está entre 525,97 e 535,11. Matemática, apesar de ter uma média superior, tem um desvio padrão maior (115,93) do que linguagens (73,69), resultando em um intervalo de maior amplitude. A prova de matemática é mais difícil, porém suas questões têm um peso maior na nota final, o que gera tal diferença. Para o teste de hipótese, foi realizado uma comparação de notas médias das áreas de Ciências Humanas (CH) e Linguagens e Códigos (LC). Antes de realizar esta comparação, é necessário comparar as variâncias populacionais (teste F), isto é, testar as seguintes hipóteses: H 0:σCH 2 =σ LC 2 contra H 1:σCH 2 ≠σ LC 2 . Para o teste F de comparação das variâncias, obteve-se a estatística de teste calculada Fcalc=1,489, e ao nível de significância de 5%, a região crítica do teste é dada por RC={F<0,883ou F>1,132}, dado que a estatística de teste tem distribuição F- Snedecor com graus de liberdade do numerador e denominador iguais a gl1=999 e gl2=999, respectivamente. Portanto, rejeita-se a hipótese H 0 de igualdade das variâncias populacionais, ao nível de significância de 5%. Como a hipótese de igualdade das variâncias populacionais das notas dos participantes do ENEM nas áreas de Humanas e Linguagens foi rejeitada, então o teste apropriado para comparação das médias é o teste t para duas amostras com variâncias diferentes, isto é, testar as seguintes hipóteses: H 0: μCH=μLC contra μCH ≠ μLC . O resultado obtido foi uma região crítica de RC={|T|>1,96}, com nível de confiança de 95%, e uma estatística de teste calculada T calc=5,07, onde a estatística do teste segue uma distribuição t-Student com graus de liberdade gl=1.924. Logo, como o valor observado pertence a região crítica, rejeitamos a hipótese de igualdade das notas médias em Ciências Humanas e Linguagens dos alunos analisados neste trabalho. 8 Conclusão O ENEM é uma prova com sistema de notas complexo, com pesos de questões atribuídas de forma inversa à sua dificuldade, ou seja, uma questão fácil numa prova difícil vale mais do que em provas fáceis. As médias das notas são baixas se considerarmos a alta nota de entrada nos cursos concorridos. Seja por descaso durante a formação ou a dificuldade da prova, o sistema de educação brasileiro precisa de uma prova que não apenas teste conhecimentos gravados dos alunos, e sim que promova uma educação libertadora e a criatividade, já que a visão hoje visa cortar individualidades para entrada no mercado de trabalho, tanto que até na redação existem fórmulas e frases prontas para estruturar e fazer da forma que o MEC deseja. Resta apenas a esperança que, com a reforma do ensino médio e do ENEM, possamos dar mais liberdade criativa às próximas gerações, em vez de pura pressão em uma prova que supostamente decide o destino do aluno. 9 Anexo 1 Cálculos usados para o boxplot Cálculos usados para o intervalo de confiança. Cálculos usados para o teste de hipótese.