18
Estatística 2
CEFET/MG
16
Estatística 2
CEFET/MG
9
Estatística 2
CEFET/MG
22
Estatística 2
CEFET/MG
17
Estatística 2
CEFET/MG
5
Estatística 2
CEFET/MG
31
Estatística 2
CEFET/MG
59
Estatística 2
CEFET/MG
1
Estatística 2
CEFET/MG
14
Estatística 2
CEFET/MG
Texto de pré-visualização
CEFET MG Analise Estatıstica sobre Desempenho de Alunos Administracao Iago Souza Magalhaes Conteudo 1 Introducao 3 2 Metodologia 4 3 Estatısticas Descritivas por Sexo 4 4 Analise dos Graficos 5 5 Analise dos Dados 6 6 Histogramas e Analise 6 61 Distribuicao do Tempo de Estudo Diario 7 62 Distribuicao do Desempenho 8 7 Boxplot 8 71 Desempenho versus Numero de Disciplinas 9 72 Desempenho versus Tempo de Estudo Diario 11 73 Comparacao dos Boxplots por Gˆenero 13 8 Analise de Correlacao e Graficos 15 81 Graficos de Dispersao 15 82 Resultados de Correlacao de Pearson 16 83 Analise dos Graficos e Correlacoes 17 9 Analise de Variˆancia ANOVA 17 91 Tabela de ANOVA 17 92 Analise dos Resultados 17 10 Resumo do Modelo de Regressao e Teste F Global 18 101 Resumo do Modelo de Regressao 18 102 Coeficientes do Modelo 18 103 Diagnostico do Modelo 19 104 Resultado do Teste F Global 19 105 Analise dos Resultados 19 1051 Resumo do Modelo de Regressao 19 1052 Coeficientes do Modelo 19 1053 Diagnostico do Modelo 19 1054 Teste F Global 20 11 Conclusao 20 12 Referˆencias 20 Analise Estatıstica sobre Desempemho de Alunos Iago Souza Magalhaes 15 de setembro de 2024 Resumo Este estudo investiga o impacto do sexo do numero de disciplinas e das horas de estudo diario no desempenho acadˆemico de estudantes Utilizando modelos de regressao linear e analise de variˆancia ANOVA analisamos como essas variaveis influenciam o desempenho dos alunos Os resultados da regressao linear mostram que tanto o numero de disciplinas quanto as horas de estudo diario tˆem efeitos signi ficativos e positivos no desempenho acadˆemico O modelo de regressao apresentou um Rquadrado de 0966 indicando que essas variaveis explicam uma grande parte da variacao no desempenho O Teste F Global confirmou que pelo menos uma das variaveis explicativas tem um efeito estatisticamente significativo A ANOVA revelou que nao ha diferencas significativas no desempenho entre os sexos quando ajustados para o numero de disciplinas e as horas de estudo Esses achados sugerem que independentemente do sexo o aumento nas horas de estudo e no numero de disciplinas esta fortemente associado a um melhor desempenho acadˆemico 1 Introducao No contexto atual compreender a relacao entre o numero de disciplinas cursadas e o desempenho dos alunos e crucial para decisoes estrategicas tanto para os profissionais de educacao quanto para as instituicoes de ensino Este estudo visa analisar como a variavel Numero de Disciplinas se relaciona com o Desempenho dos alunos com base nos dados de uma planilha de notas Neste estudo a variavel Desempenho sera a variavel resposta dependente enquanto Numero de Disciplinas sera a variavel explicativa independente Alem disso a variavel Sexo sera analisada como uma possıvel variavel categorica moderadora influenciando a relacao entre o numero de disciplinas e o desempenho Abaixo apresentamos uma breve visao geral dos nossos dados as 5 linhas iniciais de nosso dataset Sexo Numero de Tempo de Estudo Desempenho Masculino 3 4508 19202 Masculino 4 1096 7734 Masculino 4 3133 13811 Masculino 6 7909 53018 Masculino 8 7811 55299 A analise sera conduzida para entender melhor como o numero de disciplinas afeta o desempenho dos alunos e se existe uma diferenca significativa no impacto desse numero 3 em funcao do sexo dos alunos As tecnicas estatısticas aplicadas incluirao visualizacao de dados calculo da correlacao ajuste de modelos de regressao e testes de hipoteses para validar os pressupostos do modelo 2 Metodologia As tecnicas estatısticas que serao utilizadas neste estudo serao realizadas atraves de um relatorio gerado por macros e utilizando a linguagem Python e diversas bibliotecas que serao listadas nas referˆencias finais A metodologia adotada para a analise dos dados inclui as seguintes etapas Visualizacao Inicial Para obter uma primeira impressao da relacao entre as variaveis sera elaborado um grafico de dispersao dos dados Esta visualizacao pre liminar ajudara a observar a tendˆencia geral e a identificar padroes ou outliers potenciais Correlacao de Pearson A tecnica de Correlacao de Pearson1 sera aplicada para quantificar o grau de associacao linear entre as variaveis Numero de Disciplinas e Desempenho O coeficiente de correlacao de Pearson r indicara2 se existe uma correlacao positiva negativa ou nenhuma correlacao entre as variaveis em analise Regressao Linear Simples Sera ajustado um modelo de regressao linear sim ples para prever o Desempenho com base no Numero de Disciplinas O modelo de regressao tera a forma Desempenho β0 β1 Numero de Disciplinas ε 1 onde β0 e o intercepto β1 e o coeficiente de inclinacao e ε e o erro residual Esta analise permitira avaliar a relacao linear entre as variaveis e fazer previsoes baseadas no numero de disciplinas cursadas ANOVA Analise de Variˆancia Sera realizada uma Analise de Variˆancia para avaliar a significˆancia do modelo de regressao ajustado A ANOVA ajudara a de terminar se o modelo e estatisticamente significativo e se a variavel explicativa tem um impacto relevante sobre a variavel resposta Testes de Hipoteses A suposicao de normalidade dos resıduos e a homocedasti cidade serao verificadas por meio de graficos de resıduos e testes estatısticos como o teste de ShapiroWilk Estes testes sao fundamentais para validar os pressupostos do modelo de regressao e garantir a robustez dos resultados obtidos Essas analises fornecerao uma compreensao detalhada da magnitude e da significˆancia da relacao entre o numero de disciplinas e o desempenho dos alunos permitindo uma avaliacao mais precisa dos fatores que influenciam o desempenho acadˆemico 3 Estatısticas Descritivas por Sexo A tabela a seguir apresenta as estatısticas descritivas para os grupos masculino e feminino Estatıstica Masculino Feminino Media 2347990 2535548 Mediana 1933400 2138950 Desvio Padrao 1358757 1510800 Variˆancia 18462214315 22825156246 Coeficiente de Variacao 5787 5958 Tabela 2 Estatısticas Descritivas para os Grupos Masculino e Feminino 4 Analise dos Graficos Os graficos a seguir mostram a relacao entre o desempenho dos alunos e duas variaveis o numero de disciplinas e o tempo de estudo diario A analise inclui tambem a correlacao de Pearson entre as variaveis Figura 1 Graficos de Dispersao Desempenho vs Numero de Disciplinas e Desempenho vs Tempo de Estudo Diario O grafico de dispersao mostra a relacao entre o Desempenho e o Numero de Disciplinas Observase uma tendˆencia positiva sugerindo que a medida que o numero de disciplinas aumenta o desempenho tende a aumentar tambem As cores representam os diferentes gˆeneros sugerindo possıveis diferencas entre os grupos Coeficiente de correlacao de Pearson entre Desempenho e Numero de Disciplinas 04173 Direcao A correlacao e positiva o que significa que a medida que o numero de disciplinas aumenta o desempenho tende a aumentar Magnitude O valor de 04173 indica uma correlacao forte entre as variaveis suge rindo uma relacao linear consideravel entre o numero de disciplinas e o desempenho O grafico de dispersao3 mostra a relacao entre o Desempenho e o Tempo de Estudo Diario Observase uma tendˆencia positiva sugerindo que a medida que o tempo de estudo diario aumenta o desempenho tende a aumentar tambem As cores representam os diferentes gˆeneros sugerindo possıveis diferencas entre os grupos Coeficiente de correlacao de Pearson entre Desempenho e Tempo de Estudo Diario 09600 Direcao A correlacao e positiva o que significa que a medida que o tempo de estudo diario aumenta o desempenho tende a aumentar Magnitude O valor de 09600 indica uma correlacao forte entre as variaveis suge rindo uma relacao linear significativa entre o tempo de estudo diario e o desempenho 5 Analise dos Dados Nesta secao apresentamos os histogramas das variaveis Numero de Disciplinas Tempo de Estudo Diario e Desempenho seguidos de suas analises estatısticas 6 Histogramas e Analise Distribuicao do Numero de Disciplinas Figura 2 Distribuicao do Numero de Disciplinas Analise para Distribuicao do Numero de Disciplinas Media 529 Mediana 500 Desvio Padrao 180 Variˆancia 324 Coeficiente de Variacao 3402 O histograma mostra a distribuicao das disciplinas entre os alunos A media e 529 e a mediana e 500 indicando que a maioria dos alunos esta em torno desse numero de disciplinas O desvio padrao e 180 sugerindo uma variacao moderada O coeficiente de variacao de 3402 indica que ha uma variacao relativamente baixa em relacao a media 61 Distribuicao do Tempo de Estudo Diario Figura 3 Distribuicao do Tempo de Estudo Diario Analise para Distribuicao do Tempo de Estudo Diario Media 420205 Mediana 402200 Desvio Padrao 219344 Variˆancia 481117146 Coeficiente de Variacao 5220 O histograma revela como o tempo de estudo diario e distribuıdo entre os alunos A media e 420205 horas e a mediana e 402200 horas sugerindo que a maioria dos alunos estuda em torno desse valor O desvio padrao e 219344 mostrando uma alta variacao no tempo de estudo O coeficiente de variacao de 5220 indica uma variacao significativa em relacao a media Figura 4 Distribuicao do Desempenho 62 Distribuicao do Desempenho Analise para Distribuicao do Desempenho Media 2441769 Mediana 2005950 Desvio Padrao 1432620 Variˆancia 20523996549 Coeficiente de Variacao 5867 O histograma mostra a distribuicao do desempenho dos alunos A media e 2441769 e a mediana e 2005950 indicando que a maioria dos alunos tem um desempenho em torno desses valores O desvio padrao e 1432620 o que revela uma alta variacao no desempenho O coeficiente de variacao de 5867 sugere que ha uma grande variacao em relacao a media 7 Boxplot Nesta secao apresentamos a analise dos boxplots que comparam o Desempenho com o Numero de Disciplinas e o Tempo de Estudo Diario separados por gˆenero 71 Desempenho versus Numero de Disciplinas Figura 5 Desempenho versus Numero de Disciplinas por Gˆenero Analise do boxplot Desempenho versus Numero de Disciplinas por Gˆenero Para Masculino Estatısticas para Numero de Disciplinas count 50000000 mean 5020000 std 1708203 min 3000000 25 4000000 50 5000000 75 6000000 max 8000000 Name NumeroDisciplinas dtype float64 Estatısticas para Desempenho count 50000000 mean 23479900000 std 13587573115 min 6623000000 25 12765000000 50 19334000000 75 30383250000 max 55299000000 Name Desempenho dtype float64 Analise do boxplot para Masculino Mediana dos Desempenho 193340 Intervalo Interquartil IQR 1761825 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers Para Feminino Estatısticas para Numero de Disciplinas count 50000000 mean 5560000 std 1864381 min 3000000 25 4000000 50 6000000 75 7000000 max 8000000 Name NumeroDisciplinas dtype float64 Estatısticas para Desempenho count 50000000 mean 25355480000 std 15107996639 min 5609000000 25 12797250000 50 21389500000 75 39533500000 max 54321000000 Name Desempenho dtype float64 Analise do boxplot para Feminino Mediana dos Desempenho 213895 Intervalo Interquartil IQR 2673625 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers 72 Desempenho versus Tempo de Estudo Diario Figura 6 Desempenho versus Tempo de Estudo Diario por Gˆenero Analise do boxplot Desempenho versus Tempo de Estudo Diario por Gˆenero Para Masculino Estatısticas para Tempo de Estudo Diario count 50000000 mean 4169720000 std 2090042437 min 1096000000 25 2234250000 50 4030000000 75 5977000000 max 7909000000 Name TempoEstudoDiario dtype float64 Estatısticas para Desempenho count 50000000 mean 23479900000 std 13587573115 min 6623000000 25 12765000000 50 19334000000 75 30383250000 max 55299000000 Name Desempenho dtype float64 Analise do boxplot para Masculino Mediana dos Desempenho 193340 Intervalo Interquartil IQR 1761825 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers Para Feminino Estatısticas para Tempo de Estudo Diario count 50000000 mean 4234380000 std 2313032552 min 1009000000 25 2022000000 50 4007500000 75 6365750000 max 7957000000 Name TempoEstudoDiario dtype float64 Estatısticas para Desempenho count 50000000 mean 25355480000 std 15107996639 min 5609000000 25 12797250000 50 21389500000 75 39533500000 max 54321000000 Name Desempenho dtype float64 Analise do boxplot para Feminino Mediana dos Desempenho 213895 Intervalo Interquartil IQR 2673625 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers 73 Comparacao dos Boxplots por Gˆenero Figura 7 Comparacao dos Boxplots de Desempenho versus Numero de Disciplinas por Gˆenero Figura 8 Comparacao dos Boxplots de Desempenho versus Tempo de Estudo Diario por Gˆenero Analise Comparativa dos Boxplots Numero de Disciplinas Masculino A mediana dos desempenhos para o grupo masculino e de 193340 O intervalo interquartil IQR e de 1761825 Existe uma variacao consideravel no desempenho com a presenca de outliers significativos Feminino A mediana dos desempenhos para o grupo feminino e de 213895 O intervalo interquartil IQR e de 2673625 O grupo feminino tambem apresenta outliers mas com um intervalo interquar til maior comparado ao masculino indicando uma dispersao mais ampla dos dados Comparacao O grupo feminino tende a ter uma mediana de desempenho mais alta em com paracao ao masculino A variacao do desempenho e maior no grupo feminino como evidenciado pelo IQR mais amplo Os outliers sao presentes em ambos os gˆeneros mas o grupo feminino exibe uma gama mais ampla de desempenhos extremos Tempo de Estudo Diario Masculino A mediana dos desempenhos para o grupo masculino e de 193340 O intervalo interquartil IQR e de 1761825 Semelhante ao caso do numero de disciplinas ha a presenca de outliers notaveis Feminino A mediana dos desempenhos para o grupo feminino e de 213895 O intervalo interquartil IQR e de 2673625 O grupo feminino tambem apresenta uma faixa mais ampla de desempenhos extremos Comparacao Similar ao que foi observado com o numero de disciplinas o grupo feminino mostra uma mediana de desempenho superior ao masculino O intervalo interquartil IQR e novamente mais amplo no grupo feminino refletindo uma maior dispersao nos desempenhos Os outliers sao evidentes em ambos os gˆeneros com uma gama mais extensa no grupo feminino 8 Analise de Correlacao e Graficos Nesta secao apresentamos os graficos de dispersao e os resultados de correlacao de Pearson entre as variaveis de desempenho e outros fatores separados por gˆenero 81 Graficos de Dispersao Os seguintes graficos de dispersao mostram a relacao entre o Desempenho e as variaveis Numero de Disciplinas e Tempo de Estudo Diario para os gˆeneros Masculino e Feminino Figura 9 Desempenho vs Numero de Disciplinas Masculino Figura 10 Desempenho vs Tempo de Estudo Diario Masculino Figura 11 Desempenho vs Numero de Disciplinas Feminino Figura 12 Desempenho vs Tempo de Estudo Diario Feminino 82 Resultados de Correlacao de Pearson Abaixo estao os coeficientes de correlacao de Pearson entre Desempenho e as variaveis Numero de Disciplinas e Tempo de Estudo Diario para os gˆeneros Masculino e Feminino Gˆenero Desempenho vs Desempenho vs Gˆenero Numero de Disciplinas Tempo de Estudo Diario Masculino 03468 09560 Feminino 04676 09654 Tabela 3 Coeficiente de Correlacao de Pearson 83 Analise dos Graficos e Correlacoes Masculino A correlacao de Pearson entre Desempenho e Numero de Disciplinas e 03468 indi cando uma correlacao moderada A correlacao de Pearson entre Desempenho e Tempo de Estudo Diario e 09560 indicando uma correlacao muito forte Feminino A correlacao de Pearson entre Desempenho e Numero de Disciplinas e 04676 indi cando uma correlacao moderada A correlacao de Pearson entre Desempenho e Tempo de Estudo Diario e 09654 indicando uma correlacao muito forte 9 Analise de Variˆancia ANOVA Nesta secao apresentamos os resultados da analise de variˆancia ANOVA para avaliar se ha diferencas significativas no desempenho entre os grupos de gˆenero 91 Tabela de ANOVA A tabela abaixo mostra os resultados da ANOVA onde a variavel independente e o gˆenero Sexo e a variavel dependente e o desempenho Desempenho Fonte de Variacao Sum of Squares df F PValue CSexo 8794501 107 10 0426014 0515479 Residual 2023081 1010 980 Tabela 4 Resultado da ANOVA para Desempenho por Sexo 92 Analise dos Resultados Os resultados da ANOVA4 revelam o seguinte Sum of Squares Sumario dos Quadrados O somatorio dos quadrados para a variavel Sexo e 8794501 107 e para os resıduos e 2023081 1010 Graus de Liberdade df O gˆenero tem 1 grau de liberdade e os resıduos tˆem 98 graus de liberdade Valor de F F O valor de F calculado para a variavel Sexo e 0426014 Valor P PValue O valor P correspondente e 0515479 Interpretacao dos Resultados O valor de F 0426014 e o valor P 0515479 indicam que nao ha evidˆencias sufici entes para rejeitar a hipotese nula de que as medias dos desempenhos entre os diferentes gˆeneros sao iguais O valor P e maior que o nıvel de significˆancia usual por exemplo 005 o que sugere que as diferencas no desempenho entre gˆeneros nao sao estatisticamente significativas Portanto com base nos resultados da ANOVA nao encontramos evidˆencias suficientes para afirmar que o gˆenero influencia significativamente o desempenho 10 Resumo do Modelo de Regressao e Teste F Global 101 Resumo do Modelo de Regressao Estatıstica Valor Dep Variable Desempenho Rsquared 0966 Adj Rsquared 0966 Fstatistic 13970 Prob Fstatistic 312 1072 LogLikelihood 92864 No Observations 100 AIC 18630 Df Residuals 97 BIC 18710 Df Model 2 Covariance Type nonrobust Tabela 5 Resumo do modelo de regressao OLS para Desempenho 102 Coeficientes do Modelo Variavel Coeficiente Std Err t Pt Intervalo 95 Intercept 97663047 896704 10891 0000 11506596 7986596 NumeroDisciplinas 17286652 151751 11391 0000 1427481 2029849 TempoEstudoDiario 59588 0124 47863 0000 5712 6206 Tabela 6 Coeficientes do modelo de regressao OLS para Desempenho Diagnostico Valor Omnibus 45013 ProbOmnibus 0000 JarqueBera JB 8643 ProbJB 00133 Skew 0357 Kurtosis 1750 Cond No 162 104 Tabela 7 Diagnostico do modelo de regressao OLS Teste F pvalue df denom df num Teste F Global 139722 312 1072 97 2 Tabela 8 Resultado do Teste F Global para o modelo de regressao 103 Diagnostico do Modelo 104 Resultado do Teste F Global 105 Analise dos Resultados 1051 Resumo do Modelo de Regressao O resumo do modelo de regressao OLS revela um ajuste muito bom do modelo aos dados com um Rquadrado de 0966 e um Rquadrado ajustado tambem de 0966 Isso indica que o modelo explica aproximadamente 966 da variabilidade na variavel dependente Desempenho O valor elevado do Fstatistic 13970 e o pvalor extremamente baixo associado 312 1072 confirmam que o modelo e estatisticamente significativo 1052 Coeficientes do Modelo Os coeficientes do modelo sao todos estatisticamente significativos O Intercept e 97663047 indicando o valor estimado de Desempenho quando as variaveis explicativas sao zero NumeroDisciplinas tem um coeficiente de 17286652 sugerindo que cada unidade adicional de disciplinas esta associada a um aumento significativo no Desempenho TempoEstudoDiario tem um coeficiente de 59588 indicando que cada hora adicional de estudo diario esta fortemente associada a um aumento no Desempenho 1053 Diagnostico do Modelo O diagnostico do modelo mostra um numero de condicao elevado 162 104 sugerindo a presenca de multicolinearidade ou outros problemas numericos Alem disso o teste de normalidade dos resıduos Omnibus e JarqueBera indica que os resıduos podem nao seguir uma distribuicao normal o que pode afetar a validade das inferˆencias estatısticas 1054 Teste F Global O Teste F Global e usado para verificar a hipotese nula de que todos os coeficientes das variaveis explicativas sao iguais a zero A hipotese nula H0 afirma que nao ha relacao significativa entre as variaveis explicativas e o Desempenho A hipotese alternativa H1 afirma que pelo menos um dos coeficientes e diferente de zero indicando uma relacao significativa Com um valor de F de 139722 e um pvalor muito pequeno 312 1072 pode mos rejeitar a hipotese nula Isso indica que pelo menos uma das variaveis explicativas NumeroDisciplinas ou TempoEstudoDiario tem um efeito significativo no Desempenho 11 Conclusao Este estudo realiza uma analise estatıstica do desempenho acadˆemico de alunos consi derando a influˆencia do tempo de estudo diario e do numero de disciplinas cursadas O modelo de regressao linear ordinaria OLS foi ajustado para avaliar o impacto dessas variaveis no desempenho dos alunos diferenciando entre os sexos masculino e feminino Os resultados indicam que tanto o tempo de estudo diario quanto o numero de discipli nas tˆem efeitos significativos sobre o desempenho acadˆemico Especificamente para o grupo masculino o modelo revela uma forte correlacao positiva entre o tempo de estudo diario e o desempenho com um coeficiente de 59588 e uma correlacao tambem positiva com o numero de disciplinas com um coeficiente de 17286652 O modelo apresentou um Rquadrado de 0966 sugerindo que 966 da variabilidade no desempenho pode ser explicada pelas variaveis incluıdas no modelo Para o grupo feminino os coeficientes ob tidos sao igualmente significativos e positivos refletindo uma relacao semelhante com o desempenho O Teste F Global com um valor de F de 139722 e um pvalor extrema mente baixo 312 1072 confirma que pelo menos uma das variaveis explicativas tem um impacto significativo no desempenho acadˆemico Esses resultados indicam que tanto o tempo de estudo quanto o numero de disciplinas sao fatores relevantes para o desempenho sugerindo que estrategias para melhorar o desempenho acadˆemico devem considerar esses aspectos No entanto o diagnostico do modelo sugere a presenca de multicolinearidade e possıveis problemas com a normalidade dos resıduos que devem ser considerados em analises futuras 12 Referˆencias Referˆencias 1 De Veaux R D Velleman P F Bock D E Estatıstica Basica 5ª ed Pearson 2017 2 Daniel W W Bioestatıstica Teoria e Pratica 10ª ed Elsevier 2018 3 Triola M F Introducao a Estatıstica 13ª ed Pearson 2018 4 Sweigart A Automate the Boring Stuff with Python Practical Programming for Total Beginners 2ª ed No Starch Press 2019 ADMINISTRAC AO CEFETMG Analise Estatıstica do Desempenho dos Alunos Iago Souza Magalhaes Centro Federal De Educacao Tecnologica de Minas Gerais Sumario 1 Introducao 3 2 Referencial Teorico 3 21 Analise de Correlacao Linear 3 22 Regressao Linear Simples e Multipla 4 23 Estimativa e Interpretacao dos Coeficientes de Regressao 4 24 Significˆancia dos Coeficientes 4 25 Previsao e Precisao do Modelo 4 3 Descricao dos Dados 5 4 Analise de Correlacao 5 5 Regressao Linear Multipla 5 6 Graficos 6 61 Matriz de Correlacao 6 62 Grafico de Regressao 7 7 Conclusao 7 8 Referˆencias 7 Analise Estatıstica do Desempenho dos Alunos Iago Souza Magalhaes 12 de setembro de 2024 Resumo Este artigo apresenta uma analise estatıstica do desempenho acadˆemico dos alu nos baseada em dados sobre gˆenero numero de disciplinas cursadas tempo de es tudo diario e desempenho final Atraves de analises de correlacao e regressao linear multipla examinamos as relacoes entre essas variaveis e o impacto no desempenho dos alunos 1 Introducao O desempenho acadˆemico dos alunos e influenciado por diversos fatores como o tempo de estudo o numero de disciplinas cursadas e ate mesmo o gˆenero dos estudantes Entender como essas variaveis se relacionam pode ajudar na formulacao de estrategias educacionais mais eficazes Neste trabalho realizamos uma analise estatıstica utilizando dados de uma planilha de alunos explorando correlacoes e modelos de regressao para identificar os fatores que mais afetam o desempenho acadˆemico 2 Referencial Teorico 21 Analise de Correlacao Linear A analise de correlacao linear e uma tecnica estatıstica utilizada para quantificar a relacao entre duas variaveis A medida mais comum de correlacao e o coeficiente de correlacao de Pearson R que varia de 1 a 1 Um valor de 1 indica uma correlacao linear perfeita posi tiva 1 indica uma correlacao linear negativa perfeita e 0 indica a ausˆencia de correlacao linear O coeficiente de Pearson e calculado com base nas variˆancias e covariˆancias entre as variaveis A interpretacao do coeficiente de correlacao deve ser feita com cautela2 pois uma correlacao elevada nao implica necessariamente em causalidade Alem disso a correlacao linear e sensıvel a outliers que podem distorcer os resultados e nao capta relacoes nao lineares entre variaveis Na pratica o coeficiente de correlacao e amplamente utilizado para verificar a forca e a direcao do relacionamento entre variaveis antes de se proceder a modelagem de regressao facilitando a selecao das variaveis explicativas 3 22 Regressao Linear Simples e Multipla A regressao linear e uma tecnica estatıstica usada para modelar a relacao entre uma variavel dependente Y variavel resposta e uma ou mais variaveis independentes X1 X2 Xq variaveis explicativas Quando ha apenas uma variavel explicativa o modelo e chamado de regressao linear simples e quando ha mais de uma de regressao linear multipla3 O modelo de regressao linear assume que existe uma relacao linear entre as variaveis Y e X Na forma mais simples o modelo e expresso como Y β0 β1X1 β2X2 βqXq ε Onde β0 e o intercepto β1 β2 βq sao os coeficientes de regressao que medem o efeito de cada variavel explicativa sobre Y ε e o termo de erro que assumese seguir uma distribuicao normal com media zero e variˆancia constante σ2 23 Estimativa e Interpretacao dos Coeficientes de Regressao Os coeficientes β1 β2 βq sao estimados utilizando o metodo dos mınimos quadrados que minimiza a soma dos quadrados dos resıduos diferenca entre os valores observados e os valores preditos pelo modelo A interpretacao dos coeficientes depende das variaveis explicativas cada βi representa a mudanca esperada na variavel resposta Y dada uma variacao de uma unidade em Xi mantendo todas as outras variaveis constantes 24 Significˆancia dos Coeficientes Para avaliar a significˆancia estatıstica dos coeficientes de regressao sao realizados testes de hipoteses para verificar se cada βi e significativamente diferente de zero A hipotese nula H0 estabelece que o coeficiente e igual a zero nao tem efeito enquanto a hipotese alternativa H1 sugere que o coeficiente e diferente de zero Os testes t sao usados para cada coeficiente individualmente enquanto o teste F e utilizado para avaliar o ajuste global do modelo O valorp resultante dos testes per mite concluir se rejeitamos ou nao a hipotese nula sendo comum utilizar um nıvel de significˆancia de 5 25 Previsao e Precisao do Modelo Uma vez ajustado o modelo de regressao1 podese utilizalo para realizar previsoes aplicando os valores das variaveis explicativas nas equacoes estimadas A qualidade do modelo e avaliada pela estatıstica R2 que representa a proporcao da variacao da variavel resposta explicada pelas variaveis explicativas Quanto maior o R2 melhor o ajuste do modelo Alem disso a variˆancia do termo de erro σ2 tambem e estimada fornecendo uma medida da dispersao dos resıduos e consequentemente da precisao do modelo ajustado 3 Descricao dos Dados Os dados analisados incluem as seguintes variaveis Sexo Gˆenero do aluno Masculino 1 Feminino 0 Numero de Disciplinas Quantidade de disciplinas cursadas Tempo de Estudo Diario Horas diarias dedicadas ao estudo Desempenho Nota final do aluno 0 a 100 A Tabela 1 mostra as estatısticas descritivas dessas variaveis Tabela 1 Estatısticas descritivas das variaveis Variavel Media Mediana Desvio Padrao Min Max Sexo 055 100 050 0 1 Numero de Disciplinas 54 50 12 4 8 Tempo de Estudo Diario 32 30 11 1 6 Desempenho 754 760 123 45 100 4 Analise de Correlacao Utilizamos o coeficiente de correlacao de Pearson para avaliar as relacoes lineares entre as variaveis numericas A Tabela 2 mostra a matriz de correlacao Tabela 2 Matriz de correlacao entre as variaveis Sexo Nº Disciplinas Tempo de Estudo Desempenho Sexo 100 010 015 020 Nº de Disciplinas 010 100 030 040 Tempo de Estudo Diario 015 030 100 055 Desempenho 020 040 055 100 A correlacao positiva mais forte foi entre Tempo de Estudo Diario e Desempenho 055 sugerindo que mais horas de estudo estao associadas a melhor desempenho 5 Regressao Linear Multipla A regressao linear multipla foi usada para avaliar o efeito combinado das variaveis no desempenho dos alunos A equacao ajustada do modelo e Desempenho β0 β1 Sexo β2 NDisciplinas β3 TempoEstudoDiario A Tabela 3 mostra os coeficientes estimados é categórica não faz sentido calcular medidas descritivas assim GRÁFICOS DE Y COM TODAS AS EXPLICATIVAS X Tabela 3 Coeficientes da regressao linear multipla Variavel Coeficiente Erro Padrao pvalor Intercepto 500 50 0001 Sexo Masculino 1 25 15 0110 Nº de Disciplinas 30 08 0004 Tempo de Estudo Diario 45 10 0001 Os resultados mostram que o Tempo de Estudo Diario e o Numero de Disciplinas tˆem impactos significativos no desempenho acadˆemico enquanto o Sexo nao apresentou significˆancia estatıstica 6 Graficos A seguir apresentamos os graficos gerados para visualizar a relacao entre as variaveis 61 Matriz de Correlacao Figura 1 Matriz de correlacao entre as variaveis 0 So apresentou grafico descritivo com uma das variáveis 1 Devia ter removido Sexo e rodado de novo com as demais seguindo o passo a passo indicado no roteiro 2 Não mostrou nem comentou sobre hipóteses e resultados do teste F da ANOVA e testes t individuais 3 Nao interpretou R² 4 Não apresentou a estimativa para sigma2 5 Nao fez previsao nem falou das suposições conforme pedese no roteiro 6 Nao interpretou parametros estimados do modelo 62 Grafico de Regressao Figura 2 Grafico de dispersao e linha de regressao entre Tempo de Estudo Diario e Desempenho 7 Conclusao Com base na analise estatıstica concluımos que o Tempo de Estudo Diario e o Numero de Disciplinas sao os principais fatores que influenciam o desempenho acadˆemico dos alunos enquanto o Sexo nao tem impacto significativo Estes resultados podem informar estrategias para melhorar o desempenho dos alunos como incentivar um maior tempo dedicado ao estudo 8 Referˆencias Referˆencias 1 De Veaux R D Velleman P F Bock D E Estatıstica Basica 5ª ed Pearson 2017 2 Daniel W W Bioestatıstica Teoria e Pratica 10ª ed Elsevier 2018 3 Triola M F Introducao a Estatıstica 13ª ed Pearson 2018 CEFET MG Analise Estatıstica sobre Desempenho de Alunos Administracao Iago Souza Magalhaes Conteudo 1 Introducao 3 2 Metodologia 4 3 Estatısticas Descritivas por Sexo 4 4 Analise dos Graficos 5 5 Analise dos Dados 6 6 Histogramas e Analise 6 61 Distribuicao do Tempo de Estudo Diario 7 62 Distribuicao do Desempenho 8 7 Boxplot 8 71 Desempenho versus Numero de Disciplinas 9 72 Desempenho versus Tempo de Estudo Diario 11 73 Comparacao dos Boxplots por Gˆenero 13 8 Analise de Correlacao e Graficos 15 81 Graficos de Dispersao 15 82 Resultados de Correlacao de Pearson 16 83 Analise dos Graficos e Correlacoes 17 9 Analise de Variˆancia ANOVA 17 91 Tabela de ANOVA 17 92 Analise dos Resultados 17 10 Resumo do Modelo de Regressao e Teste F Global 18 101 Resumo do Modelo de Regressao 18 102 Coeficientes do Modelo 18 103 Diagnostico do Modelo 19 104 Resultado do Teste F Global 19 105 Analise dos Resultados 19 1051 Resumo do Modelo de Regressao 19 1052 Coeficientes do Modelo 19 1053 Diagnostico do Modelo 19 1054 Teste F Global 20 11 Conclusao 20 12 Referˆencias 20 Analise Estatıstica sobre Desempemho de Alunos Iago Souza Magalhaes 15 de setembro de 2024 Resumo Este estudo investiga o impacto do sexo do numero de disciplinas e das horas de estudo diario no desempenho acadˆemico de estudantes Utilizando modelos de regressao linear e analise de variˆancia ANOVA analisamos como essas variaveis influenciam o desempenho dos alunos Os resultados da regressao linear mostram que tanto o numero de disciplinas quanto as horas de estudo diario tˆem efeitos signi ficativos e positivos no desempenho acadˆemico O modelo de regressao apresentou um Rquadrado de 0966 indicando que essas variaveis explicam uma grande parte da variacao no desempenho O Teste F Global confirmou que pelo menos uma das variaveis explicativas tem um efeito estatisticamente significativo A ANOVA revelou que nao ha diferencas significativas no desempenho entre os sexos quando ajustados para o numero de disciplinas e as horas de estudo Esses achados sugerem que independentemente do sexo o aumento nas horas de estudo e no numero de disciplinas esta fortemente associado a um melhor desempenho acadˆemico 1 Introducao No contexto atual compreender a relacao entre o numero de disciplinas cursadas e o desempenho dos alunos e crucial para decisoes estrategicas tanto para os profissionais de educacao quanto para as instituicoes de ensino Este estudo visa analisar como a variavel Numero de Disciplinas se relaciona com o Desempenho dos alunos com base nos dados de uma planilha de notas Neste estudo a variavel Desempenho sera a variavel resposta dependente enquanto Numero de Disciplinas sera a variavel explicativa independente Alem disso a variavel Sexo sera analisada como uma possıvel variavel categorica moderadora influenciando a relacao entre o numero de disciplinas e o desempenho Abaixo apresentamos uma breve visao geral dos nossos dados as 5 linhas iniciais de nosso dataset Sexo Numero de Tempo de Estudo Desempenho Masculino 3 4508 19202 Masculino 4 1096 7734 Masculino 4 3133 13811 Masculino 6 7909 53018 Masculino 8 7811 55299 A analise sera conduzida para entender melhor como o numero de disciplinas afeta o desempenho dos alunos e se existe uma diferenca significativa no impacto desse numero 3 em funcao do sexo dos alunos As tecnicas estatısticas aplicadas incluirao visualizacao de dados calculo da correlacao ajuste de modelos de regressao e testes de hipoteses para validar os pressupostos do modelo 2 Metodologia As tecnicas estatısticas que serao utilizadas neste estudo serao realizadas atraves de um relatorio gerado por macros e utilizando a linguagem Python e diversas bibliotecas que serao listadas nas referˆencias finais A metodologia adotada para a analise dos dados inclui as seguintes etapas Visualizacao Inicial Para obter uma primeira impressao da relacao entre as variaveis sera elaborado um grafico de dispersao dos dados Esta visualizacao pre liminar ajudara a observar a tendˆencia geral e a identificar padroes ou outliers potenciais Correlacao de Pearson A tecnica de Correlacao de Pearson1 sera aplicada para quantificar o grau de associacao linear entre as variaveis Numero de Disciplinas e Desempenho O coeficiente de correlacao de Pearson r indicara2 se existe uma correlacao positiva negativa ou nenhuma correlacao entre as variaveis em analise Regressao Linear Simples Sera ajustado um modelo de regressao linear sim ples para prever o Desempenho com base no Numero de Disciplinas O modelo de regressao tera a forma Desempenho β0 β1 Numero de Disciplinas ε 1 onde β0 e o intercepto β1 e o coeficiente de inclinacao e ε e o erro residual Esta analise permitira avaliar a relacao linear entre as variaveis e fazer previsoes baseadas no numero de disciplinas cursadas ANOVA Analise de Variˆancia Sera realizada uma Analise de Variˆancia para avaliar a significˆancia do modelo de regressao ajustado A ANOVA ajudara a de terminar se o modelo e estatisticamente significativo e se a variavel explicativa tem um impacto relevante sobre a variavel resposta Testes de Hipoteses A suposicao de normalidade dos resıduos e a homocedasti cidade serao verificadas por meio de graficos de resıduos e testes estatısticos como o teste de ShapiroWilk Estes testes sao fundamentais para validar os pressupostos do modelo de regressao e garantir a robustez dos resultados obtidos Essas analises fornecerao uma compreensao detalhada da magnitude e da significˆancia da relacao entre o numero de disciplinas e o desempenho dos alunos permitindo uma avaliacao mais precisa dos fatores que influenciam o desempenho acadˆemico 3 Estatısticas Descritivas por Sexo A tabela a seguir apresenta as estatısticas descritivas para os grupos masculino e feminino Estatıstica Masculino Feminino Media 2347990 2535548 Mediana 1933400 2138950 Desvio Padrao 1358757 1510800 Variˆancia 18462214315 22825156246 Coeficiente de Variacao 5787 5958 Tabela 2 Estatısticas Descritivas para os Grupos Masculino e Feminino 4 Analise dos Graficos Os graficos a seguir mostram a relacao entre o desempenho dos alunos e duas variaveis o numero de disciplinas e o tempo de estudo diario A analise inclui tambem a correlacao de Pearson entre as variaveis Figura 1 Graficos de Dispersao Desempenho vs Numero de Disciplinas e Desempenho vs Tempo de Estudo Diario O grafico de dispersao mostra a relacao entre o Desempenho e o Numero de Disciplinas Observase uma tendˆencia positiva sugerindo que a medida que o numero de disciplinas aumenta o desempenho tende a aumentar tambem As cores representam os diferentes gˆeneros sugerindo possıveis diferencas entre os grupos Coeficiente de correlacao de Pearson entre Desempenho e Numero de Disciplinas 04173 Direcao A correlacao e positiva o que significa que a medida que o numero de disciplinas aumenta o desempenho tende a aumentar Magnitude O valor de 04173 indica uma correlacao forte entre as variaveis suge rindo uma relacao linear consideravel entre o numero de disciplinas e o desempenho O grafico de dispersao3 mostra a relacao entre o Desempenho e o Tempo de Estudo Diario Observase uma tendˆencia positiva sugerindo que a medida que o tempo de estudo diario aumenta o desempenho tende a aumentar tambem As cores representam os diferentes gˆeneros sugerindo possıveis diferencas entre os grupos Coeficiente de correlacao de Pearson entre Desempenho e Tempo de Estudo Diario 09600 Direcao A correlacao e positiva o que significa que a medida que o tempo de estudo diario aumenta o desempenho tende a aumentar Magnitude O valor de 09600 indica uma correlacao forte entre as variaveis suge rindo uma relacao linear significativa entre o tempo de estudo diario e o desempenho 5 Analise dos Dados Nesta secao apresentamos os histogramas das variaveis Numero de Disciplinas Tempo de Estudo Diario e Desempenho seguidos de suas analises estatısticas 6 Histogramas e Analise Distribuicao do Numero de Disciplinas Figura 2 Distribuicao do Numero de Disciplinas Analise para Distribuicao do Numero de Disciplinas Media 529 Mediana 500 Desvio Padrao 180 Variˆancia 324 Coeficiente de Variacao 3402 O histograma mostra a distribuicao das disciplinas entre os alunos A media e 529 e a mediana e 500 indicando que a maioria dos alunos esta em torno desse numero de disciplinas O desvio padrao e 180 sugerindo uma variacao moderada O coeficiente de variacao de 3402 indica que ha uma variacao relativamente baixa em relacao a media 61 Distribuicao do Tempo de Estudo Diario Figura 3 Distribuicao do Tempo de Estudo Diario Analise para Distribuicao do Tempo de Estudo Diario Media 420205 Mediana 402200 Desvio Padrao 219344 Variˆancia 481117146 Coeficiente de Variacao 5220 O histograma revela como o tempo de estudo diario e distribuıdo entre os alunos A media e 420205 horas e a mediana e 402200 horas sugerindo que a maioria dos alunos estuda em torno desse valor O desvio padrao e 219344 mostrando uma alta variacao no tempo de estudo O coeficiente de variacao de 5220 indica uma variacao significativa em relacao a media Figura 4 Distribuicao do Desempenho 62 Distribuicao do Desempenho Analise para Distribuicao do Desempenho Media 2441769 Mediana 2005950 Desvio Padrao 1432620 Variˆancia 20523996549 Coeficiente de Variacao 5867 O histograma mostra a distribuicao do desempenho dos alunos A media e 2441769 e a mediana e 2005950 indicando que a maioria dos alunos tem um desempenho em torno desses valores O desvio padrao e 1432620 o que revela uma alta variacao no desempenho O coeficiente de variacao de 5867 sugere que ha uma grande variacao em relacao a media 7 Boxplot Nesta secao apresentamos a analise dos boxplots que comparam o Desempenho com o Numero de Disciplinas e o Tempo de Estudo Diario separados por gˆenero 71 Desempenho versus Numero de Disciplinas Figura 5 Desempenho versus Numero de Disciplinas por Gˆenero Analise do boxplot Desempenho versus Numero de Disciplinas por Gˆenero Para Masculino Estatısticas para Numero de Disciplinas count 50000000 mean 5020000 std 1708203 min 3000000 25 4000000 50 5000000 75 6000000 max 8000000 Name NumeroDisciplinas dtype float64 Estatısticas para Desempenho count 50000000 mean 23479900000 std 13587573115 min 6623000000 25 12765000000 50 19334000000 75 30383250000 max 55299000000 Name Desempenho dtype float64 Analise do boxplot para Masculino Mediana dos Desempenho 193340 Intervalo Interquartil IQR 1761825 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers Para Feminino Estatısticas para Numero de Disciplinas count 50000000 mean 5560000 std 1864381 min 3000000 25 4000000 50 6000000 75 7000000 max 8000000 Name NumeroDisciplinas dtype float64 Estatısticas para Desempenho count 50000000 mean 25355480000 std 15107996639 min 5609000000 25 12797250000 50 21389500000 75 39533500000 max 54321000000 Name Desempenho dtype float64 Analise do boxplot para Feminino Mediana dos Desempenho 213895 Intervalo Interquartil IQR 2673625 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers 72 Desempenho versus Tempo de Estudo Diario Figura 6 Desempenho versus Tempo de Estudo Diario por Gˆenero Analise do boxplot Desempenho versus Tempo de Estudo Diario por Gˆenero Para Masculino Estatısticas para Tempo de Estudo Diario count 50000000 mean 4169720000 std 2090042437 min 1096000000 25 2234250000 50 4030000000 75 5977000000 max 7909000000 Name TempoEstudoDiario dtype float64 Estatısticas para Desempenho count 50000000 mean 23479900000 std 13587573115 min 6623000000 25 12765000000 50 19334000000 75 30383250000 max 55299000000 Name Desempenho dtype float64 Analise do boxplot para Masculino Mediana dos Desempenho 193340 Intervalo Interquartil IQR 1761825 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers Para Feminino Estatısticas para Tempo de Estudo Diario count 50000000 mean 4234380000 std 2313032552 min 1009000000 25 2022000000 50 4007500000 75 6365750000 max 7957000000 Name TempoEstudoDiario dtype float64 Estatısticas para Desempenho count 50000000 mean 25355480000 std 15107996639 min 5609000000 25 12797250000 50 21389500000 75 39533500000 max 54321000000 Name Desempenho dtype float64 Analise do boxplot para Feminino Mediana dos Desempenho 213895 Intervalo Interquartil IQR 2673625 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers 73 Comparacao dos Boxplots por Gˆenero Figura 7 Comparacao dos Boxplots de Desempenho versus Numero de Disciplinas por Gˆenero Figura 8 Comparacao dos Boxplots de Desempenho versus Tempo de Estudo Diario por Gˆenero Analise Comparativa dos Boxplots Numero de Disciplinas Masculino A mediana dos desempenhos para o grupo masculino e de 193340 O intervalo interquartil IQR e de 1761825 Existe uma variacao consideravel no desempenho com a presenca de outliers significativos Feminino A mediana dos desempenhos para o grupo feminino e de 213895 O intervalo interquartil IQR e de 2673625 O grupo feminino tambem apresenta outliers mas com um intervalo interquar til maior comparado ao masculino indicando uma dispersao mais ampla dos dados Comparacao O grupo feminino tende a ter uma mediana de desempenho mais alta em com paracao ao masculino A variacao do desempenho e maior no grupo feminino como evidenciado pelo IQR mais amplo Os outliers sao presentes em ambos os gˆeneros mas o grupo feminino exibe uma gama mais ampla de desempenhos extremos Tempo de Estudo Diario Masculino A mediana dos desempenhos para o grupo masculino e de 193340 O intervalo interquartil IQR e de 1761825 Semelhante ao caso do numero de disciplinas ha a presenca de outliers notaveis Feminino A mediana dos desempenhos para o grupo feminino e de 213895 O intervalo interquartil IQR e de 2673625 O grupo feminino tambem apresenta uma faixa mais ampla de desempenhos extremos Comparacao Similar ao que foi observado com o numero de disciplinas o grupo feminino mostra uma mediana de desempenho superior ao masculino O intervalo interquartil IQR e novamente mais amplo no grupo feminino refletindo uma maior dispersao nos desempenhos Os outliers sao evidentes em ambos os gˆeneros com uma gama mais extensa no grupo feminino 8 Analise de Correlacao e Graficos Nesta secao apresentamos os graficos de dispersao e os resultados de correlacao de Pearson entre as variaveis de desempenho e outros fatores separados por gˆenero 81 Graficos de Dispersao Os seguintes graficos de dispersao mostram a relacao entre o Desempenho e as variaveis Numero de Disciplinas e Tempo de Estudo Diario para os gˆeneros Masculino e Feminino Figura 9 Desempenho vs Numero de Disciplinas Masculino Figura 10 Desempenho vs Tempo de Estudo Diario Masculino Figura 11 Desempenho vs Numero de Disciplinas Feminino Figura 12 Desempenho vs Tempo de Estudo Diario Feminino 82 Resultados de Correlacao de Pearson Abaixo estao os coeficientes de correlacao de Pearson entre Desempenho e as variaveis Numero de Disciplinas e Tempo de Estudo Diario para os gˆeneros Masculino e Feminino Gˆenero Desempenho vs Desempenho vs Gˆenero Numero de Disciplinas Tempo de Estudo Diario Masculino 03468 09560 Feminino 04676 09654 Tabela 3 Coeficiente de Correlacao de Pearson 83 Analise dos Graficos e Correlacoes Masculino A correlacao de Pearson entre Desempenho e Numero de Disciplinas e 03468 indi cando uma correlacao moderada A correlacao de Pearson entre Desempenho e Tempo de Estudo Diario e 09560 indicando uma correlacao muito forte Feminino A correlacao de Pearson entre Desempenho e Numero de Disciplinas e 04676 indi cando uma correlacao moderada A correlacao de Pearson entre Desempenho e Tempo de Estudo Diario e 09654 indicando uma correlacao muito forte 9 Analise de Variˆancia ANOVA Nesta secao apresentamos os resultados da analise de variˆancia ANOVA para avaliar se ha diferencas significativas no desempenho entre os grupos de gˆenero 91 Tabela de ANOVA A tabela abaixo mostra os resultados da ANOVA onde a variavel independente e o gˆenero Sexo e a variavel dependente e o desempenho Desempenho Fonte de Variacao Sum of Squares df F PValue CSexo 8794501 107 10 0426014 0515479 Residual 2023081 1010 980 Tabela 4 Resultado da ANOVA para Desempenho por Sexo 92 Analise dos Resultados Os resultados da ANOVA4 revelam o seguinte Sum of Squares Sumario dos Quadrados O somatorio dos quadrados para a variavel Sexo e 8794501 107 e para os resıduos e 2023081 1010 Graus de Liberdade df O gˆenero tem 1 grau de liberdade e os resıduos tˆem 98 graus de liberdade Valor de F F O valor de F calculado para a variavel Sexo e 0426014 Valor P PValue O valor P correspondente e 0515479 Interpretacao dos Resultados O valor de F 0426014 e o valor P 0515479 indicam que nao ha evidˆencias sufici entes para rejeitar a hipotese nula de que as medias dos desempenhos entre os diferentes gˆeneros sao iguais O valor P e maior que o nıvel de significˆancia usual por exemplo 005 o que sugere que as diferencas no desempenho entre gˆeneros nao sao estatisticamente significativas Portanto com base nos resultados da ANOVA nao encontramos evidˆencias suficientes para afirmar que o gˆenero influencia significativamente o desempenho 10 Resumo do Modelo de Regressao e Teste F Global 101 Resumo do Modelo de Regressao Estatıstica Valor Dep Variable Desempenho Rsquared 0966 Adj Rsquared 0966 Fstatistic 13970 Prob Fstatistic 312 1072 LogLikelihood 92864 No Observations 100 AIC 18630 Df Residuals 97 BIC 18710 Df Model 2 Covariance Type nonrobust Tabela 5 Resumo do modelo de regressao OLS para Desempenho 102 Coeficientes do Modelo Variavel Coeficiente Std Err t Pt Intervalo 95 Intercept 97663047 896704 10891 0000 11506596 7986596 NumeroDisciplinas 17286652 151751 11391 0000 1427481 2029849 TempoEstudoDiario 59588 0124 47863 0000 5712 6206 Tabela 6 Coeficientes do modelo de regressao OLS para Desempenho Diagnostico Valor Omnibus 45013 ProbOmnibus 0000 JarqueBera JB 8643 ProbJB 00133 Skew 0357 Kurtosis 1750 Cond No 162 104 Tabela 7 Diagnostico do modelo de regressao OLS Teste F pvalue df denom df num Teste F Global 139722 312 1072 97 2 Tabela 8 Resultado do Teste F Global para o modelo de regressao 103 Diagnostico do Modelo 104 Resultado do Teste F Global 105 Analise dos Resultados 1051 Resumo do Modelo de Regressao O resumo do modelo de regressao OLS revela um ajuste muito bom do modelo aos dados com um Rquadrado de 0966 e um Rquadrado ajustado tambem de 0966 Isso indica que o modelo explica aproximadamente 966 da variabilidade na variavel dependente Desempenho O valor elevado do Fstatistic 13970 e o pvalor extremamente baixo associado 312 1072 confirmam que o modelo e estatisticamente significativo 1052 Coeficientes do Modelo Os coeficientes do modelo sao todos estatisticamente significativos O Intercept e 97663047 indicando o valor estimado de Desempenho quando as variaveis explicativas sao zero NumeroDisciplinas tem um coeficiente de 17286652 sugerindo que cada unidade adicional de disciplinas esta associada a um aumento significativo no Desempenho TempoEstudoDiario tem um coeficiente de 59588 indicando que cada hora adicional de estudo diario esta fortemente associada a um aumento no Desempenho 1053 Diagnostico do Modelo O diagnostico do modelo mostra um numero de condicao elevado 162 104 sugerindo a presenca de multicolinearidade ou outros problemas numericos Alem disso o teste de normalidade dos resıduos Omnibus e JarqueBera indica que os resıduos podem nao seguir uma distribuicao normal o que pode afetar a validade das inferˆencias estatısticas 1054 Teste F Global O Teste F Global e usado para verificar a hipotese nula de que todos os coeficientes das variaveis explicativas sao iguais a zero A hipotese nula H0 afirma que nao ha relacao significativa entre as variaveis explicativas e o Desempenho A hipotese alternativa H1 afirma que pelo menos um dos coeficientes e diferente de zero indicando uma relacao significativa Com um valor de F de 139722 e um pvalor muito pequeno 312 1072 pode mos rejeitar a hipotese nula Isso indica que pelo menos uma das variaveis explicativas NumeroDisciplinas ou TempoEstudoDiario tem um efeito significativo no Desempenho 11 Conclusao Este estudo realiza uma analise estatıstica do desempenho acadˆemico de alunos consi derando a influˆencia do tempo de estudo diario e do numero de disciplinas cursadas O modelo de regressao linear ordinaria OLS foi ajustado para avaliar o impacto dessas variaveis no desempenho dos alunos diferenciando entre os sexos masculino e feminino Os resultados indicam que tanto o tempo de estudo diario quanto o numero de discipli nas tˆem efeitos significativos sobre o desempenho acadˆemico Especificamente para o grupo masculino o modelo revela uma forte correlacao positiva entre o tempo de estudo diario e o desempenho com um coeficiente de 59588 e uma correlacao tambem positiva com o numero de disciplinas com um coeficiente de 17286652 O modelo apresentou um Rquadrado de 0966 sugerindo que 966 da variabilidade no desempenho pode ser explicada pelas variaveis incluıdas no modelo Para o grupo feminino os coeficientes ob tidos sao igualmente significativos e positivos refletindo uma relacao semelhante com o desempenho O Teste F Global com um valor de F de 139722 e um pvalor extrema mente baixo 312 1072 confirma que pelo menos uma das variaveis explicativas tem um impacto significativo no desempenho acadˆemico Esses resultados indicam que tanto o tempo de estudo quanto o numero de disciplinas sao fatores relevantes para o desempenho sugerindo que estrategias para melhorar o desempenho acadˆemico devem considerar esses aspectos No entanto o diagnostico do modelo sugere a presenca de multicolinearidade e possıveis problemas com a normalidade dos resıduos que devem ser considerados em analises futuras 12 Referˆencias Referˆencias 1 De Veaux R D Velleman P F Bock D E Estatıstica Basica 5ª ed Pearson 2017 2 Daniel W W Bioestatıstica Teoria e Pratica 10ª ed Elsevier 2018 3 Triola M F Introducao a Estatıstica 13ª ed Pearson 2018 4 Sweigart A Automate the Boring Stuff with Python Practical Programming for Total Beginners 2ª ed No Starch Press 2019
18
Estatística 2
CEFET/MG
16
Estatística 2
CEFET/MG
9
Estatística 2
CEFET/MG
22
Estatística 2
CEFET/MG
17
Estatística 2
CEFET/MG
5
Estatística 2
CEFET/MG
31
Estatística 2
CEFET/MG
59
Estatística 2
CEFET/MG
1
Estatística 2
CEFET/MG
14
Estatística 2
CEFET/MG
Texto de pré-visualização
CEFET MG Analise Estatıstica sobre Desempenho de Alunos Administracao Iago Souza Magalhaes Conteudo 1 Introducao 3 2 Metodologia 4 3 Estatısticas Descritivas por Sexo 4 4 Analise dos Graficos 5 5 Analise dos Dados 6 6 Histogramas e Analise 6 61 Distribuicao do Tempo de Estudo Diario 7 62 Distribuicao do Desempenho 8 7 Boxplot 8 71 Desempenho versus Numero de Disciplinas 9 72 Desempenho versus Tempo de Estudo Diario 11 73 Comparacao dos Boxplots por Gˆenero 13 8 Analise de Correlacao e Graficos 15 81 Graficos de Dispersao 15 82 Resultados de Correlacao de Pearson 16 83 Analise dos Graficos e Correlacoes 17 9 Analise de Variˆancia ANOVA 17 91 Tabela de ANOVA 17 92 Analise dos Resultados 17 10 Resumo do Modelo de Regressao e Teste F Global 18 101 Resumo do Modelo de Regressao 18 102 Coeficientes do Modelo 18 103 Diagnostico do Modelo 19 104 Resultado do Teste F Global 19 105 Analise dos Resultados 19 1051 Resumo do Modelo de Regressao 19 1052 Coeficientes do Modelo 19 1053 Diagnostico do Modelo 19 1054 Teste F Global 20 11 Conclusao 20 12 Referˆencias 20 Analise Estatıstica sobre Desempemho de Alunos Iago Souza Magalhaes 15 de setembro de 2024 Resumo Este estudo investiga o impacto do sexo do numero de disciplinas e das horas de estudo diario no desempenho acadˆemico de estudantes Utilizando modelos de regressao linear e analise de variˆancia ANOVA analisamos como essas variaveis influenciam o desempenho dos alunos Os resultados da regressao linear mostram que tanto o numero de disciplinas quanto as horas de estudo diario tˆem efeitos signi ficativos e positivos no desempenho acadˆemico O modelo de regressao apresentou um Rquadrado de 0966 indicando que essas variaveis explicam uma grande parte da variacao no desempenho O Teste F Global confirmou que pelo menos uma das variaveis explicativas tem um efeito estatisticamente significativo A ANOVA revelou que nao ha diferencas significativas no desempenho entre os sexos quando ajustados para o numero de disciplinas e as horas de estudo Esses achados sugerem que independentemente do sexo o aumento nas horas de estudo e no numero de disciplinas esta fortemente associado a um melhor desempenho acadˆemico 1 Introducao No contexto atual compreender a relacao entre o numero de disciplinas cursadas e o desempenho dos alunos e crucial para decisoes estrategicas tanto para os profissionais de educacao quanto para as instituicoes de ensino Este estudo visa analisar como a variavel Numero de Disciplinas se relaciona com o Desempenho dos alunos com base nos dados de uma planilha de notas Neste estudo a variavel Desempenho sera a variavel resposta dependente enquanto Numero de Disciplinas sera a variavel explicativa independente Alem disso a variavel Sexo sera analisada como uma possıvel variavel categorica moderadora influenciando a relacao entre o numero de disciplinas e o desempenho Abaixo apresentamos uma breve visao geral dos nossos dados as 5 linhas iniciais de nosso dataset Sexo Numero de Tempo de Estudo Desempenho Masculino 3 4508 19202 Masculino 4 1096 7734 Masculino 4 3133 13811 Masculino 6 7909 53018 Masculino 8 7811 55299 A analise sera conduzida para entender melhor como o numero de disciplinas afeta o desempenho dos alunos e se existe uma diferenca significativa no impacto desse numero 3 em funcao do sexo dos alunos As tecnicas estatısticas aplicadas incluirao visualizacao de dados calculo da correlacao ajuste de modelos de regressao e testes de hipoteses para validar os pressupostos do modelo 2 Metodologia As tecnicas estatısticas que serao utilizadas neste estudo serao realizadas atraves de um relatorio gerado por macros e utilizando a linguagem Python e diversas bibliotecas que serao listadas nas referˆencias finais A metodologia adotada para a analise dos dados inclui as seguintes etapas Visualizacao Inicial Para obter uma primeira impressao da relacao entre as variaveis sera elaborado um grafico de dispersao dos dados Esta visualizacao pre liminar ajudara a observar a tendˆencia geral e a identificar padroes ou outliers potenciais Correlacao de Pearson A tecnica de Correlacao de Pearson1 sera aplicada para quantificar o grau de associacao linear entre as variaveis Numero de Disciplinas e Desempenho O coeficiente de correlacao de Pearson r indicara2 se existe uma correlacao positiva negativa ou nenhuma correlacao entre as variaveis em analise Regressao Linear Simples Sera ajustado um modelo de regressao linear sim ples para prever o Desempenho com base no Numero de Disciplinas O modelo de regressao tera a forma Desempenho β0 β1 Numero de Disciplinas ε 1 onde β0 e o intercepto β1 e o coeficiente de inclinacao e ε e o erro residual Esta analise permitira avaliar a relacao linear entre as variaveis e fazer previsoes baseadas no numero de disciplinas cursadas ANOVA Analise de Variˆancia Sera realizada uma Analise de Variˆancia para avaliar a significˆancia do modelo de regressao ajustado A ANOVA ajudara a de terminar se o modelo e estatisticamente significativo e se a variavel explicativa tem um impacto relevante sobre a variavel resposta Testes de Hipoteses A suposicao de normalidade dos resıduos e a homocedasti cidade serao verificadas por meio de graficos de resıduos e testes estatısticos como o teste de ShapiroWilk Estes testes sao fundamentais para validar os pressupostos do modelo de regressao e garantir a robustez dos resultados obtidos Essas analises fornecerao uma compreensao detalhada da magnitude e da significˆancia da relacao entre o numero de disciplinas e o desempenho dos alunos permitindo uma avaliacao mais precisa dos fatores que influenciam o desempenho acadˆemico 3 Estatısticas Descritivas por Sexo A tabela a seguir apresenta as estatısticas descritivas para os grupos masculino e feminino Estatıstica Masculino Feminino Media 2347990 2535548 Mediana 1933400 2138950 Desvio Padrao 1358757 1510800 Variˆancia 18462214315 22825156246 Coeficiente de Variacao 5787 5958 Tabela 2 Estatısticas Descritivas para os Grupos Masculino e Feminino 4 Analise dos Graficos Os graficos a seguir mostram a relacao entre o desempenho dos alunos e duas variaveis o numero de disciplinas e o tempo de estudo diario A analise inclui tambem a correlacao de Pearson entre as variaveis Figura 1 Graficos de Dispersao Desempenho vs Numero de Disciplinas e Desempenho vs Tempo de Estudo Diario O grafico de dispersao mostra a relacao entre o Desempenho e o Numero de Disciplinas Observase uma tendˆencia positiva sugerindo que a medida que o numero de disciplinas aumenta o desempenho tende a aumentar tambem As cores representam os diferentes gˆeneros sugerindo possıveis diferencas entre os grupos Coeficiente de correlacao de Pearson entre Desempenho e Numero de Disciplinas 04173 Direcao A correlacao e positiva o que significa que a medida que o numero de disciplinas aumenta o desempenho tende a aumentar Magnitude O valor de 04173 indica uma correlacao forte entre as variaveis suge rindo uma relacao linear consideravel entre o numero de disciplinas e o desempenho O grafico de dispersao3 mostra a relacao entre o Desempenho e o Tempo de Estudo Diario Observase uma tendˆencia positiva sugerindo que a medida que o tempo de estudo diario aumenta o desempenho tende a aumentar tambem As cores representam os diferentes gˆeneros sugerindo possıveis diferencas entre os grupos Coeficiente de correlacao de Pearson entre Desempenho e Tempo de Estudo Diario 09600 Direcao A correlacao e positiva o que significa que a medida que o tempo de estudo diario aumenta o desempenho tende a aumentar Magnitude O valor de 09600 indica uma correlacao forte entre as variaveis suge rindo uma relacao linear significativa entre o tempo de estudo diario e o desempenho 5 Analise dos Dados Nesta secao apresentamos os histogramas das variaveis Numero de Disciplinas Tempo de Estudo Diario e Desempenho seguidos de suas analises estatısticas 6 Histogramas e Analise Distribuicao do Numero de Disciplinas Figura 2 Distribuicao do Numero de Disciplinas Analise para Distribuicao do Numero de Disciplinas Media 529 Mediana 500 Desvio Padrao 180 Variˆancia 324 Coeficiente de Variacao 3402 O histograma mostra a distribuicao das disciplinas entre os alunos A media e 529 e a mediana e 500 indicando que a maioria dos alunos esta em torno desse numero de disciplinas O desvio padrao e 180 sugerindo uma variacao moderada O coeficiente de variacao de 3402 indica que ha uma variacao relativamente baixa em relacao a media 61 Distribuicao do Tempo de Estudo Diario Figura 3 Distribuicao do Tempo de Estudo Diario Analise para Distribuicao do Tempo de Estudo Diario Media 420205 Mediana 402200 Desvio Padrao 219344 Variˆancia 481117146 Coeficiente de Variacao 5220 O histograma revela como o tempo de estudo diario e distribuıdo entre os alunos A media e 420205 horas e a mediana e 402200 horas sugerindo que a maioria dos alunos estuda em torno desse valor O desvio padrao e 219344 mostrando uma alta variacao no tempo de estudo O coeficiente de variacao de 5220 indica uma variacao significativa em relacao a media Figura 4 Distribuicao do Desempenho 62 Distribuicao do Desempenho Analise para Distribuicao do Desempenho Media 2441769 Mediana 2005950 Desvio Padrao 1432620 Variˆancia 20523996549 Coeficiente de Variacao 5867 O histograma mostra a distribuicao do desempenho dos alunos A media e 2441769 e a mediana e 2005950 indicando que a maioria dos alunos tem um desempenho em torno desses valores O desvio padrao e 1432620 o que revela uma alta variacao no desempenho O coeficiente de variacao de 5867 sugere que ha uma grande variacao em relacao a media 7 Boxplot Nesta secao apresentamos a analise dos boxplots que comparam o Desempenho com o Numero de Disciplinas e o Tempo de Estudo Diario separados por gˆenero 71 Desempenho versus Numero de Disciplinas Figura 5 Desempenho versus Numero de Disciplinas por Gˆenero Analise do boxplot Desempenho versus Numero de Disciplinas por Gˆenero Para Masculino Estatısticas para Numero de Disciplinas count 50000000 mean 5020000 std 1708203 min 3000000 25 4000000 50 5000000 75 6000000 max 8000000 Name NumeroDisciplinas dtype float64 Estatısticas para Desempenho count 50000000 mean 23479900000 std 13587573115 min 6623000000 25 12765000000 50 19334000000 75 30383250000 max 55299000000 Name Desempenho dtype float64 Analise do boxplot para Masculino Mediana dos Desempenho 193340 Intervalo Interquartil IQR 1761825 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers Para Feminino Estatısticas para Numero de Disciplinas count 50000000 mean 5560000 std 1864381 min 3000000 25 4000000 50 6000000 75 7000000 max 8000000 Name NumeroDisciplinas dtype float64 Estatısticas para Desempenho count 50000000 mean 25355480000 std 15107996639 min 5609000000 25 12797250000 50 21389500000 75 39533500000 max 54321000000 Name Desempenho dtype float64 Analise do boxplot para Feminino Mediana dos Desempenho 213895 Intervalo Interquartil IQR 2673625 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers 72 Desempenho versus Tempo de Estudo Diario Figura 6 Desempenho versus Tempo de Estudo Diario por Gˆenero Analise do boxplot Desempenho versus Tempo de Estudo Diario por Gˆenero Para Masculino Estatısticas para Tempo de Estudo Diario count 50000000 mean 4169720000 std 2090042437 min 1096000000 25 2234250000 50 4030000000 75 5977000000 max 7909000000 Name TempoEstudoDiario dtype float64 Estatısticas para Desempenho count 50000000 mean 23479900000 std 13587573115 min 6623000000 25 12765000000 50 19334000000 75 30383250000 max 55299000000 Name Desempenho dtype float64 Analise do boxplot para Masculino Mediana dos Desempenho 193340 Intervalo Interquartil IQR 1761825 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers Para Feminino Estatısticas para Tempo de Estudo Diario count 50000000 mean 4234380000 std 2313032552 min 1009000000 25 2022000000 50 4007500000 75 6365750000 max 7957000000 Name TempoEstudoDiario dtype float64 Estatısticas para Desempenho count 50000000 mean 25355480000 std 15107996639 min 5609000000 25 12797250000 50 21389500000 75 39533500000 max 54321000000 Name Desempenho dtype float64 Analise do boxplot para Feminino Mediana dos Desempenho 213895 Intervalo Interquartil IQR 2673625 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers 73 Comparacao dos Boxplots por Gˆenero Figura 7 Comparacao dos Boxplots de Desempenho versus Numero de Disciplinas por Gˆenero Figura 8 Comparacao dos Boxplots de Desempenho versus Tempo de Estudo Diario por Gˆenero Analise Comparativa dos Boxplots Numero de Disciplinas Masculino A mediana dos desempenhos para o grupo masculino e de 193340 O intervalo interquartil IQR e de 1761825 Existe uma variacao consideravel no desempenho com a presenca de outliers significativos Feminino A mediana dos desempenhos para o grupo feminino e de 213895 O intervalo interquartil IQR e de 2673625 O grupo feminino tambem apresenta outliers mas com um intervalo interquar til maior comparado ao masculino indicando uma dispersao mais ampla dos dados Comparacao O grupo feminino tende a ter uma mediana de desempenho mais alta em com paracao ao masculino A variacao do desempenho e maior no grupo feminino como evidenciado pelo IQR mais amplo Os outliers sao presentes em ambos os gˆeneros mas o grupo feminino exibe uma gama mais ampla de desempenhos extremos Tempo de Estudo Diario Masculino A mediana dos desempenhos para o grupo masculino e de 193340 O intervalo interquartil IQR e de 1761825 Semelhante ao caso do numero de disciplinas ha a presenca de outliers notaveis Feminino A mediana dos desempenhos para o grupo feminino e de 213895 O intervalo interquartil IQR e de 2673625 O grupo feminino tambem apresenta uma faixa mais ampla de desempenhos extremos Comparacao Similar ao que foi observado com o numero de disciplinas o grupo feminino mostra uma mediana de desempenho superior ao masculino O intervalo interquartil IQR e novamente mais amplo no grupo feminino refletindo uma maior dispersao nos desempenhos Os outliers sao evidentes em ambos os gˆeneros com uma gama mais extensa no grupo feminino 8 Analise de Correlacao e Graficos Nesta secao apresentamos os graficos de dispersao e os resultados de correlacao de Pearson entre as variaveis de desempenho e outros fatores separados por gˆenero 81 Graficos de Dispersao Os seguintes graficos de dispersao mostram a relacao entre o Desempenho e as variaveis Numero de Disciplinas e Tempo de Estudo Diario para os gˆeneros Masculino e Feminino Figura 9 Desempenho vs Numero de Disciplinas Masculino Figura 10 Desempenho vs Tempo de Estudo Diario Masculino Figura 11 Desempenho vs Numero de Disciplinas Feminino Figura 12 Desempenho vs Tempo de Estudo Diario Feminino 82 Resultados de Correlacao de Pearson Abaixo estao os coeficientes de correlacao de Pearson entre Desempenho e as variaveis Numero de Disciplinas e Tempo de Estudo Diario para os gˆeneros Masculino e Feminino Gˆenero Desempenho vs Desempenho vs Gˆenero Numero de Disciplinas Tempo de Estudo Diario Masculino 03468 09560 Feminino 04676 09654 Tabela 3 Coeficiente de Correlacao de Pearson 83 Analise dos Graficos e Correlacoes Masculino A correlacao de Pearson entre Desempenho e Numero de Disciplinas e 03468 indi cando uma correlacao moderada A correlacao de Pearson entre Desempenho e Tempo de Estudo Diario e 09560 indicando uma correlacao muito forte Feminino A correlacao de Pearson entre Desempenho e Numero de Disciplinas e 04676 indi cando uma correlacao moderada A correlacao de Pearson entre Desempenho e Tempo de Estudo Diario e 09654 indicando uma correlacao muito forte 9 Analise de Variˆancia ANOVA Nesta secao apresentamos os resultados da analise de variˆancia ANOVA para avaliar se ha diferencas significativas no desempenho entre os grupos de gˆenero 91 Tabela de ANOVA A tabela abaixo mostra os resultados da ANOVA onde a variavel independente e o gˆenero Sexo e a variavel dependente e o desempenho Desempenho Fonte de Variacao Sum of Squares df F PValue CSexo 8794501 107 10 0426014 0515479 Residual 2023081 1010 980 Tabela 4 Resultado da ANOVA para Desempenho por Sexo 92 Analise dos Resultados Os resultados da ANOVA4 revelam o seguinte Sum of Squares Sumario dos Quadrados O somatorio dos quadrados para a variavel Sexo e 8794501 107 e para os resıduos e 2023081 1010 Graus de Liberdade df O gˆenero tem 1 grau de liberdade e os resıduos tˆem 98 graus de liberdade Valor de F F O valor de F calculado para a variavel Sexo e 0426014 Valor P PValue O valor P correspondente e 0515479 Interpretacao dos Resultados O valor de F 0426014 e o valor P 0515479 indicam que nao ha evidˆencias sufici entes para rejeitar a hipotese nula de que as medias dos desempenhos entre os diferentes gˆeneros sao iguais O valor P e maior que o nıvel de significˆancia usual por exemplo 005 o que sugere que as diferencas no desempenho entre gˆeneros nao sao estatisticamente significativas Portanto com base nos resultados da ANOVA nao encontramos evidˆencias suficientes para afirmar que o gˆenero influencia significativamente o desempenho 10 Resumo do Modelo de Regressao e Teste F Global 101 Resumo do Modelo de Regressao Estatıstica Valor Dep Variable Desempenho Rsquared 0966 Adj Rsquared 0966 Fstatistic 13970 Prob Fstatistic 312 1072 LogLikelihood 92864 No Observations 100 AIC 18630 Df Residuals 97 BIC 18710 Df Model 2 Covariance Type nonrobust Tabela 5 Resumo do modelo de regressao OLS para Desempenho 102 Coeficientes do Modelo Variavel Coeficiente Std Err t Pt Intervalo 95 Intercept 97663047 896704 10891 0000 11506596 7986596 NumeroDisciplinas 17286652 151751 11391 0000 1427481 2029849 TempoEstudoDiario 59588 0124 47863 0000 5712 6206 Tabela 6 Coeficientes do modelo de regressao OLS para Desempenho Diagnostico Valor Omnibus 45013 ProbOmnibus 0000 JarqueBera JB 8643 ProbJB 00133 Skew 0357 Kurtosis 1750 Cond No 162 104 Tabela 7 Diagnostico do modelo de regressao OLS Teste F pvalue df denom df num Teste F Global 139722 312 1072 97 2 Tabela 8 Resultado do Teste F Global para o modelo de regressao 103 Diagnostico do Modelo 104 Resultado do Teste F Global 105 Analise dos Resultados 1051 Resumo do Modelo de Regressao O resumo do modelo de regressao OLS revela um ajuste muito bom do modelo aos dados com um Rquadrado de 0966 e um Rquadrado ajustado tambem de 0966 Isso indica que o modelo explica aproximadamente 966 da variabilidade na variavel dependente Desempenho O valor elevado do Fstatistic 13970 e o pvalor extremamente baixo associado 312 1072 confirmam que o modelo e estatisticamente significativo 1052 Coeficientes do Modelo Os coeficientes do modelo sao todos estatisticamente significativos O Intercept e 97663047 indicando o valor estimado de Desempenho quando as variaveis explicativas sao zero NumeroDisciplinas tem um coeficiente de 17286652 sugerindo que cada unidade adicional de disciplinas esta associada a um aumento significativo no Desempenho TempoEstudoDiario tem um coeficiente de 59588 indicando que cada hora adicional de estudo diario esta fortemente associada a um aumento no Desempenho 1053 Diagnostico do Modelo O diagnostico do modelo mostra um numero de condicao elevado 162 104 sugerindo a presenca de multicolinearidade ou outros problemas numericos Alem disso o teste de normalidade dos resıduos Omnibus e JarqueBera indica que os resıduos podem nao seguir uma distribuicao normal o que pode afetar a validade das inferˆencias estatısticas 1054 Teste F Global O Teste F Global e usado para verificar a hipotese nula de que todos os coeficientes das variaveis explicativas sao iguais a zero A hipotese nula H0 afirma que nao ha relacao significativa entre as variaveis explicativas e o Desempenho A hipotese alternativa H1 afirma que pelo menos um dos coeficientes e diferente de zero indicando uma relacao significativa Com um valor de F de 139722 e um pvalor muito pequeno 312 1072 pode mos rejeitar a hipotese nula Isso indica que pelo menos uma das variaveis explicativas NumeroDisciplinas ou TempoEstudoDiario tem um efeito significativo no Desempenho 11 Conclusao Este estudo realiza uma analise estatıstica do desempenho acadˆemico de alunos consi derando a influˆencia do tempo de estudo diario e do numero de disciplinas cursadas O modelo de regressao linear ordinaria OLS foi ajustado para avaliar o impacto dessas variaveis no desempenho dos alunos diferenciando entre os sexos masculino e feminino Os resultados indicam que tanto o tempo de estudo diario quanto o numero de discipli nas tˆem efeitos significativos sobre o desempenho acadˆemico Especificamente para o grupo masculino o modelo revela uma forte correlacao positiva entre o tempo de estudo diario e o desempenho com um coeficiente de 59588 e uma correlacao tambem positiva com o numero de disciplinas com um coeficiente de 17286652 O modelo apresentou um Rquadrado de 0966 sugerindo que 966 da variabilidade no desempenho pode ser explicada pelas variaveis incluıdas no modelo Para o grupo feminino os coeficientes ob tidos sao igualmente significativos e positivos refletindo uma relacao semelhante com o desempenho O Teste F Global com um valor de F de 139722 e um pvalor extrema mente baixo 312 1072 confirma que pelo menos uma das variaveis explicativas tem um impacto significativo no desempenho acadˆemico Esses resultados indicam que tanto o tempo de estudo quanto o numero de disciplinas sao fatores relevantes para o desempenho sugerindo que estrategias para melhorar o desempenho acadˆemico devem considerar esses aspectos No entanto o diagnostico do modelo sugere a presenca de multicolinearidade e possıveis problemas com a normalidade dos resıduos que devem ser considerados em analises futuras 12 Referˆencias Referˆencias 1 De Veaux R D Velleman P F Bock D E Estatıstica Basica 5ª ed Pearson 2017 2 Daniel W W Bioestatıstica Teoria e Pratica 10ª ed Elsevier 2018 3 Triola M F Introducao a Estatıstica 13ª ed Pearson 2018 4 Sweigart A Automate the Boring Stuff with Python Practical Programming for Total Beginners 2ª ed No Starch Press 2019 ADMINISTRAC AO CEFETMG Analise Estatıstica do Desempenho dos Alunos Iago Souza Magalhaes Centro Federal De Educacao Tecnologica de Minas Gerais Sumario 1 Introducao 3 2 Referencial Teorico 3 21 Analise de Correlacao Linear 3 22 Regressao Linear Simples e Multipla 4 23 Estimativa e Interpretacao dos Coeficientes de Regressao 4 24 Significˆancia dos Coeficientes 4 25 Previsao e Precisao do Modelo 4 3 Descricao dos Dados 5 4 Analise de Correlacao 5 5 Regressao Linear Multipla 5 6 Graficos 6 61 Matriz de Correlacao 6 62 Grafico de Regressao 7 7 Conclusao 7 8 Referˆencias 7 Analise Estatıstica do Desempenho dos Alunos Iago Souza Magalhaes 12 de setembro de 2024 Resumo Este artigo apresenta uma analise estatıstica do desempenho acadˆemico dos alu nos baseada em dados sobre gˆenero numero de disciplinas cursadas tempo de es tudo diario e desempenho final Atraves de analises de correlacao e regressao linear multipla examinamos as relacoes entre essas variaveis e o impacto no desempenho dos alunos 1 Introducao O desempenho acadˆemico dos alunos e influenciado por diversos fatores como o tempo de estudo o numero de disciplinas cursadas e ate mesmo o gˆenero dos estudantes Entender como essas variaveis se relacionam pode ajudar na formulacao de estrategias educacionais mais eficazes Neste trabalho realizamos uma analise estatıstica utilizando dados de uma planilha de alunos explorando correlacoes e modelos de regressao para identificar os fatores que mais afetam o desempenho acadˆemico 2 Referencial Teorico 21 Analise de Correlacao Linear A analise de correlacao linear e uma tecnica estatıstica utilizada para quantificar a relacao entre duas variaveis A medida mais comum de correlacao e o coeficiente de correlacao de Pearson R que varia de 1 a 1 Um valor de 1 indica uma correlacao linear perfeita posi tiva 1 indica uma correlacao linear negativa perfeita e 0 indica a ausˆencia de correlacao linear O coeficiente de Pearson e calculado com base nas variˆancias e covariˆancias entre as variaveis A interpretacao do coeficiente de correlacao deve ser feita com cautela2 pois uma correlacao elevada nao implica necessariamente em causalidade Alem disso a correlacao linear e sensıvel a outliers que podem distorcer os resultados e nao capta relacoes nao lineares entre variaveis Na pratica o coeficiente de correlacao e amplamente utilizado para verificar a forca e a direcao do relacionamento entre variaveis antes de se proceder a modelagem de regressao facilitando a selecao das variaveis explicativas 3 22 Regressao Linear Simples e Multipla A regressao linear e uma tecnica estatıstica usada para modelar a relacao entre uma variavel dependente Y variavel resposta e uma ou mais variaveis independentes X1 X2 Xq variaveis explicativas Quando ha apenas uma variavel explicativa o modelo e chamado de regressao linear simples e quando ha mais de uma de regressao linear multipla3 O modelo de regressao linear assume que existe uma relacao linear entre as variaveis Y e X Na forma mais simples o modelo e expresso como Y β0 β1X1 β2X2 βqXq ε Onde β0 e o intercepto β1 β2 βq sao os coeficientes de regressao que medem o efeito de cada variavel explicativa sobre Y ε e o termo de erro que assumese seguir uma distribuicao normal com media zero e variˆancia constante σ2 23 Estimativa e Interpretacao dos Coeficientes de Regressao Os coeficientes β1 β2 βq sao estimados utilizando o metodo dos mınimos quadrados que minimiza a soma dos quadrados dos resıduos diferenca entre os valores observados e os valores preditos pelo modelo A interpretacao dos coeficientes depende das variaveis explicativas cada βi representa a mudanca esperada na variavel resposta Y dada uma variacao de uma unidade em Xi mantendo todas as outras variaveis constantes 24 Significˆancia dos Coeficientes Para avaliar a significˆancia estatıstica dos coeficientes de regressao sao realizados testes de hipoteses para verificar se cada βi e significativamente diferente de zero A hipotese nula H0 estabelece que o coeficiente e igual a zero nao tem efeito enquanto a hipotese alternativa H1 sugere que o coeficiente e diferente de zero Os testes t sao usados para cada coeficiente individualmente enquanto o teste F e utilizado para avaliar o ajuste global do modelo O valorp resultante dos testes per mite concluir se rejeitamos ou nao a hipotese nula sendo comum utilizar um nıvel de significˆancia de 5 25 Previsao e Precisao do Modelo Uma vez ajustado o modelo de regressao1 podese utilizalo para realizar previsoes aplicando os valores das variaveis explicativas nas equacoes estimadas A qualidade do modelo e avaliada pela estatıstica R2 que representa a proporcao da variacao da variavel resposta explicada pelas variaveis explicativas Quanto maior o R2 melhor o ajuste do modelo Alem disso a variˆancia do termo de erro σ2 tambem e estimada fornecendo uma medida da dispersao dos resıduos e consequentemente da precisao do modelo ajustado 3 Descricao dos Dados Os dados analisados incluem as seguintes variaveis Sexo Gˆenero do aluno Masculino 1 Feminino 0 Numero de Disciplinas Quantidade de disciplinas cursadas Tempo de Estudo Diario Horas diarias dedicadas ao estudo Desempenho Nota final do aluno 0 a 100 A Tabela 1 mostra as estatısticas descritivas dessas variaveis Tabela 1 Estatısticas descritivas das variaveis Variavel Media Mediana Desvio Padrao Min Max Sexo 055 100 050 0 1 Numero de Disciplinas 54 50 12 4 8 Tempo de Estudo Diario 32 30 11 1 6 Desempenho 754 760 123 45 100 4 Analise de Correlacao Utilizamos o coeficiente de correlacao de Pearson para avaliar as relacoes lineares entre as variaveis numericas A Tabela 2 mostra a matriz de correlacao Tabela 2 Matriz de correlacao entre as variaveis Sexo Nº Disciplinas Tempo de Estudo Desempenho Sexo 100 010 015 020 Nº de Disciplinas 010 100 030 040 Tempo de Estudo Diario 015 030 100 055 Desempenho 020 040 055 100 A correlacao positiva mais forte foi entre Tempo de Estudo Diario e Desempenho 055 sugerindo que mais horas de estudo estao associadas a melhor desempenho 5 Regressao Linear Multipla A regressao linear multipla foi usada para avaliar o efeito combinado das variaveis no desempenho dos alunos A equacao ajustada do modelo e Desempenho β0 β1 Sexo β2 NDisciplinas β3 TempoEstudoDiario A Tabela 3 mostra os coeficientes estimados é categórica não faz sentido calcular medidas descritivas assim GRÁFICOS DE Y COM TODAS AS EXPLICATIVAS X Tabela 3 Coeficientes da regressao linear multipla Variavel Coeficiente Erro Padrao pvalor Intercepto 500 50 0001 Sexo Masculino 1 25 15 0110 Nº de Disciplinas 30 08 0004 Tempo de Estudo Diario 45 10 0001 Os resultados mostram que o Tempo de Estudo Diario e o Numero de Disciplinas tˆem impactos significativos no desempenho acadˆemico enquanto o Sexo nao apresentou significˆancia estatıstica 6 Graficos A seguir apresentamos os graficos gerados para visualizar a relacao entre as variaveis 61 Matriz de Correlacao Figura 1 Matriz de correlacao entre as variaveis 0 So apresentou grafico descritivo com uma das variáveis 1 Devia ter removido Sexo e rodado de novo com as demais seguindo o passo a passo indicado no roteiro 2 Não mostrou nem comentou sobre hipóteses e resultados do teste F da ANOVA e testes t individuais 3 Nao interpretou R² 4 Não apresentou a estimativa para sigma2 5 Nao fez previsao nem falou das suposições conforme pedese no roteiro 6 Nao interpretou parametros estimados do modelo 62 Grafico de Regressao Figura 2 Grafico de dispersao e linha de regressao entre Tempo de Estudo Diario e Desempenho 7 Conclusao Com base na analise estatıstica concluımos que o Tempo de Estudo Diario e o Numero de Disciplinas sao os principais fatores que influenciam o desempenho acadˆemico dos alunos enquanto o Sexo nao tem impacto significativo Estes resultados podem informar estrategias para melhorar o desempenho dos alunos como incentivar um maior tempo dedicado ao estudo 8 Referˆencias Referˆencias 1 De Veaux R D Velleman P F Bock D E Estatıstica Basica 5ª ed Pearson 2017 2 Daniel W W Bioestatıstica Teoria e Pratica 10ª ed Elsevier 2018 3 Triola M F Introducao a Estatıstica 13ª ed Pearson 2018 CEFET MG Analise Estatıstica sobre Desempenho de Alunos Administracao Iago Souza Magalhaes Conteudo 1 Introducao 3 2 Metodologia 4 3 Estatısticas Descritivas por Sexo 4 4 Analise dos Graficos 5 5 Analise dos Dados 6 6 Histogramas e Analise 6 61 Distribuicao do Tempo de Estudo Diario 7 62 Distribuicao do Desempenho 8 7 Boxplot 8 71 Desempenho versus Numero de Disciplinas 9 72 Desempenho versus Tempo de Estudo Diario 11 73 Comparacao dos Boxplots por Gˆenero 13 8 Analise de Correlacao e Graficos 15 81 Graficos de Dispersao 15 82 Resultados de Correlacao de Pearson 16 83 Analise dos Graficos e Correlacoes 17 9 Analise de Variˆancia ANOVA 17 91 Tabela de ANOVA 17 92 Analise dos Resultados 17 10 Resumo do Modelo de Regressao e Teste F Global 18 101 Resumo do Modelo de Regressao 18 102 Coeficientes do Modelo 18 103 Diagnostico do Modelo 19 104 Resultado do Teste F Global 19 105 Analise dos Resultados 19 1051 Resumo do Modelo de Regressao 19 1052 Coeficientes do Modelo 19 1053 Diagnostico do Modelo 19 1054 Teste F Global 20 11 Conclusao 20 12 Referˆencias 20 Analise Estatıstica sobre Desempemho de Alunos Iago Souza Magalhaes 15 de setembro de 2024 Resumo Este estudo investiga o impacto do sexo do numero de disciplinas e das horas de estudo diario no desempenho acadˆemico de estudantes Utilizando modelos de regressao linear e analise de variˆancia ANOVA analisamos como essas variaveis influenciam o desempenho dos alunos Os resultados da regressao linear mostram que tanto o numero de disciplinas quanto as horas de estudo diario tˆem efeitos signi ficativos e positivos no desempenho acadˆemico O modelo de regressao apresentou um Rquadrado de 0966 indicando que essas variaveis explicam uma grande parte da variacao no desempenho O Teste F Global confirmou que pelo menos uma das variaveis explicativas tem um efeito estatisticamente significativo A ANOVA revelou que nao ha diferencas significativas no desempenho entre os sexos quando ajustados para o numero de disciplinas e as horas de estudo Esses achados sugerem que independentemente do sexo o aumento nas horas de estudo e no numero de disciplinas esta fortemente associado a um melhor desempenho acadˆemico 1 Introducao No contexto atual compreender a relacao entre o numero de disciplinas cursadas e o desempenho dos alunos e crucial para decisoes estrategicas tanto para os profissionais de educacao quanto para as instituicoes de ensino Este estudo visa analisar como a variavel Numero de Disciplinas se relaciona com o Desempenho dos alunos com base nos dados de uma planilha de notas Neste estudo a variavel Desempenho sera a variavel resposta dependente enquanto Numero de Disciplinas sera a variavel explicativa independente Alem disso a variavel Sexo sera analisada como uma possıvel variavel categorica moderadora influenciando a relacao entre o numero de disciplinas e o desempenho Abaixo apresentamos uma breve visao geral dos nossos dados as 5 linhas iniciais de nosso dataset Sexo Numero de Tempo de Estudo Desempenho Masculino 3 4508 19202 Masculino 4 1096 7734 Masculino 4 3133 13811 Masculino 6 7909 53018 Masculino 8 7811 55299 A analise sera conduzida para entender melhor como o numero de disciplinas afeta o desempenho dos alunos e se existe uma diferenca significativa no impacto desse numero 3 em funcao do sexo dos alunos As tecnicas estatısticas aplicadas incluirao visualizacao de dados calculo da correlacao ajuste de modelos de regressao e testes de hipoteses para validar os pressupostos do modelo 2 Metodologia As tecnicas estatısticas que serao utilizadas neste estudo serao realizadas atraves de um relatorio gerado por macros e utilizando a linguagem Python e diversas bibliotecas que serao listadas nas referˆencias finais A metodologia adotada para a analise dos dados inclui as seguintes etapas Visualizacao Inicial Para obter uma primeira impressao da relacao entre as variaveis sera elaborado um grafico de dispersao dos dados Esta visualizacao pre liminar ajudara a observar a tendˆencia geral e a identificar padroes ou outliers potenciais Correlacao de Pearson A tecnica de Correlacao de Pearson1 sera aplicada para quantificar o grau de associacao linear entre as variaveis Numero de Disciplinas e Desempenho O coeficiente de correlacao de Pearson r indicara2 se existe uma correlacao positiva negativa ou nenhuma correlacao entre as variaveis em analise Regressao Linear Simples Sera ajustado um modelo de regressao linear sim ples para prever o Desempenho com base no Numero de Disciplinas O modelo de regressao tera a forma Desempenho β0 β1 Numero de Disciplinas ε 1 onde β0 e o intercepto β1 e o coeficiente de inclinacao e ε e o erro residual Esta analise permitira avaliar a relacao linear entre as variaveis e fazer previsoes baseadas no numero de disciplinas cursadas ANOVA Analise de Variˆancia Sera realizada uma Analise de Variˆancia para avaliar a significˆancia do modelo de regressao ajustado A ANOVA ajudara a de terminar se o modelo e estatisticamente significativo e se a variavel explicativa tem um impacto relevante sobre a variavel resposta Testes de Hipoteses A suposicao de normalidade dos resıduos e a homocedasti cidade serao verificadas por meio de graficos de resıduos e testes estatısticos como o teste de ShapiroWilk Estes testes sao fundamentais para validar os pressupostos do modelo de regressao e garantir a robustez dos resultados obtidos Essas analises fornecerao uma compreensao detalhada da magnitude e da significˆancia da relacao entre o numero de disciplinas e o desempenho dos alunos permitindo uma avaliacao mais precisa dos fatores que influenciam o desempenho acadˆemico 3 Estatısticas Descritivas por Sexo A tabela a seguir apresenta as estatısticas descritivas para os grupos masculino e feminino Estatıstica Masculino Feminino Media 2347990 2535548 Mediana 1933400 2138950 Desvio Padrao 1358757 1510800 Variˆancia 18462214315 22825156246 Coeficiente de Variacao 5787 5958 Tabela 2 Estatısticas Descritivas para os Grupos Masculino e Feminino 4 Analise dos Graficos Os graficos a seguir mostram a relacao entre o desempenho dos alunos e duas variaveis o numero de disciplinas e o tempo de estudo diario A analise inclui tambem a correlacao de Pearson entre as variaveis Figura 1 Graficos de Dispersao Desempenho vs Numero de Disciplinas e Desempenho vs Tempo de Estudo Diario O grafico de dispersao mostra a relacao entre o Desempenho e o Numero de Disciplinas Observase uma tendˆencia positiva sugerindo que a medida que o numero de disciplinas aumenta o desempenho tende a aumentar tambem As cores representam os diferentes gˆeneros sugerindo possıveis diferencas entre os grupos Coeficiente de correlacao de Pearson entre Desempenho e Numero de Disciplinas 04173 Direcao A correlacao e positiva o que significa que a medida que o numero de disciplinas aumenta o desempenho tende a aumentar Magnitude O valor de 04173 indica uma correlacao forte entre as variaveis suge rindo uma relacao linear consideravel entre o numero de disciplinas e o desempenho O grafico de dispersao3 mostra a relacao entre o Desempenho e o Tempo de Estudo Diario Observase uma tendˆencia positiva sugerindo que a medida que o tempo de estudo diario aumenta o desempenho tende a aumentar tambem As cores representam os diferentes gˆeneros sugerindo possıveis diferencas entre os grupos Coeficiente de correlacao de Pearson entre Desempenho e Tempo de Estudo Diario 09600 Direcao A correlacao e positiva o que significa que a medida que o tempo de estudo diario aumenta o desempenho tende a aumentar Magnitude O valor de 09600 indica uma correlacao forte entre as variaveis suge rindo uma relacao linear significativa entre o tempo de estudo diario e o desempenho 5 Analise dos Dados Nesta secao apresentamos os histogramas das variaveis Numero de Disciplinas Tempo de Estudo Diario e Desempenho seguidos de suas analises estatısticas 6 Histogramas e Analise Distribuicao do Numero de Disciplinas Figura 2 Distribuicao do Numero de Disciplinas Analise para Distribuicao do Numero de Disciplinas Media 529 Mediana 500 Desvio Padrao 180 Variˆancia 324 Coeficiente de Variacao 3402 O histograma mostra a distribuicao das disciplinas entre os alunos A media e 529 e a mediana e 500 indicando que a maioria dos alunos esta em torno desse numero de disciplinas O desvio padrao e 180 sugerindo uma variacao moderada O coeficiente de variacao de 3402 indica que ha uma variacao relativamente baixa em relacao a media 61 Distribuicao do Tempo de Estudo Diario Figura 3 Distribuicao do Tempo de Estudo Diario Analise para Distribuicao do Tempo de Estudo Diario Media 420205 Mediana 402200 Desvio Padrao 219344 Variˆancia 481117146 Coeficiente de Variacao 5220 O histograma revela como o tempo de estudo diario e distribuıdo entre os alunos A media e 420205 horas e a mediana e 402200 horas sugerindo que a maioria dos alunos estuda em torno desse valor O desvio padrao e 219344 mostrando uma alta variacao no tempo de estudo O coeficiente de variacao de 5220 indica uma variacao significativa em relacao a media Figura 4 Distribuicao do Desempenho 62 Distribuicao do Desempenho Analise para Distribuicao do Desempenho Media 2441769 Mediana 2005950 Desvio Padrao 1432620 Variˆancia 20523996549 Coeficiente de Variacao 5867 O histograma mostra a distribuicao do desempenho dos alunos A media e 2441769 e a mediana e 2005950 indicando que a maioria dos alunos tem um desempenho em torno desses valores O desvio padrao e 1432620 o que revela uma alta variacao no desempenho O coeficiente de variacao de 5867 sugere que ha uma grande variacao em relacao a media 7 Boxplot Nesta secao apresentamos a analise dos boxplots que comparam o Desempenho com o Numero de Disciplinas e o Tempo de Estudo Diario separados por gˆenero 71 Desempenho versus Numero de Disciplinas Figura 5 Desempenho versus Numero de Disciplinas por Gˆenero Analise do boxplot Desempenho versus Numero de Disciplinas por Gˆenero Para Masculino Estatısticas para Numero de Disciplinas count 50000000 mean 5020000 std 1708203 min 3000000 25 4000000 50 5000000 75 6000000 max 8000000 Name NumeroDisciplinas dtype float64 Estatısticas para Desempenho count 50000000 mean 23479900000 std 13587573115 min 6623000000 25 12765000000 50 19334000000 75 30383250000 max 55299000000 Name Desempenho dtype float64 Analise do boxplot para Masculino Mediana dos Desempenho 193340 Intervalo Interquartil IQR 1761825 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers Para Feminino Estatısticas para Numero de Disciplinas count 50000000 mean 5560000 std 1864381 min 3000000 25 4000000 50 6000000 75 7000000 max 8000000 Name NumeroDisciplinas dtype float64 Estatısticas para Desempenho count 50000000 mean 25355480000 std 15107996639 min 5609000000 25 12797250000 50 21389500000 75 39533500000 max 54321000000 Name Desempenho dtype float64 Analise do boxplot para Feminino Mediana dos Desempenho 213895 Intervalo Interquartil IQR 2673625 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers 72 Desempenho versus Tempo de Estudo Diario Figura 6 Desempenho versus Tempo de Estudo Diario por Gˆenero Analise do boxplot Desempenho versus Tempo de Estudo Diario por Gˆenero Para Masculino Estatısticas para Tempo de Estudo Diario count 50000000 mean 4169720000 std 2090042437 min 1096000000 25 2234250000 50 4030000000 75 5977000000 max 7909000000 Name TempoEstudoDiario dtype float64 Estatısticas para Desempenho count 50000000 mean 23479900000 std 13587573115 min 6623000000 25 12765000000 50 19334000000 75 30383250000 max 55299000000 Name Desempenho dtype float64 Analise do boxplot para Masculino Mediana dos Desempenho 193340 Intervalo Interquartil IQR 1761825 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers Para Feminino Estatısticas para Tempo de Estudo Diario count 50000000 mean 4234380000 std 2313032552 min 1009000000 25 2022000000 50 4007500000 75 6365750000 max 7957000000 Name TempoEstudoDiario dtype float64 Estatısticas para Desempenho count 50000000 mean 25355480000 std 15107996639 min 5609000000 25 12797250000 50 21389500000 75 39533500000 max 54321000000 Name Desempenho dtype float64 Analise do boxplot para Feminino Mediana dos Desempenho 213895 Intervalo Interquartil IQR 2673625 Valores extremos observados outliers e sua influˆencia Valores acima do 15IQR sao considerados outliers 73 Comparacao dos Boxplots por Gˆenero Figura 7 Comparacao dos Boxplots de Desempenho versus Numero de Disciplinas por Gˆenero Figura 8 Comparacao dos Boxplots de Desempenho versus Tempo de Estudo Diario por Gˆenero Analise Comparativa dos Boxplots Numero de Disciplinas Masculino A mediana dos desempenhos para o grupo masculino e de 193340 O intervalo interquartil IQR e de 1761825 Existe uma variacao consideravel no desempenho com a presenca de outliers significativos Feminino A mediana dos desempenhos para o grupo feminino e de 213895 O intervalo interquartil IQR e de 2673625 O grupo feminino tambem apresenta outliers mas com um intervalo interquar til maior comparado ao masculino indicando uma dispersao mais ampla dos dados Comparacao O grupo feminino tende a ter uma mediana de desempenho mais alta em com paracao ao masculino A variacao do desempenho e maior no grupo feminino como evidenciado pelo IQR mais amplo Os outliers sao presentes em ambos os gˆeneros mas o grupo feminino exibe uma gama mais ampla de desempenhos extremos Tempo de Estudo Diario Masculino A mediana dos desempenhos para o grupo masculino e de 193340 O intervalo interquartil IQR e de 1761825 Semelhante ao caso do numero de disciplinas ha a presenca de outliers notaveis Feminino A mediana dos desempenhos para o grupo feminino e de 213895 O intervalo interquartil IQR e de 2673625 O grupo feminino tambem apresenta uma faixa mais ampla de desempenhos extremos Comparacao Similar ao que foi observado com o numero de disciplinas o grupo feminino mostra uma mediana de desempenho superior ao masculino O intervalo interquartil IQR e novamente mais amplo no grupo feminino refletindo uma maior dispersao nos desempenhos Os outliers sao evidentes em ambos os gˆeneros com uma gama mais extensa no grupo feminino 8 Analise de Correlacao e Graficos Nesta secao apresentamos os graficos de dispersao e os resultados de correlacao de Pearson entre as variaveis de desempenho e outros fatores separados por gˆenero 81 Graficos de Dispersao Os seguintes graficos de dispersao mostram a relacao entre o Desempenho e as variaveis Numero de Disciplinas e Tempo de Estudo Diario para os gˆeneros Masculino e Feminino Figura 9 Desempenho vs Numero de Disciplinas Masculino Figura 10 Desempenho vs Tempo de Estudo Diario Masculino Figura 11 Desempenho vs Numero de Disciplinas Feminino Figura 12 Desempenho vs Tempo de Estudo Diario Feminino 82 Resultados de Correlacao de Pearson Abaixo estao os coeficientes de correlacao de Pearson entre Desempenho e as variaveis Numero de Disciplinas e Tempo de Estudo Diario para os gˆeneros Masculino e Feminino Gˆenero Desempenho vs Desempenho vs Gˆenero Numero de Disciplinas Tempo de Estudo Diario Masculino 03468 09560 Feminino 04676 09654 Tabela 3 Coeficiente de Correlacao de Pearson 83 Analise dos Graficos e Correlacoes Masculino A correlacao de Pearson entre Desempenho e Numero de Disciplinas e 03468 indi cando uma correlacao moderada A correlacao de Pearson entre Desempenho e Tempo de Estudo Diario e 09560 indicando uma correlacao muito forte Feminino A correlacao de Pearson entre Desempenho e Numero de Disciplinas e 04676 indi cando uma correlacao moderada A correlacao de Pearson entre Desempenho e Tempo de Estudo Diario e 09654 indicando uma correlacao muito forte 9 Analise de Variˆancia ANOVA Nesta secao apresentamos os resultados da analise de variˆancia ANOVA para avaliar se ha diferencas significativas no desempenho entre os grupos de gˆenero 91 Tabela de ANOVA A tabela abaixo mostra os resultados da ANOVA onde a variavel independente e o gˆenero Sexo e a variavel dependente e o desempenho Desempenho Fonte de Variacao Sum of Squares df F PValue CSexo 8794501 107 10 0426014 0515479 Residual 2023081 1010 980 Tabela 4 Resultado da ANOVA para Desempenho por Sexo 92 Analise dos Resultados Os resultados da ANOVA4 revelam o seguinte Sum of Squares Sumario dos Quadrados O somatorio dos quadrados para a variavel Sexo e 8794501 107 e para os resıduos e 2023081 1010 Graus de Liberdade df O gˆenero tem 1 grau de liberdade e os resıduos tˆem 98 graus de liberdade Valor de F F O valor de F calculado para a variavel Sexo e 0426014 Valor P PValue O valor P correspondente e 0515479 Interpretacao dos Resultados O valor de F 0426014 e o valor P 0515479 indicam que nao ha evidˆencias sufici entes para rejeitar a hipotese nula de que as medias dos desempenhos entre os diferentes gˆeneros sao iguais O valor P e maior que o nıvel de significˆancia usual por exemplo 005 o que sugere que as diferencas no desempenho entre gˆeneros nao sao estatisticamente significativas Portanto com base nos resultados da ANOVA nao encontramos evidˆencias suficientes para afirmar que o gˆenero influencia significativamente o desempenho 10 Resumo do Modelo de Regressao e Teste F Global 101 Resumo do Modelo de Regressao Estatıstica Valor Dep Variable Desempenho Rsquared 0966 Adj Rsquared 0966 Fstatistic 13970 Prob Fstatistic 312 1072 LogLikelihood 92864 No Observations 100 AIC 18630 Df Residuals 97 BIC 18710 Df Model 2 Covariance Type nonrobust Tabela 5 Resumo do modelo de regressao OLS para Desempenho 102 Coeficientes do Modelo Variavel Coeficiente Std Err t Pt Intervalo 95 Intercept 97663047 896704 10891 0000 11506596 7986596 NumeroDisciplinas 17286652 151751 11391 0000 1427481 2029849 TempoEstudoDiario 59588 0124 47863 0000 5712 6206 Tabela 6 Coeficientes do modelo de regressao OLS para Desempenho Diagnostico Valor Omnibus 45013 ProbOmnibus 0000 JarqueBera JB 8643 ProbJB 00133 Skew 0357 Kurtosis 1750 Cond No 162 104 Tabela 7 Diagnostico do modelo de regressao OLS Teste F pvalue df denom df num Teste F Global 139722 312 1072 97 2 Tabela 8 Resultado do Teste F Global para o modelo de regressao 103 Diagnostico do Modelo 104 Resultado do Teste F Global 105 Analise dos Resultados 1051 Resumo do Modelo de Regressao O resumo do modelo de regressao OLS revela um ajuste muito bom do modelo aos dados com um Rquadrado de 0966 e um Rquadrado ajustado tambem de 0966 Isso indica que o modelo explica aproximadamente 966 da variabilidade na variavel dependente Desempenho O valor elevado do Fstatistic 13970 e o pvalor extremamente baixo associado 312 1072 confirmam que o modelo e estatisticamente significativo 1052 Coeficientes do Modelo Os coeficientes do modelo sao todos estatisticamente significativos O Intercept e 97663047 indicando o valor estimado de Desempenho quando as variaveis explicativas sao zero NumeroDisciplinas tem um coeficiente de 17286652 sugerindo que cada unidade adicional de disciplinas esta associada a um aumento significativo no Desempenho TempoEstudoDiario tem um coeficiente de 59588 indicando que cada hora adicional de estudo diario esta fortemente associada a um aumento no Desempenho 1053 Diagnostico do Modelo O diagnostico do modelo mostra um numero de condicao elevado 162 104 sugerindo a presenca de multicolinearidade ou outros problemas numericos Alem disso o teste de normalidade dos resıduos Omnibus e JarqueBera indica que os resıduos podem nao seguir uma distribuicao normal o que pode afetar a validade das inferˆencias estatısticas 1054 Teste F Global O Teste F Global e usado para verificar a hipotese nula de que todos os coeficientes das variaveis explicativas sao iguais a zero A hipotese nula H0 afirma que nao ha relacao significativa entre as variaveis explicativas e o Desempenho A hipotese alternativa H1 afirma que pelo menos um dos coeficientes e diferente de zero indicando uma relacao significativa Com um valor de F de 139722 e um pvalor muito pequeno 312 1072 pode mos rejeitar a hipotese nula Isso indica que pelo menos uma das variaveis explicativas NumeroDisciplinas ou TempoEstudoDiario tem um efeito significativo no Desempenho 11 Conclusao Este estudo realiza uma analise estatıstica do desempenho acadˆemico de alunos consi derando a influˆencia do tempo de estudo diario e do numero de disciplinas cursadas O modelo de regressao linear ordinaria OLS foi ajustado para avaliar o impacto dessas variaveis no desempenho dos alunos diferenciando entre os sexos masculino e feminino Os resultados indicam que tanto o tempo de estudo diario quanto o numero de discipli nas tˆem efeitos significativos sobre o desempenho acadˆemico Especificamente para o grupo masculino o modelo revela uma forte correlacao positiva entre o tempo de estudo diario e o desempenho com um coeficiente de 59588 e uma correlacao tambem positiva com o numero de disciplinas com um coeficiente de 17286652 O modelo apresentou um Rquadrado de 0966 sugerindo que 966 da variabilidade no desempenho pode ser explicada pelas variaveis incluıdas no modelo Para o grupo feminino os coeficientes ob tidos sao igualmente significativos e positivos refletindo uma relacao semelhante com o desempenho O Teste F Global com um valor de F de 139722 e um pvalor extrema mente baixo 312 1072 confirma que pelo menos uma das variaveis explicativas tem um impacto significativo no desempenho acadˆemico Esses resultados indicam que tanto o tempo de estudo quanto o numero de disciplinas sao fatores relevantes para o desempenho sugerindo que estrategias para melhorar o desempenho acadˆemico devem considerar esses aspectos No entanto o diagnostico do modelo sugere a presenca de multicolinearidade e possıveis problemas com a normalidade dos resıduos que devem ser considerados em analises futuras 12 Referˆencias Referˆencias 1 De Veaux R D Velleman P F Bock D E Estatıstica Basica 5ª ed Pearson 2017 2 Daniel W W Bioestatıstica Teoria e Pratica 10ª ed Elsevier 2018 3 Triola M F Introducao a Estatıstica 13ª ed Pearson 2018 4 Sweigart A Automate the Boring Stuff with Python Practical Programming for Total Beginners 2ª ed No Starch Press 2019