· 2023/2
1
Análise de Regressão
UFRJ
1
Análise de Regressão
UFRJ
1
Análise de Regressão
UFRJ
1
Análise de Regressão
UFRJ
1
Análise de Regressão
UFSM
1
Análise de Regressão
CASTELLI ESH
12
Análise de Regressão
UFU
1
Análise de Regressão
CASTELLI ESH
1
Análise de Regressão
CASTELLI ESH
1
Análise de Regressão
UFSM
Texto de pré-visualização
Introdução: Este estudo tem como objetivo investigar a relação entre os preços de voos e duas variáveis-chave: a duração do voo e o número de dias faltando entre a data da reserva e a data da viagem. Diante da vasta gama de opções disponíveis no mercado de viagens aéreas, compreender como esses fatores influenciam os preços pode ser crucial para os consumidores e para a indústria. Utilizando uma abordagem analítica, buscamos explorar padrões e tendências que emergem dos dados fornecidos pela base de dados da Easemytrip, contendo informações sobre 300261 datapoints e 11 características relacionadas às reservas de voos entre as seis principais cidades metropolitanas da Índia. Objetivos: Nosso objetivo principal é realizar uma análise descritiva profunda da base de dados, destacando padrões de comportamento e relações entre as variáveis. Além disso, buscamos construir um modelo de regressão linear múltipla que nos permitirá quantificar a influência da duração do voo e do número de dias faltando na determinação dos preços de voos. Dessa forma, esperamos fornecer insights valiosos para viajantes e profissionais do setor, contribuindo para uma compreensão mais aprofundada dos fatores que impactam os custos das passagens aéreas. Revisão Bibliográfica Ueda (2012) utiliza um modelo de regressão linear com estimador de efeitos fixos para dados em painel com o objetivo de identificar padrões nos preços de passagens aéreas partindo de diferentes aeroportos em São Paulo. Os resultados indicam que, em média, os bilhetes aéreos de Congonhas são cerca de 5% mais caros em comparação com os voos de Guarulhos. A análise também destaca que a crise financeira global impactou de maneira distinta os dois aeroportos, e a sazonalidade influencia os preços, com passagens compradas no verão e inverno sendo mais caras em Guarulhos durante a alta estação. Além disso, bilhetes adquiridos com antecedência apresentam descontos mais expressivos em Guarulhos do que em Congonhas, proporcionando informações valiosas para viajantes ao considerarem o aeroporto de partida mais vantajoso em diferentes contextos econômicos e temporais. Metodologia - Materiais e Métodos: A base de dados utilizada neste estudo foi obtida a partir do website Easemytrip, contendo informações sobre 300261 reservas de voos entre as principais cidades metropolitanas da Índia. As variáveis analisadas incluem a duração do voo, o número de dias faltando entre a data da reserva e a data da viagem, e os preços dos voos. A duração do voo é uma característica contínua que representa o tempo total de viagem entre as cidades em horas, enquanto os dias faltando são derivados da diferença entre a data da viagem e a data da reserva. Para a análise descritiva, utilizaremos recursos estatísticos para descrever a distribuição e variabilidade das variáveis, explorando possíveis relações entre elas. No contexto da regressão linear múltipla, incluiremos a duração do voo e os dias faltando como covariáveis, enquanto os preços dos voos serão a variável resposta. Avaliaremos a qualidade do ajuste do modelo por meio de métricas como R² e realizaremos verificações dos pressupostos, como a normalidade dos resíduos, para assegurar a validade das inferências derivadas do modelo Resultados e Discussão O resumo estatístico dos dados é mostrado abaixo: A correlação entre as variáveis possui os seguintes valores: O modelo ajustado retornou os seguintes resultados: Os resultados permitem a seguinte interpretação: O modelo ajustado é representado pela seguinte equação: Preço = 16799.600 - 140,730*Dias Faltando + 634,130*Duração O coeficiente associado a Dias Faltando é -140.730. Isso significa que, mantendo a duração constante, a cada dia adicional restante antes da viagem, espera-se que o preço diminua em média 140,730 unidades monetárias. O coeficiente associado a Duração é 634.130. Isso indica que, mantendo o número de dias restantes constante, para cada hora adicional de duração do voo, espera-se que o preço aumente em média 634,130 unidades monetárias. Todos os coeficientes têm p-valores muito pequenos (próximos de zero), indicando uma forte evidência estatística de que esses coeficientes são diferentes de zero. O R² é 0.04877, o que significa que aproximadamente 4.88% da variabilidade nos preços é explicada pelas variáveis explicativas incluídas no modelo. Embora o R² seja relativamente baixo, isso sugere que há outras variáveis não incluídas no modelo que também influenciam os preços. O F-statistic é 7694 com um p-value muito pequeno < 2.2e-16, indicando que o modelo como um todo é estatisticamente significativo. O Gráfico Residuals vs. Fitted é mostrado abaixo: Observa-se pelo padrão do gráfico que existe uma variação nos erros. Além disso, o histograma dos resíduos é mostrado abaixo: É possível ver uma grande assimetria nos resíduos, que possuem um padrão à direita de zero, e outro padrão à esquerda de zero. Por fim, o QQ-plot é mostrado abaixo: Observa-se que os valores possuem grandes desvios da linha da diagonal principal. O teste de Anderson-Darling resultou nos seguintes valores: O resultado do teste de Anderson-Darling sugere fortemente que os resíduos não seguem uma distribuição normal. O valor-p muito pequeno indica uma rejeição clara da hipótese nula de normalidade. Isso sugere que os resíduos do modelo não estão consistentes com uma distribuição normal. Conclusão Neste estudo, buscamos compreender a relação entre os preços de voos e as variáveis da duração do voo e o número de dias faltando entre a reserva e a viagem, utilizando uma base de dados da Easemytrip com informações de 300261 reservas entre as principais cidades metropolitanas da Índia. Ao realizar uma análise descritiva, observamos padrões e tendências nos dados, evidenciando correlações significativas entre as variáveis estudadas. Posteriormente, construímos um modelo de regressão linear múltipla, visando quantificar a influência da duração do voo e do número de dias faltando nos preços dos voos. Os resultados do modelo revelaram que ambas as variáveis explicativas são estatisticamente significativas. O coeficiente associado aos dias faltando indica que, mantendo a duração constante, um dia adicional antes da viagem está associado a uma diminuição média de 140,730 unidades monetárias nos preços. Já o coeficiente associado à duração sugere que, mantendo os dias faltando constantes, cada hora adicional de voo está associada a um aumento médio de 634,130 unidades monetárias nos preços. Entretanto, a capacidade do modelo em explicar a variabilidade dos preços é limitada, com um R² de 4.88%. Além disso, a análise dos resíduos indicou possíveis violações dos pressupostos da regressão linear, como heterocedasticidade e desvios significativos da normalidade. Especificamente, o gráfico de Residuals vs. Fitted revelou um padrão de variação nos erros, o histograma dos resíduos apresentou assimetria e o QQ-plot exibiu desvios da linha diagonal. O teste de Anderson-Darling reforçou as conclusões visuais, indicando fortemente que os resíduos não seguem uma distribuição normal. Portanto, embora o modelo tenha fornecido insights valiosos sobre as relações entre as variáveis, a presença de padrões nos resíduos sugere que o modelo pode não ser totalmente adequado. Recomenda-se uma análise mais aprofundada, considerando transformações nos dados ou a inclusão de outras variáveis relevantes para melhorar a capacidade preditiva do modelo. Essas conclusões são essenciais para garantir interpretações mais confiáveis e robustas das relações exploradas. Referências UEDA, Thiago Vinicius Alves. Partir do aeroporto de Congonhas é mais caro que de Guarulhos? Um estudo econométrico dos preços das passagens aéreas. Journal of Transport Literature, v. 6, p. 122-135, 2012. Trabalho Final de Modelos Lineares Grupos: Até 4 pessoas. Entrega: 07/12. 1)- Escolham uma base de dados para um estudo descritivo e construção de um modelo de regressão linear múltipla, por exemplo nos sites https://ces.ibge.gov.br/base-de-dados/links-base-de-dados.html, http://www2.datasus.gov.br/DATASUS/index.php?area=0901, http://www.ipeadata.gov.br/Default.aspx e https://opendata.paho.org/es/indicadores-basicos/descarga-datos por exemplo é possível ter acesso a várias bases. 2)- Selecionem variáveis de interesse para a análise e justifiquem as suas escolhas. 3)- O relatório final deve ser dividido em: Introdução – Na introdução vocês devem escrever um problema que será investigado utilizando a análise descritiva da base de dados escolhida. Exemplo: Análise das taxas de morte por acidentes de transito. Existem variações nas regiões do brasil? Por sexo? Por idade? Objetivo- No objetivo vocês devem escrever o que vocês pretendem com a análise descritiva e o modelo de regressão linear multipla. Exemplo: Dimensionar as variações das taxas de morte por região, sexo e idade e investigar os fatores associados a morte por acidentes de transito. Revisão bibliográfica- Descrever brevemente estudos que já trataram do mesmo problema que você formulou, ou informações que sejam conhecidas sobre o problema. Materiais e Métodos- Nos métodos vocês devem escrever sobre a base de dados escolhida: Dar informações sobre a fonte, como ela foi coletada, apresentar as variáveis contidas na base e o significado de cada uma delas. Quais as variáveis vocês irão descrever, relações que irão explorar e os recursos da estatística descritiva que irão utilizar. Quais variáveis vocês irão incluir no modelo, qual a variável resposta e quais as covariaveis. Como irão verificar a qualidade do ajuste do modelo, checar os pressupostos e avaliar a multicolinearidade Resultados e Discussão- Nessa seção vocês devem escrever os resultados da análise descritiva e modelos ajustados e discutir à luz de tudo que vocês aprenderam na revisão bibliográfica. Seus resultados vão ao encontro do que já se sabe sobre o tema ou dizem algo novo? Porque? Referências- Referências utilizadas no trabalho. Modelo de Relatório: 1-Introdução (Nessa seção faz-se uma apresentação/contextualização do problema e descreve-se como está organizado o relatório) Por exemplo Suponha que vocês coletaram informações sobre os alunos de estatística e atuaria que já fizeram a disciplina. A introdução precisa detalhar os seguintes elementos: “ Neste trabalho temos o objetivo de traçar o perfil dos estudantes ... e auxiliar na identificação dos fatores associados a aprendizagem da disciplina. Na seção 2 descrevemos o universo de estudo e a forma como foram obtidos os dados. Na seção 3 apresentamos os resultados, por fim, na seção 4, tecemos nossas conclusões sobre o problema abordado. “ 2- Revisão bibliográfica Descrever brevemente estudos que já trataram do mesmo problema que você formulou, ou informações que sejam conhecidas sobre o problema. 3 - Materiais e métodos Nessa seção, descreve-se o universo de estudo: População, variáveis e parâmetros de interesse. Além disso, apresenta-se como foram coletados os dados, forma de seleção dos indivíduos e instrumento de pesquisa. No exemplo da pesquisa supracitada, essa secao precisa ter os seguintes elementos: “ O universo de estudo é composto pelos alunos matriculados na disciplina estatística, oferecida no turno da noite. As seguintes variáveis serão analisadas: 1- Idade 2- Gênero 3- CRE (Coeficiente de rendimento escolar) 4- Trabalha 5- Filhos 6- Tipo de escola que concluiu o ensino médio 7- Horas de estudo fora da sala de aula 8- Número de livros lidos ano passado 9- Frequência que utiliza a biblioteca 10- Nível de conhecimento em língua inglesa e 11- Nota na disciplina Com o objetivo de traçar o perfil dos alunos da disciplina e identificar fatores associados com o rendimento na disciplina foi realizada a analise descritiva através de tabelas e gráficos e avaliadas com relação à medidas descritivas, tais como média, mediana, desvio padrão, coeficiente de variação, etc... Modelos de regressão linear múltiplo foram ajustados para identificar fatores associados As notas na disciplina. Analise gráfica dos resíduos foi considerada para avaliar o ajuste do modelo e adequação as hipóteses. Testes como teste de Shapiro wilk e o teste.... foram utilizados. Analise dos fatores de interação e multicolinearidade foi realizada para a construção do modelo final.” 4- Resultados 4.1 - Análises descritivas dos dados (Nessa seção apresentam-se, sempre acompanhadas por comentários, as tabelas e gráficos construídos assim como as medidas descritivas obtidas, tabelas com o resultado dos modelos e analise dos resíduos...) No exemplo supracitado poderíamos ter os seguintes resultados “O conjunto de dados analisados consiste de informações de 37 alunos obtidas através da aplicação do questionário em anexo. Embora o número de alunos matriculados na disciplina estatística aplicada a educação seja de 52 alunos, não foi possível obter a informação de todos os alunos, pois alguns alunos faltaram o primeiro dia de aula e outros não quiseram responder ao questionário. A tabela 1 apresenta as medidas descritivas das variaveis no tempo, considerando a media, mediana...desvio padrão das observações em uma semana (mês, ano...). Na Figura 1, vemos as trajeotrias de evolução das variáveis ao longo do tempo.” 4.2 – Resultados da Predição Aqui podem ser mostrados os resultados da predição do modelo e medidas de desempenho do modelo nos dados de teste (vocês podem dividir a base de dados em 75% para construção do modelo e 25% para o teste e avaliar o erro quadrático médio na predicao, você podem também usar outra porcentagem de divisão dos dados). 5- Conclusão (Faz-se uma síntese dos resultados, apresentando a conclusão extraída do estudo.) Podemos concluir que os alunos matriculados na disciplina possuem idades não muito parecidas, mas em torno dos 26 e 28 anos, apresentam comportamentos diversos no que diz respeito à dedicação aos estudos fora da universidade e ao número de livros que leram ano passado. Estes alunos possuem Coeficiente de Rendimento Escolar médio alto e com pouquíssima variabilidade, em torno da média 8,2. A turma é composta praticamente por mulheres, existindo apenas um homem. A maioria delas atualmente está trabalhando e não têm filhos. A evolução das variáveis no tempo apresentou um aumento considerável na terceira (semana/mês/ano...) para a variável 1 e na segunda semana para a variavel2... Os resultados do modelo final indicou um bom ajuste aos dados com coeficiente de determinação de ... a analise de resíduos não indicou violação nas hipóteses do modelo e as variáveis associadas com o rendimento na disciplina foram idade, sexo, se trabalha ou não atualmente. Nenhuma interação foi relevante para ser incluída no modelo final.
1
Análise de Regressão
UFRJ
1
Análise de Regressão
UFRJ
1
Análise de Regressão
UFRJ
1
Análise de Regressão
UFRJ
1
Análise de Regressão
UFSM
1
Análise de Regressão
CASTELLI ESH
12
Análise de Regressão
UFU
1
Análise de Regressão
CASTELLI ESH
1
Análise de Regressão
CASTELLI ESH
1
Análise de Regressão
UFSM
Texto de pré-visualização
Introdução: Este estudo tem como objetivo investigar a relação entre os preços de voos e duas variáveis-chave: a duração do voo e o número de dias faltando entre a data da reserva e a data da viagem. Diante da vasta gama de opções disponíveis no mercado de viagens aéreas, compreender como esses fatores influenciam os preços pode ser crucial para os consumidores e para a indústria. Utilizando uma abordagem analítica, buscamos explorar padrões e tendências que emergem dos dados fornecidos pela base de dados da Easemytrip, contendo informações sobre 300261 datapoints e 11 características relacionadas às reservas de voos entre as seis principais cidades metropolitanas da Índia. Objetivos: Nosso objetivo principal é realizar uma análise descritiva profunda da base de dados, destacando padrões de comportamento e relações entre as variáveis. Além disso, buscamos construir um modelo de regressão linear múltipla que nos permitirá quantificar a influência da duração do voo e do número de dias faltando na determinação dos preços de voos. Dessa forma, esperamos fornecer insights valiosos para viajantes e profissionais do setor, contribuindo para uma compreensão mais aprofundada dos fatores que impactam os custos das passagens aéreas. Revisão Bibliográfica Ueda (2012) utiliza um modelo de regressão linear com estimador de efeitos fixos para dados em painel com o objetivo de identificar padrões nos preços de passagens aéreas partindo de diferentes aeroportos em São Paulo. Os resultados indicam que, em média, os bilhetes aéreos de Congonhas são cerca de 5% mais caros em comparação com os voos de Guarulhos. A análise também destaca que a crise financeira global impactou de maneira distinta os dois aeroportos, e a sazonalidade influencia os preços, com passagens compradas no verão e inverno sendo mais caras em Guarulhos durante a alta estação. Além disso, bilhetes adquiridos com antecedência apresentam descontos mais expressivos em Guarulhos do que em Congonhas, proporcionando informações valiosas para viajantes ao considerarem o aeroporto de partida mais vantajoso em diferentes contextos econômicos e temporais. Metodologia - Materiais e Métodos: A base de dados utilizada neste estudo foi obtida a partir do website Easemytrip, contendo informações sobre 300261 reservas de voos entre as principais cidades metropolitanas da Índia. As variáveis analisadas incluem a duração do voo, o número de dias faltando entre a data da reserva e a data da viagem, e os preços dos voos. A duração do voo é uma característica contínua que representa o tempo total de viagem entre as cidades em horas, enquanto os dias faltando são derivados da diferença entre a data da viagem e a data da reserva. Para a análise descritiva, utilizaremos recursos estatísticos para descrever a distribuição e variabilidade das variáveis, explorando possíveis relações entre elas. No contexto da regressão linear múltipla, incluiremos a duração do voo e os dias faltando como covariáveis, enquanto os preços dos voos serão a variável resposta. Avaliaremos a qualidade do ajuste do modelo por meio de métricas como R² e realizaremos verificações dos pressupostos, como a normalidade dos resíduos, para assegurar a validade das inferências derivadas do modelo Resultados e Discussão O resumo estatístico dos dados é mostrado abaixo: A correlação entre as variáveis possui os seguintes valores: O modelo ajustado retornou os seguintes resultados: Os resultados permitem a seguinte interpretação: O modelo ajustado é representado pela seguinte equação: Preço = 16799.600 - 140,730*Dias Faltando + 634,130*Duração O coeficiente associado a Dias Faltando é -140.730. Isso significa que, mantendo a duração constante, a cada dia adicional restante antes da viagem, espera-se que o preço diminua em média 140,730 unidades monetárias. O coeficiente associado a Duração é 634.130. Isso indica que, mantendo o número de dias restantes constante, para cada hora adicional de duração do voo, espera-se que o preço aumente em média 634,130 unidades monetárias. Todos os coeficientes têm p-valores muito pequenos (próximos de zero), indicando uma forte evidência estatística de que esses coeficientes são diferentes de zero. O R² é 0.04877, o que significa que aproximadamente 4.88% da variabilidade nos preços é explicada pelas variáveis explicativas incluídas no modelo. Embora o R² seja relativamente baixo, isso sugere que há outras variáveis não incluídas no modelo que também influenciam os preços. O F-statistic é 7694 com um p-value muito pequeno < 2.2e-16, indicando que o modelo como um todo é estatisticamente significativo. O Gráfico Residuals vs. Fitted é mostrado abaixo: Observa-se pelo padrão do gráfico que existe uma variação nos erros. Além disso, o histograma dos resíduos é mostrado abaixo: É possível ver uma grande assimetria nos resíduos, que possuem um padrão à direita de zero, e outro padrão à esquerda de zero. Por fim, o QQ-plot é mostrado abaixo: Observa-se que os valores possuem grandes desvios da linha da diagonal principal. O teste de Anderson-Darling resultou nos seguintes valores: O resultado do teste de Anderson-Darling sugere fortemente que os resíduos não seguem uma distribuição normal. O valor-p muito pequeno indica uma rejeição clara da hipótese nula de normalidade. Isso sugere que os resíduos do modelo não estão consistentes com uma distribuição normal. Conclusão Neste estudo, buscamos compreender a relação entre os preços de voos e as variáveis da duração do voo e o número de dias faltando entre a reserva e a viagem, utilizando uma base de dados da Easemytrip com informações de 300261 reservas entre as principais cidades metropolitanas da Índia. Ao realizar uma análise descritiva, observamos padrões e tendências nos dados, evidenciando correlações significativas entre as variáveis estudadas. Posteriormente, construímos um modelo de regressão linear múltipla, visando quantificar a influência da duração do voo e do número de dias faltando nos preços dos voos. Os resultados do modelo revelaram que ambas as variáveis explicativas são estatisticamente significativas. O coeficiente associado aos dias faltando indica que, mantendo a duração constante, um dia adicional antes da viagem está associado a uma diminuição média de 140,730 unidades monetárias nos preços. Já o coeficiente associado à duração sugere que, mantendo os dias faltando constantes, cada hora adicional de voo está associada a um aumento médio de 634,130 unidades monetárias nos preços. Entretanto, a capacidade do modelo em explicar a variabilidade dos preços é limitada, com um R² de 4.88%. Além disso, a análise dos resíduos indicou possíveis violações dos pressupostos da regressão linear, como heterocedasticidade e desvios significativos da normalidade. Especificamente, o gráfico de Residuals vs. Fitted revelou um padrão de variação nos erros, o histograma dos resíduos apresentou assimetria e o QQ-plot exibiu desvios da linha diagonal. O teste de Anderson-Darling reforçou as conclusões visuais, indicando fortemente que os resíduos não seguem uma distribuição normal. Portanto, embora o modelo tenha fornecido insights valiosos sobre as relações entre as variáveis, a presença de padrões nos resíduos sugere que o modelo pode não ser totalmente adequado. Recomenda-se uma análise mais aprofundada, considerando transformações nos dados ou a inclusão de outras variáveis relevantes para melhorar a capacidade preditiva do modelo. Essas conclusões são essenciais para garantir interpretações mais confiáveis e robustas das relações exploradas. Referências UEDA, Thiago Vinicius Alves. Partir do aeroporto de Congonhas é mais caro que de Guarulhos? Um estudo econométrico dos preços das passagens aéreas. Journal of Transport Literature, v. 6, p. 122-135, 2012. Trabalho Final de Modelos Lineares Grupos: Até 4 pessoas. Entrega: 07/12. 1)- Escolham uma base de dados para um estudo descritivo e construção de um modelo de regressão linear múltipla, por exemplo nos sites https://ces.ibge.gov.br/base-de-dados/links-base-de-dados.html, http://www2.datasus.gov.br/DATASUS/index.php?area=0901, http://www.ipeadata.gov.br/Default.aspx e https://opendata.paho.org/es/indicadores-basicos/descarga-datos por exemplo é possível ter acesso a várias bases. 2)- Selecionem variáveis de interesse para a análise e justifiquem as suas escolhas. 3)- O relatório final deve ser dividido em: Introdução – Na introdução vocês devem escrever um problema que será investigado utilizando a análise descritiva da base de dados escolhida. Exemplo: Análise das taxas de morte por acidentes de transito. Existem variações nas regiões do brasil? Por sexo? Por idade? Objetivo- No objetivo vocês devem escrever o que vocês pretendem com a análise descritiva e o modelo de regressão linear multipla. Exemplo: Dimensionar as variações das taxas de morte por região, sexo e idade e investigar os fatores associados a morte por acidentes de transito. Revisão bibliográfica- Descrever brevemente estudos que já trataram do mesmo problema que você formulou, ou informações que sejam conhecidas sobre o problema. Materiais e Métodos- Nos métodos vocês devem escrever sobre a base de dados escolhida: Dar informações sobre a fonte, como ela foi coletada, apresentar as variáveis contidas na base e o significado de cada uma delas. Quais as variáveis vocês irão descrever, relações que irão explorar e os recursos da estatística descritiva que irão utilizar. Quais variáveis vocês irão incluir no modelo, qual a variável resposta e quais as covariaveis. Como irão verificar a qualidade do ajuste do modelo, checar os pressupostos e avaliar a multicolinearidade Resultados e Discussão- Nessa seção vocês devem escrever os resultados da análise descritiva e modelos ajustados e discutir à luz de tudo que vocês aprenderam na revisão bibliográfica. Seus resultados vão ao encontro do que já se sabe sobre o tema ou dizem algo novo? Porque? Referências- Referências utilizadas no trabalho. Modelo de Relatório: 1-Introdução (Nessa seção faz-se uma apresentação/contextualização do problema e descreve-se como está organizado o relatório) Por exemplo Suponha que vocês coletaram informações sobre os alunos de estatística e atuaria que já fizeram a disciplina. A introdução precisa detalhar os seguintes elementos: “ Neste trabalho temos o objetivo de traçar o perfil dos estudantes ... e auxiliar na identificação dos fatores associados a aprendizagem da disciplina. Na seção 2 descrevemos o universo de estudo e a forma como foram obtidos os dados. Na seção 3 apresentamos os resultados, por fim, na seção 4, tecemos nossas conclusões sobre o problema abordado. “ 2- Revisão bibliográfica Descrever brevemente estudos que já trataram do mesmo problema que você formulou, ou informações que sejam conhecidas sobre o problema. 3 - Materiais e métodos Nessa seção, descreve-se o universo de estudo: População, variáveis e parâmetros de interesse. Além disso, apresenta-se como foram coletados os dados, forma de seleção dos indivíduos e instrumento de pesquisa. No exemplo da pesquisa supracitada, essa secao precisa ter os seguintes elementos: “ O universo de estudo é composto pelos alunos matriculados na disciplina estatística, oferecida no turno da noite. As seguintes variáveis serão analisadas: 1- Idade 2- Gênero 3- CRE (Coeficiente de rendimento escolar) 4- Trabalha 5- Filhos 6- Tipo de escola que concluiu o ensino médio 7- Horas de estudo fora da sala de aula 8- Número de livros lidos ano passado 9- Frequência que utiliza a biblioteca 10- Nível de conhecimento em língua inglesa e 11- Nota na disciplina Com o objetivo de traçar o perfil dos alunos da disciplina e identificar fatores associados com o rendimento na disciplina foi realizada a analise descritiva através de tabelas e gráficos e avaliadas com relação à medidas descritivas, tais como média, mediana, desvio padrão, coeficiente de variação, etc... Modelos de regressão linear múltiplo foram ajustados para identificar fatores associados As notas na disciplina. Analise gráfica dos resíduos foi considerada para avaliar o ajuste do modelo e adequação as hipóteses. Testes como teste de Shapiro wilk e o teste.... foram utilizados. Analise dos fatores de interação e multicolinearidade foi realizada para a construção do modelo final.” 4- Resultados 4.1 - Análises descritivas dos dados (Nessa seção apresentam-se, sempre acompanhadas por comentários, as tabelas e gráficos construídos assim como as medidas descritivas obtidas, tabelas com o resultado dos modelos e analise dos resíduos...) No exemplo supracitado poderíamos ter os seguintes resultados “O conjunto de dados analisados consiste de informações de 37 alunos obtidas através da aplicação do questionário em anexo. Embora o número de alunos matriculados na disciplina estatística aplicada a educação seja de 52 alunos, não foi possível obter a informação de todos os alunos, pois alguns alunos faltaram o primeiro dia de aula e outros não quiseram responder ao questionário. A tabela 1 apresenta as medidas descritivas das variaveis no tempo, considerando a media, mediana...desvio padrão das observações em uma semana (mês, ano...). Na Figura 1, vemos as trajeotrias de evolução das variáveis ao longo do tempo.” 4.2 – Resultados da Predição Aqui podem ser mostrados os resultados da predição do modelo e medidas de desempenho do modelo nos dados de teste (vocês podem dividir a base de dados em 75% para construção do modelo e 25% para o teste e avaliar o erro quadrático médio na predicao, você podem também usar outra porcentagem de divisão dos dados). 5- Conclusão (Faz-se uma síntese dos resultados, apresentando a conclusão extraída do estudo.) Podemos concluir que os alunos matriculados na disciplina possuem idades não muito parecidas, mas em torno dos 26 e 28 anos, apresentam comportamentos diversos no que diz respeito à dedicação aos estudos fora da universidade e ao número de livros que leram ano passado. Estes alunos possuem Coeficiente de Rendimento Escolar médio alto e com pouquíssima variabilidade, em torno da média 8,2. A turma é composta praticamente por mulheres, existindo apenas um homem. A maioria delas atualmente está trabalhando e não têm filhos. A evolução das variáveis no tempo apresentou um aumento considerável na terceira (semana/mês/ano...) para a variável 1 e na segunda semana para a variavel2... Os resultados do modelo final indicou um bom ajuste aos dados com coeficiente de determinação de ... a analise de resíduos não indicou violação nas hipóteses do modelo e as variáveis associadas com o rendimento na disciplina foram idade, sexo, se trabalha ou não atualmente. Nenhuma interação foi relevante para ser incluída no modelo final.