·
Ciências Contábeis ·
Estatística Aplicada para Finanças
Send your question to AI and receive an answer instantly
Recommended for you
41
Lista de Estátistica
Estatística Aplicada para Finanças
UFRJ
14
Introdução à Estatística Descritiva
Estatística Aplicada para Finanças
UMG
18
Estrutura a Termo de Contratos Forward e Futuros- Conceitos e Aplicações
Estatística Aplicada para Finanças
UMG
13
Precificação pelo Momento de Segunda a Quarta Ordem em Finanças
Estatística Aplicada para Finanças
UMG
23
Análise de Regressão
Estatística Aplicada para Finanças
UMG
54
Métodos de Avaliação de Ações: Desconto de Dividendos e Análise Fundamentalista
Estatística Aplicada para Finanças
UFMS
1
Estatística Financeira
Estatística Aplicada para Finanças
UECE
17
Avaliação de Risco de Crédito: Entendendo o Rating e Seu Impacto
Estatística Aplicada para Finanças
UMG
52
Acordos de Basileia: Evolução e Gestão de Riscos no Sistema Financeiro
Estatística Aplicada para Finanças
UMG
12
Estatística Aplicada a Negócios: Introdução à Probabilidade
Estatística Aplicada para Finanças
UMG
Preview text
Sobre o conjunto de dados Este conjunto de dados compreende 10064 amostras de dados de alunos cada uma contendo 35 recursos incluindo informações demográficas métricas de desempenho acadêmico fatores sociais e atributos de estilo de vida É importante porque nos ajuda a entender quais fatores afetam o desempenho dos alunos na escola Com o aprendizado de máquina podemos prever o desempenho dos alunos descobrir quais alunos podem precisar de ajuda extra e projetar melhores maneiras de apoiálos Este conjunto de dados é útil para tomar decisões sobre políticas educacionais criar planos de aprendizagem personalizados e descobrir como coisas como histórico familiar ou estilo de vida afetam a educação de um aluno Ao usar técnicas de análise e previsão de dados podemos tornar a escolaridade melhor para alunos de todos os tipos de origens Fearures Descrição Idade A idade do aluno Gênero O gênero do aluno M para Masculino F para Feminino Educação Parental O nível mais alto de educação alcançado pelos pais do aluno Renda Familiar O nível de renda familiar Notas Anteriores O desempenho acadêmico anterior do aluno notas A B ou C Frequência A porcentagem de frequência nas aulas Participação nas Aulas O nível de participação nas atividades de aula Baixo Médio ou Alto Horas de Estudo O número médio de horas de estudo por semana Especialização A especialização ou área de estudo do aluno Tipo de Universidade O tipo de universidade frequentada Pública ou Privada Situação Financeira A situação financeira do aluno Baixa Média ou Alta Envolvimento Parental O nível de envolvimento dos pais na educação do aluno Baixo Médio ou Alto Recursos Educacionais Disponibilidade de recursos educacionais em casa Sim ou Não Motivação O nível de motivação para os estudos Baixo Médio ou Alto SelfEsteem O nível de autoestima baixo médio ou alto StressLevels O nível de estresse experimentado pelo aluno baixo médio ou alto SchoolEnvironment Percepção do ambiente escolar negativo neutro ou positivo ProfessorQuality A qualidade dos professores baixo médio ou alto ClassSize O tamanho da classe ExtracurricularActivities Participação em atividades extracurriculares sim ou não SleepPatterns Média de horas de sono por dia Nutrition A qualidade da nutrição não saudável equilibrada ou saudável PhysicalActivity Nível de atividade física baixo médio ou alto ScreenTime Horas gastas em atividades baseadas em tela por dia EducationalTechUse Uso de tecnologia educacional sim ou não PeerGroup Percepção da influência do grupo de pares negativa neutra ou positiva Bullying Experiência de bullying sim ou não StudySpace Disponibilidade de um espaço de estudo dedicado em casa Sim ou Não LearningStyle Estilo de aprendizagem preferido Visual Auditivo ou Cinestésico Tutoria Participação em programas de tutoria Sim ou Não Mentoria Disponibilidade de suporte de mentoria Sim ou Não LackofInterest Nível de interesse em acadêmicos Baixo Médio ou Alto TimeWastedonSocialMedia Tempo gasto em plataformas de mídia social SportsParticipation Nível de participação em atividades esportivas baixo médio ou alto Grades As notas finais alcançadas pelo aluno A B ou C Análise de Regressão Linear Aplicada aos Gastos Médicos em Re lação à Idade e IMC Aluno Jean Alves Lopes Este relatório apresenta uma análise de regressão linear com o objetivo de identificar e prever as relações entre os gastos médicos de indivíduos e variáveis independentes como idade e índice de massa corporal IMC O conjunto de dados utilizado contém informações de 1338 indivíduos incluindo variáveis como idade sexo IMC número de filhos hábito de fumar região e gastos médicos anuais O principal propósito deste estudo é compreender como a idade e o IMC influenciam os gastos médicos bem como avaliar a adequação de diferentes modelos de regressão considerando transformações nos dados e a remoção de outliers A análise busca fornecer insights que possam ser utilizados para prever gastos médicos e auxiliar na tomada de decisões em contextos de saúde pública e seguros Desenvolvimento Preparação dos Dados Inicialmente foram carregados os pacotes necessários para a análise incluindo bibliotecas para manipulação de dados visualização gráfica e modelagem estatística O conjunto de dados foi importado do arquivo DOC20241005WA0096csv e submetido a um processo de limpeza e preparação As variáveis bmi e charges foram convertidas para o formato numérico substituindo vírgulas por pontos decimais As variáveis categóricas smoker e sex foram transformadas em fatores com níveis apropriados Análise Descritiva Foi realizada uma análise descritiva das variáveis numéricas age bmi children e charges Os resultados indicam que a idade dos indivíduos varia de 18 a 64 anos com média de 3921 anos O IMC varia de 1596 a 5313 com média de 3066 O número de filhos varia de 0 a 5 e os gastos médicos anuais variam de 1122 a 63770 com média de 13270 Tabela 1 Estatísticas Descritivas das Variáveis Numéricas Variável Mínimo 1º Quartil Mediana Média 3º Quartil Máximo Idade 1800 2700 3900 3921 5100 6400 IMC 1596 2630 3040 3066 3469 5313 Filhos 0 0 1 109 2 5 Gastos 1122 4740 9382 13270 16640 63770 As variáveis categóricas sex smoker e region foram analisadas quanto às suas frequências Observouse que a distribuição entre os sexos é equilibrada com 4948 de indivíduos do sexo feminino e 5052 do masculino A maioria dos indivíduos não é fumante 7952 e a distribuição regional é relativamente uniforme entre as quatro regiões presentes nos dados Visualização dos Dados Foram elaborados boxplots para comparar a distribuição do IMC e dos gastos médicos entre fumantes e não fumantes Observase que fumantes tendem a apresentar gastos médicos significativamente maiores em comparação com não fumantes indicando uma possível influência do hábito de fumar nos custos médicos Uma matriz de correlação foi calculada para as variáveis numéricas permitindo visualizar as correlações existentes entre elas 1 Figure 1 Relações das variáveis Hábito de fumar Tabela 2 Matriz de Correlação das Variáveis Numéricas Age BMI Children Charges Age 1000 0109 0043 0299 BMI 0109 1000 0012 0198 Children 0043 0012 1000 0068 Charges 0299 0198 0068 1000 Figure 2 Análise descritiva mais avançada 2 Análise de Outliers Foi realizada uma análise para identificar outliers nas variáveis age charges e bmi utilizando o método do intervalo interquartil IQR Os limites inferiores e superiores para detecção de outliers foram calculados e a quantidade de outliers identificados em cada variável foi resumida Tabela 3 Resumo da Análise de Outliers Variável Total de Observações Número de Outliers de Outliers Limite Inferior Limite Superior Mínimo Máximo Idade 1338 0 000 900 8700 1800 6400 Gastos Médicos 1338 139 1039 1310915 3448935 1121876377043 IMC 1338 9 067 1370 4729 1596 5313 Figure 3 Distribuição e Outliers Com base na análise decidiuse remover os outliers das variáveis para melhorar a qualidade dos modelos de regressão A nova base de dados resultante possui 1191 observações 3 Modelagem de Regressão Linear Foram construídos modelos de regressão linear simples para prever os gastos médicos com base na idade e no IMC tanto com a base de dados original com outliers quanto com a base de dados limpa sem outliers Figure 4 Modelos de regressão linear até o momento As métricas dos modelos foram comparadas incluindo o coeficiente de determinação R² o R² ajustado o erro quadrático médio RMSE e o erro absoluto médio MAE Tabela 4 Comparação das Métricas dos Modelos Lineares Dataset Variável R² R² Ajustado RMSE MAE N Obs Com Outliers age 00894 00887 1155167 905515 1338 Sem Outliers age 02014 02007 642019 474401 1191 Com Outliers bmi 00393 00386 1186499 917235 1338 Sem Outliers bmi 00042 00033 716941 558441 1191 Os resultados indicam que a variável idade possui maior poder preditivo sobre os gastos médicos em com paração com o IMC especialmente após a remoção dos outliers O modelo com a idade e sem outliers apresentou um R² ajustado de 02007 indicando que aproximadamente 20 da variação nos gastos médicos pode ser explicada pela idade Transformação Logarítmica Para melhorar a linearidade e a normalidade dos resíduos aplicouse uma transformação logarítmica nos gastos médicos criando a variável logcharges Novos modelos foram ajustados utilizando logcharges como variável dependente Tabela 5 Comparação das Métricas dos Modelos com Transformação Logarítmica 4 Dataset Variável Transformação R² R² Ajustado RMSE MAE N Obs Com Outliers age Linear 00894 00887 1155167 905515 1338 Sem Outliers age Linear 02014 02007 642019 474401 1191 Com Outliers age Log 02786 02781 1204785 764334 1338 Sem Outliers age Log 04100 04095 662890 396080 1191 A transformação logarítmica aumentou significativamente o R² dos modelos especialmente para a variável idade sem outliers cujo R² ajustado alcançou 04095 Isso indica que o modelo loglinear é mais adequado para capturar a relação entre a idade e os gastos médicos Modelo Final e Avaliação dos Pressupostos O modelo escolhido foi o que utiliza a idade para prever o logaritmo dos gastos médicos sem outliers A equação do modelo é logcharges 7 5081 0 0362 age Convertendo para a escala original temos charges 𝑒75081 𝑒00362age Onde 𝑒75081 é uma constante aproximada de 181307 O modelo foi avaliado quanto aos pressupostos de regressão linear 1 Normalidade dos Resíduos Os testes de ShapiroWilk W 08320 p 00001 e Anderson Darling A 883325 p 00001 indicam que os resíduos não seguem uma distribuição normal No entanto devido ao tamanho amostral grande a violação da normalidade dos resíduos pode ter impacto reduzido nos resultados 2 Homoscedasticidade O teste de BreuschPagan BP 1949053 p 00001 sugere a presença de heterocedasticidade ou seja a variância dos resíduos não é constante ao longo dos valores ajustados 3 Independência dos Resíduos O teste de DurbinWatson DW 19896 p 04284 não indica autocorrelação significativa dos resíduos Os gráficos de diagnóstico corroboram os resultados dos testes estatísticos Apesar das violações dos pres supostos de normalidade e homoscedasticidade o modelo apresenta um bom ajuste com R² ajustado de 04095 Melhorias no Modelo Para aprimorar o modelo realizamos uma análise de influência para identificar observações que poderiam estar impactando negativamente o ajuste da regressão A análise de influência é uma técnica que examina o impacto de cada observação individual nos parâmetros estimados do modelo As principais medidas utilizadas foram Resíduos Studentizados Avaliam a discrepância de uma observação em relação à linha de regressão ajustando o desvio padrão dos resíduos Alavancagem Leverage Mede a influência potencial de uma observação baseada na posição de 𝑋𝑖 Observações com alta alavancagem têm potencial para influenciar significativamente o ajuste do modelo Distância de Cook Combina a informação dos resíduos e da alavancagem para identificar observações influentes 5 Figure 5 Modelo de regressão linear Final e visualização dos pressupostos Matematicamente a distância de Cook para a iésima observação é dada por 𝐷𝑖 𝑟𝑖2 𝑝 𝜎2 ℎ𝑖𝑖 Onde 𝑟𝑖 é o resíduo studentizado da iésima observação ℎ𝑖𝑖 é o valor da alavancagem para a iésima observação 𝑝 é o número de parâmetros no modelo 𝜎2 é a estimativa da variância dos erros Observações com 𝐷𝑖 4 𝑛 onde 𝑛 é o tamanho da amostra são consideradas influentes e podem ser candi datas à remoção Após identificar as observações influentes removemos as mais extremas para reduzir seu impacto no modelo Isso resultou em um conjunto de dados aprimorado com 1179 observações Em seguida ajustamos um modelo de regressão robusta incorporando erros padrão robustos para lidar com a heterocedasticidade identificada anteriormente Os novos coeficientes estimados foram 𝛽0 7 4020 Erro Padrão Robusto 0 0632 𝛽1 0 0383 Erro Padrão Robusto 0 0013 Comparando os modelos original e melhorado 6 Tabela 6 Comparação entre Modelos Original e Melhorado Modelo R² RMSE N Observações AIC BIC Original 04100 06096 1191 220697 222221 Melhorado 04656 05741 1179 204322 205843 O modelo melhorado apresentou um aumento no R² de aproximadamente 556 indicando que agora cerca de 4656 da variação nos logaritmos dos gastos médicos pode ser explicada pela idade O RMSE diminuiu sugerindo que o modelo está prevendo os valores com maior precisão Além disso os critérios de informação AIC e BIC reduziram significativamente indicando um modelo mais adequado A melhoria do modelo foi possível graças à remoção de observações influentes que estavam distorcendo a estimativa dos coeficientes Ao ajustar o modelo com dados mais representativos e utilizar erros padrão robustos conseguimos um modelo mais confiável e interpretável Referências Matemáticas A regressão linear simples busca modelar a relação entre uma variável dependente 𝑌 e uma variável inde pendente 𝑋 por meio da equação 𝑌 𝛽0 𝛽1𝑋 𝜀 Onde 𝛽0 é o intercepto 𝛽1 é o coeficiente angular representando a mudança esperada em 𝑌 para uma unidade de mudança em 𝑋 𝜀 é o termo de erro aleatório assumido com média zero e variância constante homoscedasticidade Método dos Mínimos Quadrados Ordinários MQO Os parâmetros 𝛽0 e 𝛽1 são estimados minimizando a soma dos quadrados dos resíduos SSE 𝑛 𝑖1 𝑌𝑖 𝑌𝑖2 Onde 𝑌𝑖 𝛽0 𝛽1𝑋𝑖 são os valores ajustados Transformação Logarítmica A transformação logarítmica é aplicada para Linearizar relações não lineares Estabilizar a variância reduzir heterocedasticidade Tornar a distribuição dos erros mais próxima da normalidade Ao transformar 𝑌 em log𝑌 o modelo passa a ser log𝑌 𝛽0 𝛽1𝑋 𝜀 Análise de Resíduos e Diagnósticos 7 Resíduos Studentizados Ajustam os resíduos dividindoos pelo seu desvio padrão estimado facili tando a detecção de outliers Alavancagem Leverage Mede a influência potencial de uma observação baseada na posição de 𝑋𝑖 Calculado a partir da diagonal da matriz de projeção 𝐻 ℎ𝑖𝑖 1 𝑛 𝑋𝑖 𝑋2 𝑛 𝑗1𝑋𝑗 𝑋2 Distância de Cook Combina resíduos e alavancagem para identificar observações que têm grande impacto nos parâmetros estimados Erros Padrão Robustos Quando há violação da homoscedasticidade os erros padrão estimados pelo MQO podem ser inconsistentes Erros padrão robustos Whites standard errors corrigem esse problema permitindo testes de hipóteses válidos Critérios de Informação AIC Akaike Information Criterion e BIC Bayesian Information Criterion são métricas utilizadas para comparar modelos penalizando a complexidade número de parâmetros Modelos com menores valores de AIC e BIC são preferíveis Referências 1 Montgomery D C Peck E A Vining G G 2012 Introduction to Linear Regression Analysis Wiley 2 Kutner M H Nachtsheim C J Neter J Li W 2005 Applied Linear Statistical Models McGrawHill Irwin 3 Fox J Weisberg S 2019 An R Companion to Applied Regression Sage Publications 4 Wooldridge J M 2013 Introductory Econometrics A Modern Approach SouthWestern 5 Hair J F Black W C Babin B J Anderson R E 2014 Multivariate Data Analysis Pearson Education Limited Conclusão A análise revelou que a idade é um preditor significativo dos gastos médicos especialmente quando aplicada uma transformação logarítmica aos gastos e após a remoção de outliers e pontos influentes O modelo final aprimorado apresenta um R² ajustado de 04656 indicando que cerca de 4656 da variação nos logaritmos dos gastos médicos pode ser explicada pela idade As técnicas de análise de influência e regressão robusta contribuíram para melhorar o ajuste e a confiabilidade do modelo Os resultados sugerem que políticas de saúde e planos de seguro devem considerar a idade como um fator importante na previsão de custos médicos 8
Send your question to AI and receive an answer instantly
Recommended for you
41
Lista de Estátistica
Estatística Aplicada para Finanças
UFRJ
14
Introdução à Estatística Descritiva
Estatística Aplicada para Finanças
UMG
18
Estrutura a Termo de Contratos Forward e Futuros- Conceitos e Aplicações
Estatística Aplicada para Finanças
UMG
13
Precificação pelo Momento de Segunda a Quarta Ordem em Finanças
Estatística Aplicada para Finanças
UMG
23
Análise de Regressão
Estatística Aplicada para Finanças
UMG
54
Métodos de Avaliação de Ações: Desconto de Dividendos e Análise Fundamentalista
Estatística Aplicada para Finanças
UFMS
1
Estatística Financeira
Estatística Aplicada para Finanças
UECE
17
Avaliação de Risco de Crédito: Entendendo o Rating e Seu Impacto
Estatística Aplicada para Finanças
UMG
52
Acordos de Basileia: Evolução e Gestão de Riscos no Sistema Financeiro
Estatística Aplicada para Finanças
UMG
12
Estatística Aplicada a Negócios: Introdução à Probabilidade
Estatística Aplicada para Finanças
UMG
Preview text
Sobre o conjunto de dados Este conjunto de dados compreende 10064 amostras de dados de alunos cada uma contendo 35 recursos incluindo informações demográficas métricas de desempenho acadêmico fatores sociais e atributos de estilo de vida É importante porque nos ajuda a entender quais fatores afetam o desempenho dos alunos na escola Com o aprendizado de máquina podemos prever o desempenho dos alunos descobrir quais alunos podem precisar de ajuda extra e projetar melhores maneiras de apoiálos Este conjunto de dados é útil para tomar decisões sobre políticas educacionais criar planos de aprendizagem personalizados e descobrir como coisas como histórico familiar ou estilo de vida afetam a educação de um aluno Ao usar técnicas de análise e previsão de dados podemos tornar a escolaridade melhor para alunos de todos os tipos de origens Fearures Descrição Idade A idade do aluno Gênero O gênero do aluno M para Masculino F para Feminino Educação Parental O nível mais alto de educação alcançado pelos pais do aluno Renda Familiar O nível de renda familiar Notas Anteriores O desempenho acadêmico anterior do aluno notas A B ou C Frequência A porcentagem de frequência nas aulas Participação nas Aulas O nível de participação nas atividades de aula Baixo Médio ou Alto Horas de Estudo O número médio de horas de estudo por semana Especialização A especialização ou área de estudo do aluno Tipo de Universidade O tipo de universidade frequentada Pública ou Privada Situação Financeira A situação financeira do aluno Baixa Média ou Alta Envolvimento Parental O nível de envolvimento dos pais na educação do aluno Baixo Médio ou Alto Recursos Educacionais Disponibilidade de recursos educacionais em casa Sim ou Não Motivação O nível de motivação para os estudos Baixo Médio ou Alto SelfEsteem O nível de autoestima baixo médio ou alto StressLevels O nível de estresse experimentado pelo aluno baixo médio ou alto SchoolEnvironment Percepção do ambiente escolar negativo neutro ou positivo ProfessorQuality A qualidade dos professores baixo médio ou alto ClassSize O tamanho da classe ExtracurricularActivities Participação em atividades extracurriculares sim ou não SleepPatterns Média de horas de sono por dia Nutrition A qualidade da nutrição não saudável equilibrada ou saudável PhysicalActivity Nível de atividade física baixo médio ou alto ScreenTime Horas gastas em atividades baseadas em tela por dia EducationalTechUse Uso de tecnologia educacional sim ou não PeerGroup Percepção da influência do grupo de pares negativa neutra ou positiva Bullying Experiência de bullying sim ou não StudySpace Disponibilidade de um espaço de estudo dedicado em casa Sim ou Não LearningStyle Estilo de aprendizagem preferido Visual Auditivo ou Cinestésico Tutoria Participação em programas de tutoria Sim ou Não Mentoria Disponibilidade de suporte de mentoria Sim ou Não LackofInterest Nível de interesse em acadêmicos Baixo Médio ou Alto TimeWastedonSocialMedia Tempo gasto em plataformas de mídia social SportsParticipation Nível de participação em atividades esportivas baixo médio ou alto Grades As notas finais alcançadas pelo aluno A B ou C Análise de Regressão Linear Aplicada aos Gastos Médicos em Re lação à Idade e IMC Aluno Jean Alves Lopes Este relatório apresenta uma análise de regressão linear com o objetivo de identificar e prever as relações entre os gastos médicos de indivíduos e variáveis independentes como idade e índice de massa corporal IMC O conjunto de dados utilizado contém informações de 1338 indivíduos incluindo variáveis como idade sexo IMC número de filhos hábito de fumar região e gastos médicos anuais O principal propósito deste estudo é compreender como a idade e o IMC influenciam os gastos médicos bem como avaliar a adequação de diferentes modelos de regressão considerando transformações nos dados e a remoção de outliers A análise busca fornecer insights que possam ser utilizados para prever gastos médicos e auxiliar na tomada de decisões em contextos de saúde pública e seguros Desenvolvimento Preparação dos Dados Inicialmente foram carregados os pacotes necessários para a análise incluindo bibliotecas para manipulação de dados visualização gráfica e modelagem estatística O conjunto de dados foi importado do arquivo DOC20241005WA0096csv e submetido a um processo de limpeza e preparação As variáveis bmi e charges foram convertidas para o formato numérico substituindo vírgulas por pontos decimais As variáveis categóricas smoker e sex foram transformadas em fatores com níveis apropriados Análise Descritiva Foi realizada uma análise descritiva das variáveis numéricas age bmi children e charges Os resultados indicam que a idade dos indivíduos varia de 18 a 64 anos com média de 3921 anos O IMC varia de 1596 a 5313 com média de 3066 O número de filhos varia de 0 a 5 e os gastos médicos anuais variam de 1122 a 63770 com média de 13270 Tabela 1 Estatísticas Descritivas das Variáveis Numéricas Variável Mínimo 1º Quartil Mediana Média 3º Quartil Máximo Idade 1800 2700 3900 3921 5100 6400 IMC 1596 2630 3040 3066 3469 5313 Filhos 0 0 1 109 2 5 Gastos 1122 4740 9382 13270 16640 63770 As variáveis categóricas sex smoker e region foram analisadas quanto às suas frequências Observouse que a distribuição entre os sexos é equilibrada com 4948 de indivíduos do sexo feminino e 5052 do masculino A maioria dos indivíduos não é fumante 7952 e a distribuição regional é relativamente uniforme entre as quatro regiões presentes nos dados Visualização dos Dados Foram elaborados boxplots para comparar a distribuição do IMC e dos gastos médicos entre fumantes e não fumantes Observase que fumantes tendem a apresentar gastos médicos significativamente maiores em comparação com não fumantes indicando uma possível influência do hábito de fumar nos custos médicos Uma matriz de correlação foi calculada para as variáveis numéricas permitindo visualizar as correlações existentes entre elas 1 Figure 1 Relações das variáveis Hábito de fumar Tabela 2 Matriz de Correlação das Variáveis Numéricas Age BMI Children Charges Age 1000 0109 0043 0299 BMI 0109 1000 0012 0198 Children 0043 0012 1000 0068 Charges 0299 0198 0068 1000 Figure 2 Análise descritiva mais avançada 2 Análise de Outliers Foi realizada uma análise para identificar outliers nas variáveis age charges e bmi utilizando o método do intervalo interquartil IQR Os limites inferiores e superiores para detecção de outliers foram calculados e a quantidade de outliers identificados em cada variável foi resumida Tabela 3 Resumo da Análise de Outliers Variável Total de Observações Número de Outliers de Outliers Limite Inferior Limite Superior Mínimo Máximo Idade 1338 0 000 900 8700 1800 6400 Gastos Médicos 1338 139 1039 1310915 3448935 1121876377043 IMC 1338 9 067 1370 4729 1596 5313 Figure 3 Distribuição e Outliers Com base na análise decidiuse remover os outliers das variáveis para melhorar a qualidade dos modelos de regressão A nova base de dados resultante possui 1191 observações 3 Modelagem de Regressão Linear Foram construídos modelos de regressão linear simples para prever os gastos médicos com base na idade e no IMC tanto com a base de dados original com outliers quanto com a base de dados limpa sem outliers Figure 4 Modelos de regressão linear até o momento As métricas dos modelos foram comparadas incluindo o coeficiente de determinação R² o R² ajustado o erro quadrático médio RMSE e o erro absoluto médio MAE Tabela 4 Comparação das Métricas dos Modelos Lineares Dataset Variável R² R² Ajustado RMSE MAE N Obs Com Outliers age 00894 00887 1155167 905515 1338 Sem Outliers age 02014 02007 642019 474401 1191 Com Outliers bmi 00393 00386 1186499 917235 1338 Sem Outliers bmi 00042 00033 716941 558441 1191 Os resultados indicam que a variável idade possui maior poder preditivo sobre os gastos médicos em com paração com o IMC especialmente após a remoção dos outliers O modelo com a idade e sem outliers apresentou um R² ajustado de 02007 indicando que aproximadamente 20 da variação nos gastos médicos pode ser explicada pela idade Transformação Logarítmica Para melhorar a linearidade e a normalidade dos resíduos aplicouse uma transformação logarítmica nos gastos médicos criando a variável logcharges Novos modelos foram ajustados utilizando logcharges como variável dependente Tabela 5 Comparação das Métricas dos Modelos com Transformação Logarítmica 4 Dataset Variável Transformação R² R² Ajustado RMSE MAE N Obs Com Outliers age Linear 00894 00887 1155167 905515 1338 Sem Outliers age Linear 02014 02007 642019 474401 1191 Com Outliers age Log 02786 02781 1204785 764334 1338 Sem Outliers age Log 04100 04095 662890 396080 1191 A transformação logarítmica aumentou significativamente o R² dos modelos especialmente para a variável idade sem outliers cujo R² ajustado alcançou 04095 Isso indica que o modelo loglinear é mais adequado para capturar a relação entre a idade e os gastos médicos Modelo Final e Avaliação dos Pressupostos O modelo escolhido foi o que utiliza a idade para prever o logaritmo dos gastos médicos sem outliers A equação do modelo é logcharges 7 5081 0 0362 age Convertendo para a escala original temos charges 𝑒75081 𝑒00362age Onde 𝑒75081 é uma constante aproximada de 181307 O modelo foi avaliado quanto aos pressupostos de regressão linear 1 Normalidade dos Resíduos Os testes de ShapiroWilk W 08320 p 00001 e Anderson Darling A 883325 p 00001 indicam que os resíduos não seguem uma distribuição normal No entanto devido ao tamanho amostral grande a violação da normalidade dos resíduos pode ter impacto reduzido nos resultados 2 Homoscedasticidade O teste de BreuschPagan BP 1949053 p 00001 sugere a presença de heterocedasticidade ou seja a variância dos resíduos não é constante ao longo dos valores ajustados 3 Independência dos Resíduos O teste de DurbinWatson DW 19896 p 04284 não indica autocorrelação significativa dos resíduos Os gráficos de diagnóstico corroboram os resultados dos testes estatísticos Apesar das violações dos pres supostos de normalidade e homoscedasticidade o modelo apresenta um bom ajuste com R² ajustado de 04095 Melhorias no Modelo Para aprimorar o modelo realizamos uma análise de influência para identificar observações que poderiam estar impactando negativamente o ajuste da regressão A análise de influência é uma técnica que examina o impacto de cada observação individual nos parâmetros estimados do modelo As principais medidas utilizadas foram Resíduos Studentizados Avaliam a discrepância de uma observação em relação à linha de regressão ajustando o desvio padrão dos resíduos Alavancagem Leverage Mede a influência potencial de uma observação baseada na posição de 𝑋𝑖 Observações com alta alavancagem têm potencial para influenciar significativamente o ajuste do modelo Distância de Cook Combina a informação dos resíduos e da alavancagem para identificar observações influentes 5 Figure 5 Modelo de regressão linear Final e visualização dos pressupostos Matematicamente a distância de Cook para a iésima observação é dada por 𝐷𝑖 𝑟𝑖2 𝑝 𝜎2 ℎ𝑖𝑖 Onde 𝑟𝑖 é o resíduo studentizado da iésima observação ℎ𝑖𝑖 é o valor da alavancagem para a iésima observação 𝑝 é o número de parâmetros no modelo 𝜎2 é a estimativa da variância dos erros Observações com 𝐷𝑖 4 𝑛 onde 𝑛 é o tamanho da amostra são consideradas influentes e podem ser candi datas à remoção Após identificar as observações influentes removemos as mais extremas para reduzir seu impacto no modelo Isso resultou em um conjunto de dados aprimorado com 1179 observações Em seguida ajustamos um modelo de regressão robusta incorporando erros padrão robustos para lidar com a heterocedasticidade identificada anteriormente Os novos coeficientes estimados foram 𝛽0 7 4020 Erro Padrão Robusto 0 0632 𝛽1 0 0383 Erro Padrão Robusto 0 0013 Comparando os modelos original e melhorado 6 Tabela 6 Comparação entre Modelos Original e Melhorado Modelo R² RMSE N Observações AIC BIC Original 04100 06096 1191 220697 222221 Melhorado 04656 05741 1179 204322 205843 O modelo melhorado apresentou um aumento no R² de aproximadamente 556 indicando que agora cerca de 4656 da variação nos logaritmos dos gastos médicos pode ser explicada pela idade O RMSE diminuiu sugerindo que o modelo está prevendo os valores com maior precisão Além disso os critérios de informação AIC e BIC reduziram significativamente indicando um modelo mais adequado A melhoria do modelo foi possível graças à remoção de observações influentes que estavam distorcendo a estimativa dos coeficientes Ao ajustar o modelo com dados mais representativos e utilizar erros padrão robustos conseguimos um modelo mais confiável e interpretável Referências Matemáticas A regressão linear simples busca modelar a relação entre uma variável dependente 𝑌 e uma variável inde pendente 𝑋 por meio da equação 𝑌 𝛽0 𝛽1𝑋 𝜀 Onde 𝛽0 é o intercepto 𝛽1 é o coeficiente angular representando a mudança esperada em 𝑌 para uma unidade de mudança em 𝑋 𝜀 é o termo de erro aleatório assumido com média zero e variância constante homoscedasticidade Método dos Mínimos Quadrados Ordinários MQO Os parâmetros 𝛽0 e 𝛽1 são estimados minimizando a soma dos quadrados dos resíduos SSE 𝑛 𝑖1 𝑌𝑖 𝑌𝑖2 Onde 𝑌𝑖 𝛽0 𝛽1𝑋𝑖 são os valores ajustados Transformação Logarítmica A transformação logarítmica é aplicada para Linearizar relações não lineares Estabilizar a variância reduzir heterocedasticidade Tornar a distribuição dos erros mais próxima da normalidade Ao transformar 𝑌 em log𝑌 o modelo passa a ser log𝑌 𝛽0 𝛽1𝑋 𝜀 Análise de Resíduos e Diagnósticos 7 Resíduos Studentizados Ajustam os resíduos dividindoos pelo seu desvio padrão estimado facili tando a detecção de outliers Alavancagem Leverage Mede a influência potencial de uma observação baseada na posição de 𝑋𝑖 Calculado a partir da diagonal da matriz de projeção 𝐻 ℎ𝑖𝑖 1 𝑛 𝑋𝑖 𝑋2 𝑛 𝑗1𝑋𝑗 𝑋2 Distância de Cook Combina resíduos e alavancagem para identificar observações que têm grande impacto nos parâmetros estimados Erros Padrão Robustos Quando há violação da homoscedasticidade os erros padrão estimados pelo MQO podem ser inconsistentes Erros padrão robustos Whites standard errors corrigem esse problema permitindo testes de hipóteses válidos Critérios de Informação AIC Akaike Information Criterion e BIC Bayesian Information Criterion são métricas utilizadas para comparar modelos penalizando a complexidade número de parâmetros Modelos com menores valores de AIC e BIC são preferíveis Referências 1 Montgomery D C Peck E A Vining G G 2012 Introduction to Linear Regression Analysis Wiley 2 Kutner M H Nachtsheim C J Neter J Li W 2005 Applied Linear Statistical Models McGrawHill Irwin 3 Fox J Weisberg S 2019 An R Companion to Applied Regression Sage Publications 4 Wooldridge J M 2013 Introductory Econometrics A Modern Approach SouthWestern 5 Hair J F Black W C Babin B J Anderson R E 2014 Multivariate Data Analysis Pearson Education Limited Conclusão A análise revelou que a idade é um preditor significativo dos gastos médicos especialmente quando aplicada uma transformação logarítmica aos gastos e após a remoção de outliers e pontos influentes O modelo final aprimorado apresenta um R² ajustado de 04656 indicando que cerca de 4656 da variação nos logaritmos dos gastos médicos pode ser explicada pela idade As técnicas de análise de influência e regressão robusta contribuíram para melhorar o ajuste e a confiabilidade do modelo Os resultados sugerem que políticas de saúde e planos de seguro devem considerar a idade como um fator importante na previsão de custos médicos 8