·

Economia ·

Econometria

Send your question to AI and receive an answer instantly

Ask Question

Preview text

Preciso que o trabalho compare o modelo econométrico Probit e o algoritmo C50 de árvores de decisão na previsão da probabilidade de um indivíduo se encontrar em desemprego severo acima de 1 ano no estado do Rio Grande do Sul no ano de 2022 Variável dependente 1 se a pessoa está em desemprego há mais de 1 ano 0 caso contrário Variáveis explicativas idade sexo raça escolaridade se é chefe do domicílio endereço urbano ou rural Elaborar um código do R para os dois modelos Base de dados será microdados da PNAD Contínua Metodologia semelhante ao exemplo abaixo Comparação entre Modelo Probit e Árvore de Decisão C50 na Previsão de Desemprego Severo no RS em 2022 Mateus 21 de agosto de 2025 1 Introdução Este trabalho compara a performance de um modelo econométrico o Probit com um algoritmo de aprendizado de máquina a árvore de decisão C50 O objetivo é avaliar a capacidade de cada método em prever a probabilidade de um indivíduo se encontrar em situação de desemprego severo acima de 1 ano no estado do Rio Grande do Sul utilizando dados da PNAD Contínua para o ano de 2022 2 Metodologia A análise utiliza microdados da Pesquisa Nacional por Amostra de Domicílios Contínua PNAD Contínua de 2022 21 Variáveis do Modelo Variável Dependente Uma variável binária foi criada assumindo valor 1 se o indivíduo está desempregado há mais de um ano e 0 caso contrário Variáveis Explicativas Foram utilizadas as seguintes variáveis idade sexo raça escolaridade se o indivíduo é chefe de domicílio e se reside em área urbana ou rural 22 Modelos Analisados Modelo Probit Um modelo de regressão para respostas binárias onde a probabi lidade de ocorrência do evento é modelada pela Função de Distribuição Acumulada FDA da distribuição normal padrão A probabilidade é dada por PY 1X ΦXβ Onde Φ é a FDA da normal padrão Algoritmo C50 Um algoritmo de aprendizado de máquina que constrói uma ár vore de decisão O modelo cria regras de partição a partir das variáveis explicativas para classificar as observações na categoria da variável dependente Os dados foram segmentados em 80 para treinamento e 20 para teste permitindo a avaliação da capacidade preditiva dos modelos em uma amostra não vista 1 3 Resultados A performance dos modelos foi avaliada no conjunto de dados de teste 31 Modelo Probit A estimação do modelo Probit revelou que as variáveis homem e negro possuem coe ficientes negativos e estatisticamente significantes Isso indica que mantendo os demais fatores constantes indivíduos do sexo masculino e os que se declaram negros ou pardos tiveram menor probabilidade de estarem em desemprego severo As demais variáveis não apresentaram significância estatística Tabela 1 Resultados da Estimação do Modelo Probit Variável Estimate Std Error z value Prz Intercept 031775 045888 0692 0488656 homem 018656 005457 3419 0000629 negro 018050 006124 2947 0003204 chefe 007769 006327 1228 0219449 urbana 013171 009022 1460 0144343 id1 028551 017557 1626 0103901 id2 005631 017879 0315 0752796 id3 011095 018068 0614 0539167 id4 015805 017739 0891 0372939 e2 002079 042384 0049 0960870 e3 011042 042350 0261 0794292 e4 017152 042665 0402 0687668 p 0001 p 001 p 005 Em termos de performance preditiva o modelo obteve uma Acurácia de 6554 valor muito próximo à taxa de acerto caso se classificasse todos os indivíduos na categoria majoritária 6503 A Especificidade foi extremamente baixa 918 mostrando que o modelo foi incapaz de identificar corretamente os casos de desemprego severo 32 Algoritmo C50 O algoritmo C50 não conseguiu gerar uma árvore de decisão útil O resultado foi um modelo com um único nó a raiz que classificou todos os indivíduos da amostra na categoria majoritária não desemprego severo Consequentemente sua performance foi insatisfatória Acurácia 6503 exatamente a taxa da classe majoritária Especificidade 0 indicando uma falha completa em identificar um único caso de desemprego severo 2 Tabela 2 Matriz de Confusão do Modelo C50 Referência 0 Referência 1 Predição 0 385 207 Predição 1 0 0 4 Conclusão Nenhum dos modelos se mostrou eficaz para a tarefa de previsão do desemprego severo O algoritmo C50 falhou completamente em encontrar padrões nos dados O modelo Probit embora também ineficaz para previsão forneceu insights inferenciais valiosos ao apontar que sexo e raça são fatores com correlação estatisticamente significativa com a duração do desemprego na amostra estudada Portanto concluise que para este problema específico a abordagem econométrica Probit foi mais útil para a compreensão do fenômeno enquanto a abordagem de apren dizado de máquina C50 não gerou um modelo preditivo funcional 3 A Código R Utilizado na Análise O script a seguir foi utilizado para baixar e processar os dados da PNAD Contínua bem como para estimar e avaliar os modelos Probit e C50 1 0 INSTALACAO E CARREGAMENTO DOS PACOTES 2 installpackagesc PNADcIBGE tidyverse caret C50 e1071 3 libraryPNADcIBGE 4 librarytidyverse 5 librarycaret 6 libraryC50 7 8 1 IMPORTACAO DOS DADOS LOOP PARA OS 4 TRIMESTRES 9 trimestres 14 10 listadadostrimestrais list 11 12 for trimestreatual in trimestres 13 catBaixando e processando dados para o trimestre trimestreatual 4 14 dadospnadctrimestre getpnadcyear 2022 quarter trimestre atual 15 vars cUF V2007 V2009 V2005 V1022 16 V2010 VD3004 V4076 VD4002 17 dadosrstrimestre subsetdadospnadctrimestre UF Rio Grande do Sul 18 listadadostrimestrais trimestreatual dadosrstrimestre variables 19 20 21 dados bindrowslistadadostrimestrais 22 catProcesso de download e juncao dos 4 trimestres concluido 23 24 2 PROCESSAMENTO E CRIACAO DAS VARIAVEIS DO MODELO 25 dadosprocessados dados 26 filterVD4002 Pessoas desocupadas 27 mutate 28 Variavel Dependente 29 desempregosevero ifelseV4076 in cDe 1 ano a menos de 2 anos 2 anos ou mais 1 0 30 31 Variaveis Explicativas 32 homem ifelseV2007 Homem 1 0 33 34 idade asnumericV2009 35 id1 ifelseidade 15 idade 25 1 0 36 id2 ifelseidade 26 idade 35 1 0 37 id3 ifelseidade 36 idade 45 1 0 38 id4 ifelseidade 46 idade 65 1 0 39 40 negro ifelseV2010 in cPreta Parda 1 0 41 42 chefe ifelseV2005 Pessoa responsavel pelo domicilio 1 0 43 44 urbana ifelseV1022 Urbana 1 0 45 4 46 e1 ifelseVD3004 Sem instrucao e menos de 1 ano de estudo 1 0 47 e2 ifelseVD3004 in cFundamental incompleto ou equivalente Fundamental completo ou equivalente 1 0 48 e3 ifelseVD3004 in cMedio incompleto ou equivalente Medio completo ou equivalente 1 0 49 e4 ifelseVD3004 in cSuperior incompleto ou equivalente Superior completo 1 0 50 51 52 3 SELECAO FINAL DAS VARIAVEIS PARA O MODELO 53 dadosmodelo dadosprocessados 54 select 55 desempregosevero 56 homem negro chefe urbana 57 id1 id2 id3 id4 58 e1 e2 e3 e4 59 60 naomit 61 62 dadosmodelodesempregosevero asfactordadosmodelodesemprego severo 63 64 4 SEPARAR OS DADOS PARA TREINO E TESTE 65 setseed 212 66 indicestreino createDataPartition dadosmodelodesempregosevero p 08 list FALSE 67 dadostreino dadosmodeloindicestreino 68 dadosteste dadosmodeloindicestreino 69 70 5 ESTIMAR O MODELO PROBIT 71 modeloprobit glmdesempregosevero homem negro chefe urbana 72 id1 id2 id3 id4 73 e2 e3 e4 e1 foi omitida para ser a referencia 74 data dadostreino 75 family binomiallink probit 76 77 summarymodeloprobit 78 79 6 TREINAR O MODELO C50 80 modeloc50 C50 desempregosevero data dadostreino 81 82 summarymodeloc50 83 84 7 AVALIACAO DOS MODELOS 85 86 Avaliacao do Modelo Probit 87 probabilidades probit predictmodeloprobit newdata dadosteste type response 88 previsoesprobit ifelseprobabilidadesprobit 05 1 0 89 previsoesprobit asfactorprevisoesprobit 90 matrizconfusaoprobit confusionMatrixprevisoesprobit dadosteste desempregosevero positive 0 91 print Resultados do Modelo Probit 92 printmatrizconfusaoprobit 93 5 94 Avaliacao do Modelo C50 95 previsoesc50 predictmodeloc50 newdata dadosteste 96 matrizconfusaoc50 confusionMatrix previsoesc50 dadosteste desempregosevero positive 0 97 print Resultados do Modelo C50 98 printmatrizconfusaoc50 Listing 1 Script completo em R 6