·

Economia ·

Econometria

Send your question to AI and receive an answer instantly

Ask Question

Preview text

Laboratório de Econometria I 20241 Lista 1 Departamento de Economia PUCRio Prof Gilberto Boaretto Monitores André Alvarenga e Guilherme Campanha Entrega até 27042024 às 23h59 via EAD da disciplina INSTRUÇÕES Esta lista possui duas partes com cinco questões ao todo A lista pode ser feita em dupla ou individualmente A lista deve ser entregue em um documento PDF com cada questão resposta con tendo nesta ordem se for o caso 1 Código de R utilizado 2 Tabelas eou figuras com os resultados obtidos 3 Interpretação dos resultados Entregar em formato diferente de PDF acarretará em penalização Sugestão não obrigatório entregar um relatório em PDF gerado no RMarkdown Alerta alunos ou duplas diferentes com respostas idênticas ou muito similares terão a pontuação da questão zerada PARTE I Na questão 1 desta lista prática empregaremos dados da Pesquisa Nacional por Amostra de Domicílios Contínua PNADC a partir de um arquivo dta Cada alunodupla deverá esco lher uma unidade da federação UF a seu gosto Use a base de dados PNADdomUFdta disponível na pasta PNAD que está no arquivo compactado dadoslistapraticazip dis ponível para download no EAD da disciplina Faça a descompactação dos arquivos para usálos A pesquisa contém uma série de informações sobre o domicílio e seus moradores Na questão 1 trabalharemos com dados domiciliares os quais são apresentados na Tabela 1 a seguir 1 Laboratório de Econometria I 20232 Tabela 1 PNADC descrição das variáveis da base de dados domiciliares Variável Descrição uf Código da unidade da federação moradores Número total de moradores do domicílio ncriancas Número de crianças com 10 anos ou menos no domicílio aluguel Valor do aluguel mensal em R ncomodos Número de cômodos do domicílio nquartos Número de quartos do domicílio nbanheiros Número de banheiros do domicílio rdpc Renda domiciliar per capita em R tipodomicílio 1 se casa 2 se apartamentos 3 se cômodos filtro 1 se o domicílio tem filtro 0 caso contrário Geladeira2portas 1 se o domicílio tem geladeira de 2 portas 0 caso contrário computador 1 se o domicílio tem computador 0 caso contrário internet 1 se o domicílio tem acesso à internet 0 caso contrário carro 1 se o domicílio tem carro 0 caso contrário peso Peso do domicílio na pesquisa Questão 1 Usando comandos da base do R selecione as colunas com as variáveis aluguel e ncomodos Exclua as linhas que contenham NAs Você pode fazer isso usando o comando naomit Agora resolva os dois itens a seguir a Plote um gráfico com aluguel no eixo y e ncomodos no eixo x Calcule a correlação amostral entre as duas variáveis Qual relação parece existir entre as duas variáveis Positiva negativa Linear não linear Explique b Repita o item anterior plotando logaluguel no eixo y e mantendo ncomodos no eixo x Calcule a correlação amostral entre as duas variáveis Qual relação parece existir entre as duas variáveis Positiva negativa Linear não linear Explique e com pare com os resultados do item anterior PARTE II Agora para as próximas questões vamos baixar os dados da PNADC dos quatro trimestres de 2023 No site do IBGE baixe a PNADC para todos os trimestres de 2021 São os arquivos PNADC012023zip PNADC032023zip PNADC022023zip PNADC042023zip Note que você também deverá baixar o dicionário mais recente da pesquisa Você encon trará o dicionário clicando em Downloads painel esquerdo e fazendo o caminho Trimestral Microdados Documentacao Para resolver as questões a seguir você deverá usar comandos o pacote dplyr do tidyverse PUCRio Gilberto Boaretto 2 Laboratório de Econometria I 20232 Questão 2 Construa um código para importar os dados da PNADC de algum trimestre de 2023 você tem liberdade para escolher qualquer um dos quatro Considere a seleção das variáveis cujos códigos sejam Ano Trimestre UF UPA V1008 V1014 V1022 V2001 V2003 V2007 V2008 V2010 V20081 V20082 V2009 V3001 V3009A VD2002 VD2003 VD3004 VD3005 VD4002 VD4020 VD4035 Crie identificadores únicos para domicílios e indivíduos usando as variáveis UPA V1008 V1014 V2003 tal como feito em aula Reporte o código e a dimensão do objeto obtido aplicando o comando dim Nota se você quiser pode usar a função readpnadc do package PNADcIBGE disponível no CRAN Com ele a leituraorganização prévia do dicionário é dispensada mas requer o carregamento do arquivo inputPNADCtrimestraltxt além do PNADCtxt A função getpnadc do mesmo package também dá a opção de baixar os microdados dire tamente a partir do R sem a necessidade de acessar o site do IBGE Consulte a documentação do package Aprender a usálo é o custo de algumas facilidades que ele trás Questão 3 Com base nos dados obtidos na Questão 2 e identificando o que é cada variável com base no dicionário compute as estatísticas a seguir usando comandos do pacote dplyr a Média e mediana do número de pessoas por domicílio b Proporção de mulheres em relação ao total de indivíduos na amostra c Proporção de indivíduos que não sabem ler d Proporção de indivíduos que moram sozinhos e Proporção de indivíduos nascidos antes de 01041964 ou seja a proporção de idosos na amostra Alerta cuidado com informações faltantes Desconsidere indivíduos ou domicílios com in formações de interesse faltantes na hora de computar as estatísticas solicitadas Reporte o código escrito para obtenção de cada um dos resultados além dos próprios resul tados Comente os resultados Questão 4 Filtrando a base de dados da Questão 2 para indivíduos que nasceram entre 01041964 e 31032004 compute as estatísticas a seguir usando comandos do pacote dplyr a Média mediana e desviopadrão da escolaridade b Proporção de pessoas com ensino superior completo com mestrado completo e douto rado completo Note que vocês deverão calcular três proporções c Probabilidade de trabalhar PUCRio Gilberto Boaretto 3 Laboratório de Econometria I 20232 Observação certifiquese de entender o que é esta variável e como ela é obtida a partir dos dados Dica é uma média d Média mediana e desviopadrão do salário por hora trabalhada dos que trabalham Observação para computar os salários por hora estamos interessados no rendi mento efetivo de todos os trabalhos VD4020 e nas horas efetivamente trabalha das em todos os trabalhos VD4035 Reporte o código de R e os resultados Comente os resultados Questão 5 Novamente considerando os dados da Questão 2 filtrados para os indivíduos que nasceram entre 01041964 e 31032004 compute as estatísticas a seguir usando coman dos do pacote dplyr a Proporção de homens e mulheres b Proporção de brancos e nãobrancos A categoria nãobrancos deverá incluir pretos amarelos pardos e indígenas Des carte a categoria ignorados tipo 9 c Probabilidade de estar desocupado por sexo V2007 e faixa de escolaridade VD3004 d Probabilidade de estar desocupado por corraça V2010 e faixa de escolaridade Como categorias para corraça considere apenas duas brancos e nãobrancos A categoria nãobrancos deverá incluir pretos amarelos pardos e indígenas Descarte a categoria ignorados tipo 9 PUCRio Gilberto Boaretto 4 Lista 1 Rafael Emerick 20240426 Parte 1 Foi escolhido o estado de Minas Gerais devido a desiguladade que é vista em todo o estado pois Minas Gerais representa as desigualdades do Brasil devido a sua história colonial marcada pela exploração mineral concentrada que gerou riqueza para poucos em meio à pobreza da maioria Essa disparidade econômica persistiu ao longo do tempo refletindose em um desenvolvimento desigual entre regiões com áreas urbanas desenvolvidas e regiões rurais mais carentes Essa diversidade socioeconômica dentro do estado combinada com desafios em indicadores sociais como educação e saúde torna Minas Gerais um símbolo das desigualdades persistentes em todo o país Questão 1 Importando os Dados libraryhaven Dados readdtaCUserskarolOneDriveDocumentosEconometria Lista 1PNADdomMG1dta dados naomitDados caluguel ncomodos attachdados a Plote um gráfico com aluguel no eixo y e ncomodos no eixo x Calcule a correlação amostral entre as duas variáveis Qual relação parece existir entre as duas variáveis Positiva negativa Linear não linear Explique coraluguel ncomodos 1 0530484 plotncomodosaluguel main Grafico de Dispesao A correlação foi de 05305 uma correlação positiva e relativamente alta sugerindo que as duas variáveis têm uma relação significativa entre si ou seja se uma variavel aumenta a outra tende a aumentar também E isso pode ser comprovado com o gráfico de dispersão b Repita o item anterior plotando logaluguel no eixo y e mantendo ncomodos no eixo x Calcule a correlação amostral entre as duas variáveis Qual relação parece existir entre as duas variáveis Positiva negativa Linear não linear Explique e compare com os resultados do item anterior y logaluguel x ncomodos corxy 1 05225544 plotxy main Grafico de Dispersao xlab Numero de Comodos ylab ln do aluguel A relação entre o aluguel e o número de comodos é positiva em ambos os casos indicando que em média mais comodos estão associados a aluguéis mais altos E o Gárifo de Dispersão após a transformação logarítmica suaviza a relação entre as variáveis ornandoa menos linear e potencialmente facilitando a interpretação em certos casos Porém ainda é posítivo identificar uma relação linear entre as variáveis Parte 2 Questão 2 libraryPNADcIBGE Warning package PNADcIBGE was built under R version 433 librarydplyr Warning package dplyr was built under R version 433 Attaching package dplyr The following objects are masked from packagestats filter lag The following objects are masked from packagebase intersect setdiff setequal union variaveis selecionadas variaveisselecionadas cAno Trimestre UF UPA V1008 V1014 V1022 V2001 V2003 V2007 V2008 V2010 V20081 V20082 V2009 V3001 V3009A VD2002 VD2003 VD3004 VD3005 VD4002 VD4020 VD4035 pnaddf getpnadcyear 2023 quarter 2 design FALSE vars variaveisselecionadas attachpnaddf df dataframeAno Trimestre UF UPA V1008 V1014 V1022 V2001 V2003 V2007 V2008 V2010 V20081 V20082 V2009 V3001 V3009A VD2002 VD2003 VD3004 VD3005 VD4002 VD4020 VD4035 Questão 2 Criar identificadores únicos para domicílios e indivíduos df df mutateIDDOM pasteAno Trimestre UF UPA V1008 sep IDIND pasteAno Trimestre UF UPA V1008 V1014 V2003 sep Verificar a dimensão do objeto dimdf 1 474575 26 O trimestre escolhido foi o segundo a dimensão dos dados foram 474575 observações e 26 variáveis Questão 3 a Média e mediana do número de pessoas por domicílio mediamedianapessoaspordomicilio df filterisnaV2001 summarizemedia meanV2001 mediana medianV2001 mediamedianapessoaspordomicilio media mediana 1 3479638 3 A média de pessoas por domicilio no segundo trimetre de 2023 era de 348 enquanto a mediada era de 3 pessoas b Proporção de mulheres em relação ao total de indivíduos na amostra proporcaomulheres df filterisnaV2007 summarizepropmulheres meanV2007 Mulher proporcaomulheres propmulheres 1 05156993 Cerca de 5157 dos individuos da amostra são mulheres c Proporção de indivíduos que não sabem ler proporcaonaosabemler df filterisnaVD3004 summarizepropnaosabemler frequencyVD3004 Sem instrução e menos de 1 ano de estudonrowdf proporcaonaosabemler propnaosabemler 1 2107149e06 Aproximadamente 0 das pessoas do banco de dados não sabem lê d Proporção de indivíduos que moram sozinhos proporcaomoramsozinhos df filterisnaV2001 summarizepropnaosabemler meanV2001 1 Cerca de 674 dos domicilios da amostra é comporto por individuos que moram sozinhos e Proporção de indivíduos nascidos antes de 01041964 ou seja a proporção de idosos na amostra proporcaoidosos df filterisnaV2009 summarizepropidosos meanV2009 60 proporcaoidosos propidosos 1 01755191 Cerca de 1755 da amostra é composto por idosos Questão 4 df2 df filterV2009 60 dimdf2 1 385331 26 a Média mediana e desviopadrão da escolaridade df3 df2 mutateescolaridadenumerica casewhen VD3004 Sem instrução e menos de 1 ano de estudo 0 VD3004 Fundamental incompleto ou equivalente 1 VD3004 Fundamental completo ou equivalente 2 VD3004 Médio incompleto ou equivalente 3 VD3004 Médio completo ou equivalente 4 VD3004 Superior incompleto ou equivalente 5 VD3004 Superior completo 6 TRUE NAreal escolaridade df3 summarizemediaescolaridade meanescolaridadenumerica narm TRUE medianaescolaridade medianescolaridadenumerica narm TRUE desviopadraoescolaridade sdescolaridadenumerica narm TRUE escolaridade mediaescolaridade medianaescolaridade desviopadraoescolaridade 1 2784905 3 1892349 Como a média da escolariedade foi de aproximadamente 3 isso sigifica que a media dos dados de ecolariedade é de ensino médio incompleto ou equivalente enquanto a mediana é de Fundamental Incompleto ou Equivalente isso significa que pelo menor 50 dos entrevistados não possuí o fundamental completo b Proporção de pessoas com ensino superior completo com mestrado completo e doutorado completo proporcoes df2 summarizepropsuperiorcompleto meanV3009A Superior graduação narm TRUE propmestradocompleto meanV3009A Especialização de nível superior narm TRUE propdoutoradocompleto meanVD3004 16 anos ou mais de estudo narm TRUE proporcoes propsuperiorcompleto propmestradocompleto propdoutoradocompleto 1 01499929 004059464 0 Aproximadamente 15 dos individuos da analise possuí o Superior Completo 406 possuí Mestrado e aproximadamente 0 possuí Doutorado c Probabilidade de trabalhar probabilidadetrabalhar df2 summarizeprobtrabalhar meanVD4002 Pessoas ocupadas narm TRUE probabilidadetrabalhar probtrabalhar 1 09197953 Cerca de 9198 dos individuos da amostra trabalham d Média mediana e desviopadrão do salário por hora trabalhada dos que trabalham estatisticassalariohora df2 summarizemediasalariohora meanV2009 narm TRUE medianasalariohora medianV2009 narm TRUE desviopadraosalariohora sdV2009 narm TRUE estatisticassalariohora mediasalariohora medianasalariohora desviopadraosalariohora 1 2977174 30 1691982 Dos 9198 dos indivíduos que trabalham a média de horas de trabalho é de aproximadamente 30 horas semanais que é semelhante à mediana dos dados Isso sugere que os dados têm uma distribuição que se aproxima da distribuição normal com um desvio padrão de aproximadamente 17 horas semanais Questão 5 a Proporção de homens e mulheres proporcaomulheres proporcaomulherespropmulheres proporcaohomens 1 proporcaomulheres proporcaomulheres 1 05156993 proporcaohomens 1 04843007 Cerca de 5157 dos dados são mulheres e 4843 são homens b Proporção de brancos e nãobrancos probabilidadebranco df2 summarizeprobbranco meanV2010 Branca narm TRUE probabilidadebranco probabilidadebrancoprobbranco probabilidadenbranco 1 probabilidadebranco probabilidadebranco 1 03758172 probabilidadenbranco 1 06241828 Cerca de 3758 dos individuos da amostra são brancos enquanto 6242 são não brancos c Probabilidade de estar desocupado por sexo e faixa de escolaridade probdesocupado df2 filterisnaV2007 isnaVD4002 isnaVD3004 groupbyV2007 VD3004 summarizeprobdesocupado meanVD4002 Pessoas desocupadas summarise has grouped output by V2007 You can override using the groups argument probdesocupado A tibble 14 3 Groups V2007 2 V2007 VD3004 probdesocupado fct fct dbl 1 Homem Sem instrução e menos de 1 ano de estudo 00665 2 Homem Fundamental incompleto ou equivalente 00676 3 Homem Fundamental completo ou equivalente 00745 4 Homem Médio incompleto ou equivalente 0103 5 Homem Médio completo ou equivalente 00740 6 Homem Superior incompleto ou equivalente 00754 7 Homem Superior completo 00348 8 Mulher Sem instrução e menos de 1 ano de estudo 00719 9 Mulher Fundamental incompleto ou equivalente 00920 10 Mulher Fundamental completo ou equivalente 0114 11 Mulher Médio incompleto ou equivalente 0162 12 Mulher Médio completo ou equivalente 0117 13 Mulher Superior incompleto ou equivalente 00967 14 Mulher Superior completo 00447 A análise da probabilidade de estar desocupado por sexo e faixa de escolaridade revela padrões distintos entre os sexos e os diferentes níveis de escolaridade Entre os homens a probabilidade de estar desocupado geralmente aumenta à medida que o nível de escolaridade diminui com uma leve exceção para aqueles com Superior completo que apresentam uma probabilidade menor de desocupação em comparação com outros níveis de escolaridade Por outro lado entre as mulheres a relação entre probabilidade de desocupação e nível de escolaridade parece ser mais complexa com algumas faixas de escolaridade apresentando maior probabilidade de desocupação do que outras d Probabilidade de estar desocupado por corraça e faixa de escolaridade vetorraca ifelsedf2V2010 Branca branca nao branca df2 mutatedf2 raca vetorraca probdesocupado2 df2 filterisnaraca isnaVD4002 isnaVD3004 groupbyraca VD3004 summarizeprobdesocupado meanVD4002 Pessoas desocupadas summarise has grouped output by raca You can override using the groups argument probdesocupado2 A tibble 14 3 Groups raca 2 raca VD3004 probdesocupado chr fct dbl 1 branca Sem instrução e menos de 1 ano de estudo 00577 2 branca Fundamental incompleto ou equivalente 00541 3 branca Fundamental completo ou equivalente 00692 4 branca Médio incompleto ou equivalente 0111 5 branca Médio completo ou equivalente 00728 6 branca Superior incompleto ou equivalente 00761 7 branca Superior completo 00352 8 nao branca Sem instrução e menos de 1 ano de estudo 00711 9 nao branca Fundamental incompleto ou equivalente 00852 10 nao branca Fundamental completo ou equivalente 0101 11 nao branca Médio incompleto ou equivalente 0132 12 nao branca Médio completo ou equivalente 0106 13 nao branca Superior incompleto ou equivalente 00957 14 nao branca Superior completo 00476 A análise da probabilidade de estar desocupado por corraça e faixa de escolaridade revela padrões interessantes Entre os indivíduos de raça branca observase que a probabilidade de estar desocupado tende a aumentar à medida que o nível de escolaridade diminui Especificamente os dados mostram que aqueles com Médio incompleto ou equivalente têm a maior probabilidade de desocupação seguidos por aqueles com Superior incompleto ou equivalente Por outro lado entre os indivíduos não brancos a mesma tendência é observada com uma probabilidade de desocupação mais elevada para os níveis mais baixos de escolaridade embora as taxas de desocupação pareçam ser ligeiramente mais altas em comparação com os indivíduos brancos em quase todas as faixas de escolaridade Essa análise sugere a existência de disparidades significativas na probabilidade de desocupação com base na raça e no nível de escolaridade destacando a importância de políticas e intervenções direcionadas para abordar essas disparidades