• Home
  • Chat IA
  • Guru IA
  • Tutores
  • Central de ajuda
Home
Chat IA
Guru IA
Tutores

·

Ciências Econômicas ·

Econometria

Envie sua pergunta para a IA e receba a resposta na hora

Recomendado para você

Trabalho de Econometria

19

Trabalho de Econometria

Econometria

UFMG

Econometria 2

1

Econometria 2

Econometria

UFMG

Trabalho de Econometria 2

64

Trabalho de Econometria 2

Econometria

UFMG

Análise Econometria Estatística Descritiva do IGPM

3

Análise Econometria Estatística Descritiva do IGPM

Econometria

FACULDADE AGES

10 Questões de Econometria

32

10 Questões de Econometria

Econometria

PUC

Gauss-Markov - Identificacao de Violacao das Hipoteses de Variancia Constante e Nao Correlacao

1

Gauss-Markov - Identificacao de Violacao das Hipoteses de Variancia Constante e Nao Correlacao

Econometria

PUC

Prova 2 de Econometria 3 - MA7 2º2023

1

Prova 2 de Econometria 3 - MA7 2º2023

Econometria

PUC

Viés e Endogeneidade na Estimação de Modelos Econométricos

97

Viés e Endogeneidade na Estimação de Modelos Econométricos

Econometria

PUC

Heterocedasticidade e Teorema de Gauss-Markov em Econometria II

105

Heterocedasticidade e Teorema de Gauss-Markov em Econometria II

Econometria

PUC

Atividade de Econometria

3

Atividade de Econometria

Econometria

UFF

Texto de pré-visualização

UNIVERSIDADE FEDERAL DE MINAS GERAIS FACULDADE DE CIÊNCIAS ECONÔMICAS CURSO DE CIÊNCIAS ECONÔMICAS DISCIPLINA ECONOMETRIA II GRUPO 14 LUCAS FIALHO AMARAL SÉRIE TEMPORAL IPCA MENSAL 1995 2019 1 Introdução A metodologia BoxJenkins amplamente utilizada em modelagem de séries temporais fornece uma abordagem sistemática e iterativa para identificar estimar e diagnosticar modelos autorregressivos integrados de médias móveis ARIMA Este trabalho aplica essa metodologia ao Índice Nacional de Preços ao Consumidor Amplo IPCA mensal no período de janeiro de 1995 a dezembro de 2019 O IPCA principal indicador oficial de inflação no Brasil é um componente fundamental para a análise econômica sendo extremamente utilizado para formulação de políticas públicas e decisões empresariais O objetivo do estudo é ajustar um modelo univariado que permita realizar análises precisas para a série histórica do IPCA explorando padrões subjacentes e características específicas da série como sazonalidade e tendências As etapas metodológicas incluem a análise exploratória da série testes de estacionariedade identificação de modelos candidatos avaliação por critérios de informação e validação do modelo ajustado com base em testes estatísticos O recorte temporal encerrando em 2019 evita os efeitos das quebras estruturais associadas à pandemia de COVID19 garantindo maior robustez às alterações realizadas 2 Identificação Figura 1 IPCA variação mensal 19952019 Ao analisar o gráfico da série podemos observar que não há uma tendência clara ao longo do período analisado Porém para compreender melhor o comportamento da série é fundamental verificar a presença de sazonalidade que se manifesta como variações periódicas em intervalos regulares como meses ou estações do ano Identificar a sazonalidade é crucial para etapas de previsão pois permite compreender padrões recorrentes e ajustálos adequadamente Para isso foi realizada a decomposição da série além da análise dos gráficos de Autocorrelação Simples FAC e Parcial FACP que oferecem uma visão detalhada dos componentes sazonais Essa análise é essencial para ajustar a série eliminando o efeito sazonal o que facilita a transformação da série em estacionária e assim possibilita a aplicação de modelos preditivos com maior precisão A Função de Autocorrelação FAC e a Função de Autocorrelação Parcial FACP Figura 2 indicam o grau de correlação entre os valores da série e seus valores passados em diferentes defasagens lags Essas ferramentas são amplamente utilizadas para identificar padrões de dependência temporal em séries Ao analisar os gráficos observase que a FAC apresenta um decaimento exponencial o que indica uma série estacionária onde os valores se estabilizam ao longo do tempo Já a FACP mostra um truncamento após o primeiro lag ou seja apenas a autocorrelação do primeiro lag é significativa Esse comportamento é característico de um processo autorregressivo de ordem 1 Figura 2 FAC e FACP Figura 3 Decomposição da série O primeiro componente chamado de observado corresponde à série original que está sendo analisada neste caso o IPCA mensal de 1995 a 2019 Ao examinar o período não é possível identificar uma tendência de longo prazo na série Esse comportamento é reforçado pelo componente de tendência que também não apresenta uma direção clara ao longo do tempo O componente sazonal evidencia padrões recorrentes que ocorrem em intervalos regulares como pode ser observado nas flutuações repetitivas do gráfico Esses padrões sazonais são fundamentais para identificar comportamentos cíclicos na série frequentemente associados a fatores sazonais ou periódicos Por fim a componente aleatória ou residual também chamada de ruído da série captura as variações não explicadas pela tendência ou pela sazonalidade Como observado ela varia de forma irregular e não apresenta um padrão específico refletindo os efeitos de eventos imprevisíveis e aleatórios ao longo do tempo Testes de raiz unitária Uma das primeiras etapas ao trabalhar com séries temporais é verificar se a série é estacionária Para realizar análises adequadas e criar modelos preditivos é fundamental que a série seja estacionária Agora vamos explorar como identificar a estacionariedade de uma série temporal utilizando alguns testes Tabela 1 O Teste Augmented DickeyFuller ADF é utilizado para verificar a presença de uma raiz unitária em uma série temporal ou seja para determinar se a série é estacionária ou não A hipótese nula H0 do teste é que a série não é estacionária possui uma raiz unitária enquanto a hipótese alternativa H1 é que a série é estacionária Agora vamos analisar os resultados sob a ótica dos testes de PhillipsPerron Tabela 2 Ao observarmos o teste com tendência trend o valor do teste t tau3 é 8264 que é significativamente mais negativo do que o valor crítico de 398 para o nível de 1 Isso indica que podemos rejeitar a hipótese nula sugerindo que a série é estacionária Essa conclusão é reforçada ao analisarmos os testes com drift e nome No Teste de PhillipsPerron PP a hipótese nula H0 também é que a série não é estacionária ou seja ela possui uma raiz unitária A hipótese alternativa H1 é que a série é estacionária ou seja não possui raiz unitária Ao analisarmos o teste mais profundamente observamos que o valor do teste Ztau é significativamente mais negativo do que os valores críticos para todos os níveis de significância 1 5 e 10 Isso indica que podemos rejeitar a hipótese nula de que a série possui uma raiz unitária o que sugere que a série é estacionária e pode ser utilizada para modelagem e previsões Esses resultados corroboram os achados dos testes ADF e confirmam a ausência de raiz unitária 3 Estimação A fase de estimação é uma etapa essencial na Metodologia BoxJenkins para que se consiga realizar modelagem de séries temporais Nesse estágio diferentes modelos são testados com o objetivo de identificar o que oferece a melhor previsão dos dados Durante esse processo ajustouse modelos ARIMA que combinam componentes autorregressivos AR de média móvel MA e a parte de integração I além de considerar a sazonalidade quando necessário A escolha do modelo ideal é feita com base em critérios como AIC e BIC que ajudam a equilibrar a complexidade do modelo com sua capacidade de previsão Assim conseguimos encontrar o modelo mais eficiente com a menor quantidade de parâmetros mas que ainda seja capaz de gerar especificações específicas Para realizar essa etapa foram testados 9 modelos Tabela 3 Modelo 1 001 100 Estimativa Desvio Padrão Z valor P valor MA1 060562 004138 1463470 22e16 SAR1 053956 007784 693170 4159e12 Intercepto 069533 009306 747170 7914e14 Modelo 2 100 100 Estimativa Desvio Padrão Z valor P valor MA1 079627 005106 1559610 22e16 SAR1 050509 007642 660970 3852e11 Intercepto 079007 023595 334840 00008128 Modelo 3 101 101 Estimativa Desvio Padrão Z valor P valor AR1 080414 008158 985720 22e16 MA1 000323 015076 002170 098266 SAR1 066561 015055 442120 9815e06 SAM1 020284 019354 104810 029461 Intercepto 082588 028809 286670 0004148 Modelo 4 101 001 Estimativa Desvio Padrão Z valor P valor AR1 077214 008617 896090 22e16 MA1 008441 014933 056530 057190 SMA1 040276 006760 595810 2552e09 Intercepto 071854 016626 432180 1547e05 Modelo 5 201 100 Estimativa Desvio Padrão Z valor P valor AR1 042790 029987 142690 015360 AR2 026684 0247085 108000 028016 MA1 041710 024709 146000 014430 SAR1 049916 028569 646700 9997e11 Intercepto 077512 022042 351650 00004373 Modelo 5 201 100 Estimativa Desvio Padrão Z valor P valor AR1 082490 007600 108545 22e16 AR2 002305 0077052 029910 076490 SMA1 039970 006733 593670 2908e09 Intercepto 072618 017576 413180 3600e05 Modelo 6 200 001 Estimativa Desvio Padrão Z valor P valor Na tabela 3 estão expostos os modelos estimados e analisados A primeira análise feita foi de significância para os parâmetros de cada modelo Sob esse critério Os modelos 2 8 9 e 1 são os mais adequados para atenção pois apresentam coeficientes altamente significativos com valores pvalores menores que 0001 AR1 082490 075995 108545 22e16 AR2 023046 077052 029910 076490 SMA1 039970 067327 059637 2908e09 Intercepto 072618 017576 041318 3600e05 Modelo 7 200 001 Estimativa Desvio Padrão Z valor P valor AR1 08061997 00500585 161051 22e16 AR2 00010027 SAR 1 06676172 SMA 1 02054012 01004623 20446 0040898 Intercepto 0 8240977 02822527 29197 0003504 Modelo 8 200 101 Estimativa Desvio Padrão Z valor P valor AR1 097923 002566 381553 22e16 MA1 023270 007856 296200 0003056 MA2 033620 007346 45769 4719e06 SMA1 033791 006865 492 8560e07 Intercepto 105928 007166 15097 013113 Modelo 9 100 00 1 Estimativa Desvio Padrão Z valor P valor AR1 080805 005140 1571970 22e16 SMA1 097701 006689 59458 2751e09 Intercepto 028756 018069 40333 5500e05 Após a seleção dos modelos foram realizados testes de qualidade estatística os resultados são apresentados na tabela 2 O primeiro teste utilizado foi o Critério de Informação de Akaike AIC que avaliou o equilíbrio entre a qualidade do ajuste do modelo e sua complexidade quantidade de parâmetros De forma geral o AIC penaliza modelos com muitos parâmetros buscando evitar o overfitting enquanto tenta identificar o modelo que melhor se ajusta aos dados Assim modelos com valores de AIC mais baixos são considerados melhores pois indicam um equilíbrio mais adequado entre ajuste e complexidade Tabela 4 Com base nos resultados apresentados na tabela observase que os modelos com melhor ajuste são os modelo 2 modelo 8 e modelo 9 uma vez que apresentam os menores valores nos pelo critério de AIC Além disso realizase uma análise adicional utilizando Bayes Information Criterion BIC que é uma medida estatística empregada na seleção de modelos Assim como o AIC o BIC penaliza modelos mais complexos porém a penalização no BIC ocorre de maneira mais acentuada à medida que o número de parâmetros aumenta o que faz com que o BIC leve em consideração tanto o ajuste quanto a complexidade do modelo Nesse caso os modelos com menores valores também são 2 8 e 9 Testes de critérios de informação AIC BIC modelo 1 399683 414418 modelo 2 340183 354917 modelo 8 338327 360429 modelo 9 349276 364010 4 Verificação Temse que a etapa de verificação é de extrema importância para validação e reconhecimento do modelo de BoxJenkins Diante disso será realizado a aplicabilidade de tais metodologias para melhor entendimento e certeza se o método está devidamente adequado em relação à estabilidade autocorrelação normalidade e heterocedasticidade Sendo assim será utilizado os seguintes testes Teste de Estabilidade para verificar a consistência dos parâmetros o teste de LjungBox para examinar a ausência de autocorrelação nos resíduos o teste ARCH para detectar heterocedasticidade e o teste de JarqueBera para avaliar se os resíduos seguem uma distribuição normal A Teste de Estabilidade O teste de estabilidade é utilizado para verificar se os parâmetros do modelo permanecem estáveis ao longo de determinado tempo sendo de extrema importância para garantir a confiabilidade das suas previsões Uma das maneiras de testar tal situação é por meio da visualização dos coeficientes estimados do AR eou MA como será feito a seguir Figura 3 Autoplot das raízes Modelo 02 Figura 4 Autoplot das raízes Modelo 08 Figura 5 Autoplot das raízes Modelo 09 Baseandose nos gráficos acima é identificável que os 3 modelos são estáveis pois o coeficiente AR e MA Quando aplicável são consistentes ao longo do tempo os resíduos são próximos de zero e todas as raízes gráficas se encontram dentro do círculo unitário indicando então que todos podem ser utilizados para previsões B Teste de Normalidade O teste de normalidade tem a função de verificar se os resíduos de um determinado modelo estático seguem uma distribuição normal Na sua aplicabilidade iremos escolher os testes de JarqueBera que verifica a normalidade ao medir a assimetria e a curtose dos resíduos e o teste de ShapiroWilk que avalia a amostra ao comparar os valores observados com os esperados Figura 6 Distribuição Gráfica dos resíduos do modelo 2 Figura 7 Distribuição Gráfica dos resíduos do modelo 8 Figura 8 Distribuição Gráfica dos resíduos do modelo 9 Os resultados dos testes mostram que os pvalores não são significativos o que implica na aceitação da hipótese nula de que os resíduos apresentam normalidade Assim concluise que os resíduos possuem uma distribuição normal sendo perceptível pelo gráfico e distribuição formada C Teste de Heterocedasticidade Os testes de heterocedasticidade são utilizados para validação dos resíduos sendo possível perceber se tem variância constante que é de importância para alguns testes estatísticos sendo importante destacar que a presença de heterocedasticidade pode gerar resultados enviesados e ineficientes Para validação do nosso modelo iremos utilizar o teste ARCH cuja hipótese nula é de que não tenha heterocedasticidade Tabela 5 Modelo Pvalor Modelo 02 005651 Modelo 08 01395 Modelo 09 08442 Na tabela acima é possível identificar o resultado gerado na utilização do teste ARCH Tendo em mente que estamos utilizando um nível de significância de 5 percebese que todos estão com seu indicador acima de tal percentual não rejeitando então a hipótese nula Logo a não rejeição da hipótese nula nos indica que não há evidências de heterocedasticidade D Teste de Autocorrelação Em relação a autocorrelação temse que esse indicador mede o grau de dependência entre valores de uma determinada série temporal sendo fundamental para avaliar os padrões e suas relações com demais eventos Iremos usar o modelo do teste de LjungBox para entender melhor sobre tal situação sendo importante destacar que esse teste avalia a hipótese nula de que não há autocorrelação significativa nos resíduos da série Figura 9 Distribuição Gráfica modelo 2 Standardized Residuals Time ACF of Residuals Lag p values for LjungBox statistic lag Figura 10 Distribuição Gráfica do modelo 8 Figura 11 Distribuição Gráfica dos resíduos do modelo 9 Tabela 6 Como resultado do teste temse que o modelo 2 e 9 mostram autocorrelação significativa para todas as defasagens enquanto o modelo 8 tem resultados aceitáveis indicando a ausência Modelo Lag 12 p valor Lag 24 p valor Lag 36 p valor Modelo 2 19310 8 20110 6 13110 4 Modelo 8 004726 01125 04067 Modelo 9 11710 6 34910 5 43410 4 de autocorrelação significativa nos 3 Lags sendo considerado então o modelo mais adequado E Descrição dos resultados Após realizar os testes é possível ter algumas afirmações tendo em mente os 3 modelos escolhidos para validação de sua autocorrelação heterocedasticidade normalidade e estabilidade Logo como os três primeiros testes apresentaram resultados validadores semelhantes é perceptível que o resultado de autocorrelação foi forte indicador para balizador entre a melhor opção quando considerado os 3 modelos Diante disso é possível concluir que o modelo 8 é o melhor candidato para realização de análises e verificações 5 Previsão Na etapa de previsão usamos o modelo ajustado para realizar previsões da nossa variável ipca bem como seu intervalo de confiança até 2019 No entanto existe mais de um dos modelos estimados que podem parecer adequados para realizar essa previsão sendo os modelos 28 e 9 Para verificar qual dos modelos será utilizado realizouse os testes de acurácia Nos testes de acurácia excluímos o último ano da amostra dividimos a série temporal em duas partes que chamamos de série Treino de 1994 a 2018 e de série Teste o ano de 2019 Modelo 8 Treino Parameter Coefficient Standard Error ar1 097923 002566 ma1 02327 007856 ma2 03362 007346 sma1 033791 006865 sigma2 017760112582512794 Log Likelihood 17356861207088753 AIC 35713722414177505 AICc 35733722414177504 BIC 37575514965153695 Modelo 9 Treino Parameter Coefficient Standard Error ar1 080805 00514 sma1 097701 006689 sigma2 018936535531288273 Log Likelihood 18137960016803953 AIC 36875920033607906 AICc 36883867053475456 BIC 3799299556419362 Depois de realizar esses testes em cada um dos modelos realizase a previsão para o período de teste 2019 Modelo 2 Previsao Observed Predicted Periodos Values Modelo 8 Forecasts from ARIMA11210012 Training Data Test Data 2019 Forecast ARIMA11210012 Modelo 8 Observed vs Predicted Observed Predicted Model 8 Modelo 9 Para verificar quais modelos apresentam os melhores resultados foi realizado um teste de acurácia por meio da comparação das métricas de desempenho O ME Média dos Erros que mede o viés do modelo indicou valores relativamente próximos de zero para os três modelos sugerindo que nenhum deles apresenta viés significativo O RMSE Raiz Quadrada da Média dos Erros Quadráticos que penaliza mais os erros grandes indicou que o Modelo 8 tem o menor valor sugerindo melhor ajuste A MAE Média Absoluta dos Erros e o MAPE Média Absoluta dos Erros Percentuais que avaliam a magnitude média dos erros e sua versão percentual respectivamente indicam que o Modelo 8 apresenta os melhores resultados seguido do Modelo 9 com o Modelo 2 apresentando o pior desempenho relativo Esses resultados sugerem que o Modelo 8 fornece previsões mais precisas em termos de magnitude do erro Já o MPE Média Percentual dos Erros que mede o viés percentual apresentou valores mais próximos de zero para o Modelo 9 indicando menor viés percentual em suas previsõesPortanto com base nos valores analisados o Modelo 8 apresenta o desempenho geral mais robusto especialmente em termos de precisão absoluta e percentual enquanto o Modelo 9 mostra desempenho competitivo com menor viés percentual O Modelo 2 por sua vez tem um desempenho inferior em comparação aos outros dois modelos nas métricas analisadas 6 Código PROCEDIMENTOS INICIAIS Instalar pacotes installpackagesreadxl installpackagesurca installpackagestseries installpackagesforecast installpackageslmtest installpackagesFinTS installpackagesggplot2 libraryreadxl libraryurca librarytseries libraryforecast librarylmtest libraryFinTS libraryggplot2 Importar dados de IPCA Load the data libraryreadxl base readexcelCUserskamilerochaDesktopeconometria iiipcaxlsx Viewbase ipca tsbaseipca start c19951 end c202410 frequency 12 ipca ETAPA 1 IDENTIFICAÇÃO Análise grafica strbaseipca baseipca asnumericgsub baseipca ipca tsbaseipca start c19957 end c201912 frequency 12 ipca Grafico da serie parmfrow c1 1 plotipca main IPCA mensal19952019 xlab Periodo ylab Funcao monthplot detectar sazonalidade monthplotipca main Monthplot 19942024 ylab Funcao boxplot detectar sazonalidade boxplotipca cycleipca main Boxplot 19952019 ylab xlab Decomposiocada serie temporal plotstlipca swindowperiodic plotdecomposeipca FAC e FACP parmfrowc21 acfipcalagmax36 main FAC xlab Defasagem ylab pacfipcalagmax36 main FACP xlab Defasagem ylab Testes de raíz unitária Teste ADF H0 nao estacionario Em nivel summaryurdfipca typectrendlags12 selectlags BIC summaryurdfipca typecdriftlags12 selectlags BIC summaryurdfipca typecnonelags12 selectlags BIC Em primeira diferena summaryurdfdiffipca typectrendlags12 selectlags BIC summaryurdfdiffipca typecdriftlags12 selectlags BIC summaryurdfdiffipca typecnonelags12 selectlags BIC Teste de PP H0 nao estacionario Em nivel summaryurppipcatypecZtau modelctrend lagscshort summaryurppipcatypecZtau modelcconstant lagscshort Em primeira diferena summaryurppdiffipcatypecZtau modelctrend lagscshort summaryurppdiffipcatypecZtau modelcconstant lagscshort Comparando a variavel em nivel e em primeira diferenca parmfrowc21 plotipca main IPCA BR Em nivel xlab Período ylab plotdiffipca main IPCA BR Em primeira diferena xlab Período ylab parmfrowc22 acfipcalagmax36 main FAC xlab Defasagem ylab pacfipcalagmax36 main FACP xlab Defasagem ylab acfdiffipcalagmax36 main FAC Diff xlab Defasagem ylab pacfdiffipcalagmax36 main FACP Diff xlab Defasagem ylab ETAPA 2 ESTIMACAO Candidatos a melhor modelo SARIMApdqxPDQ fit1 coeftestArimaipca orderc001 seasonalc100 includeconstant Tfit1 ok fit2 coeftestArimaipca orderc100 seasonalc100 includeconstant Tfit2 ok autoarima fit3 coeftestArimaipca orderc101 seasonalc101 includeconstant Tfit3 não fit4 coeftestArimaipca orderc101 seasonalc001 includeconstant Tfit4 não fit5 coeftestArimaipca orderc201 seasonalc100 includeconstant Tfit5 não fit6 coeftestArimaipca orderc200 seasonalc001 includeconstant Tfit6 não fit7 coeftestArimaipca orderc200 seasonalc101 includeconstant Tfit7 não fit8 coeftestArimaipca orderc102 seasonalc001 includeconstant Tfit8 ok fit9 coeftestArimaipca orderc100 seasonalc001 includeconstant Tfit9 ok autoarimaipca ic bic test adf Criterios de informacao mod1Arimaipca orderc001 seasonalc100 includeconstant T mod1 mod2Arimaipca orderc100 seasonalc100 includeconstant T mod2 autoarima mod8Arimaipca orderc102 seasonalc001 includeconstant T mod8 mod9Arimaipca orderc100 seasonalc001 includeconstant T mod9 AICmod1mod2mod8mod9 BICmod1mod2mod8mod9 com base nos critérios acima analisaremos na etapa de verificação o modelo os modelos mod2 mod8 e mod9 ETAPA 3 VERIFIÇÃO Teste de estabilidade autoplotmod2 autoplotmod8 autoplotmod9 Testes dos residuos Teste de heteroscedasticidade Teste ARCH H0 os residuos nao possuem efeitos auto regressivos de heteroscedasticidade condicional ArchTestmod2residualslags 12 ArchTestmod8residualslags 12 ArchTestmod9residualslags 12 Autocorrelao Teste de LjungBox H0 os residuos sao iid tsdiagmod2 res2residualsmod2 Boxtestres2lag12typeLjungBox Boxtestres2lag24typeLjungBox Boxtestres2lag36typeLjungBox tsdiagmod8 res8residualsmod8 Boxtestres8lag12typeLjungBox Boxtestres8lag24typeLjungBox Boxtestres8lag36typeLjungBox tsdiagmod9 res9residualsmod9 Boxtestres9lag12typeLjungBox Boxtestres9lag24typeLjungBox Boxtestres9lag36typeLjungBox Normalidade Teste de JarqueBera H0 normalidade dos residuos parmfrowc22 histres2 freqF ylabDensidade xlabResduos mainResduos plotdensityres2 kernel cgaussian mainResduos Funo de densidade estimada qqnormres2 ylabQuantis amostrais xlabQuantis tericos mainQuantilQuantil qqlineres2 col red shapirotestres2 jarqueberatestres2 parmfrowc22 histres8 freqF ylabDensidade xlabResduos mainResduos plotdensityres8 kernel cgaussian mainResduos Funo de densidade estimada qqnormres8 ylabQuantis amostrais xlabQuantis tericos mainQuantilQuantil qqlineres8 col red shapirotestres8 jarqueberatestres8 parmfrowc22 histres9 freqF ylabDensidade xlabResduos mainResduos plotdensityres9 kernel cgaussian mainResduos Funo de densidade estimada qqnormres9 ylabQuantis amostrais xlabQuantis tericos mainQuantilQuantil qqlineres9 col red shapirotestres9 jarqueberatestres9 ETAPA 4 PREVISAO Testes de acuracia Teste de acuracia dentro da amostra amostra inteira como treino accuracymod2 accuracymod8 accuracymod9 Teste de acuracia fora da amostra usando ano x Modelo 2 ipcatest tailipca12 definindo a serie teste ipcatest ipcatrain headipca lengthipca12 definindo a serie treino ipcatrain mod2trainautoarimaipcatrain mod2train fcmod2train forecastmod2train h 12 fcmod2train parmfrowc11 plotfcmod2train accuracyfcmod2trainmeanipcatest comparando dados reais com previstos dftest2 tsdataframecbindfcstfcmod2trainmeanobsipcatest juntando colunas autoplotdftest22 series Observado autolayerdftest21 series Previsao labstitle IPCA Periodojan2019dez2019 x Periodos y color Previsao Modelo 8 ipcatest tailipca12 definindo a serie teste ipcatest ipcatrain headipca lengthipca12 definindo a serie treino ipcatrain mod8trainArimaipcatrain orderc111 seasonalc100 includeconstant TRUE mod8train fcmod8train forecastmod8train h 12 fcmod8train parmfrowc11 plotfcmod8train include 24 showgap F accuracyfcmod8trainmeanipcatest dftest8 tsdataframecbindfcstfcmod8trainmeanobsipcatest autoplotdftest82 series Observado autolayerdftest81 series Previsao labstitle IPCA Periodo Jan2019 Dez2019 x Periodos y color Previsao Modelo 9 ipcatest tailipca12 definindo a serie teste ipcatest ipcatrain headipca lengthipca12 definindo a serie treino ipcatrain mod9trainArimaipcatrain orderc111 seasonalc100 includeconstant TRUE mod9train fcmod9train forecastmod8train h 12 fcmod9train parmfrowc11 plotfcmod9train include 24 showgap F accuracyfcmod9trainmeanipcatest dftest9 tsdataframecbindfcstfcmod9trainmeanobsipcatest autoplotdftest92 series Observado autolayerdftest91 series Previsao labstitle IPCA Periodo Jan2019 Dez2019 x Periodos y color Previsao Fim Objetivo realizar uma análise de previsão para um modelo univariado a partir da Metodologia BoxJenkins Data de entrega 05052025 até às 2359 Formato o trabalho deve ser feito pelos grupos previamente definidos e enviados até a data limite nesta atividade do Moodle no formato PDF Estrutura do trabalho o Capa do trabalho com título indicando i o nome da série escolhida ii a letra correspondente ao grupo e iii os nomes completos dos integrantes do grupo o Itens que serão avaliados 1 Identificação da série Gráfico da série FAC e FACP Decomposição da série Testes de raiz unitária Descrição dos resultados 2 Estimação Modelos candidatos Critérios de informação Descrição dos resultados 3 Verificação do modelo ajustado Teste de estabilidade Teste de autocorrelação Teste de normalidade Teste de heterocedasticidade Descrição dos resultados 4 Previsão Gráficos Tabela com os valores previstos Critérios de acurácia Descrição dos resultados 5 Código Copiar e colar o código utilizado no modelo o Dicas 1 Escolham séries longas com no mínimo 60 observações O ideal é que sejam séries de periodicidade ou mensal ou trimestral 2 Devido ao choque adverso provocado pela pandemia muitas séries terão quebras estruturais grandes a partir de 2020 Sugiro que realizem previsões considerando valores observados até dezembro de 2019 Um exercício interessante mas não obrigatório é justamente comparar os resultados das previsões para 2020 com os valores observados até então para vermos o desvio provocado pela pandemia em relação à previsão com base nos dados até dezembro de 2019 3 Sugestões de fontes Ipeadata httpwwwipeadatagovbrDefaultaspx Banco Central do Brasil httpsdadosabertosbcbgovbr Federal Reserve Bank of St Louise httpsfredstlouisfedorg UNIVERSIDADE FEDERAL DE MINAS GERAIS FACULDADE DE CIÊNCIAS ECONÔMICAS CURSO DE CIÊNCIAS ECONÔMICAS DISCIPLINA ECONOMETRIA II GRUPO MODELAGEM ARIMA APLICADA À SÉRIE DE BENS DE CONSUMO MENSAL UMA ABORDAGEM BOXJENKINS CIDADE MG 2025 Sumário 1 Introdução 3 2 Identificação da Série 4 21 Análise Gráfica 4 22 Função de Autocorrelação FAC e Autocorrelação Parcial FACP 6 23 Decomposição da Série 8 24 Testes de Estacionariedade 8 3 Estimação 10 4 Verificação do Modelo 13 41 Estabilidade dos Parâmetros 13 42 Normalidade dos Resíduos 14 43 Heterocedasticidade dos Resíduos 16 44 Autocorrelação dos Resíduos 16 45 Conclusão 17 5 Previsões 17 6 Referências 21 7 Código 22 1 Introdução A análise de séries temporais constitui uma importante ferramenta estatística utilizada para investigar o comportamento de variáveis observadas ao longo do tempo Diferentemente de conjuntos de dados convencionais as séries temporais são caracterizadas pela dependência entre observações adjacentes sendo fundamentais em diversos campos de pesquisa econômica financeira e social De acordo com Box et al 2015 cada dado está associado a um ponto específico no tempo o que permite explorar padrões dinâmicos como tendência sazonalidade e componentes aleatórios Neste contexto destacase a metodologia BoxJenkins desenvolvida por Box e Jenkins na década de 1970 como uma das abordagens mais sistemáticas e consagradas para modelagem de séries temporais Essa metodologia é especialmente voltada para a identificação estimação e verificação de modelos autorregressivos integrados de médias móveis ARIMA cuja estrutura flexível permite captar diferentes comportamentos e componentes da série analisada O processo é iterativo e exige a combinação entre análise gráfica testes estatísticos e critérios de informação para garantir a robustez e a parcimônia do modelo Hyndman Athanasopoulos 2018 O presente estudo tem como objetivo aplicar a metodologia BoxJenkins à série mensal do Índice de Produção de Bens de Consumo no Brasil com dados disponibilizados pelo Instituto Brasileiro de Geografia e Estatística IBGE abrangendo o período de janeiro de 2002 a fevereiro de 2025 e o auxílio do software R para a modelagem da série Esta série representa um importante indicador da atividade econômica industrial refletindo o desempenho do setor de bens de consumo no país ao longo do tempo A escolha por essa série justificase não apenas por sua relevância macroeconômica mas também por sua extensão temporal e granularidade mensal que permitem uma aplicação dos métodos de modelagem Dentre as principais etapas metodológicas destacamse a análise exploratória da série incluindo gráficos funções de autocorrelação e decomposição testes de estacionariedade como o teste de Dickey Fuller aumentado identificação de modelos candidatos via análise dos resíduos e critérios de informação AIC BIC além da verificação da adequação do modelo ajustado por meio de testes de diagnóstico Além disso os últimos 12 valores da série serão reservados como dados de teste permitindo a avaliação da capacidade preditiva do modelo ajustado A comparação entre os valores previstos e os observados nesse intervalo fornece uma medida objetiva de acurácia essencial para validar a performance do modelo ARIMA proposto 2 Identificação da Série Nesta etapa será realizada a análise exploratória da série temporal do Índice de Produção de Bens de Consumo com o objetivo de identificar padrões estruturais como tendência sazonalidade e possíveis rupturas que auxiliem na escolha de um modelo apropriado para previsão A análise será conduzida por meio da inspeção gráfica da série cálculo das funções de autocorrelação FAC e autocorrelação parcial FACP decomposição da série e aplicação de testes de estacionariedade 21Análise Gráfica A Figura 1 apresenta a série completa do Índice de Bens de Consumo no período de janeiro de 2002 a fevereiro de 2025 obtida por meio da base da Pesquisa Industrial Mensal Produção Física PIMPF divulgada pelo Instituto Brasileiro de Geografia e Estatística IBGE Figura 1 Série mensal dos Bens e Consumo do Brasil de jan2002 a fev2025 A Figura 1 revela um comportamento de crescimento consistente no índice de produção de bens de consumo entre julho de 2003 e outubro de 2014 evidenciando um período de expansão da atividade industrial voltada ao consumo A partir de outubro de 2014 observase uma inflexão na trajetória da série marcada por uma queda expressiva que indica um processo de retração A queda mais acentuada no entanto ocorreu em abril de 2020 quando o índice atingiu seu menor valor 7444 refletindo os efeitos da crise sanitária e econômica gerada pela pandemia da Covid19 Em seguida a série apresentou uma rápida recuperação atingindo 11213 em janeiro de 2021 Contudo esse movimento de alta foi interrompido e a série voltou a apresentar sinais de enfraquecimento Atualmente observase uma tendência de queda embora com comportamento sazonal persistente caracterizado por flutuações cíclicas regulares ao longo do tempo Com o objetivo de avaliar a capacidade preditiva do modelo a ser ajustado os últimos 12 valores da série foram separados como conjunto de teste Essa divisão é importante para que a validação do modelo ocorra com base em dados não utilizados no treinamento conforme sugerido por Box et al 2015 A série utilizada para estimação portanto compreende o intervalo de janeiro de 2002 a fevereiro de 2024 como apresentado na Figura 2 Figura 2 Série de treino do Índice de Produção de Bens de Consumo jan2002 a fev2024 A Figura 2 mantém as características observadas na série original permitindo a análise e identificação de um modelo ajustado com base em dados históricos enquanto a porção final será utilizada posteriormente para avaliar o desempenho das previsões geradas 22Função de Autocorrelação FAC e Autocorrelação Parcial FACP A Figura 3 apresenta a função de autocorrelação FAC e a função de autocorrelação parcial FACP ambas calculadas sobre a série de treino FAC e FACP indicam o grau de correlação entre os valores da série e seus valores passados em diferentes defasagens lags Essas ferramentas são amplamente utilizadas para identificar padrões de dependência temporal em séries Figura 3 Função de Autocorrelação FAC e a Função de Autocorrelação Parcial FACP A Figura 3 apresenta os gráficos da FAC e FACP da série em nível A FAC exibe um padrão de decaimento exponencial sugerindo que os efeitos das autocorrelações diminuem gradualmente à medida que o número de defasagens aumenta Esse comportamento é típico de uma estrutura autorregressiva indicando que os valores passados influenciam os presentes mas com intensidade decrescente ao longo do tempo Por outro lado a FACP apresenta um corte abrupto após a primeira defasagem lag 1 com significância apenas nesse primeiro ponto e ausência de significância nos demais Esse padrão é característico de um modelo autorregressivo de ordem 1 𝐴𝑅1 conforme descrito por Box Jenkins e Reinsel 2008 e sugere que a série pode ser bem representada por esse tipo de processo Ainda assim análises complementares como testes de estacionariedade são necessárias para confirmar essa estrutura 23Decomposição da Série A decomposição da série temporal é apresentada na Figura 4 Foi utilizada a decomposição multiplicative separando a série nos componentes tendência sazonalidade e ruído Figura 4 Decomposição da Série Temporal Tendência Sazonalidade e Resíduo A decomposição confirma a presença de sazonalidade estável ao longo dos anos e uma tendência oscilante sem comportamento determinístico definido O componente de ruído parece não seguir um padrão específico como esperado em séries que possuem características de ruído branco A sazonalidade está alinhada com a estrutura de produção industrial do país que apresenta ciclos mensais recorrentes geralmente relacionados à demanda e ao calendário comercial 24Testes de Estacionariedade A análise da estacionariedade ou também conhecido como o teste da raiz unitária foi realizada com base no Teste de DickeyFuller Aumentado ADF Esse teste verifica se a série possui raiz unitária sendo as seguintes hipóteses 𝐻0 𝛿 0 𝑛ã𝑜 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛á𝑟𝑖𝑎 𝐻1 𝛿 0 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛𝑎𝑟𝑖𝑎 O resultado do teste com a série de treino foi Figura 5 Teste ADF com a série treino O teste ADF foi aplicado à série em nível e o pvalor obtido foi superior a 005 não permitindo a rejeição da hipótese nula ao nível de significância de 5 Isso indica que a série em seu formato original não é estacionária Foi então realizada a primeira diferenciação da série e o teste ADF reaplicado Figura 6 Teste ADF com a série após a primeira diferenciação Após a primeira diferenciação o pvalor passou a ser inferior a 005 permitindo rejeitar a hipótese nula o que indica que a série diferenciada é estacionária em primeira ordem ou seja integrada de ordem 1 Esse resultado valida o uso da estrutura ARIMA para o ajuste do modelo O gráfico da Figura 7 mostra a série estacionaria após a diferenciação Figura 7 Série temporal após a Diferenciação 3 Estimação A etapa de estimação tem como objetivo identificar a partir das características observadas da série os modelos ARIMA candidatos que melhor representam sua estrutura temporal De acordo com a metodologia BoxJenkins a seleção do modelo adequado considera a estacionariedade da série os padrões das funções de autocorrelação FAC e autocorrelação parcial FACP bem como os critérios de informação como o AIC Akaike Information Criterion e o BIC Bayesian Information Criterion Conforme verificado na etapa de identificação a série original não apresentou características de estacionariedade Dessa forma foi realizada uma diferenciação de ordem 1 sendo este o valor fixado para 𝑑 em todos os modelos estimados A diferenciação é uma técnica que transforma uma série não estacionária em estacionária ao subtrair o valor atual do anterior permitindo a aplicação de modelos ARIMA Box et al 2008 Com a série diferenciada foram testados diferentes modelos 𝐴𝑅𝐼𝑀𝐴𝑝 𝑑 𝑞 incluindo combinações com componentes autorregressivos AR e de média móvel MA além de estruturas sazonais do tipo 𝐴𝑅𝐼𝑀𝐴𝑝 𝑑 𝑞𝑃 𝐷 𝑄12 considerando a frequência mensal da série A avaliação da qualidade dos modelos candidatos foi feita por meio da comparação dos valores de AIC e BIC conforme sugerido por Burnham e Anderson 2002 A Tabela 1 apresenta os modelos candidatos estimados e os respectivos valores dos critérios de informação Tabela 1 Modelos ARIMA candidatos com seus valores de AIC e BIC MODELOS ESTIMATIVAS PVALOR AIC BIC ARIMA010 141192 14155 ARIMA110 AR1 00170 07823 141385 142101 ARIMA111 AR1 07421 MA1 08668 0 0 140321 141465 ARIMA211 AR1 07783 AR2 01209 MA1 08459 0 006179 0 140253 141685 ARIMA212 AR1 09867 AR2 02779 MA1 10573 MA2 01893 02279 06438 02092 07994 140439 142229 ARIMA111011 AR1 07321 MA1 08828 SMA1 09182 0 0 0 138409 139822 ARIMA111110 AR1 08113 MA1 09790 SAR1 04296 0 0 0 145563 146976 ARIMA211011 AR1 07605 AR2 01026 MA1 08454 SMA1 09313 0 0127 0 0 138382 140149 ARIMA211111 AR1 07642 AR2 01020 0 01295 138544 140664 MA1 08489 SAR1 0452 SMA1 09559 0 05416 0 ARIMA211210 AR1 08284 AR2 00547 MA1 09537 SAR1 05697 SAR2 02994 0 06365 0 0 0 143568 145688 Fonte Elaboração própria com os resultados do R Com base nos resultados apresentados na Tabela 1 é possível realizar uma análise comparativa entre os modelos ARIMA estimados levando em consideração os critérios de informação AIC e BIC a significância estatística dos parâmetros e a estrutura de cada modelo Inicialmente os modelos não sazonais como o ARIMA010 ARIMA110 ARIMA111 e ARIMA212 apresentam valores de AIC e BIC significativamente superiores aos modelos com componentes sazonais Por exemplo o ARIMA010 que representa um passeio aleatório simples apresentou AIC de 141192 sendo claramente inferior em termos de ajuste comparado aos demais O ARIMA111 e o ARIMA211 mostraram bons desempenhos em termos de AIC 140321 e 140253 respectivamente além de apresentarem parâmetros estatisticamente significantes pvalores próximos de zero o que indica que a inclusão de termos autorregressivos e de média móvel contribui para melhorar o ajuste da série Entretanto ao incluir a sazonalidade no modelo observase uma melhora substancial no ajuste O modelo ARIMA111011 reduziu o AIC para 138409 e o BIC para 139822 com todos os parâmetros estatisticamente significantes sugerindo um bom ajuste e capacidade explicativa da sazonalidade presente na série Modelos mais complexos como o ARIMA211011 e o ARIMA211111 apresentam AIC ainda menor 138382 e 138544 respectivamente indicando leve superioridade na qualidade do ajuste Contudo o aumento da complexidade estrutural com maior número de parâmetros refletese no aumento do BIC que penaliza modelos mais parametrizados Além disso no modelo ARIMA211011 o parâmetro AR2 tem pvalor de 0127 não sendo estatisticamente significativo ao nível de 5 o que sugere que ele pode ser descartado O modelo ARIMA111110 apesar de contar com todos os parâmetros significativos apresentou o maior AIC da tabela de 145563 entre os modelos sazonais sendo descartado por pior desempenho preditivo Por fim o modelo ARIMA211210 embora tenha parâmetros significativos apresenta um AIC de 143568 consideravelmente maior que os modelos com estrutura mais simples sem ganhos substanciais de desempenho que justifiquem sua complexidade Pode se concluir que o modelo ARIMA211011 se destaca por apresentar o menor valor de AIC 138382 entre todos os modelos avaliados aliado a um bom desempenho do BIC 140149 e parâmetros majoritariamente significativos Esse modelo captura tanto a dependência temporal quanto a estrutura sazonal da série sendo o mais indicado para representar os dados observados É importante destacar que a ordem de diferenciação 𝑑 1 e 𝐷 1 foi mantida em todos os modelos em função da identificação da série como não estacionária sendo necessário aplicar uma diferença regular e uma diferença sazonal para estabilizar a média ao longo do tempo BOX et al 2008 4 Verificação do Modelo A etapa de verificação é essencial no processo de modelagem segundo a metodologia BoxJenkins pois permite avaliar se o modelo ajustado atende aos pressupostos estatísticos necessários para garantir previsões confiáveis Neste contexto a análise de resíduos é utilizada para verificar a estabilidade dos parâmetros estimados a ausência de autocorrelação a constância da variância homocedasticidade e a normalidade da distribuição dos erros Para isso foram aplicados os seguintes testes análise das raízes do polinômio característico para estabilidade o teste de LjungBox autocorrelação o teste ARCH heterocedasticidade e os testes de normalidade de ShapiroWilk e Jarque Bera 41Estabilidade dos Parâmetros A estabilidade dos parâmetros estimados ao longo do tempo é fundamental para garantir que o modelo mantenha sua capacidade preditiva mesmo em diferentes períodos Para essa verificação foi utilizado o gráfico das raízes do polinômio autoregressivo e de médias móveis apresentado na Figura 8 A presença das raízes dentro do círculo unitário indica que o modelo é estável Figura 8 Gráfico das raízes do modelo ARIMA211011 A análise gráfica da Figura 8 mostra que todas as raízes associadas aos parâmetros AR e MA estão dentro do círculo unitário o que evidencia que o modelo é estável e adequado para fins de previsão 42Normalidade dos Resíduos A verificação da normalidade dos resíduos é fundamental uma vez que esse pressuposto sustenta diversos testes inferenciais e é crucial para a construção de intervalos de confiança e previsões com margem de erro confiável Para essa análise foram aplicados os testes de ShapiroWilk e JarqueBera além de representações gráficas como histogramas e a curva de densidade que auxiliam na inspeção visual da distribuição dos resíduos As hipóteses dos testes são 𝐻0 𝑂𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝑠𝑒𝑔𝑢𝑒𝑚 𝑢𝑚𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑛𝑜𝑟𝑚𝑎𝑙 𝐻1 𝑂𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝑛ã𝑜 𝑠𝑒𝑔𝑢𝑒𝑚 𝑢𝑚𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑛𝑜𝑟𝑚𝑎𝑙 O gráfico da Figura 9 trás o histograma e a curva de densidades dos resíduos do modelo selecionado Figura 9 Histograma e curva de densidade dos resíduos do modelo Conforme observado na Figura 9 a distribuição dos resíduos apresenta uma forma simétrica e concentrada em torno de zero sugerindo aderência a uma distribuição gaussiana com média nula Para corroborar essa evidência visual a Tabela 2 apresenta os resultados dos testes formais de normalidade aplicados aos resíduos Tabela 2 Resultados dos testes de normalidade TESTE ESTATÍSTICA PVALOR ShapiroWilk 097344 0127 JarqueBera 38211 0148 Fonte Elaboração própria Os resultados dos testes apresentados na Tabela 2 mostra que os pvalores dos testes foram superiores a 5 o que indica que não há evidência estatística suficiente para rejeitar a hipótese nula de normalidade dos resíduos Essa conclusão é reforçada pela forma aproximadamente simétrica do histograma sugerindo que os resíduos seguem de fato uma distribuição aproximadamente normal 43 Heterocedasticidade dos Resíduos A verificação da homocedasticidade ou seja a constância da variância dos resíduos ao longo do tempo é essencial para garantir a robustez das estimativas e a confiabilidade do modelo Para isso foi utilizado o teste ARCH que tem como hipóteses 𝐻0 𝐻𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑𝑒 𝑑𝑜𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝐻1 𝐻𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑𝑒 𝑑𝑜𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 O pvalor obtido para o teste ARCH foi 038 que é significativamente superior ao nível de significância de 5 Dessa forma não rejeitamos a hipótese nula o que indica que não há evidências de heterocedasticidade condicional nos resíduos Assim o modelo ARIMA211011 atende ao pressuposto de variância constante ao longo do tempo permitindo garantir a estabilidade dos resultados para futuras previsões 44Autocorrelação dos Resíduos A ausência de autocorrelação serial nos resíduos é outra condição importante para validar a qualidade do modelo Foi aplicado o teste de LjungBox que avalia se há autocorrelação significativa para diferentes defasagens as hipóteses do teste são 𝐻0 𝑁ã𝑜 ℎá 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝑑𝑜𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝐻1 𝐻á 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝑑𝑜𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 A Tabela 3 mostra o pvalores do teste para diferentes níveis de defasagem Tabela 3 Teste de LjungBox para diferentes lags LAG PVALOR 12 05514 24 009951 36 01923 48 0231 Fonte Elaboração própria Os resultados indicam que para os quatro níveis de defasagem analisados os resíduos não apresentam autocorrelação estatisticamente significativa validando a adequação do modelo também nesse critério 45Conclusão Após a aplicação dos testes de estabilidade normalidade homocedasticidade e autocorrelação constatouse que o modelo ARIMA211011 apresenta um comportamento satisfatório dos resíduos Todas as suposições básicas foram atendidas confirmando que o modelo é estatisticamente consistente e adequado para previsão da série temporal analisada 5 Previsões Após a validação do modelo ARIMA211011 por meio dos testes de estabilidade normalidade ausência de heterocedasticidade e autocorrelação dos resíduos procedese à etapa de previsão a qual tem como principal objetivo fornecer estimativas futuras da série temporal com base em seu comportamento histórico A capacidade preditiva de um modelo é uma das suas características mais relevantes sobretudo em contextos em que decisões dependem de projeções acuradas A previsão foi realizada para os próximos 12 períodos compatível com a estrutura sazonal anual detectada na série A Figura 10 apresenta os valores previstos juntamente com os intervalos de confiança de 95 representando a margem de incerteza associada às estimativas Figura 10 Previsão para os próximos 12 meses com intervalo de confiança de 95 Como parte da estratégia de validação foram previamente retiradas as últimas 12 observações da série original formando uma amostra de teste que não foi utilizada na estimação do modelo Essas observações reais agora serão comparadas com os valores previstos gerados pelo modelo ARIMA211011 a fim de avaliar sua capacidade preditiva em dados futuros A Figura 11 a seguir apresenta essa comparação gráfica entre os valores reais observados e os valores previstos permitindo visualizar a proximidade entre as duas séries Já a Tabela 4 mostra os valores numéricos correspondentes Figura 11 Comparação entre valores reais e previstos para os últimos 12 períodos Tabela 4 Valores reais vs previstos 12 meses de teste MÊS REAL PREVISTO Março 1050924 1029305 Abril 1053697 1014720 Maio 1027246 1008857 Junho 1098661 1021630 Julho 1068321 1030662 Agosto 1072395 1030892 Setembro 1071427 1030175 Outubro 1062781 1035815 Novembro 1044732 1033553 Dezembro 1014540 1034506 Janeiro 1050072 1037888 Fevereiro 1035941 1038091 Fonte Elaboração Própria Para avaliar a qualidade das previsões do modelo ARIMA211011 foram calculadas três métricas principais o Erro Médio Absoluto MAE o Erro Quadrático Médio RMSE e o Erro Percentual Absoluto Médio MAPE O MAE foi de 29073 o que indica que em média as previsões estão a cerca de 291 unidades de distância dos valores reais O RMSE com valor de 34767 reflete a magnitude média do erro quadrático enquanto o MAPE que foi de 273 indica que as previsões apresentaram um erro percentual médio de 273 Esses valores sugerem que o modelo obteve um desempenho satisfatório com previsões muito próximas dos valores reais observados O desempenho do modelo com erros dentro de uma margem aceitável confirma a sua eficácia para prever os próximos períodos em uma análise preditiva 6 Referências Box G E P Jenkins G M Reinsel G C Ljung G M 2015 Time Series Analysis Forecasting and Control Wiley BOX G E P JENKINS G M REINSEL G C Time Series Analysis Forecasting and Control 4 ed Hoboken Wiley 2008 Hyndman R J Athanasopoulos G 2018 Forecasting Principles and Practice OTexts IBGE Instituto Brasileiro de Geografia e Estatística Pesquisa Industrial Mensal Produção Física PIMPF Disponível em httpswwwibgegovbr 7 Código TRABALHO DE ECONOMETRIA Carregando os pacotes libraryforecast librarydygraphs librarystats librarystatsr libraryreadxl libraryurca librarytseries librarylmtest libraryFinTS Dados dados readexcelCUsersDownloadsserieconsumoxlsx attachdados Transformando os dados em uma série temporal consumo tsBensConsumo start c2002 1 frequency 12 plotconsumomainSérie Temporal de Bens e ConsumoxlabPeríodo ylabConsumo dygraphdata consumo main Série Temporal de Bens e Consumo xlab Mês ylab Separando treino consumo1266 z tstreino start c20021 frequency 12 plotzmainSérie Temporal de Bens e ConsumoxlabPeríodo ylabConsumo teste consumo267278 teste tsteste start c20243 frequency 12 plotteste ACF e PACF parmfrowc21 acfz mainACF da série Bens de Consumo pacfz mainPACF da série Bens de Consumo Decomposição da série plotdecomposezmultiplicative Teste da raiz Unitária Estacionariedade adftestz Primeira Diferenciação z1 diffz parmfrowc11 plotz1 mainSérie Temporal de Bens e Consumo após a DiferenciaçãoxlabPeríodo ylabConsumo adftestz1 Modelos de teste m1 Arimaz order c0 1 0 seasonal c0 0 0 m1 m2 Arimaz order c1 1 0 seasonal c0 0 0 m2 m3 Arimaz order c1 1 1 seasonal c0 0 0 m3 m4 Arimaz order c2 1 1 seasonal c0 0 0 m4 m5 Arimaz order c2 1 2 seasonal c0 0 0 m5 m6 Arimaz order c1 1 1 seasonal c0 1 1 m6 m7 Arimaz order c1 1 1 seasonal c1 1 0 m7 m8 Arimaz order c2 1 1 seasonal c0 1 1 m8 m9 Arimaz order c2 1 1 seasonal c1 1 1 m9 m10 Arimaz order c2 1 1 seasonal c2 1 0 m10 coeftestm2 coeftestm3 coeftestm4 coeftestm5 coeftestm6 coeftestm7 coeftestm8 coeftestm9 coeftestm10 Modelo selecionado modelo m8 Teste de estabilidade autoplotmodelo Teste de normalidade residuos modeloresiduals histresiduos probability TRUE col greenmain Histograma e Curva de Densidade dos Resíduos xlab Resíduos border white linesdensityresiduos col blue lwd 2 curvednormx mean meanresiduos sd sdresiduoscol red lwd 2 lty 2 add TRUE legendtopright legend cDensidade Empírica Normal Teóricacol cblue red lwd 2 lty c1 2 shapirotestresiduos jarqueberatestresiduos Teste de Heterocedasticidade ArchTestresiduos Teste de Autocorrelação Boxtestresiduos lag 12 type LjungBox Boxtestresiduos lag 24 type LjungBox Boxtestresiduos lag 36 type LjungBox Boxtestresiduos lag 48 type LjungBox Previsão previsao forecastmodelo h12 level95 previsao autoplotprevisao plotteste type l col blue lwd 2xlab Tempo ylab Valor main Reais vs Previstos linesprevisaomean col red lwd 2 lty 2 legendtopleft legend cReais Previstoscol cblue red lty c1 2 lwd 2 teste mae meanabsteste previsaomean mae rmse sqrtmeanteste previsaomean2 rmse mape meanabsteste previsaomeanteste 100 mape UNIVERSIDADE FEDERAL DE MINAS GERAIS FACULDADE DE CIÊNCIAS ECONÔMICAS CURSO DE CIÊNCIAS ECONÔMICAS DISCIPLINA ECONOMETRIA II GRUPO MODELAGEM ARIMA APLICADA À SÉRIE DE BENS DE CONSUMO MENSAL UMA ABORDAGEM BOXJENKINS CIDADE MG 2025 Sumário 1 Introdução3 2 Identificação da Série4 21 Análise Gráfica4 22 Função de Autocorrelação FAC e Autocorrelação Parcial FACP6 23 Decomposição da Série8 24 Testes de Estacionariedade8 3 Estimação10 4 Verificação do Modelo13 41 Estabilidade dos Parâmetros13 42 Normalidade dos Resíduos14 43 Heterocedasticidade dos Resíduos16 44 Autocorrelação dos Resíduos16 45 Conclusão17 5 Previsões17 6 Referências21 7 Código22 1 Introdução A análise de séries temporais constitui uma importante ferramenta estatística utilizada para investigar o comportamento de variáveis observadas ao longo do tempo Diferentemente de conjuntos de dados convencionais as séries temporais são caracterizadas pela dependência entre observações adjacentes sendo fundamentais em diversos campos de pesquisa econômica financeira e social De acordo com Box et al 2015 cada dado está associado a um ponto específico no tempo o que permite explorar padrões dinâmicos como tendência sazonalidade e componentes aleatórios Neste contexto destacase a metodologia BoxJenkins desenvolvida por Box e Jenkins na década de 1970 como uma das abordagens mais sistemáticas e consagradas para modelagem de séries temporais Essa metodologia é especialmente voltada para a identificação estimação e verificação de modelos autorregressivos integrados de médias móveis ARIMA cuja estrutura flexível permite captar diferentes comportamentos e componentes da série analisada O processo é iterativo e exige a combinação entre análise gráfica testes estatísticos e critérios de informação para garantir a robustez e a parcimônia do modelo Hyndman Athanasopoulos 2018 O presente estudo tem como objetivo aplicar a metodologia BoxJenkins à série mensal do Índice de Produção de Bens de Consumo no Brasil com dados disponibilizados pelo Instituto Brasileiro de Geografia e Estatística IBGE abrangendo o período de janeiro de 2002 a fevereiro de 2025 e o auxílio do software R para a modelagem da série Esta série representa um importante indicador da atividade econômica industrial refletindo o desempenho do setor de bens de consumo no país ao longo do tempo A escolha por essa série justificase não apenas por sua relevância macroeconômica mas também por sua extensão temporal e granularidade mensal que permitem uma aplicação dos métodos de modelagem Dentre as principais etapas metodológicas destacamse a análise exploratória da série incluindo gráficos funções de autocorrelação e decomposição testes de estacionariedade como o teste de Dickey Fuller aumentado identificação de modelos candidatos via análise dos resíduos e critérios de informação AIC BIC além da verificação da adequação do modelo ajustado por meio de testes de diagnóstico Além disso os últimos 12 valores da série serão reservados como dados de teste permitindo a avaliação da capacidade preditiva do modelo ajustado A comparação entre os valores previstos e os observados nesse intervalo fornece uma medida objetiva de acurácia essencial para validar a performance do modelo ARIMA proposto 2 Identificação da Série Nesta etapa será realizada a análise exploratória da série temporal do Índice de Produção de Bens de Consumo com o objetivo de identificar padrões estruturais como tendência sazonalidade e possíveis rupturas que auxiliem na escolha de um modelo apropriado para previsão A análise será conduzida por meio da inspeção gráfica da série cálculo das funções de autocorrelação FAC e autocorrelação parcial FACP decomposição da série e aplicação de testes de estacionariedade 21 Análise Gráfica A Figura 1 apresenta a série completa do Índice de Bens de Consumo no período de janeiro de 2002 a fevereiro de 2025 obtida por meio da base da Pesquisa Industrial Mensal Produção Física PIMPF divulgada pelo Instituto Brasileiro de Geografia e Estatística IBGE Figura 1 Série mensal dos Bens e Consumo do Brasil de jan2002 a fev2025 A Figura 1 revela um comportamento de crescimento consistente no índice de produção de bens de consumo entre julho de 2003 e outubro de 2014 evidenciando um período de expansão da atividade industrial voltada ao consumo A partir de outubro de 2014 observase uma inflexão na trajetória da série marcada por uma queda expressiva que indica um processo de retração A queda mais acentuada no entanto ocorreu em abril de 2020 quando o índice atingiu seu menor valor 7444 refletindo os efeitos da crise sanitária e econômica gerada pela pandemia da Covid19 Em seguida a série apresentou uma rápida recuperação atingindo 11213 em janeiro de 2021 Contudo esse movimento de alta foi interrompido e a série voltou a apresentar sinais de enfraquecimento Atualmente observase uma tendência de queda embora com comportamento sazonal persistente caracterizado por flutuações cíclicas regulares ao longo do tempo Com o objetivo de avaliar a capacidade preditiva do modelo a ser ajustado os últimos 12 valores da série foram separados como conjunto de teste Essa divisão é importante para que a validação do modelo ocorra com base em dados não utilizados no treinamento conforme sugerido por Box et al 2015 A série utilizada para estimação portanto compreende o intervalo de janeiro de 2002 a fevereiro de 2024 como apresentado na Figura 2 Figura 2 Série de treino do Índice de Produção de Bens de Consumo jan2002 a fev2024 A Figura 2 mantém as características observadas na série original permitindo a análise e identificação de um modelo ajustado com base em dados históricos enquanto a porção final será utilizada posteriormente para avaliar o desempenho das previsões geradas 22 Função de Autocorrelação FAC e Autocorrelação Parcial FACP A Figura 3 apresenta a função de autocorrelação FAC e a função de autocorrelação parcial FACP ambas calculadas sobre a série de treino FAC e FACP indicam o grau de correlação entre os valores da série e seus valores passados em diferentes defasagens lags Essas ferramentas são amplamente utilizadas para identificar padrões de dependência temporal em séries Figura 3 Função de Autocorrelação FAC e a Função de Autocorrelação Parcial FACP A Figura 3 apresenta os gráficos da FAC e FACP da série em nível A FAC exibe um padrão de decaimento exponencial sugerindo que os efeitos das autocorrelações diminuem gradualmente à medida que o número de defasagens aumenta Esse comportamento é típico de uma estrutura autorregressiva indicando que os valores passados influenciam os presentes mas com intensidade decrescente ao longo do tempo Por outro lado a FACP apresenta um corte abrupto após a primeira defasagem lag 1 com significância apenas nesse primeiro ponto e ausência de significância nos demais Esse padrão é característico de um modelo autorregressivo de ordem 1 AR1 conforme descrito por Box Jenkins e Reinsel 2008 e sugere que a série pode ser bem representada por esse tipo de processo Ainda assim análises complementares como testes de estacionariedade são necessárias para confirmar essa estrutura 23 Decomposição da Série A decomposição da série temporal é apresentada na Figura 4 Foi utilizada a decomposição multiplicative separando a série nos componentes tendência sazonalidade e ruído Figura 4 Decomposição da Série Temporal Tendência Sazonalidade e Resíduo A decomposição confirma a presença de sazonalidade estável ao longo dos anos e uma tendência oscilante sem comportamento determinístico definido O componente de ruído parece não seguir um padrão específico como esperado em séries que possuem características de ruído branco A sazonalidade está alinhada com a estrutura de produção industrial do país que apresenta ciclos mensais recorrentes geralmente relacionados à demanda e ao calendário comercial 24 Testes de Estacionariedade A análise da estacionariedade ou também conhecido como o teste da raiz unitária foi realizada com base no Teste de DickeyFuller Aumentado ADF Esse teste verifica se a série possui raiz unitária sendo as seguintes hipóteses H 0δ0nãoestacionária H 1 δ 0estacionaria O resultado do teste com a série de treino foi Figura 5 Teste ADF com a série treino O teste ADF foi aplicado à série em nível e o pvalor obtido foi superior a 005 não permitindo a rejeição da hipótese nula ao nível de significância de 5 Isso indica que a série em seu formato original não é estacionária Foi então realizada a primeira diferenciação da série e o teste ADF reaplicado Figura 6 Teste ADF com a série após a primeira diferenciação Após a primeira diferenciação o pvalor passou a ser inferior a 005 permitindo rejeitar a hipótese nula o que indica que a série diferenciada é estacionária em primeira ordem ou seja integrada de ordem 1 Esse resultado valida o uso da estrutura ARIMA para o ajuste do modelo O gráfico da Figura 7 mostra a série estacionaria após a diferenciação Figura 7 Série temporal após a Diferenciação 3 Estimação A etapa de estimação tem como objetivo identificar a partir das características observadas da série os modelos ARIMA candidatos que melhor representam sua estrutura temporal De acordo com a metodologia BoxJenkins a seleção do modelo adequado considera a estacionariedade da série os padrões das funções de autocorrelação FAC e autocorrelação parcial FACP bem como os critérios de informação como o AIC Akaike Information Criterion e o BIC Bayesian Information Criterion Conforme verificado na etapa de identificação a série original não apresentou características de estacionariedade Dessa forma foi realizada uma diferenciação de ordem 1 sendo este o valor fixado para d em todos os modelos estimados A diferenciação é uma técnica que transforma uma série não estacionária em estacionária ao subtrair o valor atual do anterior permitindo a aplicação de modelos ARIMA Box et al 2008 Com a série diferenciada foram testados diferentes modelos ARIMAp d q incluindo combinações com componentes autorregressivos AR e de média móvel MA além de estruturas sazonais do tipo ARIMA pd q P D Q12 considerando a frequência mensal da série A avaliação da qualidade dos modelos candidatos foi feita por meio da comparação dos valores de AIC e BIC conforme sugerido por Burnham e Anderson 2002 A Tabela 1 apresenta os modelos candidatos estimados e os respectivos valores dos critérios de informação Tabela 1 Modelos ARIMA candidatos com seus valores de AIC e BIC MODELOS ESTIMATIVAS PVALOR AIC BIC ARIMA010 141192 14155 ARIMA110 AR1 00170 07823 141385 142101 ARIMA111 AR1 07421 MA1 08668 0 0 140321 141465 ARIMA211 AR1 07783 AR2 01209 MA1 08459 0 006179 0 140253 141685 ARIMA212 AR1 09867 AR2 02779 MA1 10573 MA2 01893 02279 06438 02092 07994 140439 142229 ARIMA111011 AR1 07321 MA1 08828 SMA1 09182 0 0 0 138409 139822 ARIMA111110 AR1 08113 MA1 09790 SAR1 04296 0 0 0 145563 146976 ARIMA211011 AR1 07605 AR2 01026 MA1 08454 SMA1 09313 0 0127 0 0 138382 140149 ARIMA211111 AR1 07642 AR2 01020 MA1 08489 SAR1 0452 SMA1 09559 0 01295 0 05416 0 138544 140664 ARIMA211210 AR1 08284 AR2 00547 MA1 09537 SAR1 05697 SAR2 02994 0 06365 0 0 0 143568 145688 Fonte Elaboração própria com os resultados do R Com base nos resultados apresentados na Tabela 1 é possível realizar uma análise comparativa entre os modelos ARIMA estimados levando em consideração os critérios de informação AIC e BIC a significância estatística dos parâmetros e a estrutura de cada modelo Inicialmente os modelos não sazonais como o ARIMA010 ARIMA110 ARIMA111 e ARIMA212 apresentam valores de AIC e BIC significativamente superiores aos modelos com componentes sazonais Por exemplo o ARIMA010 que representa um passeio aleatório simples apresentou AIC de 141192 sendo claramente inferior em termos de ajuste comparado aos demais O ARIMA111 e o ARIMA211 mostraram bons desempenhos em termos de AIC 140321 e 140253 respectivamente além de apresentarem parâmetros estatisticamente significantes pvalores próximos de zero o que indica que a inclusão de termos autorregressivos e de média móvel contribui para melhorar o ajuste da série Entretanto ao incluir a sazonalidade no modelo observase uma melhora substancial no ajuste O modelo ARIMA111011 reduziu o AIC para 138409 e o BIC para 139822 com todos os parâmetros estatisticamente significantes sugerindo um bom ajuste e capacidade explicativa da sazonalidade presente na série Modelos mais complexos como o ARIMA211011 e o ARIMA211111 apresentam AIC ainda menor 138382 e 138544 respectivamente indicando leve superioridade na qualidade do ajuste Contudo o aumento da complexidade estrutural com maior número de parâmetros refletese no aumento do BIC que penaliza modelos mais parametrizados Além disso no modelo ARIMA211011 o parâmetro AR2 tem pvalor de 0127 não sendo estatisticamente significativo ao nível de 5 o que sugere que ele pode ser descartado O modelo ARIMA111110 apesar de contar com todos os parâmetros significativos apresentou o maior AIC da tabela de 145563 entre os modelos sazonais sendo descartado por pior desempenho preditivo Por fim o modelo ARIMA211 210 embora tenha parâmetros significativos apresenta um AIC de 143568 consideravelmente maior que os modelos com estrutura mais simples sem ganhos substanciais de desempenho que justifiquem sua complexidade Pode se concluir que o modelo ARIMA211011 se destaca por apresentar o menor valor de AIC 138382 entre todos os modelos avaliados aliado a um bom desempenho do BIC 140149 e parâmetros majoritariamente significativos Esse modelo captura tanto a dependência temporal quanto a estrutura sazonal da série sendo o mais indicado para representar os dados observados É importante destacar que a ordem de diferenciação d1 e D1 foi mantida em todos os modelos em função da identificação da série como não estacionária sendo necessário aplicar uma diferença regular e uma diferença sazonal para estabilizar a média ao longo do tempo BOX et al 2008 4 Verificação do Modelo A etapa de verificação é essencial no processo de modelagem segundo a metodologia BoxJenkins pois permite avaliar se o modelo ajustado atende aos pressupostos estatísticos necessários para garantir previsões confiáveis Neste contexto a análise de resíduos é utilizada para verificar a estabilidade dos parâmetros estimados a ausência de autocorrelação a constância da variância homocedasticidade e a normalidade da distribuição dos erros Para isso foram aplicados os seguintes testes análise das raízes do polinômio característico para estabilidade o teste de LjungBox autocorrelação o teste ARCH heterocedasticidade e os testes de normalidade de ShapiroWilk e Jarque Bera 41 Estabilidade dos Parâmetros A estabilidade dos parâmetros estimados ao longo do tempo é fundamental para garantir que o modelo mantenha sua capacidade preditiva mesmo em diferentes períodos Para essa verificação foi utilizado o gráfico das raízes do polinômio autoregressivo e de médias móveis apresentado na Figura 8 A presença das raízes dentro do círculo unitário indica que o modelo é estável Figura 8 Gráfico das raízes do modelo ARIMA211011 A análise gráfica da Figura 8 mostra que todas as raízes associadas aos parâmetros AR e MA estão dentro do círculo unitário o que evidencia que o modelo é estável e adequado para fins de previsão 42 Normalidade dos Resíduos A verificação da normalidade dos resíduos é fundamental uma vez que esse pressuposto sustenta diversos testes inferenciais e é crucial para a construção de intervalos de confiança e previsões com margem de erro confiável Para essa análise foram aplicados os testes de ShapiroWilk e JarqueBera além de representações gráficas como histogramas e a curva de densidade que auxiliam na inspeção visual da distribuição dos resíduos As hipóteses dos testes são H 0Osresíduos seguemuma distribuiçãonormal H 1Osresíduos nãoseguemuma distribuiçãonormal O gráfico da Figura 9 trás o histograma e a curva de densidades dos resíduos do modelo selecionado Figura 9 Histograma e curva de densidade dos resíduos do modelo Conforme observado na Figura 9 a distribuição dos resíduos apresenta uma forma simétrica e concentrada em torno de zero sugerindo aderência a uma distribuição gaussiana com média nula Para corroborar essa evidência visual a Tabela 2 apresenta os resultados dos testes formais de normalidade aplicados aos resíduos Tabela 2 Resultados dos testes de normalidade TESTE ESTATÍSTICA PVALOR ShapiroWilk 097344 0127 JarqueBera 38211 0148 Fonte Elaboração própria Os resultados dos testes apresentados na Tabela 2 mostra que os pvalores dos testes foram superiores a 5 o que indica que não há evidência estatística suficiente para rejeitar a hipótese nula de normalidade dos resíduos Essa conclusão é reforçada pela forma aproximadamente simétrica do histograma sugerindo que os resíduos seguem de fato uma distribuição aproximadamente normal 43 Heterocedasticidade dos Resíduos A verificação da homocedasticidade ou seja a constância da variância dos resíduos ao longo do tempo é essencial para garantir a robustez das estimativas e a confiabilidade do modelo Para isso foi utilizado o teste ARCH que tem como hipóteses H 0 Homocedasticidadedosresíduos H 1 Heterocedasticidadedos resíduos O pvalor obtido para o teste ARCH foi 038 que é significativamente superior ao nível de significância de 5 Dessa forma não rejeitamos a hipótese nula o que indica que não há evidências de heterocedasticidade condicional nos resíduos Assim o modelo ARIMA211011 atende ao pressuposto de variância constante ao longo do tempo permitindo garantir a estabilidade dos resultados para futuras previsões 44 Autocorrelação dos Resíduos A ausência de autocorrelação serial nos resíduos é outra condição importante para validar a qualidade do modelo Foi aplicado o teste de LjungBox que avalia se há autocorrelação significativa para diferentes defasagens as hipóteses do teste são H 0 Nãohá autocorrelaçãodosresíduos H 1 Há autocorrelaçãodosresíduos A Tabela 3 mostra o pvalores do teste para diferentes níveis de defasagem Tabela 3 Teste de LjungBox para diferentes lags LAG PVALOR 12 05514 24 009951 36 01923 48 0231 Fonte Elaboração própria Os resultados indicam que para os quatro níveis de defasagem analisados os resíduos não apresentam autocorrelação estatisticamente significativa validando a adequação do modelo também nesse critério 45 Conclusão Após a aplicação dos testes de estabilidade normalidade homocedasticidade e autocorrelação constatouse que o modelo ARIMA211011 apresenta um comportamento satisfatório dos resíduos Todas as suposições básicas foram atendidas confirmando que o modelo é estatisticamente consistente e adequado para previsão da série temporal analisada 5 Previsões Após a validação do modelo ARIMA211011 por meio dos testes de estabilidade normalidade ausência de heterocedasticidade e autocorrelação dos resíduos procedese à etapa de previsão a qual tem como principal objetivo fornecer estimativas futuras da série temporal com base em seu comportamento histórico A capacidade preditiva de um modelo é uma das suas características mais relevantes sobretudo em contextos em que decisões dependem de projeções acuradas A previsão foi realizada para os próximos 12 períodos compatível com a estrutura sazonal anual detectada na série A Figura 10 apresenta os valores previstos juntamente com os intervalos de confiança de 95 representando a margem de incerteza associada às estimativas Figura 10 Previsão para os próximos 12 meses com intervalo de confiança de 95 Como parte da estratégia de validação foram previamente retiradas as últimas 12 observações da série original formando uma amostra de teste que não foi utilizada na estimação do modelo Essas observações reais agora serão comparadas com os valores previstos gerados pelo modelo ARIMA211011 a fim de avaliar sua capacidade preditiva em dados futuros A Figura 11 a seguir apresenta essa comparação gráfica entre os valores reais observados e os valores previstos permitindo visualizar a proximidade entre as duas séries Já a Tabela 4 mostra os valores numéricos correspondentes Figura 11 Comparação entre valores reais e previstos para os últimos 12 períodos Tabela 4 Valores reais vs previstos 12 meses de teste MÊS REAL PREVISTO Março 1050924 1029305 Abril 1053697 1014720 Maio 1027246 1008857 Junho 1098661 1021630 Julho 1068321 1030662 Agosto 1072395 1030892 Setembro 1071427 1030175 Outubro 1062781 1035815 Novembro 1044732 1033553 Dezembro 1014540 1034506 Janeiro 1050072 1037888 Fevereiro 1035941 1038091 Fonte Elaboração Própria Para avaliar a qualidade das previsões do modelo ARIMA211011 foram calculadas três métricas principais o Erro Médio Absoluto MAE o Erro Quadrático Médio RMSE e o Erro Percentual Absoluto Médio MAPE O MAE foi de 29073 o que indica que em média as previsões estão a cerca de 291 unidades de distância dos valores reais O RMSE com valor de 34767 reflete a magnitude média do erro quadrático enquanto o MAPE que foi de 273 indica que as previsões apresentaram um erro percentual médio de 273 Esses valores sugerem que o modelo obteve um desempenho satisfatório com previsões muito próximas dos valores reais observados O desempenho do modelo com erros dentro de uma margem aceitável confirma a sua eficácia para prever os próximos períodos em uma análise preditiva 6 Referências Box G E P Jenkins G M Reinsel G C Ljung G M 2015 Time Series Analysis Forecasting and Control Wiley BOX G E P JENKINS G M REINSEL G C Time Series Analysis Forecasting and Control 4 ed Hoboken Wiley 2008 Hyndman R J Athanasopoulos G 2018 Forecasting Principles and Practice OTexts IBGE Instituto Brasileiro de Geografia e Estatística Pesquisa Industrial Mensal Produção Física PIMPF Disponível em httpswwwibgegovbr 7 Código TRABALHO DE ECONOMETRIA Carregando os pacotes libraryforecast librarydygraphs librarystats librarystatsr libraryreadxl libraryurca librarytseries librarylmtest libraryFinTS Dados dados readexcelCUsersDownloadsserieconsumoxlsx attachdados Transformando os dados em uma série temporal consumo tsBensConsumo start c2002 1 frequency 12 plotconsumomainSérie Temporal de Bens e ConsumoxlabPeríodo ylabConsumo dygraphdata consumo main Série Temporal de Bens e Consumo xlab Mês ylab Separando treino consumo1266 z tstreino start c20021 frequency 12 plotzmainSérie Temporal de Bens e ConsumoxlabPeríodo ylabConsumo teste consumo267278 teste tsteste start c20243 frequency 12 plotteste ACF e PACF parmfrowc21 acfz mainACF da série Bens de Consumo pacfz mainPACF da série Bens de Consumo Decomposição da série plotdecomposezmultiplicative Teste da raiz Unitária Estacionariedade adftestz Primeira Diferenciação z1 diffz parmfrowc11 plotz1 mainSérie Temporal de Bens e Consumo após a DiferenciaçãoxlabPeríodo ylabConsumo adftestz1 Modelos de teste m1 Arimaz order c0 1 0 seasonal c0 0 0 m1 m2 Arimaz order c1 1 0 seasonal c0 0 0 m2 m3 Arimaz order c1 1 1 seasonal c0 0 0 m3 m4 Arimaz order c2 1 1 seasonal c0 0 0 m4 m5 Arimaz order c2 1 2 seasonal c0 0 0 m5 m6 Arimaz order c1 1 1 seasonal c0 1 1 m6 m7 Arimaz order c1 1 1 seasonal c1 1 0 m7 m8 Arimaz order c2 1 1 seasonal c0 1 1 m8 m9 Arimaz order c2 1 1 seasonal c1 1 1 m9 m10 Arimaz order c2 1 1 seasonal c2 1 0 m10 coeftestm2 coeftestm3 coeftestm4 coeftestm5 coeftestm6 coeftestm7 coeftestm8 coeftestm9 coeftestm10 Modelo selecionado modelo m8 Teste de estabilidade autoplotmodelo Teste de normalidade residuos modeloresiduals histresiduos probability TRUE col greenmain Histograma e Curva de Densidade dos Resíduos xlab Resíduos border white linesdensityresiduos col blue lwd 2 curvednormx mean meanresiduos sd sdresiduoscol red lwd 2 lty 2 add TRUE legendtopright legend cDensidade Empírica Normal Teóricacol cblue red lwd 2 lty c1 2 shapirotestresiduos jarqueberatestresiduos Teste de Heterocedasticidade ArchTestresiduos Teste de Autocorrelação Boxtestresiduos lag 12 type LjungBox Boxtestresiduos lag 24 type LjungBox Boxtestresiduos lag 36 type LjungBox Boxtestresiduos lag 48 type LjungBox Previsão previsao forecastmodelo h12 level95 previsao autoplotprevisao plotteste type l col blue lwd 2xlab Tempo ylab Valor main Reais vs Previstos linesprevisaomean col red lwd 2 lty 2 legendtopleft legend cReais Previstoscol cblue red lty c1 2 lwd 2 teste mae meanabsteste previsaomean mae rmse sqrtmeanteste previsaomean2 rmse mape meanabsteste previsaomeanteste 100 mape

Envie sua pergunta para a IA e receba a resposta na hora

Recomendado para você

Trabalho de Econometria

19

Trabalho de Econometria

Econometria

UFMG

Econometria 2

1

Econometria 2

Econometria

UFMG

Trabalho de Econometria 2

64

Trabalho de Econometria 2

Econometria

UFMG

Análise Econometria Estatística Descritiva do IGPM

3

Análise Econometria Estatística Descritiva do IGPM

Econometria

FACULDADE AGES

10 Questões de Econometria

32

10 Questões de Econometria

Econometria

PUC

Gauss-Markov - Identificacao de Violacao das Hipoteses de Variancia Constante e Nao Correlacao

1

Gauss-Markov - Identificacao de Violacao das Hipoteses de Variancia Constante e Nao Correlacao

Econometria

PUC

Prova 2 de Econometria 3 - MA7 2º2023

1

Prova 2 de Econometria 3 - MA7 2º2023

Econometria

PUC

Viés e Endogeneidade na Estimação de Modelos Econométricos

97

Viés e Endogeneidade na Estimação de Modelos Econométricos

Econometria

PUC

Heterocedasticidade e Teorema de Gauss-Markov em Econometria II

105

Heterocedasticidade e Teorema de Gauss-Markov em Econometria II

Econometria

PUC

Atividade de Econometria

3

Atividade de Econometria

Econometria

UFF

Texto de pré-visualização

UNIVERSIDADE FEDERAL DE MINAS GERAIS FACULDADE DE CIÊNCIAS ECONÔMICAS CURSO DE CIÊNCIAS ECONÔMICAS DISCIPLINA ECONOMETRIA II GRUPO 14 LUCAS FIALHO AMARAL SÉRIE TEMPORAL IPCA MENSAL 1995 2019 1 Introdução A metodologia BoxJenkins amplamente utilizada em modelagem de séries temporais fornece uma abordagem sistemática e iterativa para identificar estimar e diagnosticar modelos autorregressivos integrados de médias móveis ARIMA Este trabalho aplica essa metodologia ao Índice Nacional de Preços ao Consumidor Amplo IPCA mensal no período de janeiro de 1995 a dezembro de 2019 O IPCA principal indicador oficial de inflação no Brasil é um componente fundamental para a análise econômica sendo extremamente utilizado para formulação de políticas públicas e decisões empresariais O objetivo do estudo é ajustar um modelo univariado que permita realizar análises precisas para a série histórica do IPCA explorando padrões subjacentes e características específicas da série como sazonalidade e tendências As etapas metodológicas incluem a análise exploratória da série testes de estacionariedade identificação de modelos candidatos avaliação por critérios de informação e validação do modelo ajustado com base em testes estatísticos O recorte temporal encerrando em 2019 evita os efeitos das quebras estruturais associadas à pandemia de COVID19 garantindo maior robustez às alterações realizadas 2 Identificação Figura 1 IPCA variação mensal 19952019 Ao analisar o gráfico da série podemos observar que não há uma tendência clara ao longo do período analisado Porém para compreender melhor o comportamento da série é fundamental verificar a presença de sazonalidade que se manifesta como variações periódicas em intervalos regulares como meses ou estações do ano Identificar a sazonalidade é crucial para etapas de previsão pois permite compreender padrões recorrentes e ajustálos adequadamente Para isso foi realizada a decomposição da série além da análise dos gráficos de Autocorrelação Simples FAC e Parcial FACP que oferecem uma visão detalhada dos componentes sazonais Essa análise é essencial para ajustar a série eliminando o efeito sazonal o que facilita a transformação da série em estacionária e assim possibilita a aplicação de modelos preditivos com maior precisão A Função de Autocorrelação FAC e a Função de Autocorrelação Parcial FACP Figura 2 indicam o grau de correlação entre os valores da série e seus valores passados em diferentes defasagens lags Essas ferramentas são amplamente utilizadas para identificar padrões de dependência temporal em séries Ao analisar os gráficos observase que a FAC apresenta um decaimento exponencial o que indica uma série estacionária onde os valores se estabilizam ao longo do tempo Já a FACP mostra um truncamento após o primeiro lag ou seja apenas a autocorrelação do primeiro lag é significativa Esse comportamento é característico de um processo autorregressivo de ordem 1 Figura 2 FAC e FACP Figura 3 Decomposição da série O primeiro componente chamado de observado corresponde à série original que está sendo analisada neste caso o IPCA mensal de 1995 a 2019 Ao examinar o período não é possível identificar uma tendência de longo prazo na série Esse comportamento é reforçado pelo componente de tendência que também não apresenta uma direção clara ao longo do tempo O componente sazonal evidencia padrões recorrentes que ocorrem em intervalos regulares como pode ser observado nas flutuações repetitivas do gráfico Esses padrões sazonais são fundamentais para identificar comportamentos cíclicos na série frequentemente associados a fatores sazonais ou periódicos Por fim a componente aleatória ou residual também chamada de ruído da série captura as variações não explicadas pela tendência ou pela sazonalidade Como observado ela varia de forma irregular e não apresenta um padrão específico refletindo os efeitos de eventos imprevisíveis e aleatórios ao longo do tempo Testes de raiz unitária Uma das primeiras etapas ao trabalhar com séries temporais é verificar se a série é estacionária Para realizar análises adequadas e criar modelos preditivos é fundamental que a série seja estacionária Agora vamos explorar como identificar a estacionariedade de uma série temporal utilizando alguns testes Tabela 1 O Teste Augmented DickeyFuller ADF é utilizado para verificar a presença de uma raiz unitária em uma série temporal ou seja para determinar se a série é estacionária ou não A hipótese nula H0 do teste é que a série não é estacionária possui uma raiz unitária enquanto a hipótese alternativa H1 é que a série é estacionária Agora vamos analisar os resultados sob a ótica dos testes de PhillipsPerron Tabela 2 Ao observarmos o teste com tendência trend o valor do teste t tau3 é 8264 que é significativamente mais negativo do que o valor crítico de 398 para o nível de 1 Isso indica que podemos rejeitar a hipótese nula sugerindo que a série é estacionária Essa conclusão é reforçada ao analisarmos os testes com drift e nome No Teste de PhillipsPerron PP a hipótese nula H0 também é que a série não é estacionária ou seja ela possui uma raiz unitária A hipótese alternativa H1 é que a série é estacionária ou seja não possui raiz unitária Ao analisarmos o teste mais profundamente observamos que o valor do teste Ztau é significativamente mais negativo do que os valores críticos para todos os níveis de significância 1 5 e 10 Isso indica que podemos rejeitar a hipótese nula de que a série possui uma raiz unitária o que sugere que a série é estacionária e pode ser utilizada para modelagem e previsões Esses resultados corroboram os achados dos testes ADF e confirmam a ausência de raiz unitária 3 Estimação A fase de estimação é uma etapa essencial na Metodologia BoxJenkins para que se consiga realizar modelagem de séries temporais Nesse estágio diferentes modelos são testados com o objetivo de identificar o que oferece a melhor previsão dos dados Durante esse processo ajustouse modelos ARIMA que combinam componentes autorregressivos AR de média móvel MA e a parte de integração I além de considerar a sazonalidade quando necessário A escolha do modelo ideal é feita com base em critérios como AIC e BIC que ajudam a equilibrar a complexidade do modelo com sua capacidade de previsão Assim conseguimos encontrar o modelo mais eficiente com a menor quantidade de parâmetros mas que ainda seja capaz de gerar especificações específicas Para realizar essa etapa foram testados 9 modelos Tabela 3 Modelo 1 001 100 Estimativa Desvio Padrão Z valor P valor MA1 060562 004138 1463470 22e16 SAR1 053956 007784 693170 4159e12 Intercepto 069533 009306 747170 7914e14 Modelo 2 100 100 Estimativa Desvio Padrão Z valor P valor MA1 079627 005106 1559610 22e16 SAR1 050509 007642 660970 3852e11 Intercepto 079007 023595 334840 00008128 Modelo 3 101 101 Estimativa Desvio Padrão Z valor P valor AR1 080414 008158 985720 22e16 MA1 000323 015076 002170 098266 SAR1 066561 015055 442120 9815e06 SAM1 020284 019354 104810 029461 Intercepto 082588 028809 286670 0004148 Modelo 4 101 001 Estimativa Desvio Padrão Z valor P valor AR1 077214 008617 896090 22e16 MA1 008441 014933 056530 057190 SMA1 040276 006760 595810 2552e09 Intercepto 071854 016626 432180 1547e05 Modelo 5 201 100 Estimativa Desvio Padrão Z valor P valor AR1 042790 029987 142690 015360 AR2 026684 0247085 108000 028016 MA1 041710 024709 146000 014430 SAR1 049916 028569 646700 9997e11 Intercepto 077512 022042 351650 00004373 Modelo 5 201 100 Estimativa Desvio Padrão Z valor P valor AR1 082490 007600 108545 22e16 AR2 002305 0077052 029910 076490 SMA1 039970 006733 593670 2908e09 Intercepto 072618 017576 413180 3600e05 Modelo 6 200 001 Estimativa Desvio Padrão Z valor P valor Na tabela 3 estão expostos os modelos estimados e analisados A primeira análise feita foi de significância para os parâmetros de cada modelo Sob esse critério Os modelos 2 8 9 e 1 são os mais adequados para atenção pois apresentam coeficientes altamente significativos com valores pvalores menores que 0001 AR1 082490 075995 108545 22e16 AR2 023046 077052 029910 076490 SMA1 039970 067327 059637 2908e09 Intercepto 072618 017576 041318 3600e05 Modelo 7 200 001 Estimativa Desvio Padrão Z valor P valor AR1 08061997 00500585 161051 22e16 AR2 00010027 SAR 1 06676172 SMA 1 02054012 01004623 20446 0040898 Intercepto 0 8240977 02822527 29197 0003504 Modelo 8 200 101 Estimativa Desvio Padrão Z valor P valor AR1 097923 002566 381553 22e16 MA1 023270 007856 296200 0003056 MA2 033620 007346 45769 4719e06 SMA1 033791 006865 492 8560e07 Intercepto 105928 007166 15097 013113 Modelo 9 100 00 1 Estimativa Desvio Padrão Z valor P valor AR1 080805 005140 1571970 22e16 SMA1 097701 006689 59458 2751e09 Intercepto 028756 018069 40333 5500e05 Após a seleção dos modelos foram realizados testes de qualidade estatística os resultados são apresentados na tabela 2 O primeiro teste utilizado foi o Critério de Informação de Akaike AIC que avaliou o equilíbrio entre a qualidade do ajuste do modelo e sua complexidade quantidade de parâmetros De forma geral o AIC penaliza modelos com muitos parâmetros buscando evitar o overfitting enquanto tenta identificar o modelo que melhor se ajusta aos dados Assim modelos com valores de AIC mais baixos são considerados melhores pois indicam um equilíbrio mais adequado entre ajuste e complexidade Tabela 4 Com base nos resultados apresentados na tabela observase que os modelos com melhor ajuste são os modelo 2 modelo 8 e modelo 9 uma vez que apresentam os menores valores nos pelo critério de AIC Além disso realizase uma análise adicional utilizando Bayes Information Criterion BIC que é uma medida estatística empregada na seleção de modelos Assim como o AIC o BIC penaliza modelos mais complexos porém a penalização no BIC ocorre de maneira mais acentuada à medida que o número de parâmetros aumenta o que faz com que o BIC leve em consideração tanto o ajuste quanto a complexidade do modelo Nesse caso os modelos com menores valores também são 2 8 e 9 Testes de critérios de informação AIC BIC modelo 1 399683 414418 modelo 2 340183 354917 modelo 8 338327 360429 modelo 9 349276 364010 4 Verificação Temse que a etapa de verificação é de extrema importância para validação e reconhecimento do modelo de BoxJenkins Diante disso será realizado a aplicabilidade de tais metodologias para melhor entendimento e certeza se o método está devidamente adequado em relação à estabilidade autocorrelação normalidade e heterocedasticidade Sendo assim será utilizado os seguintes testes Teste de Estabilidade para verificar a consistência dos parâmetros o teste de LjungBox para examinar a ausência de autocorrelação nos resíduos o teste ARCH para detectar heterocedasticidade e o teste de JarqueBera para avaliar se os resíduos seguem uma distribuição normal A Teste de Estabilidade O teste de estabilidade é utilizado para verificar se os parâmetros do modelo permanecem estáveis ao longo de determinado tempo sendo de extrema importância para garantir a confiabilidade das suas previsões Uma das maneiras de testar tal situação é por meio da visualização dos coeficientes estimados do AR eou MA como será feito a seguir Figura 3 Autoplot das raízes Modelo 02 Figura 4 Autoplot das raízes Modelo 08 Figura 5 Autoplot das raízes Modelo 09 Baseandose nos gráficos acima é identificável que os 3 modelos são estáveis pois o coeficiente AR e MA Quando aplicável são consistentes ao longo do tempo os resíduos são próximos de zero e todas as raízes gráficas se encontram dentro do círculo unitário indicando então que todos podem ser utilizados para previsões B Teste de Normalidade O teste de normalidade tem a função de verificar se os resíduos de um determinado modelo estático seguem uma distribuição normal Na sua aplicabilidade iremos escolher os testes de JarqueBera que verifica a normalidade ao medir a assimetria e a curtose dos resíduos e o teste de ShapiroWilk que avalia a amostra ao comparar os valores observados com os esperados Figura 6 Distribuição Gráfica dos resíduos do modelo 2 Figura 7 Distribuição Gráfica dos resíduos do modelo 8 Figura 8 Distribuição Gráfica dos resíduos do modelo 9 Os resultados dos testes mostram que os pvalores não são significativos o que implica na aceitação da hipótese nula de que os resíduos apresentam normalidade Assim concluise que os resíduos possuem uma distribuição normal sendo perceptível pelo gráfico e distribuição formada C Teste de Heterocedasticidade Os testes de heterocedasticidade são utilizados para validação dos resíduos sendo possível perceber se tem variância constante que é de importância para alguns testes estatísticos sendo importante destacar que a presença de heterocedasticidade pode gerar resultados enviesados e ineficientes Para validação do nosso modelo iremos utilizar o teste ARCH cuja hipótese nula é de que não tenha heterocedasticidade Tabela 5 Modelo Pvalor Modelo 02 005651 Modelo 08 01395 Modelo 09 08442 Na tabela acima é possível identificar o resultado gerado na utilização do teste ARCH Tendo em mente que estamos utilizando um nível de significância de 5 percebese que todos estão com seu indicador acima de tal percentual não rejeitando então a hipótese nula Logo a não rejeição da hipótese nula nos indica que não há evidências de heterocedasticidade D Teste de Autocorrelação Em relação a autocorrelação temse que esse indicador mede o grau de dependência entre valores de uma determinada série temporal sendo fundamental para avaliar os padrões e suas relações com demais eventos Iremos usar o modelo do teste de LjungBox para entender melhor sobre tal situação sendo importante destacar que esse teste avalia a hipótese nula de que não há autocorrelação significativa nos resíduos da série Figura 9 Distribuição Gráfica modelo 2 Standardized Residuals Time ACF of Residuals Lag p values for LjungBox statistic lag Figura 10 Distribuição Gráfica do modelo 8 Figura 11 Distribuição Gráfica dos resíduos do modelo 9 Tabela 6 Como resultado do teste temse que o modelo 2 e 9 mostram autocorrelação significativa para todas as defasagens enquanto o modelo 8 tem resultados aceitáveis indicando a ausência Modelo Lag 12 p valor Lag 24 p valor Lag 36 p valor Modelo 2 19310 8 20110 6 13110 4 Modelo 8 004726 01125 04067 Modelo 9 11710 6 34910 5 43410 4 de autocorrelação significativa nos 3 Lags sendo considerado então o modelo mais adequado E Descrição dos resultados Após realizar os testes é possível ter algumas afirmações tendo em mente os 3 modelos escolhidos para validação de sua autocorrelação heterocedasticidade normalidade e estabilidade Logo como os três primeiros testes apresentaram resultados validadores semelhantes é perceptível que o resultado de autocorrelação foi forte indicador para balizador entre a melhor opção quando considerado os 3 modelos Diante disso é possível concluir que o modelo 8 é o melhor candidato para realização de análises e verificações 5 Previsão Na etapa de previsão usamos o modelo ajustado para realizar previsões da nossa variável ipca bem como seu intervalo de confiança até 2019 No entanto existe mais de um dos modelos estimados que podem parecer adequados para realizar essa previsão sendo os modelos 28 e 9 Para verificar qual dos modelos será utilizado realizouse os testes de acurácia Nos testes de acurácia excluímos o último ano da amostra dividimos a série temporal em duas partes que chamamos de série Treino de 1994 a 2018 e de série Teste o ano de 2019 Modelo 8 Treino Parameter Coefficient Standard Error ar1 097923 002566 ma1 02327 007856 ma2 03362 007346 sma1 033791 006865 sigma2 017760112582512794 Log Likelihood 17356861207088753 AIC 35713722414177505 AICc 35733722414177504 BIC 37575514965153695 Modelo 9 Treino Parameter Coefficient Standard Error ar1 080805 00514 sma1 097701 006689 sigma2 018936535531288273 Log Likelihood 18137960016803953 AIC 36875920033607906 AICc 36883867053475456 BIC 3799299556419362 Depois de realizar esses testes em cada um dos modelos realizase a previsão para o período de teste 2019 Modelo 2 Previsao Observed Predicted Periodos Values Modelo 8 Forecasts from ARIMA11210012 Training Data Test Data 2019 Forecast ARIMA11210012 Modelo 8 Observed vs Predicted Observed Predicted Model 8 Modelo 9 Para verificar quais modelos apresentam os melhores resultados foi realizado um teste de acurácia por meio da comparação das métricas de desempenho O ME Média dos Erros que mede o viés do modelo indicou valores relativamente próximos de zero para os três modelos sugerindo que nenhum deles apresenta viés significativo O RMSE Raiz Quadrada da Média dos Erros Quadráticos que penaliza mais os erros grandes indicou que o Modelo 8 tem o menor valor sugerindo melhor ajuste A MAE Média Absoluta dos Erros e o MAPE Média Absoluta dos Erros Percentuais que avaliam a magnitude média dos erros e sua versão percentual respectivamente indicam que o Modelo 8 apresenta os melhores resultados seguido do Modelo 9 com o Modelo 2 apresentando o pior desempenho relativo Esses resultados sugerem que o Modelo 8 fornece previsões mais precisas em termos de magnitude do erro Já o MPE Média Percentual dos Erros que mede o viés percentual apresentou valores mais próximos de zero para o Modelo 9 indicando menor viés percentual em suas previsõesPortanto com base nos valores analisados o Modelo 8 apresenta o desempenho geral mais robusto especialmente em termos de precisão absoluta e percentual enquanto o Modelo 9 mostra desempenho competitivo com menor viés percentual O Modelo 2 por sua vez tem um desempenho inferior em comparação aos outros dois modelos nas métricas analisadas 6 Código PROCEDIMENTOS INICIAIS Instalar pacotes installpackagesreadxl installpackagesurca installpackagestseries installpackagesforecast installpackageslmtest installpackagesFinTS installpackagesggplot2 libraryreadxl libraryurca librarytseries libraryforecast librarylmtest libraryFinTS libraryggplot2 Importar dados de IPCA Load the data libraryreadxl base readexcelCUserskamilerochaDesktopeconometria iiipcaxlsx Viewbase ipca tsbaseipca start c19951 end c202410 frequency 12 ipca ETAPA 1 IDENTIFICAÇÃO Análise grafica strbaseipca baseipca asnumericgsub baseipca ipca tsbaseipca start c19957 end c201912 frequency 12 ipca Grafico da serie parmfrow c1 1 plotipca main IPCA mensal19952019 xlab Periodo ylab Funcao monthplot detectar sazonalidade monthplotipca main Monthplot 19942024 ylab Funcao boxplot detectar sazonalidade boxplotipca cycleipca main Boxplot 19952019 ylab xlab Decomposiocada serie temporal plotstlipca swindowperiodic plotdecomposeipca FAC e FACP parmfrowc21 acfipcalagmax36 main FAC xlab Defasagem ylab pacfipcalagmax36 main FACP xlab Defasagem ylab Testes de raíz unitária Teste ADF H0 nao estacionario Em nivel summaryurdfipca typectrendlags12 selectlags BIC summaryurdfipca typecdriftlags12 selectlags BIC summaryurdfipca typecnonelags12 selectlags BIC Em primeira diferena summaryurdfdiffipca typectrendlags12 selectlags BIC summaryurdfdiffipca typecdriftlags12 selectlags BIC summaryurdfdiffipca typecnonelags12 selectlags BIC Teste de PP H0 nao estacionario Em nivel summaryurppipcatypecZtau modelctrend lagscshort summaryurppipcatypecZtau modelcconstant lagscshort Em primeira diferena summaryurppdiffipcatypecZtau modelctrend lagscshort summaryurppdiffipcatypecZtau modelcconstant lagscshort Comparando a variavel em nivel e em primeira diferenca parmfrowc21 plotipca main IPCA BR Em nivel xlab Período ylab plotdiffipca main IPCA BR Em primeira diferena xlab Período ylab parmfrowc22 acfipcalagmax36 main FAC xlab Defasagem ylab pacfipcalagmax36 main FACP xlab Defasagem ylab acfdiffipcalagmax36 main FAC Diff xlab Defasagem ylab pacfdiffipcalagmax36 main FACP Diff xlab Defasagem ylab ETAPA 2 ESTIMACAO Candidatos a melhor modelo SARIMApdqxPDQ fit1 coeftestArimaipca orderc001 seasonalc100 includeconstant Tfit1 ok fit2 coeftestArimaipca orderc100 seasonalc100 includeconstant Tfit2 ok autoarima fit3 coeftestArimaipca orderc101 seasonalc101 includeconstant Tfit3 não fit4 coeftestArimaipca orderc101 seasonalc001 includeconstant Tfit4 não fit5 coeftestArimaipca orderc201 seasonalc100 includeconstant Tfit5 não fit6 coeftestArimaipca orderc200 seasonalc001 includeconstant Tfit6 não fit7 coeftestArimaipca orderc200 seasonalc101 includeconstant Tfit7 não fit8 coeftestArimaipca orderc102 seasonalc001 includeconstant Tfit8 ok fit9 coeftestArimaipca orderc100 seasonalc001 includeconstant Tfit9 ok autoarimaipca ic bic test adf Criterios de informacao mod1Arimaipca orderc001 seasonalc100 includeconstant T mod1 mod2Arimaipca orderc100 seasonalc100 includeconstant T mod2 autoarima mod8Arimaipca orderc102 seasonalc001 includeconstant T mod8 mod9Arimaipca orderc100 seasonalc001 includeconstant T mod9 AICmod1mod2mod8mod9 BICmod1mod2mod8mod9 com base nos critérios acima analisaremos na etapa de verificação o modelo os modelos mod2 mod8 e mod9 ETAPA 3 VERIFIÇÃO Teste de estabilidade autoplotmod2 autoplotmod8 autoplotmod9 Testes dos residuos Teste de heteroscedasticidade Teste ARCH H0 os residuos nao possuem efeitos auto regressivos de heteroscedasticidade condicional ArchTestmod2residualslags 12 ArchTestmod8residualslags 12 ArchTestmod9residualslags 12 Autocorrelao Teste de LjungBox H0 os residuos sao iid tsdiagmod2 res2residualsmod2 Boxtestres2lag12typeLjungBox Boxtestres2lag24typeLjungBox Boxtestres2lag36typeLjungBox tsdiagmod8 res8residualsmod8 Boxtestres8lag12typeLjungBox Boxtestres8lag24typeLjungBox Boxtestres8lag36typeLjungBox tsdiagmod9 res9residualsmod9 Boxtestres9lag12typeLjungBox Boxtestres9lag24typeLjungBox Boxtestres9lag36typeLjungBox Normalidade Teste de JarqueBera H0 normalidade dos residuos parmfrowc22 histres2 freqF ylabDensidade xlabResduos mainResduos plotdensityres2 kernel cgaussian mainResduos Funo de densidade estimada qqnormres2 ylabQuantis amostrais xlabQuantis tericos mainQuantilQuantil qqlineres2 col red shapirotestres2 jarqueberatestres2 parmfrowc22 histres8 freqF ylabDensidade xlabResduos mainResduos plotdensityres8 kernel cgaussian mainResduos Funo de densidade estimada qqnormres8 ylabQuantis amostrais xlabQuantis tericos mainQuantilQuantil qqlineres8 col red shapirotestres8 jarqueberatestres8 parmfrowc22 histres9 freqF ylabDensidade xlabResduos mainResduos plotdensityres9 kernel cgaussian mainResduos Funo de densidade estimada qqnormres9 ylabQuantis amostrais xlabQuantis tericos mainQuantilQuantil qqlineres9 col red shapirotestres9 jarqueberatestres9 ETAPA 4 PREVISAO Testes de acuracia Teste de acuracia dentro da amostra amostra inteira como treino accuracymod2 accuracymod8 accuracymod9 Teste de acuracia fora da amostra usando ano x Modelo 2 ipcatest tailipca12 definindo a serie teste ipcatest ipcatrain headipca lengthipca12 definindo a serie treino ipcatrain mod2trainautoarimaipcatrain mod2train fcmod2train forecastmod2train h 12 fcmod2train parmfrowc11 plotfcmod2train accuracyfcmod2trainmeanipcatest comparando dados reais com previstos dftest2 tsdataframecbindfcstfcmod2trainmeanobsipcatest juntando colunas autoplotdftest22 series Observado autolayerdftest21 series Previsao labstitle IPCA Periodojan2019dez2019 x Periodos y color Previsao Modelo 8 ipcatest tailipca12 definindo a serie teste ipcatest ipcatrain headipca lengthipca12 definindo a serie treino ipcatrain mod8trainArimaipcatrain orderc111 seasonalc100 includeconstant TRUE mod8train fcmod8train forecastmod8train h 12 fcmod8train parmfrowc11 plotfcmod8train include 24 showgap F accuracyfcmod8trainmeanipcatest dftest8 tsdataframecbindfcstfcmod8trainmeanobsipcatest autoplotdftest82 series Observado autolayerdftest81 series Previsao labstitle IPCA Periodo Jan2019 Dez2019 x Periodos y color Previsao Modelo 9 ipcatest tailipca12 definindo a serie teste ipcatest ipcatrain headipca lengthipca12 definindo a serie treino ipcatrain mod9trainArimaipcatrain orderc111 seasonalc100 includeconstant TRUE mod9train fcmod9train forecastmod8train h 12 fcmod9train parmfrowc11 plotfcmod9train include 24 showgap F accuracyfcmod9trainmeanipcatest dftest9 tsdataframecbindfcstfcmod9trainmeanobsipcatest autoplotdftest92 series Observado autolayerdftest91 series Previsao labstitle IPCA Periodo Jan2019 Dez2019 x Periodos y color Previsao Fim Objetivo realizar uma análise de previsão para um modelo univariado a partir da Metodologia BoxJenkins Data de entrega 05052025 até às 2359 Formato o trabalho deve ser feito pelos grupos previamente definidos e enviados até a data limite nesta atividade do Moodle no formato PDF Estrutura do trabalho o Capa do trabalho com título indicando i o nome da série escolhida ii a letra correspondente ao grupo e iii os nomes completos dos integrantes do grupo o Itens que serão avaliados 1 Identificação da série Gráfico da série FAC e FACP Decomposição da série Testes de raiz unitária Descrição dos resultados 2 Estimação Modelos candidatos Critérios de informação Descrição dos resultados 3 Verificação do modelo ajustado Teste de estabilidade Teste de autocorrelação Teste de normalidade Teste de heterocedasticidade Descrição dos resultados 4 Previsão Gráficos Tabela com os valores previstos Critérios de acurácia Descrição dos resultados 5 Código Copiar e colar o código utilizado no modelo o Dicas 1 Escolham séries longas com no mínimo 60 observações O ideal é que sejam séries de periodicidade ou mensal ou trimestral 2 Devido ao choque adverso provocado pela pandemia muitas séries terão quebras estruturais grandes a partir de 2020 Sugiro que realizem previsões considerando valores observados até dezembro de 2019 Um exercício interessante mas não obrigatório é justamente comparar os resultados das previsões para 2020 com os valores observados até então para vermos o desvio provocado pela pandemia em relação à previsão com base nos dados até dezembro de 2019 3 Sugestões de fontes Ipeadata httpwwwipeadatagovbrDefaultaspx Banco Central do Brasil httpsdadosabertosbcbgovbr Federal Reserve Bank of St Louise httpsfredstlouisfedorg UNIVERSIDADE FEDERAL DE MINAS GERAIS FACULDADE DE CIÊNCIAS ECONÔMICAS CURSO DE CIÊNCIAS ECONÔMICAS DISCIPLINA ECONOMETRIA II GRUPO MODELAGEM ARIMA APLICADA À SÉRIE DE BENS DE CONSUMO MENSAL UMA ABORDAGEM BOXJENKINS CIDADE MG 2025 Sumário 1 Introdução 3 2 Identificação da Série 4 21 Análise Gráfica 4 22 Função de Autocorrelação FAC e Autocorrelação Parcial FACP 6 23 Decomposição da Série 8 24 Testes de Estacionariedade 8 3 Estimação 10 4 Verificação do Modelo 13 41 Estabilidade dos Parâmetros 13 42 Normalidade dos Resíduos 14 43 Heterocedasticidade dos Resíduos 16 44 Autocorrelação dos Resíduos 16 45 Conclusão 17 5 Previsões 17 6 Referências 21 7 Código 22 1 Introdução A análise de séries temporais constitui uma importante ferramenta estatística utilizada para investigar o comportamento de variáveis observadas ao longo do tempo Diferentemente de conjuntos de dados convencionais as séries temporais são caracterizadas pela dependência entre observações adjacentes sendo fundamentais em diversos campos de pesquisa econômica financeira e social De acordo com Box et al 2015 cada dado está associado a um ponto específico no tempo o que permite explorar padrões dinâmicos como tendência sazonalidade e componentes aleatórios Neste contexto destacase a metodologia BoxJenkins desenvolvida por Box e Jenkins na década de 1970 como uma das abordagens mais sistemáticas e consagradas para modelagem de séries temporais Essa metodologia é especialmente voltada para a identificação estimação e verificação de modelos autorregressivos integrados de médias móveis ARIMA cuja estrutura flexível permite captar diferentes comportamentos e componentes da série analisada O processo é iterativo e exige a combinação entre análise gráfica testes estatísticos e critérios de informação para garantir a robustez e a parcimônia do modelo Hyndman Athanasopoulos 2018 O presente estudo tem como objetivo aplicar a metodologia BoxJenkins à série mensal do Índice de Produção de Bens de Consumo no Brasil com dados disponibilizados pelo Instituto Brasileiro de Geografia e Estatística IBGE abrangendo o período de janeiro de 2002 a fevereiro de 2025 e o auxílio do software R para a modelagem da série Esta série representa um importante indicador da atividade econômica industrial refletindo o desempenho do setor de bens de consumo no país ao longo do tempo A escolha por essa série justificase não apenas por sua relevância macroeconômica mas também por sua extensão temporal e granularidade mensal que permitem uma aplicação dos métodos de modelagem Dentre as principais etapas metodológicas destacamse a análise exploratória da série incluindo gráficos funções de autocorrelação e decomposição testes de estacionariedade como o teste de Dickey Fuller aumentado identificação de modelos candidatos via análise dos resíduos e critérios de informação AIC BIC além da verificação da adequação do modelo ajustado por meio de testes de diagnóstico Além disso os últimos 12 valores da série serão reservados como dados de teste permitindo a avaliação da capacidade preditiva do modelo ajustado A comparação entre os valores previstos e os observados nesse intervalo fornece uma medida objetiva de acurácia essencial para validar a performance do modelo ARIMA proposto 2 Identificação da Série Nesta etapa será realizada a análise exploratória da série temporal do Índice de Produção de Bens de Consumo com o objetivo de identificar padrões estruturais como tendência sazonalidade e possíveis rupturas que auxiliem na escolha de um modelo apropriado para previsão A análise será conduzida por meio da inspeção gráfica da série cálculo das funções de autocorrelação FAC e autocorrelação parcial FACP decomposição da série e aplicação de testes de estacionariedade 21Análise Gráfica A Figura 1 apresenta a série completa do Índice de Bens de Consumo no período de janeiro de 2002 a fevereiro de 2025 obtida por meio da base da Pesquisa Industrial Mensal Produção Física PIMPF divulgada pelo Instituto Brasileiro de Geografia e Estatística IBGE Figura 1 Série mensal dos Bens e Consumo do Brasil de jan2002 a fev2025 A Figura 1 revela um comportamento de crescimento consistente no índice de produção de bens de consumo entre julho de 2003 e outubro de 2014 evidenciando um período de expansão da atividade industrial voltada ao consumo A partir de outubro de 2014 observase uma inflexão na trajetória da série marcada por uma queda expressiva que indica um processo de retração A queda mais acentuada no entanto ocorreu em abril de 2020 quando o índice atingiu seu menor valor 7444 refletindo os efeitos da crise sanitária e econômica gerada pela pandemia da Covid19 Em seguida a série apresentou uma rápida recuperação atingindo 11213 em janeiro de 2021 Contudo esse movimento de alta foi interrompido e a série voltou a apresentar sinais de enfraquecimento Atualmente observase uma tendência de queda embora com comportamento sazonal persistente caracterizado por flutuações cíclicas regulares ao longo do tempo Com o objetivo de avaliar a capacidade preditiva do modelo a ser ajustado os últimos 12 valores da série foram separados como conjunto de teste Essa divisão é importante para que a validação do modelo ocorra com base em dados não utilizados no treinamento conforme sugerido por Box et al 2015 A série utilizada para estimação portanto compreende o intervalo de janeiro de 2002 a fevereiro de 2024 como apresentado na Figura 2 Figura 2 Série de treino do Índice de Produção de Bens de Consumo jan2002 a fev2024 A Figura 2 mantém as características observadas na série original permitindo a análise e identificação de um modelo ajustado com base em dados históricos enquanto a porção final será utilizada posteriormente para avaliar o desempenho das previsões geradas 22Função de Autocorrelação FAC e Autocorrelação Parcial FACP A Figura 3 apresenta a função de autocorrelação FAC e a função de autocorrelação parcial FACP ambas calculadas sobre a série de treino FAC e FACP indicam o grau de correlação entre os valores da série e seus valores passados em diferentes defasagens lags Essas ferramentas são amplamente utilizadas para identificar padrões de dependência temporal em séries Figura 3 Função de Autocorrelação FAC e a Função de Autocorrelação Parcial FACP A Figura 3 apresenta os gráficos da FAC e FACP da série em nível A FAC exibe um padrão de decaimento exponencial sugerindo que os efeitos das autocorrelações diminuem gradualmente à medida que o número de defasagens aumenta Esse comportamento é típico de uma estrutura autorregressiva indicando que os valores passados influenciam os presentes mas com intensidade decrescente ao longo do tempo Por outro lado a FACP apresenta um corte abrupto após a primeira defasagem lag 1 com significância apenas nesse primeiro ponto e ausência de significância nos demais Esse padrão é característico de um modelo autorregressivo de ordem 1 𝐴𝑅1 conforme descrito por Box Jenkins e Reinsel 2008 e sugere que a série pode ser bem representada por esse tipo de processo Ainda assim análises complementares como testes de estacionariedade são necessárias para confirmar essa estrutura 23Decomposição da Série A decomposição da série temporal é apresentada na Figura 4 Foi utilizada a decomposição multiplicative separando a série nos componentes tendência sazonalidade e ruído Figura 4 Decomposição da Série Temporal Tendência Sazonalidade e Resíduo A decomposição confirma a presença de sazonalidade estável ao longo dos anos e uma tendência oscilante sem comportamento determinístico definido O componente de ruído parece não seguir um padrão específico como esperado em séries que possuem características de ruído branco A sazonalidade está alinhada com a estrutura de produção industrial do país que apresenta ciclos mensais recorrentes geralmente relacionados à demanda e ao calendário comercial 24Testes de Estacionariedade A análise da estacionariedade ou também conhecido como o teste da raiz unitária foi realizada com base no Teste de DickeyFuller Aumentado ADF Esse teste verifica se a série possui raiz unitária sendo as seguintes hipóteses 𝐻0 𝛿 0 𝑛ã𝑜 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛á𝑟𝑖𝑎 𝐻1 𝛿 0 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛𝑎𝑟𝑖𝑎 O resultado do teste com a série de treino foi Figura 5 Teste ADF com a série treino O teste ADF foi aplicado à série em nível e o pvalor obtido foi superior a 005 não permitindo a rejeição da hipótese nula ao nível de significância de 5 Isso indica que a série em seu formato original não é estacionária Foi então realizada a primeira diferenciação da série e o teste ADF reaplicado Figura 6 Teste ADF com a série após a primeira diferenciação Após a primeira diferenciação o pvalor passou a ser inferior a 005 permitindo rejeitar a hipótese nula o que indica que a série diferenciada é estacionária em primeira ordem ou seja integrada de ordem 1 Esse resultado valida o uso da estrutura ARIMA para o ajuste do modelo O gráfico da Figura 7 mostra a série estacionaria após a diferenciação Figura 7 Série temporal após a Diferenciação 3 Estimação A etapa de estimação tem como objetivo identificar a partir das características observadas da série os modelos ARIMA candidatos que melhor representam sua estrutura temporal De acordo com a metodologia BoxJenkins a seleção do modelo adequado considera a estacionariedade da série os padrões das funções de autocorrelação FAC e autocorrelação parcial FACP bem como os critérios de informação como o AIC Akaike Information Criterion e o BIC Bayesian Information Criterion Conforme verificado na etapa de identificação a série original não apresentou características de estacionariedade Dessa forma foi realizada uma diferenciação de ordem 1 sendo este o valor fixado para 𝑑 em todos os modelos estimados A diferenciação é uma técnica que transforma uma série não estacionária em estacionária ao subtrair o valor atual do anterior permitindo a aplicação de modelos ARIMA Box et al 2008 Com a série diferenciada foram testados diferentes modelos 𝐴𝑅𝐼𝑀𝐴𝑝 𝑑 𝑞 incluindo combinações com componentes autorregressivos AR e de média móvel MA além de estruturas sazonais do tipo 𝐴𝑅𝐼𝑀𝐴𝑝 𝑑 𝑞𝑃 𝐷 𝑄12 considerando a frequência mensal da série A avaliação da qualidade dos modelos candidatos foi feita por meio da comparação dos valores de AIC e BIC conforme sugerido por Burnham e Anderson 2002 A Tabela 1 apresenta os modelos candidatos estimados e os respectivos valores dos critérios de informação Tabela 1 Modelos ARIMA candidatos com seus valores de AIC e BIC MODELOS ESTIMATIVAS PVALOR AIC BIC ARIMA010 141192 14155 ARIMA110 AR1 00170 07823 141385 142101 ARIMA111 AR1 07421 MA1 08668 0 0 140321 141465 ARIMA211 AR1 07783 AR2 01209 MA1 08459 0 006179 0 140253 141685 ARIMA212 AR1 09867 AR2 02779 MA1 10573 MA2 01893 02279 06438 02092 07994 140439 142229 ARIMA111011 AR1 07321 MA1 08828 SMA1 09182 0 0 0 138409 139822 ARIMA111110 AR1 08113 MA1 09790 SAR1 04296 0 0 0 145563 146976 ARIMA211011 AR1 07605 AR2 01026 MA1 08454 SMA1 09313 0 0127 0 0 138382 140149 ARIMA211111 AR1 07642 AR2 01020 0 01295 138544 140664 MA1 08489 SAR1 0452 SMA1 09559 0 05416 0 ARIMA211210 AR1 08284 AR2 00547 MA1 09537 SAR1 05697 SAR2 02994 0 06365 0 0 0 143568 145688 Fonte Elaboração própria com os resultados do R Com base nos resultados apresentados na Tabela 1 é possível realizar uma análise comparativa entre os modelos ARIMA estimados levando em consideração os critérios de informação AIC e BIC a significância estatística dos parâmetros e a estrutura de cada modelo Inicialmente os modelos não sazonais como o ARIMA010 ARIMA110 ARIMA111 e ARIMA212 apresentam valores de AIC e BIC significativamente superiores aos modelos com componentes sazonais Por exemplo o ARIMA010 que representa um passeio aleatório simples apresentou AIC de 141192 sendo claramente inferior em termos de ajuste comparado aos demais O ARIMA111 e o ARIMA211 mostraram bons desempenhos em termos de AIC 140321 e 140253 respectivamente além de apresentarem parâmetros estatisticamente significantes pvalores próximos de zero o que indica que a inclusão de termos autorregressivos e de média móvel contribui para melhorar o ajuste da série Entretanto ao incluir a sazonalidade no modelo observase uma melhora substancial no ajuste O modelo ARIMA111011 reduziu o AIC para 138409 e o BIC para 139822 com todos os parâmetros estatisticamente significantes sugerindo um bom ajuste e capacidade explicativa da sazonalidade presente na série Modelos mais complexos como o ARIMA211011 e o ARIMA211111 apresentam AIC ainda menor 138382 e 138544 respectivamente indicando leve superioridade na qualidade do ajuste Contudo o aumento da complexidade estrutural com maior número de parâmetros refletese no aumento do BIC que penaliza modelos mais parametrizados Além disso no modelo ARIMA211011 o parâmetro AR2 tem pvalor de 0127 não sendo estatisticamente significativo ao nível de 5 o que sugere que ele pode ser descartado O modelo ARIMA111110 apesar de contar com todos os parâmetros significativos apresentou o maior AIC da tabela de 145563 entre os modelos sazonais sendo descartado por pior desempenho preditivo Por fim o modelo ARIMA211210 embora tenha parâmetros significativos apresenta um AIC de 143568 consideravelmente maior que os modelos com estrutura mais simples sem ganhos substanciais de desempenho que justifiquem sua complexidade Pode se concluir que o modelo ARIMA211011 se destaca por apresentar o menor valor de AIC 138382 entre todos os modelos avaliados aliado a um bom desempenho do BIC 140149 e parâmetros majoritariamente significativos Esse modelo captura tanto a dependência temporal quanto a estrutura sazonal da série sendo o mais indicado para representar os dados observados É importante destacar que a ordem de diferenciação 𝑑 1 e 𝐷 1 foi mantida em todos os modelos em função da identificação da série como não estacionária sendo necessário aplicar uma diferença regular e uma diferença sazonal para estabilizar a média ao longo do tempo BOX et al 2008 4 Verificação do Modelo A etapa de verificação é essencial no processo de modelagem segundo a metodologia BoxJenkins pois permite avaliar se o modelo ajustado atende aos pressupostos estatísticos necessários para garantir previsões confiáveis Neste contexto a análise de resíduos é utilizada para verificar a estabilidade dos parâmetros estimados a ausência de autocorrelação a constância da variância homocedasticidade e a normalidade da distribuição dos erros Para isso foram aplicados os seguintes testes análise das raízes do polinômio característico para estabilidade o teste de LjungBox autocorrelação o teste ARCH heterocedasticidade e os testes de normalidade de ShapiroWilk e Jarque Bera 41Estabilidade dos Parâmetros A estabilidade dos parâmetros estimados ao longo do tempo é fundamental para garantir que o modelo mantenha sua capacidade preditiva mesmo em diferentes períodos Para essa verificação foi utilizado o gráfico das raízes do polinômio autoregressivo e de médias móveis apresentado na Figura 8 A presença das raízes dentro do círculo unitário indica que o modelo é estável Figura 8 Gráfico das raízes do modelo ARIMA211011 A análise gráfica da Figura 8 mostra que todas as raízes associadas aos parâmetros AR e MA estão dentro do círculo unitário o que evidencia que o modelo é estável e adequado para fins de previsão 42Normalidade dos Resíduos A verificação da normalidade dos resíduos é fundamental uma vez que esse pressuposto sustenta diversos testes inferenciais e é crucial para a construção de intervalos de confiança e previsões com margem de erro confiável Para essa análise foram aplicados os testes de ShapiroWilk e JarqueBera além de representações gráficas como histogramas e a curva de densidade que auxiliam na inspeção visual da distribuição dos resíduos As hipóteses dos testes são 𝐻0 𝑂𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝑠𝑒𝑔𝑢𝑒𝑚 𝑢𝑚𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑛𝑜𝑟𝑚𝑎𝑙 𝐻1 𝑂𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝑛ã𝑜 𝑠𝑒𝑔𝑢𝑒𝑚 𝑢𝑚𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜 𝑛𝑜𝑟𝑚𝑎𝑙 O gráfico da Figura 9 trás o histograma e a curva de densidades dos resíduos do modelo selecionado Figura 9 Histograma e curva de densidade dos resíduos do modelo Conforme observado na Figura 9 a distribuição dos resíduos apresenta uma forma simétrica e concentrada em torno de zero sugerindo aderência a uma distribuição gaussiana com média nula Para corroborar essa evidência visual a Tabela 2 apresenta os resultados dos testes formais de normalidade aplicados aos resíduos Tabela 2 Resultados dos testes de normalidade TESTE ESTATÍSTICA PVALOR ShapiroWilk 097344 0127 JarqueBera 38211 0148 Fonte Elaboração própria Os resultados dos testes apresentados na Tabela 2 mostra que os pvalores dos testes foram superiores a 5 o que indica que não há evidência estatística suficiente para rejeitar a hipótese nula de normalidade dos resíduos Essa conclusão é reforçada pela forma aproximadamente simétrica do histograma sugerindo que os resíduos seguem de fato uma distribuição aproximadamente normal 43 Heterocedasticidade dos Resíduos A verificação da homocedasticidade ou seja a constância da variância dos resíduos ao longo do tempo é essencial para garantir a robustez das estimativas e a confiabilidade do modelo Para isso foi utilizado o teste ARCH que tem como hipóteses 𝐻0 𝐻𝑜𝑚𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑𝑒 𝑑𝑜𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝐻1 𝐻𝑒𝑡𝑒𝑟𝑜𝑐𝑒𝑑𝑎𝑠𝑡𝑖𝑐𝑖𝑑𝑎𝑑𝑒 𝑑𝑜𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 O pvalor obtido para o teste ARCH foi 038 que é significativamente superior ao nível de significância de 5 Dessa forma não rejeitamos a hipótese nula o que indica que não há evidências de heterocedasticidade condicional nos resíduos Assim o modelo ARIMA211011 atende ao pressuposto de variância constante ao longo do tempo permitindo garantir a estabilidade dos resultados para futuras previsões 44Autocorrelação dos Resíduos A ausência de autocorrelação serial nos resíduos é outra condição importante para validar a qualidade do modelo Foi aplicado o teste de LjungBox que avalia se há autocorrelação significativa para diferentes defasagens as hipóteses do teste são 𝐻0 𝑁ã𝑜 ℎá 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝑑𝑜𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝐻1 𝐻á 𝑎𝑢𝑡𝑜𝑐𝑜𝑟𝑟𝑒𝑙𝑎çã𝑜 𝑑𝑜𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 A Tabela 3 mostra o pvalores do teste para diferentes níveis de defasagem Tabela 3 Teste de LjungBox para diferentes lags LAG PVALOR 12 05514 24 009951 36 01923 48 0231 Fonte Elaboração própria Os resultados indicam que para os quatro níveis de defasagem analisados os resíduos não apresentam autocorrelação estatisticamente significativa validando a adequação do modelo também nesse critério 45Conclusão Após a aplicação dos testes de estabilidade normalidade homocedasticidade e autocorrelação constatouse que o modelo ARIMA211011 apresenta um comportamento satisfatório dos resíduos Todas as suposições básicas foram atendidas confirmando que o modelo é estatisticamente consistente e adequado para previsão da série temporal analisada 5 Previsões Após a validação do modelo ARIMA211011 por meio dos testes de estabilidade normalidade ausência de heterocedasticidade e autocorrelação dos resíduos procedese à etapa de previsão a qual tem como principal objetivo fornecer estimativas futuras da série temporal com base em seu comportamento histórico A capacidade preditiva de um modelo é uma das suas características mais relevantes sobretudo em contextos em que decisões dependem de projeções acuradas A previsão foi realizada para os próximos 12 períodos compatível com a estrutura sazonal anual detectada na série A Figura 10 apresenta os valores previstos juntamente com os intervalos de confiança de 95 representando a margem de incerteza associada às estimativas Figura 10 Previsão para os próximos 12 meses com intervalo de confiança de 95 Como parte da estratégia de validação foram previamente retiradas as últimas 12 observações da série original formando uma amostra de teste que não foi utilizada na estimação do modelo Essas observações reais agora serão comparadas com os valores previstos gerados pelo modelo ARIMA211011 a fim de avaliar sua capacidade preditiva em dados futuros A Figura 11 a seguir apresenta essa comparação gráfica entre os valores reais observados e os valores previstos permitindo visualizar a proximidade entre as duas séries Já a Tabela 4 mostra os valores numéricos correspondentes Figura 11 Comparação entre valores reais e previstos para os últimos 12 períodos Tabela 4 Valores reais vs previstos 12 meses de teste MÊS REAL PREVISTO Março 1050924 1029305 Abril 1053697 1014720 Maio 1027246 1008857 Junho 1098661 1021630 Julho 1068321 1030662 Agosto 1072395 1030892 Setembro 1071427 1030175 Outubro 1062781 1035815 Novembro 1044732 1033553 Dezembro 1014540 1034506 Janeiro 1050072 1037888 Fevereiro 1035941 1038091 Fonte Elaboração Própria Para avaliar a qualidade das previsões do modelo ARIMA211011 foram calculadas três métricas principais o Erro Médio Absoluto MAE o Erro Quadrático Médio RMSE e o Erro Percentual Absoluto Médio MAPE O MAE foi de 29073 o que indica que em média as previsões estão a cerca de 291 unidades de distância dos valores reais O RMSE com valor de 34767 reflete a magnitude média do erro quadrático enquanto o MAPE que foi de 273 indica que as previsões apresentaram um erro percentual médio de 273 Esses valores sugerem que o modelo obteve um desempenho satisfatório com previsões muito próximas dos valores reais observados O desempenho do modelo com erros dentro de uma margem aceitável confirma a sua eficácia para prever os próximos períodos em uma análise preditiva 6 Referências Box G E P Jenkins G M Reinsel G C Ljung G M 2015 Time Series Analysis Forecasting and Control Wiley BOX G E P JENKINS G M REINSEL G C Time Series Analysis Forecasting and Control 4 ed Hoboken Wiley 2008 Hyndman R J Athanasopoulos G 2018 Forecasting Principles and Practice OTexts IBGE Instituto Brasileiro de Geografia e Estatística Pesquisa Industrial Mensal Produção Física PIMPF Disponível em httpswwwibgegovbr 7 Código TRABALHO DE ECONOMETRIA Carregando os pacotes libraryforecast librarydygraphs librarystats librarystatsr libraryreadxl libraryurca librarytseries librarylmtest libraryFinTS Dados dados readexcelCUsersDownloadsserieconsumoxlsx attachdados Transformando os dados em uma série temporal consumo tsBensConsumo start c2002 1 frequency 12 plotconsumomainSérie Temporal de Bens e ConsumoxlabPeríodo ylabConsumo dygraphdata consumo main Série Temporal de Bens e Consumo xlab Mês ylab Separando treino consumo1266 z tstreino start c20021 frequency 12 plotzmainSérie Temporal de Bens e ConsumoxlabPeríodo ylabConsumo teste consumo267278 teste tsteste start c20243 frequency 12 plotteste ACF e PACF parmfrowc21 acfz mainACF da série Bens de Consumo pacfz mainPACF da série Bens de Consumo Decomposição da série plotdecomposezmultiplicative Teste da raiz Unitária Estacionariedade adftestz Primeira Diferenciação z1 diffz parmfrowc11 plotz1 mainSérie Temporal de Bens e Consumo após a DiferenciaçãoxlabPeríodo ylabConsumo adftestz1 Modelos de teste m1 Arimaz order c0 1 0 seasonal c0 0 0 m1 m2 Arimaz order c1 1 0 seasonal c0 0 0 m2 m3 Arimaz order c1 1 1 seasonal c0 0 0 m3 m4 Arimaz order c2 1 1 seasonal c0 0 0 m4 m5 Arimaz order c2 1 2 seasonal c0 0 0 m5 m6 Arimaz order c1 1 1 seasonal c0 1 1 m6 m7 Arimaz order c1 1 1 seasonal c1 1 0 m7 m8 Arimaz order c2 1 1 seasonal c0 1 1 m8 m9 Arimaz order c2 1 1 seasonal c1 1 1 m9 m10 Arimaz order c2 1 1 seasonal c2 1 0 m10 coeftestm2 coeftestm3 coeftestm4 coeftestm5 coeftestm6 coeftestm7 coeftestm8 coeftestm9 coeftestm10 Modelo selecionado modelo m8 Teste de estabilidade autoplotmodelo Teste de normalidade residuos modeloresiduals histresiduos probability TRUE col greenmain Histograma e Curva de Densidade dos Resíduos xlab Resíduos border white linesdensityresiduos col blue lwd 2 curvednormx mean meanresiduos sd sdresiduoscol red lwd 2 lty 2 add TRUE legendtopright legend cDensidade Empírica Normal Teóricacol cblue red lwd 2 lty c1 2 shapirotestresiduos jarqueberatestresiduos Teste de Heterocedasticidade ArchTestresiduos Teste de Autocorrelação Boxtestresiduos lag 12 type LjungBox Boxtestresiduos lag 24 type LjungBox Boxtestresiduos lag 36 type LjungBox Boxtestresiduos lag 48 type LjungBox Previsão previsao forecastmodelo h12 level95 previsao autoplotprevisao plotteste type l col blue lwd 2xlab Tempo ylab Valor main Reais vs Previstos linesprevisaomean col red lwd 2 lty 2 legendtopleft legend cReais Previstoscol cblue red lty c1 2 lwd 2 teste mae meanabsteste previsaomean mae rmse sqrtmeanteste previsaomean2 rmse mape meanabsteste previsaomeanteste 100 mape UNIVERSIDADE FEDERAL DE MINAS GERAIS FACULDADE DE CIÊNCIAS ECONÔMICAS CURSO DE CIÊNCIAS ECONÔMICAS DISCIPLINA ECONOMETRIA II GRUPO MODELAGEM ARIMA APLICADA À SÉRIE DE BENS DE CONSUMO MENSAL UMA ABORDAGEM BOXJENKINS CIDADE MG 2025 Sumário 1 Introdução3 2 Identificação da Série4 21 Análise Gráfica4 22 Função de Autocorrelação FAC e Autocorrelação Parcial FACP6 23 Decomposição da Série8 24 Testes de Estacionariedade8 3 Estimação10 4 Verificação do Modelo13 41 Estabilidade dos Parâmetros13 42 Normalidade dos Resíduos14 43 Heterocedasticidade dos Resíduos16 44 Autocorrelação dos Resíduos16 45 Conclusão17 5 Previsões17 6 Referências21 7 Código22 1 Introdução A análise de séries temporais constitui uma importante ferramenta estatística utilizada para investigar o comportamento de variáveis observadas ao longo do tempo Diferentemente de conjuntos de dados convencionais as séries temporais são caracterizadas pela dependência entre observações adjacentes sendo fundamentais em diversos campos de pesquisa econômica financeira e social De acordo com Box et al 2015 cada dado está associado a um ponto específico no tempo o que permite explorar padrões dinâmicos como tendência sazonalidade e componentes aleatórios Neste contexto destacase a metodologia BoxJenkins desenvolvida por Box e Jenkins na década de 1970 como uma das abordagens mais sistemáticas e consagradas para modelagem de séries temporais Essa metodologia é especialmente voltada para a identificação estimação e verificação de modelos autorregressivos integrados de médias móveis ARIMA cuja estrutura flexível permite captar diferentes comportamentos e componentes da série analisada O processo é iterativo e exige a combinação entre análise gráfica testes estatísticos e critérios de informação para garantir a robustez e a parcimônia do modelo Hyndman Athanasopoulos 2018 O presente estudo tem como objetivo aplicar a metodologia BoxJenkins à série mensal do Índice de Produção de Bens de Consumo no Brasil com dados disponibilizados pelo Instituto Brasileiro de Geografia e Estatística IBGE abrangendo o período de janeiro de 2002 a fevereiro de 2025 e o auxílio do software R para a modelagem da série Esta série representa um importante indicador da atividade econômica industrial refletindo o desempenho do setor de bens de consumo no país ao longo do tempo A escolha por essa série justificase não apenas por sua relevância macroeconômica mas também por sua extensão temporal e granularidade mensal que permitem uma aplicação dos métodos de modelagem Dentre as principais etapas metodológicas destacamse a análise exploratória da série incluindo gráficos funções de autocorrelação e decomposição testes de estacionariedade como o teste de Dickey Fuller aumentado identificação de modelos candidatos via análise dos resíduos e critérios de informação AIC BIC além da verificação da adequação do modelo ajustado por meio de testes de diagnóstico Além disso os últimos 12 valores da série serão reservados como dados de teste permitindo a avaliação da capacidade preditiva do modelo ajustado A comparação entre os valores previstos e os observados nesse intervalo fornece uma medida objetiva de acurácia essencial para validar a performance do modelo ARIMA proposto 2 Identificação da Série Nesta etapa será realizada a análise exploratória da série temporal do Índice de Produção de Bens de Consumo com o objetivo de identificar padrões estruturais como tendência sazonalidade e possíveis rupturas que auxiliem na escolha de um modelo apropriado para previsão A análise será conduzida por meio da inspeção gráfica da série cálculo das funções de autocorrelação FAC e autocorrelação parcial FACP decomposição da série e aplicação de testes de estacionariedade 21 Análise Gráfica A Figura 1 apresenta a série completa do Índice de Bens de Consumo no período de janeiro de 2002 a fevereiro de 2025 obtida por meio da base da Pesquisa Industrial Mensal Produção Física PIMPF divulgada pelo Instituto Brasileiro de Geografia e Estatística IBGE Figura 1 Série mensal dos Bens e Consumo do Brasil de jan2002 a fev2025 A Figura 1 revela um comportamento de crescimento consistente no índice de produção de bens de consumo entre julho de 2003 e outubro de 2014 evidenciando um período de expansão da atividade industrial voltada ao consumo A partir de outubro de 2014 observase uma inflexão na trajetória da série marcada por uma queda expressiva que indica um processo de retração A queda mais acentuada no entanto ocorreu em abril de 2020 quando o índice atingiu seu menor valor 7444 refletindo os efeitos da crise sanitária e econômica gerada pela pandemia da Covid19 Em seguida a série apresentou uma rápida recuperação atingindo 11213 em janeiro de 2021 Contudo esse movimento de alta foi interrompido e a série voltou a apresentar sinais de enfraquecimento Atualmente observase uma tendência de queda embora com comportamento sazonal persistente caracterizado por flutuações cíclicas regulares ao longo do tempo Com o objetivo de avaliar a capacidade preditiva do modelo a ser ajustado os últimos 12 valores da série foram separados como conjunto de teste Essa divisão é importante para que a validação do modelo ocorra com base em dados não utilizados no treinamento conforme sugerido por Box et al 2015 A série utilizada para estimação portanto compreende o intervalo de janeiro de 2002 a fevereiro de 2024 como apresentado na Figura 2 Figura 2 Série de treino do Índice de Produção de Bens de Consumo jan2002 a fev2024 A Figura 2 mantém as características observadas na série original permitindo a análise e identificação de um modelo ajustado com base em dados históricos enquanto a porção final será utilizada posteriormente para avaliar o desempenho das previsões geradas 22 Função de Autocorrelação FAC e Autocorrelação Parcial FACP A Figura 3 apresenta a função de autocorrelação FAC e a função de autocorrelação parcial FACP ambas calculadas sobre a série de treino FAC e FACP indicam o grau de correlação entre os valores da série e seus valores passados em diferentes defasagens lags Essas ferramentas são amplamente utilizadas para identificar padrões de dependência temporal em séries Figura 3 Função de Autocorrelação FAC e a Função de Autocorrelação Parcial FACP A Figura 3 apresenta os gráficos da FAC e FACP da série em nível A FAC exibe um padrão de decaimento exponencial sugerindo que os efeitos das autocorrelações diminuem gradualmente à medida que o número de defasagens aumenta Esse comportamento é típico de uma estrutura autorregressiva indicando que os valores passados influenciam os presentes mas com intensidade decrescente ao longo do tempo Por outro lado a FACP apresenta um corte abrupto após a primeira defasagem lag 1 com significância apenas nesse primeiro ponto e ausência de significância nos demais Esse padrão é característico de um modelo autorregressivo de ordem 1 AR1 conforme descrito por Box Jenkins e Reinsel 2008 e sugere que a série pode ser bem representada por esse tipo de processo Ainda assim análises complementares como testes de estacionariedade são necessárias para confirmar essa estrutura 23 Decomposição da Série A decomposição da série temporal é apresentada na Figura 4 Foi utilizada a decomposição multiplicative separando a série nos componentes tendência sazonalidade e ruído Figura 4 Decomposição da Série Temporal Tendência Sazonalidade e Resíduo A decomposição confirma a presença de sazonalidade estável ao longo dos anos e uma tendência oscilante sem comportamento determinístico definido O componente de ruído parece não seguir um padrão específico como esperado em séries que possuem características de ruído branco A sazonalidade está alinhada com a estrutura de produção industrial do país que apresenta ciclos mensais recorrentes geralmente relacionados à demanda e ao calendário comercial 24 Testes de Estacionariedade A análise da estacionariedade ou também conhecido como o teste da raiz unitária foi realizada com base no Teste de DickeyFuller Aumentado ADF Esse teste verifica se a série possui raiz unitária sendo as seguintes hipóteses H 0δ0nãoestacionária H 1 δ 0estacionaria O resultado do teste com a série de treino foi Figura 5 Teste ADF com a série treino O teste ADF foi aplicado à série em nível e o pvalor obtido foi superior a 005 não permitindo a rejeição da hipótese nula ao nível de significância de 5 Isso indica que a série em seu formato original não é estacionária Foi então realizada a primeira diferenciação da série e o teste ADF reaplicado Figura 6 Teste ADF com a série após a primeira diferenciação Após a primeira diferenciação o pvalor passou a ser inferior a 005 permitindo rejeitar a hipótese nula o que indica que a série diferenciada é estacionária em primeira ordem ou seja integrada de ordem 1 Esse resultado valida o uso da estrutura ARIMA para o ajuste do modelo O gráfico da Figura 7 mostra a série estacionaria após a diferenciação Figura 7 Série temporal após a Diferenciação 3 Estimação A etapa de estimação tem como objetivo identificar a partir das características observadas da série os modelos ARIMA candidatos que melhor representam sua estrutura temporal De acordo com a metodologia BoxJenkins a seleção do modelo adequado considera a estacionariedade da série os padrões das funções de autocorrelação FAC e autocorrelação parcial FACP bem como os critérios de informação como o AIC Akaike Information Criterion e o BIC Bayesian Information Criterion Conforme verificado na etapa de identificação a série original não apresentou características de estacionariedade Dessa forma foi realizada uma diferenciação de ordem 1 sendo este o valor fixado para d em todos os modelos estimados A diferenciação é uma técnica que transforma uma série não estacionária em estacionária ao subtrair o valor atual do anterior permitindo a aplicação de modelos ARIMA Box et al 2008 Com a série diferenciada foram testados diferentes modelos ARIMAp d q incluindo combinações com componentes autorregressivos AR e de média móvel MA além de estruturas sazonais do tipo ARIMA pd q P D Q12 considerando a frequência mensal da série A avaliação da qualidade dos modelos candidatos foi feita por meio da comparação dos valores de AIC e BIC conforme sugerido por Burnham e Anderson 2002 A Tabela 1 apresenta os modelos candidatos estimados e os respectivos valores dos critérios de informação Tabela 1 Modelos ARIMA candidatos com seus valores de AIC e BIC MODELOS ESTIMATIVAS PVALOR AIC BIC ARIMA010 141192 14155 ARIMA110 AR1 00170 07823 141385 142101 ARIMA111 AR1 07421 MA1 08668 0 0 140321 141465 ARIMA211 AR1 07783 AR2 01209 MA1 08459 0 006179 0 140253 141685 ARIMA212 AR1 09867 AR2 02779 MA1 10573 MA2 01893 02279 06438 02092 07994 140439 142229 ARIMA111011 AR1 07321 MA1 08828 SMA1 09182 0 0 0 138409 139822 ARIMA111110 AR1 08113 MA1 09790 SAR1 04296 0 0 0 145563 146976 ARIMA211011 AR1 07605 AR2 01026 MA1 08454 SMA1 09313 0 0127 0 0 138382 140149 ARIMA211111 AR1 07642 AR2 01020 MA1 08489 SAR1 0452 SMA1 09559 0 01295 0 05416 0 138544 140664 ARIMA211210 AR1 08284 AR2 00547 MA1 09537 SAR1 05697 SAR2 02994 0 06365 0 0 0 143568 145688 Fonte Elaboração própria com os resultados do R Com base nos resultados apresentados na Tabela 1 é possível realizar uma análise comparativa entre os modelos ARIMA estimados levando em consideração os critérios de informação AIC e BIC a significância estatística dos parâmetros e a estrutura de cada modelo Inicialmente os modelos não sazonais como o ARIMA010 ARIMA110 ARIMA111 e ARIMA212 apresentam valores de AIC e BIC significativamente superiores aos modelos com componentes sazonais Por exemplo o ARIMA010 que representa um passeio aleatório simples apresentou AIC de 141192 sendo claramente inferior em termos de ajuste comparado aos demais O ARIMA111 e o ARIMA211 mostraram bons desempenhos em termos de AIC 140321 e 140253 respectivamente além de apresentarem parâmetros estatisticamente significantes pvalores próximos de zero o que indica que a inclusão de termos autorregressivos e de média móvel contribui para melhorar o ajuste da série Entretanto ao incluir a sazonalidade no modelo observase uma melhora substancial no ajuste O modelo ARIMA111011 reduziu o AIC para 138409 e o BIC para 139822 com todos os parâmetros estatisticamente significantes sugerindo um bom ajuste e capacidade explicativa da sazonalidade presente na série Modelos mais complexos como o ARIMA211011 e o ARIMA211111 apresentam AIC ainda menor 138382 e 138544 respectivamente indicando leve superioridade na qualidade do ajuste Contudo o aumento da complexidade estrutural com maior número de parâmetros refletese no aumento do BIC que penaliza modelos mais parametrizados Além disso no modelo ARIMA211011 o parâmetro AR2 tem pvalor de 0127 não sendo estatisticamente significativo ao nível de 5 o que sugere que ele pode ser descartado O modelo ARIMA111110 apesar de contar com todos os parâmetros significativos apresentou o maior AIC da tabela de 145563 entre os modelos sazonais sendo descartado por pior desempenho preditivo Por fim o modelo ARIMA211 210 embora tenha parâmetros significativos apresenta um AIC de 143568 consideravelmente maior que os modelos com estrutura mais simples sem ganhos substanciais de desempenho que justifiquem sua complexidade Pode se concluir que o modelo ARIMA211011 se destaca por apresentar o menor valor de AIC 138382 entre todos os modelos avaliados aliado a um bom desempenho do BIC 140149 e parâmetros majoritariamente significativos Esse modelo captura tanto a dependência temporal quanto a estrutura sazonal da série sendo o mais indicado para representar os dados observados É importante destacar que a ordem de diferenciação d1 e D1 foi mantida em todos os modelos em função da identificação da série como não estacionária sendo necessário aplicar uma diferença regular e uma diferença sazonal para estabilizar a média ao longo do tempo BOX et al 2008 4 Verificação do Modelo A etapa de verificação é essencial no processo de modelagem segundo a metodologia BoxJenkins pois permite avaliar se o modelo ajustado atende aos pressupostos estatísticos necessários para garantir previsões confiáveis Neste contexto a análise de resíduos é utilizada para verificar a estabilidade dos parâmetros estimados a ausência de autocorrelação a constância da variância homocedasticidade e a normalidade da distribuição dos erros Para isso foram aplicados os seguintes testes análise das raízes do polinômio característico para estabilidade o teste de LjungBox autocorrelação o teste ARCH heterocedasticidade e os testes de normalidade de ShapiroWilk e Jarque Bera 41 Estabilidade dos Parâmetros A estabilidade dos parâmetros estimados ao longo do tempo é fundamental para garantir que o modelo mantenha sua capacidade preditiva mesmo em diferentes períodos Para essa verificação foi utilizado o gráfico das raízes do polinômio autoregressivo e de médias móveis apresentado na Figura 8 A presença das raízes dentro do círculo unitário indica que o modelo é estável Figura 8 Gráfico das raízes do modelo ARIMA211011 A análise gráfica da Figura 8 mostra que todas as raízes associadas aos parâmetros AR e MA estão dentro do círculo unitário o que evidencia que o modelo é estável e adequado para fins de previsão 42 Normalidade dos Resíduos A verificação da normalidade dos resíduos é fundamental uma vez que esse pressuposto sustenta diversos testes inferenciais e é crucial para a construção de intervalos de confiança e previsões com margem de erro confiável Para essa análise foram aplicados os testes de ShapiroWilk e JarqueBera além de representações gráficas como histogramas e a curva de densidade que auxiliam na inspeção visual da distribuição dos resíduos As hipóteses dos testes são H 0Osresíduos seguemuma distribuiçãonormal H 1Osresíduos nãoseguemuma distribuiçãonormal O gráfico da Figura 9 trás o histograma e a curva de densidades dos resíduos do modelo selecionado Figura 9 Histograma e curva de densidade dos resíduos do modelo Conforme observado na Figura 9 a distribuição dos resíduos apresenta uma forma simétrica e concentrada em torno de zero sugerindo aderência a uma distribuição gaussiana com média nula Para corroborar essa evidência visual a Tabela 2 apresenta os resultados dos testes formais de normalidade aplicados aos resíduos Tabela 2 Resultados dos testes de normalidade TESTE ESTATÍSTICA PVALOR ShapiroWilk 097344 0127 JarqueBera 38211 0148 Fonte Elaboração própria Os resultados dos testes apresentados na Tabela 2 mostra que os pvalores dos testes foram superiores a 5 o que indica que não há evidência estatística suficiente para rejeitar a hipótese nula de normalidade dos resíduos Essa conclusão é reforçada pela forma aproximadamente simétrica do histograma sugerindo que os resíduos seguem de fato uma distribuição aproximadamente normal 43 Heterocedasticidade dos Resíduos A verificação da homocedasticidade ou seja a constância da variância dos resíduos ao longo do tempo é essencial para garantir a robustez das estimativas e a confiabilidade do modelo Para isso foi utilizado o teste ARCH que tem como hipóteses H 0 Homocedasticidadedosresíduos H 1 Heterocedasticidadedos resíduos O pvalor obtido para o teste ARCH foi 038 que é significativamente superior ao nível de significância de 5 Dessa forma não rejeitamos a hipótese nula o que indica que não há evidências de heterocedasticidade condicional nos resíduos Assim o modelo ARIMA211011 atende ao pressuposto de variância constante ao longo do tempo permitindo garantir a estabilidade dos resultados para futuras previsões 44 Autocorrelação dos Resíduos A ausência de autocorrelação serial nos resíduos é outra condição importante para validar a qualidade do modelo Foi aplicado o teste de LjungBox que avalia se há autocorrelação significativa para diferentes defasagens as hipóteses do teste são H 0 Nãohá autocorrelaçãodosresíduos H 1 Há autocorrelaçãodosresíduos A Tabela 3 mostra o pvalores do teste para diferentes níveis de defasagem Tabela 3 Teste de LjungBox para diferentes lags LAG PVALOR 12 05514 24 009951 36 01923 48 0231 Fonte Elaboração própria Os resultados indicam que para os quatro níveis de defasagem analisados os resíduos não apresentam autocorrelação estatisticamente significativa validando a adequação do modelo também nesse critério 45 Conclusão Após a aplicação dos testes de estabilidade normalidade homocedasticidade e autocorrelação constatouse que o modelo ARIMA211011 apresenta um comportamento satisfatório dos resíduos Todas as suposições básicas foram atendidas confirmando que o modelo é estatisticamente consistente e adequado para previsão da série temporal analisada 5 Previsões Após a validação do modelo ARIMA211011 por meio dos testes de estabilidade normalidade ausência de heterocedasticidade e autocorrelação dos resíduos procedese à etapa de previsão a qual tem como principal objetivo fornecer estimativas futuras da série temporal com base em seu comportamento histórico A capacidade preditiva de um modelo é uma das suas características mais relevantes sobretudo em contextos em que decisões dependem de projeções acuradas A previsão foi realizada para os próximos 12 períodos compatível com a estrutura sazonal anual detectada na série A Figura 10 apresenta os valores previstos juntamente com os intervalos de confiança de 95 representando a margem de incerteza associada às estimativas Figura 10 Previsão para os próximos 12 meses com intervalo de confiança de 95 Como parte da estratégia de validação foram previamente retiradas as últimas 12 observações da série original formando uma amostra de teste que não foi utilizada na estimação do modelo Essas observações reais agora serão comparadas com os valores previstos gerados pelo modelo ARIMA211011 a fim de avaliar sua capacidade preditiva em dados futuros A Figura 11 a seguir apresenta essa comparação gráfica entre os valores reais observados e os valores previstos permitindo visualizar a proximidade entre as duas séries Já a Tabela 4 mostra os valores numéricos correspondentes Figura 11 Comparação entre valores reais e previstos para os últimos 12 períodos Tabela 4 Valores reais vs previstos 12 meses de teste MÊS REAL PREVISTO Março 1050924 1029305 Abril 1053697 1014720 Maio 1027246 1008857 Junho 1098661 1021630 Julho 1068321 1030662 Agosto 1072395 1030892 Setembro 1071427 1030175 Outubro 1062781 1035815 Novembro 1044732 1033553 Dezembro 1014540 1034506 Janeiro 1050072 1037888 Fevereiro 1035941 1038091 Fonte Elaboração Própria Para avaliar a qualidade das previsões do modelo ARIMA211011 foram calculadas três métricas principais o Erro Médio Absoluto MAE o Erro Quadrático Médio RMSE e o Erro Percentual Absoluto Médio MAPE O MAE foi de 29073 o que indica que em média as previsões estão a cerca de 291 unidades de distância dos valores reais O RMSE com valor de 34767 reflete a magnitude média do erro quadrático enquanto o MAPE que foi de 273 indica que as previsões apresentaram um erro percentual médio de 273 Esses valores sugerem que o modelo obteve um desempenho satisfatório com previsões muito próximas dos valores reais observados O desempenho do modelo com erros dentro de uma margem aceitável confirma a sua eficácia para prever os próximos períodos em uma análise preditiva 6 Referências Box G E P Jenkins G M Reinsel G C Ljung G M 2015 Time Series Analysis Forecasting and Control Wiley BOX G E P JENKINS G M REINSEL G C Time Series Analysis Forecasting and Control 4 ed Hoboken Wiley 2008 Hyndman R J Athanasopoulos G 2018 Forecasting Principles and Practice OTexts IBGE Instituto Brasileiro de Geografia e Estatística Pesquisa Industrial Mensal Produção Física PIMPF Disponível em httpswwwibgegovbr 7 Código TRABALHO DE ECONOMETRIA Carregando os pacotes libraryforecast librarydygraphs librarystats librarystatsr libraryreadxl libraryurca librarytseries librarylmtest libraryFinTS Dados dados readexcelCUsersDownloadsserieconsumoxlsx attachdados Transformando os dados em uma série temporal consumo tsBensConsumo start c2002 1 frequency 12 plotconsumomainSérie Temporal de Bens e ConsumoxlabPeríodo ylabConsumo dygraphdata consumo main Série Temporal de Bens e Consumo xlab Mês ylab Separando treino consumo1266 z tstreino start c20021 frequency 12 plotzmainSérie Temporal de Bens e ConsumoxlabPeríodo ylabConsumo teste consumo267278 teste tsteste start c20243 frequency 12 plotteste ACF e PACF parmfrowc21 acfz mainACF da série Bens de Consumo pacfz mainPACF da série Bens de Consumo Decomposição da série plotdecomposezmultiplicative Teste da raiz Unitária Estacionariedade adftestz Primeira Diferenciação z1 diffz parmfrowc11 plotz1 mainSérie Temporal de Bens e Consumo após a DiferenciaçãoxlabPeríodo ylabConsumo adftestz1 Modelos de teste m1 Arimaz order c0 1 0 seasonal c0 0 0 m1 m2 Arimaz order c1 1 0 seasonal c0 0 0 m2 m3 Arimaz order c1 1 1 seasonal c0 0 0 m3 m4 Arimaz order c2 1 1 seasonal c0 0 0 m4 m5 Arimaz order c2 1 2 seasonal c0 0 0 m5 m6 Arimaz order c1 1 1 seasonal c0 1 1 m6 m7 Arimaz order c1 1 1 seasonal c1 1 0 m7 m8 Arimaz order c2 1 1 seasonal c0 1 1 m8 m9 Arimaz order c2 1 1 seasonal c1 1 1 m9 m10 Arimaz order c2 1 1 seasonal c2 1 0 m10 coeftestm2 coeftestm3 coeftestm4 coeftestm5 coeftestm6 coeftestm7 coeftestm8 coeftestm9 coeftestm10 Modelo selecionado modelo m8 Teste de estabilidade autoplotmodelo Teste de normalidade residuos modeloresiduals histresiduos probability TRUE col greenmain Histograma e Curva de Densidade dos Resíduos xlab Resíduos border white linesdensityresiduos col blue lwd 2 curvednormx mean meanresiduos sd sdresiduoscol red lwd 2 lty 2 add TRUE legendtopright legend cDensidade Empírica Normal Teóricacol cblue red lwd 2 lty c1 2 shapirotestresiduos jarqueberatestresiduos Teste de Heterocedasticidade ArchTestresiduos Teste de Autocorrelação Boxtestresiduos lag 12 type LjungBox Boxtestresiduos lag 24 type LjungBox Boxtestresiduos lag 36 type LjungBox Boxtestresiduos lag 48 type LjungBox Previsão previsao forecastmodelo h12 level95 previsao autoplotprevisao plotteste type l col blue lwd 2xlab Tempo ylab Valor main Reais vs Previstos linesprevisaomean col red lwd 2 lty 2 legendtopleft legend cReais Previstoscol cblue red lty c1 2 lwd 2 teste mae meanabsteste previsaomean mae rmse sqrtmeanteste previsaomean2 rmse mape meanabsteste previsaomeanteste 100 mape

Sua Nova Sala de Aula

Sua Nova Sala de Aula

Empresa

Central de ajuda Contato Blog

Legal

Termos de uso Política de privacidade Política de cookies Código de honra

Baixe o app

4,8
(35.000 avaliações)
© 2025 Meu Guru®